اوبر مفتوحة المصدر AI البصرية أداة التصحيح المنوع، 2 سير العمل جعل الحوسبة مرات الأداء

شبكة لى فنغ من قبل المطورين AI: في يناير من العام الماضي، أطلقت اوبر جهاز مستقل نموذج التعلم البصرية أداة التصحيح --Manifold، والذي يسمح نموذج عملية تكرارية هو أسهل من العمل، ويمكن أن توفر مزيد من المعلومات، وفي الوقت نفسه، يمكن أيضا أن تستخدم أداة لاوبر تحديد بعض المشاكل ونموذج التعلم الآلي.

وقال المسؤول ان معظم المطورين سوف تركز عادة على 20 من الأعمال الأولية لبناء على النموذج، في حين أن 80 من الطاقة المستخدمة لتحسين أداء النموذج، وهي تطوير نماذج تعلم آلة 20/80 قواعد التخصيص، الأمر الذي يعكس أيضا من الصعب تصحيح نموذج التعلم الآلي. ولذلك، من أجل السماح للمطورين الاستفادة بشكل أفضل المنوع تحقيق كفاءة عالية، وأعلن اوبر مؤخرا أنها سوف المنوع أفرج عن مشروع مفتوح المصدر.

التنمية الخلفية المنوع

تقليديا، والعلماء في تطوير نموذج البيانات، فإنها تستخدم النتيجة الإجمالية، على سبيل المثال: عدد من الخسائر في المنطقة تحت المنحنى (AUC) والخطأ المطلق يعني (MAE) لتقييم كل نموذج مرشح. وعلى الرغم من هذه المؤشرات توفر البيانات المرئية عن تنفيذ هذا النموذج، لكنهم لا يمكنهم التواصل حول سبب نموذج سوء التنفيذ والكثير من المعلومات كيفية تحسين أداء النموذج. وهكذا، بناة نموذج تميل إلى الاعتماد على التجربة والخطأ لتحديد كيفية تحسين هذا النموذج.

عدد من الخسائر:

المنطقة تحت المنحنى:

https://stats.stackexchange.com/questions/132777/what-does-auc-stand-for-and-what-is-it

متوسط الخطأ المطلق:

https://en.wikipedia.org/wiki/Mean_absolute_error

من أجل جعل نموذج عملية تكرارية أكثر التشغيلية، وتكون قادرة على توفير مزيد من المعلومات، جاء المنوع الى حيز الوجود، بل هو أداة بصرية لتشخيص الأداء وآلة نموذج التعلم من أجل التصحيح. متعددة هي أدوات مستقل على شبكة الإنترنت وحزمة بيثون، الذي لديه ثلاث مزايا رئيسية:

  • نموذج مستقل.

  • التحليل البصري لتقييم الأداء النموذج، إلى ما بعد أداء إحصاءات موجزة نموذج، من أجل تحسين دقة.

  • نظام تحليل البصري والقدرة على فصل من تدريب النموذج القياسي محسوبة لمساعدة أسرع وتطوير نموذج أكثر مرونة.

المصدر: اوبر

استخدام المنوع تحليل البصرية آلة تكنولوجيا التعليم تسمح للمطورين ليتجاوز فرعية كشف مؤشر العامة للنموذج البيانات لا يمكن التنبؤ بدقة، بل أيضا ميزات التي وزعتها الخلافات كاشفة بين الخير والشر فرعية أداء البيانات لتوضيح أداء نموذج الأسباب الكامنة وراء الفقراء.

بالإضافة إلى ذلك، قد يتم عرض لكل فرعية البيانات، سوف تكون هناك اختلافات في بعض النماذج مرشح كيف دقة التنبؤ، لتوفير البيانات لعدد من معالجة رفيع المستوى وفقا لل(على سبيل المثال، النموذج المتكامل).

التصميم المرئي

مع تعلم الآلة على نحو متزايد جزءا لا يتجزأ من الأعمال ذات الصلة، وتوفير نموذج أكثر شفافية وسهلة الفهم أداة يصبح أكثر أهمية، تسمح هذه الأداة للمطورين بثقة التنبؤ ولدت بحرية باستخدام آلة التعلم. ومع ذلك، النظر في نموذج التعلم الجهاز هو الأساس وتعقيد مبهمة مطلوبا من التصور تعلم الآلة الناشئة على حل هذه المشكلة.

ويضم تعلم الآلة طريقة التصور السابق عموما: رؤية مباشرة من الهياكل الداخلية، أو من قبل المعلمات نموذج الخوارزمية الأساسية والقيود التصميم، وهذا لا يجوز تمديدها أن يؤدي في حالة استخدام المشتركة يمكن التعامل معها في نطاق أوسع.

المصدر: اوبر

ولمواجهة هذا التحدي، المنوع في تصميم نماذج التعلم الآلي في وقت مبكر تأخذ بعين الاعتبار هذه الخدمة، ونبدأ من البداية للنماذج التصنيف والانحدار، بل يجعل أيضا أداة يمكن تطوير السوداء التي وزعتها الخلافات كاشفة بين خصائص آلة فرعية بيانات نماذج التعلم يوفر مربع قدر أكبر من الشفافية.

وفي الوقت نفسه، مع تصميم والتطوير المنوع أيضا تخريب النموذج البصري التقليدي للتعلم الآلة، لا حاجة للتحقق من نموذج، ولكن التحقق من نقاط البيانات الفردية مباشرة بالطرق التالية:

  • كيفية التعرف على شرائح بيانات الأداء نموذج الأثر، وتؤثر على أداء نموذج البيانات؛

  • حيث شرائح بيانات التقييم البلمرة من أجل تحديد بعض الأسباب وراء نموذج السلوك.

مصمم سير العمل

وتضم واجهة متعددة قسمين، وهما خصائص الأداء والخصائص وجهات النظر رأي المقارنة. حيث وجهة نظر مقارنة الأداء، من خلال معدد من FIG المشفرة مع تكوين الكمان، لمقارنة الأداء بين النموذج والجزء البيانات؛

المنوع عرض مقارنة أداء المشفرة بصريا x و y محاور تكوين اللون، يمثل المحور س الأداء المحددة من قبل المستخدم، بينما يمثل المحور ص مقطع البيانات، ونموذج تمثيل الألوان. ارتفاع منحنى يظهر أداء كل نموذج على توزيع مصدر كل مقطع البيانات: اوبر

وعرض الخصائص المميزة، شكلت من قبل اثنين من الرسم البياني التوزيع المميز للالميزة المحددة المقارنة بين اثنين من شرائح البيانات.

عرض خصائص تضم البصرية ميزة الترميز على محور س (مجموعة قيمة مميزة)، والمحور الصادي (عدد نقاط البيانات) واللون (مجموعة الشريحة). مصدر ميزة الفرز وفقا لتوزيع الفرق بين مجموعتين من شرائح البيانات: اوبر

المنوع المستخدمين نموذج مساعدة في العثور على مجالات التحسين من خلال الخطوات الثلاث التالية:

  • المقارنة الأولى، والبيانات الواردة تعيين وجود واحد أو أكثر إخراج نموذج التعلم الآلي، والمنوع ومقارنة أداء الفرق بين نموذج عرض الإسقاط، أو مجموعات فرعية من البيانات.

  • هذه الخطوة تسمح للمستخدم لاختيار فرعية بيانات شريحة من الفائدة لمزيد من التفتيش وفقا لنماذج الأداء.

  • خصائص وميزات تسليط الضوء المنوع بين فرعية مختارة من الفرق توزيع البيانات، لمساعدة المستخدمين على العثور على السبب وراء نتائج الأداء.

هذا التصور يظهر مساحة بيانات الأداء نموذج أولي، كل مصادر نقطة البيانات وفقا للقيمة المواقع الأداء (محور س) وفيه ميزة (المحور الصادي): اوبر

المطورين تريد أن تظهر بصريا نموذج أولي الفضاء بيانات الأداء، يتم وضع كل نقطة البيانات وفقا للقيم الأداء (محور س) وفيه ميزة (المحور الصادي)، ولكن هناك ثلاثة التحدي الرئيسي لهذا النهج:

  • هناك نقاط كثيرة جدا، لا يمكن التعرف بوضوح نمط، وضع يحتاج إلى سحب أو تقليص نقطة الإفصاح.

  • من الصعب تحديد الميزات هي الأكثر قيمة في المحور ص، من أجل تحديد أنماط ذات الصلة؛

  • كما يصبح عدد من النماذج من الصعب المقارنة بين النماذج المختلفة.

من أجل حل هذه المشاكل في وقت مبكر، وعدد من المطورين لتنفيذ عمليات البلمرة / تبسيط، وهي: لا يمثل نقطة بيانات واحدة لكل منهما، لكنها تشكل فرعية. وفي تطور، بدون قيمة سمة محددة يتم ترميز باستخدام المحور الصادي، ولكن استخدام مجموعة فرعية مختلفة من البيانات التي تمثل محور الفئة. طريقة تطورت مخططات أداء في نهاية المطاف، واثنين من مزايا هامة:

  • إلى حد كبير لن يتكرر نقاط البيانات مماثلة على الرسم البياني، سلط الضوء فقط على أهم الفروق مستوى مرتفع؛

  • الأشكال المختلفة بسبب خفض عدد من الرسم البياني، ونماذج مختلفة يمكن استخلاصها في نفس الرسم البياني، لمقارنة أفضل؛

يتم عرض وضع رئيسيا في "مقارنة الأداء" أداة عرض، وتنقسم مجموعة بيانات الاختبار إلى مجموعات فرعية. ويستند متعددة في فرعية على واحد أو أكثر تجميع يتم إنشاء الخصائص تلقائيا، على كل نموذج، مع تعيين بيانات أداء مماثل لنفس المجموعة (كما يضمن خوارزمية أن أداء لنموذج فرعي X Y مجموعة مختلفة من نقاط البيانات هو نفسه). ويوضح الشكل التالي هذه العملية هي:

جميع نقاط البيانات التي تم جمعها من كل نموذج، وتعطى قياس الأداء وفقا للمصدر الفعلي للتقييم: اوبر

اليسار: مؤشرات الأداء كما خوارزمية التجميع التي تعمل في المنوع من المدخلات. الصحيح: يمكن للمستخدم ضبط المعلمات من الكتلة لاستكشاف وضع مجموعة البيانات المصدر: اوبر

المنوع العمارة

نظرا لتشكيل التصور المنوع ينطوي على بعض الحساب العددي المكثف (المجموعات، KL الاختلاف)، وعدم أداء الحسابية سوف تبطئ عملية تقديم واجهة المستخدم يؤثر على تجربة المستخدم بأكملها. وهكذا، المنوع باستخدام بيثون واستخدام معالجة DataFrame والمكتبات التعلم الآلي (مثل الباندا وScikit وتعلم) في الوزن الثقيل تنفيذ جميع العمليات الحسابية.

الباندا:

https://pandas.pydata.org/

Scikit وتعلم:

https://scikit-learn.org/stable/

ومع ذلك، ويرجع ذلك إلى الخلفية سوف يقلل من الاعتماد بيثون المنوع المرونة من الصعب تحقيق على أساس العنصر، الذي أصبح يشكل عائقا عند تكامل النظام البيئي التعلم في المنوع وآلات العمل. وهكذا، بالإضافة إلى حساب بيثون، مسرعات GPU أضافت المنوع سير العمل المستخدم الثاني، مسرع GPU أكثر مرونة في الحصول جافا سكريبت. الشكل التالي يبين كيف أن اثنين من عملية سير العمل والمنوع متكاملة:

يتكون متعددة من ثلاثة أجزاء متميزة: مصادر البيانات، ومصادر الخلفية وينتهي الأمامية: لاوبر

متعددة يمكن استخدامها من قبل المستخدم بطريقتين، هما: من خلال حزمة الآلية الوقائية الوطنية بيثون أو حزم (عبر الإنترنت). منذ إعادة استخدام رمز ونمطية اثنين من التعايش سير العمل النقدي، وبالتالي، بيثون، ويتم تنظيم القاعدة شفرة جافا سكريبت إلى ثلاث وحدات وظيفية مختلفة:

  • يتم تحويل شكل تحويل البيانات ومن الخدمات الداخلية الأخرى (على سبيل المثال، مايكل أنجلو) إلى تنسيق البيانات الداخلية المنوع الوظيفية؛

  • محرك الحساب، وتعمل في تجميع المسؤول وغيرها من وظائف الحوسبة المكثفة البيانات؛

  • عنصر الأمامية، المنوع نظام تحليل البصري (الذي يستخدم المدمج في المكونات نسخة بايثون حزمة جافا سكريبت الجبهة النهاية) واجهة المستخدم.

مقارنة مع بيثون، وجافا سكريبت معالجة الحوسبة البيانات المكثفة لمحرك حساب هو التحدي. من أجل السماح للمطورين لرؤية أنماط ذات معنى، ونحن بحاجة لحساب سجلات البيانات 10000 ( "الصف") حول. ومن بين العمليات الأخرى، وكتلة احتياجات الحوسبة الاختلاف KL أن تكون في الواجهة الأمامية، والتي قد تتسبب في اختناق السرعة. وفقا لنتائج الاختبار، وعندما يكون عدد من العناقيد في المطور في مقارنة أداء عرض التحديث، الحساب باستخدام تطبيق جافا سكريبت النقي قد تتطلب أكثر من 10 ثانية من الوقت.

ولذلك، فإننا TensorFlow.js عملي في مكتبة الجبر الخطي لتحقيق هدفنا، وسائل ك تجميع ومتباينة الحوسبة KL. لأن هذا النوع من الحساب يمكن vectorized، بحيث تسارع تقنية WebGL يمكن استخدامها، بحيث التحديث من عدد من مجموعات من نفس المهمة يمكن أن تكتمل في أقل من ثانية واحدة من الوقت، أكثر من 100 أضعاف الأداء الأصلي.

بواسطة تجميع الآلية الوقائية الوطنية وتضمينها في الحزمة، وتحسين مرونة المنوع، سواء كخدمة مستقلة، قد تكون متكاملة في نظم التعلم آلة أخرى (على سبيل المثال، مايكل أنجلو) في.

لأن معظم أدوات التصوير لتعلم الآلة تتطلب المعالجة الحسابية إضافي، قوة الحوسبة من هذا النموذج مع نهاية الخلفي من التدريب، بحيث تتكامل مع أنظمة التعلم آلة أخرى معا يمكن أن تكون معقدة ولا يمكن تمديدها. المنوع اقتراح حل لهذه القضية، وحساب نموذج التدريب المعالجة المطلوبة بشكل منفصل في نظام تحليل البصري، فإنه يمكن القيام بها بشكل أسرع التكرارات، وكان أكثر بسيطة وبديهية واجهة البيانات.

ميزات متعددة والتحديثات

في أول نسخة مفتوحة المصدر من المنوع وأضاف اوبر ميزات مختلفة لجعل النموذج أسهل لتصحيح من التكرار الداخلي. ميزة النسخة 1 ما يلي:

  • العالمي تصنيف ثنائي والدعم التصحيح نموذج الانحدار الاستقلال. المطورين سوف تكون قادرة على تحليل ومقارنة أنواع مختلفة من خوارزميات نموذج، وتمكينهم من التمييز بين أداء مختلف شريحة البيانات.

  • أدخل يضم الجدول دعم البصرية، بما في ذلك الرقمية، وفئة ميزة الجغرافية المكانية والنوع. كل شريحة البيانات باستخدام توزيع المعلومات القيمة الميزة، يمكن للمستخدم فهم أفضل لبعض الأسباب الكامنة وراء مشاكل الأداء، على سبيل المثال، ما إذا كانت هناك علاقة بين الموقع وتوزيع نقاط البيانات التنبؤ فقدان نموذجها.

وتشمل ترقية المتعددة مصادر بصرية جديدة لدعم الميزات الجغرافية المكانية: اوبر

  • التكامل مع Jupyter المحمول. وجوه متعددة الباندا DataFrame قبول وإدخال البيانات، وتقديم تصور البيانات في Jupyter. منذ Jupyter العلماء بيانات أجهزة الكمبيوتر المحمول والمهندسين استخدام آلة التعلم واحدة من الأكثر استخداما على نطاق واسع منبر العلوم البيانات، وهذا التكامل يسمح للمستخدمين لتكون قادرة على تحليل نماذج من دون انقطاع سير العمل العادي.

المنوع مفكرة Jupyter متكاملة الباندا DataFrame استعرض إدخال البيانات ككائن، وتقديم المؤثرات البصرية من مصدر UI المحمول Jupyter: اوبر

  • مقارنة الخسائر المتوقعة والقيم المميزة الأخرى على أساس كل حالة على شريحة البيانات والأداء التفاعلي. سوف يكون المستخدم قادرا على شريحة الاستعلام البيانات وفقا لخصائص وفقدان توقع أن الإشارة الحقيقة (أرضى الحقيقة)، أو غيرها من الأطراف المعنية. وهذه الميزة تسمح للمستخدم للتحقق بسرعة أو رفض الفرضية التي من خلال شريحة البيانات المنطقية المشتركة.

حاليا، المنوع نسخة مفتوحة المصدر يوفر إصدار حزمة الآلية الوقائية الوطنية، وللربط Jupyter المحمول، توفر حزمة نسخة بايثون. للبدء المنوع، اتبع عمليات الريبو جيثب في وثائق وتركيبها محليا، أو لعرض موقع تجريبي اوبر.

العنوان الأصلي:

https://eng.uber.com/manifold-open-source/

تفاصيل متعددة:

https://eng.uber.com/manifold/

المنوع عنوان الورقة:

https://arxiv.org/pdf/1808.00196.pdf

شبكة لى فنغ لى فنغ AI شبكة مطوري

تأسست 21 عاما، والقيمة السوقية للكسر تريليون، وجوجل لماذا؟

Mobileye في الكبير "موكب" | CES 2020

لماذا كنت في حاجة الى المعالج المحمول أكثر قوة منظمة العفو الدولية؟

الصين المصدر المفتوح لمدة 20 عاما، من التسول إلى الرصاص

40 يوان لشراء تكييف الهواء يوان ألف، عانى Jingdong الأحداث الصوف المشبوهة وجمع آخر؛ وقد FBI مقفلة بنجاح فون، بعثة الولايات المتحدة حاليا الطوارئ سيارة أجرة "تاكسي أشكر رسوم" | لى فنغ الصباح

فخ اختصاصي: مواهب المركبة مثل ليوناردو دا فينشي، اليوم سيكون الوقت المناسب؟

هندسي الشكل C مقطورة الافراج عن مسؤول معامل السحب من Cd0.273 فقط

محطة المعلومات | سماح ثلاث دقائق في الذاكرة إلى الأبد! وجبة واحدة من تسديدة تحيي الشهداء العدوى

أول مدرسة تجريبية الموظفين يانغشين المدرسة الابتدائية والطلاب للمشاركة في حداد وطني على الانترنت

التقرير الأسبوعي للاستثمار الصناعي المحتمل رقم 5: تشجيانغ تعلن عن خطة عمل لتعزيز التنمية المتكاملة لدلتا نهر اليانغتسي

جوجل GAN منح براءات الاختراع، ومجموعة من شبكة التدريب على القتال في الحقيبة

"الطبيعة" إن أحدث الأبحاث: يتم توزيع توجد آلية تعزيز التعلم في الدماغ