المصدر المفتوح إطار الشبكة العصبية Caffe2 وصف كامل

مذكرة لى فنغ الشبكة: صاحب البلاغ وو يى مينغ، وتنظيم المحاضرات من الكتاب في GTC الصين 2017 المؤتمر، الحلقة الأولى في المقالة البلاغ تعرف تقريبا، أذن إطلاق شبكة لى فنغ له.

وأنا شخصيا أعتقد أن هذا هو تقاسم قيمتها جدا من المعلومات، للأسباب التالية:

ينبغي أن يكون هذا أول مرة لشرح كامل خطاب Caffe2 الصينية والتطبيقات FB AI
مشاهدة هذا الكلام لا يحتاج إلى تعلم آلة / الشبكات العصبية، وحتى الأساس لعلوم الكمبيوتر. وهي مناسبة لكل شخص يرغب في معرفة المزيد عن الذكاء الاصطناعي والشبكات العصبية وCaffe2 من.
وأنا على استعداد لفترة طويلة! (ها ها ها ها هذا هو السبب الرئيسي، ولكن لأول مرة على خشبة المسرح كان عصبيا جدا

قبل مشاهدة الفيديو قد تحتاج الى الالتفات الى النقاط التالية:

تفسير الفيديو من مختلف حقوق الملكية المملوكة من قبل جميع NVIDIA جميع
هذا العرض مجرد الحديث عن بعض وجهات النظر الخاصة بي، وليس له علاقة FB شيء
يقول لي الكلام والفيديو قد يكون هناك بعض التناقضات. في بعض الأماكن من أجل تمكين أفضل لنا أن نفهم، فعلت تفسيري الخاص. قد يكون خطاب بعض الأماكن أنا كسول جدا للكتابة، ولكن قلت في الخطاب السياسي. وأنا أفهم أنه في بعض الأماكن لأن ليس بما فيه الكفاية مباشرة مخطئة. وهناك كل انواع من الأخطاء المطبعية. هذه هي مرحبا بكم في تصحيح لي، والتعلم من بعضهم البعض.

وفيما يلي نص الخطاب:

مرحبا بالجميع اسمي وو يى مينغ. أنا من مجموعة الفيسبوك Caffe2.

قبل بدء الكلام، أريد أن أعطي الجميع لمشاهدة عرض. هذا هو تلقائيا تحويل الصور ومقاطع الفيديو لإتقان أسلوب فن خوارزمية الشبكة العصبية. قبل في حوالي عامين عندما نشرت للتو وقت معالجة الصور واحد يتطلب المستوى الثاني على الخادم. حتى الآن، وقد فعلنا بنجاح في الوقت الحقيقي تحويل نمط الفيديو. ليس فقط في الوقت الحقيقي، وجهود زملائنا، ونحن أيضا القيام بعمليات حسابية في تنفيذ نهاية الهاتف المحمول محليا. هذا بالمقارنة مع السابق، كانت هناك كفاءة بأوامر من تحسين الحجم.

اليوم، وأود أن أقول لكم على وشك السماح لها أن تصبح حقيقة واقعة، وستنشر AI خوارزمية الشبكة العصبية لمنتجات الإطار: Caffe2.

Caffe2 هو:

يؤطر خفيفة الوزن خوارزمية التعلم عمق
caffe2 مستوى المنتج الرئيسي التعلم العميق تصميم خوارزمية
هل الكثير من الوقت الحقيقي الحوسبة الأمثل لنهاية المحمول
وفي الوقت نفسه دعم واسع النطاق وزعت الحوسبة
Caffe2 هو الإطار عبر منصة

دعم نهاية النقالة دائرة الرقابة الداخلية، الروبوت، من جانب الخادم لينكس، ماك، ويندوز، وحتى بعض الأشياء الأجهزة مثل التوت بي، والمنصات نشر NVIDIA Jetson TX2

هنا، نحن في حاجة الى كسر. ما هو الإطار التعلم العميق؟ إذا كان في قبل خمس سنوات، وكنت حتى من الصعب استخدام هذه الكلمات الست والجمل. ما Caffe2 ذلك؟ سوف تقوم بسحب الزهور إلى القهوة؟ هذه المشاكل ناهيك عن المواطن العادي، العديد من شركات التكنولوجيا، بما في ذلك بعض من بلدي خبراء كبار السن والزملاء والإدارات الأخرى سيكون لها هذه الشكوك.

باختصار، من وجهة نظري فهم والتعلم العميق، كفرع من عملية تعلم الآلة هي وظيفة من العملات الأجنبية مثالية للبحث عن. وتمثل هذه الوظيفة البيانات من مدخلات العاشر لإخراج ذ المتوقع حدوث بعض الخرائط. في دراسة متعمقة، وهناك متعددة الوظائف المضافة. هنا يمكنك إدخال x هو بعض الصور، التي يمكن أن تكون الصوت، قد يكون بعض خطوط العرض العالية للناقلات المستخدمة. قد يوصى Y وظيفة الانتاج نظام التصنيف والترجمة لغة أخرى أو قرارات المركبات غير المأهولة على العملية الثانية القادمة.

التعلم العميق، وغيرها من خوارزميات منظمة العفو الدولية، لخلق قيمة للمجتمع، ولها الوقوع في المنتجات. في القطاع الصناعي، ونحن تدريب ونشر خوارزميات التعلم عميقة، ونحن عادة ما يكون على الروابط التالية

هل لديك بيانات
لديك نموذج
كنت ترغب في العثور على القطع الأثرية وظيفة العملات الأجنبية. محاكمة وإغلاق في هذه العملية، فإننا ندعو التدريب
قد تحتاج إلى نشر خوارزمية الشبكة العصبية الخاصة بك على العميل / الخادم / الأمور معدات / الأنظمة المدمجة المحمولة

حتى Caffe2 كإطار الشبكة العصبية يقدم نموذجا بالنسبة لك لبناء ونشر وتدريب وعبر منصة. باختصار، مرتبة كلها.

في تصميم وتطوير Caffe2، فإننا نعتقد أن إطارا جيدا من قبل الشبكة العصبية للصناعة منذ حجم اختبار يتطلب ما يلي:

الدعم للحصول على أحدث نموذج الحوسبة
التدريب الموزعة
نمطية عالية
الدعم عبر منصة
كفاءة عالية

اليوم أريد أن تظهر لك بعض الأمثلة من Caffe2. نحن نتحدث عن كيفية استخدام FB Caffe2 لبناء المنتجات AI لدينا.

في FB، ونحن نستخدم Caffe2 لبناء مجموعة كاملة من المنتجات AI والميزات، بما في ذلك

ذات الصلة رؤية الكمبيوتر
الترجمة الآلية
التعرف على الكلام
النظام الموصى بها

أولا، ومحطة Caffe2 المحمول

من بداية التصميم، وتعلق Caffe2 أهمية كبيرة لنشر الشبكات العصبية في محطة متنقلة. لقد تم تحسين أداء المحطة المتنقلة Caffe2، وضمان أن نتمكن من دعم مجموعة متنوعة من إطار الحوسبة المتنقلة. الآن بعد 15 عاما Caffe2 أساسا لتعظيم الاستفادة من النماذج، لكن النماذج تدعم بعد 13 عاما.

للحصول على مثال على دائرة الرقابة الداخلية والروبوت برنامج OpenGL جهاز مسرع المستخدمة هنا على الهاتف. من خلال جهودنا في محطة متنقلة، في الأصل على وحدة المعالجة المركزية قادرة على التعامل في خوارزمية الثانية 4، وGPU باستخدام الجانب الهاتف المحمول، وحققنا 24 إطارا في الثانية في تأثير + الثاني، لتحقيق التغييرات حساب الوقت الحقيقي.

ونحن نعمل مع كوالكوم على تسريع الشبكة العصبية مجهزة الأجهزة المحمولة كوالكوم نهاية رقاقة. وهذا مثال من نهاية المنقولة التعرف على الصور، ويمكن رؤية نهاية المنقولة، وليس فقط نمط تحويل الخوارزمية الشبكة العصبية، صورة خوارزمية تصنيف يمكن أن تفعل أكثر من الحسابات في الوقت الحقيقي.

وراء هذه الأمثلة هو أن ننهي المحمول الأمثل على مجموعة متنوعة من الأجهزة. على أجهزة أبل، ونحن أول بالكامل المعدنية، تم دمج API دائرة الرقابة الداخلية GPU بشكل كامل في نهاية الخلفي من الإطار. إذا كنت مطورا المحمول، وإعداد نموذج الخاصة بهم عن طريق الاتصال بالرقم بضعة أسطر، يمكنك جعل الشبكة العصبية الخاص بك وتشغيلها على GPU باستخدام أجهزة أبل.

استخدام Caffe2 نهاية النقالة تنفيذ GPU يمكن أن تجلب لتحسين الشبكة وتسريع استهلاك كبير للطاقة، كل هذا هو المصدر المفتوح.

على أجهزة الروبوت التي نستخدمها OpenGL باستخدام الجرافيك لتسريع تنفيذ الشبكات العصبية. بين لنا أن هناك مجموعة من الحوسبة تنفيذ برنامج OpenGL الأساسية القائمة على GPU. جدولة وحدة المعالجة المركزية فقط، دون الحاجة إلى معالجة البيانات.

عند نشر المنتج، وأحيانا المستخدم محطة الأجهزة المعدات يعتمد فقط على وحدة المعالجة المركزية. لدينا نيون (توسيع مجموعة التعليمات المتزامنة) تنفيذ وحدة المعالجة المركزية العمارة الذراع. نحن أيضا الحفاظ على مطوري المصادر المفتوحة الخاصة استدعاء CPU عالية الأداء مكتبة الحسابية NNPack. وسوف نفعل ضغط الملفات جمعت Caffe2 لإضافة AI لضمان أن المنتج الخاص بك لن تصبح عبئا على الفضاء.

الكل في الكل، ويوفر Caffe2 مجموعة من الانتقال من مستوى الدخول إلى الحل نشر الرئيسي.

أريد أن أشارك حالة أخرى من Caffe2 لدينا نظام الترجمة الآلية.

في منتجاتنا، لدينا أكثر من 20 مليون مستخدم من جميع أنحاء العالم. أنها توفر ترجمة ذات جودة عالية، بل هو مسألة معقدة للغاية. الرقم على اليسار هو مثال على الترجمة من اللغة الإنجليزية إلى اللغة التركية. ترجمة نصف سيئة العليا في اللغة الإنجليزية ليست بطلاقة. النصف السفلي من ترجمة جيدة. جودة مرئية الترجمة، أمر ضروري لدعم عدد من أنواع اللغة. في FB، إذا الصينية إلى الإنجليزية ومن الإنجليزية إلى الصينية عد ترجمة كلمات، كل يوم ونحن بحاجة إلى توفير أكثر من 2000 أنواع الترجمة. طلب الترجمة تجهيز 4500000000. اليوم، يمكننا أن نقول بكل فخر، كل هذا تحت الخوارزميات ويتم دعم الخدمات من قبل Caffe2.

في هذا المشروع كنا seq2seq نموذج LSTM مع الاهتمام. هذا هو الآن نموذج الترجمة الرائدة في هذه الصناعة.

نحن نستخدم Caffe2 القيام التدريب على نطاق واسع، وجميع من حساب المقابلة وقد الأمثل على GPU / وحدة المعالجة المركزية.

في هذه التحسينات، ومعظم تجدر الإشارة دينا الأمثل ذكرى الشبكة العصبية دورة. المتكررة وحدة الشبكة العصبية، ويسمى باللغة الإنجليزية الخليوي، غالبا ما تحتاج الانتاج الخاصة بها، وحلقة مدخلاتها. ولذلك، فإننا ندعو دورة. في عملية تحقيق الحقيقي، الذي هو مثل الوحدة نفسها نشرت مرات عديدة. هذا النموذج الحساب، بحيث دورات حساب الشبكة العصبية كبيرة. للتعامل مع 2000+ أنواع الترجمة الاتجاه، ولكن هناك حساب مقدار الزيادة في الحجم.

حساب الشبكة حلقة الأمثل هو في غاية الأهمية. Caffe2 توفير الشبكات العصبية المتكررة:

الذاكرة وحدة توسعة وإعادة استخدامها عند عملية عكس
المعلمات بدلا من معلمة المكانية الذاكرة جزء، عند الحاجة إعادة حساب
عرض خاص مزيد من الذاكرة نمط التنمية الإيجابي الأمثل الفضاء
ودورة وحدة شبكة متعددة الطبقات العصبية توسيع بعد أنها تشكل وحدة تشغيل مجموعة في الرسم البياني حساب. ونحن أداء هذه العمليات قدر الإمكان بطريقة قطري لتحقيق أقصى قدر ممكن التوازي.

بعد هذه التحسينات، نحن يتكرر لزيادة كفاءة الشبكة العصبية منتجاتنا بنسبة 2.5 مرات. وصلت إلى 20 مليون الاحتياجات التدريبية على مستوى المستخدمين والنشر.

المزيد من الجهود لتكون متحمسة هو أننا بدأت الشهر الماضي مفتوحة لدينا المتكررة دعم الشبكة العصبية. يمكن للمجتمع المصدر المفتوح والجميع هنا تبدأ Caffe2 لتحسين الشبكة العصبية الدراجات الخاصة بك. من الإطار نفسه، كان يدعو المحرك دورة Caffe2 تأثير يذكر على أداء الشبكة. تضم Caffe2 دعم التيار المتكررة وحدة الشبكة العصبية LSTM، مكثر التكامل LSTM (وهو داخل الخلية مع وحدة الضرب أكثر تعقيدا LSTM) ومع نماذج من الاهتمام. قبل إلى الذاكرة الأمثل وعندما ذكرت لاستخلاص الأمام، وكنا مفتوحة المصدر.

يرتبط أحد الأمثلة على الترجمة والتعرف على الكلام، في أف ب، والتطبيقات ذات الصلة صوت له هذه.

1. التعرف على الكلام التلقائي

وكما يوحي اسمها، هذه المهمة هي قطعة من إدخال الصوت، خرج يمكن أن يكون النص المقابل، يمكن أن يكون سلسلة من فظي وهلم جرا. يوفر Caffe2 يستخدم التعرف على الكلام التلقائي عادة جدا في وحدة LSTM اتجاهين، Caffe2 دعم CE وCTC هذه الخوارزميات اثنين، والأمثل لهم على السرعة. هاتين الطريقتين هي الآن الفرق بين ASR، التعرف على الكلام التلقائي وإخراج التسمية الرئيسية الحقيقية (الجملة الحقيقية).

2. خطاب التجميعي

التعرف على الكلام فقط التلقائي من الصوت إلى النص. تركيب الكلام من النص، والأصوات مثل بعض الاصطناعية صوت الكلام البشري. تركيب الكلام هو الآن مفيد عموما للشبكات العصبية متعدد الطبقات، LSTM مفيد تحقيق، مفيدا التفاف تنفيذ الشبكة العصبية. لدينا نموذج إنشاء طول الظهر متقطع الصوت، والتردد، وذروة الصوت الصوت التناظرية.

لدينا بعض التطبيقات على الأصوات الأخرى هنا بسبب الوقت، لا تفعل التي كثيرا.

حسنا، حتى الآن، لقد مرت علينا المثال FB يصف Caffe2 المنتشرة في نهاية الهاتف، بما في ذلك وحدة المعالجة المركزية نهاية المحمولة والهواتف النقالة ونهاية GPU الأمثل، وذلك لدعم أنواع مختلفة من نماذج من الأقل إلى الأعلى.

قدمنا لدينا معالجة اللغة الطبيعية، والتي هي نتيجة لدينا الترجمة الآلية. Caffe2 من الشبكة العصبية المتكررة لتفعل الكثير من التحسين، وصنع نماذج التدريب لدينا تخضع زيارة تستغرق يوما واحدا من مبلغ 4.5 مليار اختبار مستوى

قدمنا أيضا صوت في هذا المجال، بما في ذلك ASR، TTS تحقيق نماذج مختلفة، مشيرا إلى Caffe2 لنماذج مختلفة ودعم جيد.

ولكن بعد ذلك، أريد أن أشاطركم، وهو الصف الصناعية من أي احتياجات إطار التعلم آلة لمعالجة سيناريوهات - وزعت التدريب.

اسم هذا العمل، ودعا ImageNet في 1 ساعة، ويسمى الصينية 1 ساعة للطعن ImageNet كاملة. تم الانتهاء من هذا العمل التالية زملائنا معا.

ImageNet هو قاد جامعة ستانفورد من قبل المصدر المفتوح مجموعة بيانات الصورة الكبيرة. التحدي ImageNet هو كلاسيكي التحديات رؤية الكمبيوتر. في هذه المهمة، يتعين علينا القيام به نموذج تصنيف الصور، وهذا هو، وإعطائها صورة، وقال انه يحتاج ليقول لي انه كان القط أو الكلب أو طائرة أو قارب أو سيارة.

إذا كنت سرد بعض البيانات البسيطة:

1. استخدام الصورة السائدة نموذج اعتراف الحالي، صورة واحدة ربما لا 8000000000 الفاصلة العائمة الحوسبة

2. ImageNet بيانات ما يقرب من 1.2 مليون صورة

3. من أجل تدريب نموذجا للاعتراف الأكاديمي الآن، نحن بحاجة إلى وضع نحو 1.2 مليون صورة إلى نظرة على نموذج 100 مرة

4. إذا كنت تفعل حساب بسيطة، أنجزنا هذه الحاجة المهمة لاستخدام إكساء حسابات النقطة العائمة. كم إكساء يكون ذلك؟ حوالي 10 ^ 18 جيجا يجري ثلاثة. المهمة الحسابية، عظيم حقا.

في هذه المهمة، نحن بحاجة إلى أن يكون على كمية جيدة من أيام التدريب، مع ساعة واحدة من وقت التدريب قد انتهت. ونحن بالكامل إطار برنامج مفتوح المصدر، وعمق التعلم Caffe2، تزامن جدولة الشبكة مع شركائنا gloo مفتوحة المصدر، والأجهزة هو أنه يمكنك شراء نفيديا GPU الحصول عليها.

حسنا، نأتي من تعلم لتخبرنا عن هذه المهمة. نحن نريد أن نفعل تصنيف الصورة على ImgeNet-1K البيانات. هذه الصورة ImageNet-1K حيث كان هناك آلاف من الفئات. صورة واحدة فقط في كل مجموعة بيانات فئة التدريب، كما قلت من قبل، هناك 1.2 مليون الصور. تحقق من التركيز لديه 50،000 الصور. نحن في تعلم الآلة، فإننا سوف يأتي مع بعض البيانات كمجموعة التحقق من صحة منفصل لضبط بعض المعلمات من نموذج، أو ننظر مراقبة التدريب نموذج جيدة أو سيئة. ونحن بحاجة أيضا لتشغيل هذا 50000 الصور في عملية التدريب الاشتقاق إلى الأمام.

يتم إدخال شكل NCHW - "هو الإخراج في شكل التسمية 1 الساخنة. الآن دورة أكاديمية حول هذه المجموعة البيانات يقود عمل زملائنا kaiming FB الله العظيم: rextnet، بلغت نحو 22 من الخطأ التدريب. وبعبارة أخرى، لنرى نموذج 100 صورة من مجموعة التدريب ImgeNet، وانه يمكن القول الفئة التي ل78 الصور على التوقعات. مقارنة TOP1 نسبة الخطأ 36-40 في ذلك الوقت، تحولت في عام 2012 AlexNet، دراسة الباحثين عمق حققنا تقدما كبيرا.

في هذه المهمة، وكمية البيانات ونحن نتعامل مع وردة واحدة إلى 8192 الصور. وسيؤدي هذا إلى بعض التحديات على مستوى التعلم الآلي في باور بوينت القادم سأذكر. وبالإضافة إلى ذلك، ونحن في تدريب واحد نستخدم GPU 256، لبناء نظام من هذا القبيل مليء بالتحديات.

في عملية تدريب الشبكة العصبية نشعر بالقلق حول نسبة الخطأ على التدريب. هنا هو الزيادة خطأ التدريب باعتباره المخطط تدريب تراجع البيانات. يمكننا أن نرى أن المحور ص هو معدل الخطأ التدريب، وخفض هذه البرامج القيمة التي نموذجنا يمكن تصنيفها بشكل أكثر دقة على بيانات التدريب. محور X هو عدد من البيانات. يشير البيانات (عصر) لنموذجنا هو الذهاب تماما على بيانات التدريب، في imagenet-1K مهمة في حوالي 1 مليون صورة. يمكننا أن نرى أن الخط البرتقالي هو منحنى التدريب resnet50 القياسية. بعد حوالي 90 البيانات والدقة في أوائل 20S تدريب. ويمكن اعتبار هذا الخط البرتقالي معيارا، وهدفنا هو الاقتراب من هذا الخط الأصفر.

لأننا لا نتطلع إلى تدريب متزامن على البيانات الموزعة الأسطول، يعني أن كمية البيانات ونحن نتعامل مع أكبر بكثير من معيار واحد من 256 الصور. لذلك نحن نفترض أن كمية البيانات مباشرة إلى علاج واحد ارتفع إلى 8192، ماذا سيحدث بعد ذلك؟ نحصل على منحنى التدريب الأزرق. بعد ما يقرب من 90 البيانات، توقف نموذج معدل الخطأ القطار في حوالي 41. هناك فجوة كبيرة بين البلدين. منحنى التدريب الأزرق هو تماما عدم الامتثال. (ولكن الجدير بالذكر أنه في مهمة تصنيف 1000 فئة، وإذا كان لدينا سوى المصنف عشوائي، لدينا تدريب نسبة الخطأ نحو 99.9. هذا النموذج رغم ذلك، وقلوب لدينا الكثير لمعيار ما هو أسوأ، لكنه على ما يبدو وهو يملك قليلا من المعرفة على تصنيف هذه الصور)

قبل بعض الأعمال، بما في ذلك لى مو كبار السن المادة، أثارت فكرة للتعامل مع كميات كبيرة من البيانات عن طريق التوسع مع كفاءة التعلم (معدل التعلم). حاولنا أيضا ممارسة المقابلة، والحصول على خط الزرقاء الجديدة. المعلمات جديدة في مجال التدريب، لأن لدينا نفس دفعة من البيانات تضخيم 32 مرة 256-8192، لذلك علينا أن نتعلم من كفاءة التضخيم الأصلية من 0،1-3،2. يمكننا أن نرى ظلت نسبة الخطأ تدريب ترقية جيدة جدا. انخفضت من نسبة الخطأ السابق من حوالي 41 إلى حوالي 24.84. هذه نتيجة جيدة، ولكن هناك أهداف، ونحن نتطلع إلى حوالي 1 من هذه الفجوة. الناس ليسوا على دراية تصنيف الصور قد تسأل، أن 1 من الفجوة تنتهج، لن تكون قاسية جدا؟ في الواقع، في تصنيف الصور الدرجة 1000، إذا كانت نتائج تصنيف بطباعة الفرق 1 تظهر أحيانا واضحا بشكل خاص في بعض الفئات.

حتى بعد بعض التنقيب عن زملائنا، بعد بعض الجهد، علينا أن نجد نهجا لتعلم كفاءة زيادة متتابعة، مما يجعل منحنى توزيع منحنى التدريب التدريب القياسية وأهدافنا تتلاقى على خطأ التدريب نفسه. نلخص تجربة سلسلة من تدريب الشبكة العصبية على نطاق واسع وزعت، يمكن أن المزيد من المحتوى الذهاب لرؤية ورقتنا.

آلة الانتهاء من صعوبات التعلم والحلول النظرية، علينا أن نتحدث عن التحديات في هذا نظم العمل. ذكرت من قبل، ResNet-50 بيانات التدريب التي مرت على NVIDIA تسلا P100 حوالي 230 في الثانية الواحدة.

من أجل تدريب نموذج أكثر مثالية من التقارب قبل المخطط كما يظهر، ونحن ربما تحتاج إلى وضع مجموعة البيانات بالكامل تجهيز 100 مرة.

ثم 1.2 مليون الصور أكثر من 100 مرة 120 مليون صورة، وفقا ل230 صورة في السرعة الثانية، وتدريب نموذج resnet-50 يتطلب ستة أيام.

ثم علينا أن نبدأ باستخدام التدريب الموزعة. هذا هو أسطول واسعة النطاق لإكمال خوارزمية التدريب.

هنا لتظهر لك بسيطة وزعت تدريب FIG. كل مربع خط كسر يمثل GPU أو آلة. الاتصالات بكيي مع العلاقة بين كتلة أو كبل الشبكة. في هذا العمل نستخدم أساليب التدريب في بيانات موازية. وسائل بيانات موازية أن كل آلة / GPU معالجة بيانات مختلفة في وقت واحد، وجعل العملية نتيجة للمبلغ بعد الانتهاء من التزامن. في هذه الصورة، وهي مجموعة صغيرة من الممثلين من كل دفعة من البيانات. نحن نتمتع بوضع دفعة 1 إلى ك ك على الجهاز بشكل منفصل. في حالة حقيقية، وهي مجموعة صغيرة من البيانات لديها 32 صور، ك = 256، وذلك لعقد صفقة مع 8192 الصور، وهذا هو، وكمية كبيرة من البيانات نظرية واحدة قبل أن نصل. وجود الصورة مساهمة الإدخال، ونحن ندخل في المعادلة، وهو نموذج ResNet-50 التي نستخدمها Caffe2 بناؤها. لاحظ أن كل محطة لديها المعلمة ك وظيفة النسخ في هذا الجهاز. كما ندعو هذه المعادلات نموذج على GPU / آلة، الحصول على إخراج المصنف، والمنطق على بيانات حقيقية شهد خسارة العودة. في هذه الصورة هو النتيجة النتيجة.

حصلت على نموذج الانحدار اللوجستي في فقدان كافة البيانات على كل جهاز. ثم استخدم وظيفة الاشتقاق التلقائي المقدمة Caffe2، يمكننا حساب عدد دليل محلي نموذجنا على هذه البيانات عن البيانات المحلية، غراد المحلي. لذلك فإن الخطوة القادمة؟ إذا علمنا خوارزميات تدريب القادمة وكأنه آلة عادية مباشرة إلى مشتقات إضافة إلى المعلمات المحلية، ثم نصبح نموذجا للتدريب في وقت واحد ك. هذا لا يلبي هدفنا، وهدفنا هو تدريب نموذج جيد، هذا النموذج يحتاج إلى نظرة على جميع البيانات 100 مرة. لذلك نحن بحاجة إلى تزامن (تزامن) عن الحصول على المشتقات على الخروج من الآلة، والحصول على مشتقات موحدة، ومن ثم تطبيقها على المعلمات نسخة محلية في كل دقيقة.

في بيانات التدريب الموازي الموزعة، فإن تزامن الجزء الأكثر أهمية. في هذا التدريب لدينا، ونحن نستخدم طريقة تزامن دعا كامل المضافة. هذا هو مشتق من كل آلة عد بها، كل ذلك معا. الممثلة هنا من قبل P، ويمكن أيضا أن تستخدم G، فإنه يشير إلى أكثر وضوحا.

رسالة: ResNet-50 ما مجموعه 25 مليون المعلمات تحتاج إلى النظر فيها المشتقات والتزامن. حتى في الكمبيوتر، عن حجم 100MB. هذا في هذا اليوم وهذا العصر، لا يبدو وكأنه كميات هائلة من البيانات.

يجب أن طرح مفهوم: كفاءة التزامن. يمثل هذا المؤشر الوقت نظام المزامنة لجلب عدد من التأخير.

هو مجموع مرتين على جزيئات له. نيابة عن فريق العمل عندما يستهلك الأمام الشبكة العصبية الوقت الحوسبة، السل يمثل وقت العملية العكسية. كل مرة يمثل مجموع الوقت في الكمال مزامنة الوقت 0 التحف نظام في حاجة إلى التدريب. أول واحد لا تزال ايجابية فريق العمل الوقت القاسم، على المدى الثاني هو الحد الأقصى عكس الوقت ومزامنة الوقت. مقدار عرض النطاق الترددي المستخدمة من قبل الوقت مزامنة البيانات مقسوما على M وB تريد نقل تم الحصول عليها. السبب في التزامن ووقت العودة في أقصى قيمة لأنه أمر الشبكة العصبية المعلمة العملية العكسية. يمكننا أن نبدأ في عكس تزامن بعد مشتق الهالك الميئوس منه من الطبقة الأولى من المعلمة.

من الناحية النظرية، هذه الكفاءة هي 100 من الوقت، وتزامن لا يسبب أي تأخير لنظام التدريب. وارتفاع كفاءة، وجلب لنظام التزامن على الأقل تأخير.

إذا نأتي البيانات الفعلية في الصيغة في الصفحة السابقة. على resnet تسلا P100 علاج واحد، 32 صور، الوقت إلى الأمام حوالي 0.06 ثانية، 60ms، عكس 120ms الوقت. عدد دليل محلي حتى إذا كنا نريد لتحقيق كفاءة النظام تزامن بنسبة 50، وهذا هو، من الناحية النظرية على الأقل نصف الوقت للقيام بهذا العمل الرئيسي للتدريب، لدينا لإكمال 256 الآلات في 200MS في كامل المبلغ متزامنة. في هذا الوقت، 100MB يتطلع الكثير.

فعلنا الكثير لتحسين التزامن. على سبيل المثال، قمنا تزامن متعددة المستويات. في الخطوة الأولى، وسوف نكون في البيانات GPU الجهاز المحلي للقيام مبلغ كله. على سبيل المثال، أعلى اليسار، هو دمج بطاقات GPU البيانات الأربعة في إيتوري. الخطوة الثانية نقوم به مزامنة كاملة يستمد الجهاز عن طريق نسخ بين بعضها البعض. الخطوة الثالثة نحسب البيانات الموحدة داخل الجهاز ومن ثم توزيعها على جميع GPU.

الأمثل آخر يستحق الذكر. درسنا resnet حجم ظهرت في المعلمات. هذه الصورة هو حجم resnet وعدد من المعلمات في الرسم البياني. المحور الأفقي هو حجم المعلمات، والمحور الرأسي هو عدد من المعلمات. يمكننا أن نرى أن الجانب الأيسر معلمة صغيرة، النصف الأيمن هو حجة كبيرة.

وجدنا أن المعلمات الكبيرة والصغيرة المعلمات يحمل خصائص مختلفة في وقت التزامن. المعلمة الصغيرة نسميه ملزمة الكمون، وحدود المعلمة تأخير. هذه المعلمة التزامن، ومزامنة الوقت قصير جدا، في انتظار الوقت لحساب النتيجة الرئيسية للآلات أخرى. لهذه المعالم، أدركنا التزامن المعلمات خوارزمية الشجرة يمكن أن يكون أسرع وسيلة لمزامنة هذه المعايير. المعلمات وعادة ما تكون كبيرة عرض النطاق الترددي ملزمة، المعلمة اختناق عرض النطاق الترددي. هذا وقت كبير المعلمات التزامن. أدركنا حلقة خوارزمية تزامن لهذه المعالم. قدر الإمكان للحد من عدد متزامنة في أقرب وقت ممكن والبدء في عملية المزامنة، وتحسين استخدام عرض النطاق الترددي.

في هذا العمل حققنا الكثير من البيانات الأخرى، مثل القراءة، إلى أقصى حد الاتصالات GPU. نفتح أيضا إطار اتصالاتنا للتدريب موزعة Gloo. نظرا للوقت حيث لا يمكننا أن أكثر بدأته. يمكن للأصدقاء المهتمين يأتون لرؤية أوراقنا.

كلمة اليوم تحدث الكثير، لتلخيص.

Caffe2 هو التوسع عالية الأداء والصناعية الصف إطار الشبكة العصبية. في الجانب CPU، فإننا ندعو مكتبة قمنا بتطوير NNPACK CPU عالية الأداء. في النهاية تتحرك، لدينا مجموعة من الطبقة السفلية تضم دائرة الرقابة الداخلية المعادن، برنامج OpenGL أو ما شابه ذلك. في جانب التدريب وزعت، ونحن يمكن تحميل مكتبة الاتصالات وزعت Gloo واسعة النطاق الكامل توزيعها التدريب. وبالإضافة إلى ذلك، Caffe2 مفتوح المصدر بالكامل، يمكنك إضافة ما تريد أن تأمر بتنفيذ أسرع الأساسية.

Caffe2 في عملية التنمية، ونحن غالبا ما طرحت هذا السؤال: هل أنت وكافيه الأصلي ما هو الفرق؟ ملخص عن منصبه بعد هذه الاختلافات.

1.Caffe2 على نطاق وقابلية أفضل. كلمة اليوم التي تعطي لك أيضا بإضافة أقل كثيرا من الأمثلة التدريب على نطاق واسع، مثل الترجمة، مثل imagenet-1K في ساعة واحدة. وقد أمثلة هذه على نطاق واسع من خلال التدريب معركة اختبار على مستوى الفيسبوك من كمية البيانات والأنظمة.

2.Caffe2 نشر شبكات العصبية للجانب الهاتف المحمول لديها مجموعة من الدعم. على سبيل المثال، اليوم ذكرنا المحمول محطة في الوقت الحقيقي تحويل النمط. هذا هو كافيه الأصلي المستحيل

3. هي وحدات. Caffe2 هو إطار الشبكة العصبية وحدات للغاية. اليوم، وأنا أيضا أثبت اندماج لدينا عينة وGloo، وNNPACK، وسلسلة من رموز أخرى والمنطق المعادن / الأعمال. Caffe2 يمكن دمجها بشكل أفضل في منطق الأعمال للذهاب.

الكل في الكل، Caffe2 هو الشبكة العصبية الصناعية الصف الإطار عبر منصة جديدة. نحن يمكن نشر نموذج التدريب Caffe2 في المحمول المحطة، والخادم، معدات الشبكات، وأنظمة المضمنة. الأمل في المستقبل القريب، يمكن Caffe2 تساعدك على نشر خوارزميات الذكاء الاصطناعي جديدة على مجموعة متنوعة من الأجهزة.

(النهاية)

AI Yanxishe ملاحظة: الرسوم التوضيحية النص اعتراض من صاحب GTC الصين 2017 الجمعية العامة الفيديو خطاب، اضغط على الرابط لمشاهدة.

طريق الحرير

المصدر المفتوح إطار الشبكة العصبية Caffe2 وصف كامل

وفيما يلي نص الخطاب:

تعرضت A-COLD-الجدار المشترك * مادن! 6 ثالثي تراجع تدريب العضلات ولكن كان لذلك؟ | تشاو ون الوجبات السريعة

بدأت جامعة شنغهاي جياو تونغ البروفيسور يانغ مينغ في الكلام، سيد منخفضة رئيسيا من دون طيار "الماضي والحاضر"

كيفية التمييز بين مستوى التكوين سيارة؟

لا نريد لتغيير الصوت من مغسلة الفولاذ المقاوم للصدأ القديمة، وبلوتوث ستيريو المنتجات تكون قادرة على تحويل ذلك!

تجمع جدار | فشلت أبدا الفكر نجا قونغ يو عمه من الهرب منه ......

التعاون المفتوح، وتعزيز بناء على طلبات AI هبوط بيئة - عقدت "تشي تشونغ تشيانتانغ" قمة 2018AI سحابة البيئية في هانغتشو

المديرين التنفيذيين BMW وضع لا هوادة فيها: سوف جديد الأميال مركبة الطاقة تصل إلى 700 كم

"الفضاء السحيق غير المأهولة،" تحديث حديثا "رؤى" الفيديو الترويجية تسربت

"سحق براذرز طبعة خاصة" سبع دقائق فائقة مفصلة وصف اللعبة

أثارت "جزيرة الكلب" شظايا فيلم التعرض الأصلي حزمة غامضة مجموعة المشاجرة الكلاب

خارج السوق الصينية، فقد أصبح هذا البلد الهاتف المحمول المصنعين ساحة المعركة!

تملك السيارة A، B، C، D مستوى هو كيف العديد من الانقسام؟

"الكلب المحلي" يفوز "الكلاب اليابانية" العودة لونغ حرب النجوم تينسنت Jueyi صحيفة "الانتقام".

+ سريع تهمة الخائن، هذا الجهاز المحمول إلى حل جميع المشاكل!

الرائع عهد الجديد التدريجي من العمر 70 | استغرق القرويين "الحصول على اللسان الطريق الغنية" قرية الرملي مهارات الطهاة بتدريب الطبقات

سحابة حافة AI مزيج من سحابة ليست بسيطة "سحابة + الجانب"

الجاف | 2 Fenzhong أوراق: تقنية الجيل خطاب وراء حزمة التعبير المبدأ

تشانغ جي ون الشعر الطويل وراء شيه نا: يتألمون لها الصبر ومعقولة في ظل أقوى

"ستار درع" قد هبطت المنصة التحويل يمكن ترحيل البيانات إلى الكمبيوتر المضيف

جين كيب تقنية الرئيس التنفيذي لشركة يي داتشينغ: تمويل منظمة العفو الدولية في وقت سابق من تسويق بدون طيار

نشرت C5Si فلوريت فلوريت الكاميرا الذكية الكاميرات الذكية تفتح فصلا جديدا

3000 يوان الأكشاك أفضل هاتف؟ هواوي nova2s الهاتف المحمول أربعة عدسة تحليلية شاملة

وفيما يلي نص الخطاب:

الأحكام ذات الصلة