"صناعة النقاط الساخنة" عالية الأداء بايت تدريب موزعة الضرب BytePS إطار مفتوح المصدر

في الآونة الأخيرة، وفاز البايت أعلنت منظمة العفو الدولية مختبر التعلم عمق عالية الأداء ومفتوحة المصدر وزعت والتدريب BytePS الإطار، يفسد هذا النوع خلال السنوات القليلة الماضية allreduce له اليد العليا على الوضع من حيث الأداء، وهو ما يتجاوز سائر توزع حاليا إلى أكثر من الضعف إطار التدريب الأداء، وفي نفس الوقت لدعم Tensorflow، PyTorch، MXNet وغيرها من المكتبات مفتوحة المصدر.

BytePS تجمع للفوز على بايت AI مختبر أشهر أكثر الإنجازات البحثية والاستفادة المثلى من التدريب على التواصل وزعت، بما في ذلك جدولة الأولوية الاتصالات، PS تنفيذ RDMA الأمثل لتبديل بكيي مع NUMA، والعمارة نفسها BytePS الابتكار.

دراسة متعمقة للتأثير يعتمد على نموذج والبيانات، وتحديث باستمرار دقة التعلم عمق الحالية من أحدث الأبحاث في هذه الصناعة، وتستند في معظمها على نماذج أكبر ومجموعات البيانات الكبيرة. ومع ذلك، نماذج الكبيرة والبيانات الكبيرة الحوسبة السلطة عندما جعلت التدريب المطالب العالية، وبطاقة GPU واحدة، أو بطاقة GPU على خادم واحد، وقد تم حتى الآن غير قادرة على تلبية احتياجات مهمة تدريبية داخلية. ولذلك، فإن كفاءة التدريب الموزعة، التي تستخدم خوادم متعددة التدريب التعاوني، وأصبح الآن نظام التعلم عمق القدرة التنافسية الجوهرية.

كل جانب، هناك نوعان من المدارس في تدريب الموزعة، وallreduce وPS (معلمة الخادم). خلال السنوات الثلاث الماضية، وخاصة بايدو جعلت allreduce، وتقوم بعد ذلك على allreduce من Horovod والوعي في هذه الصناعة من المصادر المفتوحة في اوبر، allreduce توزيعها التدريب هو أفضل وسيلة للاتصال، وPS أداء يتحقق في الوجود تأليف الماضي وallreduce فجوة معينة.

BytePS والانقلاب على فترة طويلة زعيم الوضع allreduce، BytePS لديه تدريب وراء كل الآخر توزع حاليا إلى أكثر من ضعف أداء إطار التدريب، بما في ذلك مفتوح المصدر NVIDIA NCCL، اوبر مفتوحة المصدر Horovod، وTensorflow، PyTorch، MXNet يأتي توزيع البرامج.

BytePS تنمية وقال الفريق الذي في السحابة العامة أو السحابة الخاصة المشتركة مثل هذه المجموعة، بعد PS تصميم مضغوط وتحقيق عالية الجودة، وأفضل من allreduce العمارة PS الفقراء فحسب، ولكن أيضا في بعض البيئات من allreduce أيضا يمكن الحصول على ضعف السرعات العالية.

اختبار، فريق BytePS يستخدم جهاز ظاهري على سحابة العامة، ولكل جهاز ظاهري يحتوي على 8 تسلا V10016GB GPU، وربط عالية السرعة بين GPU التي كتبها NVLink. يتم تحديد حجم الدفعة على كل من GPU 64. بين الأجهزة الظاهرية متصلة عبر شبكة 20Gbps TCP / IP. في هذه الحالة، منذ عرض النطاق الترددي للجهاز هو بما فيه الكفاية كبيرة، وأصبح النطاق الترددي للشبكة TCP / IP عقبة رئيسية.

BytePS اختيار Resnet50 نموذجين وVGG16 تعليقات، حيث Resnet50 نموذج مكثفة حسابيا (متطلبات الاتصالات منخفضة، وتحسين مساحة صغيرة)، VGG16 نموذج التواصل المكثف (متطلبات الاتصالات عالية، وتحسين مساحة كبيرة)، والسيطرة اختارت مجموعة واحدة من إطار الاتصالات الأكثر شعبية في السوق Horovod-NCCL (allreduce خوارزمية القائم)، وعدد من أفضل مؤشرات الأداء لتدريب ImageNet الصور في الثانية الواحدة، وممثل أعلى.

ويمكن رؤية مجموعتين من النتائج، ونموذج لResnet50 مكثفة حسابيا، والأداء BytePS Horovod-NCCL مدى ما يقرب من 44، وبالنسبة للنموذج VGG16 والاتصالات المكثفة، ويمكن أداء BytePS Horovod-NCCL يكون أكثر من ما يقرب من 100.

BytePS تم تجهيز الفريق أيضا مع 100Gbps من RDMA شبكة من مجموعات خاصة للقيام بهذا الاختبار، BytePS ديه أيضا بعض التحسينات الأداء، وتحليل مفصل يرى جيثب (https://github.com/bytedance/byteps).

بالإضافة إلى سائر توزيعها خارج نطاق الإطار الحالي للتدريب في الخارج الأداء، BytePS Tensorflow متوافقة، PyTorch، MXNet وإطار التدريب الأخرى. BytePS قال فريق مطوري تحتاج فقط تغييرات صغيرة جدا، ويمكنك استخدام إطار BytePS للتدريب وزعت، والتمتع BytePS عالية الأداء يجلب.

في هذه الصناعة في وقت سابق لتحقيق PS، أنها موجهة في إطار مشتركة محددة، على سبيل المثال، وتحديدا لPS TensorFlow تحقيق، ولكن أيضا على وجه التحديد لPS MXNet تحقيقه.

مختبر الذكاء الاصطناعي بايت الضرب BytePS مصدر مفتوح، من خلال تنفيذ طبقة تجريد مشترك طبقة تجريد يمكن استشهد إطار مشترك مختلف لتحقيق إمكانية دعم في وقت واحد إطارات متعددة، فمن الممكن لدعم Tensorflow، PyTorch، MXNet الصناعات الأخرى إطار التدريب السائد.

BytePS يوفر TensorFlow، PyTorch، MXNet وKeras في المكونات، للمستخدمين ببساطة لسد في رمز مرجع BytePS، يمكنك الحصول على نسبة عالية الأداء والتدريب الموزعة. ويتم تنفيذ BytePS المنطق الأساسي في BytePS داخل النواة. تفاصيل محددة للبلاغ، بالكامل من قبل BytePS، لا يحتاج المستخدم إلى تقلق تماما.

BytePS فريق قال عمق مجال الدراسة لا يزال لديه مساحة وإمكانيات قيمتها كبيرة جدا استكشاف مع الزملاء والصناعة، BytePS مصدر مفتوح، ونحن على أمل أن استخدام BytePS التقدم في الأداء والوظائف والمطورين ويقلل من عمق الميدان من المشاركين في الدراسة العتبة، لمساعدة أكثر زملائه استكشاف الإنسان من التعلم معا العميق لتحسين كفاءة التطبيقات AI.

معلومات التدريب

يمكنك أيضا النقر فوق URL الوصول

"معظم دعامة النبيذ" عصابة شارك فيها أكثر من 1.4 مليون يحاكم! وكانت قيمة اللون كما أراد التحديث عالية

تحليل وتنفيذ "التصميم الجيد أطروحة" إجراءات الوصول العشوائي NB-تقنيات عمليات

الجرعة لا تزيد، وذلك تمشيا مع الأمم ستة! باو وو 2020 نماذج السيارات BX5 المدرجة

حول ستصدر نتائج امتحان دخول الجامعات بعد قراءة هذه الجامعات المتخصصة في الكلاسيكية الذاتي الاستنكار اسقطت

"صناعة النقاط الساخنة" أكدت أبل أنها قد حصلت على الطيار الآلي وتبدأ العمل لم يتم الكشف عنها سعر Drive.ai

"AET الأصلي" سلسلة STM32G4 يخرج، والتحكم في المحركات الرئيسية وسوق الطاقة الرقمي

منارة تصميم النظام وموثوقية عالية، "تصميم جيدة أطروحة" على أساس GPS وبيدو

5G العالمية القياسية براءات الاختراع الأساسية أحدث تصنيفات: هواوي، ZTE وكوالكوم القيت بعيدا في المراكز الثلاثة

"AET الأصلي" RF الصينية والتكنولوجيا الميكروويف آفاق التنمية والصناعة واحتمال الساخن

ضرب قوانغتشو الاسبوع الماضي Yishoufang دوران منخفضة ما يقرب من 4 أشهر! مجموعات هيزو هي مساحة 165 متر مربع

عالية السرعة صحيح عدد عشوائية تصميم "تصميم أطروحة جيدة" استنادا إلى الضوضاء الحرارية من مذبذب

ضربة وقائية! إريكسون أعلنت تعزيز خيارات النشر 5G