العصبية العمق تسارع التطور: أربع ساعات فقط من التدريب على نموذج تعزيز التعلم على جهاز الكمبيوتر

لى فنغ شبكة منظمة العفو الدولية تكنولوجي ريفيو: في المادة السابقة ورقة اوبر 5 رشقات نارية من التطور العصبي أعلنت عصر جديد، قدمنا بحث اوبر AI مختبر في عمق الخوارزمية التطورية، من زوايا مختلفة لإظهار الخوارزمية تعزيز التعلم التطورية لحل المشكلة القدرة على تبين أيضا الصلة بين ES التطورية استراتيجية (استراتيجيات التطور) والتدرج النسب. هذه النتائج مثيرة للغاية، تنوير. ولكن في الوقت ونحن لم نذكر أن هذه النتائج تستهلك قدرا كبيرا من الموارد الحاسوبية: في الواقع تجربة الصحيفة يعمل على مستوى الأداء وعلى نطاق واسع مجموعة الحوسبة التي تتكون من وحدة المعالجة المركزية 720-3000، وذلك بطبيعة الحال هناك الكثير من المجموعات القدرة الحاسوبية لتشغيل الخوارزمية التطورية، ولكن في الباحثون اوبر AI مختبر الذين يرون أن هذا المستوى من الحوسبة متطلبات الطاقة وضعت معظم الباحثين في هذا المجال، الطلاب ورجال الأعمال ومحبي توقفت عند الباب.

مؤخرا اوبر AI مختبر كود المصدر المفتوح هو مجموعة من الخوارزمية التطورية، التي تتميز بسرعة عالية (ولكن أيضا أكثر بثمن بخس) لدراسة استراتيجية تطورية. ووفقا للتقارير، وتدريب الشبكة العصبية يمكن أن تلعب ألعاب أتاري من الوقت الذي يستغرق ساعة واحدة من الكتلة الأصلية مكونة من وحدة المعالجة المركزية 720، وحتى الآن فإنه يتطلب فقط 4 ساعات على جهاز كمبيوتر سطح المكتب واحد . وهذا أمر مهم، لأن هناك حاجة كبيرة لتحديث فهمنا كم الموارد اللازمة لإجراء مثل هذه البحوث، حتى أن أكثر الباحثين لبدء البحث. لى فنغ شبكة AI تكنولوجي ريفيو التحسينات التالية التي تجعل مقدمة مفصلة.

تطور التكنولوجيا عميقة تعزيز العصبية التعلم حل تحدي بدائل قادرة على المنافسة، مثل اللعب أتاري وحركة الإنسان تقليد المشكلة. يظهر السلوك مع الخوارزمية الجينية بسيطة لتدريب عمق الشبكة العصبية.

ما هي التغييرات هو لجعلها أسرع، ويمكن تشغيلها على جهاز كمبيوتر واحد؟

في الواقع، مع عدة مكاتب افتراضية جوهر الحديث PC الراقية نفسها مثل مجموعة الحوسبة المتوسطة الحجم. إذا تنفذ على الوجه الصحيح في عملية التدريب متوازية، على جوهر 720 إذا كنت تحتاج إلى تشغيل ساعة واحدة من عملية التدريب والتشغيل على جهاز كمبيوتر شخصي مع وحدة المعالجة المركزية 48 النواة سيتطلب 16 ساعة. على الرغم من أن هذا هو أبطأ، ولكن ليس شاقة. ومع ذلك، هناك GPU سطح المكتب الحديثة، وسرعة تشغيلها الشبكة العصبية العميقة (DNN) قريبا. كود اوبر AI مختبر بالتوازي مع تحقيق أقصى قدر من وحدة المعالجة المركزية والجرافيك. تشغيله على الشبكة العصبية GPU عمق ومدربة لتشغيل على وحدة المعالجة المركزية المهمة (على سبيل المثال، مادي أو إلكتروني لعبة المحاكي)، وعدد وافر من عملية التدريب يمكن تشغيل بالتوازي بين كل دفعة، والتي يمكن الاستفادة بشكل فعال جميع الأجهزة المتوفرة . كما هو موضح أدناه، وتشغيل مزيد المؤلف من العرف TensorFlow، مما يحسن بشكل كبير من سرعة التدريب.

السماح الاحتياجات التدريبية لإجراء بعض التعديلات على الشبكات العصبية عملية حسابية على GPU. قدم الباحثون اوبر AI مختبر، وسرعة الشبكة العصبية واحدة على وحدة المعالجة المركزية واحدة من أسرع على GPU، وGPU لكن كبير عندما كميات كبيرة من بالتوازي مماثل الحوسبة (على سبيل المثال، قبل تغذية الشبكات العصبية نشر) الفوائد. للحد من استنزاف الطاقة الحوسبة GPU، عدد وافر من الشبكات العصبية قبل أن يتم إدخالها في نشر البلمرة دفعة واحدة. في القيام بذلك دراسة الشبكات العصبية شائعة، ولكن عادة نفس الشبكة التعامل مع المدخلات المختلفة. ومع ذلك، فإن خوارزمية تطورية على عدد من المعلمات مختلفة من الشبكة العصبية، ولكن حتى لو شبكة مختلفة، يمكنك أيضا تسريع (على الرغم من زيادة مقابلة في الطلب على الذاكرة) باستخدام نفس النهج. أنها نفذت TensorFlow الأكبر العمليات الحسابية الأساسية مجموعة الشبكة العصبية، وأنها تنتج عن ضعف التسارع، وخفض وقت التدريب لحوالي 8 ساعات.

ليس ذلك فحسب، والباحثين يشعرون أيضا أنها يمكن أن نفعل ما هو أفضل. بينما ينص TensorFlow تعليمات التشغيل عن الحاجة، ولكن هذه العمليات ليست مناسبة جدا لهذا النوع من الحساب. لذلك هم إضافة إلى اثنين من عملية TensorFlow المخصصة، ومن ثم يمكن أن تضيف ما يصل إلى ضعف سرعة، بالمقارنة مع 16 ساعة قبل آلة ذكرت في البداية، سيتم تخفيض التدريب لحوالي 4 ساعات.

العملية TensorFlow الأولى مخصصة سرعة كبيرة تصل سرعة العملية على GPU. وهو مصمم لشبكة العصبية غير متجانسة الحوسبة للتخصيص، RL في الميدان، والوقت اللازم لكل عملية حسابية خطوة لها أطوال مختلفة، والذي هو حقيقي في العديد من الألعاب أتاري ومحاكاة الروبوت مهام التعلم. وهو يتيح للGPU لتشغيل فقط حاجة قليلة لتشغيل الشبكة، دون الحاجة إلى تشغيل دفعة كاملة من مجموعات الشبكة الثابتة في كل تكرار.

تحسين وصفها حتى الآن يجعل من أكثر GPU فعالة من حيث التكلفة من وحدة المعالجة المركزية. في الواقع، GPU هو سريع بحيث تعمل على المحاكي وحدة المعالجة المركزية أتاري لا يمكن مجاراتها، وحتى لو كنت قد استخدمت المكتبة للقيام المعالجة المتوازية متعددة من تسارع الحوسبة. من أجل تحسين الأداء والمحاكاة، وأضاف الباحثون مجموعة ثانية من عملية TensorFlow المخصصة. هذه سوف أتاري اجهة المحاكي التخصيص من بيثون بدلا من قيادة TensorFlow (إعادة تعيين، خطوة، والمراقبة)، واستخدام خيوط متعددة القدرة TensorFlow توفير المعالجة السريعة، لذلك ليس هناك سرعة نموذجية من بيثون للتفاعل مع انخفاض مشكلة TensorFlow.

بشكل عام، كل هذه الاختلافات بحيث يتم الحصول على محاكاة أتاري ما يقرب من ثلاث مرات التسارع. وينبغي أن تكون هذه الابتكارات قادرة على تسريع أي أكثر من التعلم لتعزيز المثال بالتوازي مهمة البحث (مثل ألعاب أتاري أو MujoCo محاكاة المادية)، وهذا متعدد المثال هذا النهج هو أيضا أكثر شيوعا في تعزيز التعلم، مثل توزيع عمق التعلم Q (DQN) وتوزيعها التدرج النهج (على سبيل المثال A3C).

طالما أن هناك القدرة على تشغيل شبكات متعددة على GPU وحدة المعالجة المركزية لتشغيل أسرع وعلى جهاز محاكاة مهمة، فإن التحدي الوحيد هو كيفية الحصول على جميع الموارد على كمبيوتر يعمل بنظام التشغيل قدر الإمكان. وإذا كنا لا تغذي انتشار الشبكة العصبية لكل قبل أن يطلب ما الإجراءات التي يجب أن تتخذ في الحالة الراهنة، ثم عند كل الشبكة العصبية في حساب الجواب، وتشغيل جهاز محاكاة لعبة وحدة المعالجة المركزية في أسفل الخمول. وبالمثل، إذا أخذنا العمل، محاكاة مهمة، وتساءل: "ماذا الدولة أن تكون ولدت من هذه السلوكيات؟" في خطوة المحاكاة، GPU تشغيل الشبكات العصبية والخمول (ملاحظة: يوجد في الشكل 1). إذا كان التغيير (في الشكل من 2) متعددة الخيوط خيار GPU وحدة المعالجة المركزية +، على الرغم من التحسينات التي يمكن أن ينظر إليها من الرقم حساب ترابط واحد، ولكن لا يزال غير فعال.

الحل الأفضل هو الجمع بين اثنين أو أكثر من مجموعات فرعية من محاكاة الشبكة العصبية، ودائما الحفاظ على GPU وحدة المعالجة المركزية لتشغيل في نفس الوقت، اعتمادا على أي خطوة إعداد (أو العصبية محاكاة شبكة) لتأخذ من تحديثات مختلفة جمع أو محاكاة الشبكة. هذا الأسلوب هو أقصى اليمين " عبر خط انابيب CPU + GPU "الخيار، كما هو مبين في الشكل (1) الحق. من خلال ذلك، والتحسينات الأخرى المذكورة أعلاه، لأنها تتيح لنا لتدريب المعلمات الشبكة العصبية المطلوبة 4000000 في الوقت المناسب وصولا الى أربع ساعات على جهاز كمبيوتر واحد.

السكان جدولة الأمثل في الشبكات غير المتجانسة في RL. المربع الأزرق هو مهمة المحاكي، المضاهاة أو مثل هذه أتاري MujoCo هذا المحرك المادية، التي يمكن أن يكون لها أطوال مختلفة تشغيل شريحة الوقت. على الرغم من أن الوضع مباشر لتشغيل GPU (من اليسار)، ولكن الأداء المنخفض، وذلك لسببين: 1) حجم دفعة GPU هو 1، فإنه لا يستخدم بالتوازي مع قدرات الحوسبة، 2) وجود الوقت GPU الخمول انتظار وحدة المعالجة المركزية، والعكس بالعكس ولكن. يسمح مولتيثريد (وسيط) لتشغيل في نفس الوقت من خلال عدد وافر من محاكاة وحدة المعالجة المركزية، GPU إلى تقليص فترة الانتظار، ولكن عندما وحدة المعالجة المركزية تعمل، GPU خاملا، والعكس بالعكس. عبر خط انابيب اوبر AI مختبر تصميم (يمين) يسمح وحدة المعالجة المركزية والجرافيك للعمل على نحو فعال. هذا الأسلوب ينطبق أيضا على GPU متعددة وحدة المعالجة المركزية تشغيل في نفس الوقت، في الواقع، فهم لم يفعلوا ذلك.

أهمية التجارب أسرع وأرخص

كود اوبر AI مختبر بحيث يكون لكل مجتمع البحث الفردي، بما في ذلك الطلاب وطالب علم نفسه بنفسه، ويمكن تدريب المتكررة بسرعة اللعب تجريبيا ألعاب أتاري مثل تحدي عمق الشبكة العصبية، التي اقتصرت حتى الآن على صناعة أموال كافية الفخامة والمختبرات الأكاديمية.

سوف كود أسرع تحقيق تقدم البحوث. على سبيل المثال، رمز جديد اوبر AI مختبر يمكن أن تنفق سوى القليل جدا من التكلفة التي الخوارزميات الوراثية يمكن توسيع مجموعة واسعة من البحث فائقة حدودي، مقارنة مع أداء تقريرهم الأولي، فإننا سوف تحسين أداء معظم ألعاب أتاري. وقد نشرت الصحف في أرخايف. وبالمثل، رمز أسرع أيضا تحفيز النهوض من البحث، لتحسين عمق التطور العصبي من خلال تقليل الوقت التكرار، والسماح لهم في محاولة كل فكرة جديدة المزيد من المهام والمزيد من الوقت لتشغيل الخوارزمية.

اوبر AI لاب مكتبات البرامج الجديدة بما في ذلك إعمال عمق الخوارزميات الجينية، التطورية خوارزمية استراتيجية من Salimas وغيرها، وكذلك (! تنافسية جدا) تحكم بحث عشوائية. انهم يريدون بصدق الآخرين على استخدام مدوناتها لتسريع أنشطتها البحثية. ودعوا أيضا مجتمع البحوث بأكمله المشاركة في بناء نظامنا وتحسينه، على سبيل المثال، عندما التدريب الموزعة وGPU لإضافة لهذا النوع من الحوسبة المخصصة TensorFlow عمليات أخرى، فمن الممكن الحصول على مزيد من سرعة العملية.

البحث المتعمق في مجال تطور الجهاز العصبي الآن حار جدا. بالإضافة إلى دراسة بحثية اوبر AI مختبر الخاصة وOpenAI مؤخرا لم يكن هناك تقدم التعلم العميق من DeepMind والدماغ جوجل وحساس. اوبر AI مختبر تأمل في المصادر المفتوحة التعليمات البرمجية بحيث أنها تسهم في تطوير هذا الحقل.

وبشكل أساسي، الهدف مختبر اوبر AI هو للحد من تكاليف الدراسة، قام الباحثون من جميع الخلفيات يمكن محاولة أفكارهم لتحسين التطور العصبي الشديد، واستخدامها لتحقيق أهدافهم.

ذكر حتى في 48 وحدة المعالجة المركزية الأساسية "جهاز كمبيوتر سطح المكتب" تسبب بعض الجدل (7K RMB AMD Dacentrurus Threadripper 1950X16 الأساسية 32 المواضيع، وإنتل 15K RMB I97980XE 18 الأساسية 36 موضوع)، ولكن هو في الواقع بحوث قيمة جدا النتائج.

عنوان ورقة: الشبكي: //arxiv.org/abs/1712.06567

عن طريق: تسريع ديب Neuroevolution: قطار أتاري في ساعات على واحدة كمبيوتر شخصي، شبكة تقنية مراجعة AI لى فنغ جمعت التشطيب.

طريق الحرير

العصبية العمق تسارع التطور: أربع ساعات فقط من التدريب على نموذج تعزيز التعلم على جهاز الكمبيوتر

ما هي التغييرات هو لجعلها أسرع، ويمكن تشغيلها على جهاز كمبيوتر واحد؟

أهمية التجارب أسرع وأرخص

العمل البرية: نظام نهاية تليفون قوي مستوى الحرف واردة، والكامل للآه الرعاية!

الرجل هو طبيب في المستشفى، وممرضة من الإناث؟ نموذج NLP من التحيز ضد المرأة في النهاية كم؟

هناك جيل جديد من دونغفنغ رينو كوليوس مدرجة للبيع من 179800

جيا يويتينغ، يا البيئي اللوحة رأسا على عقب؟

حشود من المنزل الذكي للبحر الأحمر، في المستقبل سيكون كيفية اختراق؟

القيمة مقابل المال! الهاتف هو أرخص من برو المكسرات، والتكوين هو أعلى من ذلك

مغامرة خيالية نظام العملاقة "موقوتة البيت" الثابتة والعتاد 1 نوفمبر، تحول سبيلبرغ كرنفال السحر

تحولت فولكس واجن البرازيل غور الله GT سيارة مفهوم خارج

أندروز أول مرة، ومن المؤكد أن تبدأ من 5 الهواتف النقالة!

الحالة: جمال + واي فاي، وهذا هو الأرجواني ومقاطعة دوا لقاء!

السائق هو ركض الشيكات القيادة في حالة سكر لإخفاء مجمع المسلحة، وشرطة المرور: أنا لا مخطوطات تحتاج تأتي يد حقيقية

الثلاثي رجل واحد، العفريت علي الوشق صندوق إعادة تعريف مركز الأسرة

الشباب أول قطعة من مجلس التنمية AI؟ Chujing لا حصر له زاوية نشر الطنان AI الرؤية كيت

أعلنت شركة سامسونج رسميا النتائج المتفجرات Note7: انها حقا السبب الحقيقي

تكوين جديد فورد إسكيب متعدد المعايير لا تنسجم مع الجذع

سامسونج S8 / S8 + المقرر أن تبدأ، ولكن هذا جدا محرجة محددة سلفا مبلغ

"التجشؤ جشاء المعلم" نسخة توريت للمقطورة المكشوفة، والمكالمات رفض للتمييز في الخلافات الاحترام

فاصل: 500 مليون الجائزة، 10005 ألف الفرق في العالم تتنافس! الدجاج الهاتف حتى النار؟

مدخل أرباح الجديد فرصا جديدة جديدة: TV الذكية تقرير المستخدمين رؤى

استعراض شو نوكيا 6 للعب لمدة أسبوع، يمكنني دفع ثمن هذه الموجة من المشاعر

صدر هوندا WR-V تحديد موقع صغير SUV / أو المحلية

APL دوري، تايوان التعليق جنون "تهب" وي الله! هذا فقط لهجة الذين يستطيعون تحمل ذلك بهذه الطريقة؟

ما هي التغييرات هو لجعلها أسرع، ويمكن تشغيلها على جهاز كمبيوتر واحد؟

أهمية التجارب أسرع وأرخص

الأحكام ذات الصلة