با الترتيب ماريو كارت، انخفضت المعلمات التدريب جوجل تعزيز التعلم 1000 مرة

[جديد جي وون استعراض] مؤخرا، وجد الباحثون جوجل هذا النهج التطوري العصبية هو المثل الأعلى للتدريب على أساس هيكل الاهتمام الذاتي تعزيز التعلم البصري (RL) المهام، مما يسمح للباحثين لدمج عدد من الوحدات، بما في ذلك وكيل مفيدا للبعض لا عملية التفاضلية، وذلك لحل تحدي المهام البصرية مثل ماريو كارت، والمعلمات من 1000 مرات على الأقل السفلى.

هناك ظاهرة نفسية تسمى العمى الانتقائي، والناس سوف لا ترى أي شيء. الانتباه الانتقائي تمكننا من التركيز على جزء مهم من المعلومات دون طاقاتهم لتفريق تفاصيل تافهة، ولكن هذه الورقة جوجل تعزيز التعلم من وحي بالضبط.

عن طريق الالهام علم الأعصاب، واكتشاف وكفاءة أسلوب الترميز

أداء التعميم على الشبكات العصبية على نطاق واسع في الكثير من النقاش، على الرغم من أن الشبكة العصبية الأكبر هي الشبكة العصبية صغيرة نسبيا لديها تعميم أفضل، ولكن السبب ليس أن لديهم أكثر من المعلمات الوزن.

وقد أظهرت الدراسات أن أكبر شبكة العصبية تسمح خوارزمية الأمثل لإيجاد حل جيد في جزء من المساحة حل المسموح به، ويمكن بعد هذه الحلول تكون قلصت أن يكون الانحراف الاستقراء المفيد للشبكة الفرعية لشبكات فرعية لديها جيدة الترويجية.

علماء الأعصاب تشير إلى أن أدمغة الحيوانات يولدون مع اتصال منظم للغاية، هذا الصدد معقد جدا أن تكون محددة بوضوح في الجينوم، يجب تمرير "الجينوم عنق الزجاجة" السيطرة غير المباشرة، هناك نظرية التطور في مجال متخصص من الأبحاث في عنق الزجاجة ، والمعروفة باسم الترميز غير مباشر .

يتم الوصول السلوك الفطري من خلال الجينوم الترميز غير المباشر، العديد من الدوائر العصبية في الدماغ من الحيوانات هي جيدة قبل إتصال وعلى استعداد للعمل من الولادة. هذه القدرة الفطرية لجعل الحيوانات على التكيف بسهولة أكبر إلى بيئات مختلفة.

وقد أظهرت الدراسات أن جوجل تولي اهتماما الذاتي لغير المباشرة الترميز لها خصائص مماثلة، التي يمكن أن تولد الكثير من حقوق ضمنية من بعض الاستعلام مفتاح الوزن المعلمة المصفوفة. أسلوب الترميز غير المباشر يتيح التعبير عن الهيكل العصبي كبير، مع التقليل من عدد من المعلمات خالية من نموذج . ونحن نعتقد أن أساس العمل وضعت غير مباشر يمكن ترميز مساعدتنا الانحراف لخص أفضل.

معظم الأساليب المستخدمة لتدريب الشبكة العصبية، فقد تم تصميم كل من أصل التدرج أو الخوارزميات التطورية لحل قيمة كل المعلمات وزن معين السلطة الوحيدة على الشبكات العصبية. نشير إلى ما يسمى هذه الأساليب أسلوب الترميز المباشر . ترميز يوفر بشكل غير مباشر نهجا مختلفا تماما. هذه الأساليب ضد حكم الفريق أو عملية (وتسمى النمط الجيني) لتحسين تشغيل هذه القواعد أو التوجيهات قد تؤدي الشبكة العصبية (أكبر من ذلك بكثير).

بواسطة ترميز أوزان أقل معالم النموذج على نطاق واسع، ونحن يمكن أن يقلل كثيرا من الفضاء الحل، ولكن على حساب من الفضاء لدينا الحل يقتصر على مجموعة فرعية صغيرة من الفضاء. نحن نسمي هذا الأسلوب الترميز إلى وكيل لدينا من أجل الحصول على الانحراف لخص، وهذا الانحراف يحدد ما هو جيد في.

ماريو كارت اختبار المياه

من أجل التحقق من فعالية هذا الأسلوب من الترميز، وهما واحد منا تحدي مهمة لتقييم RL الرؤية مقرها في: CarRacing وDoomTakeCover.

اليسار: المهمة الأصلية. وسيتم تعديل الملاحظات ل96x96px، والإسهام في الوكيل. اليمين: تعديل البيئة السباقات، واضطراب اللون، والإطار العمودي، البقع الخلفية. البيئة DoomTakeCover المنقحة: الجدران أعلى، مختلفة نسيج الكلمة، النص تحوم.

في CarRacing، وعملية التحكم كيل ثلاث سيارات متتالية الحمراء (نحو اليسار / التوجيه نحو اليمين، والتسارع والكبح)، وخطوة من الوصول إلى كتلة المسار محدود ما يصل لدت عشوائيا.

في كل خطوة، إذا لم تواجه كتل المسار، تلقى الذكية تجربة -0.1 نقطة الجزاء، ولكن منع وصولهم إلى كل مسار والحصول على + (1000 / ن) نقاط المكافأة، حيث n هو العدد الإجمالي للبنات . طالما جميع المسارات يتم الوصول إلى كتل، أو 1000 خطوات الانتهاء، حتى لو كانت نهاية الشوط.

إذا 100 مرة أعلى من متوسط درجة من 900 اختبارات متتالية يعتبر يتم حل قضية CarRacing. حاول العديد من الباحثين لاستخدام ديب RL خوارزمية لحل هذه المهمة، ولكن حتى اقترح ديفيد ها وJrgenSchmidhuber "نماذج متكررة العالمي تسهيل التقدم السياسة Evolution.In في العصبية أنظمة معالجة المعلومات" كان جزءا من الحل.

DoomTakeCover غير مهمة أخرى قمنا بها، في هذه المهمة، يجب على وكيل هربا من إطلاق نارية الوحش والبقاء على قيد الحياة لأطول فترة ممكنة.

واصل كل مكتب لخطوة 2100، ولكن إذا أطلق النار على وكيل الطرق المسدودة. هذه المشكلة السيطرة هي منفصلة، وكيل ويمكن اختيار ثابتة يسار / يمين أو التي عقدت في كل خطوة. وكيل كل فرار ناجحة، والحصول على +1 نقاط المكافأة، وإذا كان أكثر من 100 أدوار متوسط الفوز بالجائزة الكبرى أكبر من 750، ثم أن يتم الانتهاء المهمة.

معالجة البيانات إدخال الاهتمام الذاتي

وسوف نركز آلية إدخالها في العملية من الصورة المدخلة، وذلك أساسا من خلال الخطوات التالية:

1 بعد بعض صورة تجهيزها الأساسي، وذلك باستخدام انزلاق حجم نافذة نافذة منزلقة وق م convolving حجم المدخلات. شكل الانتاج (ن، م، م، ج)، حيث n هو عدد التصحيح، كل التصحيح هو ارتفاع متر / العرض، ج هو عدد من القنوات في الصورة المدخلات، وتسطح البيانات.

2، وبعد الحصول على مفاتيح والاستفسارات، وحساب مصفوفة انتباههم. ثم تنشيط softmax، ثم المصفوفة على طول الجمع التوالي، والحصول على أهمية النواقل.

3، وأهمية التصحيح ناقلات نوع، ومقتطفات من معظم مؤشر مهم للال ك التصحيح والتصحيح مؤشر تعيينها إلى ميزة المقابلة، والإسهام في قرار للحصول على العملية التالية للتحكم.

وبما أن الدماغ البشري يتم تعيين معظم الاهتمام إلى المهام ذات الصلة للعناصر، وتحول مؤقتا غضت الطرف عن إشارات أخرى، علمت وكيل لتجاهل الصورة المدخلة لا علاقة لها المنطقة المهمة.

تحقيق ليس فقط أهدافهم، كما انخفضت المعلمات 1000 مرة

بعد التصميم الجيد، بدءا من الخوارزمية التطورية لتدريب انتباه العصبي من وحدة معلمة وحدة تحكم، العصبية لماذا تطور هو وسيلة مثالية للاهتمام تدريب وكيل من ذلك؟ بسبب التطور العصبي يمكن أن يزيل تعقيد لا لزوم له على أساس أسلوب التدرج، بحيث الحساب أسهل. وبالإضافة إلى ذلك، ونحن نستخدم بعض الوحدات لتعزيز فعالية من الاهتمام الذاتي، وهنا هو نتيجة للتجربة.

وأظهرت النتائج أنه بعد تطور التدريب غاز الأعصاب، تحتاج المعلمات من الطرق التقليدية لتكون مضاعفة 1000 مرة أقل، وتكون قادرة على حل تحدي مهمة RL القائم على الرؤية.

على وجه التحديد، في حالة أقل من 4000 المعلمات، إيلاء الاهتمام لدينا وكيل النفس يمكن أن تصل في المتوسط 914 نقطة في اختبار 100 التوالي 2D مهمة سباق لتحقيق متوسط 1125 في مهمة 3D VizDoom (تعتبر مهمة حلها 900 نقطة و 750 نقطة) وقابلة للمقارنة للفن القائمة SOTA) النتائج (. وبالإضافة إلى ذلك، لدينا وكيل تركز فقط على النقطة الأساسية المهمة البصرية، حتى لو كان يمكن تعديل عناصر لا علاقة للعمل بشكل صحيح، ولكن قد تفشل الطريقة التقليدية.

والهدف من هذه الدراسة هو إظهار مدى اهتمام الذاتي باعتباره عصب تطورية الأدوات أداة قوية يمكن لأي شخص استخدامها لدينا فتح شفرة المصدر لإعادة إنتاج التجربة برمتها. نأمل أن النتائج التي توصلنا إليها سيشجع الناس على مزيد من الدراسة نموذج العصبي للاهتمام من النهج التطوري، وإعادة تنشيط المصالح في أسلوب الترميز غير المباشر.

أوراق تحتوي على وصلة:

https://arxiv.org/pdf/2003.08165.pdf

طريق الحرير

با الترتيب ماريو كارت، انخفضت المعلمات التدريب جوجل تعزيز التعلم 1000 مرة

عن طريق الالهام علم الأعصاب، واكتشاف وكفاءة أسلوب الترميز

ماريو كارت اختبار المياه

معالجة البيانات إدخال الاهتمام الذاتي

تحقيق ليس فقط أهدافهم، كما انخفضت المعلمات 1000 مرة

معركة الولايات المتحدة ضد قائد السارس "اندلعت الأخبار إلى العلوم: ترامب في المعارضة

شقيق يذكر للمستثمرين الاجانب على المشي الكلب للخروج الطائرات بدون طيار، أرسلت فرنسا إلى البث، وتستخدم فقط الصينية لتطهير!

التحدي المسك Neuralink! ستانفورد واجهة جديدة الدماغ والحاسوب والدماغ المباشر ورقاقة السيليكون

تاج جديد أو سبب وفيات الشخصية تضاعف خلال العام! الخريجين كولومبيا الفحص السريع الأجسام المضادة مع تعلم الآلة

غيتس: "الصين فيروس" هو الأخطاء والكشف عن الفيروسات له الأولوية ولكن ليس للأغنياء

21 دولة و 377 كامل الجينوم تحليل: نشأت استكشاف الفيروس الجديد تاج

تحليل صورة CT من العهد الجديد في 4 دقائق فقط! طور علماء الكمبيوتر العدوى السلاح النهائي

يمكنك أيضا استخدام المصدر المفتوح اردوينو صنع آلة التنفس، والمستشفيات الإيطالية أيضا استخدام 3D صمام طباعة

أعلنت جائزة تورينج 2019! من الرمزية للوصول إلى جائزة تورينج، المخضرم بيكسار للرسوم المتحركة حلم

وحشية براءات الاختراع الابتزاز، وكانت الكشف عن الفيروسات العهد الجديد هذه الشركة المارقة براءات الاختراع في الواقع سوفت بنك الاستثمار

بحث جديد لها على مواجهة الإمبراطورية البريطانية على غرار التضحية محاربة هذا الوباء، والخوف من الموت الناجم 500،000 البريطانيين

مخصصة لحراسة بصمت وراء "الشريك الأصغر" في كل هذه السنوات وأنا سعيد للغاية أن يكون لك

2-0 عودة! 17 دقيقة 2 أهداف! اندلعت أوروبا 1000000000 عمالقة بها، طرد من الليل سجل لمدة 4 سنوات

مجنون 3-2! شهد 50،000 شخص في دوري ابطال اوروبا انهار، كلوب تاج الأحلام المكسورة

0-1! إعادة كتابة وو لي الاسبان 120 سنة من التاريخ، وسائل الإعلام الغربية بعد المباراة تقييم له قولا

وو لي 0-1 هزيمة لإلقاء اللوم؟ وأوضحت أسباب فقدان المدرب الاسباني خارج، والمراوح سعيدة

1-0! 4 جنون للحصول على 10 نقطة! الفوز على أفضل فريق في فبراير شباط بعد ولادة الدوري الممتاز ليفربول مانشستر سيتي

وقال يو تشنغ دونغ الحية HMS الشهر هواوي P40 التخلي تماما خدمات Google، مثبتة مسبقا الغموض تطبيق أكثر من 400 مليون

الدراسة الجديدة الصينية صعد العلوم غطاء تاج تاج لأول مرة للكشف عن فيروس جديد البشرية بنية مستقبلات

لى غووجي: في السنوات القليلة القادمة هو العصر الذهبي للالحوسبة المتوازية

نجحت جامعة بكين في حذف ذكريات محددة بدقة ، ومن المتوقع أن يتم اختبار واجهة ماسك بين الدماغ والكمبيوتر على البشر هذا العام

كوانغ اعتمادا على عمق التعلم إطار تيانيوان العرض الأول في العالم! 3 لكتابة سطر واحد من المتدرب كود

عن طريق الالهام علم الأعصاب، واكتشاف وكفاءة أسلوب الترميز

ماريو كارت اختبار المياه

معالجة البيانات إدخال الاهتمام الذاتي

تحقيق ليس فقط أهدافهم، كما انخفضت المعلمات 1000 مرة

الأحكام ذات الصلة