البحث الجديد جوجل الدماغ: واحد تعزيز مهمة الاختناقات قاء التعلم؟ "كارثي النسيان" وعاء!

الأغنام الأسماك من الجزء السفلي من راحة غير معبد، تقارير و qubit | عدد ملفه QbitAI

ألعاب أتاري، ولكن أيضا جلب لدراسة التعلم لتعزيز المشاكل الأساسية للمرحلة.

أحدث أبحاث الدماغ من تعزيز التعلم المقترحة جوجل هو جيد، وكفاءة منخفضة جدا، وهذا هو السبب؟

- لأن AI عانى من "النسيان كارثي"!

و، تعلم الآلة يسمى كارثية نسي هو ظاهرة شائعة. الوقت لتعلم المهام المختلفة في الشبكات العصبية العمق، والأوزان المرتبطة التغيرات السريعة ستضر أداء المهمة السابقة.

الآن، وشملت هذه الدراسة جائزة تورينج Bengio الإثبات، في بيئة التعلم الممرات (ALE) من مهمة واحدة، AI أيضا اجه مشكلة كارثية المنسية.

ووجد الباحثون أيضا أنه في مراقبة تذكار اقترحوا، في ذلك الوقت من الاختناقات وكيل الأصلية، وطرح على نفسه وكيل العمارة ثم تدريب، ونحن سوف تكون قادرة على تحقيق اختراقات جديدة.

"التدخل كارثي" في مباراة واحدة

في بيئة التعلم ممر (ممر بيئة التعلم، ALE)، ويتناول البحث وعادة ما تقوم على فرضية: أ يتوافق المهمة إلى لعبة، متعددة المهام تتوافق التعلم لألعاب متعددة أو طرق مختلفة لعبة.

وكان الباحثون شكك هذا الافتراض.

مباراة واحدة، سواء كانت أهداف التعلم معقدة موجودة؟ وبعبارة أخرى، إذا كان هناك اضطراب، والسماح AI يعتقدون أن له أن يجلس القرفصاء أمام مرة أخرى له؟

فريق البحث من الدماغ جوجل يختار "الثأر مونتيزوما" كما في المشهد البحوث.

ويعتبر "الثأر مونتيزوما" واحدة من أكثر مباريات صعبة ألعاب أتاري، متفرق مكافأة، هيكل الهدف المعقد.

ولاحظ الباحثون أن، CTS نموذج حساب الوكيل قوس قزح، وسوف تصل عنق الزجاجة عند 6600 نقطة. تدريب أطول وأكبر حجم النموذج لا يمكن أن تكون انفراجة.

ومع ذلك، مجرد بداية من هذا الموقف، ووضع على عامل جديد لديه نفس العمارة، وسوف تكون قادرة على اختراق لمستوى 8000.

لذلك مرة أخرى إعادة تعيين، وجاءت AI أعلى درجة إلى 14500 نقطة.

وتجدر الإشارة إلى أنه عندما استبدل مع وكيل جديد، وتحديد الوزن بشكل مستقل عن وكيل الأولي، والتعلم من التقدم وأنها لن تؤثر على التحديث الوزن إلى وكيل السابق.

وأعطى الباحثون هذه الظاهرة تحمل اسما، ودعا المراقبة تذكار.

يظهر الملاحظة تذكار التي تستكشف الاستراتيجية ليست عاملا رئيسيا AI النتيجة في هذا الحد اللعبة.

والسبب هو أن وكيل لا يمكن أن يكون دون تدهور أداء المرحلة الأولى من ظروف المباراة، جديدة مرحلة تكامل المعلومات من اللعبة، وتعلم في وظيفة جديدة منطقة المتوسط.

وبعبارة أخرى، والبيئة إشارة مكافأة متفرق، من خلال حوافز جديدة المعرفة المتكاملة، قد تتداخل مع سيد الماضي استراتيجية.

هذا الرقم هو تكرار العملية التدريبية برمتها، للمباريات الخمس الأولى من العينات البيئية.

في التدريب (العمود الأيسر) في وقت مبكر، لأنه بعد لم يتم العثور على الرابط، وكيل التدريب مستقلة دائما في المرحلة الأولى. بحلول منتصف التدريب، ويبدأ التدريب عامل في السياق، والذي قد يسبب تشويشا. وفي مرحلة لاحقة، وسوف كيل فقط تدريب في المرحلة الأخيرة، الأمر الذي سيؤدي إلى كارثة منسية.

وعلاوة على ذلك، فإن هذه الظاهرة قابلة للتطبيق على نطاق واسع.

فوق هذا الرقم، كل عمود يتوافق مع لعبة مختلفة، وهو ممثل للغاية من نسبة وكيل قوس قزح تذكار النسبية مع خط الأساس نمو قوس قزح.

في جميع أنحاء ALE، تحسن أداء كيل قوس قزح تذكار في 75 من اللعبة، والتي أداء متوسط من 25.

وأظهرت الدراسة أنه في عمق تعزيز التعلم، لعبة واحدة AI لا يمكن أن تستمر في التعلم، لأن هناك "التدخل الكارثي".

وعلاوة على ذلك، هذه النتيجة أيضا يدل على أن لفهم "مهمة" السابقة قد تكون مضللة تتكون من. ويعتقد الباحثون أن لفرز هذه المشاكل، يكون لها تأثير عميق على تعزيز الأساس للعديد من مشاكل في التعلم.

بوابة

عنوان ورقة: الشبكي: //arxiv.org/abs/2002.12499

جيثب: الشبكي: //github.com/google-research/google-research/tree/master/memento

- انتهى -

و qubit QbitAI عناوين على عقد

تابعنا، أبلغ أول مرة طليعة التطورات العلمية والتكنولوجية

التخفيف من حدة الفقر: المظهر القديم للقرية الجبلية له مظهر جديد

يعود خنان وطلاب الصف الثالث إلى المدرسة لاستئناف الدراسة

"الاقتصاد المصور الصينية" استمرت في فرض سياسة العمالة ثابتة: حماية بحزم "أكبر معيشة الشعب."

صدمت! المحيطة أسعار العقارات مباشرة بعد بات التربة السيدة وانغ! الفرصة الأخيرة الممكنة لمجرد أن يكون هنا ..

"الاقتصاد المصور الصينية" استمرت في فرض سياسة العمالة ثابتة: حماية بحزم "أكبر معيشة الشعب."

هيلونغجيانغ سويفنخه الميناء: عقد "ثلاثة خطوط للدفاع" لضمان أن الشخص لا تسرب

بكين: الناس ارتداء أقنعة أثناء ركوب الوباء في العمل

yiban Quangang Tuling القرية: الخيال الأرز البيئي البلشون الولايات المتحدة يطير

خذ حماية جيدة واستمتع بالربيع

وجدت خنان شانغ وتشو أن السجلات أوراكل كبيرة اكتشفت بقايا التضحية البشرية النادرة

التفكير الفراشة! Hengda العقارية لفتح المورد الكهرباء السنة الأولى

كانت الموسيقى والشعر ليكون "مشمس"