في تعزيز التعزيز الحجارة الذهبية: Deepmind و Openai للتغلب على المعنى الحقيقي للانتقام من مونتيزوما

تقرير شينزهي يوان

التجميع: شياو تشين

شينزهي يوان مقدمة "انتقام مونتيزوما" هي لعبة معروفة بشكل جيد ، وهي تحد كبير لتعزيز التعلم. منذ فترة طويلة ، شارك مؤلف هذا المقال في دراسة وبحوث تعزيز العمق. إنه يعتقد أن انتقام ديب ميند و Openai على مونتيزوما لا يقل أهمية. الهدف الطويل المدى المتمثل في تعزيز التعلم العميق هو السماح للهيئات الذكية المعرفة ذات الأولوية ويمكن أن تبدأ ممارسة الألعاب من الصفر.

في الآونة الأخيرة ، أعلن كل من DeepMind و Openai أنه يمكنهم تطوير لعبة Atari 2600 التي يمكنهم تعلمها "انتقام مونتيزوما" المستوى الأول ذكي. يزعمون أنهم مهمون لأن لعبة "مونتيزوما" مهمة لأبحاث الذكاء الاصطناعي. على عكس معظم الألعاب في بيئة التعلم الممرات (ALE) ، يمكن الآن حل معظم الألعاب بسهولة من خلال عوامل التعلم العميقة لتحقيق أداء المتسابقات البشرية. ومع ذلك ، لم يتم حل "انتقام مونتيزوما" عن طريق تعزيز أساليب التعلم العميقة ، ويعتقد بعض الناس أنه لن يتم حله في السنوات القليلة المقبلة.

أول غرفة للانتقام من مونتيزوما

الفرق بين انتقام مونتيزوما والألعاب الأخرى في البيرة هو أنه كذلك جائزة (المكافآت) صغيرة نسبيا. هذا يعني أن الوكيل سيتلقى إشارة مكافأة فقط بعد إكمال سلسلة محددة من الإجراءات لفترة طويلة. في الغرفة الأولى من انتقام مونتيزوما (انظر الشكل 1 أعلاه) ، هذا يعني أن الوكيل يريد الخروج من السلم ، والقفز فوق مساحة مفتوحة مع حبل ، وينزل سلمًا آخر ، وتخطي عدوًا يمكنه التحرك ، وأخيراً أخيرًا ، وأخيرا أيضا الصعود إلى سلم آخر. كل هذه فقط للحصول على المفتاح الأول في الغرفة الأولى!

في المستوى الأول من اللعبة ، هناك 23 غرفة من هذا القبيل. يجب على الوكيل الحصول على جميع المفاتيح في هذه الغرف لإكمال هذا المستوى (انظر الشكل 2). الأمر الأكثر تعقيدًا هو أن شروط الفشل في اللعبة صارمة أيضًا. العميل سيؤدي إلى الوفاة بسبب العديد من الأحداث الممكنة. وأكثرها تعبًا هي الانخفاض من مكان مرتفع. يمكن لأولئك الذين ليسوا على دراية بهذه اللعبة أن يحاولوا اللعب ومعرفة المدة التي تستغرقها لتمرير الغرفة الأولى ، ناهيك عن تمرير المستوى الأول. هذه اللعبة لديها نسخة عبر الإنترنت:

https://www.retrogames.cz/play_124-kari2600.php؟language=en

انتقام مونتيزوما المستوى الأول

بسبب الصعوبة ، تعتبر لعبة "انتقام مونتيزوما" تحديًا كبيرًا لطريقة RL العميقة. في الواقع ، هذه اللعبة تحفز بعض الطرق الأكثر إثارة للاهتمام لتطويرها. يمكن لهذه الطرق تعزيز أو إعادة بناء خوارزمية RL العميقة التقليدية ، واستخدام طريقة جديدة التحكم في التصميم والاستكشاف والخبرة الخلفية جوهر لذلك ، عندما ادعى كل من DeepMind و Openai أنهم طوروا خوارزميات يمكن أن تلعب هذه اللعبة بشكل جيد ، أصبحت أخبارًا كبيرة (على الأقل في بعض المناطق).

ما مدى قوة DeepMind و Openai في هذه اللعبة؟ وبهذه الطريقة ، فإن أعلى مستوى تقني سابق هو 2600 نقطة (نموذج المرح DeepMind) ، ويمكن أن تصل الطريقة الجديدة إلى عشرات الآلاف من النقاط. من منظور الهندسة والنظرية ، كانت جميع هذه الطرق الثلاثة نتائج رائعة ، ويجب تعلم جميع الطرق.

ومع ذلك ، فإن بيان انتقام مونتيزوما ليس كما هو الحال في العمق كما تبدو وكأنها تبدو. في هذه الحالات الثلاث (ورقتين من DeepMind ومقال Openai) ، يعد استخدام مظاهرات الخبراء البشرية جزءًا من خوارزميةهم ، مما يغير بشكل أساسي جوهر مشاكل التعلم.

في هذه المقالة ، ما أريد مناقشته هو أن هذه الأساليب هي حل المستوى الأول من لعبة الانتقام من مونتيزوما ، ولماذا لا يبدو أن هذه الأساليب مهمة في بيئة اللعبة والأهداف الطويلة المدى لـ Deep RL. في النهاية ، سأناقش بإيجاز النتيجة الحقيقية لهذه اللعبة الصعبة ، والتي ستشير إلى اتجاه التقدم لهذا الحقل.

نتائج DeepMind: تعلم من YouTube و Q-Learning

تعلم من يوتيوب

نشرت DeepMind ورقة تُعتقة في شهر مايو "تلعب ألعاب التفتيش الصعبة من خلال مشاهدة YouTube بمشاهدة YouTube" ، والتي تقترح الطرق الثلاث التي قدمناها اليوم لحل انتقام مونتيزوما للانتقام من مونتيما اليوم. الطريقة الأكثر إثارة للاهتمام. كما هو موضح في الموضوع ، صمم فريق البحث طريقة للاستخدام فيديو للمستوى الأول من اللاعبين المحترفين يمرون اللعبة لمساعدة عملية التعلم.

تمثل مشكلة "التعلم من الفيديو" نفسه تحديًا مثيرًا للاهتمام ، يتجاوز التحدي تمامًا للعبة نفسها. كما أشار المؤلف ، تحتوي مقاطع الفيديو الموجودة على YouTube على مجموعة متنوعة من القطع الأثرية ، والتي يمكن أن تمنع ما حدث في الفيديو والأشياء التي يمكن ملاحظتها في الوكيل في ALE. من أجل حل هذه "الفجوة" ، قاموا بإنشاء طريقة يمكنها تضمين نتائج مراقبة حالة اللعبة (البصرية والسمع) في مساحة مشتركة.

مقارنة بين مقاطع الفيديو التوضيحية المختلفة وصور المحاكاة

بعد ذلك ، توفر هذه المساحة المدمجة مكافآت لتعلم الأجسام الذكية. لم يعد الوكيل يقبل فقط المكافآت المتفرقة التي توفرها اللعبة الأصلية ، ولكن لا يزال من الممكن الحصول عليها مكافأة وسيطة المكافأة الوسيطة تتوافق مع نقطة التفتيش على طول المسار الذي يوفره الخبراء واللاعبين. وبهذه الطريقة ، يمكن لـ Agent الحصول على إشارة تعليمية أقوى ، وأخيراً اجتاز المستوى الأول من اللعبة برصيد 41000 درجة.

Q-Learning

في نفس الوقت الذي تم فيه نشر ورقة YouTube ، شارك DeepMind نتائج مجموعة أخرى من التجارب. لم يكن عنوان هذه الورقة جذابًا للغاية: "راقب وابحث عن ذلك: تحقيق أداء ثابت على أتاري".

في الأطروحة ، يقترحون سلسلة من تحسينات الخوارزمية المثيرة للاهتمام العميق Q-Learning ، تحسين استقرار وقدرة الخوارزمية. الأول هو إضافة عامل خصم في Q-update ، بحيث يمكنك تعلم الاعتماد على الوقت لفترة أطول دون النظر في العيوب النموذجية لعامل الخصم العالي. تتمثل الطريقة الثانية في تمكين التعلم العميق لشرح الترتيب المختلفة لإشارات المكافآت ، بحيث يمكن للخوارزمية حل أفضل الاستراتيجيات التي تنطوي على مهام تعلم هذه المكافآت المختلفة.

بالإضافة إلى هذين التحسين ، يوصيون أيضًا باستخدامه مظاهرة الإنسان (المظاهرات البشرية) كوسيلة لتعزيز عملية الاستكشاف ، فإنه يوفر تلقائيًا معلومات حول مسار مساحة الحالة الذي يتبعه اللاعبون المحترفون. إلى جانب هذه التحسينات الثلاثة ، حصل المؤلف أخيرًا على وكيل للمستوى الأول من انتقام مونتيزوما برصيد 38000 نقطة. تجدر الإشارة إلى أن التحسين الأولين فقط (لا توجد مظاهرات بشرية) لا يكفي للحصول على الاهتمام في اللعبة ، مع أكثر من 2000 نقطة فقط.

نتيجة Openai: تحسين استراتيجية المانح

استخدم إعادة التشغيل أثناء التدريب

بعد بضعة أسابيع من نتائج DeepMind ، نشر Openai منشورًا مدونة تصف طريقة يمكنها أيضًا تدريب المستوى الأول من الانتقام الذي يمكن أن يدرب رجال الأذكياء على إكمال مونتيزوما. تعتمد هذه الطريقة أيضًا على المظاهرات البشرية ، لكن أساليبها تختلف قليلاً عن DeepMind.

في طريقة Openai ، ليست المظاهرات البشرية جزءًا من إشارة المكافأة أو التعلم ، ولكنها وسيلة لإعادة التشغيل (إعادة التشغيل). بالنظر إلى مسار حركة الخبراء البشريين في اللعبة. عندما تبدأ اللعبة في نهاية اللعبة ، تكون ببطء في عملية إعادة التشغيل. نقل المسار جوهر ميزة ذلك هي أن وكيل التعرض فقط للجزء الذي استكشفه اللاعبون البشر بالفعل في اللعبة ، وأصبح نطاق الوكيل نفسه أقوى. لم تغير هذه الطريقة خوارزمية التعلم الفعلية بسبب تحسين الإستراتيجية القريبة الافتراضية (خوارزمية PPO). طالما أن الوكيل يبدأ في الموضع "الصحيح" ، فإنه يكفي التأكد من أنه يجد الحل الصحيح. في النهاية ، تسجل الطريقة أعلى 74،500 نقطة تاريخية.

تقليد التعلم

جميع الطرق المذكورة أعلاه لها شيء واحد مشترك ، أي أن جميعهم يستخدمون مجموعة مظاهرة الخبراء البشريين جوهر تستخدم الطريقة الأولى المظاهرات لتعلم إشارات المكافآت. تستخدم الطريقة الثانية عروضًا لمعرفة قيم Q أكثر دقة. تستخدم الطريقة الثالثة عرضًا لإعادة تشغيل الوكيل بذكاء. في هذه الحالات الثلاث ، تعد المظاهرات ضرورية للتعلم. بشكل عام ، يعد استخدام العرض التوضيحي طريقة جيدة لتوفير معنى حول المهام حول المهام. في الواقع ، هذه هي الطريقة التي يمكننا بها تعلم مهام لا حصر لها. مفتاح قدرة البشر على التعلم من العرض التوضيحي هو أنه يمكننا تجريد وإحداث عرض واحد واستخدامه في مواقف جديدة. بقدر ما يتعلق الأمر بلعبة "انتقام مونتيزوما" ، مع تطورها لحل اللعبة المشترك (مثل ورقتي DeepMind) ، فإن ما تم تطويره حقًا هو ضعف رئيسي في استخدام اللعبة كمنصة تجريبية. طريقة ذكية. : تشويه اللعبة (الحتمية).

سواء أكان ذلك هو البشر أو الذكاء الذكاء ، في كل مرة ألعب فيها "انتقام مونتيزوما" ، سيتم رؤية العديد من الغرف نفسها بالضبط ، وكل غرفة لها نفس العقبات والألغاز. لذلك ، تكفي ذاكرة بسيطة في كل غرفة لتجعلك تحصل على درجات عالية وتكون قادرًا على تمرير هذا المستوى. على الرغم من أنه ليس بالضرورة عيبًا كبيرًا إذا أجبر الجسم الذكي على التعلم من نقطة الصفر ، عندما تتم إضافة هذا الموقف إلى مظاهرة الخبراء ، يصبح عيبًا. تستخدم هذه الحلول الثلاثة تأكيد اللعبة لتمكين الجسم الذكي من تعلم مسار الحل بسهولة أكبر. في النهاية ، ليس كيفية ممارسة الألعاب الصعبة ، ولكن كيفية أداء مجموعة من الإجراءات المحددة مسبقًا لإكمال لعبة معينة.

ذكرت منشور مدونة Openai لفترة وجيزة مشكلة اليقين ، ولكن على مستوى محاكاة Atari ، وليس على مستوى لعبة محددة. حلهم هو استخدام عرض إطار عشوائي لمنع العامل من تذكر المسار. على الرغم من أن هذا يمنع ذاكرة الوكيل سلسلة من الإجراءات ، إلا أنها لا تمنعها من حفظ المسار العام من خلال مساحة الحالة.

في كل هذه الحالات ، لم تعد لعبة "انتقام مونتيزوما" مشكلة صعبة لمشكلة المكافآت المتفرقة ، لكنها أصبحت مشكلة أسهل في مسار التعلم من خلال مساحة الدولة الثابتة. هذا أمر مؤسف ، لأنه في المفهوم الأولي ، قد لا تزال هذه اللعبة تقدم تحديات أكثر جاذبية للباحثين الذين تم تعزيزهم بعمق.

حل انتقام مونتيزوما -طريق صعب

لبضع سنوات ، لقد أوليت اهتمامًا وثيقًا لنتيجة انتقام مونتيزوما ، لأنني أعتبرهم حجرًا ذهبيًا لاستخدامه تحقق من علامات تعميق التعزيز التعليمي لإظهار المزيد من المنطق والقدرة على التعلم جوهر تُظهر العديد من النتائج أن إعطاء قدرة كافية من الحوسبة ، والتعلم العميق ، وحتى البحث العشوائي يمكن أن يحل مشاكل التحسين البسيطة. ومع ذلك ، يهتم العديد من الباحثين بالذكاء على المستوى البشري ، وهو ليس فقط تحسينًا بسيطًا. يتضمن مفاهيم التعلم والتفكير على مستويات مجردة متعددة ، بما في ذلك المعرفة المفاهيمية المستفادة من مساحة مشكلة واحدة ليتم الترويج لها إلى العديد من المساحات الإشكالية بطريقة واحدة قابلة للتكيف.

عندما تقدم الغرفة الأولى لانتقام مونتيزوما لأي شخص وتسألهم عما يحتاجون إلى القيام به ، سيبدأون قريبًا في وصف سلسلة من الإجراءات والملاحظات لك ، مما يشير إلى أن البشر لديهم ديناميات محتملة للعبة. فهم معقد. المظاهر الأكثر وضوحا التي يدركون أن المفتاح هو الكائن المثالي ، الجمجمة هي شيء يجب تجنبه ، والسلم هو شيء لديه القدرة على التحرك. ثم ينطوي المفتاح على القدرة على فتح باب القفل ، والخطط متعددة الخطوات المعقدة فجأة وكيفية إكمال المستوى. هذا المنطق والتخطيط ليسا مناسبًا فقط لمستوى معين من اللعبة ، ولكن أيضًا إلى أي مستوى أو لعبة مماثلة واجهناها. هذه المهارات مهمة للغاية بالنسبة للذكاء البشري ، وهم مهتمين أيضًا بأولئك الذين يحاولون تعزيز التحسين العميق لخوارزمية التحسين البسيطة. ومع ذلك ، فإن استخدام المظاهرات البشرية في بيئة معينة قد تجاوز احتياجات هذه المهارات تمامًا.

إذا لم يتم استخدامه لشرح المعرفة السابقة للمشاهد المرئية ، فقد تبدو ألعاب مثل "انتقام مونتيزوما" مثل هذا

بالطبع ، هذه المهارات هي أيضًا الأكثر صعوبة في التعبير عنها في شكل خوارزميات ، وخاصة أشكال التعبير البشري لم يتم فهمها تمامًا. خاصة في حالة التعلم المفاهيمي ، عادة ما تكون هناك حاجة إلى معرفة عامة بالمعرفة الخارجية في قضايا جديدة. كما أشار فريق بحث في بيركلي ، إذا لم يكن لدينا أي معرفة مسبقة (سواء كان ذلك متأصلاً في التعلم في اليوم التالي للغد) ، فإن العديد من ألعاب الفيديو التي نفكر فيها ستصبح أكثر تعقيدًا.

ثم يصبح السؤال هو المعرفة ذات الأولوية التي تتطلبها ألعاب مثل "انتقام مونتيزوما". بالإضافة إلى ذلك ، لم يتم استخدام هذه المعرفة المستفادة من AIRE فقط للعب مستوى معين من لعبة معينة ، ولكن يمكن أن تلعب أي مستوى من اللعبة. يقال إن التعلم والمؤسسة المفاهيمية تقوم ببعض المهام المثيرة للاهتمام. أعتقد أنه من الأهمية بمكان حل هذه المشكلات. هناك أيضًا بعض الوظائف التي تقوم بتطوير بيئات عشوائية أكثر لاختبار تعميم الذكاء بشكل أفضل. وأبرزها مسابقة GVGAI (مسابقة GM Video Game AI).

إنني أتطلع بفارغ الصبر إلى يوم واحد يمكننا أن نقول إن ذكاء الذكاء الاصطناعي يمكن أن يتعلم لعب "انتقام مونتيزوما" من الصفر. عندما جاء ذلك اليوم ، كان هناك العديد من الأشياء المثيرة.

الرابط المرجعي:

[1] لعب ألعاب التفسير الصعبة من خلال مشاهدة YouTube

https://arxiv.org/abs/1805.11592

[2] لاحظ وابحث عن ذلك: تحقيق أداء ثابت على أتاري

https://arxiv.org/abs/1805.11593

[3] تعلم انتقام مونتيزوما من مظاهرة واحدة

https://blog.openai.com/learning-montezumas- Revenge-from-a- a-single-tonortration/

مؤتمر Xinzhiyuan AI World 2018 [تذكرة الطيور المبكرة] بحار!

سيعقد Xinzhiyuan مؤتمر AI World 2018 في مركز المؤتمرات الوطنية في بكين في 20 سبتمبر ، مما يدعو قادة الذكاء الاصطناعى مثل Max Terig Mark و Zhou Zhihua و Tao Dacheng و Chen Yiran إلى الانتباه إلى الذكاء الآلي والمصير البشري.

الموقع الرسمي للمؤتمر:

الآن في 19 أغسطس ، سيتم إصدار Xinzhi Yuan في بيع العديد من تذاكر الطيور المبكرة ، انقر فوق قراءة النص الأصلي تذاكر التذاكر للتواصل مع قادة الذكاء الاصطناعي العالمية وشاهد تطوير صناعة الذكاء الاصطناعي العالمي.

  • رابط تذكرة شراء الحدث:

    QR التذاكر شراء الأحداث:

قطاع التنقيب شفروليه: 200،000 يمكن شراؤها عن وزارة الخارجية الأميركية SUV النقي، ولكن أيضا ما الدراجة؟

سجل نسبة اللاعبين المحليين 40 في المئة أعلى الابتكار، U23 يسلط الضوء على ثلاثة أهداف مثل البرازيل لمساعدة معظم لافتة للنظر

الخطية نموذج يمكن أن يفسر بعض أعلى من DNN؟ علماء جامعة كاليفورنيا سان دييغو: خطأ!

فحص عطلة رأس السنة الصينية الجديدة 27! قائد شرطة النائب في عمود

التبت لا، أفضل بكثير من التبت. هذه القطعة من الأرض الطاهرة، تضاهي التبت

هناك بعض القصائد، وإنهاء ضربة معلم، مذهلة للألفية!

مشروع جوجل أيضا مع إشارات المرور AI، آلة السلطة لإلغاء قرارات الإنسان

شمال بالي شو الجمال الخفية للنظام الإيكولوجي الأصلي

سوبر اثنين من الانطباعات: لونينغ أكبر "الظلام الحصان" على قوة هونغ كونغ، والحق في الصحة أو موسم التكاثر Suning

التعليق باو وو BX7 الدفع الرباعي الرئيسي: من أين في النهاية، لا يهم حقا

"منظمة العفو الدولية صدمة جدول زمني" عن ظهر GM AI في عام 2040، في 2200 الأرض سوف تصل إلى نوع I الحضارة

الذي هو معظم الصينيين | كسر خمسة، نرحب إله الثروة