قياس عمق تعزيز خوارزمية التعلم التعميم

لى فنغ شبكة AI تقنية مراجعة من قبل: OpenAI صدر مؤخرا بيئة تدريبية جديدة CoinRun، ويوفر القدرة على مؤشر ومقياس وكيلها يتعلم من تجربة التعلم واستخدام الوضع الجديد، ولكن أيضا حل وجود طويل الأمد في تعزيز التعلم المشاكل الصعبة - حتى تحسين خوارزمية ونالت استحسانا كبيرا في عملية التدريب لا يشرف دائما تعلم استخدام التكنولوجيا، مثل هذا التسرب والتطبيع دفعة. ولكن آلية تعميم CoinRun في، وقد وجد الباحثون OpenAI أن هذه الأساليب مفيدة في الواقع، وأنها وضعت في وقت سابق تعزيز التعلم لدى MDP محدد الإفراط المناسب. جعل CoinRun من حيث التعقيد توازن مرض: البيئة، مثل "سونيك القنفذ" هو أبسط بكثير من لعبة منصة التقليدية، لكنه لا يزال هو تعميم من خوارزميات القائمة من التحديات الصعبة. ووصف لى فنغ شبكة AI تقنية مراجعة أدناه.

التحدي التعميم

وقد تم تعميم مهمة صعبة بين عمق الحالي لتعزيز التعلم (RL) الخوارزمية. وعلى الرغم من أن وكيل يمكن تدريبهم على حل المهام المعقدة، لكنها ستنقل تجربة تعلمت الصعبة مع البيئة الجديدة. حتى لو كان الناس يعرفون تعزيز كيل تعلم تميل إلى الإفراط في تركيب - وهذا هو، وليس المهارات العامة التعلم، وأكثر اعتمادا على تفاصيل بيئتهم - تعزيز التعلم وكيل دائما لقياس تدريبهم من خلال تقييم البيئة . هذا هو مثل، واختبار نفس مجموعة التدريب الخاص بك في التعلم تحت إشراف!

تعزيز استخدمت الدراسة والبحث في المعايير السابقة لعبة سونيك، البرنامج لدت شبكة متاهة العالم، وكذلك ألعاب الفيديو إطار منظمة العفو الدولية للتصميم العالمي هو حل هذه المشكلة. في جميع الحالات، والتعميم هو قياس من خلال التدريب وكيل الاختبار على مجموعة مختلفة من المستويات. في اختبارات OpenAI وتدريبهم في أداء صوتي معايير اللعبة وكيل المتميز على مستوى التدريب، ولكن إذا كنت لا تذهب من خلال تعديل غرامة (صقل)، فإنه لا يزال سوء الأداء على اختبار المستوى. في تركيب أكثر من عرض مماثل، تعلم برنامج لدت متاهة تدريب وكيل لتذكر الكثير من مستويات التدريب، وضعف الأداء في ظل صعوبة وكيل GVG-AI لم أر خلال إعدادات التدريب.

قواعد اللعبة

CoinRun لخوارزميات القائمة مصممة مشهد يريدون معالجتها، مثل أن يقلد أسلوب لعبة سونيك منصة. يتم إنشاء نقطة تفتيش CoinRun من قبل البرنامج، بحيث عامل يمكن الوصول إلى كبيرة وسهلة لقياس بيانات التدريب. كل هدف مستوى CoinRun بسيط: القفز فوق عدة ثابتة أو عقبات غير ثابتة، وعملة جمع في نهاية المرحلة. إذا عقبة الاصطدام، وكيل وسوف يموت على الفور. يتم الحصول على بيئة مكافأة الوحيد عن طريق جمع القطع النقدية، وهذه الجائزة هو ثابت ثابت. عندما وكيل الموت، وجمع القطع النقدية أو بعد 1000 خطوات الوقت، ومستوى الإنهاء.

يتم توفير صعوبة CoinRun كل مستوى من أعلى 1-3 تظهر مستويين مختلفين: صعوبة 1 (يسار) وصعوبة -3 (R)

تقييم تعميم

OpenAI تدريب للعب تسعة وكيل CoinRun، كل عامل لديه عدد مختلف من مستويات التدريب المتاحة. حيث بلغ عدد مستويات التدريب تتراوح بين 8 وكيل، وعدد من وكيل آخر نقطة تفتيش لا يقتصر 100-16000، لذلك لن نذهب من خلال مستوى التدريب نفسه. OpenAI باستخدام مشترك من ثلاث طبقات هندسة الشبكات الإلتواء (يسمونه الطبيعة-CNN) والسياسات على تدريب وكيل في. التي يستخدمونها الأمثل استراتيجية قرب نهاية (PPO) من وكيل وكان التدريب، وأكمل ما مجموعه 256M من الخطوات الوقت. منذ متوسط مدة كل جولة من تدريب 100 الخطوات الوقت، مع مجموعة ثابتة من تدريب كل وكيل سترى نفس المستوى من تدريب آلاف بل ملايين المرات. وأن وكيل غير المقيد الماضي، من خلال مجموعة من التدريب غير المقيد، وسوف نرى نحو مليوني مستويات مختلفة، مع كل واحد.

تم جمع البيانات OpenAI وتآمر في FIG التالية، تمثل كل نقطة متوسط الأداء من وكيل في 10،000 التدريب. استخدام عامل الوقت لاختبار مستوى لم يسبق له مثيل من قبل. ووجد الباحثون أنه عندما يخفض عدد النقاط التدريب من 4000، سيكون هناك الشديد إزاء لتركيب. في الواقع، حتى مع وجود تدريب 16000 نقطة، سوف يكون هناك لا يزال أكثر من المناسب! وكما كان متوقعا، وافق على أداء وكيل لا يقتصر على مستوى تدريب أفضل، لأنه لا يمكن الوصول إلى البيانات احتياطيا. وكيل يمثله خط كسر في FIG.

وسوف تستخدم شبكة IMPALA الأساس التفاف الطبيعة-CNN تمت مقارنة وجدت يجب أن يكون لها تأثير تعميم وكيل IMPALA- سي إن إن في أي مجموعة التدريب أفضل بكثير، كما هو مبين أدناه.

(يسار) التدريب النهائي واختبار سي ان ان - وكيل طبيعة الأداء، من خلال 256M من الخطوات الوقت، والمحور الأفقي هو عدد نقاط التدريب. (يمين) التدريب النهائي واختبار الأداء وكيل IMPALA-CNN، من خلال 256M من الخطوات الوقت، والمحور الأفقي هو عدد النقاط التدريب

تحسين أداء التعميم

في التجربة القادمة، وتستخدم OpenAI 500 مستوى CoinRun من مجموعة التدريب الثابتة. OpenAI كيل القياسي في عدد نقاط التفتيش تعميم القليل جدا، مما يجعل من مجموعة التدريب قاعدة مثالية. انهم تشجيع الآخرين على تقييم أساليب خاصة بهم، مقارنة مباشرة من اختبارات الأداء التي أجرتها التدريب على نفس 500 نقطة. مع هذه المجموعة التدريب، درسوا آثار عدة تقنيات التنظيم:

التسرب (عندما شبكة التغذية إلى الأمام العصبية المعقدة تدريبهم على مجموعات البيانات الصغيرة يؤدي بسهولة إلى الإفراط في تركيب. النظام في منع هذا من الحدوث، يمكنك في وقت مختلف عن كشف ميزة مختلفة لا يشاركون في ممارسات التدريب لتحسين أداء الشبكات العصبية) وL2 دفعة تسوية (وهذا هو، وعمق العملية التدريبية الشبكة العصبية، بحيث يكون لكل طبقة من مدخلات الشبكة العصبية تبقى نفس دفعة من توزيع موحدة): كل من جلب تعميم أفضل الأداء، وتأثير أكبر L2 تسوية

تعزيز البيانات دفعة والتوحيد: تعزيز البيانات دفعة وتوحيد تحسن بشكل كبير من التعميم.

العشوائية البيئة: بالمقارنة مع أي من التقنيات المذكورة أعلاه، عشوائية تدريب لتحسين التعميم (انظر ورقة https://arxiv.org/abs/1812.02341) إلى حد أكبر.

إضافية البيئية

كما وضعت OpenAI اثنين من بيئة أخرى لدراسة مدى المناسب: أ-CoinRun منصة CoinRun المتغيرات وبيئة متاهة الملاحة بسيطة تسمى RandomMazes اسمه. في هذه التجارب، استخدموا الأصلية العمارة IMPALA-CNN وLSTM، لأنها تحتاج إلى التأكد من ذاكرة كافية لتشغيل جيدا في هذه البيئات.

في CoinRun-المنصات، وكيل تحاول جمع بعض النقود في الخطوات الساعة 1000. وفرقت النقود بشكل عشوائي إلى نقطة على منصات مختلفة. في CoinRun-المنصات، والمزيد من النقاط، وأكثر ثابتة، وبالتالي فإن وكيل يجب استكشاف بنشاط أكبر، ولكن أيضا في بعض الأحيان الخطوات إلى الوراء.

التدريب النهائي واختبار الأداء بعد ملياري مرات الخطوات على CoinRun-المنصات في وقت لاحق، والمحور الأفقي هو عدد النقاط التدريب

عند تشغيل أنها اختبار CoinRun-المنصات وRandomMazes عامل في التجارب خط الأساس، وكيل وخطيرة للغاية على مدى المناسب في جميع الحالات. في RandomMazes، لاحظوا أنه حتى مع 20،000 مستويات التدريب قوية بشكل خاص في تركيب أكثر هو أنه لا تزال هناك فجوة كبيرة بين وكيل نقاط التفتيش التعميم غير محدودة.

RandomMazes مستوى واحد، والتي تبين مراقبة جهاز المخابرات المكاني (من اليسار). المحور الأفقي هو عدد النقاط التدريب

الخطوة التالية

النتائج OpenAI كشفت مرة أخرى مشكلة إمكانية تعزيز التعلم. تم إنشاؤها باستخدام برنامج البيئة CoinRun يمكن كميا بدقة من خلال هذا المناسب. مع هذا الإجراء، يمكن للباحثين تقييم أفضل الحرجة العمارة صنع القرار والخوارزميات. ويعتقد أن الدروس المستفادة من هذه البيئة سيتم تطبيقها على بيئة أكثر تعقيدا، وأنها تريد استخدام هذا المعيار، ومعايير أخرى مماثلة، متكررة إلى الأمام إلى وكيل لتعميم العالمي.

للبحث المستقبل، توصيات OpenAI هي كما يلي:

العلاقة بين تعقيد البيئة البحثية وعدد من النقاط اللازمة لتعميم جيد

التحقيق في ما إذا كانت العمارة دورة مختلفة هو أكثر ملاءمة التعميم في هذه البيئات

استكشاف سبل الجمع بين فعالية أساليب مختلفة من تنظيم

إذا كنت مهتما في هذه السلسلة من الدراسات، OpenAI نرحب بكم للانضمام لهم!

ويمكن الاطلاع على التفاصيل في ورقة https://arxiv.org/abs/1812.02341

عبر blog.openai.com، شبكة لى فنغ جمعت AI تقنية مراجعة

طريق الحرير

قياس عمق تعزيز خوارزمية التعلم التعميم

التحدي التعميم

قواعد اللعبة

تقييم تعميم

تحسين أداء التعميم

إضافية البيئية

الخطوة التالية

هناك علة LOL نظام التصنيف؟ CoreJJ التصفيات المؤهلة الدرجات الحديد! الحديد أقوى تضحك على نفسك الثانوي

16 نوفمبر فيفو V11 / V11i الافراج عن السعر 2200 يوان

"ستار الرب" كريس برات: إذا كنت يمكن أن تنمو جنبا إلى جنب معه، بعد كل شيء، والولايات المتحدة وحلم!

محادثات س أديداس دائرة الرقابة الوطنية التعرض رسمي! هذا الشعور من البحر كنت ترغب في ذلك؟

Baojun 310 iAMT نموذج أو يعلن بداية السنة المذكورة

كل النجوم لعبة: الثاني الولادة ADC مئة في المئة يربح نسبة مئوية، أي أكثر من ضعف كريم تحدث عن لعب ما مجموعه من المرح!

ونقلت: والأجدر البدء في اليوان 2000! الدخن 8 SE الموصى بها

1000000 أو أقل يمكن أن تشتري؟ لكزس LS350 لاول مرة مذهلة

جدي من أجل البقاء: سنو خريطة لفتح آلية جديدة للتعامل مع جريمة قتل زملائه والغش كما لقب المباشر

2016 ظهرت نظرة على القطع الفردية من أحادية ملكة جمال فوجي الشجرة ذلك!

تلعب لعبة نظرة صحيحة، هواوي قرص M5 قوة غير عادية

على المنفذ 0: 1 خسارة أولسان هيونداي تعرض لأول هزيمة هذا الموسم، دوري السوبر الآسيوي، "كانغ هان" الوقوف فقط لكسب 1 نقطة

بعد عملية شد وجه مرسيدس-بنز S كلاس، ستواصل "معزولة الوضع" ذلك؟

تشاو: "الشبكة الحمراء" الذين كل يوم لمساعدة الإعلان عن مجد هو أنا وتركز فقط على المنتج

كانت SUV من السهل جدا للبيع، لماذا فجأة مايو إلى "الذبول" حتى؟

"رحلة V شيطان": ستيفن تشو أخيرا اثنين، ونحن لا ندين ذلك!

2018 شاندونغ كلية عشرات امتحان القبول سراح! دفعة عادية العلم 505 الآداب 435

توديع الغوص رؤية خنزير، خنزير، وأكثر من 200 مليار القيمة السوقية للأسهم ون وصل إلى القاع، ودورة الخنازير قد انتهت؟

جوجل بكسل سلسلة دفع الإضاءة المنخفضة كاميرا معززة الأسود مشرق حقا

سر "مجتمع الاستخبارات": جولة جديدة من العملاقة "حركة الضميمة"

JDG شنقا في الموسم الجديد، وهما فضيحة ADC حتى لا جيدة مثل دينغ هوانغ؟

شنغهاي المرشحين رؤية أعمى SAT يسجل 623 نقطة، بين مدينة رأس 10، من أعلى نقطة خجلة من 3 نقاط

التحدي التعميم

قواعد اللعبة

تقييم تعميم

تحسين أداء التعميم

إضافية البيئية

الخطوة التالية

الأحكام ذات الصلة