OpenAI أدخلت مؤخرا المختبر في عام 2017 لبناء ثمانية أنواع من بيئة محاكاة الروبوت وتقنيات تعزيز التعلم الجديدة التي تستخدم لتدريب الذكاء الاصطناعي للنموذج النهائي للروبوت الحقيقي. وفي الوقت نفسه، فإن المختبر أيضا عددا ليكون في مجال الروبوتات البحوث للإجابة على أسئلة جديدة.

بناء ثمانية أنواع البيئة روبوت محاكاة باستخدام MuJoCo منصة محاكاة المادية. البيئة 8 المحاكاة هي:

التقط

الشكل التقاط - وصوله V0: يتم نقل الذراع لموقف معين لتحقيق الاختيار.

الشكل اختيار - V0 اتصال : ذراع لمسة على الكرة الصغيرة على سطح المكتب، وبالتالي فإن الكرة تدحرجت عبر سطح المكتب، إلى الموقع المحدد.

الشكل التقاط - مواصلة دفع V0 : ما زالت الأسلحة لتعزيز مربع حتى يتم دفعها الى الموقع المحدد.

الشكل اختيار - العائمة الحركة وV0 التنسيب : التقاط مربع، يسمح له بمغادرة الطاولة، وانتقلت إلى الموضع المحدد أعلاه، ومن ثم إلى أسفل.

النخيل الظاهري

الشكل V0 النخيل الظاهري : الظاهري الحاجة النخيل للسيطرة على الإبهام وإصبع واحد اختار، والسماح لها لمس المنطقة المعينة على راحة يدك.

الشكل الظاهري النخيل - مربع V0 السيطرة : الظاهري اللعب النخيل مع مربع في متناول اليد، حتى نقطة والموقف من مربع لتلبية الاحتياجات.

الشكل النخيل الظاهري - البيض V0 السيطرة : اللعب بيضة النخيل الظاهري، والبيض حتى أنها لافتا، والمكان لتلبية المتطلبات.

الشكل النخيل الظاهري يدك - V0 ذراع التحكم : الظاهري اللعب النخيل بعصا حتى أشار موقف للقضيب وتلبية الاحتياجات.

هدف

8 أو بيئة محاكاة الأكثر شيوعا التي، لقد وضعنا هدفا للروبوت الظاهري ، مثل الكائن يتم الضغط على الموضع المحدد، أو الذهاب إلى الموضع المحدد. إذا كان الهدف هو لم يكتمل بعد، يحصل على الروبوت الظاهري -1 نقطة، وإذا ما اكتمل بنتيجة 0 - هذا الأسلوب التهديف بتسجيله مع التقليدية منصة Walker2d-V2 تختلف اختلافا كبيرا.

وبالإضافة إلى ذلك، أنشأ الفريق أيضا نظامهم الخاص من المكافآت لبيئات المحاكاة المختلفة. ومع ذلك، يعتقد الباحثون، "عودة متفرق" نظام الأقرب إلى بيئة التشغيل الروبوت حقيقية، ونحن ننصح اعتماد هذا النظام مكافأة الأولوية.

تعزيز التعلم خوارزمية

فريق البحث وعرض بعد فوات الأوان الخبرة الإعادة (HER) تعزيز خوارزمية التعلم يمكن أن نتعلم من الفشل. تبين التجارب أنه بالنسبة لمعظم الأسئلة البحثية في مجال الروبوتات، HER النماذج المتاحة يمكن أن تتولد من قبل فقط مكافأة متفرق نظامنا.

HER مقدمة المبدأ

الفريق مع اختيار - تعمل باللمس البيئة V0 المحاكاة، وأوضح كيف أن HER. الهدف من بيئة المحاكاة هو: لمس الكرة على مناور سطح المكتب، والسماح لللفة الكرة من فوق سطح المكتب، ليسجل الهدف. المحاولة الأولى غير المرجح أن تنجح، وفي اليوم التالي عدة مرات ليست على الأرجح، وبالتالي فإن النتيجة هي دائما -1. التقليدية خوارزمية تعزيز التعلم قد لا بيئة التعلم لا يمكن أن تحقق أهدافها في هذا التعادل.

HER مبتكرة: حتى لو لم تصل إلى الهدف المقصود عدة مرات، وصل الروبوت هدف آخر على الأقل . لذلك، قد وضع "الهدف غير مقصود" كبداية. وبهذه الطريقة، يمكن التوصل إلى تعزيز خوارزمية التعلم لتحقيق الأهداف والتعلم معينة - على الرغم من أن هذا الهدف ليس هو الهدف النهائي. مجرد تكرار هذه العملية تدريجية، الروبوت سوف تحقق في نهاية المطاف الأهداف المرجوة.

بداية التسليح التعلم ملخص الحالة، نظام HER لا يمكن وصلت مرة واحدة على الهدف الأصلي. سر هذا النظام هو "اللعب التي تشير إلى ما"، وهذا هو تم اختيار الروبوت الهدف في المرحلة المتوسطة بعد ضرب الكرة. "ما يعني أن المعركة التي" الأسلوب هو عادة الأساليب المستخدمة في تعلم الآلة، HER ممكن مع أي استراتيجية جديدة تقوم على تعزيز التعلم الخوارزمية (خارج السياسة RL خوارزمية)، مثل DQN وDDPG وتركيبة أخرى.

نتائج الاختبار

تظهر الاختبارات والأهداف HER تحت عنوان "عودة متفرق" شروط الجائزة إلى تحقيق ممتازة بيئة محاكاة الأداء، وتحديدا كما هو مبين أدناه:

الشكل شو نسبة النجاح في قيمة (خط) ومجموعة الشرائح الربعية (المنطقة المظللة) هم في النخيل الظاهري - V0 مربع التحكم بيئة اختبار المتاحة.

DDPG في ظروف متفرقة + HER خوارزمية ترجع أفضل أداء، ولكن من المثير للاهتمام أن DDPG + أداء الخوارزمية HER تحت ظروف العودة المكثفة ولكن ما هو أسوأ. DDPG خوارزمية الأصلية مهما كانت الظروف مكافأة، أداء غير مرض. وبالإضافة إلى ذلك، ظل أداء كل الخلافات خوارزمية مستقرة في معظم بيئة التجريبية.

متابعة الأبحاث

HER خوارزمية للعودة في ظل ظروف من المهام الموجهة نحو هدف معين معقدة متفرق، ويقدم وسيلة جديدة لتسوية، ولكن لا يزال هناك مجال كبير للتحسين، على وجه الخصوص، اقترح فريق البحث دراسة متابعة من المشاكل التالية:

1. " وهو ما يعني الإعداد الذي هدف اللعب التلقائي "الخوارزمية . التيار "الذي يشير إلى الحرب التي" الخوارزمية، هدفا وسيطة يمكن إلا أن يكون تعيين يدويا.

2 مشاركات HER . الحالية اختيار الهدف وسيطة ليست قاعدة صارمة، والتي من الناحية النظرية يمكن أن يؤدي إلى عدم استقرار نتائج التعلم، على الرغم من أن هذه الحالة لم يتم العثور على التجربة. ومع ذلك، فإن الفريق يعتقد، على أساس أخذ العينات أهمية وغيرها من التقنيات، ويمكن تحقيق غير متحيز HER بقواعد صارمة.

3، HER تعزيز التعلم والتسلسل الهرمي (تعزيز التعلم الهرمي، HRL.) الجمع . ويمكن تمديد هذه لHER من هدف واحد في التسلسل الهرمي.

4، أكثر من أنواع ظيفة قيمة . يمكن أكثر أنواع ظيفة قيمة، مثل عامل الاستهلاك (عامل الخصم) أو عتبة النجاح (عتبة النجاح) في "المعركة التي تشير إلى ما" الخوارزمية؟

5، سرعة نقل المعلومات . معظم عمق استراتيجية جديدة من خوارزمية تعزيز التعلم لضمان الاستقرار في التدريب الشبكة المستهدفة. ولكن نظرا للتغيرات في التوصيل نموذج يستغرق وقتا طويلا، وبالتالي الاستقرار المطلوب أصبحت أكبر عامل يحد DDPG + HER تعلم السرعة. ربما يمكن زيادة سرعة باستخدام أساليب أخرى استراتيجية مستقرة.

6 HER + متعددة الخطوات عودة . واستنادا إلى "المعركة التي تشير إلى ما" HER والهدف المتوسطة استراتيجية جديدة هي الحال في خوارزمية تعزيز التعلم، فمن الصعب اعتماد وظيفة متعددة الخطوات العودة (عودة متعددة الخطوات). ومع ذلك، فإن المعلومات ردود الفعل سرعة متعددة الخطوات وظيفة عودة أسرع، وبالتالي فإن البحث في كيفية دمج HER خوارزمية يستحق كل هذا العناء.

7، وذكر استراتيجية (على السياسة) HER . في الوقت الراهن، ويرجع ذلك إلى إدخال هدفا وسيطة، HER خوارزمية يمكن فقط استخدام السياسة الجديدة. ولكن الناس، PPO والخوارزميات الأخرى على أساس السياسة المتبعة في بيان الاستقرار عالية، فمن الضروري لدراسة كيفية مشترك من قبل HER طرق أخذ العينات أهمية المرتبطة به. وقد حققت هذه الدراسة بالفعل النتائج الأولية.

8، أنشطة تعزيز التعلم المستمر . حاليا، في حالة المراقبة المستمرة، وتعزيز التعلم أداء الخوارزمية هي سيئة للغاية، على واحد من ناحية بسبب استقراء المستمر، من ناحية أخرى أن المعلومات العودة ليست في الوقت المناسب ردود الفعل الظهر. كيفية تصميم خوارزمية تعزيز التعلم على التكيف مع تطبيقات المراقبة المستمرة لا يزال يمثل مشكلة.

9 HER سوف تكون جنبا إلى جنب مع غيرها الأخيرة خوارزمية تعزيز التعلم . بعض الخيارات الممكنة هي مراجعة ذات أولوية من الخبرة (الأولوية الخبرة الإعادة)، والتعلم وزعت التعزيز (RL التوزيع)، الانتروبيا التعلم تنظيم التسليح (قننت الكون RL،)، عكس التعلم بالطبع التعزيز (الجيل المنهج العكسي).

ويمكن الاطلاع على مزيد من المعلومات في التقرير الفني الصادر عن فريق البحث:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

توجيه بيئة محاكاة جديدة

البيئة الجديدة محاكاة القائم على الهدف، والحاجة إلى إجراء التغييرات التالية إلى محاكاة البيئة الحالية:

وتستخدم كل بيئة محاكاة الهدف على أساس مساحة المراقبة gym.spaces.Dict. وينبغي أن تتضمن بيئة محاكاة دولة نهائي الهدف (esired_goal)، والوصول إلى الهدف في الوقت الراهن (achieved_goal) والروبوتات (الملاحظة).

ويسمح نظام المحاكاة يتم إعادة حساب قيمة الإرجاع وفقا للتغيرات في وظيفة الهدف، من أجل جعل خوارزميات HER-يمكن تشغيلها.

وترد الباحثون مثال بسيط لاظهار بيئة محاكاة القائم على الهدف، فضلا عن "اللعب التي تشير إلى ما" أهداف وسيطة خوارزمية عملية الاختيار.

البيئة الجديدة المحاكاة على أساس هدف يمكن أن تكون متوافقة مع خوارزمية تعزيز التعلم، مثل Baselines.Use، الخ القائمة، ولكن يجب أولا تحويل باستخدام gym.wrappers.FlattenDictWrapper الفضاء المراقبة اللازمة لشكل مصفوفة.

طريق الحرير

وجاءت OpenAI المادة الثقيلة خارج، وثمانية أنواع من بيئة الروبوت محاكاة افتراضية تصبح نقطة مضيئة

التقط

النخيل الظاهري

هدف

تعزيز التعلم خوارزمية

HER مقدمة المبدأ

نتائج الاختبار

متابعة الأبحاث

توجيه بيئة محاكاة جديدة

ابنة رجل حو رمي اشترى ستة خاتم الماس كبيرة الزواج المستخدمين: يحد من الفقر الخيال

PP الرياضية الإعلام الرياضي اليد معا لخلق تجربة المستخدم النهائي كأس العالم

تولى عن غير قصد العلماء يحلمون المشهد الفلكية، والنتيجة هي "الطبيعة" وشملت!

العمارة المواد الفعلية: فريق صغير من مرجعية لخدمة الصغرى كومة تكنولوجيا الهندسة المعمارية

عالية الدقة خطوة خريطة الدقة عن طريق نهج الخطوة، وتبدأ البراز واسعة تفاخر: سنة واحدة وراء صناع خريطة القائمة

طبقة الخلايا تحولت فوق مساحة الملكية، كما تم تأجيرها بعض

[III] ishare أصبح التجزئة بقعة ساخنة جديدة، وتشنغدو أصحاب المشاريع كيفية الرياح السماء؟

المنتجات غير المستخدمة تصبح "، وقال للاستمتاع" الهدية الجولة B التمويل؛ برنامج الأطفال "ليتل الملك من التعليمات البرمجية" 130000000

القماش آبل "ملك تفجير مجلس" في مجال أشباه الموصلات! كوالكوم، سامسونج جاهدة لعدة سنوات للتخلص من مطاردة مصير مرير

وو لي الشمس على الفوز ميناء الكتاب السنوي: سوف حلم الأصلي يصل بالتأكيد

ألمانيا بوينغ 777 تحلق حالات غير متوقعة! أطلقوا النار الطوارئ

العطل قرد البرنامج، والنتيجة الجرجير ثمانية الدماغ حرق الأفلام لا يخذل دماغك!

ومناطق التكنولوجيا الفائقة الأخرى لصافي وحة حمراء العام جاءت أخيرا نغتشيوان شيلينج أسعار المياه بيعت 25000 / م!

المنازل اللعب عبر الحدود شراء المستهلكين الشباب واحد في نهاية المطاف؟

قبل 700 سنة، بوش وزارة الزراعة الجينوم هو إعادة تنظيم كامل للواقع "الحديقة الجوراسية" أو الخيال

SpringBoot + ZK + دوبو ممارسة الهندسة المعمارية (ثلاثة): دوبو-المشرف منصة إدارة نشر

Xuanhan هناك "وزير البابايا" لقيادة قبالة كاب الفقر القرويين "في طريقهم" كونغ تشونغ الطريق "

الصغير الصغير مول (C): الرئيسية الكهرباء المورد غير محدود المنسدلة التحديث تحقيق API البيانات الديناميكي

التحف المايا لاول مرة في تشنغدو قدمت 214 الأعمال الفنية صورة للعالم خارق

الصغرى قناة الدقيقة الصغير مول (2): المورد الكهرباء الرئيسية دائري والملاحة وتصنيف لتحقيق بيع جديد

يهمس الصين! أعلن معظم المشروع الهام في تاريخ MIT AI أول تحالف في العالم

ثلاثة تغييرات: 30.67 Hengda مساعدة الناس على الخروج من الفقر فقير الأولي

التقط

النخيل الظاهري

هدف

تعزيز التعلم خوارزمية

HER مقدمة المبدأ

نتائج الاختبار

متابعة الأبحاث

توجيه بيئة محاكاة جديدة

الأحكام ذات الصلة