هيكلة شبكة الرقابة على عمق تعزيز التعلم (أوراق ICML شرح)

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي:

منظم مراقبة شبكات لديب التسليح تعلم دروس (ICML نشرت ورقة نقاش طويل)

الكاتب | ماريو سروجي

الترجمة | الأبدية باسم روتين جديد، استدعاء التنين

تصحيح التجارب المطبعية | مراجعة ستيفن اثنين Gouzi | صلصة الكمثرى فان التشطيب | الأسماك وانغ لي

الرابط الأصلي:

https://medium.com/@mariosrouji/structured-control-nets-for-deep-reinforcement-learning-tutorial-icml-published-long-talk-paper-2ff99a73c8b

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1802.08311

ملخص : في السنوات الأخيرة، جعلت عمق تعزيز التعلم تقدما ملحوظا في معالجة العديد من القضايا الهامة القياسي تسلسل القرارات. العديد من التطبيقات تستخدم متعدد الطبقات المستقبلات سيطرة مشتركة (MLP)، وهو الجزء غير المرئي من سياسة الشبكة. في هذا العمل، نقترح تمثل شبكة السياسة هندسة الشبكات العصبية الجديدة التي هي بسيطة وفعالة. الهيكل المقترح للشبكة التحكم (الهيكلية تحكم نت، SCN) متعدد الطبقات عالمية المستقبلات MLP فرعية مقسمة إلى وحدتين منفصلتين: الخطية وغير الخطية وحدة التحكم وحدة التحكم. حدسي، والسيطرة غير الخطية لزاوية الرؤية الأمامية والسيطرة العالمية واستقرار ديناميكية المحليين عن متغيرات التحكم خطية أخرى من الرقابة العالمية. ونحن نفترض أن هذا الأسلوب له مزايا استراتيجيات الخطية وغير الخطية: التدريب يمكن تحسين الكفاءة، ونقاط المكافأة في نهاية المطاف، واستراتيجيات التعلم لضمان أداء التعميم، في حين تتطلب فقط شبكة صغيرة، ويمكن استخدام أساليب التدريب شائعة مختلفة. ونحن تحقق من صحة فرضيتنا التي كتبها OpenAI MuJoCo، والمحاكاة Roboschool، أتاري وتخصيص 2-الأبعاد بيئة قيادة الحضرية، التي تضم مجموعة متنوعة من التجارب المعمم، الصندوق الأسود واستخدام مجموعة متنوعة من استراتيجيات وأساليب التدريب المتدرجة للتدريب. من جانب قضايا محددة مسبقة دمجها في الهندسة المعمارية، والهندسة المعمارية المقترحة لديها القدرة على تحسين مهام مراقبة أكثر شمولا. نحن نستخدم يحاكي البيولوجية المولد (CPG) كجزء الهيكلي من وحدة التحكم لهذه المهمة الحركة غير الخطية في دراسة الحالة هذه، نتائج أداء سطح الحركة المهمة تحسنت كثيرا.

مقدمة

في هذا البرنامج التعليمي، وأنا أود أن أعرض تطبيق بسيط من شبكة مراقبة منظم في العمل المقترح لدينا نشرت في ICML، وأظهرت أخيرا تقديم دراسات الحالة. وأهيب بكم لاستكمال تعليمي أولا قبل قراءة هذا المقال.

تم إنجاز العمل في وقت بلدي أبل بحوث AI التدريب هو جزء من تدريبي، بفوزه على العديد من تعزيز التعلم للسيطرة على البيئة من أكثر التكنولوجيات المتقدمة، بما في ذلك MuJoCo، Roboschool، أتاري، OpenAI رياضة، حتى الطيار الآلي. ونحن نخطط لتوسيع هذا العمل ليشمل الروبوتات وبيئة العمل المتطورة.

وفيما يلي بعض من نتائج ورقة. في كفاءة أخذ العينات، ومتانة قرار التحكيم النهائي، تغلبنا على البيئة الحالية في العديد من معظم شبكة MLP المتقدمة. وبالإضافة إلى ذلك، وسوف تذهب من خلال دراسة الحالة، والتي تبين خطوة بخطوة كيفية خياط هيكلة نموذج الشبكة على أساس المهام تحكم محددة لمواصلة تحسين الأداء!

تستخدم PPO كما خوارزمية التدريب لتدريب تحكم تكوين شبكة (الزرقاء) والمستقبلات متعدد الطبقات (برتقالي)، 2M في تدريب منحنيات الوقت خطوة من خطوات الزمن. بالمقارنة مع التكنولوجيا المتقدمة القائمة، لقد أظهرنا في المكافآت النهائية وكفاءة أخذ العينات تحسنت بشكل ملحوظ.

هذا الرقم هو التدريب منحنى الاختبارات الاجتثاث الاجتثاث من الاختبار. نقدم لك مجموعة من بنية شبكة التحكم (الأزرق SCN)، الذي يضم متعدد الطبقات المستقبلات وحدات مخبأة 16 نموذجا غير الخطية، ووحدة مراقبة ردود الفعل الخطية، مقارنة بنفس حجم الفردية المستقبلات تدريب متعدد الطبقات (الخضراء) و الخطية وحدة مراقبة ردود الفعل (برتقالي). وأظهرت النتائج أن هذا الرقم هو نتيجة لهيكل الإطار، وهيكل شبكة مراقبة لكفاءة تعلم استراتيجية أفضل.

آمل أن يكون هذا مقدمة لفتح الألغاز واجهت إنتاج هذا العمل وتوفير جيدة نقطة لمزيد من البحوث البدء. سأتجاوز التفاصيل الكامنة وراء وهذه المادة. دعونا تبدأ المفضل

وصف المشكلة

وصفنا هذه المشكلة في إعدادات تعزيز التعلم القياسية. في الوقت t [بي] وكيل وفقا لسياسة (في إعدادات لدينا، والسيطرة على بنية شبكة السياسة)، في حالة وجود إجراءات اختيار تسلسل المراقبة نظرا س التيار. مكافأة ص لتوفير البيئة، وعوائد الدولة القادمة.

شبكة مراقبة منظم العمارة

الهندسة المعمارية هي محة بسيطة، بل يكتسب رمز الحالة من البيئة وإمداده إلى تيارات منفصلة: خطي وغير الخطية التحكم في التدفق التحكم في التدفق. ويمكن اعتبار هذين التيارين كاستراتيجية شبه منفصلة، وانتاجها هو استراتيجية التقارب شبكة لتعزيز التعلم.

العمارة نظام نظرة عامة هذا الغرض من ذلك هو إثبات الوحدتين يمكن استخدام تطبيق السياسات وإنفاذ سياسة مهمة محددة ظروف بداهة على سياسة الشبكة، من أجل زيادة كفاءة أخذ العينات وخصائص أفضل النهائية.

سيطرة الخطية

في التنفيذ، تحكم خطي يمثله + ب K * ليالي، حيث K هو السيطرة التعلم الخطية المصفوفة، ب هو التعلم التحيز (S هل الوضع الحالي).

لتحقيق وحدة تحكم الخطي، قدم المقدمة هنا أجزاء التعليمات البرمجية للنموذج. input_size ناقلات الدولة المجرد هو حجم، وحجم البيئة output_size محددة ناقل الحركة. وسوف OpenAI رياضة البيئة walker2d كمثال على ذلك. حيث يتم تجاهل ب الإزاحة (كسب فقط مصفوفة K).

عند تعيين K مكاسب مصفوفة، يمكننا استخدام أي خوارزمية التدريب تعزيز التعلم لمعرفة الأوزان (للبساطة، يتم تهيئة الأوزان إلى 0). مكاسب مصفوفة K بعد كل تكرار التحديثات بيئة مليئة، يمكنك حتى استخدام تأخر التحديث (مثل تحديث تكرارية مرة واحدة كل 10 مرات). التطوري استراتيجيات وسوف تستخدم كما خوارزمية التدريب في هذا البرنامج التعليمي.

يظهر نموذج التعليمات البرمجية التالية كيفية الحصول على إخراج فترة تشغيل وحدة الخطية. هنا وظيفة ثانوية، وهذه العملية لقطع متجه الإخراج إلى البقاء في بيئة محددة النطاق (لwalker2d، وهو ).

توليد عملية خطية وحدة الانتاج (U_l):

أنا سوف تكسب مصفوفة K ناقلات تعديل (input_size س output_size) حجم المصفوفة. الجيل مصفوفة نقلها نتيجة عملية مصفوفة من حجم (output_size س input_size). عندما يتم ضرب هذه العملية من خلال مصفوفة (input_size 1) حجم متجه الحالة يمكن الحصول على (output_size 1). هذه العملية من حجم ناقلات الانتاج.

يمكنك ثم تحديث ناقلات K على أساس مكافأة إشارة وردت من البيئة. هذا هو كل سيطرة الخطية!

مراقبة غير الخطية

في وصف معظم التجارب هنا، ونحن نستخدم بسيط المستقبلات متعددة الطبقات (MLP) باعتبارها وحدة التحكم غير الخطية. والسيطرة خطية مماثلة، يتم تحديث الأوزان MLP كل حلقة كاملة.

في هذه الورقة، واثنين من طبقات مخفية باستخدام MLP النموذج، حيث كل مخبأة طبقة 16 وحدة خفية وغير الخطية باستخدام وظيفة تفعيل تان. عندما تستخدم خوارزمية التدريب ES، منذ التدريب خوارزمية العشوائية الأصيل، إخراج MLP هو ناقل الحركة مباشرة. عندما يعملون التدريب PPO، المتغير الناتج هو الانحراف المعياري المتوسط لتوزيع جاوس.

للتبسيط، وأنا لا تظهر إعدادات MLP. يمكنك استخدام أي إطار ML (TensorFlow، PyTorch، الخ) لإنشاء نموذج MLP نفسها. OpenAI نستخدمها كما الخوارزميات التدريب لدينا ونماذج: https://github.com/openai/baselines ..

يتم توفير ما يلي نموذج SCN يستخدمه المقتطف باستخدام TensorFlow (فريق العمل) أي بيئة المدخلات البصرية:

هنا هو أتاري التلافيف الشبكة العصبية نموذج كود جزء SCN إعدادات المدخلات البصرية:

الناتج المشترك

عند الحصول على إخراج شروط غير الخطية والشروط الخطية، إضافة بسيطة من هذين الهيكلين هو الناتج من التحكم في الشبكة.

عندما تستخدم على النحو استراتيجية تطورية التدريب الخوارزمية، والإخراج المشترك لالخطية وغير الخطية تم إضافة مكونات بسيطة، قد يتم إنشاء عملية الانتاج مباشرة (بسبب الخصائص الملازمة من العشوائية وisocratic ES الخوارزمية).

عندما خوارزمية التدرج PPO أو أي تدريب السياسات الأخرى، يرجى الرجوع إلى رمز أعلاه مقتطف جزء غير الخطية، لفهم كيفية الاتصال الانتاج / إضافة معا.

دراسات الحالة: بدلا من ذلك MLP حدة غير الخطية مع نموذج مسبق حركة معينة

لدينا في المجموعة الأخيرة من التجارب، ندرس لشرح كيفية استخدام مهمة محددة مسبقا تخصيصها لتتناسب مع SCN مهمة معينة كحالة باستخدام حركة ديناميكية الساق.

نحن محاكاة نمط مولد المركزي (CPG) للعمل في مكان غير الخطية وحدة MLP. هذه المهمة هي فعالة جدا لCPG التناظرية وجود اقتراح نوع تكرار / دورة (مثل المشي، والسباحة، والقفز، الخ).

في الطبيعة، وحدة تحكم الحركة وجود هيكل العصبي معين، يسمى مولد المركزي نمط (مولد نمط الوسطى، CPGs)، وهو قادر على توليد إيقاع التنسيق نمط الدوائر العصبية. في حين أنه من الصعب عموما لمعرفة feedforward شبكة MLP حركة إيقاعية، ولكن باستخدام سلسلة فورييه CPGs البيولوجية محاكاة وتدريب معاملات فورييه، يمكننا زيادة أخذ العينات الكفاءة والأداء النهائي لهذه المهام.

ولذلك، فإن شروط غير الخطية هي:

وهي تحتاج إلى اهتمام فوري: نحن لن تقدم للمحاكاة CPG الدولة كإدخال. كما خوارزمية التدريب، يمكننا فعال جدا ضبط إشارة جيبية في غياب الإشارات الدولة باستخدام ES. الدولة المدى مراقبة المدخلات الخطية كما هو مبين أعلاه، والجمع بين ذلك الحين وفقا للمبادئ التوجيهية الانتاج SCN CPG.

وتنفيذا لدينا، درسنا 16 موجة جيبية السعة والتردد والمرحلة (المقابلة لعملية من قيمة الانتاج من كل ناقلات). عملية الإخراج هو كل ذلك معا لتشكيل المدى غير الخطية مزيج خرج جيبية 16.

دعونا استخدام الثعبان لإنهاء هذا النموذج.

هنا cpg_weights حجم مجموعة، السعة والتردد والمرحلة من كل المنحنى السيني من المقرر أن ثلاث مرات، وهنا هو حجم ناقلات output_size العمل التالي (لأننا المدخلات لم يعد في هذه الحالة).

وسوف إعادة استخدام وظيفة المساعد لخفض التشغيل في حدود. دعونا نضيف بعض من وظيفة لحساب الناتج جيب (ساوضح استخدامها أدناه):

الآن، من أجل توليد الناتج التشغيلي، وأنا استخدم التعليمات البرمجية التالية:

اتخاذ دقيقة لهضم التعليمات البرمجية. أساسا، ما يحدث هنا هو أن لكل قيمة من output_size ناقل الحركة، ونحن الناتجة عن استخراج خرج جيبية ومدخلات السعة والتردد والطور للموجة جيبية. ونحن أداء تشغيل جميع البنود output_size هذه النواقل، لكل التكرار، التكرار cpg_constant جميعا (في مثالنا، وبالتالي فإن قيمة كل بند من بنود العملية مضيفا خرج جيبية 16). وأخيرا، يسيطر على ناقلات انتاج قطع خطي بنفس الطريقة، وفقا لهذين مضيفا SCN.

هذه طريقة بسيطة نسبيا يتفوق على المدى MLP غير الخطية، وهي ميزة كبيرة في المهام قاطرة (مثل walker2d، سباح، النملة، وما إلى ذلك)، فمن الممكن مثل الإيقاعي مهمة محددة مسبقا تطبيق شبكة مراقبة منظم. هنا مرة أخرى، تم تحسين الأداء!

هذا الرقم هو حركة تدريب الشبكة العصبية باستخدام ES (شبكة دراسة حالة الزرقاء)، وتكوين شبكة المراقبة (اللجنة الدائمة للتغذية هو البرتقالي)، خط الأساس MLP (الخضراء MLP) خطوة من وقت التدريب منحنى 2M.

استنتاج

آمل أن يكون هذا البرنامج التعليمي يساعدك على إنتاج النتائج ومواصلة البحوث في هذا المجال. إذا كنت ترغب في مزيد من المعلومات حول هذا النقاش، أو لديك أي شكوك، يرجى ترك التعليق احقا في هذه المقالة.

ونحن نشجع المزيد من الدراسة واستكشاف التطبيقات المختلفة من SCN (كما هو موضح في دراسة الحالة)، ولا سيما في مجال مكافحة الروبوت. إذا وجدت أي اهتمام، واسمحوا لنا أن نعرف!

ونحن نواصل استراتيجيتنا الرامية إلى تعزيز التعلم هيكل الشبكة بحث عميق، ونحن نأمل في المستقبل أن يكون نتائج أكثر إثارة للاهتمام. أراك في المرة القادمة!

أريد الاستمرار لعرضها روابط ذات صلة والمراجع؟

انقر على الرابط لفتح الصحافة أو انقر فوق [لشبكة الرقابة الهيكلية التعلم عمق التعزيز (أوراق ICML شرح)]:

https://ai.yanxishe.com/page/TextTranslation/1383

AI Yanxishe المحتوى مثيرة تحديثها يوميا، لمشاهدة المزيد من المحتوى: شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

نصائح المخزون تصنيف الصور

الأهداف عمق التعلم من خوارزمية الكشف

نموذج الجيل: العثور على موقف للكائن على أساس صورة واحدة

الاهتمام الرسوم المتحركة التوزيع (على سبيل المثال في الترجمة الآلية)

في انتظاركم لتفسير:

مثل استخدام التعلم العميق للعب لعبة بونغ

البرنامج التعليمي: عن طريق الكاميرا فون ومكتبة برمجية مفتوحة للرؤية الحاسوبية لإعادة الإعمار 3D كاملة (الجزء الثالث)

DQNs كبار: ميزة أخذ من عمق تعزيز التعلم للعب لعبة باك مان

عمق تعزيز التعلم اتجاهات جديدة: جوجل الفضول كيفية إدخال تعزيزات كيل التعلم

زلزال أثناء القيادة؟ 08:00 تذكر هذا، يمكن لحظة حاسمة تنقذ حياتك!

أعلنت جوائز الحصان الذهبي، وذلك بفضل الفيلم، كل ما هو أفضل ترتيب!

سامسونج الهواتف القابلة للطي المتاحة، يسأل عن 13000 يوان؛ بعثة الولايات المتحدة للرد على "التعليق العام سوف تختفي"، "علي الإناث التنفيذيين" اعتذارا رسميا | لى فنغ الصباح

أطلقت نوكيا رسميا الأولى 9 PureView الكاميرا الخلفية في العالم الخمس

مقارنة مع شركات التأمين التقليدية، التأمين على السيارات الإنترنت يطير حقا؟

! مدهش أصدرت شركة سامسونج غالاكسي أضعاف للطي شاشة الهاتف، أصبحت سلسلة S10 دورا مساندا

المهر الطاغية الذي السيارة هي السيارة للانتخابات، يبدو أن أكبر مواجهة الغاز؟

أن يقول الكلب القبيح؟ لندن تدفق الناس على استعداد لاتخاذ العليا س نايك ربط الأجر ذلك؟

"الحق جولة" مقطورة الموسم النهائي التعرض، C لوه الزفاف قريبا | الترفيه لديها المواد

تريد شراء مئات الآلاف من المتوسطة والكبيرة 7 SUV؟ لا أقول، حقا!

NIKE س س NBA العليا التعرض ثلاثي مشترك مرة أخرى! هذه المرة هناك منتج واحد غامض!

تلك الفراشات إلى لهيب الحب، مثل الألعاب النارية مشرق، رائع وقصيرة!