ورقة جامعة كاليفورنيا في بيركلي ICLR: كيفية تدريس تعزيز نموذج التعلم الدراجة إلى جسر البوابة الذهبية؟

مذكرة لى فنغ شبكة AI تقنية الاستعراضي: صاحب هذا المقال هو من مختبر الذكاء الاصطناعي في بيركلي (بير) جامعة كاليفورنيا، وهو طالب الدكتوراه Vitchyr بونغ، له الاتجاه البحثي الرئيسي هو عمق تعزيز التعلم. في هذا بلوق، يصف المؤلف عمله نشرت في ICLR مؤخرا المستمر 2018 - الوقت الفرق نموذج (الزمني نماذج الفرق)، الذي ينتمي إلى نموذج تعزيز التعلم، ومجموعة جيدة من طراز مجانا الأساليب والنماذج القائمة على مزايا كل من الطريقتين استراتيجية، وقد تم تجميع شبكة لى فنغ مراجعة تقنية AI وفقا للنص الأصلي.

افترض أنك تريد من المنزل المجاور لجامعة كاليفورنيا في بيركلي ذهب ركوب جسر غولدن غيت. على الرغم من أنه سيكون هناك بعض المناظر الجميلة ركوب 20 ميلا، ولكن هناك مشكلة خطيرة: لديك أبدا تعاني دراجة! والأسوأ من ذلك، أنت فقط انتقلت الى منطقة خليج بحيث كنت لم تكن مألوفة مع هذا، والأداة الوحيدة التي يمكن الاعتماد على جيد الصنع هو أحدث خريطة. إذا كيف يمكنك أن تبدأ هذه الرحلة؟

أولا، نحن بحاجة إلى معرفة هو كيفية ركوب الدراجة. استراتيجية واحدة هي أن تتعلم والكثير من التخطيط، وقراءة الكتب التي تتحدث عن كيفية ركوب الدراجة، والفيزياء درس وعلم التشريح البشري، المزمع جميع عضلات مختلفة لك للتعامل مع كل اضطراب بها. على الرغم من أن للوهلة الأولى هذا النهج أنظمة جدا ومتقدمة، ولكن لمن تعلمت الدراجات، وأنهم جميعا نعرف أن هذه الاستراتيجية محكوم عليها بالفشل. في تعلم كيفية ركوب الدراجة الواقع هناك واحد فقط طريقة: التجربة والخطأ. لأنه، مثل ركوب الدراجة هذه المهمة معقدة جدا، فهي بعيدة خارج نطاق ما يمكن التخطيط.

وبمجرد معرفة كيفية ركوب الدراجة، وكيف سوف تذهب إلى جسر البوابة الذهبية؟ يمكنك استخدامه مرة أخرى التجربة والخطأ استراتيجية (استراتيجية المحاكمة والخطأ) . أن تبدأ بمحاولة Xiazhuan على غير هدى حول عدة مرات لمعرفة ما اذا كان يحدث للعثور على جسر البوابة الذهبية. ولكن للأسف، فإن هذه الاستراتيجية يأخذك تستهلك الكثير من الوقت. لمثل هذه المشاكل، تخطيط (تخطيط) هو نوع من الاستراتيجية تأتي بشكل أسرع، ويتطلب خبرة فقط القليل نسبيا في العالم الحقيقي (الخبرة في العالم الحقيقي) والتجربة والخطأ (التجربة والخطأ) عدد. من حيث تعزيز التعلم، الذي هو أفضل أخذ العينات الكفاءة (عينة فعالة).

اليسار: بعض المهارات التي تحتاجها لإتقان للتعلم من خلال التجربة والخطأ، الحق: وأحيانا، قبل وقت كاف من التخطيط الأفضل سيأتي

فقط هذه التجربة الفكرية، على الرغم من أن بسيطة جدا، لكنه يسلط الضوء على بعض الجوانب الهامة من الذكاء البشري. بالنسبة لبعض المهام، وسنحاول استخدام الأسلوب لارتكاب الأخطاء، ولكن بالنسبة لبعض المهام الأخرى يستخدم تخطيطنا الاستراتيجي. تعزيز التعلم (تعزيز التعلم، RL) يبدو أن هناك ظاهرة مشابهة. ووفقا لبيان التعلم التعزيز، وتظهر النتائج التجريبية التي، بعض المهام التي تناسب أفضل لنموذج مجانية (التجربة والخطأ) الأسلوب، في حين أن البعض الآخر أكثر ملاءمة لنهج قائم على نموذج المهمة (التخطيط) .

ومع ذلك، أكد الدراجات قياسا أيضا أن النظامين ليست مستقلة تماما. على وجه الخصوص، وقال انه تعلم ركوب الدراجة والتبسيط فقط التجربة والخطأ حجة العملية. في الواقع، عندما تعلم ركوب من خلال تكرار التجربة والخطأ، وسوف تستخدم بعض البرامج. ولعل الخطة الأولية الخاصة بك، "لا تقع"، وبعد ذلك تقدم لك، وكنت في وضع خطط أكثر طموحا، مثل "دراجة مسافة مترين إلى الأمام ولكن لن تسقط"، والمباراة النهائية، وركوب الدراجة الخاصة بك أصبح مهارات بارعة، لذلك يمكنك البدء في وضع نفسه بعض الخطط مجردة للغاية ( "ركوب نهاية الطريق")، كل ما عليك القيام به هو خطة في هذه المرحلة، دون الحاجة إلى القلق مرة أخرى حول الدراجات التفاصيل. من خلال هذه العملية، يمكننا أن نرى أننا قد يأتي من لا يوجد نموذج وسيطة (التجربة والخطأ) إلى استراتيجية سياسة التحول على أساس نموذج (الخطة) هو. حتى اذا كنا نستطيع تطوير خوارزميات الذكاء الاصطناعي يمكن محاكاة هذا السلوك (ولا سيما خوارزمية تعزيز التعلم)، ومن المرجح خوارزمية لدينا أيضا الأداء العالي (الوقت مبكرا التعلم الخوارزمية باستخدام طريقة التجربة والخطأ) وكفاءة عالية أخذ العينات (بعد التحول إلى طرق خطة لتحقيق هدف أكثر تجريدا) ميزة .

توضح هذه المقالة فارق التوقيت نموذج (الزمني الفرق نموذج، TDM)، وهو نوع من تعزيز التعلم، ويمكن تحقيق الانتقال السلس بين نموذج تعزيز التعلم وغير النموذجية المستندة إلى . قبل إدخال الوقت فرق نموذج، وعلينا أولا إدخال تعزيز التعلم القائم على النموذج المثالي كيف يعمل هذا؟

واستنادا إلى نموذج تعزيز التعلم

في تعزيز الخوارزمية التعلم، لدينا بعض المساحة الدولة ومساحة عمل S A. إذا نحن في دولة في الوقت t

ومن ثم اتخاذ الإجراءات اللازمة

وسوف يكون على أساس نموذج ديناميكي (ديناميكية نموذج)

نقل إلى ولاية جديدة

. ثم هدفنا هو تحقيق أقصى قدر المكافأة قبل كل دولة وصلت:

. على أساس تعزيز التعلم تفترض نماذج الخوارزمية التي كنا معين (أو التعلم) نموذج ديناميكي و. ونظرا لهذا النموذج الدينامي، في الواقع، كان هناك عدد من خوارزمية القائم على النموذج. لهذه المادة، والنظر في الطريقة الأمثل التالية لتحديد مجموعة من الإجراءات لزيادة المكافآت والوضع:

وهذه وظيفة توجيه خوارزمية الأمثل لتحديد مجموعة من الدول والإجراءات الرامية إلى تحقيق أقصى قدر من المكافآت، وسوف تضمن أيضا أن مسار ممكنا. هنا مسار الوسائل الممكنة أن كل من الحالة الراهنة للدولة المقبلة لتحويل غير صالح. على سبيل المثال، في الصورة أدناه، إذا كنت تبدأ من ولاية الحادي واتخاذ الإجراءات اللازمة، فقط الصف العلوي من شارع + 1 الدولة هو ممكن لتحويل.

إذا كنت تستطيع أن تتحدى قوانين الفيزياء، ثم كنت تخطط لرحلة جسر البوابة الذهبية قد تأتي أسهل بكثير. ومع ذلك، استنادا إلى النموذج الأمثل لليضمن القيد أن المسار يمكن إخراج فقط الصف العلوي. في حين أن المسارين المتبقية قد يؤدي إلى مكاسب أكبر، ولكنها ليست مجدية.

في مشاكل الدراجة لدينا، فإن النتائج الأمثل يمكن لمثل هذا تخطيط الطريق في الشكل التالي، الدراجات من بيركلي (الزاوية اليمنى العليا)، وأخيرا إلى جسر البوابة الذهبية (من اليسار الأوسط):

مثال على التخطيط (دول والإجراءات) من إخراج الحل الأمثل ل

في حين أن هذا أمر جيد جدا من حيث المفهوم، ولكن هذه الخطة في واقع الأمر ليست واقعية. التنبؤ الدولة القادمة من النموذج المستخدم في كل مرة خطوة و (خطوة الوقت) طريقة القائم على نموذج (ق، أ). في مجال الروبوتات، وهي خطوة الوقت عادة ما يتوافق مع أعشار من الثانية، أو مائة من الثانية. وهكذا، للحصول على وصف أكثر واقعية من الخطة النهائية قد تبدو مثل هذا:

A تخطيط أكثر واقعية

إذا كان لنا أن نفكر في كيفية قليلا انه يخطط يوميا في حياتهم اليومية، سندرك ذلك الوقت ونحن نخطط لتكون أكثر تجريدا. نحن لا خطة التي موقف الدراجة في العاشر القادم من الثانية، ولكن لوضع خطة على المدى الطويل، على سبيل المثال، "سأذهب إلى نهاية الطريق." وبالإضافة إلى ذلك، نحن فقط في بداية تعلمنا كيفية ركوب الدراجة، والوقت للعمل على هذه التخطيط المجرد (زمنيا خطط المجردة). كما ذكر آنفا، نحن بحاجة إلى طريقة ل(1) بداية من التجربة والخطأ طرق التعلم؛ و (2) توفير آلية لرفع تدريجيا مستوى من التجريد من تخطيطنا. تحقيقا لهذه الغاية، قدمنا الفرق نموذج الزماني.

فارق التوقيت نموذج (الزمني الفرق نماذج)

فارق التوقيت نموذج يمكن أن يكتب Q (الصورة، لذلك، سان جرمان، )، ومعنى هذه الوظيفة تعطى دولة ثانية، وسان جرمان حالة عملية الهدف، وكيل قادرة على التنبؤ مدى وقت نهج [تاو] في الخطوة الهدف. بديهية، وفارق التوقيت نموذج يجيب على السؤال: "إذا كنت تريد أن ركوب الدراجة في 30 دقيقة لسان فرانسيسكو، ثم أستطيع أن أرى مدى المسافة من سان فرانسيسكو؟". لأحد الروبوتات، وقياس مدى قرب الطريقة الطبيعية هي المسافة الإقليدية.

بعد يتنبأ نموذج الفارق الزمني فترة محددة من الوقت، يمكنك أيضا مدى من الهدف (جسر جولدن جيت). بعد 30 دقيقة الدراجة والمشي، ويمكن أن تصل فقط موقف من الصورة أعلاه رمز متسابق ربما الرمادي. في هذه الحالة، خطوط رمادية تمثل الفرق الوقت الذي توقع من الطراز.

بالنسبة لأولئك دراية تعزيز التعلم، كما تبين أن الفارق الزمني نموذج يمكن رؤية موعدا نهائيا لظروف استهدف ماركوف عملية اتخاذ القرار (محدود الأفق ماركوف قرار العملية) في وظيفة Q. بسبب فارق التوقيت النموذج هو مجرد وظيفة أخرى Q، حتى نتمكن من استخدام خالية من طراز (التجربة والخطأ) خوارزمية إلى القطار. نحن نستخدم عمق استراتيجيات حتمية الانحدار (ديب التدرج سياسة القطعية، DDPG) لتدريب فرق التوقيت نموذج، وبأثر رجعي أهداف إعادة تسمية والأطر الزمنية من أجل تحسين كفاءة أخذ العينات خوارزمية التعلم. بينما من الناحية النظرية، أي خوارزمية التعلم Q يمكن استخدامها لتدريب فرق التوقيت نموذج، ولكن وجدنا أن ذلك هو أكثر فعالية. كيف للقراء الذين يرغبون في معرفة المزيد من التفاصيل، يرجى قراءة أوراقنا.

تخطط في الوقت فرق نموذج

إذا بعد أن أكملوا التدريب الفارق الزمني النموذج، وكيف يمكننا استخدامها للتخطيط لذلك؟ لقد أثبتت الوقائع أن نتمكن من التخطيط الأمثل التالية:

حدسي، المعادلة على أساس معادلات النموذج متشابهة جدا، ويتم اختيار لتعظيم علاوة أثر سلسلة من العمليات ودولة قابلة للحياة. والفرق الرئيسي هو أن نخطط فقط كل الخطوات الوقت K، بدلا من التخطيط لكل خطوة الوقت. Q (شارع، في، الحادي + K، K) = 0 قيود تحد من جدوى هذا المسار. بصريا، وخطة الحال بالنسبة لكل خطوة الوقت والشكل التالي:

بدلا من ذلك، يمكننا مباشرة خطة خطوة للمرة K، كما هو مبين أدناه:

مع زيادة في قيمة K، وسوف نحصل على المزيد والمزيد من الوقت على التخطيط المجرد. بين الخطوات وقت K، ونحن نستخدم الطرق خالية من نموذج لاتخاذ الإجراءات اللازمة، مما يسمح أي استراتيجية نموذج من تفاصيل التنفيذ "مجردة" لتحقيق الأهداف في هذه العملية. لهذه المشكلة ركوب الدراجات، والقيم K كبيرة بما فيه الكفاية، قد يكون إنشاء النتيجة النهائية للخطة الأمثل باعتبارها الرسم البياني:

مخططي نموذج يستند يمكن استخدامها لتحديد الوقت والهدف المجرد، دون خوارزمية نموذج يمكن استخدامها لتحقيق هذا الهدف.

وهناك نقطة هو أن نلاحظ أن هذه الصيغة يمكن أن أمثل فقط مكافأة لكل الخطوات K. ومع ذلك، فإن العديد من المهام المعنية فقط مع بعض الدول، مثل الوضع النهائي (على سبيل المثال، "وصلت الى جسر غولدن غيت")، وهذه الطريقة لا تزال التقاط مجموعة واسعة من المهام المثيرة للاهتمام.

الأعمال ذات الصلة

في الواقع، نحن لسنا أول شخص أن يرى بين النموذج وغير النموذج القائم على تعزيز العلاقات بين البلدين. Parr'08 وBoyan'99 ذات أهمية خاصة، على الرغم من جداول مصدر القلق الرئيسي والخطي وظيفة مقراب. في Sutton'11 وSchaul'15، في سياق الملاحة الروبوت والألعاب أتاري، أيضا استكشاف فكرة تدريب الظروف الموضوعية وظيفة Q. وأخيرا، فإننا مرة أخرى استخدام نظام الترقيم (إعادة التسمية مخطط) مستوحاة من عمل Andrychowicz'17.

تجربة

اختبرنا الوقت فرق نموذج في مهمة البعثات الروبوتية خمسة محاكاة والمراقبة المستمرة من العالم الحقيقي. مهمة محاكاة واحد هو تدريب اسطوانة ذراع الروبوت دفعت إلى موقع الهدف. يظهر التالية في المرة استراتيجية الفرق نموذج وما يرتبط بها من منحنى التعلم وفي نهاية المطاف دفع أسطوانة:

نجحت في الوصول إلى الأهداف والمهام من الوقت استراتيجية الفرق نموذج

منحنى التعلم مع نموذج الوقت الفرق هو الأزرق (ثابتة، وخفض منحنى أداء أفضل)

في منحنى التعلم، نود أن نلفت للوصول إلى مسافة النهائية المستهدفة (المسافة النهائية لهدف) والعينات البيئية (عينات البيئة) العلاقة بين كمية (منحنى عند أدنى مستوى ممكن). بيئة محاكاة لدينا على تردد 20 هرتز تسيطر على الروبوت، مما يعني أن البيئة محاكاة ل 1000 الساعة خطوات تعادل العالم الحقيقي في 50 ثانية. نموذج ديناميكي مثل هذه البيئة هي سهلة نسبيا للتعلم، مما يعني أن هذا النهج القائم على نموذج تحقيق الأداء المتفوق. كما توقعنا، على أساس أسلوب (الأرجواني منحنى) نموذج تناسب سريع جدا (حوالي 30000 خطوات الوقت، أو حوالي 25 دقيقة)، وأيضا جيدة جدا. طريقة فارق التوقيت نموذج (المنحنى الأزرق) يمكن تركيبها بسرعة (حوالي 20،000 الخطوات أو حوالي 17 دقيقة). لا اليقين سياسة نموذج عمق التدرج (DDPG، لا تستخدم فارق التوقيت نموذج) القياسية في نهاية المطاف حل هذه المهمة، ولكنه يتطلب المزيد من العينات التدريب. أحد الأسباب والوقت المناسب نموذج الفرق الطريقة يمكن تحقيق ذلك بسرعة أن فعاليته تعتمد على نموذج من وسيلة لتمويه.

عندما ننتقل إلى المهمة الرياضية، والنتائج طريقة خالية من نموذج تبدو أفضل بكثير، والمهام رياضي أكثر ديناميكية. واحدة من المهام التي تدخل في تدريب رياضي الروبوت التي تدب على أربع إلى الانتقال إلى مكان معين. غادر فارق التوقيت مما أدى نموذج سياسة (TDM) في الشكل أدناه يبين به، ثم المنحنى هو حق منحنى التعلم المقابلة.

المستخدمة في مهمة رياضية استراتيجيات TDM

منحنى، TDM الأزرق التعلم (منحنى خفض أفضل)

كما نستخدم التجربة والخطأ التكتيكات بدلا من استراتيجيات التخطيط لتعلم ركوب دراجة هوائية، ونتوقع أي وسيلة لنموذج من النهج القائم على نموذج لأداء أفضل في الألعاب الرياضية هذه المهام. وهذا ما نراه في منحنى التعلم: ظل أداء مستقر في النهج القائم على النموذج. رغم عدم وجود نموذج DDPG طريقة لتعلم أكثر ببطء، ولكن الأداء النهائي هو أفضل من النهج القائم على النموذج. فارق التوقيت نموذج يمكن أن تتعلم بسرعة (صالح) والحصول على أفضل أداء. في هذه الورقة كما أجرت دراسات أكثر التجريبية، بما في ذلك التدريب في العالم الحقيقي مع سبع درجات من رأى حرية النجارة الروبوت للعثور على مكان الهدف. ونحن نشجع القارئ لقراءة ورقة!

الاتجاهات المستقبل

فارق التوقيت نموذج من أي نموذج رسمي لتوفير خوارزميات التحكم يستند نموذج عملي والاستيفاء. ومع ذلك، لا يزال المستقبل الذي يتعين القيام به. أولا، نحن نفترض أن البيئة والاستراتيجيات هي حتمية الوقت الاشتقاق. في الواقع، في معظم الظروف وهذه هي عشوائي. حتى لو كانت حتمية، والتكتيكات العشوائية في الممارسة العملية هناك أسباب قاهرة (يمكنك أن ترى هذا بلوق، واستشهد داخل مثالا). ثم، إذا كان TDM تمتد إلى الإعداد سوف يساعد على تحقيق التطبيقات TDM إلى بيئة أكثر واقعية. فكرة أخرى هي TDM والاختيارية نموذج البرمجة خوارزمية الأمثل القائم (البديلة القائمة على نموذج خوارزميات التحسين التخطيط) جنبا إلى جنب مع هذه الخوارزمية كنا في هذه الورقة في. وأخيرا، نريد أن TDM تطبيقها على العالم الحقيقي من الروبوتات لتحقيق المزيد من التحديات الصعبة، مثل الرياضة، والعمل، وبطبيعة الحال، وركوب الدراجة لجسر البوابة الذهبية.

سوف يتم عرض العمل على ICLR عام 2018. لمزيد من المعلومات حول TDM، تحقق من الروابط التالية، كنت أرحب للتواصل مع واضعي معرض الملصق في فانكوفر ICLR:

أرخايف لورقة: "الزمانية نماذج الفرق: نموذج خالية ديب RL لنموذج القائم على السيطرة"
مفتوحة المصدر مدونة

وأضاف: إن السبب في أننا يدعى هذا الأسلوب بسبب فارق التوقيت نموذج، ونحن نستخدم الوقت فرق التعلم (الزمني الفرق التعلم) تدريب Q، سوف Q ثم استخدام كنموذج.

عبر TDM: من نموذج خالية إلى نموذج قائم على عمق التعزيز التعلم، AI تقنية مراجعة لى فنغ شبكة المترجمة.

طريق الحرير