تعزيز تعلم كيفية جعل أخذ العينات أسهل؟ اقترح كامبريدج يونايتد بيركلي جوجل Q-الدعامة | ICLR 2017

لى فنغ شبكة AI تكنولوجي ريفيو حسب: ICLR 2017 عقد في 24-26 أبريل في تولون، فرنسا، وأيضا ذكرت المحررين لى فنغ شبكة AI تقنية مراجعة مؤخرا بصيصا من فرنسا. خلال شبكة لى فنغ أيضا سوف يعرض سلسلة من توسيع نطاق التغطية وسمة قصص حول جدول الأعمال والأوراق، لذلك ضبطها البقاء.

كان نموذج عمق طريقة تعزيز التعلم الناجح في مناطق كثيرة من المحاكاة، ولكن تطبيقه على العقبات في العالم الحقيقي والتعقيد الهائل من العينة. استراتيجيات دفعة طريقة التدرج في الاستفادة من الاستقرار، ولكن سيجلب تباين عالية يتطلب دفعة كبيرة من البيانات. وبعيدا عن السياسة أساليب الممثل والناقد مثل Q-التعلم، وعلى الرغم من أن كفاءة أخذ العينات عالية، ولكن لسبب الانحراف. في ICLR 2017 الاجتماع، قو شى شيانغ (شى شيانغ قو) من جامعة كامبردج وغيرهم من الباحثين من غوغل وبيركلي طريقة Q-الدعامة المقترحة، ومزايا وخارج السياسة على السياسة تتضافر ليقلل كثيرا من تعزيز تعقيد طريقة أخذ العينات من التعلم. ونشرت "Q-PROP: عينة EFFICIENT سياسة GRADIENT مع AN-OFF سياسة ناقد". في هذه الورقة، وطريقة Q-الدعامة، ومقارنتها مع TRPO التجريبية، DDPG. وقد اظهرت النتائج أن عينات Q-الدعامة وجود الاستقرار والكفاءة العالية. فازت ورقة ورقة عن طريق الفم، وفي كلمة نقلت عرض حي.

ملخص

في معالجة مشكلة ارتفاع مكافأة تسلسل إشارة الموجهة نحو هدف صنع القرار وغير خاضعة للرقابة، ويعتبر تعزيز التعلم خالية من نموذج نهج واعدة. مؤخرا تم استخدامه لوظائف السياسة وقيمة الشبكة العصبية على نطاق واسع، ونجح في حل العديد من القضايا المعقدة (Mnih وآخرون، 2015؛. شولمان وآخرون، 2015؛. Lillicrap وآخرون، 2016؛. فضة وآخرون .، 2016، قو آخرون، 2016b؛ .. Mnih وآخرون، 2016). تم تصغير عمليات الشبكة العصبية معلمات عمق اصطناعية وعملية تصميم استراتيجية. فمن الممكن لإدخال متعدد الأبعاد، مثل الصور ونهاية إلى نهاية الناتج تعيينها إلى سلوك معين. ولكن حتى مثل هذا التصميم حدودي قوي لا يزال يقدم بعض المشاكل العملية. عمق تعزيز التعلم أكثر حساسية لمعلمات مجموعة سوبر، سوبر تحتاج عادة لتوسيع المعلمات البحث للعثور على قيمة الحق. وعدم وجود المعلمات المفرط يؤدي إلى عدم استقرار أو غير قادر على معرفة نتائج التقارب. عمق تعزيز التعلم الخوارزمية عالية عينة التعقيد يجعل من الصعب تعمل على نظام المادي الفعلي. إلا أن التطورات التكنولوجية الحديثة للتخفيف من حدة بعض المشاكل في هذا المجال (هاسيلت 2010، Mnih وآخرون، 2015؛. شولمان وآخرون، 2015؛. 2016). توفر هذه الأساليب بعض الحلول لتحسين الاستقرار والحد من تعقيد أخذ العينات.

وتشمل أي نماذج تعزيز التعلم في السياسة وخارج السياسة بطريقتين. مونتي كارلو (مونتي كارلو) التدرج خوارزمية (بيترز وSchaal 2006 ؛. شولمان وآخرون، 2015) هي وسيلة شعبية لوالسياسات في مجال. ويمكن أن توفر مشاركات (أو مشاركات تقريبا) التدرجات تقدير، ولكن سوف يؤدي أيضا إلى تباين عالية. من أجل حل التباين تقدير الانحدار عالية، الباحثين اقترحوا العديد من الطرق، ولكن هذه الأساليب تتطلب الكثير من العينات إلى حل متعدد الأبعاد نهج الشبكة مشكلة تقدير الانحدار العصبية التباين العالي. جوهر المشكلة يكمن في طريقة التدرج يمكن أن تستخدم إلا عينة على plolicy، مما يعني الحاجة إلى جمع عدد كبير من العينة على السياسة بعد كل المعلمات تحديث للسياسة. هذا جعل الحق كثافة العينات التي تم جمعها مطالب عالية جدا. وكما Q-التعلم (واتكينز وديان، 1992؛ ساتون وآخرون، 1999؛. Mnih وآخرون، 2015؛ .. قو آخرون، 2016b)، والممثل والناقد (ليفر، 2014 ؛. Lillicrap وآخرون، 2016)، الخ. قد تكون طريقة خارج السياسة عينة للخارج السياسة ليحل محل. ويمكن استخدام العينة التي تنتجها عملية التعلم الأخرى. هذه الطريقة بشكل كبير على تحسين كفاءة أخذ العينات. ولكنه لا يضمن وظيفة تقريب غير الخطية للتجمع. في الواقع تعتمد على أفضل النتائج على التقارب والاستقرار على نطاق واسع من المعلمات ضبط التي يمكن تحقيقها.

من أجل تعزيز التعلم يمكن أن تصبح أداة في العالم الحقيقي في حل المشاكل العملية، فقد طور الباحثون طريقة فعالة ومستقرة. طريقة الباحثين Q-الدعامة المقترح هو مزيج من المزايا على سياسة طريقة وأسلوب التدرج خصائص كفاءة التعلم خارج السياسة. مع أو الإزاحة هو عرض من قبل (ساتون وآخرون، 1999؛ .. فضة وآخرون، 2014) أو زيادة التباين (Precup، 2000؛ ليفين وKoltun، 2013 ؛. مينوس وآخرون، 2016) طريقة مختلفة خارج السياسة، Q -prop يمكن زيادتها دون انحراف، والحد من التباين في تقدير الانحدار. كما يتطلب من القيمة السابقة وظيفة مع على السياسة، وأساليب مختلفة (شولمان وآخرون، 2016) يمكن أن تقلل من التباين استنادا إلى التقييم، قيمة العملية Q-الدعامة باستخدام وظيفة خارج السياسة (وظيفة عمل ذات قيمة). الفكرة الأساسية هي استخدام من الدرجة الأولى تايلور التوسع كمتغير السيطرة، مما يجعل حيث التدرج التحليلية لعملية التقييم، وتشمل مونت كارلو المدى التدرج المتبقية. يتم الجمع بين هذه الطريقة التدرج السياسات والأساليب الممثل وcritc. ويمكن أن ينظر إليه باعتباره عملية التقييم باستخدام خارج سياسة للحد من التباين الناجمة عن أسلوب التدرج السياسة، واستخدام وينظر في السياسة كأسلوب مونت كارلو لتصحيح الانحراف التي رفعتها تقييم أسلوب التدرج. المتغير الباحثين مزيد من الرقابة على التحليل النظري، Q-الدعامة اثنين من المتغيرات إضافية. هذه الطريقة يمكن استخدامها بسهولة لخوارزميات التدرج السياسة. أظهر الباحثون Q-الدعامة باستخدام GAE (معمم تقدير ميزة، المعمم تقدير ميزة) من TRPO (الثقة الأمثل سياسة المنطقة، والثقة الأمثل استراتيجية المنطقة الخوارزمية) في عملية جلب تحسين كفاءة أخذ العينات، وكذلك في جميع أنحاء مهام المراقبة المستمرة تحديد العمق لتحسين استقرار خوارزمية التدرج السياسة.

أظهرت النتائج ورقة

FIG 1: نطاق OpenAI رياضة MuJoCo (بروكمان وآخرون، 2016؛ دوان وآخرون، 2016 ..): (A) النملة، (ب) HalfCheetah، (ج) هوبر، (د) له مواصفات البشر، (ه) الواصل، (و ) السباح، (ز) ووكر

1، تم تقييم الباحثين MuJoCo محاكاة لQ-الدعامة ومشتقاته في OpenAI رياضة بيئة الرقابة المستمرة.

مقارنة البديل من FIG 2A معيار نطاق Q-الدعامة،. FIG 2B تحت مختلف الظروف حجم الدفعة، مقارنة مع التقليدية Q-الدعامة TRPO

كما أنه يمكن أن ينظر إليها في مقارنة Q-الدعامة TRPO كل البديل والبديل الذي Q-الدعامة هي أكثر جديرة بالثقة. في هذا الجزء، حلل الباحثون ونوعين من المتغيرات على التكيف القياسية Q-الدعامة، CQ-الدعامة (حفظا Q-الدعامة) وعبد القدير-الدعامة (نشط Q-الدعامة)، ويظهر الوضع في حجم مختلف دفعة، استقرارها. ويبين الشكل 2A نتائج المقارنة وhyperparameters Q-الدعامة البديل TRPO لها في مجال HalfCheetah-V1. النتائج تتفق مع النظرية: Q-الدعامة الحفاظ مقارنة مع معيار Q-الدعامة وبنشاط Q-الدعامة، وتحسين الاستقرار. وجميع Q-الدعامة TRPO البديل بالنسبة لكفاءة أخذ العينات أعلى. على سبيل المثال، المحافظ Q-الدعامة العاشرة من متوسط عدد من الشظايا 4000 منح TRPO فقط تقريبا.

ويبين الشكل 2B الفارق في الأداء بين التقليدي وحجم دفعة Q-الدعامة TRPO في ظروف مختلفة. ويرجع ذلك إلى ارتفاع التدرج تقدير التباين، TRPO عادة ما يتطلب قدرة دفعة كبيرة، على سبيل المثال من أجل الحصول على أداء جيد، ونحن بحاجة إلى تحديث كل 25،000 الخطوات أو 25 قطاعات. باستخدام طريقة Q-الدعامة والباحثين من الضروري تحديث فقط في كل مرة جزء، وبالتالي استخدام قدرة دفعة صغيرة، وتحسين كبير في كفاءة أخذ العينات. وقد اظهرت النتائج أن، بالمقارنة مع الطرق السابقة، Q-الدعامة انخفاض كبير التباين. وكما ذكر آنفا، والاستقرار هو عمق طريقة تعزيز التعلم من عاصفة كبيرة، والذي يحدد ما إذا كان عمق طريقة تعزيز التعلم يمكن أن تستخدم في العالم الحقيقي.

مقارنة الخوارزمية في FIG نطاق 3A HalfCheetah-V1.. مقارنة الخوارزمية في FIG 3B له مواصفات البشر-V1 نطاق

بعد ذلك، تقييم الباحثين إصدارين من طريقة Q-الدعامة التقليدي (باستخدام التدرج سياسة مشتركة الخامس ج-Q-الدعامة والمناطق الثقة استخدام TR-ج-Q-الدعامة) مقارنة مع خوارزميات خالية من نموذج الأخرى في مجال HalfCheetah-V1. ويبين الشكل 3A ج-Q-الدعامة مقارنة TRPO VPG وبوضوح مزاياه. بفضل خفض التباين، وذلك باستخدام استراتيجية مشتركة مع Q-الدعامة TRPO يمكن أيضا الحصول على نتائج مماثلة. من ناحية أخرى، يعرض DDPG الأداء غير متناسقة. باستخدام جائزة المناسب وجعل معيار DDPG DDPG-r0.1 من الطرق السابقة (دوان وآخرون، 2016؛. عاموس آخرون، 2016.) نتائج أفضل. وهذا يدل على حساسية إعدادات المعلمة جدا DDPG. مقارنة مع DDPG، ويظهر Q-الدعامة الاستقرار في هذا الصدد.

الجدول 1: Q-الدعامة، TRPO، DDPG نتيجة التجربة

وأخيرا والباحثين وQ-الدعامة TRPO وتقييمها DDPG في ظل الظروف عبر المجال. عندما تميل الحركة البيئية، ويأمل الباحثون لتحقيق مع Lillicrap وآخرون (2016) نتائج مماثلة. ويلخص الجدول 1 النتائج التجريبية، بما في ذلك متوسط عدد شظايا أفضل المكافآت واحتياجات التقارب. على تعقيد عينة Q-الدعامة أفضل باستمرار من TRPO. في بعض الأحيان، قدمت الجوائز في مجال معقد حتى أكثر DDPG. في الشكل 3B ظاهرة جديرة بالملاحظة هو أن في المجال له مواصفات البشر-V1، Q-الدعامة مقارنة TRPO يمكن أن تستمر في تحسين كفاءة أخذ العينات، ولكن هذه المرة DDPG لا يمكن العثور على نتائج جيدة. الأداء الجيد في العروض نطاق معقدة على أهمية الاستقرار في عمق خوارزمية تعزيز التعلم: الخوارزمية التي تتطلب الكثير من معالجة المعلمات جدا يمكن أن يحقق نتائج أفضل في التعامل مع أسئلة بسيطة، ولكن واجه قضايا معقدة عدم الاستقرار وهذه الخوارزمية جعل عديمة الفائدة.

استنتاج

أظهر الباحثون Q-الدعامة، واحدة ملزمة موثوقية واتساق خوارزمية التدرج السياسة. ويستخدم متغيرات التحكم لتحسين كفاءة أخذ العينات للتقييم خارج السياسة، وربما جعل على سياسة التدرج متحيز خوارزمية لها خصائصها. بالمقارنة مع غيرها من الاستراتيجيات TRPO خوارزمية التدرج، وهذه الطريقة يمكن أن تحسن كثيرا من كفاءة أخذ العينات. من ناحية أخرى، بالمقارنة مع خوارزمية الممثل والناقد، مثل تجهيز الروبوت الروبوت في الحركة، فمن ميزة. ويأمل الباحثون أن هذا المزيج من على سياسة التدرج تقدير مونت كارلو طريقة خارج السياسة خوارزمية تقييم الخوارزميات وكفاءة عالية من أخذ العينات تعزيز التعلم يمكن أن تجعل أكثر استقرارا وكفاءة، وأكثر قدرة على التعامل مع العالم الحقيقي معقدة المهمة.

ICLR تعليقات

لجنة ICLR القرار النهائي

تقييم : هذه الورقة تعزيز خوارزمية التعلم لتقديم مساهمات الأكاديمية. وجدت استراتيجية تباين عالية أسلوب الأمثل (المنخفضة للتحيز) من التدرجات يقدر وانخفاض التباين (التحيز عالية) التدرج تقدير خارج السياسة أساليب الممثل والناقد، مثل نقاط مشتركة بين DDPG. الفكرة الأساسية (كما أفهمها، هي مشابهة لأحد المعلقين التالية)، يمكن أن نستند على التعلم خارج السياسة، استخدام جهاز التحكم للحد من التباين الأساسي اعتماد التدرج أعتقد أن يتم تعديله خلال حساب التدرج لدينا. يظهر الاختبار بشكل واضح والاستفادة من هذا النهج. بل هو مزيج جيد من نوعين من الاتجاهات تعزيز التعلم (الهدف الأساسي هو الحد من تعقيد أخذ العينات، وغير ذات أهمية خاصة هنا). وأعتقد أن هذا الإنجاز هو بالتأكيد يستحق قبول. كما ورد الكتاب إيجابيا للنقاد، والجميع المهتمين مشكلة تم تعديلها في المخطوطة.

دعم :

استخدام خوارزميات جديدة وجذابة، مساهمة جيدة إلى خارج السياسة وعلى سياسة النهج.

يتم تقييم جيدا في مجموعة متنوعة من المهام السيطرة.

معارضة :

بعض ليس على ما يرام مفهومة، وبعض مكان لكتابة بعض معقدة.

قرر : مقبول (عن طريق الفم)

فكرة جيدة، ولكنها ليست ورقة بحثية

النقاط : 7 نقاط: أطروحة جيدة، قبول

مراجعة : بناء على المناقشة التالية، وكان السؤال الثاني سألت ليس صحيحا، وسوف أقوم بتغيير النتيجة من 3 نقاط الى 7 نقاط

جعلت هذه المقالة محاولة رائعة: سوف تعتمد على مراقبة خط الأساس (مراقبة متغير) مقدمة من الدراسة المكثفة، على الرغم من أن يصل الانحراف، ولكن باستخدام مصطلح التصحيح للقضاء على التحيز. بسبب دراسة مكثفة لتحديث ومراقبة تعتمد على التباين تصحيح على المدى الأساس هو صغير، وبالتالي فإن النتيجة ليست سيئة.

محاولة مثيرة جدا للاهتمام لمتغيرات التحكم استخدام لتحسين استقرار عمق سيطرة تعزيز التعلم

النقاط : 7 نقاط: أطروحة جيدة، قبول

مراجعة : هذه الورقة سوف أول طلبية استراتيجية التوسع تايلور باعتباره خوارزمية التحكم المتغير التدرج. وتستند هذه الخوارزمية على النتائج النظرية يمكن أن يحقق التباين غير منحازة وانخفاض، وفقا لنتائج المهام التحكم الديناميكي في العالم تظهر هذه الخوارزمية يقلل من تعقيد العينات.

السيطرة الضروري استخدام المتغيرات، فإن هذه الورقة هي محاولة مثيرة للاهتمام في هذا الاتجاه. أحاول متأكدا تماما من هذا، وبسبب وجود عدد كبير جدا من الاحتمالات، والتحليل النظري للمنهج التباين بدلا من الاعتماد على حسابات محددة. وهذا ما يجعل مثل هذه المحاولة شيئا قليلا جذابة. ومع ذلك، اتخذت الخطوة الصحيحة في اتجاه الورق، تستحق القبول.

الاستخدام الفعال للاستراتيجيات تقييم التدرج خوارزمية

النقاط : 8 نقاط: تصنيفه في أعلى 50 من جميع ورقات مختارة، استقبال تحديد

مراجعة : وهذا يدل على المادة أي سياسة نموذج خوارزمية التدرج لتعزيز التعلم، التي تجمع على السياسات وخارج سياسة التقييم. المراقبة المستمرة يمكن أن تأمل في استخدام هذه العينات فعالة. ويمكن تطبيق هذا الأسلوب في بيئة محاكاة لمهام المراقبة المستمرة المنخفضة للالأبعاد.

ورقة مكتوبة جيدا وسهلة القراءة. تقدم هذه الورقة بيئة اختبار كافية لمساعدة القراء على فهم وجهة نظر أنه المطروحة. على الرغم من أن النقاد ليسوا خبراء في هذا المجال، ولكن الطريقة المقترحة لا تزال جديدة للغاية. Q-الدعامة مقدر ويبدو أن تكون استراتيجية تعليمية فعالة المشتركة. نتائج الاختبار أيضا تقديم الدعم الكامل كفاءة أخذ العينات زيادة إعلانها. وتفاصيل المواد التكميلية ضعت مفيدة أيضا.

أنا أحببت هذا المقال، فليس من المزيد من التعليقات. ومع ذلك، أود أن نناقش في الجوانب التالية اثنين قد تكون قادرة على زيادة عمق المقال:

1) مقارنة بين أساليب مختلفة من تكلفة الحسابية ولدت بدلا من عدد من الشظايا اللازمة لالتقارب الكامل.

2) مناقشة القيود المفروضة على هذه التقنية: ما إذا كان من الصعب أن تتلاقى في بعض الحالات.

عبر openreview

DSSS طريقة اكتساب إشارة من تقنية المعالجة المتوازية القائمة على النطاق العريض

بالإضافة إلى عرض حي، القرص الثابت هو أكثر مثير فيكتوريا الملاك السري

و"الوحش هنتر العالم" جيدة مجسم قراءة، أود أن أوصي مرة أخرى

الشركات عبر Airbnb الأجنبية لدخول السوق الصينية يمكن كسر لعنة؟

"دونكيرك" العرض العالمي الأول في لندن الأمير هاري ظهر الدعم المفتوح

يفضل أن وبخ، ولكن أيضا لكسر انفصل شقيقهما الذي هو الرسوم المتحركة اليابانية

نظام مراقبة لاسلكية استنادا STC12 نبض متحكم

جامعة فودان، شياو يانغ هوا: رمز التحقق 12306 لم يعد آمنا، والمستقبل ينتمي إلى رمز ذكي

ألعاب الفيديو واطلاق النار، والإنجازات من "العنف المحامي" سيئة السمعة

"البيض" بيوم العلم مزدوجة 12.31 | منغ يان: كيفية تصميم للمشروع من خلال شهادة نظام الاقتصادية الفعالة؟

يمكن كتابة الأطروحة تبدو جيدة جدا، وكان له فقط

التطبيق في التعدين عملية إدارة المصرفية