بيركلي دراسة جديدة: دعونا عمق تعزيز التعلم لم يعد أحد السبل ل| ورقة + كود

Q. الزراعية التي تم تجميعها من بير مدونة

إنتاج و qubit | عدد ملفه QbitAI

الدكتوراه تانغ هاو ران (هاو ران تانغ) من جامعة كاليفورنيا في بيركلي، واللاعب Tuomas Haarnoja بلوق وظيفة نشرت اليوم قدمت الأبحاث الجديد. العنوان الأصلي "عمق أقصى الكون من تعزيز التعلم لإتقان مهارات مختلفة"، وفيما يلي هو المحتوى الرئيسي من هذه المادة.

عمق القياسي لتعزيز التعلم، وتهدف إلى فهم أسلوب واحد من أجل حل مهمة معينة. ولكن حل واحد فقط لا يكفي، لأن الوكيل هو عرضة للتغير البيئي في العالم الحقيقي المشترك.

على سبيل المثال، والنظر في أهداف بسيطة متاهة الروبوت في التدريب، علم وكيل كيفية العثور على الهدف من قمة القناة، لأن المسافة أقصر. ومع ذلك، وبعد ذلك إذا أردنا منع القناة العليا، وجد العامل الذي المهارات المكتسبة ليس ممكنا، ولكن لا أعرف يمكن أيضا اختيار أقل القناة. في نهاية المطاف، إعادة تدريب الوكيل.

مواصلة ليكون مثال الذكية. وكرر وكيل الملاحظات للحالة الراهنة (ق)، العمل (أ) مكافأة (ص). وسوف تعمل Q (ق، أ) يعرف بأنه من المتوقع أن إجراء إجراءات لاحقة في ولاية الصورة الفوز بالجائزة الكبرى. ويستند التقليدية طريقة تعزيز التعلم على القيمة القصوى محددة من مركز Q استراتيجية التوزيع الأحادي الواسطة، ويؤدي إلى قناة الدنيا التي تجاهلها تماما.

حل آخر هو التأكد من وكيل لاستكشاف كل دولة، مع إعطاء الأولوية للأكثر واعدة الدولة. كما هو مبين في الرسم البياني الصحيح، وكثافة في شكل توزيع بولتزمان. هذا النهج يسمح للعامل لديها كل الحلول للتعامل مع جوانب معينة من حالة الفشل. أظهرت الكتاب أن السياسة التي يحددها شكل من أشكال الطاقة هي الحل الأمثل لتعزيز أهداف التعلم من أقصى الكون.

ويستمد هذا الحد الأقصى نموذج الكون التعلم من فكرة النمذجة الإحصائية، والهدف هو العثور على التوزيع الاحتمالي وفقا لأعلى الكون، في حين لا يزال تلبية المراقبة الإحصائية. في الممارسة العملية، ونحن نفضل القصوى نماذج الكون، لأنها في نفس الوقت لمراقبة المباريات المعلومات، تشير التقديرات إلى أن ما لا يقل عن المجاهيل. سابقا، وهناك العديد من الدراسات المماثلة.

نحن يمكن أن يكون الحل الأمثل لهدف الكون الحد الأقصى من قبل لينة المنادي المعادلة.

هنا

لكن لا تزال هناك تحديين رئيسيين في المجال المستمر. أولا وقبل كل شيء، البرمجة الديناميكية دقيقة ليست مجدية، وثانيا، يتم تعيين الاستراتيجية المثلى من الطاقة من أخذ عينات من الصعب تحديد.

مواجهة التحدي الأول، استخدمت الكتاب التعبير في العصبية وظيفة الشبكة تقريب، وأخذ العينات الوضع وعملية التدريب التدرج النسب العشوائية، ثم امتدت إلى الصفوف (tuple) عمل الدولة الجديدة. مواجهة التحدي الثاني، وذلك باستخدام تقنيات التقريبية المنطق، مثل ماركوف سلسلة مونتي كارلو، واستخدام شتاين الاختلاف التدرج أصل لتسريع المنطق. ويطلق على خوارزمية مما أدى لينة Q-التعلم.

أقصى الانتروبيا للتعلم من خلال استراتيجيات التعلم Q الناعمة، وكيفية التصرف في الممارسة؟

الكاتب التجربة أثبتت أن هذا الأسلوب يمكن استكشاف أفضل والاستراتيجيات لتحقيق الهجرة بين مهام مماثلة، من السياسة القائمة بسهولة تشكيل استراتيجية جديدة، وتحسين المتانة.

هنا هو مثال على استراتيجية الترحيل. الموافق سلوك مختلف من السياستين، وأضافت وظائف Q معا، ويمكن تعلم مهارات جديدة. كما هو موضح أدناه، تم تدريبهم لتحريك اسطوانة موقف خطوط عمودية حمراء سياسة وكيل، يتم نقل السياسة 2 لاختبار أحمر المشارب. تراكب استراتيجيتين، يمكن للجسم أسطواني اتخاذ خطوات ذكية لوضع نقطة حمراء.

أيضا على متانة الكتاب يعطي مثالا على ذلك. علم الروبوت التالية لتوضيح ليغو، وحتى خلال الاضطرابات، ولكن أيضا وضع نجاح الطوب LEGO معا.

الدراسة، هي في الورقة التالية:

تعزيز التعلم مع سياسات ديب الطاقة القائمة على

Haarnoja T.، تانغ H.، Abbeel P.، ليفين S. ICML عام 2017.

ورقة العنوان:

https://arxiv.org/abs/1702.08165

وبالإضافة إلى ذلك، نشرت المصدر أيضا على جيثب، في هذا العنوان:

https://github.com/haarnoja/softqlearning

- انتهى -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI

' " تتبع تقنيات AI دينامية جديدة والمنتجات

طريق الحرير

بيركلي دراسة جديدة: دعونا عمق تعزيز التعلم لم يعد أحد السبل ل| ورقة + كود

تسجيل الدخول أول سيارة ماركة جيلي عدد إحياء "GE الرائعة" نهضة رقم تدريب إجازة رسمية

أصبح الدجاج جدي قطعة أثرية 98K البقاء على قيد الحياة لا طعم له؟ سوف الإصدار التالي إعادة مجلس الإدارة أو موقف مزدوج الحنفية

حزب على دعوته الكريمة، جارديم يحسموا أمرهم بعد! قديم شو الدرجة الرابعة على التوالي لأكاذيب حقيقية؟

ميرا "العم" في النهاية كيف خطأ شنيع في وقت متأخر

16 عاما من النار رحلة غربا، وقوة مرة أخرى! فإن النصف الثاني من كل منتج إطلاق نسخة جديدة

Hengda القماش عموما! اثنين من المساعدات الخارجية لها قيمة المجنسين، لاتس عالية ترك الفريق، الموسم الجديد والمأكل والملبس؟

انطباع من اللعب في كأس العالم في جبل تشينغتشنغ RX8 أكثر متعة والفاخرة من

كان دوري ابطال اوروبا عضوية استنساخ شخصية مدرب آسيوي المعجزات

العالم من علب 7.0 الكبد هو من اللاعبين Tucao، عاصفة ثلجية تحذير للمستقبل، أطلقت الإصدار 8.0 من الكبد أكثر

وأشارت واندا الآفاق، بنغ شواي الكلب الكلب يواجه منافسة صحية! أزمة الشباب في انتظار جارديم

وجاءت 02 غراما من الرصاص، LYNK & CO مؤتمر الربيع لجعل السيارة تغير فعلا الأزياء

إيران "زانج يونينغ" متأثرة كأس العالم روسيا سوبر + 700 دقيقة صفر اهداف في دوري ابطال اوروبا

منطقة فاو تويوتا Yize تشونغتشينغ الكلمات المدرجة تفتح عهدا جديدا من SUV كوبيه

0-2 خسارة للمنتخب كوريا الجنوبية لكرة القدم، تغيرت لهجته ليبي: لديهم القدرة على الفوز على أي فريق في آسيا

جدي من أجل البقاء على أحدث الحنفية مزدوجة! هذا السلاح يتجاوز 98K، متفوقة في السرعة والضرر!

Hengda قوانغتشو لمدة ست سنوات الدوري الممتاز 91 نقطة متقدما على المركز الثاني! وضع مستقبل Hengda في جميع أنحاء البلاد

V7 المدرجة المولدين الصيني BMW BMW الإيطالية قيمة قوة التصميم من 108700 يوان من بيع

فريق تشن تيانتشى صدر المجمعين NNVM، وأداء أفضل من MXNet، ورقة لي Muzhuan يصف

TV متزامنة أيدي دفع عشرات الرحلات في السنة، عندما نتمكن من يملكون المال لأكل الدجاج أكثر من ملك المجد؟

رفض كافاني عرض الحزب، طارد النمر يمكن متعجرف؟ حالة كاراسكو شقيقه البالغ من العمر 19 عاما المشجعين Yaoxing

سوبر Hengda قوانغتشو الهدف ست سنوات وصلت 400 كرات! 109 الكرة السوبر الثانية!

هناك جيل جديد كليا بورا مدرجة 112800 من بيع لماذا بحق الجحيم متفائلون السوق ذلك؟

الأحكام ذات الصلة