التغلب على عبودية مكافأة متفرق، بحيث هيئة الاستخبارات في النمو والتعلم

شبكة لى فنغ: مثل التعلم الآلي والذكاء الاصطناعي، فقط لتجد مملة من الصعب على ممارسة الصعب أيضا لقتل الوقت؟ أنابيب قناة أرخايف البصائر أسبوعية خاصة، من وجهة النظر الفنية، وعمق التعلم معك بسهولة.

ترجمة / تشاو النهاية إذا غال / MY

في إعدادات تعلم التعزيز، من أجل أداء المهمة التي نريد أن نتعلم، ونقدر تطبيق ذكي لبعض البرنامج ميزة استخراج لاستخراج معلومات مفيدة من البيانات الخام، ثم سيكون هناك استراتيجية الشبكة لاستخراج الميزات.

كثيرا ما نجد صعوبة في التعلم حديد التسليح، والسبب يصبح من الصعب هو أن نستخدم مكافأة متفرق. الحاجة كيل للتعلم من ردود الفعل، وبعد ذلك إلى تميز أي نوع من تسلسل العمل سيؤدي إلى مكافأة في نهاية المطاف، ولكن في الواقع لدينا إشارة ردود الفعل من متفرق، بحيث عامل لا يمكن استخراج الخصائص المفيدة من البيانات الخام.

تعزيز التعلم الحالي في اتجاه السائد أن تضخيم إشارة المكافآت الخارجية متفرق مستمدة من بيئة اللعبة، ولمساعدة وكيل عن طريق التعلم إشارة ردود الفعل إضافية. ونحن نأمل في اقامة إعداد أشرف والتصميم هو مكثفة جدا إشارة ردود الفعل إضافية، مرة واحدة تنجح الوكيل في هذه المهمة، سيكون على الارجح الحصول على المعرفة.

هذه الآمال المادة لتوفير بعض الدراسات العامة القائمة، نظرا اتجاهي للجميع من خلال بعض المواد وصفها وتحليلها.

I. مهام المساعدة

النقطة الأولى هي أن المهام الإضافية مساعدة في تدريب جسمك الذكية، تراكب بسيط من هذه الأهداف يمكن أن تحسن بشكل كبير من كفاءة التعلم وكيل لدينا. نظرة دعونا معا مقال من جوجل deepmind، ودعا تعزيز التعلم جنبا إلى جنب مع مهمة المساعدة التعلم غير خاضعة للرقابة.

خلقت المادة متاهة 3D، وكيل في متاهات إلى المشي، فإنه يحتاج إلى العثور على كائن معين، مرة واحدة أنه واجه سوف يكافأ واحد من هذه الكائنات. المؤلفون استبدال هذه مكافأة ضئيلة جدا، ومع ثلاثة إشارة مكافأة لتضخيم عملية التدريب برمتها.

فإن المهمة الأولى هي للسيطرة على بكسل. قيم بكسل وكيل بحاجة إلى أن نتعلم استراتيجية منفصلة لتحقيق أقصى قدر من تغيير بعض أجزاء من الصورة المدخلات، وتنقسم إطار دخلت في تنفيذ توصياتها إلى عدد صغير من الشبكات، كل شبكة الحوسبة البصرية تغيير في النتيجة، ثم السياسة تم تدريبهم لتحقيق أقصى قدر من التغيرات البصرية الشاملة عن الشبكة. تاريخ مهام السيطرة بكسل في بيئة ثلاثية الأبعاد فعالة جدا.

والمهمة الثانية هي لمساعدة التنبؤ مكافأة. ويدير وكيل في تسلسل جزء (تسلسل حلقة) في معظم الأطر الثلاثة الأخيرة، مهمته التنبؤ ستعطى الخطوة التالية الحوافز.

المهمة الثالثة هي وظيفة التشغيل التقييم. بواسطة التوقعات، وكيل وسوف تتلقى مبلغ المكافآت المستقبل في هذه اللحظة فصاعدا.

استكشاف يقودها الفضول-II.

والنقطة الثانية هي استكشاف يحركها الفضول، وجهة النظر الشعبية هو الذي تريد مكافأة بطريقة أو بأخرى وكيلك، بعد أن تعلمت شيئا جديدا لاستكشاف البيئة بعد هذا الاكتشاف.

في معظم خوارزمية الافتراضية تعزيز التعلم، والناس سوف تستخدم لاستكشاف طرق - الجشع، أنه في معظم الحالات تجربة الذكية تحت سياسته القائمة على الأرجح لاختيار أفضل الاتجاه، واحتمال صغير من وكيل في قضية أداء عمل عشوائي، ومع تقدم التدريب، سيتم تخفيض الحركة العشوائية تدريجيا حتى يتوافق تماما مع قراركم. ولهذا السبب أيضا، وجسمك قد لا تكون ذكية للبحث عن أفضل استراتيجية وتستكشف بالكامل البيئة بأكملها.

في تعزيز التعلم، فإننا سوف نذكر نموذجا الأمام، وهو ما يعني أن وكيلك ستشهد إطار مدخلات محددة، وسوف تستخدم نوعا من مستخرج ميزة وإدخال البيانات إلى ترميز لبعض التمثيل مخفي، ثم لديك نموذج الأمام. إذا كانت وظيفة جديدة، وكيل نموذج الأمام قد لا تكون دقيقة جدا، يمكنك استخدام هذه خطأ التنبؤ باعتبارها إشارة ردود الفعل إضافية بالإضافة إلى حوافز لتشجيع متفرق وكيلك لاستكشاف المنطقة مساحة حالة غير معروفة .

الآن أنا أود أن أعرض مقال، استخدمت الكتاب مثالا جيدا للتدليل على وحدة الفضول الجوهرية (ICM).

نحن جميعا نعرف أنه من الصعب جدا لنموذج نسيم، ناهيك عن التنبؤ كل قطعة من الأوراق تغيير بكسل. حركة الأوراق لا يمكن السيطرة عليها وكيل العمل، فيما يتعلق بخصائص التشفير هو أي حافز لأولئك الذين لتوجيه فإنه يترك النمذجة، وهو ما يعني أن الخطأ التنبؤ الفضاء بكسل كان يمكن أن يكون مرتفعا، وكيل وسوف يكون على الأوراق حافظ على الغريب، وهذا هو النموذج ICM العمارة أطروحة.

الحالة الأصلية للبيئة، ق، ق + 1 في الفضاء ميزة يتم ترميز الأولى، تليها نموذجين: الأول هو نموذج الأمام، وهذا النموذج من أجل التنبؤ الدولة القادمة تتميز استراتيجية عملية المختار، ثم هناك عبر نموذج نقل للتنبؤ ما ينبغي اختيار إجراءات ل+ 1 من ولاية الصورة لملامح الدولة القادمة ق. تتم مقارنة الترميز ميزة الماضي والصورة + 1 التي قدمها نموذج الأمام الصورة + 1 ميزات الترميز التنبؤية، والمقارنة بين النتائج التي يمكن الاتصال بها درجة وكيل مفاجأة ما حدث، ويضاف إلى إشارة من أجل مكافأة وكيل التدريب.

وهذه نقطة جيدة للعرض، يجب أن يكون لدينا وكيل لاستكشاف المنطقة غير معروفة وفضول العالم.

III. وضع مكافأة القياسية

النقطة الثالثة نظر الحوافز وضع المعايير بحيث أجزاء من وكيل أبدا تنجح في التعلم. ويمكننا أن نرى مفتوحة AI صدر مؤخرا مقالا دعا بعد تجربة التشغيل، أو الاختصارات HER.

تخيل أنك تريد أن تدريب الروبوت لدفع كائن على الطاولة للوصول الى موقف A، ولكن نظرا لسياسة ليسوا مدربين بشكل جيد، في نهاية الكائن B، وفقا لجهة نظر موضوعية هي محاولة فاشلة، ونماذج HER لا أقول فقط " مهلا! أنت ثمل، وتحصل على قيمة 0 مكافأة "، لكنه قال الوكيل"! رهيبة أحسنت صنعا، وهذه هي الطريقة التي نقل كائن إلى موقف B "، لديك أساسا متفرق مكافأة أنشأ السؤال مجموعة كثيفة جدا من الحوافز لجعل وكيل التعلم.

لدينا شيوعا خارج خط التعلم الخوارزمية وأخذ العينات استراتيجية لموقع الهدف للالبداية، ولكن بعد ذلك علينا أخذ عينات أيضا عددا من الأهداف الإضافية إلى تغيير. هذه الخوارزمية هو أفضل شيء بعد تدريب لديك بالفعل شبكة السياسة، لذلك إذا كنت ترغب في نقل كائن إلى موقع جديد، لا تحتاج إلى إعادة تدريب جميع السياسات، وتحتاج فقط إلى تغيير ناقلات الهدف، سوف لديك استراتيجية تجعل الشيء الصحيح. نقطة ورقة وجهة نظر بسيطة جدا، ولكن من أجل حل قضية أساسية جدا للتعلم، لأننا نريد لتحقيق الاستفادة القصوى من بعض من كل تجربة.

نحن فقط المشتركة بعض طرق مختلفة جدا لزيادة إشارة مكافأة متفرق، من خلال ردود الفعل المكثف أعتقد أن الخطوة الأولى يميل إلى أن يكون صحيحا من التعلم غير خاضعة للرقابة. ولكن في تعزيز التعلم لا تزال هناك العديد من القضايا تحدي، مثل دراسة الهجرة التعميم، السببية في الفيزياء وهلم جرا، وهذه المشاكل لا تزال موجودة باعتبارها تحديا. في نفس الوقت، علاقتنا أيضا في حاجة إلى توازن أفضل في تنمية الذكاء الاصطناعي والتنمية الاجتماعية وخلق يمكن للجميع الاستفادة من تطوير الذكاء الاصطناعي في مجال الأعمال التجارية.

رابط الفيديو: الشبكي: //www.youtube.com/watch = 0Ey02HT_1Ho ور = 364s؟

لى فنغ لى فنغ صافي صافي

أنت ترتعش؟ العليا س لويس فويتون سترة مشتركة صندوق شعار ما يقرب من 200،000 يوان المضاربة في الأسعار

كشفت منظمة العفو الدولية التكنولوجيا التوليف المؤتمر الإنترنت في العالم، وسيتم استخدام أصواتنا إذا الأشرار؟

رحب نطاق الملكية الفكرية شراء MixPad السوق غلاف التغيرات التاريخية

"أجنبي جنون" يتعرض "مجنون انطلق" ملصق الساخن بيع مفتوحة البلاد

أداء قوي وبدون جيوب تفريغ، ثلاث مباريات هذا يستحق نظرة

طبعة Baojun 560 إيقاع 9 يناير المدرجة في دفع الرئيسي هارمان الصوت

أسطورة جولة اليد "الوضع شاباك"، مما يسمح لك لتجربة الآلاف من الناس مرة واحدة الهجوم مرة أخرى على الرمال! التوافقية ثلاثة محطة حقا متعة

Smartisan افتتح أخيرا وضع محل للبقالة، المحموم الإشاعة: إن الشركة لم تنهار!

على الرغم من أنه هو تغيير طفيف، ولكن لا تزال قريبة جدا! دائرة الرقابة الداخلية والتحسينات المفيدة مزيد من 11

فيلم ساخن "الكتاب الأخضر"، وهو تجميع أربعة أوسكار ريشة ومن المتوقع أن يعرض المحلية،

ارتفعت 4 أشهر تطلعات ستة أضعاف شيطان الملك! كيف المساهمين شيطان هو تطوير الاتصالات؟

الدرس 8 مراجعة "القهوة الكبيرة لايف": بالإضافة إلى رؤية أفضل للقيادة الذكية، باثفايندر أولئك الذين يريدون زعزعة مواد حقيقية نقطة