دراسة متعمقة وملخص البحث: تعزيز التعلم اتجاهات التكنولوجيا والتحليل (ورقة الكلاسيكية)

1 الأنفس جي تجميع جديد

سنطلق بمعدل أسبوعي بلغ محتوى جديد، تم تلخيص عمق من الأوراق البحثية في مجالات محددة من الدراسة، وأوضح. على واحد، حصلنا عليها مرة أخرى ضد شبكة ICYMI وثلاث ورقات الكلاسيكية ، هذه مسألة مثيرة للقلق هو تعزيز التعلم.

قبل الدخول في الموضوع، أول اطلالة له على ما هو تعزيز التعلم. تعلم الآلة ثلاثة فئات رئيسية هي:

  • التعلم تحت إشراف

  • دون رقيب التعلم

  • تعزيز التعلم

  • قد يكون التعلم تحت إشراف الأكثر دراية مع الجميع، وفقا لطريقة المبدأ على إنشاء وظيفة أو مجموعة من أنماط مستمدة من بيانات التدريب، وتشمل هذه البيانات محتوى الإدخال والمحتويات ذات الصلة. التفاف الشبكة العصبية هي مثال جيد لإدخال الصورة، خرج هو تصنيف هذه الصور.

    التعلم غير خاضعة للرقابة من خلال التحليل العنقودي لتحديد العلاقة داخل هيكل البيانات. ومن الأمثلة النموذجية عد ML تجميع خوارزمية الوسائل K الخوارزمية الأكثر شهرة.

    يتم تكبير تعزيز الرئيسي طريقة عملها التعلم في وضع معين أو بيئة معينة، مما يجعل إشارة مكافأة. هناك فرق مثيرة للاهتمام بين تعزيز التعلم ويشرف التعلم: التعلم لتعزيز إشارة عودة يمكن الحكم فقط إجراءات التشغيل (أو المدخلات) غير جيدة أو سيئة، ولا يمكن تحديد واحد الذي هو عملية أفضل برنامج. هذه الشبكات العصبية التلافيف، التلافيف برنامج الشبكة العصبية، المدخلات والمخرجات بطاقات المقابلة لكل صورة لديها مجموعة جيدة من التعليمات. تعزيزات أخرى تعلم فريدة من نوعها في ذلك، وهي عملية البرنامج قد يؤثر على البيانات الواردة. على سبيل المثال، خطوات عملية البرنامج إلى اليسار بدلا من الانتقال إلى الحق، يعني أن العمليات المختلفة في البرنامج الحصول على معلومات الإدخال المختلفة.

    وكما ذكر أعلاه، ودراسة تعزيز التعلم هي كيفية العثور على قرارات الحل الأمثل أو العمليات، من أجل الحصول على أكبر مكافأة. مكافأة (مكافأة) يشير إلى إشارة ردود الفعل يدل على ما إذا كانت عمليات أداء جيدا خلال الفترة السياسات. السلوك (A) كل إجراء يشير برنامج العمل إلى مكافأة (جيدة الحالي أو إجراءات التشغيل سيئة) وظيفة الدولة (S). الحالة تعني أن البرنامج البيئي يقع. ينفذ رسم العملية يتم استدعاؤها من البيئة إلى سياسة الدولة (P)، وأساليب السياسة العملية تحدد إلى حد كبير فترة محددة أو في سياق معين. وبالتالي، لدينا قيمة وظيفة (V)، للكشف عن موقف كل عملية كان جيدا. ليست هذه هي نفس الحوافز، مكافأة تشير مباشرة إلى الشعور مكان جيد، وتشير القيمة إلى كيف يعمل بشكل جيد. وأخيرا، هناك طريقة (M)، نيابة عن البرنامج في هذه البيئة. يشير وضع برنامج لأداء البرنامج تحت بيئة معينة.

    دعونا ننظر على سبيل المثال.

    ماركوف عملية (MDP)

    نحتاج أولا أن نفكر في ما حديد التسليح مشاكل في التعلم. لنفترض أن هناك روبوت صغير، في أحد المنازل. إذا كنت لا تعطي برمجة الروبوت، مما يجعلها تتحرك، والمشي أو إجراء عمليات أخرى، وسوف تبقى دائما هناك، أي إجراء. هنا هو برنامج الروبوت.

    مكافأة وظيفة من قبل البرنامج لإنجاز ما وضعنا مهمة لاتخاذ قرار. على سبيل المثال، والسماح للروبوت في زاوية الغرفة، ويمكنك الحصول على مكافأة. الروبوت بنجاح في زاوية المكتب، ثم إضافة 25 نقطة، مع كل خطوة، فإنه يقلل نقطة واحدة، والهدف المبرمج هو جعل الروبوت التحرك اسرع سرعة في الزاوية. تشغيل البرنامج يمكن أن يكون الشرق، تتجه نحو الجنوب والغرب والاتجاهات الشمالية. برنامج الاستراتيجية هو بسيط جدا، وتشغيل برنامج يتحرك دائما نحو موقف الهدف، الأمر الذي سيزيد من قيمة الدالة. بسيطة، أليس كذلك؟ يشير مكان للحصول على وظيفة عالية القيمة لهذا المكان جيدة (من وجهة نظر الحوافز طويلة الأجل).

    وهكذا، فإن البيئة بأكملها يمكن أن تتعزز مع القرار عملية ماركوف (MDP) للتعبير عن. اذا كان هناك من لم يسمع هذا المصطلح، ببساطة، برنامج MDP هو وضع إطار لنموذج صنع القرار. وهو يحتوي على مجموعة محدودة من الدول (وقيمة وظيفة في الدولة لمثل هذه)، مجموعة محدودة من السلوكيات والسياسات وظيفة مكافأة. وظيفة قيمة لها ولايتين الرئيسية.

    1. وظيفة قيمة الدولة (وظيفة الدولة ذات قيمة) : يشير إلى الحالة المتوقعة و سياسة S قيمة الإرجاع المكتسبة، ويتم احتساب قيمة الإرجاع: الجائزة كل حركة التي تم الحصول عليها عن طريق إضافة قيمة (غاما المستمر] يشير إلى عامل الخصم، وهذا يعني أن 10 المحمول مكافأة مكافأة من الحركة 1 تم الحصول عليها الحصول على أصغر).

    2.  دالة قيم السلوك : عملية واحدة في ولاية S وقيمة سياسة مكافأة المتوقع (المعادلة أعلاه، ما لم خلاف ذلك الحالة التي يكون فيها وفي = أ).

    فتح صيغة MDP

    هنا MDP إلى حل هذه المعادلة، ويحل لبرنامج مكافأة الأقصى لأي دولة، كما أنه هو أفضل السلوك (استراتيجية). باستخدام البرمجة الديناميكية، بدلا من أسلوب التكرار سياسة يمكن أن تحل استراتيجية مثلى. (في الواقع، ليس هناك طريقة أخرى - طريقة تكرارية العددي هنا هو عدم الخوض في مزيد من التفاصيل). والفكرة هي أن استخدام بعض 1 سياسة الأصلي، والعثور على وظيفة قيمة للدولة. المطلوب المنادي إلى حل المعادلة باستخدام (المنادي توقع المعادلة).

    المعادلة الوسائل التي في استراتيجية ، يمكن حلها المتوسطة مكافأة مكافأة الرايت + 1 ومجموع القيمة المتوقعة من وظيفة من حالة اتصال سانت + 1. إيلاء الاهتمام لمعرفة ما إذا كان يمكنك العثور عليها للحفاظ على قيمة بعض تعريف وظيفة هو نفسه. استخدام هذه المعادلة هي جزء من استراتيجية محسوبة. من أجل الحصول على أفضل استراتيجية، استخدمنا استراتيجية لتحسين خطوة على العمل وفقا للقيمة الدالة. وبعبارة أخرى، فإن تنفيذ البرنامج يعود إلى عملية الحد الأقصى.

    من أجل الحصول على الاستراتيجية المثلى، نكرر ما سبق خطوتين، وبشكل متكرر، حتى يتوقف النظام * السياسة الأمثل التشغيل.

    لم يعط MDP، وكيفية القيام به؟

    على الرغم من أن طريقة التكرار سياسة قوية جدا، ولكن بالنظر فقط MDP يمكن أن تعمل. ستعطى MDP لكيفية البيئة تعمل، ولكن في واقع الأمر ليست كذلك. MDP ليست المرة إلى مجموعة، طريقة خالية من نموذج يمكن استخدامها، مباشرة أو تجربة البرامج التفاعلية والقيمة البيئية وظيفة ورسم الاستراتيجيات. أي معلومات توقيت لMDP، وحسابات استراتيجية المباشرة واستراتيجيات لتحسين عملية متكررة.

    وبموجب هذه الطريقة، ونحن نفعل عدم الإفراط في تحسين طريقة لتحسين قيمة وظيفة سياسة الدولة، ولكن لتحقيق وظيفة قيمة من خلال الإفراط في تحسين السلوك. ما يلي هو وسيلة لمتحللة قيمة دولة وسيطة بوصفها وظيفة من إجمالي قيمة وظيفة حالة الاتصال وقيمة المكافأة.

    الإجراء التالي ويتكرر السياسات والاستراتيجيات jieshao لتحسين عملية الحساب، ومع ذلك، وحتى قيمة الدولة من قيمة الدولة بدلا من الدالة Q V، وتفاصيل محددة من العملية لا أخوض في التفاصيل هنا. لفهم تقييم المجاني وتحسين أساليب MDP، لديك لجعل مونتي كارلو خوارزمية تعلم، الخوارزمية نقاط التفتيش توقيت، وقراءة بوين سارسا ذات الصلة من خلال كل خوارزمية التعلم.

    قيمة وظيفة التقريب

    تعلمت هذه الخطوة، سوف نستخدم الطريقة التالية بسيط نسبيا. وفقا للمعادلة أعلاه Q، S وسلوك الدولة نظرا A، ويمكن حساب عدد، على مقربة من المكافأة المتوقعة. تخيل، ينتقل البرنامج إلى حق لكل ملليمتر واحد، يمكن أن تنتج دولة S الجديد، ومن ثم حساب قيمة Q.

    ومع ذلك، في قضايا تعزيز الواقع، هناك الملايين من الدولة، تلخص قيمة وظيفة وظيفة مهمة بشكل خاص، بحيث لا تحتاج لحساب قيمة الدالة في كل ولاية. الحل هو يلخص طريقة تقريب كبير حالة غير معروفة مع قيمة Q وظيفة. تقريبي احتساب قيمة Q-S وفي دولة معينة باستخدام Qhat وظيفة السلوك محددة.

    في يتم استبدال هذه الوظيفة إلى S، A، وW الوزن ناقلات (التدرج طريقة النسب) لحساب نقطة المنتج العاشر (A يمثل S والمتجهات الذاتية) وW. لتحسين دقة وظيفة، فمن الضروري لحساب الفرق بين وظيفة التقريبية والقيمة الحقيقية للناتج Q.

    بعد حساب قيمة الفرق باستخدام خوارزمية أصل التدرج لإيجاد الحد الأدنى، ومن ثم نأتي إلى ناقلات الأمثل W القيمة. هذا مفهوم وظيفة التقريب في ما يلي يركز رقة الإرادة.

    تعزيز استكشاف وتطوير التعليم

    النقطة الأخيرة هي مثيرة جدا للاهتمام ويستحق مناقشة واستكشاف التعلم (التنقيب) والتطوير (استغلال) أن تعزز.

    التنمية هو معروف عملية التنفيذ وجعل عملية لتحقيق أقصى قدر من المكافآت. سوف يكون دائما يقوم البرنامج على نظام المعرفة الحالية لإجراء العملية المثلى، فإننا نؤكد هنا أن لديها هيئة قائمة من المعرفة. ولكن إذا كان البرنامج لم تكن مألوفة مع كل من مساحة الدولة، فإنه قد لا يكون قادرا على تحقيق أفضل من هذه العملية، وتسمى هذه العملية من هذا الاستكشاف في استكشاف الفضاء الدولة.

    نأخذ مثالا حقيقيا للكتاب، مثل هذه الليلة لاختيار أي مطعم لتناول الطعام. أنت (نيابة عن البرنامج) يعرفون أنهم يحبون أن يأكل الطعام المكسيكي، استنادا إلى مفهوم تعزيز التعلم، انتقل إلى المطاعم المكسيكية سوف تتلقى أقصى مكافأة، وسوف نكون سعداء لقاء. ومع ذلك، يمكنك أيضا اختيار لتناول الطعام الإيطالي، ولكن كنت قد أكلت أبدا، قد يكون هناك أكثر من الطعام لذيذ المكسيكي، فإنه قد يكون من الصعب تناول الطعام. ثم، وبرنامج لتطوير المعرفة القائمة أو استكشاف وحوافز أفضل بدلا اختيار لمحاولة شيء جديد، المفاضلة بين الاثنين هو تعزيز التعلم (في الواقع، هناك الحياة اليومية) واحدة من أهم التحديات.

    مصادر التعلم التعزيز

    • Deepmind ديفيد الفضة الفيديو تعزيز التعلم (هناك PPT)

    • ساتون وبارتو الكلاسيكي كتاب "تعزيز التعلم"

    • بلوق أندريه Karpathy على RL

    • مفتوحة AI رياضة

    الورق الكلاسيكية مفصل

    ترجمة المصدر: الشبكي: //adeshpande3.github.io/adeshpande3.github.io/Deep-Learning-Research-Review-Week-2-Reinforcement-Learning؟

    انقر لقراءة النص، عرض وظائف جديدة فاز جي

    قصائد | كتب وو السن عزيز "الصين شيرلوك هولمز" اليوم الوطني الأوكراني

    أربعة أسباب، لذلك لا يمكن أن تقاوم التبت علي!

    يمكنك أيضا الانتقال إلى الريف للانخراط في حزب الوطن؟ سوف تسلا إضافة وظائف التخييم حزب

    2016 يجب أن لا يغيب عن جوهر الخطاب 10W + | علامة القيادة

    زيارات الموقع | هذه الحرائق والانفجارات من المرافق السكنية النار لا تزال مشلولة ......

    يخت فاخر، شاطئ النخيل، السماء الزرقاء وي البحر، ودافئ ومثير، وكثير من الناس اجازة الجنة

    الألوهية الخفيفة فاز تايهو جوردون جائزة بيل، العملاق الصيني كل من الأجهزة والبرمجيات لتحقيق انفراجة

    خطوة خطوة مذهلة، مماثلة لاقبال! هذه لمكافحة المخدرات الشرطة القصة السرية!

    إذا كنت لن يموت، والزواج والذهاب إلى العمل هو كيفية تجربة | "تاريخ موجز للمستقبل"

    ROEWE أول الكهربائية "السوبر" ضرب مواجهة هذه SUV كيفية اختيار؟

    من قبل "آبل" أريد أن تصمد القرية بأكملها! الجزيرة "قرية تيانفو" تحولت إلى أن تكون جميلة جدا

    مترو الانفاق الرجال يأكل يبصقون جراد البحر في جميع أنحاء قذيفة أرضية يطالبون أيضا أن أقول ...... أصدقاء الإقلاع عن التدخين!