عمق تعزيز التعلم من الدخول إلى الرئيسي: Q التعلم من خلال دراسة مكثفة (الجزء الثاني)

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي:

الغوص أعمق في تدعيم التعلم مع Q-التعلم

الكاتب | توماس Simonini

الترجمة | ستيفن اثنين Gouzi

تصحيح التجارب المطبعية | ستيفن اثنين مراجعة Gouzi | صلصة الكمثرى فان التشطيب | شقيقة الأناناس

الرابط الأصلي:

https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe

عمق تعزيز التعلم من الدخول إلى الرئيسي: Q التعلم من خلال دراسة مكثفة (الجزء الثاني)

هذا المقال جزء Tensorflow عمق تعزيز دورات التعلم. ؟ انقر هنا للاطلاع على المنهج.

اليوم سوف نتعلم Q-التعلم. Q-التعلم هو خوارزمية تعزيز التعلم على أساس القيمة.

هذه المقالة هي جزء الثاني من هذا المنصب عمق بلوق لتعزيز سلسلة خالية من التعلم. لمزيد من المعلومات والموارد الإضافية، الرجاء مراجعة المنهج الدراسي للدورة. انظر المادة الأولى هنا.

في هذه المقالة، سوف تتعلم:

  • ما هو Q-التعلم

  • كيفية تحقيق ذلك مع نمباي

صورة كبيرة: فارس والأميرة

لنفترض أنك فارس، تحتاج إلى حفظ المحاصرين تظهر على الخريطة أعلاه الأميرة القلعة.

يمكنك نقل كتلة واحدة. العدو لا يمكن أن تتحرك، ولكن انخفض الفرسان والعدو على نفس قطعة من البلاط سوف يموت. هدف فارس هو جعل أكبر قدر ممكن مع الطريق الأسرع إلى القلعة. يمكنك استخدام "نقطة نظام" لتقييم.

فارس كل خطوة ناقص 1 نقطة (-1 استخدام كل خطوة من خطوات استراتيجية سوف يساعدنا على الوصول بسرعة إلى نهاية وكيل).

  • إذا كنت على اتصال وفارس العدو، سوف تفقد 100 نقطة، ثم في نهاية الحلقة.

  • إذا كليفلاند الوصول إلى القلعة والفائز سيحصل على 100 نقطة.

  • والسؤال هو: ما يجب القيام به لخلق وكيل واحد لإكمال هذه المهمة؟

الاستراتيجية الأولى هنا: وسيط دعونا تحاول باستمرار لنقل كل البلاط، ثم كل البلاط الملون. وسائل الخضراء "آمنة"، أحمر ل "غير آمنة".

نفس الخريطة، ولكن ما البلاط يمكن تأمين الوصول إلى المظللة

ثم، يمكننا ان نقول وكيل تتحرك إلا في البلاط الأخضر.

ولكن المشكلة ليست مشكلة تفعل ذلك مفيدا. عندما البلاط الخضراء المجاورة لبعضها البعض، ونحن لا يمكن التمييز الذي البلاط أفضل. وذلك في محاولة للعثور على العملية وكيل القلعة سيتم القبض في حلقة لا نهائية!

الجدول مقدمة Q

هذه هي الاستراتيجية الثانية: إنشاء جدول، وسوف نقوم بحساب الحد الأقصى المتوقع مكافأة المستقبل لكل عمل الإجراءات المتخذة في كل ولاية الدولة.

وبفضل هذه الاستراتيجية، فإننا سوف نعرف ما هي أفضل مسار للعمل لكل دولة أن تتخذ نعم.

كل ولاية (البلاط قطعة) يسمح أربعة الإجراءات التي يمكن اتخاذها. فهي في اليسار واليمين، صعودا أو هبوطا.

0 يشير إلى أن العمل لا يمكن أن يؤديها (إذا كنت في الزاوية اليسرى العليا التي لا يمكن لليسار أو حتى!)

في الحوسبة، يمكننا تحويل هذا إلى شكل شبكة.

ويشار إلى هذا الجدول ب Q، ( "Q" تمثل عملية "نوعية"). يشير العمود الذي أربع حركات (اليسار واليمين، إلى أعلى أو أسفل). يمثل خط الدولة. فإن قيمة كل خلية أن يكون الحد الأقصى المتوقع المكافآت المستقبل نظرا للدولة والعمل.

إذا عمل عمل معين في ولاية الدولة هو أفضل استراتيجية، كل Q، توقع المكافآت المستقبل تصنيفا كحد أقصى.

لماذا نقول "وفقا لاستراتيجية يعطي؟" هذا هو لأننا لا يمكن أن تعطي هذه الاستراتيجية مباشرة. ولكن من خلال تحسين طاولتنا Q لاختيار دائما أفضل مسار للعمل عمل.

يمكن اعتبار جدول Q أن تكون لعبة "ورقة الغش". من خلال ايجاد "الغش ورقة" أعلى خط النتيجة، ونحن نعرف ما هو الأفضل لكل دولة (Q كل صف في الجدول) عمل نعم.

نعم! حللنا مشكلة القلعة! لكن الانتظار ...... كيف نحسب قيمة كل عنصر من عناصر الجدول Q؟

لإعطاء كل قيمة هذا الجدول Q، يمكن استخدام خوارزمية للتعلم Q.

Q-التعلم: التعلم وظيفة قيمة العمل

وظيفة قيمة العمل (أو "وظيفة Q") واثنين من المدخلات: "الحالة" و "العمل". تقوم بإرجاع العمل المتوقع المكافآت المستقبل في هذه الدولة.

يمكننا أن نقرأ هذه الوظيفة Q كدليل لتجد عمود المرتبطة دولتنا من الخط، وكذلك مع أفعالنا المرتبطة عن طريق التمرير من خلال Q. تقوم بإرجاع قيمة مباراة Q. هذه القيمة هي "المتوقعة مكافأة المستقبل".

قبل أن استكشاف البيئة، وقيمة Q، هو القيمة الأولية الثابتة (عادة 0). عندما نستكشف البيئة عن طريق استخدام تحديثا تكرارية المنادي المعادلة س (ق، أ)، وقيمة Q الجدول على مقربة من أفضل (انظر أدناه!).

عملية Q-التعلم

الزائفة رمز Q-التعلم خوارزمية

الخطوة 1: تهيئة Q

ونحن بناء الجدول Q، مع عمود م (م = عدد العمليات) و n خطوط (ن = عدد من الدول). ونحن نقدر تهيئة إلى الصفر.

الخطوة 2: التعلم مدى الحياة (أو حتى يتوقف التعلم)

وهذه العملية كرر الخطوات من 3-5 حتى وصل عدد أشواط من الخوارزمية من قيمة الحد الأقصى من الحلقة (المحدد من قبل المستخدم) أو يدويا حتى نتوقف التدريب.

الخطوة 3: حدد العمل

أكشن قيمة Q وفقا للحالة الراهنة للالتحديد الحالي.

ولكن ...... إذا كان كل قيمة Q هي الصفر، التي ما يتعين اتخاذه من اجراءات؟

هذه هي أهمية التنقيب التي تحدثنا عنها في المقال السابق / استخدام المقايضات.

والفكرة هي أنه في البداية، وسوف نستخدم استراتيجية إبسيلون الجشع:

  • نحدده نحن استكشاف "إبسيلون"، التي وضعناها، وهذا هو، والتنفيذ العشوائي سرعة الخطوة 1 في البداية. عندما بدأت للتو للتعلم، ويجب أن يكون هذا المعدل أعلى قيمة، لأننا لا نعرف شيئا عن قيمة الجدول Q. وهذا يعني أننا بحاجة إلى اختيار أعمالنا من قبل عدد كبير من التنقيب العشوائي.

  • توليد رقم عشوائي. إذا كان هذا الرقم >  إبسيلون، فإننا سوف "الاستخدام" (الذي يعني أننا نستخدم الأساليب المعروفة لاختيار أفضل عمل لكل خطوة). خلاف ذلك، سوف نستكشف.

  • والفكرة هي أنه عندما نبدأ التدريب وظيفة Q يجب أن يكون إبسيلون كبير. بعد ذلك، كما يصبح وكيل أفضل وأفضل، والحد تدريجيا.

الخطوة 4-5: تقييم!

تعمل عمل الدولة ونرى النتيجة ق "ومكافأة ص. وQ ظيفة التحديث (ق، أ).

نبت اخترنا في الخطوة 3، وأداء عوائد العملية حالة جديدة ل "ومكافأة ص (كما رأينا في المادة الأولى من عملية التعلم تعزيز ذلك).

ثم، وذلك باستخدام المنادي تحديث Q (ق، أ) المعادلة:

تحديث Q (، عمل الدولة) رمز يمكن أن تكون مكتوبة على النحو التالي:

Q جديدة قيمة =

قيمة Q الحالية +

LR *

دعونا نعطي مثالا على ذلك:

  • A جبن = +1

  • اثنين من الجبن + 2 =

  • أكوام من الجبن = +10 (الحلقات المنتهية)

  • إذا كنت تأكل سم الفئران = -10 (نهاية الحلقة)

الخطوة 1: تهيئة الجدول Q

Q طاولة التهيئة

الخطوة 2: اختر

من نقطة الانطلاق، يمكنك اختيار الحق أو لأسفل. لدينا معدل إبسيلون كبير (لأننا لا نعرف شيئا عن البيئة)، عن طريق اختيار عشوائي. على سبيل المثال ...... الحق.

كنا الحركة العشوائية (على سبيل المثال، اليمين)

لقد وجدت قطعة من الجبن (+1)، القيم Q تحديث وتسجيل حق العمل. وتحسب المنادي المعادلة.

الخطوة 4-5: تحديث وظيفة Q

  • أولا، قيمة Q من Q الاختلاف حساب (بدء، يمين)

  • ثم Q قيمة Q (بدء، يمين) مضروبا في نسبة التعلم.

معدل التعلم يمكن اعتبار لمعرفة سرعة من قيمة تحديث Q شبكة التعلم. إذا كان معدل التعلم هو 1، ثم القيمة المقدرة الجديدة ستكون قيمة Q جديدة.

المحدثة الجدول Q

حسن! لقد قمنا بتحديث فقط لدينا أول قيمة Q. ونحن الآن بحاجة إلى أن تفعل ذلك مرارا وتكرارا حتى تتوقف عن التعلم.

Q تعلم خوارزمية لتحقيق

لقد خلقت الفيديو، ونحن نفذت نمباي التعلم واللعب معا Q تاكسي-V2 وكيل التعلم.

استخدام نمباي وOpenAI تاكسي-V2؟ Q والتعلم (تعليمي)

الآن نحن نعرف كيف Q-التعلم هو العمل، ونحن سوف تحقق تدريجيا خوارزمية Q-التعلم. كل جزء من شفرة يمكن العثور عليها في دفتر Jupyter التالية.

يمكنك الوصول إليه في الريبو ديب التسليح دورة التعلم في.

أو يمكنك الوصول إليه مباشرة على جوجل Colaboratory:

Q-التعلم لتحقيق بحيرة مجمدة

colab.research.google.com

مراجعة ......

  • Q-التعلم هو خوارزمية تعزيز التعلم على أساس القيمة لوظيفة ف للعثور على سياسة اختيار العمل الأمثل.

  • لأنه يقوم على تشغيل قيمة تقييم وظيفة عملية الواجب اتخاذها، وقيمة وظيفة عمل قيمة تقرير في حالة معينة، واتخاذ بعض الإجراءات في هذه الدولة.

  • الهدف: تحقيق أقصى قدر من وظيفة Q (عمل الدولة معين ومكافأة المستقبل المتوقع).

  • Q، تساعدنا على إيجاد أفضل مسار للعمل لكل دولة.

  • عن طريق اختيار الأفضل من جميع الإجراءات الممكنة لتحقيق أقصى قدر من المكافأة المتوقعة.

  • يمثل Q كتلة من دولة معينة من العملية.

  • وظيفة Q (الدولة، والعمل) عودة العملية مكافأة المستقبل المتوقع في هذه الحالة.

  • يمكن أن تستخدم لتقدير وظيفة التعلم Q، Q تحديثها بشكل متكرر تعلم Q (ق، أ) باستخدام المعادلة المنادي

  • قبل أن استكشاف البيئة: يعطي Q الجدول قيمة التعسفية نفس تهيئة ولكن عندما واستكشاف البيئة Q يعطينا تقريب أفضل.

لذلك! لا ننسى أن كل جزء من التعليمات البرمجية تنفيذها - وأنا أحاول أن تعديل التعليمات البرمجية مهم جدا.

محاولة لإضافة عصر، تغيير سرعة التعلم، واستخدام بيئات أكثر تعقيدا (مثل استخدام 8X8 البلاط المجمدة البحيرة). المتعة!

في المرة القادمة سنقوم بتنفيذ التعلم عمق Q، التي تعد واحدة من أكبر اختراق في عام 2015، وعمق تعزيز التعلم. سنقوم بتدريب وكيلا للعب الموت، وقتل العدو!

أريد الاستمرار لعرضها روابط ذات صلة والمراجع؟

الصحافة وانقر لفتح ارتباط أو انقر على الجزء السفلي من عمق تعزيز التعلم [من الدخول إلى سيد: Q التعلم من خلال دراسة مكثفة (الجزء الثاني)]:

https://ai.yanxishe.com/page/TextTranslation/1394

AI Yanxishe المحتوى مثيرة تحديثها يوميا، وعرض محتوى أكثر إثارة: شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

[اضغط على القفز] عمق تعزيز التعلم من الدخول إلى الرئيسي: مقدمة الفصل (الجزء الأول)

PyTorch نقوم به مع الكشف عن وجوه وتتبع

تعلم الآلة له علاقة مع بيثون مجموعات المكتبة الهامة

كيف مبتدئين دراسة الهجرة Keras

مادة واحدة تقرأ مع WaveNet: مساعد المزج الصوت جوجل

في انتظاركم لتفسير:

تعزيز التعلم: مما يؤدي إلى نظام قائم على السلوك العاطفي

كيفية بناء نموذج LSTM Keras، والتكيف المعلمة

DQNs كبار: ميزة أخذ من عمق تعزيز التعلم للعب لعبة باك مان

هيكلة شبكة الرقابة على عمق تعزيز التعلم (أوراق ICML شرح)

فاز عوزي كثيرة معروفة نجوم الرياضة، انتصارات تؤثر الثالثة في الترتيب، ولكن القسم Mengkua وعد

شيكاغو أحذية رياضية مطعم الصف دائرة! فيرجيل Ablogh س NIKE القوة الجوية 1 حالة وجود منافس مباشر!

الفقرة تينسنت 15 شريط فيديو قصير على الخط لأن يقاوم الأهتزاز، ماهر، بركان

مشهد 370 نسخة CVT من التعرض السعر الرسمي: بيع 64900 يوان

في العام الماضي أقوى الناس الفيلم الصيني هنا!

الفنون الليبرالية الطلاب هو "الفئات الضعيفة"؟ وقفه ~

6T بالإضافة إلى الكاميرا، خبز الفيديو DxOMark النتيجة السلطة الدخن قليلا خسر 8

طوبى مسحوق جرة! ومن المتوقع الجديدة جاكوار XF Sportbrake في الربع الرابع إلى الصين

ومن المتوقع ليو Zuohu زيارة كوالكوم، العام المقبل بالإضافة إلى 5G الهواتف المحمولة أن تؤدي إلى السوق

"زلزال 3" بقوة، وفتح اللحوم مطرقة شقيق وضع انبهار مرة أخرى، حصاد عدد لا يحصى من المشجعين أختي!

أنشئت لجنة تقنية تينسنت؛ وممارسات إدارة شبكة فيديو قصير قدم، سامسونج حاجة لدفع 1340000 $ للتهرب من الضرائب | لى فنغ الصباح

الجديدة BMW I8 رودستر زيادة القوة! جديدة لاول مرة سيارة العام المقبل