يحركها الفضول التعلم، بحيث تعزيز التعلم أسهل

لى فنغ شبكة AI تقنية مراجعة من قبل: تعزيز دراسة واحدة في السنوات الأخيرة هي حقل الأكثر شعبية من الدراسة، ولكن البيئات المعقدة التي هي التدريب الصعب، وبعد التدريب الشاق لتعميم المشكلة لم تحل تماما. تعلم يحركها الفضول هو الحل مثيرة جدا للاهتمام، وهذه المادة هي وصفا مفصلا. لى فنغ شبكة AI تقنية مراجعة النص جمعت على النحو التالي.

* هذه المقالة هي Tensorflow عمق تعلم الكتابة مهندس الفردية توماس Simonini جزء المكثف للمناهج التعلم، وختم المنهج هنا.

في السنوات الأخيرة، شهدنا الكثير من الابتكار في تعزيز عمق المجال من الدراسة. Q عمق تعلم إطار من عام 2014 إلى OpenAI خمسة DeepMind عبة الروبوت الذي صدر في 2018 OpenAI لعب DOTA2، ونحن نعيش في وقت حساس واعدة.

اليوم سوف نتعلم عمق تعزيز التعلم الأكثر إثارة، واحدة من أكثر استراتيجيات واعدة - التعلم يحركها الفضول .

تعزيز الحوافز على أساس أن كل هدف يمكن وصفها بأنها المكافآت تعظيم التعلم. ومع ذلك، فإن المشكلة الحالية هي أن المكافآت الخارجية (أي مكافأة قدمها البيئة) هو الاصطناعية وظيفة الثابت ترميز لا قابلة للتطوير.

فكرة يحركها الفضول هو خلق التعلم له مكافأة الجوهرية وكيل وظيفة (يتم إنشاء وظيفة مكافأة من قبل وكيل نفسه). وهذا يعني أن وكيل وسوف تصبح المتعلمين الذاتي، لأنه على حد سواء والطلاب والمشاركين.

- يا وكيل، كتبت وظيفة ردود الفعل، وسنقدم لكم ردود فعل - خالية من ذلك، وأنا لديك ملاحظات بلدي. أنا الآن سيد نفسي،

يبدو مجنون؟ نعم، ولكن هذا كان ذكر فكرة عبقرية مرة أخرى في عام 2017 "الفضول يحركها الاستكشاف التي كتبها الذاتي تحت إشراف التنبؤ" في مقال، ومن ثم من خلال الورقة الثانية "كبيرة النطاق دراسة التعلم بدافع الفضول" نتائج أفضل.

ووجد الباحثون أن تعلم التعلم يحركها الفضول تتصرف الجسم وتعلم خارج الحوافز بأنها جيدة، وأقدر أن التعميم في بيئة متخلفة.

في المادة الأولى، وسوف نناقش وشرح الجزء النظري من الفضول القيادة لمعرفة كيف يعمل من الناحية النظرية.

ثم، في المادة الثانية، وسوف نحقق وكيل PPO يحركها الفضول في تعلم العزف سوبر ماريو.

تبدو مثيرة للاهتمام؟ دعونا نلقي نظرة!

تعزيز اثنين من المشاكل الرئيسية التعلم

الأولى، متفرق مشكلة المكافأة هي أن الفرق بين العمل وردود الفعل على (مكافأة). إذا كان كل فعل من الثواب، ذكي تجربة التعلم السريع، من أجل الحصول على ردود الفعل السريعة.

على سبيل المثال، إذا كنت تلعب غزاة الفضاء، تبادل لاطلاق النار وقتل العدو، سوف يكافأ. لذلك، سوف نفهم هذا العمل في هذا المشهد هو جيد.

مع مكافأة الجسم التعلم سوف نعرف أن العمل في هذه الدولة هي جيدة

ومع ذلك، في الألعاب الاستراتيجية وغيرها عبة معقدة في الوقت الحقيقي، فلن يكون لها مكافأة مباشرة لكل عمل. ولذلك، قرارات سيئة حتى عدة ساعات في وقت لاحق سيكون هناك ردود فعل.

إلى عصر الامبراطوريات II، على سبيل المثال، يمكننا أن نرى في وكيل أول صورة قررت لبناء ثكنات والتركيز على جمع الموارد. وهكذا، في الصورة الثانية (بعد ساعة)، دمر العدو ثكنات لدينا، لذلك لدينا الكثير من الموارد، ولكننا لا يمكن أن نبني جيشا، حتى نموت.

العدو لتدمير ثكنات لدينا

المشكلة الثانية الكبيرة هي أن المكافآت الخارجية لا يمكن تمديدها. لأنه في كل بيئة، حققت البشر الحوافز. ولكن كيف يمكننا توسيعه الى حد كبير، بيئات معقدة؟

الحل هو تطوير الاستخبارات في نظام المكافأة في الجسم (الناتجة عن وكيل نفسه)، وسوف يطلق مثل هذه الحوافز الفضول .

ملامح مكافأة جديدة: الفضول

الفضول هي جائزة الداخلية، والتي تساوي ويتوقع الخطأ لدينا وكيل سلوكهم في وضعها الحالي العواقب (وهذا هو، للتنبؤ الدولة القادمة في حالة العمل نظرا للحالة الراهنة وسحبه).

لماذا؟ لأن الفكرة هي الفضول ونحن نشجع وكيل لدينا لاتخاذ إجراءات للحد من القدرة على التعلم من الجسم للتنبؤ عواقب عدم اليقين السلوك الخاصة بهم (وكيل قضاء مناطق زمنية أقل أو منطقة معقدة ديناميكية من عدم اليقين ستكون أعلى).

وفقا لذلك، ونموذج الخطأ القياس هو ضرورة وجود بيئة ديناميكية، للتنبؤ الدولة القادمة نظرا للحالة الراهنة والعمل أ.

وهنا لابد أن نسأل سؤال - كيف نحسب الخطأ؟

إلى الفضول حساب، وسوف نستخدم وحدة تسمى وحدة الذاتية الفضول (الكامنة وحدة الفضول) من المذكورة في الورقة الأولى.

مقدمة حدة الفضول

نحن بحاجة إلى مساحة ميزة جيدة

قبل الخوض في وصف هذا النموذج، يجب علينا أن نسأل أنفسنا أولا، استنادا إلى الوضع الحالي لدينا والعمل، كيف كيل التنبؤ الدولة القادمة؟

ونحن نعرف ويمكن تعريف هذا الفضول الخطأ بين توقع نظرا للحالة الراهنة الحادي والعمل في الدولة الجديدة (شارع + 1) ودولة حقيقية جديدة.

ومع ذلك، نضع في اعتبارنا أنه في معظم الحالات، دولتنا هي 4 (بكسل) من المكدس. وهذا يعني أننا بحاجة لايجاد وسيلة للتنبؤ إطار مكدس المقبل، الذي فقد اثنين من الصعوبات:

أولا، من الصعب التنبؤ بكسل مباشرة، تخيل أنك الانتقال إلى اليسار في الموت، تحتاج إلى التنبؤ 248 * 248 = 61504 بكسل!

ثانيا، يعتقد الباحثون أن هذا هو نهج خاطئ، ويمكن اثبات ذلك من خلال مثال جيد.

تخيل أنك في حاجة لدراسة حركة الأوراق في نسيم. أولا، من الصعب أن تكون على غرار نسيم، كل ورقة وهكذا لحظة من الزمن توقع في كل موقف بكسل أكثر صعوبة.

والمشكلة هي أن، لأن لديك دائما الكثير من الخطأ التنبؤ بكسل، حتى لو كانت الحركة ليست نتيجة لعمل من الأوراق وكيل، وكيل سوف أكون دائما غريبة، لذلك استمر الفضول غير مرغوب فيه.

لذلك، نحن بحاجة إلى المدخلات الحسية الأصلي (بكسل مجموعة) يتم تحويلها إلى فضاء ميزة يحتوي فقط على المعلومات ذات الصلة، بدلا من الفضاء الحسي التنبؤ الأصلي (بكسل) في.

نحن بحاجة إلى تحديد القواعد الثلاثة التالية لبناء الفضاء ميزة جيدة:

لنموذج وكيل الكائن يمكن السيطرة عليها.
ولكن أيضا على وكيل لكنه لم يستطع السيطرة على الامور التي تؤثر عليهم النمذجة.
لا السيطرة على الامور عن وكيل النمذجة ولن تتأثر (وبالتالي لا تتأثر).

دعونا نأخذ مثالا على ذلك، وجسمك هو التعلم سيارة، إذا كنا نريد لخلق ميزة لطيفة أننا في حاجة إلى نموذج:

المربع الأصفر هو عنصر هام من

سيارتنا (التي يسيطر عليها لدينا وكيل)، وسيارة أخرى (نحن لا نستطيع السيطرة ولكنها قد تؤثر على وكيل)، ولكن نحن لسنا بحاجة إلى أن تكون على غرار الأوراق (لا يؤثر على وكيل، ونحن لا نستطيع السيطرة عليه). لذلك سيكون لدينا تمثيل ميزة أكثر هدوءا.

الفضاء جزءا لا يتجزأ من المطلوب القيام بما يلي:

الفضاء المضغوط (إزالة أجزاء غير ذات صلة من الفضاء الملاحظة).
الحفاظ على معلومات كاملة عن المراقبة.
الاستقرار: لأن الثابت غير مكافأة تعزيز الجسم التعلم من الصعب على التعلم.

الفضول المتأصل وحدة نمطية (ICM)

وحدة الفضول المتأصلة هي مساعدة نظام فضولنا. وهي تتألف من اثنين الشبكات العصبية.

تذكر، ونحن نأمل فقط أن السلوك الذكي قد يكون نتيجة للتغيرات في الجسم الناجمة عن تغيير أو تجاهل بقية مزيد من التأثير على وكيل التنبؤ البيئة. وهذا يعني أننا لا يلزم أن يكون من الشعور الأصلي من الفضاء (بكسل) وتوقع، ولكن المدخلات الحسية في ناقلات ميزة، والذي يمثل يرتبط فقط مع العمل ينفذ وكيل المعلومات.

لمعرفة المزيد عن خصائص الفضاء: نحن نستخدم، وتدريب الشبكة العصبية في عامل مهمة حيوية عكس الرصد الذاتي، نظرا حالته الراهنة والدولة القادمة (الحادي والحادي والعشرين + 1) للتنبؤ بسلوك التعلم الجسم (في).

منذ الشبكة العصبية تحتاج فقط إلى التنبؤ العمل، حتى لا يكون هناك أي تغيير لا يؤثر على دوافع وكيل العوامل البيئية في الفضاء ناقلات ميزة خاصة بها.

الجزء الأمامي من طراز

نحن بعد ذلك استخدام هذه الميزة قبل تدريب نموذج فضاء الحالة، نظرا للحالة الراهنة للفاي (ش) تمثل ملامح والعملية، التي يمثلها هذا النموذج يتنبأ فاي دولة المستقبل (الحادي + 1) من.

وقبل أن تقدم إلى وكيل لنموذج ديناميكية خطأ التنبؤ لتشجيع الفضول مكافآتهم الجوهرية.

الفضول = predict_phi (الحادي + 1) - فاي (الحادي + 1)

لذلك، لدينا نموذجين في ICM:

نموذج معكوس (الأزرق): ناقل ميزة فاي (ش) والحادي + 1 دولة الحادي وتدريبهم على التنبؤ عملية الترميز وفاي (الحادي + 1) في.

عكس فقدان وظيفة قياس السلوك الحقيقي والتنبؤ الخلافات السلوك

نموذج الأمام (الحمراء): وفاي (ش)، وفي كمدخل، وحيث التنبؤ الحادي + 1 يمثل فاي (الحادي + 1).

قبل الدالة إلى خسائر نموذج

ثم رياضيا، والفضول سوف يكون الفرق بين ناقل ميزة في ظل توقعاتنا من الوضع الحقيقي للناقلات ميزة للدولة القادمة.

وأخيرا، والتحسين الشامل للوحدة هو عكس خسارة، جنبا إلى جنب مع خسارة إيجابية.

هناك الكثير من المعلومات والمعرفة الرياضية!

خلاصة:

وبما أن تحقيق المكافآت الخارجية ومشاكل الحوافز متفرق، نريد خلق المكافآت الجوهرية وكيل .
ولهذه الغاية، قمنا بإنشاء الفضول، هذا هو الخطأ وكيل في توقع نتائج الإجراءات في وضعها الحالي .
استخدام الفضول سيدفع الجسم دراستنا دعم تحويل خطأ التنبؤ عالية (منطقة سيكون الديناميات الإقليمية أعلى أو معقدة في عامل أمضى وقتا أقل في)، من أجل استكشاف أفضل بيئتنا.
ولكن لأننا غير قادرين على التنبؤ الدولة القادمة من خلال التنبؤ الإطار التالي (معقدة جدا)، لذلك نستخدم أفضل تمثيل الميزة، ولم يتبق سوى عامل يمكن التحكم أو تتأثر عناصر من وكيل.
للفضول، ونحن نستخدم الفضول المتأصل في وحدة تتكون من نموذجين: للدولة والدولة القادمة للخصائص التعلم لتكون ممثلة نموذج معكوس وحيث الدولة القادمة وتوقع لتوليد تمثيل نموذج ديناميكي إلى الأمام .
سوف الفضول مساويا predict_phi (الحادي + 1) (نموذج ديناميكي إلى الأمام) وفاي (+ 1 ش) الفرق بين (نموذج دينامية معكوس).

وهذا كل شيء! الآن عليك أن تفهم نظرية، ثم يجب عليك قراءة "الفضول يحركها الاستكشاف التي كتبها التنبؤ تحت اشراف الذات"، "واسع النطاق دراسة الفضول يحركها التعلم من" نتائج الورقتين.

في المرة القادمة، ونحن سوف تتعلم استخدام PPO الفضول الجسم والحوافز الداخلية لتحقيق مسرحية سوبر ماريو.

عبر towardsdatascience.com، شبكة لى فنغ جمعت AI تقنية مراجعة

طريق الحرير