أحلام اليقظة وكيل، وجاءت جوجل من النص PR من الدماغ؟

وكيل يمكن أن تتعلم في المنام؟ نعم!

أحلام اليقظة هو محددة الإنسان؟ لا!

هذا هو جوجل من الدماغ والمادة PR؟ من الصعب القول ~

مذكرة شبكة لى فنغ AI تقنية الاستعراضي: بعد بعض الوقت قبل نشر "شبكة واحدة كبيرة" على أرخايف، في الآونة الأخيرة يورغن شميدهوبر وديفيد ها من جوجل الدماغ ووضع عنوان كبير ورقة: نموذج العالم (نماذج الدولي). ولكن الصوت الماضي والنقد ثابت، وهذه المرة تقريبا يتفق الجميع على أن المحتوى هو الثناء. على سبيل المثال، على صوت رديت الجميع مشابهة لهذه:

هذا العمل تبدو مثيرة جدا للاهتمام. لكن على محمل الجد شيء جيد، لا تشارك في هذا النوع من جامعة كاليفورنيا في العنوان؟ حقا خائف من الغد، وكشفت وسائل الإعلام "أجرت Google العالم كله يمكن محاكاة منظمة العفو الدولية" أ. (ملاحظة: صاحب البلاغ الأول هو ديفيد ها من جوجل الدماغ)

أو لديه هذا:

وأعتقد أن هذا اللقب يبدو عادي جدا، وصفا دقيقا للغاية. إذا صحفيين الأخبار لا يجب أن نضع جانبا عنوان "العالم" هي الكلمة، ثم وهذا هو بالتأكيد مادة مضللة.

حتى في نهاية المطاف ما يتحدث هذا المقال عن ذلك؟ هو ببساطة: لبناء وكيل نموذج العالم الداخلي، يمكن أن يكون التعلم الذاتي (صورة من هو القدرة على التعلم من خلال الحلم) في الخاصة داخل العالم الداخلي من دون إدخال الخارجي.

يجب أن أقول، وهذا هو حال التعلم تقليد الإنسان. نحن البشر على أساس الحواس محدود (البصر، السمع، الشم، الخ)، في عقولهم لبناء نموذج عقلي من العالم، هذا العالم هو الأساس الذي تقوم عليه نجعل الأحكام والقرارات. عندما يستيقظ، ونحن ندخل من خلال نظام الحسية البصرية والسمعية وغيرها من المعلومات باستمرار، واستنادا إلى نموذجنا العقلية في العالم لاتخاذ القرارات والإجراءات، وعندما نائما، أغلقنا الجهاز الحسي، لكننا ما زلنا قادرين على الحلم "للتعلم".

من أجل التعامل مع الحياة اليومية يتدفق عبر لنا الكثير من المعلومات، فإن أدمغتنا المكانية والزمانية أبعاد هذه المعلومات التمثيل المجرد. يمكننا أن ننظر في مشهد وتذكر بأوصاف مجردة منها. من ناحية أخرى، في أي لحظة نحن المتصورة فعلا من النماذج العقلية الداخلية لدينا من الدماغ للتنبؤ بالمستقبل قرر.

فكيف لفهم نموذج تنبؤي لدينا تأليف الدماغ؟ في واقع الأمر ليست مجرد التنبؤ بالمستقبل، ولكن نظرا للحركة الحالية من الذهاب للتنبؤ بسلوك مستقبل البيانات ملائما. عندما نكون في خطر، ونحن قادرون على اتخاذ غريزي هذا النموذج التنبؤ وسلوك لا ارادي السريع، دون الحاجة إلى تطوير وعي خطة عمل.

البيسبول، على سبيل المثال. A ضاربا البيسبول سوى عدد قليل من ميلي ثانية لتحديد الكيفية التي ينبغي أن تأرجح الخفافيش، وهذه المرة في الواقع أدمغتنا تتطلب أقصر من العين صول إشارة بصرية، السبب ضاربا يمكن ضرب الكرة، ونحن الكرة يمكن التنبؤ غريزي في وقت ما في مكان ما. بالنسبة للاعبين المحترفين، كل هذا حدث في اللاوعي، وتوقع عضلاتهم في الوقت المناسب والمكان المناسب وفقا لنتائج النموذج العقلي الداخلي من تأرجح الخفافيش. كل هذا لا حاجة إلى أن يكون التخطيط الواعي.

لهذه الميزة من الإدراك البشري، في الواقع، في وقت مبكر جدا (في الفترة من 1995 و 2015) بعض الناس في محاولة لبناء نموذج مماثل. وتكمن أهمية هذا هو أنه يستخدم إطار مبسط، والتجارب تثبت بعض المفاهيم الأساسية لهذه الدراسات، نقترح مزيد من الأفكار تحسين، وتطبيقها بشكل فعال في تعزيز بيئة التعلم.

يتحدث عن تعزيز التعلم، خوارزميات RL غالبا ما تكون عرضة للاختناق الائتمان مشكلة مهمة، وبالتالي يصعب تعلم الخوارزميات RL الملايين التقليدية أوزان الشبكة العصبية على نطاق واسع. لذلك، من الناحية العملية، لأسرع التكرار استراتيجية جيدة خلال التدريب، وتستخدم عادة للشبكات الصغيرة.

في هذا العمل، يركز المؤلف على تدريب الشبكة العصبية لمعالجة مهمة RL كبيرة، وينقسم إلى وكيل نموذج تحكم نموذج العالم الكبيرة والصغيرة. مؤلف أول الطريق غير خاضعة للرقابة لتدريب الشبكات العصبية الكبيرة، مما يجعلها نموذجا العالم تعلم وكيل، وإعادة نموذج تحكم أصغر، والسماح لها تعلم لأداء المهام باستخدام النموذج السابق من العالم. هذا يضمن نهج هذا النموذج تحكم تدريب خوارزمية يمكن التركيز على تخصيص الائتمان على مساحة بحث صغير، دون التضحية قدرة وأداء نموذج أكبر من العالم بالقوة. وبالإضافة إلى ذلك، وهذا النموذج من المبنى بل قد تماما في نموذجه العالم الخاصة المنتجة "حلم" وكيل المدربين، وأثر التدريب نقلها إلى العالم الحقيقي. وكيل هيكل نموذج على النحو التالي:

في التفاصيل، واختيار نموذج البصرية التغاير التلقائي الترميز (VAE):

التي الذاكرة المحددة RNN RNN خليط ملزم شبكة الكثافة (MDN-RNN):

SketchRNN مثال MDN-RNN، والتي يمكن التنبؤ اسكتشات من السكتة الدماغية المقبلة. المؤلفون استخدام نموذج مماثل يستخدم للتنبؤ المقبل مخفي ناقلات ض.

المراقب المالي (C) نموذج مسؤولة عن تحديد مسار عمل لاتخاذها من أجل تحقيق أقصى قدر من العائد المتوقع من وكيل في البيئة. في تجربة عمدا اختار أبسط C:

حيث M و ب هي مصفوفة الوزن ومكافحة ناقلات الإزاحة. مزيج أعلاه من هذه النماذج الثلاثة معا هو الحال:

سباق التجربة

المؤلفون أول اختبار للكشف عن السيارة مع هذا النموذج. عملية التجربة هي على النحو التالي:

1. تم جمعها من سياسة عشوائية 10000 خارج (التمهيدية)؛
2. التدريب VAE (V) من إطار الفيديو المشفرة 32-الأبعاد ناقلات الضمني ض.
3. التدريب MDN-RNN (M) نمذجة توزيع احتمال P (Z_ {ر + 1} | a_t، z_t، h_t)؛
4. تحديد وحدة تحكم (C) هو a_t = W_c + B_c.
5. استخدم CMA-ES حل W_c وb_c لتعظيم الفوز بالجائزة الكبرى المتوقعة.

في هذا السباق لعبة، يمكن عامل التحكم تفعل ثلاثة إجراءات: يسارا / الحق، والتسارع والكبح. وكانت النتائج على النحو التالي:

إذا لديك نموذج فقط البصرية (V) -

إذا كان كل من النموذج المرئي (V) وذاكرة طراز (M) -

في 100 الاختبارات، كان متوسط درجة من طراز أعلى بكثير من بعض من النموذج السابق.

بطبيعة الحال، أكثر من ذلك. لأن العالم من طراز المستقبل يمكن أن تكون على غرار (أي، نظرا للحالة الراهنة، يمكن أن يكون لحظة من التوزيعات الاحتمالية ولدت)، حتى إذا هذه الملاحظة على أنها القيمة الحقيقية، وهو ما يعني أن وكيل يمكن أن تمتلك "الوهم" مشهد سباق وهمي، والتعلم في هذا الوهم.

ثم تعلمت في تجربة الحلم، والقدرة على تحويلها إلى بيئة الفعلية؟ نحن بحاجة الى ان ننظر في تجربة.

التجربة VizDoom

في هذه اللعبة، وسوف الوحش وعلى الطرف الآخر من الغرفة تبادل لاطلاق النار الكرات النارية، وكيل كنت تريد أن تتعلم هو كيفية تجنب هذه الكرات النارية لتجنب تعرضهم للقتل.

كتجربة عملية تجريبية VizDoom كلها والسباقات، ولكن هناك بعض الاختلافات. V الأول بالإضافة إلى بدء الترميز بعض خارج الفيديو خلال "الخيال" كله، والعالم الخارجي لم يعد الحقيقية الترميز إطارات الفيديو، ولكن سيتم تحويل في المرة القادمة ناقلات ميزة M توقع للصورة مرئية. ثانيا، M ليس فقط للتنبؤ اللحظة القادمة من ناقلات ميزة، ولكن أيضا في توقع وكيل الميتة / الدولة على قيد الحياة. عملية التجربة هي على النحو التالي:

تم جمعها من سياسة عشوائية 10000 خارج (التمهيدية)؛

تدريب من VAE (V) المشفرة إطار الفيديو 64 كما ضمني الأبعاد ناقلات ض، في نفس الوقت عن طريق V (1) تظهر الصور التي تم جمعها في مساحة ميزة.

التدريب MDN-RNN (M) نمذجة توزيع احتمال P (Z_ {ر + 1}، done_ {ر + 1} | a_t، z_t، h_t)؛ حيث done_ {ر + 1} يشير ميتة / نشط حالة الوكيل.

تعريف جهاز تحكم (C) هو a_t = W_c .

استخدام CMA-ES حل W_c وb_c لتحقيق أقصى قدر من الوقت البقاء على قيد الحياة المتوقعة في بيئة افتراضية.

أثر استراتيجيات من (5) تعلمت أن البيئة في العالم الحقيقي.

وينبغي التأكيد على أنه، هنا، وكيل بالإضافة إلى بيانات الصور الخام التي تم جمعها، لم يكن لديك شيء، وسوف يتعلم كيفية محاكاة القواعد الأساسية للعبة في أحلامهم الخاصة، مثل ألعاب المنطق، سلوك العدو، الخصائص الفيزيائية وهلم جرا. على سبيل المثال، إذا كان العامل لا يزال بعيدا جدا إلى اليسار للتحرك في الخيال الخاصة بهم خارج اللعبة، فإنه يجب أن نتعلم لوقف نفسه من الخروج من جانبي الجدار.

الوهم واللعبة الحقيقية هي مختلفة، وهناك العديد من الشكوك في الوهم، على سبيل المثال، قد ترى تتحرك نارية على طول مسار عشوائي، أو توفي وكيل بطريقة أو بأخرى، لا يمكن أن يفسر لماذا. هنا هو التدريب في الحلم نتيجة أفضل:

هذا العامل في الحلم تطبيقها على بيئة اللعبة الحقيقية، وجدنا أنه حتى السحر الخير، في اختبار عشوائي 100، وبلغ متوسط معدل الإطار من البقاء على قيد الحياة 1100، حتى متطلبات أكثر من 750 انتصارات.

ومع ذلك، وجد المؤلفون أيضا أنه في التجربة خلل. ونحن نعلم أنه عندما كنا صغارا أن يعرف الأشياء التي ألقيت ستسقط، ونحن سوف لا يزال غير واقعية تصور بعض بطل السوبر يمكن أن تطير في الهواء، لأن لدينا السيطرة الكاملة على العالم العقلي لدينا، ونحن احرار في خلق أي شيء نريده.

وبالمثل، في هذا النموذج، لأن وحدة تحكم يمكن الوصول إلى جميع M الخفية التي تمنح أساسا إذن للوصول إلى كافة الحالة الداخلية للعامل، لذلك يمكن معالجته مباشرة لتحقيق هذه الحوافز المخفية لتحقيق أقصى قدر من المطلوب. على سبيل المثال، في الحلم التعلم، هؤلاء الوحوش الافتراضية لن يطلق كرة من اللهب، وذلك بغض النظر عن حركة الجسم الذكية سوف تحصل على درجة عالية. ومع ذلك، فإن عندما تكون نتائج هذه التدريبات للحصول على اختبار البيئة الحقيقية تجد أن وكيل قد مات قريبا. هذا هو مماثل لأحلام اليقظة أكثر من ذلك، في واقع الحياة فإنه لن ينجح.

برنامج التدريب التكراري

في التجارب المذكورة أعلاه، فإن مهمة بسيطة نسبيا، بحيث يمكنك استخدام مجموعة عشوائية من الاستراتيجيات لجمع البيانات نموذج القطار العالم. ولكن إذا كانت البيئة هي أكثر تعقيدا كيف نفعل؟ في هذه الحالة، يمكن للعامل ترى سوى جزء من العالم. لذلك نحن بحاجة الى مزيد من التكرار، التي تسمح لدينا وكيل لاستكشاف العالم، والاستمرار في جمع الملاحظات الجديدة، حتى يتسنى للعالم يمكن أن تتغير وصقل نموذج على مر الزمن. العملية على النحو التالي:

عشوائي المعلمة التهيئة نموذج M، C،

استكشاف العالم مرات N، وكيل التعلم في كل الاستكشاف، وجميع الأفعال a_t والملاحظات x_t حفظها في الذاكرة.

M تدريب نموذج P (X_ {ر + 1}، {R_ ر + 1}، {A_ ر + 1}، {done_ ر + 1} | x_t، a_t، h_t)؛

إذا لم يتم الانتهاء من هذه المهمة، والعودة إلى (2).

تبين التجارب السابقة أن لمهام بسيطة دورة التكرار الأولى هي كافية. للولاية قد تتطلب التكرار متعددة. وهنا اتجاه بحث مثيرة وكيفية الانضمام الفضول وكيل والدوافع الذاتية لبذل المزيد من الجهد لاستكشاف التوزيعات النقدية على المساهمين.

بحث

والتحقق من صحة العملية المذكورة أعلاه إمكانية تدريب في الفضاء حلم وكيل الظاهري تماما ل. وميزة هذه الطريقة أمر بديهي. على سبيل المثال، محرك اللعبة كثيفة حساب، قد تتطلب الكثير من الموارد الحاسوبية لتقديم إطار صورة من اللعبة، أو التي لا ترتبط بمحتوى اللعبة نفسها، وهذا يضيع كثيرا موارد الحوسبة، ولكن أيضا يزيد من التدريب دورة تدريبية الوكيل ، ويمكنك استخدام موارد أقل في بيئة الحلم، وفترات التدريب أقصر لتحقيق نتائج مماثلة.

وبالإضافة إلى ذلك، يمكننا استخدام إطار التعلم العميق لبناء هذا النموذج من العالم، وسوف نقوم بتصميم نموذج للعالم الحوسبة براعة خريطة كاملة يمكن تمييزها، وميزة هي أن نتمكن من استخدامها مباشرة الخوارزمية العودة انتشار لتدريب مخابراتنا الجسم، وصقل وظيفة سياسة لتعظيم الهدف.

النموذج نفسه، يجب أن يكون هناك تحسن. على سبيل المثال تستخدم VAE V في النموذج، الذي كان في الواقع تدريب كنموذج مستقل والقيود الخاصة بها، لأنه قد يكون تم أيضا ترميز جزء لا علاقة لهذه المهمة، بعد كل شيء، والتعلم غير خاضعة للرقابة لا يعرفون ما هو مفيد للقيام بهذه المهمة. على سبيل المثال، في البيئة التي تتكرر الموت غير مهم التفاصيل جدار نمط البلاط، في سباق البيئات أنها ليست مستنسخة كتل المرتبطة المهمة. V بالقطار مع M، VAE قد تكون أكثر تركيزا على حقول صورة ذات الصلة المهمة. ولكن العيب هو أننا قد لا تكون قادرة على فعالية إعادة الاستخدام من دون الحاجة لمهمة VAE جديدة مرة أخرى.

تعلم وظائف مهمة تتعلق الأعصاب لها أهمية كبيرة، الخلايا العصبية الحسية الأولية عند استلام الجوائز، التي صدرت من الدولة كبت، مشيرة إلى أنها ترتبط عادة بمهمة خصائص التعلم في مرحلة البلوغ الأقل، وليس أي ميزة . عمل مستقبل مهمة قد تكون لاستكشاف سبل تحسين نموذج V على التركيز على المهام ميزات ذات الصلة.

ممكن مشكلة أكثر خطورة أخرى هي قدرة محدودة للنموذج العالم. على الرغم من أن جهاز التخزين الحديثة يمكن تخزين كمية كبيرة من البيانات التاريخية باستخدام عملية التدريب متكررة ولدت، ولكن العالم لا يمكن أن يستند إلى LSTM نموذج يتم تخزين جميع المعلومات المسجلة في اتصال مع وزنها. الدماغ البشري يمكن أن تستمر عقود من الذكريات، ولكن الشبكة العصبية الخلفية نشر تدريب قدرة محدودة من حيث الذاكرة، وغالبا ما ينسى مشكلة كارثية. إذا كنت ترغب في وكيل لتعلم لاستكشاف عالم أكثر تعقيدا، ويعتقد الباحثون أن العمل يمكن أن مستقبل استكشاف كيفية استخدام نموذج قدرة أعلى ليحل محل القدرة أصغر شبكة MDN-RNN، أو دمج وحدات التخزين الخارجية.

تعليق على هذه الورقة

على ما يبدو رديت أبدا تفتقر "في مجال شخص"، فإنها غالبا ما تكون قادرة على إعطاء تقييم سليم للعمل. على سبيل المثال لى فنغ شبكة اكتشاف شبكة تسمى sieisteinmodel تقييمها على النحو التالي:

وأود أن أعرب عن (ولكن بالطبع ذاتية) نقطة أوسع من الرأي. ولكن معنى هذه المقالة هو للتحقق يورغن النظرة القديمة الحديثة (أي بعد عام 2005) من الجهاز: الاستدلال التغاير، MD-RNNs والبيئة اطلاق النار 3D.

تعلم النموذج، ثم السيطرة، وهذا النهج كان في الواقع لفترة طويلة من الزمن. يورغن وغيرهم تم الدعوة لأسباب عقود لهذا، وهذا سوف يظهر هذا المقال:

هذا نموذج لديه باسمه، ويسمى "تعزيز التعلم القائم على نموذج".
انها لديها قناعاتها المناطق الفرعية مثل البحث السياسات؛
ومن الثابت أن الدراسة الحالية سيكون بمثابة أداة، وليس فقط باعتبارها محتوى البحوث؛
لقد كان جدا تنضج، قد تم تنفيذه بالفعل في الأجهزة، وليس مجرد محاكاة.
ومن تنافسية للغاية من حيث كفاءة من العينة.
وكان اريك هورفيتز استخدام مبدأ أوسع في خطابه.

حتى إذا تم متحمس لكم عن هذه المادة، ثم يمكنك أيضا أن ننظر في الأعمال السابقة في هذا المجال. يورغن الأوراق القديمة، ومارك بيتر Deisenroth مسح للبحث سياسة تكنولوجيا الروبوت هو نقطة دخول جيدة. وبالإضافة إلى ذلك، يجب أن تنظر أيضا في الأبحاث السيطرة الأمثل، وهذا هو الفرع القديم جدا من نظرية التحكم، والتي بالإضافة إلى تعلم النموذج، وقد تم بالفعل تطوير الفكرة الأساسية.

عن اللقب، وأعتقد أنه ليس من الضروري لهذا النموذج يسمى "نموذج العالم"، إذا كان هذا هو الحال، فإنه ينطبق أيضا على جميع الدراسات السابقة. ولكن الآن PR الناس يلعبون لعبة، وهذا ليس خطأهم.

عبر worldmodels.github.io، شبكة لى فنغ جمعت AI تقنية الاستعراض.

طريق الحرير