وكيل غزو العالم: جوجل DeepMind بلانيت إطلاق الثقيلة، وتعزيز كفاءة البيانات 50 مرة

[استعراض] جوجل AI وDeepMind التخطيط لإطلاق عمق شبكة (كوكب)، الذي هو نموذج وكيل مقرها بحتة، صورة مدخلات من نموذج التعلم في العالم، الانتهاء من عدد من المهام والتخطيط، وتصل إلى 50 أضعاف متوسط كفاءة البيانات، وتعزيز تعلم اختراق آخر .

بواسطة تعزيز التعلم (RL)، حول كيفية كيل AI مع مرور الوقت لتحسين القدرة على اتخاذ القرار من تقدم البحوث بسرعة.

لتعزيز التعلم، وسيراعى الوكيل في اختيار سلسلة من الإجراءات (على سبيل المثال، أوامر الحركة) المدخلات الحسية (على سبيل المثال، صورة الكاميرا)، وأحيانا بسبب لهدف الوصول التي تم الحصول عليها مكافأة .

نهج نموذج خالية من RL ( خالية من نموذج ) أهداف لمراقبة حسن السلوك التي تنبأ بها الحواس مباشرة، وهذا النهج يسمح DeepMind من DQN يمكن أن تلعب ألعاب أتاري، وكيل آخر يمكن التحكم في الروبوت.

ومع ذلك، وهذا هو الصندوق الأسود الطريقة عادة ما يستغرق عدة أسابيع إلى التعلم التفاعلي على محاكاة من خلال التجربة والخطأ، الأمر الذي يحد من فعاليتها في الممارسة العملية.

في المقابل، فإن طريقة RL القائم على نموذج ( يستند نموذج RL) في محاولة للحصول على وكيل لفهم سلوك العالم كله. لا يتم تعيين هذه الطريقة مباشرة إلى الملاحظات للعمل، ولكن تسمح صراحة وكيل التخطيط للمستقبل، حدد الإجراء من خلال "الخيال" من النتائج على المدى الطويل لعن كثب .

حققت الأساليب القائمة على النموذج نجاحا كبيرا، بما في ذلك AlphaGo، فإنه يتوخى سلسلة من التحركات في القواعد المعروفة في لعبة الشطرنج الظاهري. ومع ذلك، تخطيط استخدام الأراضي في بيئة غير معروفة (على سبيل المثال، إلا أن بكسل كمدخل للسيطرة على الروبوت)، وكيل ويجب أن تعلم قواعد أو ديناميكية من هذه التجربة.

وبسبب هذا المبدأ نموذج ديناميكية تسمح بقدر أكبر من الكفاءة وتعدد المهام طبيعة التعلم، وبالتالي خلق نموذج دقيقة بما فيه الكفاية للتخطيط الناجح هو هدف طويل الأجل من RL.

من أجل تعزيز التقدم المحرز في هذا التحدي الدراسة، DeepMind جوجل AI بالتعاون مع المقترح تخطيط الشبكة العمق (ديب شبكة التخطيط، بلانيت) ، وكيل فقط من نموذج التعلم الصورة المدخلة من العالم (نموذج العالم)، ونجحت في استخدامها للتخطيط .

بلانيت حل مجموعة متنوعة من المهام ضبط الصورة القائمة، في عامل الأداء النهائي يمكن أن تتنافس مع خالية من نموذج متقدم، في نفس الوقت تم تحسين متوسط كفاءة البيانات 5000 . سيقوم فريق نشر الشفرة المصدرية لمجتمع البحوث الاستخدام.

ورقة:

https://danijar.com/publications/2019-planet.pdf

المصدر:

https://github.com/google-research/planet

الأوقات العصيبة في عام 2000، وكيل بلانيت التعلم المستمر في حل المهام التحكم المختلفة. لا بيئة تعليمية وكيل النموذج السابق يتطلب عادة أكثر من 50 أضعاف عدد من المحاولات لتحقيق أداء مماثل.

أعمال بلانيت

باختصار، تعلمت بلانيت صورة مدخلات معينة نموذج ديناميكي (نموذج ديناميات) والاستخدام الفعال للنموذج لخطة لجمع خبرات جديدة.

وخلافا للطريقة تخطيط الصورة السابقة، ونحن نعتمد على مخفي أو تسلسل المدمجة حالة كامنة . وهذا ما يسمى نموذج ديناميات الكامنة : نحن لا تنبأ مباشرة من صورة واحدة إلى الصورة التالية، ولكن يتوقع للدولة المستقبلية المحتملة. ثم يتم إنشاء كل خطوة وصورة من حالة كامنة مكافأة المقابلة.

بهذه الطريقة الصورة مضغوط، ويمكن وكيل تعلم تلقائيا تمثيل أكثر تجريدا، مثل موقف وسرعة الجسم، حتى تتمكن من التنبؤ قبل أكثر سهولة، دون الحاجة لتوليد صورة على طول الطريق.

علمت الكامنة حيوية نموذج: نموذج ديناميات الكامنة، وذلك باستخدام شبكة التشفير (رمادي شبه منحرف) من معلومات الصورة مدخلات متكامل مخفي (الأخضر) في. المتوقع بعد ذلك خفية إلى الأمام للتنبؤ صورة المستقبل (أزرق شبه منحرف) و مكافأة (المستطيل الأزرق).

من أجل معرفة نموذج دقيق الديناميات الكامنة، نقترح ما يلي:

دورة دولة نموذجية الفضاء (المتكررة الدولة الفضاء النموذجي) : وهناك نوع من الديناميات الكامنة النموذج هو مكونات الحتمية والعشوائية، مما يسمح بالتنبؤ الاحتياجات المحتملة مستقبل يقوم على التخطيط قوية، واضعة في اعتبارها فترة طويلة الخطوات مزيد من المعلومات. تظهر تجاربنا أن هذين العنصرين أمر بالغ الأهمية لتحسين الأداء التخطيط.
التجاوز المحتمل الهدف (الكامنة تجاوزت الهدف) : نحن فرض الاتساق بين خطوة واحدة ومتعددة الخطوات الفضاء إمكانية التنبؤ، يتم توسيع هذا النموذج أهداف التدريب القياسية ديناميات الكامنة لتدريب التنبؤ متعددة الخطوات. هذه النتائج في الهدف بسرعة وكفاءة، يمكن أن تحسن التوقعات على المدى الطويل، ومتوافق مع أي نموذج سلسلة المحتملين.

على الرغم من أن الصورة تسمح لنا أن يتنبأ نموذج أستاذ المستقبل، ولكن فك التشفير والترميز من الصور (الصورة أعلاه شبه منحرف) يتطلب الكثير من الحوسبة، والتي سوف تبطئ جهاز المخابرات عملية التخطيط. ومع ذلك، فإن تخطيط الدولة المحتملة في الفضاء الصغير هو سريع جدا، لأننا في حاجة فقط للتنبؤ المكافآت المستقبل لتقييم سلسلة من الإجراءات، بدلا من صورة التنبؤ.

على سبيل المثال، وكيل وهو تصور أن موقف الكرة إلى الهدف على مسافة معينة كيف يمكن للتغييرات في العملية، دون الحاجة لتصور المشهد. وهذا يسمح لنا أن نتصور العمل تسلسلات 10000 وتتم مقارنة بحجم دفعة كبيرة في كل وكيل لاختيار إجراء. ثم أبذل قصارى جهدي لإيجاد تسلسل الحركة الأولى، والخطوة التالية في إعادة تخطيط.

التخطيط الفضاء المحتملين : للتخطيط، ونحن سوف صورة الماضي (شبه منحرف الرمادي) مشفرة للدولة الخفية الحالية (الخضراء). وبهذه الطريقة، يمكننا التنبؤ على نحو أكثر فعالية المكافآت المستقبل تسلسل العمل. علما بأن الرقم المذكور أعلاه تكلفة فك صورة (شبه منحرف الأزرق) قد اختفى. ثم وجد تسلسل أول عملية إعدام أفضل (المربع الأحمر).

قبل لنا على العالم نموذج العمل (https://worldmodels.github.io/) مقارنة، والعمل بلانيت في غياب السياسات في وضع الشبكة - هو محض لتحديد الإجراء من خلال التخطيط، لذلك يمكن الاستفادة من التحسن في النموذج الحالي. لمزيد من التفاصيل التقنية، يرجى الاطلاع على الأوراق البحثية لدينا.

بلانيت مقابل نموذج خالية الطريقة

قمنا بتقييم بلانيت على مهمة الرقابة المستمرة. لوحظ وكيل صورة المدخلات فقط ومكافأته. ونحن نعتبر أن مهمة مع مجموعة متنوعة من التحديات المختلفة:

مهمة عجلة العربة : مع كاميرا ثابتة، بحيث قد يتم نقل العربة بعيدا عن الأنظار. ولذلك، يجب على وكيل استيعاب وتذكر المعلومات من إطارات متعددة.
المهام إصبع الدوران: التنبؤ يتطلب كائنين منفصلين، والتفاعل بينهما.
الفهد تشغيل المهام: بما في ذلك من الصعب التنبؤ بدقة الاتصال الأرض، فإنه يتطلب عددا من النماذج الممكنة للتنبؤ بالمستقبل.
كأس الكرة المهمة: انها لا تقدم سوى إشارة مكافأة ضئيلة عندما يتم القبض على الكرة. وهذا يتطلب التنبؤ بدقة بعيدا جدا في المستقبل، والتخطيط لتسلسل دقيق من الإجراءات.
المشي المهام: محاكاة لالروبوت بدأت كما ملقى على الأرض، ثم يجب أن تعلم أولا أن يقف، ثم تعلم المشي.

وكيل بلانيت لقبول مجموعة متنوعة من تدريب مهام ضبط الصورة القائمة. الانتقال خريطة عرض صورة عند وكيل لحل المدخلات المهمة. هذه الهدايا المهام التحديات المختلفة: الاتصال الجنسي يمكن ملاحظتها جزئيا على سطح الأرض، مكافأة الكرة متفرق، والسيطرة على الروبوت بالقدمين التحدي.

هذه الدراسة هي الأولى التي تستخدم نموذج التعلم للتخطيط، وأفضل مما كان عليه الحال من طريقة خالية من نموذج للصورة على أساس المهمة.

الجدول التالي بلانيت والمشاهير وكيل A3C وD4PG الوكيل وبالمقارنة، والذي يجمع بين أحدث التطورات في RL خالية من نموذج. DeepMind هذه البيانات الأساسية من سيطرة عدة. بلانيت على جميع المهام هي أفضل بكثير من A3C، المباراة النهائية على مقربة أداء D4PG، في حين بيئة تفاعلية مع تخفيض متوسط 5000.

جميع المهام تحتاج وكيل واحد فقط

وبالإضافة إلى ذلك، قمنا بتدريب فقط بلانيت وكيل واحد لمعالجة جميع المهام ستة .

دون معرفة المهمة، يتم وضع وكيل عشوائيا في بيئات مختلفة، فمن الضروري للاستدلال على صورة مراقبة المهام.

دون تغيير المعلمات المفرط، حققت المهمة متعدد وكيل مع وكيل واحد نفس متوسط الأداء. وعلى الرغم من أبطأ في التعلم، ولكن الحاجة إلى استكشاف المهمة الصعبة المتمثلة في المشي في، انها أسرع بكثير للتعلم في مهمة عجلة العربة، وأداء النهائي هو أفضل.

تدريب على عدة كيل المهام بلانيت. لوحظ 5 قبل وكيل للاستدلال على إطارات كسياق مهمة والدولة والتنبؤ بدقة مقدما الخطوة 50 في حالة وجود تسلسل معين من الإجراءات.

استنتاج

نتائجنا تظهر احتمال تعلم لبناء نموذج ديناميكية وكيل الذاتي RL. ونحن نشجع مزيد من الدراسة، ركز على المهمة الصعبة المتمثلة في التعلم نموذج ديناميكية أكثر دقة، مثل بيئة ثلاثية الأبعاد والبعثات الروبوتية واقعية. توسيع نطاق عامل محتمل هو قوة المعالجة TPU. إمكانية التعلم يجلب لنا تعزيز متحمس، بما في ذلك التعلم متعددة المهام، واستخدام وسائل تنظيم هرمي ومبادرة لاستكشاف عدم التيقن من التقديرات القائمة على النماذج.

مصدر: جوجل AI

(هذا المقال هو طبع أو مقتطفات الشبكة، وينتمي إلى المؤلف الأصلي أو نشرت في وسائل الإعلام على الإطلاق. كما تنطوي على العمل قضايا حق المؤلف، يرجى الاتصال لنا التعامل معها.)

طريق الحرير

وكيل غزو العالم: جوجل DeepMind بلانيت إطلاق الثقيلة، وتعزيز كفاءة البيانات 50 مرة

قلص 41 درجة خط العرض أجمل المناظر الطبيعية، مع عمر معين لأحد أفراد أسرته تشانغباي

العشرة الأوائل أصحاب السيارات المخزون استهلاك الوقود الفعلي، انظر السيارة التي هو الطبق الخاص بك!

يو مين المبادئ العلمية والقنبلة الهيدروجينية (أ) من القنبلة الهيدروجينية

فن الخزف | تشن Shaoyue - الشرق بالغرب، جمالها عظيم

الديون العالمية إلى مستويات قياسية جديدة، الدولار أو أدخل لحظة متوترة، أو فقاعة الديون سيتم التطرق الذهب

2018 صدر الاصطدام الأول، ونماذج مستقلة يسجل متفائلة، طوق 01 غراما من غلاة تصدرت مرسيدس بنز E

اختبأ هذه البلدة الجنوبية منخفضة رئيسي 300 نودل هاوس والشارع الشاي للألفية، فصيل من الإمبراطورية الغذاء

كان الصبي القتيل الذكاء الاصطناعي "القيامة"! ولكن أمه كانت تخاف

السفر الصيف هو مبدأ واحد فقط: أين بارد، حيث يذهب عدد قليل من الناس حيث!

قفازات غير محدودة ثانوس يهمك، ولكن ما يهمني أبطال السوبر هي ما سيارة

الشرطة الشعبية نظرة سريعة! وزارة الأمن العام للتو تعديل هذه الأحكام إلى حل مشكلة يزعجك لفترة طويلة

صرخ وكالات: العاصمة الدولي أو يجري استدار، انها الصيادين الوقت الاستفادة من الأسواق الناشئة

مئات من السنين القادمة، والتكنولوجيا تغير الطريقة التي نعيش بها؟

منغ أحداث أواخر القارب، وسائل الاعلام الاجنبية أيضا لا يمكن أن يقف

منصة تيغوان مع L وكودي سينانياكي، GLA مرسيدس بنز وإنفينيتي QX30، الذي هو يستحق الشراء؟

حذار! الأول نشط قناة الصغرى دفع فدية فيروس الابتزاز الصين

لماذا هو الأسهل على الناس أن الجهل من الثقة المعرفة المتولدة؟

"سيارة أجرة بكين جلس أكثر سهولة، لأن السيارة لديه كل ما لديه!"

يونيو لى نهر ثلاث سنوات وراء الأبواب المغلقة، هينا جدي العودة العكسية للأسهم A؟

في النصف الثاني من عام 2018، للذهاب إلى هذه الأماكن لرؤية

الذكاء الاصطناعي: كلما ارتفع تبدو "أم" قيمة الين

مطار ناريتا الأمتعة موظفي الفيديو على النار الإنترنت! تحولت الأمتعة المطار إلى أن تكون صفقة من هذا القبيل

الأحكام ذات الصلة