النوم ستيفن تشاو Luohan القلب، والآن وقد علمت منظمة العفو الدولية: ممارسة الحلم، بعد قتال

الصيف B من الجزء السفلي من راحة غير معبد،

إنتاج و qubit | عدد ملفه QbitAI

هل سمعت من "النوم Luohan" لماذا؟

في فيلم "ملك المتسولين،" ستيفن تشو في الحلم القلب متسول القديم إلى تعليم، وتعلم أن النوم Luohan.

فقط كنت أنام، استيقظت فنون الدفاع عن النفس الأفضل في العالم.

الجانب النوم أثناء الدراسة، والعديد من الطلاب قد يكون ...... YY، وعدد قليل يمكن حقا؟

بشكل غير متوقع، والآن وقد علمت منظمة العفو الدولية.

فقط، واثنين من أجهزة الاستخبارات الاصطناعية دانيال: فريق Google الدماغ داود ها (AI تتحول الاستثمار في البحوث من جولدمان ساكس العضو المنتدب وجدت)، سويسرا AI مختبر يورغن شمدهوبر المعروفة باسم (والد LSTM)، الذي صدر بالاشتراك مع آخر نتائج البحوث:

نماذج العالم (نموذج العالم).

باختصار، إنها تدرس منظمة العفو الدولية في المنام "الممارسة".

وكيل AI لا يمكن أن يتعلم فقط في الخيال من أحلامها الخاصة، ولكن أيضا لتعلم المهارات المستخدمة في التطبيقات العملية.

AI ديك زملاء القطاع العام بعث برسالة تهنئة.

ويقول آخرون اثنان منهم تعمل في مجال إصدار اقع "التأسيس"، لافتة وخريطة P: ها ورئيس شميدهوبر تغير حتى ......

هذه القدرة السحرية هي كيف يتم ذلك؟

المكدسة الجمع بين ورقة بقرتين كبيرة، في محاولة لشرح.

في سيارة الأحلام

في الأحلام المدرسة الثانوية، في واقع الأمر كان يقال أن المهارات أعلى النظام، ونحن ننظر إلى أكثر أساسية:

في واقع الأمر تعلم، أن نحلم به.

ديفيد ها وشميدهوبر جعل AI الحقيقي تعلمت القيادة في بيئة محاكاة، ثم وضعها في "الحلم"، ونحن نلقي نظرة على هذا عملية التعلم:

في محاكاة واقعية الأولى من القيادة البيئة المدرسية:

وبطبيعة الحال، فإن هذا الرقم هو منظور الإنسان. في هذه العملية والتعلم، ومنظمة العفو الدولية ترى العالم هو:

حلم المدربين وكيل AI AI وضع، فإنه لا يزال هو نفسه في السيارة:

هذا الحلم هو كيف يحدث ذلك؟ التحدث بوضوح هذا الموضوع، المكدسة لديها لفترة وجيزة شرح طريقة الدراسة. أنها شيدت على هيئة الذكية مقسمة إلى ثلاثة أجزاء، وتلاحظ العالم من حولك نموذج البصرية، ونموذج الذاكرة تحكم التنبؤي ومسؤولة عن تصرفات دولة المستقبل.

القوة الرئيسية المسؤولة عن الحلم، هو واحد من طراز الذاكرة. كان نموذج الذاكرة كانوا MDN-RNN، ويجري هذه الشبكة العصبية، واسمحوا جوجل الدماغ من SketchRNN، لا يمكنك التنبؤ بما هو عصا الرقم لم تنته من قطة أو زهرة.

في عملية القيادة، نموذج الذاكرة مسؤولة عن "الخيال" في مكان الحادث سيارة خاصة بهم، تولد التوزيع الاحتمالي للمرة بناء على الحالة الراهنة، التي هي الدولة القادمة من البيئة، والنموذج البصري هو المسؤول عن فك رموز الصورة في هذه الدولة. انضموا لدت معا، ما قلناه في بداية "نموذج العالم".

ثم، ونموذج من وحدة تحكم يمكن ان تدفع ما يصل نموذج الذاكرة ولدت من بيئة كاذبة.

في الحلم تتعلم العزف على الموت

سيارة الأحلام بسيطة جدا، ولكن دراستين كبيرة من الماشية بشكل واضح أكثر من ذلك. منذ البيئة الخيال AI هي قريبة جدا من الحقيقة، من الناحية النظرية، وأنها هي الهدف النهائي للدراسة هي أيضا قابلة للتحقيق: السماح لمنظمة العفو الدولية يحلم تعلم المهارات، ومن ثم إلى واقع ملموس.

هذه المرة، كانوا VizDoom، وهي ممارسة خصيصا لمنظمة العفو الدولية للعب منصة الموت.

"الحلم" القوة الرئيسية، ولكن أيضا ذكرنا سابقا أن نموذج الذاكرة. والسيارة هي مختلفة قليلا، والآن لا تحتاج إلا للتنبؤ الدولة القادمة من البيئة، من أجل جعل هذه البيئة الافتراضية قدر الإمكان الحقيقي، ولكن أيضا للتنبؤ الدولة القادمة وكيل AI حيا أو ميتا.

وبهذه الطريقة، وتعزيز المعلومات المطلوبة لإكمال التعلم والتدريب، والحلم من التدريب، GO!

حلم إنتاج بيئة حقيقية من العناصر الضرورية، وVizDoom صحيح لديه نفس لعبة المنطق والفيزياء وقواعد (أكثر غموضا) 3D الرسومات، وكذلك البيئة الحقيقية كما سيكون هناك رمي الوحش نارية، وكيل AI لتعلم تجنب هذه الكرات النارية.

المزيد cool غير أن هذا الحلم قد تضيف بعض الشكوك، على سبيل المثال، واسمحوا نارية تطير أكثر خاطئ. وبهذه الطريقة، لعبة حلم أصعب من البيئة الحقيقية.

بعد التدريب في الحلم، يمكن AI تذهب في السباق على VizDoom الحقيقي:

أداء AI في VizDoom جيد جدا، وركضنا 1100 في 100 اختبارات على التوالي، أكثر من 150 معيارا درجة أعلى من ذلك بكثير.

حقا آه ...... 666

كيف؟

الطريقة التي يستخدمونها، وبعبارات بسيطة هو مزيج من RNN وأجهزة التحكم.

نموذج دراسة من وكيل إلى فئتين: نموذج على نطاق واسع في العالم ونموذج تحكم صغيرة، وبهذه الطريقة لتدريب الشبكة العصبية في حل المشاكل تعزيز التعلم على نطاق واسع.

على وجه التحديد، لأول مرة على نطاق واسع تدريب الشبكة العصبية مع طريقة غير خاضعة للرقابة لمعرفة نموذج من العالم حيث الوكيل، ومن ثم تدريب تحكم صغيرة لاستخدام هذا النموذج للعالم من تعلم كيفية حل المهام.

وهكذا، وحدة تحكم تدريب خوارزمية يتطلب تركز سوى مساحة صغيرة جدا بحث حول توزيع الثقة، ونموذج على نطاق واسع من العالم، ولكن أيضا لحماية قدرة التعبير وجهاز المخابرات بأكمله.

هنا يتكون نموذج العالم من جزأين، وهو نموذج البصرية (V) لاحظ المعلومات المخفية الأبعاد عالية المشفرة في ناقلات منخفضة الأبعاد، هو ذاكرة RNN (M) لترميز التاريخ التنبؤ دولة المستقبل. المراقب المالي (C) مع تميز V وM لاختيار عمل جيد.

في السيارة ذكرنا أعلاه، ولعب الموت التجربة، والنموذج البصري مع VAE V، والتباين من التشفير؛ نموذج الذاكرة M المستخدم هو MDN-RNN، وجوجل الدماغ يتيح لك رسم عصا الرقم SketchRNN نفسه، والسيطرة C هو نموذج خطي بسيط من طبقة واحدة.

يتم تجميع هذه النماذج الثلاثة معا لتشكيل العملية برمتها من هذا العامل دراسة ينظر صنع القرار:

V هو المسؤول عن تجهيز نموذج البصرية من معلومات بيئة المراقبة الأصلي كل خطوة الوقت، ثم المعلومات الخفية المشفرة إلى ZT ناقلات، نموذج الذاكرة M ومخفية في نفس الوقت خطوة حزب التحرير معا، ومدخلات إلى وحدة تحكم C، ومن ثم C متجه السلوك الانتاج في.

ثم، وفقا لZT M الحالي وفي، لتحديث الدولة الخفية، الجيل القادم حزب التحرير + 1.

ما هي الفائدة؟

سوف AI جعل "الحلم"، ولكن أيضا في "حلم" في الدراسة، وهناك العديد من الاستخدامات العملية.

على سبيل المثال، عند تعليم AI لعب اللعبة، إذا كان التدريب مباشرة في البيئة الفعلية، يجب علينا أن تضيع الكثير من الموارد الحاسوبية للتعامل مع حالة اللعبة في كل صورة الإطار، أو حساب أن قوانين الفيزياء واللعبة ليست علاقة بكثير. مع هذا النهج "الحلم"، فإنه يمكن مجردة في AI الخاصة بهم وتوقع البيئة، لا تستهلك الكثير الحوسبة الموارد، وتدريب مرارا وتكرارا.

في هذه الدراسة، كما أنها تساعد على نتائج علم الأعصاب، ويرجع ذلك أساسا إلى تثبيط الأولي من التصور الخلايا العصبية للدولة، وسيتم إصدارها بعد تسلمه الجائزة، أن تعلم الشبكة العصبية هي الميزات المتعلقة المهمة الرئيسية.

في المستقبل، وأنها تنوي أيضا إلى إضافة طبقة VAE تجزئة غير خاضعة للرقابة، لاستخراج أكثر فائدة وأفضل للتفسير ميزة التمثيل.

روابط ذات علاقة

أطروحة : HTTPS: //worldmodels.github.io/

وقال دانييل النماذج العالمية هو مشروع بحثي اثنين المقصود لكتابة سلسلة من الأوراق، هذه ليست سوى الفصل الأول: الوصف. فتحوا أيضا زيارتها خاص لهذا المشروع حساب جيثب، يمكنك الاستمرار في التركيز على: الشبكي: //github.com/worldmodels

وبالإضافة إلى ذلك، ما سبق تجريبي تجريبي، مبنية على p5.js وdeeplearn.js. أشكر الكتاب أيضا الدعم من بقية جوجل الدماغ للفريق، distill.pub فضلا عن غيرهم من الباحثين.

- انتهى -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI عناوين على التوقيع

' " تتبع تقنيات AI دينامية جديدة والمنتجات

هارفارد: لا تضحك في بلدي المحرك القديم، ومليون فائقة تشغيل واستخدام 1.5T

غير واقعي 4 لإنشاء JX 2 لعبة المحمول نسخة من الشاشة جيدا كيف؟ الدخن Mix3 المؤتمر عرض حي

في العام الماضي، والمحلي سوبر اخفاق المهاجم الثاني، والبيض أكثر من نصف الموسم لم يكسر حتى الآن

تزوج الزملاء 18 حزمة شراكة فردية 1314 يوان مظروف أحمر: كبير B-الله الحديث

رولز رويس أيضا الماشية من الآن على السيارات بناء بيعها، لكنها باعت 80000 جيتا!

IFLYTEK 2017 التقرير السنوي: الإيرادات من 5.4 مليار الربح من 590 مليون نسمة، منحة 118 مليون الحكومة

فنتاستك فور دوري الدرجة الاولى الايطالي عودة الموسم الماضي، 72 هدفا في 39 تمريرة حاسمة!

وقام فريق من رجال ودورة: زعيم تشو تشى هاو، ليو Dingshuo، شيو تشن هاو تشو كاي يقيد لثالثة!

LOL S8 في الدور قبل النهائي معاينة: هذا الإصدار من أكبر BP من الأيام، ونتطلع إلى مدرب IG الخالد!

80000 بيع عالية التكوين، قيمة الصف الداخلية، من فولكس واجن أودي الفقراء!

ووزانج يونينغ تتلاقى في بريمن، أو شريك المستقبل في ألمانيا C دوري

Nvping اثني عشر فرق اللعبة الصرف، ليو شى، Guruo تشن، والشمس Yingsuo بين فريق!