الثقيلة: DeepMind الاعلان عن تعزيز العام التعلم نموذج جديد، يمكن للروبوت يتعلم أي مهمة

 الأنفس جي تقرير جديد

المصدر: DeepMind

ترجمة: مارفن

[استعراض فاز جي الجديدة DeepMind بلوق وظيفة نشرت اليوم، يقترح نموذجا جديدا التعلم دعا SAC-X (المخطط مساعدة السيطرة)، وتهدف إلى حل AI على علم مسبق الحد الأدنى من الصفر لتعلم معقدة التحدي مشاكل السيطرة. هذا النجاح في بيئة حقيقية بحيث الذراع الروبوتية من الصفر لمعرفة انتقاء والأجسام المكان. يعتقد الباحثون، SAC-X هو طريقة عالمية لتعزيز التعلم، يمكن تطبيقها في المستقبل لمجال أوسع من الروبوتات.

السماح للأطفال (حتى الكبار) لتنظيف بعد استخدام المواد التي قد تكون صعبة جدا الأشياء، ولكن نحن نواجه تحديا أكبر: في محاولة للحصول على أعمالنا AI تفعل الشيء نفسه. نجاح AI يعتمد على ما إذا كان سيد بضعة الأساسية المهارات الحركية البصرية: الاقتراب من وجوه، والاستيلاء على رفعه، ثم فتح مربع ووضع الكائن في الداخل. لجعل الأمور أكثر تعقيدا هو أن هذه المهارات يجب أن يتم أيضا في الترتيب الصحيح.

مهام التحكم (مهام المراقبة) ، مثل الانتهاء من الجدول أو مكدسة الأشياء، ويمكن أن عامل تحديد كيف ومتى وإلى تنسيق ذراعها تسعة مشترك محاكاة والأصابع حيث لنقل الكائن بشكل صحيح، لتحقيق أهدافها. في أي فترة معينة من الزمن، وعدد من التوليفات الممكنة للحركة تكون كبيرة جدا، وتحتاج إلى تنفيذ سلسلة من العمليات الصحيحة التي تشكل أسئلة التحقيق خطيرة - يجعل هذا دراسة تعزيز التعلم حقل للاهتمام بوجه خاص .

تشكيل مكافأة (مكافأة تشكيل)، والتلمذة (التعلم التلمذة الصناعية) وإظهار المهارات التي يمكن أن تساعد في حل هذه المشكلة التعلم. ومع ذلك، هذه الأساليب تعتمد على الكثير من المعرفة حول المهمة - على علم مسبق الحد الأدنى من الصفر لمعرفة المشاكل تحكم معقدة، لا يزال تحديا مفتوحا.

DeepMind رقة جديدة نشرت مؤخرا "التعلم عن طريق اللعب - حل المهام مكافأة متفرقة من الصفر" يعرض نموذج التعلم الجديد، ودعا "من المقرر تحكم مساعد (SAC-X)" (برنامج مساعدة السيطرة)، يهدف إلى حل هذه المشكلة. SAC-X الفكرة هي أن نبدأ من الصفر لتعلم مهمة معقدة، ثم يجب على وكيل تعلم أولا لاستكشاف وإتقان مجموعة أساسية من المهارات. مثل القدرة على تطوير الطفل يجب أن تكون منسقة ومتوازنة تعلم كيفية الزحف قبل أن المشي وتوفير بعض المهارات البسيطة الموافق الهدف الداخلي (الثانوي) إلى وكيل قد يزيد من فرص النجاح وفهمه لأداء مهام أكثر تعقيدا.

أثبتنا في العديد من الروبوتات المحاكاة وحقيقية في مهمة SAC-X ويتألف أسلوب مختلف المهام، مثل مشاكل التراص أنواع مختلفة من الكائنات، مشكل إعداد الموقع (احتياجات الكائن إلى أن توضع في الإطار). نحدد مهام إضافية للتتبع المبدأ العام: أنها تشجع وكيل لاستكشاف رؤيتها من الفضاء (الفضاء استشعار). على سبيل المثال، وتفعيل استشعار تعمل باللمس على إصبعه، مفهومها من الرسغ، حتى أن أجهزة الاستشعار التحفيز زاوية مشتركة (أجهزة استشعار التحفيز) تصل إلى الحد الأقصى، أو كائن قوة يتحرك مستشعر الكاميرا رؤيتها. إذا وصلت إلى الهدف، كل منها مرتبط مع مكافأة مهمة بسيطة، أو جائزة الصفر.

FIG 2: دراسة وكيل هي أول شيء تفعيل استشعار تعمل باللمس على إصبع، ونقل اثنين من الكائنات.

الشكل (3): وكيل النظير يتقن أخيرا "كومة" كائنات هذه المهمة المعقدة.

بعد ذلك، يمكنك تحديد وكيل الحالي الخاص "نوايا" (نية) أن الهدف التالي. الهدف قد يكون مهمة المساعدة أو الأهداف والمهام المحددة خارجيا. الأهم من ذلك، أن وكيل الاستفادة الكاملة من التعلم خارج السياسة للكشف عن والتعلم من غيرها من المهام إشارة مكافأة. على سبيل المثال، عندما يكون جسم متحرك أو البيك اب، وكيل وبالمناسبة، قد تكون مكدسة حتى الحصول على "كومة" مكافأة. بسبب سلسلة من مهام بسيطة يمكن أن يؤدي إلى المكافآت الخارجية نادرة المرصودة، وبالتالي فإن القدرة على ترتيب (الجدول الزمني) من "نوايا" نفذت أمر ضروري. هذا يمكن أن تخلق دورة شخصية من الدراسة على جميع المعارف التي تم جمعها.

هذا يثبت أن في هذه المنطقة بشكل كامل واسع وسيلة فعالة لمعرفة، ومفيد بشكل خاص في حالة سوى عدد قليل من إشارة المكافآت الخارجية. لدينا وكيل يقرر اتباع هذه النية من خلال وحدة الجدولة. خلال التدريب، وجدولة من خلال خوارزمية الأمثل للتعلم الفوقية، ومحاولات خوارزمية لتحقيق أقصى قدر من التقدم من المهام الرئيسية لتحسين كفاءة بكثير البيانات.

الشكل 4: بعد استكشاف عدد من المهام الإضافية الداخلية، وكيل تعلم كيفية كومة وتنظيم الكائنات.

لدينا عروض التقييم، SAC-X يمكن أن تحل جميع المهام أنشأنا من الصفر - باستخدام نفس مجموعة الأساسي من مهام المساعدة. حتى أكثر إثارة هو أننا الاستخدام المباشر لSAC-X الذراع الروبوتية على المختبر الحقيقي، نجح أن نبدأ من الصفر لمعرفة اختيار ومكان المهام. في الماضي، وهذا يمثل تحديا بشكل خاص لاحتياجات التعلم من كفاءة البيانات العالم الحقيقي للروبوت، النهج السائد هو أن ما قبل التدريب (قبل القطار) وكيل في بيئة محاكاة، ثم وكيل تحويلها إلى ذراع الروبوت الحقيقي.

الشكل 5: في ذراع الروبوت الحقيقي، SAC-X للتعلم من الصفر كيفية التقاط ونقل المربع الأخضر. لو لم أر هذه المهمة.

ونحن نعتقد أن SAC-X هو أن نبدأ من الصفر لتعلم خطوة هامة في مهمة المراقبة، ببساطة تحديد الهدف بشكل عام. SAC-X يسمح لك لتحديد أي المهام الإضافية: على أساس المعرفة العامة (على سبيل المثال، في التجربة وتفعيل عمدا أجهزة الاستشعار)، ولكن في النهاية يعتقد الباحثون قد تحتوي على أي مهمة هامة. من هذا المنظور، SAC-X هو طريقة عالمية لتعزيز التعلم، وليس السيطرة عادل والروبوتات، ويمكن تطبيقها على نطاق واسع متفرق بيئة تعليمية تعزيز العامة.

هذا العمل الذي مشترك من قبل الباحثين التالية: مارتن Riedmiller، رولاند هافنر، توماس لامب، مايكل Neunert، جوناس Degrave، توم فان دي WIELE، فولوديمير Mnih، نيكولا Heess وتوبياس Springenberg.

عنوان ورقة: الشبكي: //arxiv.org/pdf/1802.10567.pdf

التجزئة الساخن أسبوع واحد | الجياع ذلك كلمة في الفم "الاندماج"؛ Jingdong لمكافحة الفساد ورفض 16 شخصا

حول متعة في ذلك، وكان الاسباني خطيرة.

قدم إكسياوجان الصفقة الجديدة، بعد بدوره المعلم لتحسين معاملة الأصدقاء ~

المحتوى IP، وإمدادات الاكتئاب سلسلة والمجتمعات ورفع مستوى الاستهلاك، وكيفية الاستفادة من الفرص التجارية الجديدة؟

البلدة القديمة، في أوروبا والولايات المتحدة ببساطة إلى السماء!

أي أعلى من الجبل الرجل! فقد كلتا ساقيه، 69 عاما، كان لا يزال يقف على قمة جبل ايفرست

بلدي هانتشونان: أن أعلى القبعات

[ايان غودفلوو قوي دفع] تقدم GAN تتبع 10 ورقة كبيرة (مرفق التحميل)

"تشن هوان السيرة الذاتية" المعجنات الملكة، والجلد كما Xueshuang حلوة مثل العسل والقرفة Qinren القلب!

ماذا سيكون زرع الآفات والأمراض الكستناء؟ كيف الوقاية والسيطرة؟

طازجة المجتمع: بعد أحد المتاجر، والاستفادة المقبل في السوق منفذ تريليون؟

جينغدتشن كلية مشروع نقل آخر التطورات، جنبا إلى جنب يشعر "سرعة Fuliang" ذلك!