للإنتاج الصناعي من الروبوت العادي، في كثير من الأحيان فقط "قبض على الدجاج إلى الدجاج والكلب كلب الصيد،" وكأنه شوق الحياة المفقودة للعمال خط التجميع، اليوم يتكرر بعد اليوم دون أن يعاني العمل الذهني والبدني.
ومع ذلك، فإن جوجل الدماغ خوارزمية جديدة أمس، كي تكون هذه الفقراء ذراع ميكانيكية بدأ الانخراط في "العمل العقلي":
شيء من مجموعة من العناصر، أمسك حاجة .
على سبيل المثال، وهو مزيج من بناء كتل من معركة جيدة، واعتقل اللبنات الفردية:
الطريقة المستخدمة هو عمق تعزيز التعلم، وعلى نطاق واسع وزعت الأمثل والجديدة خوارزمية التعلم المناسب عمق Q - QT-التقيد الجمع بين السماح للروبوت للتعلم من الماضي في كل تدريب، اكتساب الخبرة.
7 دمية القرع الممارسة 4 أشهر
المشاركة في تدريب "اللاعبين" لديهم سبعة، بدأوا التدريب مع 10 GPU:
كرمة على سبعة الروبوتات
كل مناور الروبوت مع اثنين من أصابع اليدين ورقصة تتألف من كاميرا RGB مع:
من أجل السماح للروبوت للحصول على مهارات جديدة Tannangquwu في أقرب وقت ممكن، أعد الموظفين الدماغ جوجل مثل 1000 البنود المختلفة المستخدمة لقطار:
إذا ما أمعنا النظر، بما في ذلك مجموعة متنوعة من الأشكال والأحجام والمواد كائنات مختلفة:
عملية تدريب بدءا من دليل سياسة الموظفين تهدف إلى التحول تدريجيا إلى عمق نموذج تعزيز التعلم.
وجدت من ورقة، والمبدأ هو على الارجح هذا:
تعلم شيئا
بعد أربعة أشهر من التدريب، ورحبت الروبوتات سبعة من "اختبار": درجات جيدة، في 700 محاكمات ، الروبوت تبحث عن شيء للحاق نسبة النجاح تصل إلى 96 مما سبق تحت إشراف التعلم نسبة نجاح طريقة من 78 تحسنت كثيرا.
جيف دين يعتقدون أنهم بانغ بانغ:
بكين، بالتغريد جيف المعلم 04:00 مجاملة الروبوت الخاصة بهم
وإلى جانب زيادة دقة خارجها، من خلال خوارزمية تدريب الروبوت QT-التقيد أيضا أخذ زمام المبادرة للحصول على أربعة مهارات جديدة:
وسوف تخلص من إعاقة
إذا كان الكائن الهدف وغيرها من الامور معا، وسوف الروبوت أخذ زمام المبادرة لاتخاذ إربا ثم الزحف.
على سبيل المثال، مظاهرة سابقة من كتل الصيد، ويمكن للروبوت تؤثر على قوتها الكتل الأخرى بعيدا، ثم الاستيلاء على قطعة من اللبنات الأساسية التي يحتاجون إليها.
"عيدان غونغ" قوية
إذا واجهت صعوبة في استيعاب الأمور، مثل ظهور أو تسهيل ظهور كائنات غريبة، وسوف الروبوت تحليل زاوية، تغيير موضع، ثم نتشبث ترك.
أمسك تحليل سينتعش
إذا كان الروبوت اشتعلت فجأة مجموعة من الأشياء، فإنه يمكن أن انتخاب العناصر اللازمة الخاصة بها قبل رفع ذراعه فهم ذلك بحزم.
ولا بد لي من الاندفاع للاستيلاء على الظهر
إذا كان قد تم القبض على رجل في الجسم الروبوت إزالتها، فإنه سيتم أيضا المثابرة ومن ثم الاستيلاء عليها مرة أخرى:
الأهم من ذلك، هذه المهارات ليست الإعدادات من صنع الإنسان، هي في عملية التدريب، للحصول على الروبوت نفسه.
وأخيرا، كما يوفر جوجل فيديو، لنقول الأواني الروبوت عقلية الأصدقاء 7:
عنوان الفيديو: الشبكي: //v.qq.com/x/page/j0705yphjhc.html؟
وأخيرا، ونعلق ورقة البوابة ~
QT-التقيد: قابلة ديب التسليح التعلم عن الرؤية المستندة الروبوتية التلاعب
الكاتب: ديمتري كلاشينكوف، أليكس Irpan، بيتر القس جوليان يبارز، الكسندر هرتسوغ، اريك جانغ، ديردري Quillen، إيثان هولي، مرينال Kalakrishnan، فنسنت Vanhoucke، سيرغي ليفين
جوجل عنوان بلوق:
https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html
أرخايف:
https://arxiv.org/abs/1806.10293
- كامل -
المتدرب
المكدسة هو تجنيد عمليات السوق المتدربين، التخطيط لتنفيذ الأنشطة في إطار نجمة AI الرئيس التنفيذي للشركة، وكبار المديرين التنفيذيين الآخرين تشارك في الانترنت / حاليا، لدينا الفرصة للتواصل مباشرة مع الماشية الكبيرة صناعة AI. تجربة التدريب الغنية في انتظاركم لفتح -
مقرها في تشونغ قوان تسون في بكين. تسليم استئناف مرحبا بكم في quxin@qbitai.com
تفاصيل محددة، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "المتدرب" في الاسم.
و qubit QbitAI عناوين على التوقيع
' " تتبع تقنيات AI دينامية جديدة والمنتجات