لم أعلق --OpenAI وDeepMind تعزيز التعلم الجديد، التعلم الفعال على أساس التغذية المرتدة البشري

لى فنغ شبكة AI تكنولوجيا مراجعة، في الآونة الأخيرة OpenAI وDeepMind كل أصدرت وثيقة على الموقع، انها ادخلت البحوث التعاونية، وورق الكتابة، "تعزيز التعلم العميق من تفضيلات الإنسان" (قامت تعزيز دراسة متعمقة وفقا للتفضيلات الإنسان). في هذه الورقة، ويبرهن على وجود طريقة جديدة للتعليم المكثف على أساس التغذية المرتدة البشري، وليس فقط عملية التعلم فعالة نسبيا، وOpenAI وDeepMind من الباحثين يتفق مع الرأي القائل أنه في المدى الطويل هذا النهج يمكن تحسين نظام الاستخبارات الأمنية .

فإن شبكة لى فنغ التالية AI تقنية مراجعة يأخذك مع محددة نظرة العروض OpenAI والمظاهرات لهذا النهج.

لإنشاء نظام AI الأمن، وهو أمر مهم جدا خطوة هي عدم السماح للنظام AI البشري لكتابة دالة الهدف. هذا هو لأنه إذا استراتيجية بسيطة لتحقيق أهداف معقدة، أو فهم الهدف معقد له الخطأ ذهب، فإنه يمكن أن يسبب سلوك نظام AI لجعل الناس لا تريد أن ترى، وأحيانا خطرة. OpenAI مع فريق الأمن DeepMind وضعت معا خوارزمية، فقط أقول ذلك لنوعين من البشر تدريجيا أوصت عمل واحد الذي هو أفضل، ويمكن الاستدلال على الاحتياجات الإنسانية للتعلم.

طرق مقدمة

وتصف هذه الورقة خوارزمية ويمكن تغذية لحل المشاكل الحديثة في تعزيز التعلم مع عدد صغير نسبيا من البشر. سبق ودرس العلماء باستخدام ردود الفعل البشري على كيفية بناء نظام تعلم الآلة، ولكن هذه المرة قدم فريق حلين رفيع المستوى، بحيث يمكن أن تستخدم أيضا لأداء مهام أكثر تعقيدا. خوارزمية مع ردود فعل انتخابات الثاني من المراجعين البشري من 900 backflips تعلمت - على ما يبدو بسيط، فمن السهل لتقييم، ولكن مهمة من الصعب وصفه بدقة.

عملية التدريب الشاملة هي فهم عامل بشري الأهداف وتعزيز ردود الفعل حلقة ثلاث خطوات بين التعلم والتدريب.

وفقا لخوارزمية OpenAI مع DeepMind التطوير المشترك لهذا العامل تبدأ من خلال الحركة العشوائية في البيئة. ثم بشكل دوري تشغيل نظرة اثنين الفيديو الخاص به إلى الإنسان، للتمييز بين نوعين من العمليات الإنسان في اثنين من أشرطة الفيديو التي هي أقرب إلى هدفه - في هذه الحالة هو الوجه الخلفي - ثم اختيار ردود الفعل، وردود الفعل على أساس الذكاء الاصطناعي تكون قادرة على العثور مكافأة أفضل وصف وظيفة الحكم البشري، لذلك تدريجيا إلى نموذج هدف المهمة. بعد ذلك سوف يتم التعلم من خلال تعزيز التعلم تحقيق أهدافها الخاصة المعمول بها. مع العمل على التقدم وكيل بها، وسوف تستمر في الخروج مع نفسه يشعر المسار الخاص بك الأكثر مؤكد لجعل زوج من البشر واحد الذي هو أفضل ردود الفعل، ومن ثم السماح فهمهم للأهداف مهمة مزيد من التحسين.

تظاهر برنامجهم كفاءة مما يثلج الصدر التعلم، كما ذكر سابقا، سوى أقل من 1000 مرة في الثانية ردود الفعل البشر الانتخابات يمكن أن تتعلم backflips. المراجعين البشري قضى وقتا أقل من ساعة، بينما في الخلفية، وقد تزامن هذا استراتيجية لمجمل التجربة المتراكمة 70 ساعة (سرعة محاكاة الخلفية بشكل أسرع بكثير من السرعة الحقيقية). ثم أنها سوف تستمر في دراسة كيفية تقليل كمية الاحتياجات ردود الفعل البشرية التي تقدم. العرض التالي هو فيلم سينمائي في عملية تدريبهم (تسارع إصدار).

تدريب النتائج في بيئة اللعبة

كما أنها محاكاة الروبوت مع العديد من المهام وأتاري لعبة اختبار طريقتهم (ولم يسمح البرنامج لاستخدام البيئية وظيفة ردود الفعل في حد ذاته، ولا سيما في نتيجة مباراة أتاري لا يعتبر). في بيئات الاختبار متعددة، علمت المادية ذكية الأداء الممتاز من خلال ردود الفعل البشري، وأحيانا أفضل من الأداء البشري. وفيما يلي بعض الصور مع أساليب تدريبهم وكيل تشغيل مجموعة متنوعة من الشاشة ألعاب أتاري. شريط صغير في أقصى اليمين من حركة رأسية من كل صورة هو مؤشر، فإنه يدل على أن المقيمين يتوقع اعتراف عمل الإنسان إلى وكيلها الحالي كيف عالية. هذا الاجراء يعكس ضوء هذه الأمور وفقا لعامل بشري تعلمت من ردود الفعل: Seaquest في الذهاب المعرفة لتعويض الأكسجين في الماء (من اليسار)، في أركانويد والدبابيس تعلم كيفية الحصول على درجة عالية (على اثنين من الرسوم البيانية المتوسطة) أو كيف يمكن للمدارس في الانتعاش إندورو (يمين) بعد تحطم الثانوية.

Seaquest أركانويد الدبابيس إندورو

ومن الجدير بالذكر أن ردود الفعل التي يقدمها البشر لا يمكن تتفق مع الوظيفة الطبيعية للجائزة البيئة. على سبيل المثال، فإنها تدرب مع غيرها من المركبات للحفاظ على وكيل تدفق الدقيق في إندورو، وانها لن تكون "طبيعية" كما غيرها من المركبات من أي وقت مضى للحصول على أعلى الدرجات. ووجد الباحثون أيضا أن البشر يتعلمون بعض الأحيان من وكيل ردود الفعل، وحتى أفضل من أداء الوكيل تعزيز البيئة من ردود فعل طبيعية التعلم، لأن التعبير البشري من البيئة الأصلية للمكافأة، مكافأة أفضل.

المشكلة التي يتعين حلها

المراجعين البشري لتحديد الإجراءات التي الحدس يبدو صحيح، ثم أداء الخوارزمية يقتصر أيضا على هذا، إذا البشرية لم متعمقة فهم المهمة، لأنها توفر ردود الفعل التي يمكن أن تلعب مفيدة ومحدودة للغاية. هناك قضية مهمة هي أنه في بعض المناطق ونظام المستفادة في نهاية المطاف لتدريب الخداع المراجعين وكيل. على سبيل المثال، يجب أن الروبوت قد التقطت الكائن، ولكن وضع الروبوت في منتصف الكائن الهدف والمراقب، هذا الروبوت فقط يبدو كما لو اشتعلت مثل هذه الصورة أدناه هي واحدة من هذا القبيل.

بشأن هذه المسألة، انهم يريدون اجراء تحسين لإضافة بعض الهوية البصرية (الخط الأبيض الصلبة في الشكل)، الكبير من المراجعين البشري يسهل على القاضي العمق. ومع ذلك، يحتاج إلى مزيد من البحث الذي يتعين القيام به نهج أكثر عمومية.

OpenAI وDeepMind منظمتين تنوي مواصلة التعاون في التأثير طويل الأمد على الأمن AI. من وجهة نظرهم، هذا النهج هو تطوير بعد التقدم AI آخر للأمن الإنساني بوصفه مركزا للتعلم، ولكن أيضا لتعزيز التعلم القائمة، وتعلم لتقليد هذا الأسلوب لتكملة وتوسيع.

عبر OpenAI مدونة، شبكة لى فنغ جمعت AI تقنية مراجعة

طريق الحرير

لم أعلق --OpenAI وDeepMind تعزيز التعلم الجديد، التعلم الفعال على أساس التغذية المرتدة البشري

طرق مقدمة

تدريب النتائج في بيئة اللعبة

المشكلة التي يتعين حلها

"لؤلؤة" سيجي لافاييت Lingfei جمهور عارضة الصورة توتال لعملية جراحية

"نداء ضخمة" 1208 ملف معين ظهرت العام الرئيسي الإبداعي الأول الاحتيال مكافحة الاتصالات تشى السرية داخل قصة الفيلم

تشاو يينغ هو قطع؟ فنغ شاو فنغ: مواجهة مرحلة جديدة من العمل أكثر للجودة

ملخص "بوكيمون" مؤتمر عمل جديد بث الرسومات

أول شاشة الهاتف المحمول هواوي لحفر ثقوب وتكرارا أصدقاء ضرب وجهه! هذه المرة سامسونج

2017 فيلم الخيال العلمي اليدوي تماما | الإبداعي حفرة الدماغ سيكتسح

الصين السيناريو أعلى جائزة "شيا كأس يان" الحائز على جائزة سيناريو التكيف من الفيلم الأصلي "الغيوم تسانغ الكلب" المحلية التمهيد، يقول ابنه المصالحة العاطفية

تتويجا لعقد من الزمان، عودة سلسلة سامسونج غالاكسي S10 "إلى ساحة المعركة".

"العدل والجامعة" سر الحب أمراء الحرب الصين: سوبرمان تؤثر على الأجيال نولان باتمان رافعة سلة

هنغيانغ مقاطعة: حمل الثقافة التقليدية غرامة قدرها معززة التنمية الاقتصادية للبلاد إلى الأمام

SAIC MAXUS تشيس العلامة التجارية رسميا، وسوق G50 MPV سيؤدي الى جولة جديدة من تأليف المنافسة؟

لي هوم "ضرب الضربة الأولى" الجماهير البر الرئيسى لليلة الافتتاح الغناء الدموع رئيس مست مراسل جمهور

لى بينغ بينغ نظرة، وانت تعرف، على الذهاب والممثلة أكثر صعوبة

"الله آكلى لحوم البشر 3" كه Leiya لاول مرة دور جديدة في هذه المسرحية هي أنها جعلت الحليب

"زلزال 3" الذي صدر أحدث ملصق وراء الكواليس فاتوريت، فيلم تجريبي سمعة تفيض

التبديل لعبة مجانية "الكنز يمكن أن تحلم مغامرة البحث عن الكنز" على خط 30 مايو

ستة عشر منتخبا نهائيات SLI تشونغتشينغ الكبرى الشهر المقبل للتنافس على الملايين من الدولارات

عمق | تدع AI تعلم التفكير، فإنه قد أولا الكنيسة اللوحة

"عار عار قبضة حديدية" لتحديث سجلات مكتب 2D الصينية مربع الفيلم، والتعرض جعل من

بخار مجنون الأربعاء: "الله العظيم"، "التنين الكرة Z مقاتلة" التاريخي سعر منخفض جديد

وقال JIEKE سو إلا أنه لا يستسلم لليأس

ليلة القراءة | في كلية "تسلق شجرة" دورة متخصصة | امرأة مطلقة تزوجت لمدة 15 عاما التي يمكن العثور عليها في وثيقة الزواج كانت في الواقع شقيقها زوج

طرق مقدمة

تدريب النتائج في بيئة اللعبة

المشكلة التي يتعين حلها

الأحكام ذات الصلة