أستاذ في جامعة ماكاو Chenjun: التعلم من العمق لعرض التعلم تعزيز التعزيز: الهياكل، والخوارزميات، والفرص والتحديات

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: 31 ابر، 2018-1 يونيو 2009، الصين عقدت بنجاح في معهد التشغيل الآلي للورشة عمل أتمتة خمسة معهد الحدود ذكاء أتمتة، تحت شعار "عمق وعرض تعزيز التعلم."

كيفية إعطاء الجهاز القدرة على التعلم الذاتي كان موضوعا ساخنا في مجال الذكاء الاصطناعي. في عدد متزايد من المهام المعقدة في سيناريوهات من واقع الحياة، فإنه يتطلب استخدام التعلم العميق، وعرض على نطاق واسع دراسة خصائص مجردة من إدخال البيانات إلى تعلم تلقائيا واستخدام التحفيز الذاتي التوصيف على أساس تعزيز التعلم، استراتيجية التحسين على حل المشكلة. عمق وعرض التكنولوجيا تعزيز التعلم في اللعبة، والتحكم الآلي، وتحسين المعلمة الناجحة التطبيقات رؤية الجهاز في أن ذلك يعتبر وسيلة هامة نحو الذكاء الاصطناعي العالمي.

دعت ورشة عمل أستاذ من جامعة ماكاو، نائب رئيس جمعية أتمتة الصين تشن جون لونغ، أستاذ كلمات شيجي في جامعة تسينغهوا، جامعة بكين جياوتونغ، أستاذ هوى زونجشينج، الجامعة الوطنية لتكنولوجيا الدفاع، البروفيسور شو شين، كبير خبراء من السيارات الصينية يانغ يينغ، الأكاديمية الصينية للعلوم الباحث تشاو Dongbin، جامعة تسينغهوا البروفيسور جي شيانغ يانغ، جامعة شيان جياوتونغ، أستاذ تشن با الشرق، الأستاذ في جامعة تشجيانغ ليو يونغ، وهو أستاذ مشارك في جامعة تسينغهوا وغيرها من 10 جولة فرع الأصدقاء من العلماء لتعزيز مجال الألعاب، ومراقبة الروبوت، والتحسين المعلمة، رؤية الجهاز والتكنولوجيات التعليمية الأخرى على عمق وعرض تقرير التطبيق الناجح. لى فنغ شبكة AI تكنولوجي ريفيو كشريك وسائل الإعلام لتغطية المؤتمر. يرجى الرجوع إلى المحتوى العام للاجتماع وذكرت شبكة لى فنغ:

اليوم الأول: الشبكي: //www.leiphone.com/news/201806/GlBY1r2LugLO8Hlo.html

في اليوم التالي: الشبكي: //www.leiphone.com/news/201806/UWOi5uIPcwuMZmTi.html

نشرت هذه المقالة أولا تقرير ورشة العمل، محاضرة للأستاذ جامعة ماكاو، نائب رئيس جمعية أتمتة الصين تشن جون لونغ شرح، تقريرا بعنوان: تعزيز التعلم التسليح التعلم من عمق العرض: الهياكل، والخوارزميات، والفرص والتحديات.

تشن جون لونغ: أستاذ جامعة ماكاو، العميد السابق لكلية العلوم والتكنولوجيا، ونائب مدير الجمعية الصينية للأتمتة وزميل، نائب رئيس جمعية ماكاو لتقدم العلوم والتكنولوجيا، زميل IEEE، زميل IAPR، AAAS AAAS زميل الدولة 1000 العلماء، خبير وطني. أستاذ تشن يشغل حاليا منصب مدير النظم وذكية بين الانسان والآلة IEEE معهد المجلة. الرئيس السابق للجمعية الدولية من المجموع. البحث البروفيسور تشن في الأنظمة الذكية والتحكم والذكاء الحسابي، هجين ذكي والتوجيه البيانات العلمية. في "علوم الحاسوب" 2018 واستشهد عدد كبير من المواد العلماء في العالم في المرتبة في أعلى 17. أصدر البروفيسور تشن أو سوف جمعية IEEE المتميزة مساهمة جائزة أربع مرات، والهندسة الولايات المتحدة وشهادة التعليم الفني (ABET) من محكمين. التخصصات الهندسية وهندسة الحاسبات، جامعة ماكاو الاتفاقيات الدولية [واشنطن] التصديق هو أستاذ تشن مساهمة العليا في التعليم الهندسي في ماكاو. 200 جامعة السابقة ماكاو كزميل أدى خلال التخصصات الهندسية وتخصصات علوم الكمبيوتر على حد سواء في التصنيف العالمي الجامعات على مستوى العالم. في عام 2016 فاز جامعته، جامعة بوردو المتميزة الكهربائية وهندسة الحاسبات جائزة.

تقرير البروفيسور تشن جون لونغ يمكن تنقسم إلى ثلاثة أجزاء. ناقش أول هيكل ونظرية التعلم التعزيز، بما في ذلك عملية اتخاذ القرار ماركوف، وتعزيز التعلم من التعبيرات الرياضية، استراتيجيات بناء والتقديرات والتوقعات من عوائد المستقبل. ثم نناقش كيفية استخدام عمق التعلم الشبكة العصبية لتحقيق الاستقرار في استخراج عملية التعلم وميزة، وتعلم كيفية استخدام عرض هيكل جنبا إلى جنب مع تعزيز التعلم. وأخيرا عمق، والعرض تعزيز فرص التعلم والتحديات الناجمة عنها.

نظرية هيكل وتعزيز التعلم

ويصف البروفيسور تشن الرسم البياني التالي عملية تعزيز التعلم بسيطة. وقدم ما يسمى تعزيز التعلم هو عامل عند الانتهاء من مهمة، والتفاعل مع البيئة من خلال العمل A (البيئة)، تحت تأثير العمل ووالبيئة، تجربة ذكية دولة جديدة، في حين أن البيئة سيعطي فوري العودة. هكذا تستمر دورة، بعد عدة التعلم تكرارية والمادية ذكية تعلم في نهاية المطاف اكتمال مهمة عمل الأمثل.

أن تعزيز التعلم المذكور يجب أن نذكر Q-التعلم. ثم انه استخدم مثال لإدخال مبدأ تعزيز التعلم Q-التعلم.

Q-التعلم

العنوان الأصلي: الشبكي: //blog.csdn.net/Maggie_zhangxin/article/details/73481417

على افتراض ما مجموعه خمسة غرف الطابق، ترتبط بها باب بين الغرفة، كما هو مبين في الشكل. ويمكن رؤية عدد الغرف 0-4 خارج الأرض كما غرفة كبيرة، رقم 5.

يمكن أن يمثله الغرف FIG المذكورة أعلاه، سيتم النظر في كل غرفة كعقدة، وهو يعتبر ميزة من كل باب.

وضع وكيل داخل أي غرفة، وأمل أن نخرج من هذا المبنى، ويمكن أن يفهم على 5 إلى الغرفة. 5 يمكن أن تدخل غرفة كهدف نهائي، والهدف هو الوصول إلى قيمة غرفة مكافأة نقدية بوابة المباشرة 100، هذا الباب غير متصل الغرفة المستهدفة قيمة مكافأة دفع تعويضات 0. وبالتالي فإنه يمكن الحصول على FIG.

هذا الرقم يمكن الحصول عليها وفقا لمكافأة الجدول التالي، حيث -1 يمثل قيمة لاغية، يتم توصيل بين العقد يشير إلى ما لا نهاية.

إضافة مصفوفة مماثل Q، نيابة عن وكيل المعرفة المستفادة من هذه التجربة. الحالة الراهنة للخط نيابة عن مصفوفة عامل، وتمثل الأعمدة الإجراءات الممكنة للوصول إلى الدولة القادمة.

أستاذ تشن ثم يصف تحويل يحكم Q-التعلم، أي، Q (الدولة، والعمل) = R (الدولة، والعمل) + غاما * ماكس (Q ).

ووفقا لهذه الصيغة، وهو عنصر المصفوفة قيمة Q يساوي مجموع مصفوفة R قيمة الحد الأقصى من ذلك كله هو ضرب الممكنة الدولة عملية مكافأة من قيمة عنصر المقابلة التي غاما تعلم متناول متغير.

من أجل Q-التعلم فهم محددة من كيف يعمل، وأشار البروفيسور تشن أيضا بعض الأمثلة.

غاما المجموعة الأولى إلى 0.8، وهي الحالة الأولية للغرفة.

للدولة 1، هناك نوعان من الإجراءات التي يمكن اتخاذها: حالة وصول 3 أو 5 دولة متناول اليد. عن طريق اختيار عشوائي، الدولة صول 5. وصل وكيل الدولة 5، ماذا سيحدث؟ ملاحظة في الصف السادس من المصفوفة R، هناك ثلاثة الإجراءات التي يمكن اتخاذها، الدولة 1،4 أو 5 وصوله. وفقا للصيغة Q (1، 5) = R (1، 5) + 0.8 * ماكس  = 100 + 0.8 * 100 = 0، منذ Q مصفوفة في هذا الوقت لا يزال تهيئة إلى 0، Q (5، 1)، Q (5، 4)، Q (5، 5) كلها 0، وبالتالي، Q (1، 5) والنتيجة هي 100، لأن الجائزة حظة R (1،5) يساوي 100. 5 والدولة القادمة تصبح الحالة الراهنة، لأن الدولة 5 هي الدولة المستهدفة، ويتم احتساب أنها محاولة أكمل. ويشمل الدماغ وكيل الآن مصفوفة Q بعد التحديث.

لتدريب المقبل، 3 تم اختيارها عشوائيا الدولة كدولة الأولية. خط المراقبة 4 R مصفوفة، وهناك ثلاثة الإجراءات التي يمكن اتخاذها، تنص 1 و 2 و 4 متناول اليد. تم اختيارها عشوائيا وصلت فيه الدولة العملية الحالية دولة. الآن، ومراقبة الصف مصفوفة 2 R وجود اثنين من الإجراءات التي يمكن اتخاذها: 5 الروافد دولة 3 أو الدولة. الآن حساب قيمة Q: Q (3، 1) = R (3، 1) + 0.8 * ماكس  = 0 + 0.8 * ماكس (0، 100) = 80، واستخدام محاولة تحديث الماضية للحصول على Q مصفوفة: Q (1، 3) = 0 و Q (1، 5) = 100. ولذلك، فإن نتيجة الحساب Q (3،1) = 80. الآن، وQ. المصفوفة التالية

بعد شهدت مرارا وتكرارا من قبل وكيل لمعرفة المزيد من المعرفة، فإن قيمة Q مصفوفة تصل إلى حالة الانطواء. على النحو التالي.

جميع غير صفرية قيم Q يتم تقليل نسبة معينة يمكن تطبيع، النتائج التالية.

مرة واحدة المصفوفة Q تقترب الدولة التقارب، ونحن نعلم أن وكيل علمت أفضل طريق للدولة المستهدفة.

في هذه المرحلة كان البروفيسور تشن مقدمة موجزة لQ-التعلم هو أكثر. عن طريق إدخال ما سبق يمكن تلخيص تقريبا حتى خصائص ستة من تعزيز التعلم:

دون رقيب، إلا إشارة مكافأة

المتعلمين لا تحتاج التوجيه

وقف التجربة والخطأ

مكافأة قد يتأخر (فوائد أكبر على المدى الطويل للتضحية تحقيق مكاسب قصيرة الأجل في مقابل)

الحاجة لاستكشاف واستغلال

التفاعل بين وكيل الموجه هدف وبيئة غير مستقرة هو قضية عالمية

أربعة عناصر:

أولا، استراتيجية: ماذا تفعل؟

1) تحديد السياسة: أ = (ق)

2) استراتيجية عشوائية: (أ | ق) = ص ، StS، atA (القديس)، (أ | S) = 1

الثانية، وظيفة مكافأة: ص (انتقال الدولة في نفس الوقت، سيتم تغذية بيئة إلى وكيل مكافأة)

ثالثا، وظيفة الفوز بالجائزة الكبرى: V (أ مزايا طويلة الأجل للسياسة تعتمد على تنفيذ هذه الاستراتيجية بعد الفوز بالجائزة الكبرى)، وتراكم مشتركة على المدى الطويل من الجوائز على النحو التالي:

رابعا: نموذج: يستخدم وكيل لتمثيل البيئة، هو مفهوما مجردا، هو مفيد لعمل صنع القرار.

كل من تعزيز مهام التعلم هي ماركوف عملية اتخاذ القرار، أستاذ تشن إدخال MDP النحو التالي.

عملية اتخاذ القرار A ماركوف تتكون من خمس سنوات الصفوف (tuple) M = (S، A، P، ، ص). حيث S هو مجموعة من الدول، A هو مجموعة العمليات، ص هو الانتقال احتمال دولة، هو عامل الخصم، ص هي وظيفة من مكافأة.

قدم البروفيسور تشن في تعزيز تعلم هذا الجزء من التحديات الرئيسية الأخيرة في المذكورتين تواجه حاليا تعزيز التعلم.

احالة الائتمان: قبل العمل سوف يؤثر على المكافآت والحوافز العالمية الراهنة

رائد: استخدام السياسات القائمة أو وضع سياسات جديدة

Q-التعلم يمكن أن تحل المشكلة من قنوات التوزيع. قد تكون المشكلة الثانية مستعملة الجشع الخوارزمية، SoftMax الخوارزمية، بايز قطاع الطرق الخوارزمية، وتجهيز UCB الخوارزمية.

وظيفة قيمة (التنبؤ المكافآت المستقبل) يمكن تقسيمها إلى قيمة اية وظيفة وسلوك وظيفة قيمة.

1. وضع وظيفة قيمة V (ق): من الدولة الصورة، واتخاذ السلوك العائد المتوقع وفقا لاستراتيجية ،

المعروف أيضا باسم المنادي المعادلة.

2. وظيفة السلوك قيمة Q (ق، أ): بدءا من سلوك الدولة الصورة بعد أخذ، ومن ثم اتخاذ الإجراءات اللازمة للحصول على العائد المتوقع وفقا لسياسة ،

يشار نفس العملية ل- وظيفة القيمة المعادلة المنادي.

يعطي تشبه وظيفة قيمة الأمثل المقابلة

القيمة المثلى وظيفة V * (ق) هو وظيفة من قيمة الحد الأقصى من جميع السياسات:

قيمة السلوك الأمثل وظيفة Q * (ق، أ) هو الأكبر في سلوك جميع السياسات على قيمة الدالة:

وذلك لالمنادي الأمثل المعادلة:

والسياسة المثلى المقابلة:

يصف البروفيسور تشن طريقة لحل تعزيز التعلم يمكن تقسيمها إلى حالتين التالية:

المعروف نموذج: البرمجة الديناميكية

الموديل غير معروف طريقة: طريقة مونت كارلو، وفارق التوقيت خوارزمية

يصف البروفيسور تشن مزيد من الوقت الفرق خوارزمية بطريقتين مختلفتين: استراتيجيات مختلفة الفارق الزمني خوارزمية وفارق التوقيت مع خوارزمية استراتيجية سارسا تعلم Q، والفرق الرئيسي هو أنه في خيارات مختلفة في 1 +

مشترك Q-تعلم طريقة هو جدول لمساحة الدولة ومساحة العمل ومع البعد منفصلة منخفضة نسبيا، وعندما مساحة الدولة والعمل من مساحة عالية الأبعاد مستمر أو لم تشهد حدوث حالة، مشتركة لا يمكن معالجة Q-التعلم. لحل هذه المشكلة، أستاذ تشن مزيد من المعلومات عن عمق طريقة تعزيز التعلم.

عمق تعزيز التعلم

عمق طريقة تعزيز التعلم هو مزيج من الشبكات العصبية العميقة وتعزيز التعلم، واستخدام عمق الشبكة العصبية وظيفة التقريب، يتم تحديثها باستخدام أسلوب التعلم التعزيز، القائمة على الأفكار لحل المشكلة يمكن تقسيمها إلى:

1. قيمة الشبكة: كل الإجراءات التي اتخذتها الدولة بوصفها وظيفة من قيم الإدخال من الشبكة العصبية، وبعد تحليل الشبكة العصبية، والحالة الراهنة هو ممكن لأداء الإخراج، أي قيمة Q إنشاؤها باستخدام الشبكة العصبية.

2. السياسة القائم على الشبكة: الحالة مدخلات الشبكة العصبية، وبعد تحليل الشبكة العصبية، والناتج هو عمل (استراتيجية حتمية) قد يستغرق الحالة الراهنة، أو احتمال (استراتيجيات عشوائي) يمكن أن تتخذ كل الإجراءات اللازمة.

أستاذ تشن أيضا ذكر شركة DQN خوارزمية Deepmind في عام 2013. لعب أتاري مع ديب التسليح التعلم (DRL) المقترحة، ديب Q-التعلم هو استخدام الشبكة العصبية نهاية إلى تناسب قيمة عمق Q، واستخدام Q-تعلم خوارزمية قيمة وظيفة التحديث. DQN استخدام تشغيل تجربة التدريب عملية تعزيز التعلم، من خلال تحديد الشبكة المستهدفة للتعامل مع TD الانحراف الوقت فرق خوارزمية وحدها.

استنادا إلى محتويات أعلاه، ويصف البروفيسور تشن مزيد الكلاسيكية الوقت فرق خوارزمية أخرى، أي ActorCritic طريقة قيمة مشتركة من وظيفة (مثل التعلم Q) بحث الخوارزميات والسياسات (سياسة التدرجات) المزايا، واستراتيجية البحث مما يعني ممثل الخوارزمية، الناقد Qlearning وسائل أو أساليب أخرى استنادا إلى قيمة التعلم، ويستند على الناقد على القيم في عملية التعلم، فمن الممكن لتحديث خطوة واحدة، ويتم احتساب كل خطوة قيمة حافز، مع تحسن بالمقارنة مع PolicyGradients التقليدية الكفاءة واستراتيجيات التكوين ممثل، وذلك أساسا لعملية اختيار التعلم، وقيمة الدالة وهي تستخدم أساسا لتقييم هيكل الناقد عملية ممثل، يتم تحديد عامل وفقا لسياسة التشغيل للعامل، ويعمل على بيئة العمل، وفقا للبيئة وتعطى الناقد يكافئ الآن، وتحديث قيمة الدالة على أساس مكافأة فورية في وقت واحد وتحسب قيمة الفرق في ذلك الوقت وظيفة خطأ TDerror، من خلال TDerror إلى الجهات الفاعل، وتحديث دليل الممثل سياسة أفضل، حتى أن تشغيل Jiaoyou يزيد احتمال الاختيار، والعمل الفقراء يقلل احتمال اختياري.

التعلم العرض

على الرغم من أن عمق بنية شبكة قوية جدا، ولكن معظم شبكات تعاني العملية التدريبية للغاية تستغرق وقتا طويلا. أولا، وعمق بنية الشبكة يصبح معقدا وينطوي على عدد كبير من المعلمات المفرط. وبالإضافة إلى ذلك، وهذا التعقيد يجعل من التحليل النظري في البنية العميقة يصبح من الصعب للغاية. من ناحية أخرى، من أجل الحصول على دقة أعلى من التطبيق، وعمق نموذج الشبكة أن تزيد باستمرار عدد من الطبقات أو عدد من المعلمات إلى ضبط. لذلك، لتحسين سرعة التدريب، وعرض نظام التعلم يوفر نهجا بديلا لشبكة التعلم العمق، في حين، إذا كانت احتياجات الشبكة لتمديدها، ونموذج يمكن بناؤها بشكل فعال عن طريق التعلم تدريجي. وأكد البروفيسور تشن أيضا أنه من أجل تحسين معدل دقة، وعرض الدراسة هو زيادة العقدة بدلا من زيادة عدد الطبقات. واستنادا إلى تعزيز كفاءة التعلم، وأشار البروفيسور تشن إلى أن العرض من التعلم وتعزيز التعلم يمكن الجمع بين لإنتاج عرض طريقة تعزيز التعلم، يمكنك أيضا محاولة توليد النص انتزاع الذراع الروبوتية، ومراقبة تتبع مساره وغيرها من المجالات.

وأخيرا، يذكر تقرير البروفيسور تشن النقاط التالية في تعزيز التعلم في المستقبل ستواجه تحديات:

التنقيب الأمن فعالة

Overfitting

مشاكل في التعلم متعددة المهام

اختيار وظيفة جائزة

مشاكل عدم الاستقرار

أستاذ تشن هذا التقرير يدخل مفاهيم بعبارات بسيطة من تعزيز التعلم، ولكن التعلم ليس إدخال متعددة العرض، وعرض لمفهوم التعلم يمكن الرجوع إلى هاتين المادتين: جامعة ماكاو Chenjun | عرض نظام التعلم: لا يتطلب بنية عميقة كفاءة نظام التعليم الإضافي، وجامعة ماكاو Chenjun: التخريب العمودي "العمق" لمعرفة كيفية عرض نظام التعلم عن كفاءة على نطاق والتعلم التدريجي؟ .

هذه كلها وذكرت شبكة لى فنغ أستاذ تشن جون لونغ هذا التقرير.

BUG؟ رأى وي قتل الله ظل لاعب، عبر نظرة الجاهل: كيف يموت؟

كل من الهواتف نفس السعر، شاشة كاملة، وهو غير كامل الشاشة!

لاقل من 120000؟ في الواقع، فإن ستيشن ليست كذلك الشيء مكلفة

المزدوج 11 لنرى ما قطعة | انه هو الأكثر احتمالا أن تأخذ واحدة من الحب المخرج، في هذا اليوم لعرض وحدها

MWC: سوني أخيرا التخلص من ذاكرة الأجداد 3GB صدر اريكسون XZs

وي لقاء الله "الآلهة" المظلة والهبوط في صندوق، وانهيار العقل، وبصراحة: أريد أن استدعاء الشرطة

وصناعة الترفيه تأخر تعلم باسكال وارن والأسهم تصوير يوين تاي كسب أكثر من بضع سنوات!

الفضاء هو أيضا نسخة هدفا اختبار القيادة الثابتة قاعدة العجلات الطويلة فولفو S90

وهو أكبر مساهم في علي بابا وراء الأجداد هم شعب الصيني!

تحقيق مرحلة التعرض | مقاعد البدلاء، والأقماع، دراجة ثلاثية العجلات ...... مطعم "نزوة" حارة ومواقف الصعوبات وراء

لماذا النجمة من زعماء الفحم، غنية الجيل الثاني "تزوج" إلى النجوم الذكور؟

اندروز المخيم ومن قبل 7.1: إضافة فاتحة 3 / 3T في الروبوت 7.1.1 التحديث