جامعة نانجينغ، الدكتور يانغ يو مليون كلمة في النص الكامل للخطاب: طليعة تعزيز التعلم (على)

شبكة لى فنغ [AI تقنية مراجعة] الصحافة: هذه التقارير المادة المصنوعة في الصين رابطة الذكاء الاصطناعي AIDL طليعة من ورشة العمل الثانية حول الذكاء الاصطناعي "المتطورة تعلم الآلة"، وفقا للدكتور يو يانغ "الحدود تعزيز التعلم" تحريرها من شبكة لى فنغ دون تغيير القصد الأساسي من الحذف قاصر التي التصحيحات الدكتور يو يانغ أكد، أود أن أشكر. وينقسم النص الكامل الى قسمين ورقة لجزء.

الدكتور يو يانغ، أستاذ مشارك، مجالات البحث الرئيسية الذكاء الاصطناعي، تعلم الآلة، الإحتساب التطوري. على التوالي قسم علوم الحاسوب والتكنولوجيا، ودرجة البكالوريوس وشهادة الدكتوراه في عام 2004 و 2011.

تاريخ قسم علوم الحاسوب والتكنولوجيا، أغسطس 2011، والتعلم الآلي والبيانات التعدين معهد (LAMDA) تعمل في مجال التدريس والأبحاث. وفاز عام 2013 ممتاز الوطني الدكتوراه جائزة أطروحة، وجائزة الصين جمعية الحاسبات القائمة الدكتوراه أطروحة 2011. نشر أكثر من 40 ورقة، بما في ذلك العديد من المقالات الذكاء الاصطناعي، IJCAI، AAAI، خطط التنفيذ الوطنية، KDD وغيرها من المجلات الدولية الرائدة والمؤتمرات والحصول على نتائج البحوث IDEAL'16، GECCO'11، جائزة أفضل PAKDD'08 ورقة، وPAKDD'06 بيانات الفائز مسابقة التعدين وهلم جرا.

أي "حدود علوم الحاسب" نائب رئيس تحرير الشباب، IJCAI'15 / 17 رأس لجنة برنامج المؤتمر الدولي الرفيع المستوى أي مجال من مجالات الذكاء الاصطناعي، IJCAI'16 / 17 الدعاية الرئاسة، ICDM'16 الدعاية الرئاسة، ACML'16 ورشة عمل الرئيس. فاز طلاب التوجيهي لينكس الموصى مسابقة جائزة مليون والمنح الدراسية جوجل "2-11".

في هذه القائمة يو يانغ دليل المعلم، للقراء مرجع:

I. مقدمة (مقدمة)
وثانيا، فإن عملية اتخاذ القرار ماركوف (ماركوف عملية اتخاذ القرار)
ثالثا، من عملية اتخاذ القرار ماركوف لتعزيز التعلم (سياسة البحث)
الرابع، وتقدير وظيفة (سياسة البحث)
خامسا: استراتيجية البحث (سياسة البحث)
سادسا، تعزيز تعلم لعبة (التعزيز التعلم في ألعاب)
سبعة، ملخص تعزيز التعلم
ثمانية، توصية الموارد تعزيز التعلم

وفيما يلي نص كلمة الدكتور يو يانغ:

مرحبا بالجميع، سأحاول طريقة بديهية لتعزيز نظرة سريعة على ثلاثة أسئلة للتعلم. كما محدودة، لذلك حتما ستكون هناك بعض أوجه القصور أو ليس في مكان، يرجى تصحيح لي.

أولا، تعزيز التعلم في النهاية هو ماذا؟
ثانيا، تعزيز خوارزمية تعلم أي من هذه الفئات؟ ما هذه الأنواع من خوارزمية فكرة هو؟
ثالثا، تعزيز التعلم يمكن استخدامها في أي مكان؟ ما هي حدود واجهت عند تطبيق؟

I. مقدمة (مقدمة)

يتحدث من الحيوان عملية التعلم

الآن نحن نتحدث عن الذكاء الاصطناعي، على الرغم من أنه قد يكون من الصعب أن أقول بوضوح على وجه التحديد في النهاية ما هو ذكية، لكننا نعرف أنه سيكون هناك بعض ذكي مع الأداء الذكي. على سبيل المثال، حيث أن بعض الكلاب وغيرها من الحيوانات، ونحن قد تعتقد أن هناك ذكاء معين، يمكننا تدريب جرو مربي فهم التعليمات. ثم قال يد تمسك الغذاء مربي، "الجلوس" عندما جعل جرو لتلبية متطلبات العملية، ووضع الطعام له: تدريب الأساليب. التدريب المتكرر، حوالي نصف ساعة من الزمن، وتعلم لسماع ذلك، "الجلوس" من أجل الجلوس. هذه العملية هي عملية التعلم من الحيوان، انها ذكية لمعرفة كيفية التصرف في ذلك التكيف مع البيئة، والحصول على المكافآت الغذائي مع مرور الوقت.

قبل فترة طويلة، وهناك العديد من العلماء يعتقدون أن أيضا السماح للكمبيوتر تفعل الشيء نفسه، ومعرفة كيفية التكيف تلقائيا إلى البيئة، وهو ما نقول التعلم اليوم، التعزيز. هناك قول مأثور أن "تعزيز التعلم هو الذكاء الاصطناعي صحيح." نحن لا تقييم تناسب الجملة الصحيحة للكلمات، على الأقل، على أمل أن الجهاز يمكن أن تعزز والحيوانات، وقدرة أفضل على التكيف مع البيئة.

من قياسا على تعلم آلة تعزيز التعلم الحيوان

أصل اسم تعزيز التعلم

هنا لشرح تعزيز التعلم الاسم. لماذا يطلق عليه تعزيز تعلم ذلك؟ لأن تتكرر هذه العملية باستمرار، وباستمرار تعزيز الوعي، تعلم الانجليزية التسليح التسليح الترجمة الصينية أكثر دقة هو "تعزيز".

القياس الحيوان تعزيز التعلم والتعلم

عملية تدريب الجرو اثنين من العناصر:

الحاجة مربي إصدار تعليمات للكلاب، مثل ذلك "يجلس"

مربي الحيوانات في أيدي شيء مرغوب فيه للغاية أن المكافأة. الكلب، ومكافأة الغذاء.

لوكيل (وكيل، أي الكمبيوتر)، ونحن نأمل أن نهج مماثل يمكن تدريب عامل، لدينا واحدة من عناصر مجردة، يمكن أن يمثله في الرسم البياني التالي:

الآن وكيل في البيئة مظلمة جدا، وهو ما يعني أنها لا تعرف ما هي وجود البيئة في النهاية، يحدونا الأمل في أنه من خلال تعزيز جهاز الكمبيوتر تعلم أن تفعل شيئا - وضعه إلى داخل بيئة غير معروف، أنها قادرة على التكيف مع هذه البيئة من خلال التعامل مع البيئة، وتعلم أن تفعل ما هو العمل الأفضل.

وكيل يمكن ملاحظتها من البيئة إلى الداخل هناك أمرين:

الدولة. ويمكن أن يلاحظ في البيئة ودولتها.

مكافأة. عندما يجعل عمل معين، والبيئة قد تعطيه مكافأة.

فهو يجعل العمل وفقا لحالة الملاحظة، ودعا إجراء أو قرار، وبعد هذا العمل في البيئة، وسيتم تنفيذ في البيئة، وبعد التنفيذ، والبيئة تتغير.

وبشكل عام، وفقا للعناصر وضعت للتو يصور، فإنه يتوافق مع متغير هي: مجموعة من الإجراءات، ومجموعة من الدول، وظيفة مكافأة، والعمل به في وقت لاحق، قرر تغيير البيئة من وظيفة نقل ما سيحدث.

لوكيل، والقدرة على اختيار قراراتهم بأنفسهم ودعا الاستراتيجية. وهذا يعني أن استراتيجية والبيئة المرصودة هي الآن في حالة ما، واختيار ما جعل من العمل. هنا حيث الاستراتيجية ونموذج التعلم تحت إشراف هو شيء واحد.

التعارف تعزيز التعلم

بيئتها من وجهة نظر الوكيل وجهة نظر، وأنه لا عمل

فقط افتح عينيك، فإنه يرى أن البيئة هي الحالة الأولية.

مع هذه الدولة، أدلى وكيل والحركة. استراتيجية نكتب ، ويختار هذا العمل على أساس الحالة الراهنة، وبعد ذلك في تنفيذ محددة البيئة.

بعد التنفيذ، يحدث هذا التحول دولة البيئة (الفترة الانتقالية)، وتغير للدولة القادمة. وفي الوقت نفسه، جلبت أيضا إلى وكيل عائد أو مكافأة (مكافأة).

وأخيرا، فإن وكيل لتحديد عملها المقبل للقيام بما وفقا لحالة جديدة.

لذلك من وجهة نظر وجهة نظر وكيل وجهة نظر، وهذا هو، لمعرفة ما الدولة، ثم قررت أن تفعل عمل المقابلة وسوف يحصل في المقابل، ومن ثم الدولة القادمة للقيام والعمل والحصول على مكافأة، لذلك أنا الحفاظ على الذهاب.

ولذلك، يمكننا أن نرى بوضوح:

أولا، لم يتم ذلك وكيل وبمجرد اتخاذ قرار لإتمام عملية التعلم. في الواقع، هو قرار للقيام التسلسل.
ثانيا، كيف يمكننا الحكم عليها استراتيجية جيدة أو سيئة وكيل؟ في شكل التقييم العام هو أنه سوف تحصل على مكافأة من ذلك بكثير. قد تكون كل خطوة مكافأة، وذلك على شكل التقييم هو أن تضيف ما يصل المكافأة الإجمالية لنرى كيف انها كبيرة.

هناك العديد من المكافآت المتراكمة على المدى الطويل طريقة العد، على سبيل المثال، يمكن أن نكون دائما على خطوة T جميعا، أو مع خصم (مخفضة) الأسلوب، فإنه يمكن أن عدد لا حصر له من الخطوات، ولكن لا يصل وفقا لقيمتها الأصلية، و للنظر في الوزن، والوزن بسبب مرور الزمن لإنتاج الخصم.

عندما يكون عدد من الثواب مجموعه، لماذا تنظر إلى الأوزان؟

من جهة، لأن صفقة أفضل في الرياضيات، من ناحية أخرى، هو أنه في العديد من التطبيقات في العالم الحقيقي في الداخل، ونحن نقدر قيمة للمستقبل ومن المرجح أن تكون مخفضة. على سبيل المثال:

إذا كنت تستطيع كسب 100 اليوم أو الشهر المقبل يمكن أن تكسب 200، في قرارين التي لديك لاختيار واحد، قد تختار أن تقدم هذه 100 دولار، قد تكون أكثر بالنسبة لك في المستقبل اليوم آمن، وما يحدث الشهر المقبل، لا أعرف كيف سيكون، وذلك في بعض التطبيقات داخل سينظر الخصم، ولكن الحاجة إلى النظر في احتياجات محددة في التطبيقات المختلفة.

وكيل القيام به، هو العثور على تراكم طويل الأجل يمكن أن يحقق أعظم استراتيجية مكافأة.

من خلال تحديد مكافأة، يمكننا تحديد وكيل والسماح لها القيام بأشياء مختلفة. تماما مثل القطار هذا الجرو الصغير، اعطيناها تمريرة لتناول الطعام، والحصول على الأرض يمكن أن تجعل من فعل العمل، ويمكن للعمل أن يفعل ذلك واقفا.

البحث مثالين السياسة المثلى

في الواقع إطار تعزيز التعلم ليست سوى إطار عام يمكن أن تحتوي على العديد والعديد من المشاكل في ذلك. مثالين.

المثال الأول: مشكلة العثور على أقصر الطرق.

وكما هو مبين الشروط الواردة أدناه، ونحن نبحث عن مسار أقصر من الصورة لر. هذا هو سؤال بسيط جدا، وهنا يوضح أقصر الطرق لتصبح معززة مشاكل في التعلم إلى حل، يمكننا أن نفعل ذلك:

أولا تعريف الحالة والإجراءات:

كل عقدة كدولة هي.

تعلق على الجانب العلوي من كل عقدة، كما يمكن للدولة أن عملية القيام بما يلي:

تعريف الحالة والإجراءات، ونحن نتطلع لمسار أقصر، وهذا هو، إلى العثور على الحق في الأوزان مسار والوزن إلى الحد الأدنى.

عادة التعلم مكافأة التعزيز هو تعظيم، حتى هنا على الطريق الصحيح لإعادة تأخذ قيمة سلبية، وقيمة سلبية إلى أقصى حد ممكن ذلك. عن طريق إجراء تغييرات طفيفة هي، ر سوف نشير إلى حلقة واحدة حول العقدة نفسها.

ثم، فإنها تبدأ في العثور على استراتيجية الأمثل. دعونا نفترض أن تجد الاستراتيجية الأمثل. ما هي الاستراتيجية الأمثل هو؟ S من البدء، في كل خطوة من خلالها نختار الجانب للخروج وجعل الحد الأقصى للمكافأة الإجمالية. ونحن نرى أن هناك 100، وهو أمر عظيم، لذلك تأكد من أن يكون قادرا على الذهاب ر، و 100 للتخلص من هذا الوضع غير متوقع، خط عريض على مسار مكافأة الرقم يجب أن يكون أكبر.

لاستراتيجية مثلى، وهو مسار الأمثل لمن المقابلة، وبغض النظر عن مدى نحن هنا لايجاد الاستراتيجية الأمثل.

المثال الثاني: التعسفي وظيفة تعظيم

وتبين لنا كيفية استخدام تعزيز التعلم من أجل حل مشكلة أقصر طريق، بالإضافة إلى ذلك، يمكن تعزيز التعلم أيضا استيعاب العديد من المشاكل الأخرى.

على سبيل المثال، ونحن نريد لتحقيق أقصى قدر من وظيفة و 0،1 في داخل الفضاء N-الأبعاد. انها ليست مشكلة سهلة لحلها، على وجه الخصوص، لا تحدد ما هي و، وبعبارة أخرى هذا هو ما يمكن أن يكون و.

هذه المشكلة يمكن أيضا أن تصبح تعزيز التعلم المشكلة، كيف يغيروا ما؟

أنا وضعت الحالة الأولية داخل مجموعة فارغة، وهذا الوقت هناك نوعان من الإجراءات تركت للذهاب هو إضافة صفر، انتقل إلى اليمين هو زائد 1،0 بالإضافة إلى 0 وتركت للذهاب بعد ذلك، ثم انتقل الحق إلى جانب 1 ل، N من بعد هذه الطبقة هي طبقة العليا من الفضاء داخل كل من المجموعات 0، 1، المقابلة لجميع الحلول الممكنة.

ونحن أيضا تعيين مكافأة - طبقة وسطى من كل جائزة هي 0، فقط يكافأ آخر واحد F. وهذا سيجعل، إذا كان هناك استراتيجية الأمثل لتعزيز التعلم، فمن الممكن أن نجد الطريق الأمثل إلى العقدة، بعد ذلك سوف تكون قادرة على جعل هذا أعظم مكافأة، F الحد الأقصى.

من خلال هذا المثال، أود أن أعبر عن وجهة نظر - إذا كنا نتعامل مع هذه المشكلة بسيطة نسبيا للتعلم، ليست هناك حاجة إلى تعلم استخدام التعزيز. لأنه لا يمكن إطلاق النار أكثر الخاصة في السوق، واستبدال بعض المشاكل في الماضي من تعزيز تعلم طريقة لحلها.

تعزيز التعلم المختلفة (RL) والتخطيط (التخطيط) من

وخلاصة القول، وتعزيز التخطيط والتعلم حيث مختلفة؟

أولا، تعزيز التعلم لرؤية الصندوق الاسود العالم، ولأغراض التخطيط، وهذا العالم واضح جدا. على سبيل المثال، أقصر مسار دينا، وجميع العقد، ثم نقطة، والتركيز على الحق معروفة، وتعزيز التعلم، وكيفية دولة نقل، على الجانب الأيمن من هذا النظام هو كم، أو حتى ما تحتاجه حالته الاستكشاف الخاصة، واكتشاف.
ثانيا، مسألة قد تكون تخطط حلا، مسار، والتعلم تعزيز الحل هو نموذج. والتعلم تحت إشراف، طالما تدخل أي دولة، وتعزيز قرار التعلم وسوف اقول لكم ما يجب القيام به. لذلك، في تعطى بالإضافة إلى كل دولة على الطريق الأمثل خارج كل عقدة يجب طريقة لتحويل، في الواقع، أي عقدة يمكن أن تقول لي من هذه العقدة إلى الوجهة يجب أن تكون كيفية التوجه.

تعزيز التعلم المختلفة (RL) والتعلم تحت إشراف (SL) من

وقال عادل تعزيز التعلم ويشرف تعلم هناك أوجه تشابه كثيرة، مثل هذا النموذج هو في الواقع نفسه. ما هو الفرق ثم بين لهم؟

التعلم تحت إشراف بشكل عام هو التعلم المفتوح حلقة.

عادة، فإن عدد من مهمة التعلم تحت إشراف يكون لبيانات جمع من البيئة؛

ثم نستخدم خوارزمية التعلم تحت إشراف الناتجة عن نماذج البيانات؛

وأخيرا، يمكننا استخدام هذا النموذج للقيام التنبؤ بها.

ولكن لتعزيز التعلم، فمن وجه التعلم حلقة مغلقة.

أولا، يتم إنشاء البيانات من البيئة؛

ولدت من نموذج البيانات باستخدام تعزيز التعلم الخوارزمية.

ولكن أيضا لإعادتها إلى تشغيل نموذج البيئة، وبعد ذلك سوف توليد بيانات جديدة تخرج، ثم كرر الخطوات المذكورة أعلاه.

ولذلك، من وجهة النظر العامة، الفرق الرئيسي بينهما، والدراسة هي حلقة مفتوحة والتعلم حلقة مغلقة. هذه ليست هي نفسها كما أنها جلبت الكثير من الاختلافات محددة:

أولا، في التعلم تحت إشراف والبيانات الملحوظ في القيم ميزة والعلم. معنى علامة هو، لمعرفة قيمة مثل هذه الملاحظة، ويتميز في وقت لاحق، أي نوع من التنبؤ ينبغي.

ولكن تعزيز التعلم في الداخل، هذا هو تسلسل البيانات الأولى، القيام بما يلي بعد عمل له لدولة ما، هناك قيمة ردود الفعل، ويحتوي على الدولة الجديدة. هذا التسلسل، وإن كانت هناك مكافأة ردود الفعل، ولكن المكافأة لا يقول لنا ما يجب القيام به نوع من العمل، ولكن لديهم سوى تقييم قيمة الاستراتيجية الحالية، ونضيف إلى ما يصل جميع المكافآت بمثابة تقييم الاستراتيجية الحالية، يمكنك أن تتعلم استراتيجيات كيف جيدة، لكنها لا تعرف ماذا تفعل النوع من العمل هو أفضل، وهذا هو الفرق في البيانات اثنين.

وبالإضافة إلى ذلك، الخوارزمية تعزيز وتحت إشراف التعلم خوارزمية التعلم ليست هي نفسها. قد يكون كلا النموذجين نفسه. التعلم تحت إشراف قد يكون هناك شجرة القرارات، قد تكون الشبكة العصبية، يمكن أن يكون نموذجا، فإنه هو نفسه في تعزيز التعلم في.

وخلاصة القول، فإن كلا من الفرق يكمن جوهر في تعزيز ضرورة التعلم للنظر في تأثيرها على البيئة.

تعزيز التعلم التطبيقية

التطبيقات الكلاسيكية

منذ تعزيز التعلم القيام به هو أن تتعلم لتوقع تسلسل وتتابع، لذلك هو مجال التطبيق الرئيسية في الماضي، تقوم آلة التحكم، مثل السيطرة على طائرة هليكوبتر.

في التطبيق داخل المروحية، المروحية هي الوكيل، والبيئة هي مجالها الجوي، يمكن للدولة أن يكون ارتفاع الطائرة، والسرعة، والموقف، وما إلى ذلك، يتم اتخاذ القرارات التي أمر عصا التحكم. نأمل المروحية لجعل المسار نريد، لكنها لن تسقط. ويمكن لهذه الأهداف على النحو طائرة هليكوبتر مكافأة، والسماح لها تأتي لمعرفة استراتيجية لمراقبة الحركة في الوقت الحقيقي من المروحية.

المزيد من التطبيقات

هناك العديد من التطبيقات في العالم الحقيقي، ومشكلة وراء مشكلة التي يواجهها الجميع في خط مع الإعدادات تعزيز التعلم. على سبيل المثال، للتنبؤ توصيات سوق الأسهم والمنتجات.

1، والتنبؤ سوق الأسهم

هذا هو الأول من سلسلة من القرارات، والكثير من القرارات لجعل كل عمل لاتخاذ قرار بشأن كيفية يجب أن ينظر إلى الحالة الراهنة لسوق الأوراق المالية، قد يكون العمل لشراء، بيع، وننتظر ونرى.

لماذا هذه المسألة هي تعزيز مشكلة التعلم؟ هناك أيضا العديد من متواليات من قرارات قد لا يشدد مشاكل في التعلم، ونحن نعتمد على تحديد تسلسل في النهاية لم يتم حديد التسليح تعلمها صنع القرار؟ العامل الرئيسي هو: بعد تنفيذ عملية صنع القرار في داخل البيئة، وتغيير هذه البيئة.

عندما سوق الأوراق المالية التجارية، ليغلق سعر السهم في الوقت الحالي سيحدد كم، وهو ما يعادل قرار تغيير البيئة. أحيانا معاملة صغيرة سيتسبب مستثمرين آخرين يتوقعون أن سوق الأسهم، مما يؤثر على اتجاه سوق الأسهم.

2. مثال آخر هو توصيات المنتج

ماذا يمكن أن ينظر إلى مشكلة توصية لأنها مشكلة تعزيز التعلم؟ سوف توصية يقترحها النظام المعروضات وضعت على صفحة ويب، وترتبط السلوك الشرائي للمستخدم والسلوك الموصى بها. أوصى للمعارض، حتى يمكن للعملاء العاديين نسبيا أيضا الحصول على الكثير من التصفح، وليس من المستحسن منتج ممتاز إذا كان من المحتمل لا أحد يهتم. وعموما، فإن القرار يؤثر على النظام بأكمله.

3، ومؤخرا تطبيق

في التعامل مع البيانات المهيكلة، مثل القيام معالجة اللغة الطبيعية، بنية منفصلة من قاعدة المعرفة استخدام نظام التعلم، فإننا سوف نواجه مشكلة التي نواجهها اللغة أو قاعدة المعرفة يمكن أن يكون من الصعب على الاندماج في نموذج التفاضلية. بعض الباحثين مؤخرا كان يعتقد من عدد من الطرق، وإخراج جملة أو كلمة داخل علم بالعملية، وذلك التعلم عن طريق العمل تعزيز، بحيث من خلال تعزيز طرق للتفاضل التفاضل في نظام التعليم كله في الماضي التعلم. وفقا لعمق التدريب للتعلم نهاية أكثر شعبية أن أقول، بعد التعلم لتعزيز الإطار المدرجة في، ويمكن تشغيل النظام بأكمله إلى نهاية لتعلم.

وثانيا، فإن عملية اتخاذ القرار ماركوف (ماركوف عملية اتخاذ القرار)

تعزيز التعلم النماذج الرياضية الأساسية - عملية ماركوف (ماركوف عملية)

قد تسمع الكثير من الكلمات، بما في ذلك MDP، Q-التعلم، وهناك العديد من اسم الخوارزميات، وسأشرح لفترة وجيزة التقرير إلى تعزيز عملية التعلم والتطوير، والتي سوف تصل الى أي مشاكل.

تعزيز التعلم تاريخ طويل، والتي، التعليم المبكر وتعزيز نموذج MDP في الرياضيات لها علاقة كبيرة، واسمحوا لي أن أعرض MDP بديهية.

مقدمة البصرية إلى MDP

MDP (ماركوف قرار عملية) هناك ثلاث كلمات، حيث عملية "عملية" هو متغير يمثل تغييرات التوقيت، ماركوف "ماركوف" شرح هذا التغيير أي تأثير الذاكرة، إلى أين تذهب يعتمد المقبل فقط على الحالة الراهنة. ويمكن وصف عملية ماركوف مع الإشارة إلى FIG، كل نقطة على هذا الرقم الذي هو الدولة. هناك جانب العديد فوق هذا، تبين عملية يمكن القيام به. لكل دولة، واحتمال هو 1 والحافة. هذه هي حالة والانتقال من وجهة نظره.

يمكننا أيضا أن ننظر من منظور آخر. على سبيل المثال، الآن في الدولة، ولكن في المرة القادمة، وسوف تحول اعتمادا على احتمال التحول إلى الذهاب إلى دولة مختلفة. مع تغير الزمن وتحويلها إلى دولة في المرة القادمة للذهاب، ونحن نسميها (الأفق) منظور المستوى.

توزيع في حالة مستقرة (ثابتة التوزيع)

ما هو توزيع ثابتة للدولة؟

أكثر من عملية ماركوف، سيكون هناك توزيع ثابتة للدولة، وهو ما يعني وقتا طويلا جدا حتى عندما لا نهاية من الزمن، ومعظم ماركوف سوف تتلاقى على التوزيع المتوازن لا يتغير مع الزمن.

على سبيل المثال، بعد الطقس، والطقس اليوم هو الخروج من الشمس، يتم تحديد الشمس، غائم والانتقال احتمال المطر، ربما إلى 30 يوما بعد أن خرج من الشمس، واحتمال المطر أو غائم اليوم ليس بعيدا عن أشعة الشمس ليس لديه علاقة سوف تتقارب إلى التوزيع الاحتمالي مصممة على الذهاب أعلاه.

عمليات مكافأة ماركوف (ماركوف مكافأة عملية)؟

عملية ماركوف هي عندما تعود الحالة عند حدوث عملية النقل، بالإضافة إلى وقت سابق وصفها احتمال انتقال، هناك مكافأة.

وقد تولى الطقس أن الشمس هي خارج الدولة، بعد استمر هذا المدى، وعودة الإجمالية كم أنا يمكن أن تحصل. مجموع العائدات يمكن أن يمثله V. رمز وفقا لوصف السابق، فإننا يمكن أن يكون لها حسابات مختلفة، على سبيل المثال، والخصم، أو كل ذلك معا وثم أضاف.

نحصي عوائد على المدى الطويل؟ بدأنا من الحالة الأولية، وفقا ل0.2،0.7،0.1 تم نقلهم إلى دولة مختلفة، وفقا لاحتمال الجديد، والعائد الإجمالي على الدولة من القيم التالية معا، يمكنك الحصول على قيمة هذه العوائد الدولة. بعد هذه الخطوة ما يعادل إعادة توسيع دائرة معا. ويصبح هذا العودية، أي خطوة 0 الخطوة تصبح 1 الخطوة أن تكون محسوبة، الخطوة 1 وخطوة إلى الخطوة الثانية التي يتم حسابها.

هل هناك طريقة لتسريع خوارزمية حساب، ودعا البرمجة الديناميكية، هو الصاعد العد التنازلي.

يمكن أن تفهم على أنها المجموعة الاولى الطبقة الأخيرة (أول طبقة T) هي قيمة V 0، T-1 عكس طبقة العد V هو عدد طبقة، ومن ثم عكس المشغل ...... T-2 إلى الصيغة طفل مرات تكرار T.

هذه الخطوة هي أن تأخذ T، هناك عدد لا حصر له من خطوات المشي. ونحن نفترض أن موقف بشأن النقطة الأخيرة اللانهاية، لكل دولة عند هذه النقطة لا تزال فوق 0 V، ومن ثم حساب عدد الخطوات اللانهاية -1، -2 الخطوة هي عدد لا حصر له، يعود عدد لانهائي من الخطوات. ولكن خوارزميات لا يمكن أن تحقق هذه العملية، في الواقع، مع لا يحتاج خوارزمية عدد لا حصر له من خطوات إلى الوراء، لأن هناك خصم أن يعود بعد عدد معين من الخطوات، سيتم تحديد هذه القيمة.

ماركوف قرار عملية (ماركوف قرار عملية)

كيفية تشكيل عملية اتخاذ القرار ماركوف؟

لعملية ماركوف وعمليات اتخاذ القرارات ماركوف، يمكننا أن نلاحظ فقط نتائج أسفل شوطه، ولكن لا يمكن تشغيل لها التدخل بالطبع. بالإضافة إلى التدخل بعد قرارا بشأن ذلك، وهذا هو عملية اتخاذ القرار ماركوف، إجراءات مختلفة تحدد احتمال نقل ليست هي نفسها، وحتى الآن نستطيع أن نختار إجراءات مختلفة في كل ولاية.

تبدو زاوية عرض أفقي ماركوف عملية اتخاذ القرار، لأن كل دولة تستطيع أن تفعل إجراءات مختلفة، وبالتالي فإن احتمال انتقال مختلفة.

وبشكل عام، عملية اتخاذ القرار ماركوف، وهناك رباعية، وهذا هو، والدولة، والعمل، مكافأة، ونقل.

هذا رباعية رباعية وتعزيز التعلم داخل نفسه، تعزيز التعلم في وقت مبكر جدا هي أساس رياضي تماما لMDP، وأنها تبحث أيضا عن استراتيجية هو اختيار الإجراءات المختلفة لديها احتمالات مختلفة أو استراتيجية حتمية، في حالة لإخراج هذا العمل.

استراتيجيات التعلم المبكر التعزيز وخصائصها

الاستراتيجية الأولى هي استخدام التمثيل جدولي العمل المسجلة في كل دولة على النموذج هو نموذج بسيط جدا. يستخدم هذا النموذج عادة في داخل تعزيز التعلم. في التعلم تحت إشراف، وتستخدم في وقت مبكر أيضا هذا النموذج، ولكن نادرا ما تستخدم في تطبيقات حقيقية في الداخل، وسيتم قريبا القضاء عليه.

ويتميز هذا القدرة على التعبير قوية جدا، ولكن الافتراض هو العمل والدول ومنفصلة. لماذا قوية القدرة على التعبير عن ذلك؟ على سبيل المثال، اليقين سياسة كل ولاية ما عمل يمكن تحريرها التالية مباشرة، دون التأثير على العملية من الدول الأخرى، لذلك فمن التعبير مرنة جدا. وتقوم العديد من النظريات المبكرة من تعزيز التعلم على هذا التعبير، على الرغم من أنه ليس من العملي، ولكن طبيعة النظرية جيدة.

كيفية حل الاستراتيجية الأمثل في عملية اتخاذ القرار ماركوف؟

نريد أولا لحساب العائد الإجمالي لسياسة معينة على ماركوف عملية اتخاذ القرار.

هذا هو يتحدث أمام احتساب العائد الإجمالي على عملية ماركوف هو نفسه في العودة، لأنه بمجرد سياسة معينة، كلها قد حددت توزيع انتقالها. تحولت هذه إلى عملية ماركوف العودة، وهذا هو، لوضع سياسة بعد الطريقة نحسب العودة كما كان من قبل. مختلفة قليلا هو أن يتم نقلها وفقا لاحتمال عمل سياسة معينة. حتى الكتابة V عندما كتب في الزاوية اليمنى العليا من الخامس ، هو تمثيل ما هو ثابت الاستراتيجية الحالية لدينا، ويعطي استراتيجية مختلفة في المستقبل، ونتائج القيم V نريد أن تحسب ليست هي نفسها. ويمثل معنى هذه القيمة V، من ليالي هذا القسم، بعد مسيرة طويلة لرؤية عودتها هي.

ومع ذلك، إلا إذا كان لحساب قيمة V، وهي ليست من السهل جدا لتصدير هذه السياسة، فإنه هو تعبير عن مجموع العائدات، ولكن نريد أن نعرف هو، ما هي الإجراءات نفعل ما هو أفضل في كل ولاية. إذا كنت تعرف فقط قيمة V، فإنه من المستحيل معرفة مباشرة الذي عمل لاختيار جيدة عن الوضع الحالي. كل عمل لا يمكن إلا محاولة وتذهب للدولة المقبلة، والدولة القادمة لمعرفة قيمة V الذي عمل أدت إلى الأفضل، وهو واحد من استخدامها. هذا هو أكثر صعوبة.

إلى المتاعب تجنب، استخدمنا قيمة Q وظيفة. ويقدر قيمة Q وظيفة من وظيفة V المدخلات والإجراءات التي ينبغي القيام به في عمل الدولة الصورة لاحق، ثم تبع ذلك استراتيجية تفعل ذلك دائما، عودتها هي. مع Q-وظيفة، بعد رؤية الدولة الصورة، كل من فرقة إلى انظر التي من قيمة Q الكبيرة، والتي ستستخدم. لذلك يمكن استخدامها مباشرة لتقرر أي عمل في الدولة الحالية.

Q وV لديه علاقة المراسلات المباشرة، وفقا لسياسة لتحديد العملية، وقيمة Q هو متوسط قيمة V.

حساب الاستراتيجية الأمثل

السياسة الأمثل، إن وجدت؟

النظر في الاستراتيجية الأمثل عندما نفكر، ما إذا كان سيكون هناك الأداء هو أفضل سياسة في كل الدول، أو تجد سوى الأفضل في الأداء هي أكثر من مرة، ولكن على القيمة الاسمية للفرد في دولة تقريبا استراتيجية. الأول هو في الوجود حقيقة، هذا الاستنتاج يعتمد على افتراض أن السياسات تحتاج إلى استخدام الجداول لتمثيل. ومنذ ذلك الحين طاولة لتمثيل، وقدرتها على التعبير عن ما يكفي قوية.

الاستراتيجية المثلى هي القيمة المثلى المقابلة القيمة V V، قيمة Q المقابلة وقيمة Q المثلى، وكيفية ضرب الاستراتيجية الأمثل؟ لأنه ليس هناك علاقة معينة بين V و Q، حيث أعطيت لي مباشرة إلى معادلتين، هو أن الاعتماد على Q القيمة Q، هو لحساب قيمة V من حيث القيمة V. ما دام يتعلق العلاقة المثلى بين Q و V Q وV في عام متاح مباشرة.

سياسة كل من خوارزميات الأمثل

هناك اثنين من هذه المعادلات في وقت لاحق، حيث يمكنك ضرب الاستراتيجية الأمثل.

الطريقة الأولى: أولا، لتقييم بعد استراتيجية معينة، كيف جيدة هذه الاستراتيجية، ثم ابحث عن اتجاه لتحسين هذه الاستراتيجية.

هذا يعني الخوارزمية، عليك أولا حساب قيمة V تعطى هذه السياسة، ومن ثم استخدام هذه المعادلة لتحديث هذه الاستراتيجية، بعد توجه تحديث V النهاية حساب هذه القيمة هي كم، مرة أخرى استكمال هذه الاستراتيجية، بحيث يمكنك للتأكد من أن هذه السياسة تلتقي في النهاية مع الاستراتيجية الأمثل. بطبيعة الحال، فإن الافتراض هو أن كنت تستخدم هذا الجدول تمثل الدولة، وهناك دول أكثر الفقيرة والإجراءات لديها أكثر الفقراء، وبهذه الطريقة المعادلة المقابلة هو مجرد المعادلة الأولى. قد تكون هذه الخوارزمية غير فعالة نسبيا، لأنه يتطلب استراتيجيات التقييم المستمر المحدثة. وتسمى هذه الطريقة التكرار السياسة.

الطريقة الثانية: القيمة المباشرة من حيث القيمة V V التحديث، وتسمى هذه الطريقة قيمة التكرار.

هناك طريقتان يمكنك حساب الاستراتيجية الأمثل وفقا لهذه المعادلات اثنين. هنا في الذاكرة المؤلف المنادي، في الواقع، هو اختراعه البرمجة الديناميكية.

تعقيد الاستراتيجية الأمثل هو كم؟

وبالإضافة إلى ذلك، ونحن نرى أن هذه العملية إلى حل الاستراتيجية الأمثل، وتعقيدها هو كم؟ تعقيده هو عدد المرات عدد من حالة العمل O (| S | * | A |)، التي هي بالفعل على MDP بسيط جدا (MDP القطعية)، وعدد وتعقيد عددا من الإجراءات من وجهة الدولة للعرض، يبدو أن تعقيد الخطي، وتعقد ليست عالية. قال في وقت سابق نحن تعزيز التعلم من أجل حل الاستراتيجية الأمثل هو NP-الصعبة المشكلة، ثم الفرق في مكان ما؟ والفرق هو أن عادة مقياسا لتعقيد المشكلة عندما لا يقوم على عدد من الدول لقياس، ولكن مع أبعاد قياس في الفضاء الدولة. لذلك المنادي اخترع كلمة واحدة تسمى "لعنة أبعاد". إذا كنا نستخدمها لقياس أبعاد هذه القضية، والتعقيد هو على درجة عالية جدا من التعقيد، على سبيل المثال، العودة، أبعادها 19 19، ولكن هذا العدد الفعلي للدول تجاوزت 10 ^ 170.

هنا لحظة وجيزة في قرار MDP، ماركوف، وكيفية الحصول على هذه السياسة. ولكن MDP ليس دراسة مكثفة، لأنه قد تم منحها للرباعية، وخاصة المكافآت وورم خبيث. اما إعطائها مكانة والعمل، ويمكن حساب قيمة المكافأة، نقل أيضا إدخال الدولة، بعد العمل، وسوف اقول لكم ما هي الدولة بالخروج من عملية النقل نعم.

هذا المقال هو الدكتور يو يانغ "الحدود تعزيز التعلم" من هذه المادة، حتى لا تنزعج المحتوى لاحقا المقبل شبكة لى فنغ.

طريق الحرير

جامعة نانجينغ، الدكتور يانغ يو مليون كلمة في النص الكامل للخطاب: طليعة تعزيز التعلم (على)