تطبيق تعزيز التعلم في العمق على الحوار الذكي (مع أمثلة)

المصدر: تينسنت البيانات الكبيرة

هذه المقالة عن 3500 كلمة، أوصى القراءة 7 دقائق.

هذا المقال أعرض لكم لتطبيق تعزيز التعلم في الحوار القائم على مهمة العمق.

خلفية

وتصف هذه الورقة تطبيق دراسة مكثفة في حوار متعمق حول نوع المهمة، ومزيج من الاثنين النقطة الرئيسية هي عمق الحوار القائم على مهمة تعزيز التعلم على استراتيجيات التعلم التطبيقية، وتستخدم استراتيجيات تستند إلى القواعد المعروفة في هذا المجال في الوقت الحاضر، ويستند بوضوح على قواعد الطرق لها ارتفاع تكاليف العمالة والعيوب وسوء قدرة التعميم، وتعزيز التعلم فقط لحل هذه المشاكل، ولكن فقط تحتاج الى بعض تعزيز أهداف التعلم، من دون الكثير من المثول التدريب، لتجنب التعلم العيب عمق كبير.

أولا، التعلم وجيزة تعزيز ونظام الحوار، ومن ثم تحديدا حول عمق تعزيز التعلم في الحوار القائم على المهمة بكيفية تطبيقات نتائج التدريب وموجز. الأمثلة التالية هي جزء من المشهد تخضع للترتيب.

تعزيز التعلم

يتكون تعزيز نظام التعلم من وكيل (وكيل)، ومركز (ولاية)، ومكافأة (مكافأة)، عملية (العمل) والبيئة (بيئة) خمسة أجزاء، كما هو مبين أدناه.

  • الوكيل: وكيل تعزيز التعلم هو جوهر كامل للنظام. ويمكن أن تلمس حالة البيئة (الدولة)، و (مكافأة)، والتعلم عن طريق اختيار إشارة الإجراء المناسب (العمل) على أساس الحوافز التي تقدمها البيئة، لتعظيم المدى الطويل قيمة المكافأة. باختصار، يستند مكافأة الوكيل على ردود الفعل التي توفرها البيئة بوصفها بيئة التعلم، وسلسلة من دولة (الدولة) لعمل رسم الخرائط (العمل)، يتم تحديد مبدأ عمل لتحقيق أقصى قدر من احتمال تراكم مستقبل مكافأة. مكافأة الإجراء المحدد لا يؤثر فقط على الوقت الحالي، في المرة القادمة سوف تؤثر أيضا على مستقبل أكثر مكافأة، وبالتالي فإن القاعدة الأساسية الوكيل في عملية التعلم هو: إذا كان العمل (العمل) جلب بيئة عائدا إيجابيا (مكافأة) ، ثم سيتم تعزيز هذا العمل، وإلا فإنه سوف يقوض، في ظروف مماثلة لمبدأ الفيزياء للتفكير.
  • البيئة: سوف بيئة تلقي سلسلة من تنفيذ الإجراءات (العمل) وكيل، وهذا أمر جيد أو سلسلة سيئة من الإجراءات لتقييم وتحويلها إلى قياس الكمي (إشارة العددية) ردود الفعل مكافأة للعامل، وسوف الوكيل لا أقول كيف لمعرفة العمل. الاعتماد على وكيل تاريخهم (التاريخ) تجربة للتعلم. في نفس الوقت، يتم توفير بيئة أيضا عامل (الدولة) معلومات الحالة التي يقع فيها.
  • مكافأة: زودت البيئة وكيل لالعددية إشارة ردود الفعل كميات لتقييم جودة وكيل فعل عمل خطوة زمنية معينة. تعزيز التعلم هو تعظيم يستند مكافأة التراكمي على فرضية: الهدف تعزيز التعلم، سلسلة وكيل اختيار عمل المستقبل هو لتعظيم مكافأة تراكمية.
  • الدولة: يشير إلى حالة يكون فيها المعلومات البيئية وكيل، يحتوي على كافة المعلومات عن عمل وكيل الاختيار، وهو التاريخ (التاريخ) هي وظيفة من: سانت = و (حزب التحرير).

مرئية، وتعزيز بيئة التعلم الأساسية هي وكيل والبيئة. وكيل التكيف مع البيئة، سلسلة من الإجراءات لجعل أعلى التحكيم النهائي، في حين استكمال بعض المعلمات في العملية. في الواقع، يمكن أن تفسر ببساطة تعزيز التعلم هو يعمل محددة دورة على النحو التالي:

  • سانت حصول على وكيل الدولة من البيئة؛
  • وكيل وفقا لحالة اتخاذ إجراءات في سانت.
  • في التغيرات البيئية المتضررة، والانتقال إلى حالة جديدة سانت + 1؛
  • ردود الفعل البيئي للوكيل مكافأة (إيجابية للثواب، مقارنة عقوبة سالبة).
نظام الحوار

نظام الحوار لنوع من آلة لغرض الحوار لدى الإنسان مصمم لهذا الغرض قد يكون لمهمة معينة، فإنه يمكن أن يكون من السهل للدردشة مع الناس، بل هي مهمة من النوع السابق من الحوار، الذي هو نظام حوار وغير المهمة .

استنادا المهمة الحوار أساسا إلى هدف محدد للحوار، مثل شركة طيران مشتركة الحجز، وترتيب وهلم جرا. حوار ومهمة لهذه الصناعة لتحقيق البرنامج الرئيسي أو بطريقة خط أنابيب، أنه وفقا للSLU، DST، DPL وNLG طريقة لتنظيم النظام الحوار بأكمله، نهاية إلى نهاية في الطريق الأكاديمية المزيد والمزيد من الاهتمام، و خط أنابيب مختلفة، نهاية إلى نهاية يستخدم نموذج وحدة، والتفاعل قاعدة بيانات خارجية ومنظم.

غير مهمة من نوع من الحوار هو مماثل لمايكروسوفت قلطه ودردشة مع بعض الناس. تستند مهمة التنفيذ غير السائدة الحوار بطريقتين: توليدي وبحث الصيغة. مع المزيد والمزيد من النضج نموذج seq2seq، برامج توليدي اهتمام أكثر وأكثر، ويعتبر هذا النهج كمهمة من مهام الترجمة الحوار الذي Q (الناس يقولون) و A (آلات الرد) هو لغتين.

بحث الاستعلام النظام والكثير من البيانات والتدريب، بما في ذلك القضايا التحجيم (كل يتوافق مع مسألة معيارية طلب)، فإن الجواب (واحد لكل معيار يسأل الجواب)، عندما يقول المستخدم كلمة واحدة، فإن النظام يستخدم هذه العبارة كما الاستعلام للبحث والفرز للحصول على مشكلة مطابق في مجموعة التدريب، طلبت أخيرا استعلام يستند الجواب القياسية على هذا السؤال. بالطبع، هناك مزيج من هاتين الطريقتين، أي باستخدام الصيغة الناتجة مرشح الجواب، ثم صيغة البحث عن المطابقة والترتيب للحصول على إجابة محددة.

حوار والعمل، DQN +

DQN

ويتعزز Q-التعلم في التعلم، في Q-التعلم، ونحافظ على الجدول قيمة Q، الجدول البعد هو: عدد من عدد العمليات الدول S A *، في الجدول يمثل عدد في كل ولاية الصورة لفوائد خصم يمكن الحصول عليها باستخدام حركة و--Q القيمة. نواصل القيم Q متكررة في الجدول بحيث تتلاقى في نهاية المطاف، وبعد ذلك يمكننا اختيار استراتيجية الأمثل في كل دولة وفقا للجدول قيمة Q.

DQN هو مزيج من التعلم العميق وتعزيز التعلم، أي استخدام الشبكات العصبية في مكان Q في الجدول تعلم Q. في Q-التعلم التقليدية، عندما تكون مساحة الدولة هو منفصلة وعملية وذات بعد ويمكن استخدام يست عالية Q-جدول لتخزين حالة تشغيل كل من قيمة Q، ولكن عندما تكون الدولة هي مساحة الأبعاد عالية والعمل أو مستمر، وذلك باستخدام Q-الجدول غير واقعي، في حين أن الشبكة العصبية جيدة فقط في ذلك.

وهكذا يصبح Q-تحديث جدول مشكلة وظيفة المناسب مشكلة، وهي حالة مشابهة لعملية الحصول على إخراج مشابه. على وجه التحديد، على سبيل المثال، ونحن الآن هناك جدول قيمة Q، يتم إعطاء دور الشبكة العصبية دولة ق والإجراءات لذلك، المقابلة لقيمة المتوقعة للQ، بحيث ينتج الشبكة العصبية بالقرب من Q القيمة في الجدول. لكن DQN الطريقة بالتأكيد لا يمكن أن تستمر في الحفاظ على جدول Q، وذلك لمكافأة الماضي نهج الهدف ردود الفعل، الصيغة التالية، من خلال تحديث المعلمة Q Q القيمة الأمثل وظيفة التقريب. وهكذا، DQN هو تصميم هيكل الشبكة العصبية، لتتناسب مع قيمة Q بواسطة دالة، وهي:

وبطبيعة الحال، فإن هذا سيجلب أيضا بعض المشاكل:

  • تتطلب الشبكات العصبية عدد كبير من العينات تم وضع علامة التعلم تحت إشراف، تعزيز التعلم ولكن فقط مكافأة قيمة الإرجاع، وكيفية بناء البيانات تحت إشراف ليكون العدد الأول، ويرافقه الضوضاء، وتأخير (على مدى عشرات ميلي ثانية قبل العودة)، متفرق ( مكافأة عديدة في الدولة 0) وغيرها من القضايا.
  • فرضية الشبكة العصبية هي نموذج مستقل وتوزيعها بشكل مماثل، وتعزيز الدولة والدولة قبل وبعد التعلم التي تعتمد على ردود الفعل - ماركوف القرار.
  • الشبكات العصبية الهدف مع زعت ثابتة، ولكن كانت دراسة لتعزيز التغييرات التوزيع، على سبيل المثال، كنت تلعب لعبة، ومستوى انخفاض مستوى توزيع دولة مختلفة، وذلك على تدريب جيد قبل نقطة تفتيش، وعقبة القادمة، مرة أخرى، التدريب؛
  • وقد أظهرت دراسات سابقة أن مشاكل عدم الاستقرار عند استخدام شبكة غير الخطية تمثل قيمة الدالة.

حلول محددة لهذه الأسئلة هي على النحو التالي:

  • بناء العلامات: هي التي شيدت هذا الكود باستخدام Q-التعلم مكافأة (المراسلات 1)، كما هو موضح أعلاه، مكافأة الشبكة العصبية للتنبؤ، ومشكلة الانحدار إلى مشكلة.
  • تشغيل تجربة: لحل مشاكل التوزيع وأساليب غير ثابت من خلال التجربة اعادتها (تجمع الخبرة) (المقابلة لمسألة 2،3)؛
  • هيكل الشبكة المزدوجة: باستخدام الشبكة العصبية لتوليد القيمة الحالية Q، وذلك باستخدام الشبكة العصبية مزيد من توليد قيمة الهدف Q (الموافق سؤال 4).
التسمية البناء

لهذه المشكلة وظيفة التحسين، والطريقة العامة للتعليم تحت إشراف هو أولا تحديد وظيفة الخسارة، ثم السعي التدرج، وذلك باستخدام أساليب مثل المعلمات تحديث أصل التدرج العشوائية. يتم تحديد DQN فقدان وظيفة على أساس Q-التعلم. نحن نريد أن نجعل قيمة ف المستهدفة والفرق قيمة ف حدة التقييم صغيرة بقدر الإمكان. DQN وظيفة الخسارة هي:

هنا يي لاعتباره الصورة الدولة وتشغيل قيمة Q القياسية المقابلة، الفعلي وراء بنية الشبكة المزدوجة، ويستند يي على دورة متكررة أو شبكة الهدف صافي المعلمة على قيمة ف المستهدفة محسوبة، مع التيار مستقلة عن معلمات تكوين الشبكة، يتم احتساب يي على النحو التالي، ومن ثم دالة الهدف بأكملها يمكن أن يكون الأمثل من قبل العشوائية طريقة التدرج النسب.

تشغيل التجربة

تجمع خبرة وظيفتها الرئيسية هي حل مشاكل التوزيع وغير ثابت. ويتم ذلك في كل خطوة وقتا لنقل تتفاعل عينة مع وكيل البيئة التي تم الحصول عليها (شارع، في، غ، الحادي + 1) المخزنة في ذاكرة وحدة التشغيل من أجل التوصل إلى بعض عشوائي (minibatch) تدريب على القطار. (في الواقع، عملية الحوار إلى قطع تخزينها عشوائيا لمشاكل تجنب الارتباط أثناء التدريب)، رمز أعلاه هو يتم تخزين نتيجة كل تجربة التنبؤ الشبكة العصبية في حوض السباحة، ما يلي في كل تدريب عندما تؤخذ عشوائيا من مجموعة تجربة دفعة للتدريب.

هيكل الشبكة المزدوجة

يتم إنشاء بنية الشبكة المزدوجة اثنين العصبية الشبكات: target_net وeval_net، eval_net المعايير المستخدمة للتدريب وقيمة التنبؤ Q، وهو نسخ eval_net target_net، واستخدامات شبكة للتنبؤ القيمة المستهدفة Q (التكوين التبويب يي)، بدلا للإشراف على تدريب التسمية. يتم تحديث target_net على فترات منتظمة eval_net المعلمة، بحيث Q القيمة المستهدفة في فترة ثابت من الوقت للعقد، وإلى حد ما يقلل من قيمة الارتباط والهدف الحالية قيمة Q Q يحسن استقرار الخوارزمية.

حوار والمهمة

والهدف الرئيسي من الحوار القائم على المهمة لإكمال المهمة مثل طلب، الحجز، وما إلى ذلك، في مثل هذا السيناريو الإجابة فقط للمستخدم ليست كافية، وتحتاج أيضا إلى فهم حقا عازمة، فضلا عن معلومات المستخدم المرتبطة بهذا القصد، إذا أراد المستخدم الأمر، نحن بحاجة إلى معرفة تاريخ محدد الأكل المستخدم، وعدد من وجبات الطعام وهلم جرا، لذلك نحن بحاجة لاستخراج الأخدود وهلم جرا، ولكن نحتاج أيضا إلى التركيز على المعلومات الحالية، وكذلك لا الحصول على كمية المعلومات التي تم الحصول عليها وهلم جرا، والحوار القائم على مهمة تنفيذ خط أنابيب كما هو مبين أدناه:

  • SLU: لغة الفهم، وأعرب في نص اللغة الطبيعية تتم معالجتها في آلة صممت قبل المستخدم يمكن تقدير أن النموذج، والأخدود يهدف عموما أزواج قيمة. كما يقوم المستخدم بإدخال "أود حجز مقعد ليوم غد"، يجب أن يكون الناتج في SLU في نية = يأمر، فتحة = تاريخ: غدا (احتياجات المستخرجة في الواقع قيمة فتحة إلى أن يتم تطبيع). ويهدف هذا القسم لاستخدامها مهمة تحديد أو المهمة تصنيف استرجاع، ويستخدم عادة باعتباره مشكلة استخراج الأخدود NER.
  • DST: الحوار تتبع حالة، أدخل إدارة محادثة التاريخ وفقا لكل جولة من الحوار وتوقع حالة المحادثة الحالية. قوانين مثل استخدام وسائل: ما تم شغل دبابة، غير المعبأة وماذا في ذلك، ما تم طلب البيرة، سأل عن عدد المرات، وهلم جرا.
  • DPL، وتعلم استراتيجيات الحوار، لجعل رد فعل الخطوة التالية استنادا إلى الوضع الحالي للحوار. على سبيل المثال DST، لمعرفة أي خزان لا شغل، حدد أعلى طريقة أولوية قواعد السؤال الأخدود. مهمة DPL هي سلسلة من عملية صنع القرار، وأساليب ذلك عادة تستخدم أسلوب القاعدة، CRF، ومحور هذا المقال: تعزيز أسلوب التعلم.
  • NLG، وتوليد اللغة الطبيعية، من السهل أن نفهم النص اللغة الطبيعية عملاء نظام توليد الحركة القائمة على الحصول عليها. هذا من السهل أن نفهم، وإذا عمل DPL هو أن تطلب من المستخدم عدد من داينرز في النظام الذي قد يكون طلب مماثل { "ارقام": "UNK"}، دور NLG هو تحويل هذا "طرح عدد قليل من الناس لتناول الطعام."
تطبيق

يستخدم تعزيز المهام التي تنطبق على نوع من الحوار التعلم بشكل رئيسي في تعزيز تعلم عمل DPL تعلم الحوار، وهذا هو، وتعزيز التعلم يتوافق عمل للحوار الإجراء التالي، مثل الجواب المستخدم على سؤال أو يطلب من المستخدم تحت صنع القرار من القضايا ذات الصلة فتحة وهلم جرا. واحد الاستفادة من استخدام تعزيز التعلم هو أنه لا يوجد بيانات التدريب، وذلك لأن عملية التدريب وتحتاج فقط محاكاة للإجابة على الأسئلة على أساس تحديد الأهداف على ذلك. سوف DM فعلا استخدام كما تعزيز التعلم في وسيط، وبعض من ردود الفعل المعلومات للمستخدم. ويستند مكافأة DQN على نتائج عرض الحوار، وتنقسم الى مرحلتين، هو واحد لم تنته عند الحوار، حوار لكل حوافز إضافية أعطى -1، والآخر هو عندما يتم الانتهاء من الحوار، إذا تم الانتهاء من المهمة ثم إعطاء (max_turn بدوره) مكافأة، أو المكافأة - (2 * max_turn).

وبالإضافة إلى ذلك، في سياق التدريب لتعزيز عملية التعلم، وليس بحاجة فعلا لاستخدام SLU وNLG، وتحتاج فقط للاتصال عبر البيانات المهيكلة بين محاكي وكيل والمستخدم، من دون الحاجة إلى تحويل اللغة الطبيعية، مثل:

وقال: "18 فبراير 2019 وفبراير 2019، فضلا عن 19 وظيفة فارغة":

يقال، "أود حجز مقعد خمسة أشخاص، في أي وقت مقعد متاح؟".

  • محاكاة: سلوك المستخدم على محاكاة، محاكاة هو النهج الرئيسي للحصول على معلومات وكيل ردود الفعل، جنبا إلى جنب مع هدفها لمزيد من التفاعل مع وكيل، أن يطلب مثل هذه الأسئلة إجابة وكيل أو، لاستكمال الهدف هو نهاية الحوار، أو رفضها. هذا هو ما يعادل استخدام الأزياء العادية، ولكن هناك طرق لاستخدام نموذج لبناء نموذج المستخدم نموذج العالم.
  • أهداف البعثة،: الهدف الهدف في شكل مهمة ترتيب نضع المحدد كما هو مبين أدناه. تعزيز سببا رئيسيا في التعلم يمكن أن تطبق أيضا على الحوار القائم على المهمة هو الهدف نفسه أنها لا تحتاج إلى رجل لكتابة واحدة، تحتاج فقط إلى كامل لتوليد كل فتحة فقا لاحتياجات العمل، وبالتالي تجنب يتوقع الكثير من التدريب.

بالإضافة إلى ما سبق، ولكن أيضا وهمية قاعدة بيانات الوضع الفعلي وفقا لبيانات الاستعلام محاكاة الاستخدام الفعلي، في ظل ظروف معينة مثل مطعم ليس مقعدا فائض وما شابه ذلك.

تأثير

1. نسبة النجاح

2. مكافأة

3. جولات الحوار

مثال 4

(لا يعتبر هنا SLU وNLG، في عملية التدريب الحقيقي هو استخدام البيانات المهيكلة)، على افتراض أن هدفنا على النحو التالي:

استخدام التعزيز نتائج التعلم هي كما يلي:

ترجمة اليدوية (يستند NLG الواقع على طريقة القالب) هو كما يلي:

والنتيجة المذكورة أعلاه كانت جيدة جدا، وأساليب لقواعد هذا المشهد مصممة بعناية أساسا للحفاظ على التناسق:

ملخص

إضافة عقوبة إضافية والثواب، وتسريع التقارب، مثل تأثير القسم السابق دون أي عقوبة إضافية والثواب، يمكن أن ينظر في حوالي 5000 عهد عندما تمت المتقاربة، ولكن إذا قمت بإضافة بعض إجابات غير ذات صلة، والإجابة على الأسئلة المتكررة وغيرها من العقوبات أقل من 1000 سوف الحقبة، التقارب، مع إضافة هذه العقوبات والمكافآت وأيضا تدريب الشبكة في الاتجاه الذي تريد، للحصول على نتائج أفضل.

حاليا اختبرنا بشكل رئيسي في ترتيب هذه المهمة، مهمة بسيطة نسبيا، وتحتاج إلى العثور على المشهد أكثر تعقيدا للتحقق.

عملية تدريب مجرد استخدام فتحة الحشو، وما إلى ذلك، لملء الفتحة ليست بالفعل باستخدام قيمة فتحة، وهذا يحتاج القيمة إلى مزيد من استكشاف فتحة لقرار DPL من شأنه أن يؤثر على.

مرة واحدة ويجب أن يكون عدد فتحات تستخدم على التغييرات احتياجات على الانترنت إعادة تدريب، جدا قتا طويلا.

هدف ومحاكي هو نهج أكثر "جامدة"، يتطلب التدريب المستمر في استخدام خط الفعلي، لذلك يمكنك جعل عملية صنع القرار أكثر ذكاء حوار أكثر انسجاما مع توقعات المستخدمين.

مراجع

[1] أكسيوجون لى يون نانج تشن، نظم حوار النهاية إلى إنهاء المهمة، استكمال العصبية

[2] فولوديمير، Mnih، وضبط مستوى الإنسان من خلال تعزيز التعلم العميق

[3] https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

[4]

المحرر: وانغ جينغ تم التعليق بواسطة: لين يي لين - انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور " بيانات الإرسال THU "أيتها الأخوات ولا". إرسال البيانات THU "لرعاية المزيد من المحاضرات ونوعية المحتوى.

يشعر تأثير 3D يمكن أيضا الاستماع إلى القصة، أروع خريطة البرمجيات "جوجل إيرث" تحديث!

تدرس كيفية إنشاء الروبوت دردشة لمساعدة مشغلي الشبكات (مع رمز)

اكتشف الساحل الأفريقي ودائع المعادن النادرة، والاحتياطيات فوق سطح 5 مرات

الرمادي البجعة البيضاء البجعة السوداء البجعة؟ يدرس لك الحصول على اعتراف التفاف الشبكة العصبية

0-5 مذبحة! انهار انغ كريم باريس 19 دقيقة + 0 لقطات الجمهور، ليفقد تاجه الثالث

شاندونغ هان مرة أخرى! سقطت طفلة تبلغ من العمر 4 في المسارات، وشاندونغ المعلم النار!

جامعة تسينغهوا، جامعة بكين وجامعة تشجيانغ دورات الكمبيوتر مجموعة من الموارد هنا (رابط مرفق بصورة)

كيفية الهروب من "منظمة العفو الدولية ترومان شو" (موارد المرفق)

مفاجأة كبيرة! دوري الدرجة الاولى الايطالي فريق يوفنتوس بالهبوط 2-1 + 62 سنة لتحطيم الرقم القياسي، للاحتفال تعريتها المخضرم البالغ من العمر 37 عاما

الأطباء مكافحة الكتابة شكرا لك رسائل إلى أولياء أمور الأطفال من السابق لأوانه، والآباء الولادة وخلق معجزة مع الآباء مؤقت

الرائدة المواضيع الشمال ومعقدة، وافق جامعة شنغهاي جياو تونغ الجامعية AI الجديدة (مرفق "تسليمهم إلى قسم" المخزون)

جيندو المجموعة: "التسويق السلطة" هو المحرك الأساسي للتنمية ذات جودة عالية للمؤسسات الصغيرة والمتوسطة الصغيرة