الجهاز لا تعلم: لتعزيز الدور الذي يلعبه في الجيل ضد النص شبكة الجيل التعلم

https://zhuanlan.zhihu.com/p/29168803

1. الأساسية: توليد إطار نص نموذج قياسي

توليد النص (نص جيل) من قبل تعلم الآلة، اللغة الطبيعية المعالجة +  في محاولة لجعل التكنولوجيا AI لديه القدرة على التعبير عن لغة على مستوى البشرية، إلى حد ما، على المستوى الحالي للتنمية قادرة على التفاعل معالجة اللغة الطبيعية.

الوصف التالي مع الحد الأدنى إدخال عموما إطار النص تقنية الجيل، يشير تحديدا إلى وثيقة الشبكة المختلفة (مثل: CSDN مقالات الكلاسيكية "الجيل متعة النص" )، والورق وما شابه ذلك.

النص الذي تم إنشاؤه من قبل المهمة، وأكثر شعبية هي: الترجمة الآلية، وتوليد الجملة، تولد الحوار، وما إلى ذلك تركز هذه المقالة على الأخيرتين. ويتم مولد النص استنادا إلى دورة التعلم عمق عموما خارج باستخدام الشبكات العصبية النمذجة الدلالي (الأساسية RNN، LSTM، GRU، وما إلى ذلك). في مهمة الجيل الجملة، تطبيق مشترك: "تشار-RNN" (هنا، "شار" هو عنوان بالمعنى الواسع، فإنه يمكن أن يعني حرف، كلمة، أو غيرها من وحدات حجم النص)، ولكن الأساس هو بسيط رد فعل الوضوح الجملة الناتجة عن عمليات التشغيل، تحتاج أولا إلى إنشاء المكنز فوكب يحتوي على كافة الأحرف أو الكلمات التي قد تنشأ، وتوقع كل نموذج الكلمات سوف تظهر الجملة التالية، وانت تعرف الناتج softmax ليست سوى التوزيع الاحتمالي، في البعد المكنز فوكب  حجم، يجب أن تكون خاضعة لدالة التوزيع الناتج احتمال تحويلها من قبل الساخنة واحد  ناقلات، المكنز فوكب النتائج التي تم استردادها المقابلة لفترة، وعندما "تشار-RNN" تدريب النموذج، وذلك باستخدام نافذة انزلاق في الجسم، وعلى الفور بعد سياق الأحرف في نافذة مع مجموعة من عينات تدريب وتسميات، على التوالي، كل وفقا لحجم خطوة ثابتة لاستخلاص كل انزلاق نافذة "عينة - تسمية" زوج.

الجملة توليد مهام مماثلة، وتوليد حوار في مجموعات من الحوار بأنها "عينة - تسمية" نعم، الشبكة العصبية المتكررة RNN_1 ترميز الحوار ما سبق، ثم الشبكة العصبية حلقة أخرى RNN_2 يتم فك كلمة كلمة، والإخراج فك الشفرة واحد على الأقل من الخلايا العصبية كما الخلايا العصبية فك المدخلات يولد الحوار فصاعدا، علما بأن: قبل فك الحاجة إلى تكوين "البداية" _ العلم لتعليمات فك فك بدوره يولد الكلمة الأولى (أو كلمة) الحوار من الآن فصاعدا، وتكوين و "النهاية" _ المحددة للإشارة إلى نهاية عملية فك الجيل نص الحالية.

هذا هو الشكل الأساسي للإطار "Seq2Seq" المعروفة، من أجل تعزيز تأثير Seq2Seq النموذج القائم مع مثل زاوية مباشرة من وحدة فك الترميز شعاع البحث فك ، آلية الاهتمام  فك (انتباه آلية فك التخلص منها) أو ما شابه ذلك لتحسين، ولكن بدءا من بنية الشبكة العصبية، وهناك مثل هذه الهرمية RNN (الهرم RNN)، الهرمي RNN التشفير (التشفير دورة الشبكة الهرمية ) والتحسينات الأخرى. تحسينات لا تعد ولا تحصى، وليس واحد تفاصيل العطاء، ولكن مهما كانت، هي نتيجة التنبؤ الناتج دائما احتمال البعد توزيع حجم المعجم، واختيار من الحاجة مؤشر إلى الحد الأقصى، إلى المعجم فوكب المقابلة كلمة (أو حرف) لاسترداد النتائج.

2. المشكلة: GAN لماذا لا يمكن أن تستخدم مباشرة لتوليد النص

2.1. الأساسيات GAN

GAN للجميع المعنية يجب أن يكون شعبية، وهنا للقيام ببعض مراجعة بسيطة. GAN هيكليا بسيطة بذكاء (على الرغم من أن هناك عمل الكلاسيكية الأخرى مع النزاعات المماثلة فكرة )، هو أيضا من السهل جدا أن نفهم، ونموذج كامل لديها اثنين فقط من مكونات: مولد G، 2 الممي D ... في الواقع، فإن نموذج إنشاء وقتا طويلا، وبالتالي فإن مولد هي أيضا ليست جديدة، ومولد الهدف G هو توليد توزيع العينة كاذبة الأقرب إلى عينة حقيقية، في حين لم يسبق الممي D، ومولد يعتمد على تدريب كل التكرار عودة الفرق بين العينة الحالية وتوليد عينة حقيقية (يتم تحويل هذا الاختلاف إلى خسارة) لتحسين المعلمات، وغيرت ظهور الممي D هذا الممي الهدف D هو تحديد بأكبر قدر ممكن لتوليد العينة وعينة حقيقية، ومن ثم تدريبهم على مولد الهدف G 'لتوليد - الفرق الحقيقي عينة "يصبح الحد الأدنى من القدرة على تحديد ضعف محتمل للالممي D (والذي يتضمن الوقت يتم تحديد الانتاج D من وظيفة الهدف في التدريب). قان نموذج الإطار العام كما هو مبين أدناه:

2.2 الصعوبات GAN وجه عندما تكون البيانات المنفصلة (ما هو بيانات منفصلة؟)

GAN في وقت مبكر من صاحب الورقة الأصلية أن أذكر عندما ، GAN ينطبق فقط على توليد البيانات المستمرة، وبيانات ضعيفة لتأثير منفصلة (بحيث لا اثنين من GAN الأضواء حظة في مجال NLP لم يتمكن من تجاوز نموذج من جيل آخر الاخ الاكبر VAE ). بيانات النص هو الأكثر نوع نموذجي من بيانات منفصلة، حيث ما يسمى منفصلة، لا يعني: كلمة النص لتكوين كلمة، أو أن معظم إطار الجيل النص الشعبي، مثل Seq2Seq، هي أيضا بكلمة (أو فردي الأحرف) التي تم إنشاؤها. لأنه حتى مع غير تعميم الإنترنت تكون الأحكام ولدت مرة واحدة شكلت، لا يمكن تجنب عواقب "بيانات منفصلة"، المعنى الحقيقي للشبابي اللوم آسف الجهل، وبيانات منفصلة، ونحن بحاجة إلى نقاش حول استمرارية البيانات. بيانات الصورة هو البيانات المستمرة نموذجية، وبالتالي GAN يمكن أن تتولد مباشرة إلى صورة واقعية. علينا أولا أن نلقي نظرة على شكل بيانات الصورة:

يتم تمثيل بيانات الصورة في جهاز الكمبيوتر في مصفوفة، وإذا كانت قيمة العناصر صورة مصفوفة بالأبيض والأسود هي قيمة بكسل أو قيمة الرمادي (علماني آسف، لا أفعل الصورة)، حتى لو كان صورة ملونة، صورة الموتر أي أجر أكثر خطوة لتمثيل القنوات RGB، مصفوفة الصورة عنصر للاختلاف، والذي يعكس بشكل مباشر على قيمة الصورة نفسها سطوع واللون وغيرها من العوامل، وكثير من يتم الجمع بين لتشكيل صورة هذه بكسل، وهذا هو القول ، إلى صورة من مصفوفة صورة، لا تتطلب "أخذ العينات" (أخذ العينات)، مثال أكثر وضوحا: برامج الرسم في لوحة، كما هو مبين أدناه، انتقاد لك فقط على لوحة، قد تكون بيانات الصورة بشكل كبير يشعر الخصائص التفاضلية.

بيانات النص لا يمكن أن تكون هي نفسها، لا يعرف الطلاب النص، على افتراض أن لدينا قاموس المرادفات (المفردات) حجم 1000، ثم في كل مرة تظهر كلمة المقبل نتوقع أن يحصل هو الساخنة واحدة من ناقلات، المتجهات لديها 9990، 1 هو واحد فقط، وهذا واحد يمثل كلمة المعجم. ومع ذلك، فإن الفجوة الحقيقية هي أنه في كل مرة نستخدم نتيجة مباشرة لأيا كان المصنفات شبكة أو الحصول على العصبية، هو التوزيعات الاحتمالية 1000 الأبعاد، بدلا من أن تكون مجرد جيدة هو الساخنة واحدة لفي المتجهات، حتى مع وجود softmax الإخراج، على الأكثر، وحصل فقط على أبعاد كبيرة جدا، وأبعاد المتبقية صغيرة خاصة، والانتقال إلى هذا الإخراج ثم واحدة ساخنة المؤشر متجه المقابلة لكلمة الاستعلام من المعجم، مثل وتسمى عملية "أخذ العينات"، عادة، نجد أن قيمة الحد الأقصى الذي مجموعة وهي 1 و 0.

تستند الأساليب الأمثل الحالية في معظمها على التدرج الشبكة العصبية (التدرج القائم)، والكثير من الأدب أن يقول: GAN في مواجهة بيانات منفصلة، وشبكة لا يمكن تحديد التدرج العودة انتشار (BP) لإنشاء شبكة. كانت هذه الجملة ولذا فإنني سوف ننتظر لنسمع ضبابي، قد ترغب في تغيير وجهة فهم، ونحن نعلم، وأساليب تحسين القائم على التدرج يعني عموما شيء من هذا القبيل، معلمات التوليف (الوزن) الشبكة، وإلقاء نظرة على نتائج الناتج النهائي لم تصبح أفضل، ونحن لم نصل أفضل الأحوال.

لكن الممي D هو النتيجة التي حصل عليها بعد أخذ العينات، وهذا هو، بعد أن صقل المعلمات، حتى لو كان الناتج softmax الأمثل قليلا، مثل المثال أعلاه، يجب أن تكون النتيجة الصحيحة الثالث من انتاجها قبل الأخيرة يصبح 0.65 من 0.85، ويصبح ولاية ثالثة 0.32 من 0.12، ولكن بعد أخذ العينات، خرج نتيجة مولد أو G بالضبط كما كان من قبل، وإعادة إدخال نفس الجواب على الممي D مرة أخرى، يتم تحديد هذا D يعطي والمقيم لن يكون له معنى، وتدريب ومولد G يفقد الاتجاه.

يقول بعض الناس، لذلك من الأفضل أن توجه كل لتناول الطعام الممي D النتائج السابقة أخذ العينات، وهذا هو، وإخراج softamx التوزيع، وبالمثل، لا يكون مشكلة كبيرة. نعود إلى المبدأ الأساسي للGAN والعقل الممي D، الذي يخضع للتدريب من أجل تحديد دقيق لعينة وتوليد عينة حقيقية، ثم تكون العينة لتوليد التوزيع الكامل من الكسور العشرية تعويم، والعينة الحقيقية هو ناقل الساخنة واحد، الممي D من السهل أن "الغش"، أنه ليس لديه لتحديد ما إذا تم إنشاؤه توزيع أقرب إلى توزيع صحيح، فإنه يحتاج فقط لتحديد التوزيع ليس بالإضافة إلى 1، والباقي 0 على ذلك. حتى ما إذا كان توزيع العينات من قبل، بغض النظر عن مدى قرب لالحقيقي المتجهات الساخنة واحد، طالما أنها لا تزال التوزيع الاحتمالي يمكن أن يكون يتم الكشف D للتمييز بسهولة.

وبطبيعة الحال، وشرح أسباب المذكورة أعلاه على الرياضيات، تذكر 2.1 مهرجان وقت، يرجى ملاحظة أن فقدان العينة ولدت من ما هي المعايير التي يمكن قياس؟ نعم، وهذا هو JS الاختلاف،

في الواقع، هناك ضعف في تطبيق (المرجع )، والتي عادة ما يمكن تطبيقه فقط على اثنين تداخل متبادل التوزيعات (التداخل)، وعندما تواجه مع اثنين من توزيعات P و Q لا تداخل، التي JS الاختلاف:

نحن فكر مرة أخرى، إلا إذا خرج ويمكن softmax (وبطبيعة الحال لم يكن هذا ممكنا)، ما العينات الحقيقية توزيع العينة يسمح للعينة حقيقية بالضبط نفس توزيع الحرارة واحد (ناقلات الساخنة واحدة) جيل من التداخل ذلك؟ لذلك، بغض النظر عن كيف باني التدرج الأمثل القائم، وتوزيع الناتج الحقيقي والتوزيع

 هو دائما

، مولد G تدريب معنى ذلك.

3. نظام الانتقال: لتوليد النص المباشر لتحسين GAN

لحل معضلة في وجه من البيانات المنفصلة GAN، والطريقة الأكثر مباشرة لحساب فكرة عن بعض GAN الداخلي صقل، وقد أظهرت هذه الحسابات الداخلية لتحسين GAN المباشرة أيضا بعض التأثير، فإنه مباشرة وراء GAN ، تطبيق سلس لتوليد النصوص والبيانات المنفصلة أخرى تجلب الأمل. بعد ذلك، موجز مقدمة من اثنين من العمل ذات الصلة .

3.1. اسرشتاين-الاختلاف، هدايا إضافية

اسرشتاين GAN (المشار WGAN)، ويبدو أن نفوذها قد وصلت إلى درجة عالية من GAN الأصلي، فإن البلاد بحاجة أيضا تأثير كبير على بلوق لها - "مثير للدهشة اسرشتاين GAN" ، ولكن يراقب قبل هذه الورقة، ولكن أيضا يوصي الورق "و-GAN" آخر ، واستخدام ورقة Fenqie عير المترافقة (Fenchel المترافقة) طبيعة إثبات أي

ويمكن استخدامه كما في GAN الأصلي

 (أو

) البديل. تعريف و-GAN على النحو التالي:

صيغة

ويطلق عليه وظيفة و يجب أن تستوفي الشروط التالية:

من السهل أن نرى،

أيضا

A، وصف و-GAN يوفر مجموعة واسعة من عشرات

، تلاه سهم تحسينات على طول في هذا الاتجاه جلبت احتمالات لا نهاية لها لGAN.

اسرشتاين GAN GAN هو أيضا من التحسينات على استبدال

 هذه التحسينات زاوية GAN، إشارة قد تكون كبيرة ومفصلة وثيقة الجمال ، بشكل عام، يستخدم WGAN فريدة من نوعها اختلاف - "البلدوزر -Divergence"

وتعتبر توزيعات اثنين في اثنين من الجرافات، ويتم احتساب اختلاف المسافة الإجمالية من أجل نقل اثنين من أكوام من التربة توغلت في نفس الشكل المطلوب. FIG يلي:

استعمال

 تدريب مقارنة GAN GAN الأصلي لديها عملية "تطورية" أكثر وضوحا، وبعبارة أخرى، WGAN مقابل المزيد من التدريب لتسليط الضوء من تدريجيا "سيئة" إلى "جيد" و في GAN وخلال هذه العملية. من ما سبق 2.2 مهرجان، ونحن نعلم JS الاختلاف في مواجهة حالة اثنين من غير متداخلة التوزيع "غير طبيعي" يحدث، الحسابات

 ، عملية التدريب GAN، أيضا، وربما لعملية تدريب طويلة، JS الاختلاف قيمة الإرجاع

 عندما تصل إلا إلى نقطة حرجة معينة، وسوف الأمثل فجأة لتحقيق نتائج قريبة من القيمة المثلى، و اسرشتاين الاختلاف سيكون قيمة الإرجاع الكثير من التنعيم.

الآن اسرشتاين الاختلاف قادرة على التغلب JS الاختلاف ضعف، واستخدام فحينئذ اسرشتاين GAN مولد امتصاص المباشر G  طبقة الناتج softmax من أحد الساخنة المتجهات المتجهات توزيع عينات حقيقية، من خلال الممي D  التي تم تحديدها، حتى لو كان الممي D لم تكن كافية غبية ليكون حقا "خادعة"، ولكن الناتج المولد في كل مرة أقرب إلى عينة حقيقية من "التقدم" قادرة على العودة تنتقل أخيرا، وبالتالي ضمان التدريب على القتال للبيانات منفصلة يمكن أن تستمر. لكن اسرشتاين GAN وترد GAN الأصلي لنظرة أكثر طموحا في أهمية تحسين، وليس التركيز على معالجة البيانات التجريبية منفصلة عن الجيل النص، وما إلى ذلك، وإنما في وقت لاحق "تحسين تدريب اسرشتاين GANS" على وجه التحديد النص التجريبي الذي تم إنشاؤه يمكن أن ينظر إليه من نتائج، ولدت WGAN النص، وإن كانت أقل بكثير من الوقت الحالي الأثر الأكبر الماشية X الجيل النص، ولكن على أية حال يمكن أن تتولد في وحدات من حرف في بعض نظرة بعض الشيء العادي قليلا النتائج، على النقيض من ذلك، GAN توليد النتائج لتوليد النص تنهار بشكل واضح.

3.2. جامبل-softmax، أخذ العينات من التناظرية softmax

ورقة أخرى من جامعة وارويك، وجامعة كامبردج العمل + GAN لتحسين مركز الثقل للبيانات منفصلة إنشاؤها على إخراج تعديل softmax هذا الصدد. كما 2.2 القسم، عمليات أخذ العينات

Softmax تعمل على التوالي استخراج الناتج منفصلة إلى إخراج شكل، مما أدى إلى الناتج النهائي أخذ العينات ليس للاختلاف، تشكل أكبر حجر عثرة للبيانات منفصلة ولدت GAN، نظرا لعدم أخذ العينات الوقت، خرج لا تتداخل مع التوزيع الحقيقي، مما أدى إلى JS الاختلاف البقاء في قيمة ثابتة

، وتستخدم إذا الكلمات أخذ العينات، خرج الطبيعي للبيانات منفصلة ويسبب التدرج العودة-نشر الحواجز الطبيعية.

وما دام الأمر كذلك، والكتاب وجدت أن نسخة عالية يمكن أن softmax المؤثرات الخاصة أخذ العينات، بحيث أن كلا من الانتاج المباشر softmax ضمان التداخل مع التوزيع الحقيقي، ولكن أيضا إلى تلف تجنب لعملية أخذ العينات الذي يميز اختلاف. هذا هو "-softmax جامبل"، قد سبق تطبيقها (جامبل-Softmax) جامبل-Softmax إلى العلامة منفصلة إعادة توزيع (القاطع Reparameterization)، في عملية أخذ العينات الأصلية،

يتم تحويل وظيفة softmax إلى شيوعا انتاج ناقلات الساخنة واحدة:

وجامبل-Softmax حذف

 +

 يمكن إعطاء هذه الخطوة مباشرة لإخراج العملية ما يقرب من أخذ العينات:

الجوهر هو "معلمة انقلاب" التي

 عندما

عندما توزيع ما يعادل الناتج من الفورمولا

+

 أخذ العينات توزيع معين، وعندما

 عندما، والناتج هو قريب من صيغة موزعة بالتساوي، و

 لأن هذا هو خاص softmax والمعلمات شديدة، نظرا لقيمة أولية كبيرة، ويصبح أصغر تدريجيا من خلال التعلم والتدريب، وعلى مقربة من 0، وهذا جزء من وثيقة قراءة مفصلة .

يتم تنفيذ محاولات تجريبية لاستخدام ورقة فقط مع جامبل-Softmax GAN لتوليد طول ثابت خالية من السياق النحوي 12 من التسلسل، وتدريب غير مرئية انهيار GAN، في بعض الأمثلة كانت أيضا تأثير واقعي إلى حد ما.

لذلك، من أجل إدخال تحسينات GAN مباشرة لتوليد النص، على الرغم من أنها حققت بعض النجاح، ولكن لا يزال من المقاومة دولة مثالية والطريق طويل، وليس هناك طريقة أفضل للقيام بذلك؟ وبطبيعة الحال!

4. RL في دور GAN الجيل النص لعبت من قبل

4.1. التسليح التعلم عن القيل والقال القيل والقال

تعزيز التعلم (تعزيز التعلم، RL) بسبب نهجها الطليعية للتعلم، وهذا هو التعلم بشكل أفضل تحت إشراف ومؤتمتة بالكامل من السهل جدا لتنفيذ، ومنحنى التعلم طويل جدا في العديد من التطبيقات العملية، إلا أنها لم تصبح محط اهتمام كبير، حتى العودة الكلب يبدو، فقد استقطب اهتمام العديد من الناس.

لأنه هو الحل الأمثل، وأعتقد مباشرة جدا باستخدام أساليب تحسين التدرج (التدرج) على حلها. بطبيعة الحال، في تعزيز التعلم، نريد أن نحصل عليه هو الاستراتيجية الأمثل

سوف تكون هذه العملية في مجال تعزيز التعلم في كثير من الأحيان نسمع التدرج السياسة . نحن RHS

وأشار المدى على أنها منفصلة

أنها تمثل مكافأة عندما نموذج الحوار المطلوب للعثور على المعلمات الأمثل التي تم الحصول عليها. في الوقت الحقيقي به، ووضع الجملة الاستجابة لها $ N الاحتمالات $، ثم كل حوار مجموعة

يمكن اعتبار احتمال موزعة بانتظام، فإنه يمكن أيضا تعديل على النحو التالي:

ونتيجة لذلك، فإن مركز الجاذبية الأمثل التدرج تتحول إلى الجيل احتمال للحوار، وهذا يعني، من قبل المعلمات

 النموذج المحدث سوف مكافأة يميل إلى زيادة احتمال وقوع محادثة ذات جودة عالية، ومعاقبة فإن نموذج تميل إلى تقليل احتمال حدوث حوار ذات نوعية رديئة.

منذ AlphaGo يجعل تعزيز التعلم دخلت فجأة الرأي العام منذ ذلك الحين، وأكثر الدراسات النظرية لتعزيز التعلم تلعب منصة تجريبية رئيسية، وهي ليست غير معقول، وتعزيز التعلم اشتقاق النظري يبدو يجيد منطقية، ولكن أكبر ضعفه هو أن ويبدو، مكافأة مكافأة من حكم الإنسان على أساس، لذلك مجرب انتظر في الجزء الأمامي من يبصق الكمبيوتر من نتائج النموذج لتكون غير واقعية لا تتوقف التهديف، ونظام لعبة فقط قد يعطي سجل الهدف الصحيح (فوز / خسارة أو نتيجة مباراة). مرتكز على RL الحوار ولدت كما تواجه هذه المشكلة، استخدم الباحثون تطبيق مماثل AlphaGo (AI لاعبي الشطرنج) - اثنين من الروبوتات تعمل في وقت واحد، بحيث أنفسهم يتحدثون مع بعضهم البعض، في نفس الوقت، واستخدام ما قبل التدريب (تدريب ما قبل) جيدة وبالنظر إلى "نقاط" على نقاط مكافأة لكل حوار مجموعة

 ، نبذة عن المدربين قبل "بتسجيله" R، أن يستند إلى التطبيق الفعلي وDIY احتياجاتهم الخاصة.

يشعر قليلا RL  تأثير ChatBot:

4.2. SeqGAN وشرطي SeqGAN

أما وقد قلت ذلك في وقت سابق، بشرت أخيرا إلى ذروتها: RL + GAN لتوليد النص، SeqGAN موقف أسلافه RL  على الكتف، يمكن القول الجيل النص إلى GAN لتوليد نص تحفة. على الرغم من أن قضى فوق الكثير من طول حول RL  آليات مختلفة ChatBot، في الواقع، بل هو من أجل تمهيد الطريق. تخيل نستخدم الممي GAN D كتعزيز مكافأة التعلم مصادر المكافأة، على افتراض طول المطلوبة لتوليد سلسلة من النص T، وقيمة الجوائز لتوليد النص

ويمكن تحويل حساب في الشكل التالي:

حتى مولد G ولدت ما يكفي النص إلى الشيء الحقيقي عندما يحين الوقت يتم تحديث عند الحكم الجديد من التدريب. في العام، والممي D توليد سلسلة من عشرات اللعب الذي يحدد كلا من احتمال تسلسل الحقيقي للعينات، وفقا لنظرية GAN الأصلية، الممي D يتم إعطاء النتائج للتعرف على عينات حقيقية / وهمية 0.5، مولد التعليق G عندما ولدت عينات كافية زائفة، ثم إذا كان في المهام المذكورة أعلاه، لتوليد عينة يتم تحديد عبت مرارا وتكرارا هي قريبة إلى 0.5 أو درجة أعلى، أي الممي وصف D الحاجة إلى إعادة تدريب. بعد القيام حقيقية للراحة، وعام التدريب الانتظار جولات مولد تدرب مرة واحدة المصنفات.

وهناك تطبيق آخر من GAN --Conditional مجال توليد صورة GAN السحر ، الظروف لGAN GAN SeqGAN المقترحة لتوليد حوار (Chatbot) الانتهاء الفراش المهم، الفراش أيضا أن تلعب دورا ، بحكم تعريفها يتم إنشاؤها على أساس شروط معينة بعض الأشياء، وفقا لظروف العمل كما هو موضح في إدخال النص، يولد صورة المقابلة، على سبيل المثال:

يمكن فهم الحوار وتوليد نفس النمط، كشرط على الحوار، كان واحد القادم البيانات استجابة إلى أن ولدت، والفرق الوحيد هو الحاجة إلى توليد بيانات النص منفصلة، وساعدت هذه المشكلة، SeqGAN بها. وباختصار، أعطيها اسمه: شرطي SeqGAN . بحسب 4.1 الاشتقاق من هذا القسم والقسم، شرطي SeqGAN التدرج الأمثل يمكن أن تكون مكتوبة على النحو التالي:

ليس من الصعب أن نرى، مع هذه الصيغة 4.1 قسم التدرج ليست سوى كلمة واحدة، إلا أن مكافأة "نقاط" على النتيجة التي قدمها

 وحل محله الممي أعتقد أن احتمال الحوار توليد من النتائج المباشرة

. قد يبدو الفرق الصغيرة، في الواقع، RL + GAN  تقنيات الجيل النص تستند فقط على RL تكنولوجيا الجيل النص مختلفة أساسا: في حوار تعزيز التعلم ولدت في الأصل، على الرغم من أن استخدام الحديث AI لبعضها البعض، ومجموعة jugle التهديف، ولكن هذا هو jugle قبل المدربين في عملية التدريب للحوار بين النماذج التغييرات لا تحدث. RL + GAN الجيل النص وحتى نموذج الحوار هو مختلف، الممي D ومولد G سوف التحديث التدريب بالتناوب، والتحول، وبالتالي يعطي نقاط المكافأة الممي D هنا هو دينامية (دينامية).

استخدام RL + GAN تعزيز آليات مكافأة التعلم و التدرج السياسة  التكنولوجيا، وتجنب بمهارة عندما GAN منفصلة التدرج البيانات لا يمكن مواجهة مشكلة BP، في طريقة استخدام التعزيز تعلم باني التدريب G الفجوة، ولكن أيضا استخدام أسلوب الأصلي للتدريب الممي ضد التعلم D . في نتائج مميزة شرطي SeqGAN نموذج للحوار والتدريب RL + GAN للحصول على مولد كثير من الأحيان يمكن إعادة بعض الجواب واقعية حقيقية مماثلة (أنا حقا مجرد وثيقة ضعاف إلى "وادي الخوف" يشعر).

تفاصيل بعض تمتد +

أعلاه، إلا أن RL + GAN المبادئ الأساسية للجيل النص، ونحن نعلم أن العديد من الشكوك GAN جود أي مسار في التشغيل الفعلي، من أجل تحسين تأثير جيل النص GAN قدر الإمكان، ثم لاستكشاف المزيد في GAN حقل محتمل للNLP، هناك بعض التفاصيل جديرة بالملاحظة.

5.1 مكافأة الأساس :. التحيز على قيمة المكافأة

5.2 البندان :. شخص واحد عند الخطأ

ويمكن الاطلاع على القارئ حذرا في SeqGAN الصيغة الأمثل لحساب مكافأة الاشتقاق من الممي D توليد نقاط مكافأة تعطى عينة هو في الواقع عملية توليد تسلسل النص متوافق، كلمة كلمة ولدت صيغة مشتقة قبل أن تتمكن من رؤية عرض مسرحي عن قيمة الجوائز تسلسل جزئيا من النص ومن ثم حساب متوسط المبلغ. ومع ذلك، في التجارب الأولية، ويتم احتساب التدرج الأمثل وفقا لقيمة النهائية للجوائز المشتقة، الممي D سيتم تدريبهم لتوليد درجة الجملة لتقييم النتائج، في هذه الحالة، الممي D التسجيل لتوليد تسلسل في كل رمز يساوي في الوجود، أن يجزيك مكافأة (يمكن اعتبار قيمة المكافأة على النحو نفسه)، لمعاقبة معاقبة معا، وهذا النهج سوف يؤدي إلى نتيجة، نظرة على المثال التالي.

على سبيل المثال، هناك مثل مجموعة الحوار (التي تحتوي على إجابات حقيقية وتوليد الأجوبة):

السؤال = Real_answer = Fake_answer =

ومن الواضح أن الممي D العلبة الأخير بسهولة تحديد الإجابة خاطئة، لا بد أن تعطي مكافأة منخفضة جدا هي نقطة تستحق، ولكن مقارنة دقيقة بين الحقيقية / الجواب كاذبة يمكن العثور عليها في اثنين، الكلمة الأولى "أنا" هو في الواقع كلمة والعينة الأولى حقيقي نفسه، والحرف الأخير "." في الواقع، فإنه لا يمكن أن يصب، فهي في الواقع ليست خطأ، والخطأ هو في الحقيقة "لا" و "معرفة" هاتين الكلمتين، ولكن للأسف، يحدد الممي أن fake_answer  الجواب الشاملة هي كاذبة، وشروط الأبرياء الأصلية في "I" و "." يجب أن يعاقب جنبا إلى جنب مع تحديد درجة منخفضة.

5.3 MC البحث والممي عن فك الشفرة جزئيا متواليات :. الاختيار ودقة وسرعة

5.4 المعلم إجبار: قدوة للمولد

قبل البدء في شرح المعلم إجبار SeqGAN أول من مساعدة الناس ببساطة أخذ عن نوعين من وضع RNN المدى: (1) الحرة تشغيل اسطة؛ (2) مدرس-إجبار وضع ... والأول هو طبيعي وضع التشغيل RNN: يتم استخدام الدولة من الناتج كمدخل للدولة المقبلة، وهناك خطر من ذلك، لأنه في الأيام الأولى، وأمام حالة التدريب RNN إذا كان نتيجة سيئة للغاية، لذلك سوف تتأثر وراء كل دولة، وبالتالي فإن النتيجة النهائية هي سيئة للغاية هو عزوها الصعب على مصدر الخطأ وقعت، و، لا يتم استخدام نهج وضع إجبار المعلم الأخير لكل ناتج كمدخل على الدولة في ظل حالة ، ولكن استخدامها مباشرة كمدخل للدولة القادمة الموافق الحقيقة الأرض.

خذ نموذج Seq2Seq، على سبيل المثال، نفترض أن الناتج الإيجابي إلى الثالث، الجيل الرابع جاهز:

المدخلات = الناتج = التسمية =

سوف تكون تحت فك إخراج الخطأ الثالث وضع الحرة تشغيل الانتاج = الصورة " البند الثالث (مؤشر يبدأ من 0) كمدخل للدولة المقبلة، ووضع المعلم إجبار، سوف فك تصحيح العينات تسمية = 'ف' كإدخال للدولة القادمة. وبطبيعة الحال، وبذلك أيضا لديها عيوبها، لأن تعتمد على بيانات البطاقات، عندما التدريب سوف يكون لها نتائج جيدة، ولكن في وقت الاختبار لا يمكن أن تكون معتمدة من قبل الحقيقة الأرضي من. أفضل نتيجة هي أن الوضع الحرة تشغيل السلوك تدريب بالقرب من وضع المعلم-تجبر قدر الإمكان، أستاذ إجبار استخدام محاولة GAN لتحقيق هذا الهدف.

وبطبيعة الحال، وهذه هي بجانب النقطة، نعود إلى المعلم-إجبار وضع الدافع الأولي: تدريب (التكرار) في وقت مبكر RNN ضعيفة جدا، وبالكاد تعطي نتائج جيدة ولدت (أي كسر سقوط كسر الري، خرج توليد النفايات التأثير وراء الدولة)، يجب أن نعتمد على الحقيقة على الارض اصطحب قسرا بعيدا، ويمكن ببطء على الطريق الصحيح.

SeqGAN أيضا هناك مشكلة، ومولد البداية G ضعيفة جدا، حتى بعد كمية معينة من قبل المدربين، وتوليد ما يقرب من النتيجة ليست جيدة، ثم كانت النتيجة سيئة للالممي D فقط عودة حتمية إلى الأقل مكافأة (العقاب)، ومولد G لا يمكن إلا أن يستند التدريب هدفا لتحسين الممي لا يمكن أن يسترشد مثال جيد، ولا تعرف أبدا ما هو نتيجة جيدة، والنتيجة الحتمية هي حلقة مفرغة. وبالتالي، فمن الضروري لتوليد التدريب في SeqGAN G التوجيه عينات حقيقية، وهذا هو، اقول باني: "ما هو نوع من العينات يستحقون مكافأة درجة عالية"

5.5 ممثل الناقد :. GAN على نطاق أوسع؟

وشبه استعراض نوع المقالات في DeepMind من ، وتحدث عن نموذج --Actor-الناقد تعزيز التعلم خاص آخر، وتحليل الروابط بين هذا النموذج وGAN.

نحن أول نظرة على الممي GAN D والمولدات الكهربائية G دالة الهدف الأمثل:

اسمحوا لي أن أقول تعزيز التعلم، والتعلم التعزيز في التكرار القائم على سياسة واستراتيجية العمل الحالية من خلال محاولة الحصول على مكافأة من البيئة ومن ثم تحديث هذه السياسة. هذه العملية هي فعالة جدا في بيئة اللعبة المختبر، لأن اللعبة لديها نظام مغلق وبيئة واضحة، يمكن أن يعطى بثبات بموضوعية وفقا لمختلف مكافأة المراسلات الواردة العمل، ولكن في واقع الحياة، والكثير من الوقت وبشكل واضح ليست مغلقة بيئة، بالنظر إلى ما الإجراء الذي ينبغي مكافأة في حد ذاته ليست دقيقة، لا يمكن تحقيقه إلا من خلال وضع التهديف DIY ومن الواضح أن من الصعب جدا القيام مثالية الحالات في العالم الحقيقي نموذج تتغير باستمرار.

وسيتم وصف GANS نموذج كشكل خاص من ممثل الناقد، ومقارنة كل من خصائص كل منها وتقنية محسنة لاحقة تكييفها في حالة من الاثنين معا. تخيل، لأن التكنولوجيا GAN تعزيز التعلم للمساعدة في حل مشكلة انتشار التدرج في بيانات منفصلة، ثم هو نفسه من أجل تعزيز التعلم الخصومة ممثل الناقد يوفر الجيل النص هو احتمال آخر.

5.6 IRGAN :. استرداد نموذجين المتنافسة

IRGAN تم نشر هذا العمل في 2017 مكتب المفتش العام، من وجهة نظر المؤلف وجهة نظر أنها ليست متجهة إلى تشكيلة من أعمال غير عادية، والتي سوف تحتوي على SeqGAN الزهر الأصلي، والكاتب وتوليد الأفكار ضد الشبكات المستخدمة في استرجاع المعلومات ، ولكن لا تلتزم بالإطار GAN الكلاسيكية التقليدية، ولكن استخدام نموذج في مجالين IR مختلفة من الشركات الكبيرة بالفعل موجودة: صيغة نموذج IR  و التمايز نموذج IR .

IR الهدف صيغة النموذج هو لتوليد استعلام - >  وثيقة الصلة التي وزعتها توزيع نتائج البحث عودة المتعلقة بكل مساهمة الاستعلام؛ والتمايز يبدو نموذج IR أشبه المصنف من الدرجة الثانية، وهدفه هو ممكن للتمييز الاستعلامات المرتبطة < query_r، document_r > ولا علاقة لها الاستعلام < query_f، document_f > للاستعلام معين على < الاستعلام، وثيقة > ، IR نموذج التمايز يعطي درجتين من جمعية الزوج الاستعلام.

A IRGAN الميزة الرئيسية هي ضد نموذج من المجلسين كل نوع من نموذج IR، وذلك بعد التدريب على القتال، لا يهم من الذي، وهناك أمل لاختراق عنق الزجاجة الأصلي. والكتاب أيضا عن التدريب IRGAN تجتمع لدينا عينات المرتبطة المرتبطة مع العينة، سواء المرصود أو غير ملحوظ توازن ناش قيام بعض المناقشات، على الرغم من أنه من الصعب الحصول على صلة حقيقية ما يسمى في توزيع تطبيق البحث الحقيقي، ولكن يعتقد المؤلفون، دائما يتم تحديد IR انتاج نموذج وتوليد الناتج المقابلة من طراز IR هناك قوة علاقة إيجابية، ثم ولد أيضا من ورقة غامضة قليلا الطفو القياس والسحب على وزن العائمة في نهاية المطاف تصل إلى حالة التوازن.

خاتمة

التطور السريع لهذه المنطقة، وربما في الوقت الذي ننهي هذا المقال، وهي مجموعة تعمل جاهدة للخروج، ولكن النتيجة النهائية هي بالتأكيد أكثر من ذلك، أنا لا كيف جيدة في النهاية، قد تضطر إلى الانتظار لGAN بالنسبة لي، انها جلبت لنا نهاية رائعة.

اعتراف

شكر خاص المعلمين جامعة CHANG تايوان تعليم حية ، والتي جلبت مساعدة كبيرة بالنسبة لي لفهم في معرفة نقاط متعددة.

إشارة

وYongcan CSDN. جيل النص المرح . Http://geek.csdn.net/news/detail/131622.

أشوين، K، فيجاياكومار، مايكل، كوكسفيل، Ramprasath، R، Selvaraju، تشينغ، والشمس، ستيفان، لي، ديفيد، كراندال، الثمن في سعي، باترا متنوعة شعاع البحث :. فك حلول متنوعة من نماذج العصبية تسلسل . Https://arxiv.org/abs/1610.02424v1.

منه، تشانغ، لونغ، هيو، فام، كريستوفر، D، مانينغ. الفعالة النهج لآلة العصبية الترجمة مقرها في-tention- . Https://arxiv.org/abs/1508.04025.

W. تشان، N. Jaitly، Q. لو وO. Vinyals، "اسمع، حضور وتوضيح: شبكة العصبية لكبير مفردات التخاطب التعرف على الكلام"، ICASSP، 2016، https://research.google.com /pubs/pub44926.html.

جى وى، لي، منه، تشانغ، لونغ، دان، Jurafsky. A الهرمي العصبية Autoencoder لالاسمية-agraphs والوثائق . Https://arxiv.org/abs/1506.01057.

تشنغ Huabin من PM إلى GAN - LSTM الأب 22 عاما من شميدهوبر عبر Yuannian . Https://zhuanlan.zhihu.com/p/27159510؟utm_source=zhihu&utm_medium=social.

يورغن، شميدهوبر. رموز التعلم مضروب من قبل التنبؤ تقليل . العصبية الحساب، 1992، 4 (6): 863-879،

إيان، J، غودفلوو، جان، بوجيه-آبادي، مهدي، ميرزا، بينغ، شو، ديفيد، وردة-فارلي، Sherjil، عزير، هارون، كورفيل، Yoshua، Bengio. الشبكات الخصومة التوليدية . Https://arxiv.org/abs/1406.2661v1.

صموئيل، R، بومان، لوقا، اللاعب Vilnis، أوريول، Vinyals، أندرو، M، داي، رافال، Jozefowicz، سامي، Bengio. توليد الجمل من الفضاء المستمر . Https://arxiv.org/abs/1511.06349.

تشنغ هوا بن. مثير للدهشة اسرشتاين GAN . Https://zhuanlan.zhihu.com/p/25071913.

Ishaan، Gulrajani، فاروق أحمد، مارتن، Arjovsky، فنسنت، دومولين، هارون، كورفيل التدريب تحسين من اسرشتاين GANS . Https://arxiv.org/abs/1704.00028.

مات، J، Kusner، خوسيه ميغيل، هيرنانديز، لوباتو. GANS لمتواليات من المتقطعة ايلى-الإدلاء بالبيانات مع توزيع جامبل-softmax . Https://arxiv.org/abs/1611.04051.

مارتن، Arjovsky، Soumith، Chintala، ليون، Bottou. اسرشتاين GAN . Https://arxiv.org/abs/1701.07875v1.

سيباستيان، Nowozin، اللاعب Botond، Cseke، ريوتا، توميوكا و-GAN :. التدريب المولدة العصبية أخذ العينات باستخدام تباين الاختلاف تقليل . Https://arxiv.org/abs/1606.00709.

اريك، جانغ، شى شيانغ، قو، بن، بول. القاطع Reparameterization مع الصمغ-بيل-Softmax . Https://arxiv.org/abs/1611.01144.

جى وى، لي، ويل، مونرو، آلان، ريتر، ميشيل، مخزن، جيان فنغ، غاو، دان، Jurafsky. العميق التسليح التعلم لتوليد حوار . Https://arxiv.org/abs/1606.01541v3.

Lantao، يو، ينان، تشانغ، يونيو، وانغ يونغ يو SeqGAN :. شبكات تسلسل المولدة ADVER-sarial مع التدرج السياسة . Https://arxiv.org/abs/1609.05473.

المهدي ميرزا، سيمون، Osindero. شرطي المولدة الخصومة نتس . Https://arxiv.org/abs/1411.1784.

سكوت ريد، زينب، Akata، Xinchen يان، Lajanugen، Logeswaran، بيرنت، Schiele، Honglak ولي. المولدة الخصومة النص إلى صورة التجميعي . Https://arxiv.org/abs/1605.05396.

التعلم جى وى، لي، ويل، مونرو، Tianlin، شي، سيباستيان، جان، آلان، ريتر، دان، Jurafsky. ADVER-sarial للحوار الجيل العصبية . Https://arxiv.org/abs/1701.06547.

الفضة، D؛ هوانغ، A؛. ماديسون، C. J؛. Guez، A؛. Sifre، L؛ وآخرون 2016. اتقان لعبة

ومن بين الذهاب مع الشبكات العصبية العميقة والبحث عن شجرة الطبيعة 529 (7587): 484-489،

ويليامز، RJ وZipser، D. (1989). خوارزمية التعلم للباستمرار تشغيل الشبكات العصبية المتكررة بشكل كامل. العصبية حساب (1)، (2)، 270-280، ABS / 10،1162 / neco.1989.1.2.270.

أليكس، الحمل، Anirudh، غويال، يينغ، وتشانغ، Saizheng، تشانغ، هارون، كورفيل، Yoshua، Bengio أستاذ إجبار :. خوارزمية جديدة لشبكات المتكررة التدريب . Https://arxiv.org/abs/1610.09038v1.

ديفيد، PFAU، أوريول، Vinyals. توصيل المولدة الخصومة الشبكات وطرق ايه سي تور-الناقد . Https://arxiv.org/abs/1610.01945.

يونيو، وانغ، Lantao، يو، ينان، تشانغ يو قونغ، يينغ هوى، شو، Benyou، وانغ بينغ، تشانغ، ديل، تشانغ IRGAN :. لعبة مينيماكس لتوحيد المولدة والتمييزية استرجاع المعلومات نماذج . Https://arxiv.org/abs/1705.10513v1.

Hungyi، لي. آلة التعلم، وبعد ذلك ديب والهيكلية . Http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html.

السعي لتحقيق الفردانية، ليست رخيصة! I76700K + 1070 لعبة وحدة

الجهاز لا تعلم: إيان غودفلوو، مستوى GAN الخاص I SCORE

الكمبيوتر أخبار نانجينغ 2017 اجتماع الخريف سيتم تجميع التوظيف للقراءة، مرحبا!

الجهاز لا تعلم: أشياء منغ باني: كيف تصنع GAN باستخدام أربع قطط خريطة

"ألف وان النور" الجماعة جولة تضيء الهضبة المغطاة بالثلوج: تجديد القرية الأولى الانتهاء

الخصوصية أمر مهم للغاية! هذه الترميز الطريقة التي ستفعل؟

وجدت مربع تحت السرير على حدة لمعرفة ما هو مهم والأحمر

لعبة إغراء 7.1، واستعراض سماعة لوجيتك G433

هي قدرة 16G، والذاكرة، وشراء عدد قليل من الأنسب؟ بالطبع، ليس لاحد ثنائي نينغ

خط 7nm AMD للهجوم: 63 النواة الصلبة على Dacentrurus 12 المواضيع

إلى المضيف المثبتة حديثا: يمكن أن تستقيم فيديو لعدسة الشاسيه الجانبية كبيرة، تبريد التلوث الضوئي

السلطة 350W هي أكثر من كافية، ومجموعة من اختبار استهلاك التيتانيوم