العصبية الترميز الترجمة الآلية - فك جعلت العمارة تقدما جديدا، على وجه التحديد كيفية تكوين؟

شبكة لى فنغ: وكان عنوان هذه المقالة أصلا كيفية تكوين نموذج التشفير، فك الرموز لآلة العصبية الترجمة، من تأليف جيسون براونلي، تعليق النص التي جمعها فريق لى فنغ.

ترجمة / Cuiyue هوى، يميل الورقة الخضراء

تصحيح التجارب المطبعية / الورقة الخضراء العجاف

الترميز لتعميم الشبكة العصبية - فك الهندسة المعمارية، وعلى الترجمة الآلية القياسية جعلت من أحدث نتائج المؤشر، وخدمات الترجمة للقلب الصناعي.

هذا النموذج هو بسيط، ولكن بالنظر إلى كمية كبيرة من البيانات المطلوبة للتدريب، فضلا عن ضبط النموذج في العديد من التصاميم، وكنت ترغب في الحصول على أفضل أداء من الصعب جدا. لحسن الحظ، فقد استخدم العلماء جهاز مقياس جوجل بالنسبة لنا للقيام بهذا العمل ويوفر طريقة ارشادي لتكوين العصبية الترميز الترجمة الآلية - فك نموذج وتوقع تسلسل العام.

شبكة لى فنغ في هذه الترجمة، سوف تتلقى، في الجهاز العصبي الترجمة وغيرها من المهام معالجة اللغة الطبيعية، وأفضل السبل لتكوين ترميز - فك المتكررة الشبكة العصبية مختلف التفاصيل.

بعد قراءة لى فنغ ترجمة شبكة، وسوف تعرف:

  • حققت دراسات جوجل نماذج مختلفة لترميز - فك التصميم، من أجل عزل آثارها.

  • النتائج والتوصيات على عدد من خيارات التصميم، مثل كلمة حول التضمين، فك التشفير والترميز آليات عمق والاهتمام.

  • سلسلة من تصميم النموذج الأساسي، فإنها يمكن أن تكون بمثابة نقطة الانطلاق لسلسلة الخاص بك إلى تسلسل المشروع.

بدء دعونا:

بارك الرياضية

الشبكات العصبية ترميز الترجمة الآلية - فك نموذج

لترميز دورة الشبكة العصبية - فك الهندسة المعمارية، لتحل محل الإحصائي نظام الترجمة الآلية الكلاسيكية القائمة على العبارة، للحصول على أحدث النتائج.

": سد الفجوة بين العصبية آلة نظام الترجمة الآلية الترجمة جوجل الإنسان و"، وجوجل وقد تم استخدام هذا النهج في خدمات الترجمة من Google الأساسية في عام 2016، وفقا لأوراقهم المنشورة.

المشكلة مع هذه العمارة هو نموذج عظيم، تتطلب مجموعات البيانات الكبيرة جدا إلى القطار. ويجري تدريب هذا النموذج لقضاء بضعة أيام أو أسابيع من النفوذ، ويتطلب موارد الحوسبة مكلفة للغاية. لذلك، فيما يتعلق تأثير خيارات التصميم مختلفة من نموذج وتأثيرها على نموذج من المهارات، وقد تم ذلك القليل جدا من العمل.

ديني بريتز، الذي يعطي بوضوح إلى حل. في هم ورقة عام 2017، "الكثير من العصبية لاستكشاف نظام الترجمة الآلية"، وأنها مصممة معيار ينجدي ترجمة المهام نموذج القياسي، نقلا عن مجموعة مختلفة من نموذج اختيار التصميم، ويصف تأثيرها على المهارات. وهم يدعون التكلفة الكاملة لتجربة أكثر من 250،000 GPU الوقت الحوسبة، على أقل تقدير مثيرة للإعجاب.

نفيدكم النتائج التجريبية ومئات من اختبار التباين المدى الموافق القياسية WMT الإنجليزية إلى مهمة الترجمة GPU الألمانية أكثر من 250،000 ساعة. توفر تجاربنا رؤى جديدة والنصائح العملية لإنشاء وتوسيع بنية NMT.

في هذه المقالة، سنلقي نظرة على بعض النتائج من هذه المادة، ويمكن استخدامه لضبط منطقتنا نموذج الشبكة العصبية الترجمة الآلية، وكذلك تسلسل العام لتسلسل نموذج.

على الترميز - مزيد من المعلومات خلفية فك آليات الهندسة المعمارية والاهتمام، راجع المقالات التالية:

التشفير فك-قصيرة الأجل شبكات الذاكرة طويلة

الاهتمام في الذاكرة الشبكات العصبية المتكررة طويل قصيرة الأجل

خط الأساس نموذج

يمكننا أن نبدأ لاستخدامها كنقطة انطلاق لجميع التجارب التي وصفها نموذج الأساس.

حدد التكوين نموذج خط الأساس، مما يجعل من نموذج يمكن تنفيذها على مهام الترجمة.

  • التضمين: البعد 512

  • خلية RNN: النابضة حدة تداول أو GRU

  • التشفير: في اتجاهين

  • عمق مشفرة: 2 طبقات (طبقة واحدة في كل اتجاه)

  • فك العمق: 2 طبقات

  • ملاحظة: أسلوب Bahdanau

  • محسن: آدم

  • فقدان المعلومات: 20 من الاستثمارات

كل تجربة من النموذج المرجعي، وتغيير عنصر واحد، في محاولة لعزل أثر قرارات التصميم على نموذج من المهارات، في هذه الحالة، BLEU النتيجة.

الشبكات العصبية ترميز الترجمة الآلية - فك العمارة

تم الاسترجاع من "استكشاف ضخمة من آلة العصبية الترجمة البنى"

حجم تضمين

جزءا لا يتجزأ من كلمة (كلمة التضمين) ليشير إلى إدخال كلمة إلى التشفير.

ويمثل هذا من قبل فرقت (تمثيل توزيعها)، حيث يتم تعيين كل كلمة لناقلات وجود حجم ثابت القيم المتعاقبة. الاستفادة من هذا النهج هو أن كلمات مختلفة بمعان متشابهة سيكون تمثيل مماثل.

عندما تركب نماذج عادة ما تعلم في هذه البيانات التدريب تمثيل تفرقوا. وهو يحدد حجم طول ناقلات تضمين لتمثيل كلمة واحدة. يعتقد عموما أن أكبر البعد سيؤدي إلى تمثيل أكثر تعبيرا (التمثيل)، في المقابل، وظيفة أفضل.

ومن المثير للاهتمام، أظهرت النتائج أن الحد الأقصى لحجم الاختبار لم تحقيق أفضل النتائج، ولكن بشكل عام، وزيادة حجم الدخل صغيرة.

التضمين 2048 الأبعاد تحقيق أفضل النتائج الإجمالية، فعلوا ذلك إلا قليلا. حتى التضمين صغير 128 الأبعاد أيضا أداء جيدا، فإن معدل التقارب مرتين تقريبا بنفس السرعة.

توصية: بدء تشغيل مع حجم صغير المدمجة، مثل 128، قد يزيد من حجم التعزيزات في وقت لاحق قليلا.

هناك ثلاثة أنواع شائعة دورة الخلية RNN الشبكات العصبية (RNN):

  • الشبكات العصبية المتكررة بسيطة

  • شبكة الذاكرة على المدى القصير والطويل (LSTM)

  • المحاصرة وحدة تداول (GRU)

LSTM لحل المتكررة الشبكة العصبية الشبكة العصبية المتكررة بسيطة للحد من عمق تعلم المشاكل تختفي التدرج تطويرها. GRU هو تبسيط LSTM المتقدمة. أظهرت النتائج GRU وLSTM أقوى بكثير من البساطة RNN، ولكن أفضل على LSTM عموما.

في تجاربنا، وحدة LSTM هي دائما أفضل من وحدة GRU.

الاقتراحات: استخدام وحدة LSTM RNN في النموذج الخاص بك.

ترميز - فك عمق

يعتبر عموما أفضل من شبكة أداء الشبكة الضحلة العمق.

والمفتاح هو إيجاد توازن بين عمق وقت قدرات نموذج الشبكة والتدريب. لأن هذا هو، إذا كانت وظيفة من التحسينات الصغيرة، ونحن عموما لا تملك الموارد لانهائية لتدريب شبكة فائقة عميقة.

نحن استكشاف أعماق الترميز وفك نموذج نموذج، وتأثير وظيفة النموذج.

عندما يتعلق الأمر الترميز، وجدت الدراسة عمق وظائف وليس لها تأثير كبير، بل وأكثر من المدهش هو أن نموذج اتجاهين أفضل من طبقة واحدة فقط من هيكل 4-طبقة قليلة. هيكل اثنين من طبقة ثنائية الاتجاه من التشفير فقط أقوى من الآخر اختبار قليلا.

لم نعثر على أي دليل قاطع على أن من الضروري تشفير عمق أكثر من طبقتين.

الاقتراحات: ثنائي الاتجاه طبقة التشفير 1، ثم توسعت لاثنين من طبقات ثنائية، وبالتالي تعزيز وظائف السعة الصغيرة.

حول فك يشبه. الفروق الوظيفية بين 2،4 طبقة فك صغيرة. 4 فك طبقة أفضل قليلا. فك طبقة 8 لا تتلاقى وفقا للشروط التي تم اختبارها.

في وحدة فك الترميز هنا، نموذج عمق ضحل هو أفضل قليلا من أداء النموذج.

الاقتراحات: 1 مع فك كطبقة ابتداء، ونتائج متفوقة حصلت عليها فك 4 طبقات.

المدخلات الاتجاه التشفير

يمكن أن ينتقل المصدر تسلسل النص إلى التشفير من خلال التسلسل التالي:

  • إلى الأمام، وهذا هو الطريق المعتاد

  • الاتجاه المعاكس

  • أن تكون إيجابية وسلبية في نفس الوقت

ووجد الباحثون أن تأثير ترتيب تسلسل المدخلات وظيفة نموذج، بالمقارنة مع غيرها من العديد من هيكل في اتجاه واحد، في اتجاهين.

وباختصار، فإنها أكدت النتائج السابقة: التسلسل العكسي من تسلسل إلى الأمام، في اتجاهين من التسلسل العكسي أفضل قليلا.

...... تشفير ثنائي الاتجاه عادة أداء أفضل من في اتجاه واحد التشفير، ولكن ليس ميزة مطلقة. التشفير لديه عكس متفوقة على جميع مصادر البيانات وسيطرتهم المقابلة غير مقلوب.

الاقتراحات: أو باستخدام تسلسل المدخلات العكسي في اتجاهين، من أجل تعزيز وظيفة من السعة الصغيرة.

آليات الإنتباه

الترميز الأصلي - فك نموذج لديه مشكلة: ترميز رتبت داخل العبارات وإدخال المعلومات في طول ثابت، في حين أن فك يجب أن يحسب تسلسل كامل من الذي الإخراج.

آلية التركيز هي خطوة إلى الأمام، فإنه يسمح للترميز إلى "متابعة" تسلسل المدخلات والمخرجات ذات طابع مختلف في تسلسل الناتج.

لاحظت عدة أنواع من آلية بسيطة من الاهتمام. وأظهرت النتائج أن مع آلية الاهتمام سوف يعزز كثيرا من أداء النموذج.

ونحن نتطلع إلى الوقت الذي لم يفاجأ انتباه نموذج يقوم على آلية النصر، لمعرفة كيف سيئة "الانتباه" لأداء نموذج.

Bahdanau، وآخرون. 2015، ورقتهم بسيطة المرجحة متوسط أداء آليات الإنتباه "الترجمة الآلية العصبية عن طريق التعلم معا لمواءمة وترجمة" أفضل تعبير في في.

الاقتراحات: استخدام الاهتمام والأولوية آلية استخدام المتوسط المرجح لآلية الاهتمام Bahdanau.

استنتج

عصبية الترجمة الآلية النظام وغالبا ما تستخدم بحث لتجميع العينات نموذج احتمال تسلسل الناتج من الكلمات.

ويعتقد عموما أن أوسع عرض من الكتلة، والبحث أكثر شمولا، كان ذلك أفضل النتائج.

وأظهرت نتائج مجموعة التعبير المعتدلة العرض هو يفضل 3-5، لتحسين طول ضحى ملحوظ. المؤلفون نقترح ضبط عرض لمشكلة محددة.

وجدنا أن التعديل دقيق للبحث الشعاع مصنوعة لتحقيق نتائج جيدة أمر بالغ الأهمية، ويمكن الاستمرار في الحصول على أكثر من نقطة واحدة من بليه.

الاقتراحات: البدء في البحث الجشع (الكتلة = 1) وتعديلها وفقا لمشكلة معينة.

النموذج النهائي

وقد طبقت المؤلفين نتائجهم في نفس "أفضل نموذج"، ومن ثم نتائج هذا النموذج مع نماذج أخرى، ونتائج باهرة تعكس أعلى مستوى من المقارنة.

معين الجدول تكوين نموذج أدناه، مأخوذ من الورق. عند تطوير برنامج معالجة اللغة الطبيعية الخاصة الترميز - فك نموذج، هذه المعايير يمكن أن تستخدم كنقطة انطلاق جيدة.

ملخص التكوين النموذج النهائي للنموذج الشبكة العصبية الترجمة الآلية

"استكشاف ضخمة من آلة العصبية الترجمة البنى"

ونتيجة لهذا النظام هو مثير للإعجاب، فإنه يستخدم التوصل إلى نموذج أبسط قريبة مستوى إلى الأكثر تقدما، ولكن هذا ليس هو الهدف النهائي للأطروحة.

...... لقد أثبتنا حقا من خلال التكيف الحذر وغاية في الدقة المعلمة التهيئة، قد WMT المستندة إلى المعايير أيضا الوصول إلى المستوى الأكثر تقدما.

من المهم أن الكتاب سوف مدوناتها كمشروع مفتوح المصدر، ودعا "TF-seq2seq". عام 2017، كعضو في برنامج تدريب الدماغ جوجل خلالها الكاتبين، والعمل على الدراسة التي نشرت في مدونة جوجل بعنوان "التعريف TF-seq2seq: المصدر المفتوح تسلسل إلى تسلسل الإطار في TensorFlow".

مزيد من القراءة

إذا كنت ترغب في معرفة المزيد، ويوفر هذا القسم المزيد من الموارد على هذا الموضوع.

  • استكشاف هائلة من العصبية الترجمة الآلية البنى 2017.

  • ديني بريتز الصفحة الرئيسية

  • WildML مقالات

  • إدخال TF-seq2seq: المصدر المفتوح تسلسل إلى تسلسل الإطار في TensorFlow 2017.

  • TF-seq2seq: إطار التشفير فك للأغراض العامة للTensorflow

  • TF-seq2seq وثائق المشروع

  • TF-seq2seq البرنامج التعليمي: الخلفية العصبية الترجمة الآلية

  • الترجمة الآلية العصبية عن طريق التعلم معا لمواءمة وترجمة، 2015.

ملخص

في هذه الورقة، وأنظمة الترجمة الآلية الشبكة العصبية وغيرها من المهام معالجة اللغة الطبيعية، وأفضل السبل لتكوين الترميز - فك دورة الشبكة العصبية. على وجه التحديد وهي:

الرابط الأصلي: الشبكي: //machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/

الشمال جاهزة للبلوتوث 5

مصبوغ الأخضر مدة عام التنين تشي الانتهاء من تشغيله، حاول القادمة Blorange (الوردي)؟

"قصة تحت الماء" الذي صدر في مقطورة في نهاية المطاف والغواصات وأسماك القرش غواصة فريق فتحت مغامرة

مقارنة مع السيارات الفاخرة أعلى، Zotye T800 الرائد تصبح مستقلة "الفائقة"

قوه جينغ يو صرخة حشد بالنسبة للتقييمات، والإدارة العامة للصوت "الاختيار"!

تمرير نيتياس مشروع سلسلة كتلة "لاكي القط" توفي، سامسونج غالاكسي S9 / S9 + صدر في الشهر المقبل؛ هوا تقنية الإفصاح والأرز والدخن العلاقات | لى فنغ الصباح

عيد الحب | كنت وضعت الله والتاريخ القديم تؤخذ في الاعتبار، ولكن نسيت TA الأنف

"الإنقاذ فيريس" ثم مقطورة المكشوفة، دواين جونسون الأسرة لتوفير أعلى مبنى يونغ الهيب العالم

"السيف الفن شرسة قاتلة قصف" على نطاق واسع DLC صدر سيتم النسخة الكاملة تهبط التبديل

مقابلة حصرية مع مدير Tanggao بنغ | "لا يختار طريق" أريد أن أعود إلى الماضي

استنساخ تماما الصوت الأصلي؟ HD الماجستير أغنية حصرية نصائح

الرجاء الإجابة 2016! موراتا إلكترونيات من العام السابق