EMNLP 2019 شو تفسير ورقات مختارة مايكروسوفت للبحوث آسيا

نقلا عن: عناوين مايكروسوفت للبحوث AI (ID: MSRAsia)

مقالة 708725 الشكل كلمة القراءة الموصى بها 18 دقيقة .

في هذه الورقة، وقدمت سبعة ورقات مختارة مايكروسوفت للبحوث آسيا في EMNLP2019 للتفسير.

ملاحظة المحرر: EMNLP 2019 تشرين الثاني نوفمبر 03-07 عقد في هونغ كونغ، الصين. جلسة EMNLP الجمعية العامة، مايكروسوفت للبحوث آسيا، تم اختيار ما مجموعه 21 ورقة، والتي تغطي ما قبل التدريب والتحليل الدلالي، والترجمة الآلية التركيز على البحوث. هذا المقال هو أن أعرض واحدة من سبع ورقات مختارة.

قبل التدريب

تصور وفهم فعالية بيرت

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1908.05620

بيرت وغيرها من نموذج لغة المدربين قبل في العديد من المهام NLP حققت تحسنا كبيرا، لكننا حتى الآن لم نفهم تماما أسباب فعاليتها. فهم هنا في محاولة خسائر فعالية بيرت خلال السطح وعملية النموذج الأمثل مسار التصور وتقليم، وتبين أن نموذج عملية ما قبل التدريب يمكن أن يحقق جيدة نقطة الانطلاق في مهمة المصب، وتقليم الناتجة نموذج بيرت أقوى قدرة التعميم.

الشكل 1: تقليم بيرت فيما يتعلق التهيئة عشوائية من مناطق أوسع وأكثر مسطحة لتعظيم الاستفادة

أولا، قارنا بيرت وصقل من التهيئة عشوائية هذه الأساليب تدريبيتين، من خلال وضع تصور فقدان السطح ذات بعد واحد واثنين من الأبعاد تدريبهم، يمكنك ان ترى على نطاق أوسع وتملق فيما يتعلق تعظيم الاستفادة من بيرت صقل من التهيئة عشوائية على مهام مختلفة منطقة.

الشكل 2: بيرت يمكن صقل الأمثل للعثور على اتجاه الإفراط في تركيب أكثر مباشرة، وأكثر قوة

بعد التشذيب التي كتبها مسار الأمثل البصرية من بيرت وتهيئة عشوائيا، يمكن أن ينظر إليه تقليم بيرت أكثر مباشرة عثور على الاتجاه الأمثل، والطريق الأمثل هو أكثر تدرجا، مما يجعل من الممكن أن تتلاقى بشكل أسرع. وبالإضافة إلى ذلك، وجدنا أنه حتى في البيانات الصغيرة (مثل MRPC) على أكثر صقل رقم طراز جولات، فإنه لم يحدث لتحسين عرض مسار واضحة ظاهرة تركيب أكثر.

الشكل (3): تقليم بيرت أكبر مساحة الأمثل المحلي على خطأ التعميم، تبين أن نموذج ما قبل المدربين لجلب المزيد من التعميم

وقد أظهرت الأعمال السابقة أن أوسع، مسطحة المناطق الأمثل المحلية تميل إلى أن تكون قدرة التعميم أقوى. قارنا بيرت صقل وتهيئة عشوائية، يمكن أن ينظر إليه تقليم بيرت على خطأ التعميم لا تزال لديها مساحة أكبر سطح أوبتيما المحلي، وهو ما يتسق مع فقدان التدريب السطح، مشيرا إلى أن ما قبل التدريب يمكن أن يحقق المزيد من نموذج قدرة التعميم .

الشكل 4: البنية التحتية للشبكة بيرت يمكن أن يكون أكثر حركية، والمعرفة، والتعلم على مستوى عال أكثر المصب المتعلقة مهمة

وبالإضافة إلى ذلك، فإن ورقة ضد فقدان التدريب البصري للطبقات السطحية مختلفة، فإن الخسائر سطح يمكن العثور بيرت خفض طبقة لمنطقة محلية الأمثل أوسع. وصف للشبكة الأساسية قد بيرت المزيد من التنقل، والمعرفة، والتعلم على مستوى عال المزيد من المهام المتعلقة المصب.

الجيل النص

استخدام المدربين قبل شبكة وقاعدة نصية للهجرة رسمي النمط

تسخير ما قبل تدريب الشبكات العصبية مع قواعد نقل شكلي ستايل

أوراق تحتوي على وصلة: الشبكي: //aka.ms/AA6h0mm

بحث النص الرسمي (الشكلية) لمجموعة واسعة من تطبيقات معالجة اللغة الطبيعية تلعب دورا هاما، مثل كتابة مساعد والتعليم الثانوي للأطفال غير الناطقين بها وهلم جرا. ومع استمرار التكنولوجيا لتطوير التعلم العميق في مجال اللغة الطبيعية، يمكن للباحثين جعل بالفعل أولية غير رسمية للنص الرسمي إعادة كتابة.

دراسات هذه الورقة النص إعادة كتابة من منظور التعلم تحت إشراف رسمي، مع التركيز على إعادة كتابة النص من الرسمي إلى النص الرسمي. النموذج التقليدي متعددة مرجعية من حقل من طريقة الترجمة الآلية القائمة على التعلم تحت إشراف، مثل نموذج استخدام Seq2Seq المباشر أو نماذج محول على أساس جسم مواز للتدريب. أظهر المزيد من الباحثين دراسة أن استخدام قواعد غير رسمية للتعامل مع النص بعد نص التدريب الرسمي الأصلي يمكن الحصول على نتائج أفضل. وجدنا أن طريقة مبسطة لإدخال قواعد، على الرغم من أن الحد من فعالية تعقيد البيانات، بحيث يمكن للنموذج التعلم أكثر سهولة بعض أنماط معقدة، ولكن لأن قواعد القيود الخاصة بها، وإدخال حتما بعض الضوضاء. 5، R & B ككيان واحد، ينبغي أن يوضع في الأحرف الكبيرة.

الشكل 5: نتائج الطريقة غير الرسمية للنص الأصلي ويستند إلى قواعد

ونأمل أن تكون قادرة على تقديم مزايا كلا من القواعد، ولكن أيضا للقضاء على الضوضاء تسبب بجزء من القاعدة. لذلك، نقترح ثلاث وسائل للاستخدام الرسمي النص coproduced نتيجة الأصلية يرتكز على القانون نصا غير رسمي، كما هو مبين في الشكل 6: سلسل صقل نص اثنين من المدخلات باستخدام التشفير تشفير لصق، واستخدام فك التشفير يترجم، فك فرقة نموذجين المدربين باستخدام اثنين من فك التشفير والترميز، وتقدير احتمال يعني يأخذ مرحلتين نموذج التوزيع التنبؤي، ترميز منفصلة مع اثنين اثنين التشفير إدخال النص الهرمي الاهتمام ترميز، وذلك باستخدام فك لفك الربط الاهتمام الهرمي.

الشكل 6: القاعدة من ثلاث طرق لتوليد نموذجا للتكامل

في هذه الورقة، والمدربين قبل نموذج متقدم اللغة --GPT2 لبناء وفك التشفير، على التوالي. التشفير هنا - محول وهيكل نموذج فك يختلف قليلا، كما هو مبين، والتشفير وحدة فك الترميز 7 استخدامات بنية كتلة GPT2 لا المعلمات المشتركة.

الشكل 7: بناء ترميز استنادا GPT2 - توليد نموذج فك

أجريت تجارب على المادة GYAFC مجموعة البيانات، والنتائج في F & R E & M واثنين من المجال كما هو مبين في الجدول 1 والجدول 2:

الجدول 1: النتائج التجريبية على الأسرة والعلاقة

الجدول 2: النتائج التجريبية على الترفيه والموسيقى

تستطيع أن ترى في GPT-CAT (سلسل صقل) الطريقة المقترحة في إطار سيناريوهات مختلفة (المجال إذا كان الاندماج) وقد أظهرت النتائج متسقة الأمثل، نعتقد أنه قد يكون راجعا إلى استخدام نفس التشفير لترميز، اثنين من إدخال النص بحيث مزيد من التفاعل الحصول في مرحلة الترميز، وبالتالي الحصول على FIG الترميز أفضل.

نطاق الحوار المفتوح السياق غير خاضعة للرقابة كتابة

السياق غير خاضعة للرقابة إعادة كتابة عن المجال المفتوح المحادثة

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1910.08282

في الروبوت دردشة، عدة جولات من فهم الحوار كانت دائما مشكلة صعبة للغاية. في الوقت الحاضر، وإذا كان المدخل هو جولة واحدة للحوار، ونموذج يمكن في كثير من الأحيان تولد عائدا جيدا، ولكن إذا كانت مدخلات عدة جولات من الحوار والردود المقدمة آلة غالبا ما تكون غير مرضية. لحل هذه المشكلة، نقترح استخدام وسائل لمساعدة إعادة كتابة النمذجة السياق، فإن عدة جولات من الحوار يدخل كتابة جولة واحدة من مدخلات الحوار، كما هو مبين في الشكل.

الرقم 8: جولات الحوار مدخلات يعيد كتابة عجلة واحدة مدخلات التخطيطي

هنا، ونحن نستخدم المعلومات السياقية في جولات متعددة من الحوار لإعادة كتابة الجولة الأخيرة من الجملة (الاستعلام)، ومعلومات السياق ضغط، ولكن أيضا تحتفظ معظم المعلومات المفيدة للاستعلام. مع إعادة صياغة آلية لديه ميزة: (1) بعد إعادة صياغة الجملة لديها للتفسير جيد، والاستعلام بعد (2) لا تعتمد على المهمة المصب إعادة كتابة، فمن الممكن لتعزيز تأثير صيغة نموذج والحوارات استرجاع نموذج محادثة ل ، (3) الاستعلام يمكن إعادة كتابة لاستخدام نموذج عجلة واحدة للحوار، مع الاحترام لنموذج تأثير مثل هذا النموذج محادثة متعددة العجلات التقليدية هو أفضل، ومقدار الحساب صغيرة، ومناسبة للنظام على الانترنت.

مع إعادة كتابة تحتاج آليات لمعالجة القضايا التالية: (1) كيفية استخراج المعلومات المفيدة من السياق؛ (2) كيف الجزء معلومات الاستعلام الحقن. لحل المشكلة أعلاه، ونحن نستخدم أساليب غير خاضعة للرقابة لبناء جسم إعادة كتابة، وأول من استخدم Pointwise-متبادل معلومات (PMI) خوارزمية تقوم على الاستعلام والاستجابة (الجملة الرد)، واحتمال أكبر عدد ممكن من الكلمات لاستخراج سياق مشاركتها في حدوث كما المعلومات الأساسية. ثم يتم إدخال استخدام هذه المعلومات في نموذج اللغة في استعلام، يتم احتساب موقف الإدراج مختلفة من النتيجة، وبالتالي الحصول على الاستعلام إعادة كتابة. ومع ذلك، في سيناريوهات التطبيق العملي، فإننا لا نستطيع الحصول على رد من المعلومات، لذلك نستخدم معرفة مسبقة لمعرفة هذا الجزء من الشبكة بالاعتماد على نسخة نموذج العمق (نسخة الشبكة)، وبناء على حسن استخدام هذه البيانات في مجموعة التدريب، واستخدام تعيين تدريب عدة جولات من سياق التدريب نموذج الحوار كتابة (سياق إعادة كتابة الشبكة).

الرقم 9: عدة جولات من الحوار السياق نموذج كتابة

ومع ذلك، هناك بعض الضوضاء على كتابة غير خاضعة للرقابة، ونحن لا يمكن أن تضمن ما إذا كانت الكلمات الرئيسية استخراج تساعد مهمة المصب، وخاصة إذا كان هناك بحث الاستعلام وتوليد نموذج الحوار هذين المهام المختلفة. ركزنا على اثنين من المهام المختلفة، ولكل منها وظائف مختلفة مكافأة (مكافأة)، سبل تعزيز التعلم لصقل النموذج (صقل)، مما يجعل في نهاية المطاف نموذجنا على نوع من صيغة والمهام استرجاع تتجاوز خط الأساس. ويرجع ذلك إلى وظائف مختلفة للثواب، ونحن تصلب صقل النموذج من التعلم هو أيضا نجاح ما وراء النموذج الأصلي.

الجدول 3: بعد الحصول على استرجاع مرشح، وجولات ونتائج إعادة كتابة المباراة الحوار

الجدول 4: تقييم الاصطناعي نتيجة البحث النهاية

الجدول 5: النتائج المتولدة يدويا تقييم النهائي (حيث 3 هو الأفضل)

تحليل الدلالي

عن طريق الحوار التعلم متعددة المهام في حل هذه المسابقة على أساس رسم الخرائط على نطاق واسع من المعرفة

متعدد المهام التعلم من أجل المحادثة سؤال وردا على قاعدة المعارف كبيرة النطاق

أوراق الرابط: https://arxiv.org/abs/1910.05069

انها تلعب دورا هاما في النظم مساعد شخصي الذكية (مثل مايكروسوفت كورتانا، وجوجل الآن، سيري، اليكسا، الخ) على أساس رسم الخرائط على نطاق واسع من مسألة المعرفة والأجوبة. جعلت التحليل الدلالي (الدلالي توزيع) في السنوات الأخيرة، على أساس نهج الشبكة العصبية تقدما كبيرا في هذا المجال. هذا النهج اللغة الطبيعية الشبكة العصبية في تنفيذ آلة تعبير منطقي (نموذج منطقي)، ثم للحصول على الجواب النهائي عن طريق إجراء تعبير منطقي على خريطة المعرفة.

ومع ذلك، فقد كان معظم العمل أساسا خطوة بخطوة طريقة لحل هذه المشكلة. وهناك طريقة نموذجية في تحديد أول وصلة إلى الكيان الذي الرسم البياني المعرفي (الكشف عن الكيان وربط)، ثم المسند تصنيف (تصنيف المسند)، المباراة النهائية لتوليد تعبير منطقي آلة للتنفيذ (الجيل النموذج المنطقي). عيب هذا الأسلوب هو عرضة للخطأ نشر تأثير أكبر، ولأن كل تدريب مستقل وحدة، والإشراف لا يمكن الاستفادة الكاملة من المعلومات.

لحل هذه المشاكل، نقترح طريقة لتعلم متعددة المهام. على وجه التحديد، فإننا سوف تحل المشكلة الدلالي في يومين مشاكل فرعية هي: (1) التعرف على الكيان؛ يتم إنشاء منطقي التعبير (2) مع الموقع الفعلي. المسألة اللغوية الطبيعية السابق مع سياق تسلسل المسمى، وتصنف كل كلمة ك {O، B {،} I X NT}، حيث يمثل O كيان غير، B، I تمثل بداية ووسط الكيان، يمثل NT عدد من نوع كيان، والتعرف على الكيان مع هذا النوع من كيان، لا يمكننا حل الكيان المشكلة الارتباط الغموض (ربط كيان) عملية. هذا الأخير إلى التسلسل مع شبكة المؤشر بواسطة تسلسل، وترجمة المسألة اللغوية الطبيعية مع الموقع الجغرافي للتعبير منطقي، حقق فيها موقعه الفعلي في مدخلات FIG. وأخيرا، فإن المشاكل الفرعية اثنين التعلم في نفس الوقت عن طريق التعلم متعددة المهام.

الرقم 10: ويتناول نموذج محلل الدلالي (MASP)

هذه الطريقة والمزايا التالية: (1) متعددة المهام تعلم الاستخدام الفعال لجميع المعلومات الإشرافية، (2) وكما دخلت أيضا في نموذج السياق، يمكن حل فعال لمشكلة coreference والقطع، (3) التعبير المنطقي عملية توليد، من خلال التنبؤ موقف الكيان وليس الكيان نفسه، يمكن التعامل بفعالية مع المعرفة رسم الخرائط على نطاق واسع في عدد كبير من الكيانات؛ (4) كيان اعتراف نوع التنبؤ كيان، يمكن أن تخفف بشكل فعال الروابط كيان الغموض خلال . تجارب على التحقق من صحة البيانات مجموعة CSQA هذه الطريقة (MASP) الصلاحية.

الجدول 6: النتائج التجريبية على أساس CSQA مجموعة البيانات

الترجمة الآلية

البيانات على نطاق واسع باستخدام لغة واحدة الترجمة الآلية العصبية

استغلال البيانات أحادي اللغة في مقياس لآلة العصبية الترجمة

أوراق تحتوي على وصلة: الشبكي: //aka.ms/AA6i2nr

في الترجمة الآلية، وتستخدم بيانات بلا مقياس الهدف جانب اللغة على نطاق واسع، على سبيل المثال، وتكنولوجيا الترجمة العكسية (العودة الترجمة). في المقابل، لا يتم استخدام أي محطة البيانات الهدف ولغة المصدر على نطاق واسع. درس منهجي كيف تدفق البيانات مجانا على نطاق وأثناء استخدام الجانب المصدر والهدف واللغة، واستخدام مصنوعة من البيانات بكفاءة. علينا التحقق على WMT WMT ألمانيا وفرنسا وفعالية الترجمة الترجمة الألمانية الأنجلو من الخوارزمية، وقدم أداء متفوق للغاية.

لنفترض أننا نشعر بالقلق حول الترجمة بين X و Y اللغة. نحن نريد أن يكون معيار مجموعات البيانات ثنائية اللغة في X- التدريب الذي يتلقاه> Y وY-> X على نموذجين الترجمة B على التوالي تدل f و g. وفي الوقت نفسه، نحن بحاجة إلى إعداد اثنين غير قياسي بيانات الإرسال المتعدد وبلدي، على التوالي X و Y اللغتين. تتكون لدينا الخوارزمية المقترحة من ثلاث خطوات:

(1) لا الشرح البيانات الترجمة: نحن الإرسال المتعدد كل من الجمل المترجمة التي كتبها f لغة Y، وترجمة الجملة في لغاتي X ز، ومجموعتين جديدة من البيانات إفطار = {(س، و ( س)) | xMx}، وبريتيش تيليكوم = {(ز (ذ)، ذ) | yMy}

(2) التدريب الضوضاء: وضعنا اللغة المصدر إلى البيانات محطة B، تقترن إفطار وراثيا الضوضاء، بما في ذلك استبدال كلمة هو، وانخفاض عشوائي عشوائي والكلمات العشوائية بالضيق. على مجموعة البيانات صاخبة، ندرب نموذج المقابلة لF1: X-> Y وG1: Y-> X. في هذه المرحلة، من المستحسن استخدام البيانات غير القياسية على نطاق واسع.

(3) الجميلة: الحصول على F1 وG1 بعد ذلك، ونحن نستخدم البيانات على التدريب بلغتين مختلفة للحصول على نموذج ثنائي اللغة الجديدة و "ز" إلى إعادة ترجمة الإرسال المتعدد والبيانات بلدي غير القياسية التي تم الحصول عليها إفطار "وراثيا"، والبيانات الواردة في هذا G1 و F1 ومن ثم إلى صقل النموذج النهائي.

نتائجنا كما هو مبين في الجدول رقم (7). في المرحلة الثانية، اخترنا 120M (60M الجانبين، على التوالي) أية بيانات القياسية. المرحلة الثالثة، من دون استخدام 4OM البيانات القياسية (الجانبين على التوالي 20M). نتائج محددة هي كما يلي:

الجدول 7: نتائج

ويمكن رؤية النتائج في كل مرحلة سيكون هناك بعض التحسن، وبرنامجنا حقق أفضل النتائج. حققنا أيضا نتائج مماثلة في المهام الترجمة الألمانية-الفرنسية.

في المقالة، ونحن نستخدم كما تم مناقشة البرامج بيانات مختلفة في التفاصيل والتباين. باختصار، نحن التحقق: مصدر البيانات (1) غير القياسية ونهاية الوجهة مفيدة؛ (2) تدريب المرحلة مساعدة الضوضاء تحسين الأداء النهائي؛ (3) فقط باستخدام الجانب المصدر أو الهدف البيانات غير القياسية، فإن التأثير لن تزيد زيادات البيانات. إذا كنت تستخدم كل البيانات، في تجاربنا، فإن تأثير تجربة مع قد تثار الزيادة من البيانات.

منذ باستخدام نموذج الانحدار تدريب لتحسين عدم الانحدار الذاتي نموذج

التدريب القائم على تلميح لعدم نماذج الانحدار الذاتى الترجمة الآلية

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/pdf/1909.06708.pdf

ومعظم النماذج العصبية متقدمة باستخدام الترجمة الآلية autoregression احتمال التحلل، والذي تم إنشاؤه بواسطة كلمة هدف واحد في عملية فك التشفير. يقتصر هذا النموذج الحساب في الأجهزة الموازية القائمة (على سبيل المثال، GPU)، بحيث يكون لها تأخير الاستدلال عالية. اقترحت غير autoregression نموذج الترجمة الآلية مؤخرا نموذج يقلل من الوقت اللازم، ولكن يمكن أن تصل فقط على دقة الترجمة أقل. من أجل تحسين دقة ترجمة نموذج غير ذاتية الانحدار، نقترح طريقة جديدة، وذلك باستخدام نماذج الانحدار الذاتي المدربين لمساعدة غير المحسنة نموذج الانحدار الذاتي.

الشكل 11: استخدام نموذج غير ذاتية الانحدار المدربين للمساعدة في تحسين عملية نموذج الانحدار الذاتي

على وجه التحديد، نحدد نموذج الانحدار اثنين المستمدة من "نصائح": نصائح من دولة ضمنية مع نصائح والاهتمام من آلية كلمة المحاذاة، واستخدام هذه النصائح لتنظيم نموذج غير الانحدار من التدريب الذاتي. وتظهر النتائج التجريبية أن لدينا نموذج جديد من النموذج السابق يحسن بشكل كبير من جودة الترجمة. على وجه التحديد، لWMT14 الإنجليزية - الألمانية والألمانية - مهمة الإنجليزية، وصلنا كانت النتائج القيم 25.20 و 29.52 BLEU تجاوز إلى حد كبير غير autoregression نموذج الترجمة الأساس السابقة.

آلة متعددة اللغات القائمة على مجموعة الترجمة

العصبية الترجمة الآلية متعددة اللغات مع اللغة التجميع

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/pdf/1908.09324.pdf

متعدد اللغات والترجمة الآلية وعادة ما تستخدم النموذج الذي يدعم عدة لغات الترجمة، نموذج مبسط لعملية التدريب، وخفض تكاليف صيانة الخط، وتحسين المنخفض الموارد والصفر ترجمة الموارد دورا هاما للغاية. ومع ذلك، سواء كان ذلك نموذجا الترجمة يدعم الآلاف من لغات العالم، كل لغة أو مع نموذج الترجمة الخاصة بها، والتكلفة عالية جدا. لذلك، نهج عملي أكثر هو استخدام عدد قليل من الدعم نموذج بجميع اللغات. الموارد (مثل عدد من النماذج) تحت ظروف معينة لكيفية تحديد اللغة يمكن أن تدعم في نفس الوقت نموذجا، مهم جدا لتعدد اللغات والترجمة الآلية. في هذا العمل، نقترح طريقة لغة التجميع في فئات مختلفة، ولكل فئة على حدة مع نموذج الترجمة متعددة اللغات لدعم. ونحن التحقيق الطريقتين التجميع: (1) استخدام مجمعات المعرفة المسبقة؛ (2) استخدام تجميع ناقلات اللغة.

في المجموعة الأولى على أساس معرفة مسبقة، ونحن نستخدم المعرفة من اللغات (اللغة الأسرة) من. ممثل عن مجموعة من اللغات مماثلة لها لغة مشتركة تتألف من سلف الفئة اللغة. لقد اخترنا تصنيف غات العالم أكثر موثوقية وعلى نطاق واسع اللغة المستخدمة. في هذا النظام تصنيف، وتصنف العالمي 7472 نوعا من اللغات إلى 152 لغات. ويبين الشكل 12 في 23 لغة تصنيف اللغة المستخدمة في تجاربنا ينتمون إليها.

الشكل 12: اللغة الفئة

في اللغة ناقلات المجموعة الثانية القائمة، ونحن تدريب لجميع اللغات نموذج الترجمة واللغة نموذج متعدد اللغات باستخدام ناقلات للتمييز بين لغات مختلفة، ناقلات اللغة معا في نموذج الترجمة متعددة اللغات يتم تدريب، يمكنك تستخدم لتوصيف لغات مختلفة، و 13 هو مبين في الشكل. استخدمنا طريقة المجموعات الهرمية للحصول الكتلة ناقلات اللغة.

الشكل 13: ناقل تعلم اللغة في نموذج الترجمة الآلية متعدد اللغات لمجموعة

هنا هو تقييم تجريبي، اخترنا IWSLT 2011 ~ 2018 سنة، الترجمة بين اللغتين الانكليزية واللغات الأخرى من 23 نوعا من التجارب.

أول نظرة على لغة نتائج المجموعات. تحليل النشوء والتطور على أساس معرفة مسبقة من 12 كما هو مبين في الشكل. كما هو مبين في الشكل 14 على أساس ناقلات اللغة النتائج المجموعات. لقد وجدنا لا الحصر: (1) المتجه لغة يمكن التقاط جيدا العلاقة الوراثية من اللغة؛ (2) متجه اللغة يمكن أن تعكس اللغة المعلومات الصرفية، (3) ناقلات لغة يمكن التقاط بعض العبارات بسبب الإقليمية والثقافية والعوامل التاريخية تؤثر على العلاقة تشكيلها. يظهر تحليل محددة الأوراق.

الشكل 14: ناقل نتيجة تجمع المشتقة من لغة

بعد ذلك ننظر في دقة التجميع الترجمة، ويبين الجدول 8 نتائج من الإنجليزية إلى لغات أخرى، العمود الأخير BLEU بمعدل 23 الترجمة. يمكنك ان ترى ناقلات لغة نموذج (التضمين) الحصول على طريقة التجميع القائم هو أفضل من التجميع القائم على لغة (الأسرة)، في حين أن نسبة نموذجا تدعم جميع اللغات (العالمي) على التوالي ولكل نموذج من نماذج لغة منها (فردي) أفضل . نموذج العالمي لدقة الترجمة والفقراء، والنموذج الفردي يضيف التدريب حاليا والانترنت وتكاليف الصيانة، والتي هي ورقة العمل على حل المشكلة. ارتفاع بمعدل 0.7 BLEU 23 لغة لغتنا على أساس ناقلات تجميع (التضمين) على حساب النماذج الخمسة فقط، مقارنة الأفراد (تكلفة 23 نموذج)، مقارنة العالمي (تكلفة نموذجا) BLEU متوسط ارتفاع 2.08، ويظهر فعالية طريقة التجميع لدينا للحد من دقة الزيادة تدريب نموذج الترجمة وتكاليف الصيانة. رؤية المزيد من النتائج وأوراق التحليل.

الجدول 8: نتائج

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور " بيانات الإرسال THU "أيتها الأخوات ولا". إرسال البيانات THU "لرعاية المزيد من المحاضرات ونوعية المحتوى.

طريق الحرير

EMNLP 2019 شو تفسير ورقات مختارة مايكروسوفت للبحوث آسيا

أشاد Wu Enda شخصيًا بملاحظات مخطط التكرير لدورة التعلم العميق الخاصة هذه! (مع تحميل)

الولايات المتحدة يمكن قياسه؟ محاولة لتصوير جمال الفن مع مؤشر معقد

افتتح ميرك مركز الابتكار قوانغدونغ فى جزيرة البيولوجية: منطقة خليج ثلاث صناعات رئيسية ويضيف "تعزيزات"

وكانت المساعدات إلى الحقيقة Wuhou "خمسة إجراءات" لتعزيز الصحة لصالح الفقراء

تجمع الباحثين والأطباء والمستثمرين في هذه الصناعة، والتي سوف تحطم من الشرارة؟

استخدام نموذج المزيج الغوسي لجعل التكتل أفضل وأكثر دقة (مع البيانات والتعليمات البرمجية والموارد التعليمية)

شمال غرب شارع فيرست إيسترن قناة تاون - على الجنوب خط فينيكس الشاي + قنوات رحلة المدينة

جيثب 3K سوبر ستار! من التعليمات البرمجية بايثون إلى APP عليك سوى أداة صغيرة

معالجة الصرع لتعزيز تدويل الطبقات الصرع بين الصين والولايات المتحدة الذي عقد في بكين

النتائج الأولية الأولى من يوان مينغ يوان الحصان! وقد فقدت مساعدة كسر القدماء الصب "التكنولوجيا السوداء"

معهد بحوث السيارات سوتشو جامعة تسينغهوا لموجة: شبكة السيارة الذكية التي تربط بين ستة اتجاهات وخطة الصين

الخريف ناجحة! تهدئة قلق فوري، وقوانغدونغ أدنى درجة الحرارة إلى أصابع اليد الواحدة! تحت البرد على الطريق

"الأدبية الخفيفة الفرسان": لمسة من شمس الشتاء الدافئة

! مؤلم Zusun يانغ فقط على سرعة عالية على الموت! سلوك السائق وتائب ...... لا يفعل ذلك مرة أخرى

الطوابق الجنية هيل صبغ الجمال الخلاب

ضمان الجودة والأمان! مترو شيامن يبني العديد من "الأجهزة الثقيلة" للمساعدة

مثيرة! وشارك جيانغمن صبي يبلغ من العمر 8 سنوات في السيارة، تسعة الجماهير بسرعة رفع الانقاذ سيارة

فيديو | شنتشن لوهو يزيد من شدة الصوت حدائق الضوضاء المفرطة، إقامة لمدة جدار تكسير، وأصحاب Tucao "انتقلت الى خطورة"

الجارديان الحرم الجامعي، والشباب غير سامة! دعاية مكافحة المخدرات في مدرسة شمال ميتشو في القرن الجديد

انتظر لمدة 3 سنوات! تقاضي "نساء المتعة" في كوريا الجنوبية الحكومة اليابانية في القضية اليوم ، ويطالب شخص واحد بـ 1.2 مليون يوان

وصلت الهواء البارد أدنى 13

بحوث التكنولوجيا والتنمية انفجار المجوس البيت الأحمر الليل، جيل جديد من هيكل قائم على المعرفة للبحث عن عهد جديد بعد 90 هنا؟

الأحكام ذات الصلة