EMNLP2018 أفضل ورقة: الفيسبوك رفع 11BLEU غير خاضعة للرقابة الترجمة الآلية

لى فنغ شبكة منظمة العفو الدولية تكنولوجي ريفيو: عندما يتعلق الأمر الترجمة الآلية، وجوجل أكل سرطان البحر وNMT التجاري، مايكروسوفت للبحوث AI نظام الترجمة يضاهي مستوى البشرية قمنا به أكثر في التقرير، هم أكثر دراية، ولكن كانت مطلوبة الإشراف. جوجل يمكن استخدام الطبيعي التدريب جسم ضخم NMT، ونظام مايكروسوفت للبحوث وحتى مع وجود الكثير من التقنيات الجديدة بشكل كبير لتحسين كفاءة العينة، لا تزال بحاجة إلى أن يكون كافيا لغتين جسم مواز. ومع ذلك، فإننا غير قادرين على العثور على عدد كبير من جسم موازية بلغتين لجميع الأزواج اللغوية، أشرف على MT نظام التدريب .

سوف الفيسبوك في EMNLP 2018 ورقة "عبارة القائم على والعصبية بدون اشراف الترجمة الآلية" (هذه البيانات تعتمد على الكلمات، غير خاضعة للرقابة الشبكة العصبية الترجمة الآلية) إدخال أحدث إنجازاتها في الترجمة الآلية غير خاضعة للرقابة. غير خاضعة للرقابة الترجمة الآلية هي واحدة من موضوع البحث الساخنة، كان الباحثون في الفيسبوك من قبل التصميم الذكي 11 BLEU ترقية الأداء؛ و أعلن EMNLP تويتر الرسمي اليوم أن الورقة هي واحدة من اثنين من أفضل ورقة EMNLP 2018 . وقد كتب المؤلفين أيضا مقالة سابقة نشرت في عرض تقديمي شعبية على الفيسبوك بلوق، ووصف الأفكار الرئيسية. لى فنغ شبكة AI تقنية مراجعة النص جمعت على النحو التالي.

محاذاة الدوران الأبعاد كلمة جزءا لا يتجزأ من

الترجمة الآلية مهمة جدا لالفيسبوك، والتي تتيح المليارات من المستخدمين في اتصالاتهم اللغة المفضلة والتبادلات. للقيام بذلك، أنظمة الترجمة الآلية الحالية (MT) التي تدير كميات كبيرة من النص المترجم (على سبيل المثال، هي نفس النص باللغتين الإنجليزية والإسبانية على). لذلك، MT حاليا تظهر فقط نتائج جيدة للغة أقلية بالفعل مجموعة كبيرة من النص المترجم.

عندما تدريب نموذج دون الحاجة إلى زيارة أي منشأة MT نموذج ترجم موارد النصوص (يطلق عليه اسم ترجمة غير خاضعة للرقابة) هو الخطوة التالية الضرورية. على EMNLP 2018 قدمنا أحدث الأبحاث التي أجريت على هذه المهمة ( لدينا طريقة جديدة مقارنة مع الطرق غير خاضعة للرقابة التقنية الصناعية السابقة قد تحسنت بشكل ملحوظ، مع آثار تدريب ما يقرب من 100،000 مرور مراقبة منهجية نفسه تقريبا. في هذا المجال، 1 BLEU (MT تحديد دقة المؤشر المستخدمة عادة) ويعتبر تحسين كما إنجاز لا يستهان به، ولكن بالمقارنة مع الطريقة السابقة لدينا طريقة جديدة لديها تحسن أكثر من 10 BLEU.

إنشاء نموذج ترجمة غير خاضعة للرقابة يمثل توجها هاما من تطوير حقل MT، خصوصا في 6500 لغات العالم ليست بين الغالبية العظمى من ما هو متاح مستودع الترجمة أو الترجمة من كمية صغيرة جدا من البيانات النصية التي لا تتوفر في حالة التقنية الصناعية السابقة . لعدم وجود الترجمة، والآن هناك طريقة لتعلم أي لغة، تلك الترجمة السلوك بين الأردية والإنجليزية، مجرد استخدام اللغة الإنجليزية والأوردو هي النص غير ذي صلة تماما، من دون أي النص المترجم المقابلة .

هذا النهج الجديد يفتح المزيد من الترجمة بشكل أسرع وأكثر دقة الباب، وهذا هو مجرد بداية لمبدأ من هذا القبيل هو التعلم الآلي التطبيقية وأساليب الذكاء الاصطناعي.

الترجمة الحرفية

الخطوة الأولى نحو هدف عظيم لدينا للحصول على نظام لتعلم قاموس ثنائي اللغة، كلمة مرتبطة إلى لغات أخرى ترجمة معقولة. ولهذه الغاية، كنا مقدمتنا إلى ورقة قبل الأسلوب (https://arxiv.org/abs/1710.04087)، حيث النظام جزءا لا يتجزأ من أول تدريب كلمة كل كلمة في كل لغة (التمثيل ناقلات وورد).

كلمات التدريب جزءا لا يتجزأ من حول كلمة للتنبؤ كلمة بالنظر إلى السياق (على سبيل المثال، التي سبقت كلمة معينة والكلمات الخمس بعد خمس كلمات). وعلى الرغم من كلمة بسيطة جزءا لا يتجزأ من شكل، ولكن جزءا لا يتجزأ من كلمة يمكن التقاط بنية دلالية مثيرة للاهتمام. على سبيل المثال، من "كيتي" مؤخرا "القط" و "كيتي" الكلمة هي أقرب إلى تضمين تضمين "الحيوان"، وليس "صاروخ" كلمة جزءا لا يتجزأ من (لأن "الصواريخ" نادرا ما تظهر في "كيتي" التي حيث في سياق كلمة).

وبالإضافة إلى ذلك، والكلمات في لغات مختلفة جزءا لا يتجزأ من بنية حي مماثل، لأن الناس من مختلف البلدان، بعد كل شيء، ويعيش في نفس العالم. على سبيل المثال، في اللغة الإنجليزية أن العلاقة بين "القط" و "شعري" على غرار المقابلة ترجمتها باللغة الإسبانية ( "غاتو" و "peludo") بين، لأن تردد هذه الكلمات وسياقها مشابه .

بسبب هذه التشابهات، نقترح أن يحتوي على مجموعة من التقنيات القديمة والجديدة، مثل التدريب على القتال، السماح للنظام لتعلم اللغة في كلمة واحدة تحول دوران جزءا لا يتجزأ من لمطابقة كلمة في لغة أخرى جزءا لا يتجزأ من . مع هذه المعلومات، دون الحاجة إلى الوصول إلى أي مصطلح الترجمة بالتوازي مع ذلك، يمكننا أن نستنتج من القواميس ثنائية اللغة دقيقة إلى حد ما، وتحقيق أساسا الترجمة الحرفية.

نوعين من محاذاة ثنائية الأبعاد يمكن أن تكون جزءا لا يتجزأ في اللغة كلمة (يسار) من خلال تناوب بسيط (يمين). بعد التناوب، وتحقيق ذلك عن طريق أقرب البحث جار ترجمة كلمة.

الجملة المترجمة

استخدام أساليب غير خاضعة للرقابة للحصول على قاموس ثنائي اللغة والترجمة حرفيا لا يمكن إكمال ترجمة جيدة - كلمة قد تفقد أو خارج الترتيب خاطئ تماما. ومع ذلك، فإنه يحتفظ معنى ذلك بكثير. يمكننا تحسين على هذا الأساس. تدريب باستخدام البيانات على عدد كبير نموذج اللغة لغة واحدة جيدة لتحرير المحلي، فإنه يمكن أن يسجل نوع مختلف من كلمة، الطلاقة الجملة بالتالي يسجل أعلى من الجملة لا تفي قواعد سيئة أو بنية.

لذلك، إذا كان لديك عدد كبير من مجموعات البيانات الأردية لغة واحدة، ويمكننا في نفس الوقت النموذج الحالي للغة الإنجليزية، الأردية التدريب نموذج لغة. مع اللغة بعد النموذج الأولي ونموذج الترجمة الحرفية، يمكننا أن نبني إصدار سابق من نظام الترجمة.

هذا النظام في وقت مبكر، وإن لم يكن كافيا جيدة، ولكن أفضل من تأثير ترجمة حرفية (بفضل نموذج اللغة)، ويمكن استخدامه لعدد كبير من الجمل المترجمة من اللغة المصدر (الأردية) إلى اللغة الهدف (اللغة الإنجليزية).

المقبل، ونحن سوف تترجم هذه النظم من الجملة (مكتوبة أصلا باللغة الأوردية، وترجم إلى اللغة الإنجليزية) المشروح التعامل معها عن بيانات حقيقية، ونظام MT العكسي للقطار من الإنجليزية إلى الأردية. وباعتراف الجميع، لأن النظام الأول كان هناك خطأ في الترجمة، وسوف الجملة إدخال اللغة الإنجليزية تكون بعض المشاكل. (تحت عدد كبير من الحالات الإحضار الموازية) وقدم ورقة ACL2015 R. Sennrich آخرون MT نظام التعلم شبه إشراف هذه التكنولوجيا، ودعا الترجمة العكسية. وهذه هي المرة الأولى التي يتم فيها تطبيق هذه التقنية على نظام غير خاضعة للرقابة تماما، عادة، تدرب في الأصل في البيانات تحت الإشراف.

الآن لدينا النموذج هو أكثر اهتماما في الأردية الجملة لغة طلاقة، يمكننا عكس التصحيح ولدت بشكل مصطنع ترجمة الجمل المتوازية ونموذج اللغة الأردية التي تقدمها الجمع، من أجل القطار من الإنجليزية إلى الأوكرانية أنظمة الترجمة هي سيول.

مرة واحدة يتم تدريب النظام، ونحن يمكن ترجمته إلى الأردية مع اللغة الإنجليزية في كثير من الأحكام، وتشكيل نوع آخر من مجموعة البيانات (الحكم الأصلي باللغة الإنجليزية، وترجم إلى الأردية)، لصالح من التحسينات سابقا الأردية لنظام الإنجليزية MT. مع نظام محسن، يمكننا استخدام بطريقة متكررة لتوليد تدريب البيانات للنظام في الاتجاه المعاكس، وعدد وافر من التكرار وفقا للحاجة.

الأفضل من كلا العالمين النهج

في هذه الدراسة، حددنا ثلاث خطوات - التهيئة جزءا لا يتجزأ حرفيا، والنمذجة اللغة، والترجمة العكسية - كمبدأ أساسي من MT غير خاضعة للرقابة. وفقا لهذه المبادئ، فإننا يمكن أن تحصل في النهاية على مجموعة متنوعة من النماذج. نحن نطبق عليهم غير خاضعة للرقابة يؤدي أسلوب MT هدفين متميزة.

وغير خاضعة للرقابة الطريقة الأولى نماذج العصبية، ترجمته تنتج أكثر مرونة من الترجمة الحرفية، ولكن لم يحقق ما نريد الجودة. ومع ذلك، فهي كافية لعكس الترجمة بوصفها الجملة. عن طريق الترجمة العكسية، والطريقة التي 100،000 جمل المتزامنة الإشراف ونموذج التدريب لنفس الغرض.

بعد ذلك، طبقنا هذه المبادئ على النموذج الكلاسيكي على أساس طريقة إحصائية أخرى من العد، استنادا إلى عبارة يسمى MT. ومن المثير للاهتمام، وتميل هذه النماذج لأداء أفضل في اللغة الموارد منخفضة، ولكن هذه هي المرة الأولى التي يتم تطبيق هذا الأسلوب لغير خاضعة للرقابة في MT. في هذه الحالة، وجدنا ترجمة الكلمة الصحيحة ولكن ليس على نحو سلس جدا. مرة أخرى، وهذه الطريقة متفوقة على معظم نموذج متقدم من دون رقيب السابق.

وأخيرا، فإننا سوف تجمع بين النموذجين تفسح المجال لأفضل ما في العالمين: أ طلاقة وجيدة في كل من نموذج الترجمة . تحقيقا لهذه الغاية، ونحن نبدأ من النموذج العصبي المدربين، ثم جمل مترجمة إلى الوراء على أساس غيرها من العبارات من نموذج التدريب.

واستنادا إلى الخبرة، ونحن في النهاية وجدت نهج موحد يحسن بشكل كبير من دقة MT غير خاضعة للرقابة من قبل - باللغة الإنجليزية - الفرنسية والإنجليزية - الألمانية كما اللغتين من مجموعة اختبار (حتى لو كانت لغة الاحترام في لم تستخدم أي بيانات التدريب بالتوازي - إلا أن يكون تقييمها في اختبار)، زاد هذا الجمع بين أكثر من 10 نقطة على النتيجة BLEU.

نحن أيضا باختبار اللغة التالية على نهجنا: اللغة مسافات طويلة، مثل الانجليزية - الروسية؛ والترجمة الموارد الشحيحة من لغة، مثل الإنجليزية - الرومانية، النقص الحاد في الموارد ولغة البعيدة، مثل اللغة الإنجليزية - الأردية. في جميع الحالات، نهجنا بالمقارنة مع الطرق غير خاضعة للرقابة الأخرى قد تحسنت كثيرا، طرق تحت الملاحظة في بعض الأحيان أكثر من استخدام البيانات لغة موازية من المجالات الأخرى أو في لغات أخرى .

وفيما يلي الألمانية - الإنجليزية ترجمة سبيل المثال يظهر نتائج كل طريقة:

بالإضافة إلى الترجمة الآلية، فضلا عن العالم الكبير

الانتهاء زيادة درجة أكثر من 10 BLEU هي بداية مثيرة، ولكن بالنسبة لنا، وحتى أكثر إثارة هو أنه يحسن العراء إمكانية للمستقبل. وعلى المدى القصير، وهذا سيساعد حتما لنا لترجمة لغات أخرى وعدد أقل من الموارد لتحسين نوعية لغة الترجمة. ومع ذلك، حصلت المعرفة من هذا النهج الجديد والمنطق في حد ذاته إلى ما هو أبعد MT.

ونحن نعتقد أن إمكانات هذا البحث يمكن تطبيقها على التعلم غير خاضعة للرقابة في أي مجال، ولديه القدرة على أن تكون قادرة على الاستفادة من البيانات وكيل تحمل اسما، والحاجة الحالية لعرض الخبير (في هذه الحالة، هو الترجمة) مهمة في المستقبل إلا نادرا قادرة على أداء للحصول على نتائج جيدة. يظهر هذا العمل أن النظام هو ممكن على الأقل في حالة التعلم غير خاضعة للرقابة، وإنشاء نظام اتجاهين، في هذا النظام، يمكن لكل عنصر مواصلة تحسين في حلقة حميدة.

عنوان ورقة: الشبكي: //arxiv.org/abs/1804.07755

عنوان الرمز: الشبكي: //github.com/facebookresearch/UnsupervisedMT

عنوان بلوق: الشبكي: //code.fb.com

الظروف EMNLP 2018 جائزة ورقة

وفقا لإعلان تويتر EMNLP الرسمي، وهما من أفضل ورقة في مقال آخر من جوجل

مطلعة لغويا-الاهتمام الذاتي لوسم دور الدلالي

  • النظر في المعلومات اللغوي الذاتي للانتباه وصفها الدور الدلالي

هناك ورقة الأمثل للموارد

MultiWOZ - مجموعة البيانات الواسعة النطاق متعدد المجال معالج من عوز للنمذجة الحوار لأداء مهام محددة (ورقة لم يكشف عنه)

سيعقد EMNLP 201831 أكتوبر - 4 نوفمبر في بروكسل، الذي عقد بلجيكا، ترقبوا المزيد من التغطية لى فنغ شبكة AI تكنولوجي ريفيو.

2017 معركة مبادلة أسعار مقايضة خدعة مجلس المعهد الوطني الاستشاري جيلين افتتاح الناري

ايرباص قافزة التفاصيل الفنية: تشويه / الكهربائية / من دون طيار

لقاء صديقة للتسوق عبر الإنترنت احتيال، في ظل نظام الاسم الحقيقي لا يزال عاجز جدا

مقابلة | جيمس كاميرون السرية، لماذا تطمئن إلى أن "ويتا" له

Blondey مكوي بالقرب من فريد بيري، كما ساهم في قصر خط العليا "التعاون"!

لدخول هذه الصناعة، وسرعان ما لقمة الحياة، الزواج فورميكا الأبيض

لا يمكن ملك الماس ترتفع؟ بداية روتين أنت تفهمني!

عندما القناة الصغرى لقاء الهندسة الاجتماعية، وسهلة لإخفاء البندقية طعنة الصعبة لمنع

شين تينغ: آمل أن نتمكن من اتخاذ بعض P يكون طول العمر، مستخدمين الدماغ حفرة مفتوحة على مصراعيها ......

تفسير تريليون الأشياء طريقنا إلى الأمام مع كسر السوق

"المعلم حسن" نظرا ملف 3.22 يو تشيان المعلمين والطلاب الإيجابي فقط النواة الصلبة "معركة دهاء"

الزي | المتواجدون خزانة ليست بيضاء T، ولكن هل تعرف حقا كيف لمطابقة ذلك؟