تحليل على نطاق واسع متعدد اللغات أسلوب الترجمة العصبية آلة عالمية

الكاتب | تشن Hexuan

تحرير | دون لاين

في الوقت الحاضر، فإن الترجمة الآلية العصبية (NMT) في الأوساط الأكاديمية ومعظم آلة متطورة طريقة ترجمة هذه الصناعة. وبناء على هذا التشفير الأولي - كل للغة واحدة لترجمة فك بنية النظام الترجمة الآلية. وقد بدأ العمل مؤخرا لاستكشاف سبل لتوسيع نطاق هذه الترجمة بين لغات متعددة الدعم، التي هي قادرة على دعم الترجمة بين لغات متعددة من خلال نموذج التدريب فقط.

على الرغم من أن كانت معظم النماذج محول شعبية جدا تشجيع الترجمة الآلية بلغة واحدة لتعزيز الأداء، ولكن نظرا لذوي الاحتياجات الخاصة من أجل نموذج أبحاث الترجمة الآلية الترجمة متعددة اللغات بين عدد من المعلمات نموذج مثل متعدد اللغات الصعوبات نشر خدمة الترجمة. على الرغم من أن الكثير من NMT البحث متعدد اللغات موجود بالفعل، ولكن، لتحديد القواسم المشتركة بين اللغات ولنماذج متعددة اللغات على نطاق واسع في ظل سيناريوهات واقعية، لا تزال هناك مشاكل وتحديات.

A، MultilingualMachine الترجمة

يتم تنفيذ معظم الهدف العقلاني متعددة اللغات والترجمة الآلية من نموذج واحد يمكن ترجمتها إلى أي لغة الزوج. وإذا كان كل من لغة عن نظرة بأنها "لغة مصدر" - "اللغة الهدف" مثل لغة واحدة خاصة، ثم نموذج احتمال لا يزال يمكن التعبير عنها على النحو التالي:

وعلى الرغم من نماذج مختلفة ومختلفة خسارة الحساب، في دونغ آخرون اقترح نموذج، على سبيل المثال، عندما يكون عدد من حساب فقدان النموذج الداخلي، فإن حساب تعتمد على لغة محددة:

متعددة نموذج الترجمة الآلية لغة هناك عدد من الأسباب.

لنفترض أننا الآن بحاجة إلى جعل بين الترجمة N للغة، والنهج التقليدي هو تدريب طراز N (N-1) عشر الترجمة، لو كان من خلال بعض لغة وسيطة، لا تزال بحاجة إلى تدريب 2 (N-1) عشر الترجمة نموذج. عندما تحتاج إلى ترجمة لغة عدد N هو كبير نسبيا عندما نموذج المقابلة سوف يتطلب الكثير من التدريب، ونشر، وتنفق الكثير من القوى البشرية والموارد. من خلال التصميم الرشيد والتدريب، والوصول إلى نموذج واحد لتحقيق الترجمة بين اللغات التالية، وسوف تقلل إلى حد كبير في سماء المنطقة.

بسبب التدريب المشترك والمعرفة المكتسبة من لغة الهجرة الموارد عالية، ويحسن نموذج متعدد اللغات في البلدان المنخفضة الموارد الصفر أو الترجمة حتى من أداء الموارد. ومع ذلك، فإن هذا يؤدي أيضا إلى التدخل عالية إلى موارد التدريب اللغوي الأصلي مما يقلل من الأداء. مع تحسين الأداء التي تم الحصول عليها ما زال يمثل مشكلة التحدي.

من وجهة نظر التعيين بين اللغة، واللغة على أساس عدد من الغايات اللغة المصدر واللغة الهدف تغطيتها، NMT في نموذج متعدد اللغات، وهناك ثلاث استراتيجيات، بما في ذلك العديد من واحد، وكثير لكثير. كثير-لنموذج تعلم أي لغة الترجمة في اللغة المصدر إلى نهاية الهدف من نهاية لغة محددة، في هذه الحالة عادة ما تختار لغة الجسم الغنية مثل اللغة الإنجليزية، مثل نماذج عديدة من تعلم لغة ستنتهي في مصدر ترجمة اللغات في طرفي اللغة الهدف. غالبا ما ينظر إلى هذا النمط كما هو وكثير من لكثير من مجالات مشاكل في التعلم، مماثلة لإدخال لغة مصدر التوزيع المحطة غير متناسقة، ولكن سيتم ترجمتها إلى لغة الهدف. والكثير من هذا النموذج يمكن أن ينظر إليها على أنها مشاكل متعددة المهام، على غرار كل من اللغة المصدر إلى اللغة الهدف كمهمة منفصلة. هذا الوضع هو مجموعة من العديد من هذين الوضعين.

بغض النظر عن اللغة المصدر واللغة الهدف لتعزيز عدد من لغة إلى جنب نهاية، ويستند متعددة اللغات نموذج الترجمة الآلية أيضا على المعرفة بين "المجالات ذات الصلة" و "المهام ذات الصلة" تأثير الهجرة.

وعلى الرغم من متعدد اللغات NMT كانت العديد من الدراسات، ولكن هذه الدراسة هناك لا تزال محدودة للغاية، والتحقق من عدد من اللغات يقتصر. على الرغم من أن الأداء التي يمكن تحقيقها في نموذج واحد قادر على لغة نطاق واسع يستحق الدراسة، ولكن هناك الكثير من الصعوبات: تعلم كيفية الهجرة بين لغة مختلفة؛ الحد من نفسها نموذجا المعلمات والقدرة على التعلم. في الموارد اللغوية على نطاق واسع المدرجة في البيانات منخفضة والموارد عالية (مثل هو مستوى التباين من خلال مقارنة الكمية الكلية للبيانات) ومشكلات في الأداء على لغات متعددة الترجمة الآلية تمت دراستها على نطاق واسع ومناقشتها.

، واستراتيجية التدريبية الثانية

مقارنة مع طريقة واحدة لتدريب نموذج الترجمة، نظرا لنماذج مختلفة وتوزيع البيانات والتدريب متعدد اللغات تختلف اختلافا كبيرا. بسبب بيانات متعددة اللغات يتكون من البيانات لغات مختلفة، وحتى هناك اختلافات في عدد من لغات مختلفة، وهناك مشكلة البيانات غير متوازن. وهذا يجعل استخدام الأداء نموذج والحد إذا لواحد على واللغات أساليب التدريب سوف تؤدي إلى نفس سياسات الناتجة عن ذلك. جيد جدا لوضع استراتيجية لتدريب متعدد اللغات نموذج الترجمة الآلية هو شيء أكثر أهمية.

وبالنسبة للمرحلة تدريب نموذجية، يحدد هيكل نموذج مختلف استراتيجيات مختلفة. دونغ وآخرون. متعدد اللغات والترجمة الآلية للعديد من الترميز تصميم طريقة واحدة وأجهزة فك التشفير منفصلة تعددية هيكل نموذج اللغة، في هذا الهيكل، وذلك باستخدام طريقة التناوب لتحديث معالم النموذج، وتحديث عملية تكرارية، ودفعات المجاورة الثابتة ن البيانات هي نفس اللغة، لغة مختلفة بالتناوب في وقت واحد بنفس الطريقة، حتى أن بيانات هذه الاستراتيجية "دفعة" في نقطة تدريب العرض للحصول على لغة واحدة سوف يصبح كبير، وحجم دفعات البيانات ن. جونسون وآخرون مع هيكل نموذج أكثر بساطة، ونموذج آلة الترجمة للزوج واحد من اللغات هو نفسه فقط باستخدام المبرمج وبنية فك الترميز، وإضافة تظهر فقط للجملة مصدر المستهدفة دون ترجمة لغة بادئة يحدد نموذج المدربين، هذا الهيكل هو نموذج بسيط للغاية من تدريب نموذج ينتج ضغطا كبيرا، بسبب البيانات الخلل، الإفراط أو undersampling الطريقة، حتى في بناء دفعة واحدة هو أيضا بناء نسبة معينة عدد من لغات مختلفة.

وتشمل استراتيجية التدريب أيضا لأساليب التدريب غير خاضعة للرقابة (سين وآخرون. )، وتكرير المعرفة (تان وآخرون. )، وكذلك إضافة لغة جديدة في الأصلي متعددة اللغات والترجمة الآلية (Escolano آخرون ) واستراتيجيات التدريب المختلفة الأخرى.

ثالثا، على نطاق واسع متعدد اللغات الترجمة الآلية

من أجل استكشاف كمية هائلة من تعلم لغة نموذج على أقصى حد واحد. أهاروني وآخرون. أجريت دراسة وتنفيذ عدد كبير من التجارب.

التجارب باستخدام ها آخرون ، جونسون وآخرون وتمكين الترجمة في مصدر البيان العديد من الباطن. اهتمام نموذج ترجمة يستند كليا على استخدام الهندسة المعمارية نموذج محول (فاسواني آخرون ). في كل التجارب، واستخدام BLEU (واخ Papineni ) التعليقات الطريقة. في تدريب نموذج، دفعة واحدة من البيانات مختلطة من لغات مختلفة. تجربة مجموعة البيانات الداخلية. يتضمن مجموعة البيانات 102 نوعا من اللغات، منذ بعضها البعض بين اللغة، فإنها يمكن أن تكون "صورة طبق الأصل" التحويل والإنجليزية، واللغة في كل من يصل إلى 1 مليون عينة. ونتيجة لذلك، ما مجموعه 103 نوعا من اللغات يمكن ترجمتها، وأيضا تدريب 204 أنواع الترجمة الاتجاه.

التجربة مع عائلات لغوية مختلفة اختيار 10 لغات:

سامية (العربية (ع) والعبرية (هو))؛ الرومانسية (الجاليكية (GL) والإيطالية (ومن)، والرومانية (رو))؛ الجرمانية (الألمانية (دي) والهولندية (نيكولا لانغ))؛ السلافية (البيلاروسية (كن) والسلوفاكية. (س.خ)) والتركية (أذربيجان (من الألف إلى الياء)، التركية (tr)).

هيكل نموذج

النموذج التجريبي المستخدم هو هيكل محول، كما هو موضح في الشكل (1).

FIG 1 محول هيكل نموذج

لمزيد من التفاصيل يرجى الرجوع إلى فاسواني آخرون العمل.

النتائج التجريبية

الجدول 1 هو من 10 لغات وترجمة إنجليزي كثيرة، وكثيرة لكثير النتائج التجريبية.

حيث يبين الجدول الترجمة من الانجليزية الى 10 نتائج لغات الترجمة، ويبين الجدول التالي ترجمة من الإنجليزية إلى 10 لغات.

الجدول 1 ارتفاع العديد من الموارد البيانات، كثير لكثير، والنتائج

تحليل

في التجربة، و 103 نوعا من لغة يبني للغة الإنكليزية كمركز للمتعدد اللغات الترجمة الآلية.

في حالة نفس البيانات، متعدد اللغات نموذج لكثير، كثير لكثير وكثير إلى أعلى من يظهر نموذج أحادي أن هذا النموذج لديه القدرة على تدريب في وقت واحد أكثر اللغوية المطابقة تماما. ولكن بعض من لغة كانت لا تزال هناك درجة عالية من التقلب وأقل من نموذج أحادي المقابلة. هذا يظهر أيضا أن في هذا الإطار، كان بعض من اللغة اضطراب كبير نسبيا مثل الإيطالية-الإنجليزية.

وضع نموذج متعدد اللغات، وكثير، كثير نموذج لكثير من معظم الأداء. مرة أخرى، قد تكون هذه الميزة نظرا لأقل كثير وكثير إلى نموذج معالجة المهام، بدلا من النموذج العديد إلى نهاية كهدف منحازة لصالح اللغة الإنجليزية. من بينها، لا يزال هناك كثير لكثير أضعف لغة، وذلك لأن الهدف النهائي لعدد كبير من البيانات الإنجليزية، قد يكون إمكانات بسبب الهجرة من التعلم والتشابه بين اللغة الجانب فك أكثر من المناسب المشكلة.

وتشير هذه النتائج إلى أن عددا كبيرا من متعدد اللغات NMT يمكن في الواقع أن تستخدم في بيئات واسعة النطاق، ويمكن أن تحسن الأداء على خط الأساس بلغتين قوي.

مشكلة

وعلى الرغم من وجود عدد كبير من اللغات التي تمت إضافته، والتي تبين احتمال وجود نموذج واحد للترجمة متعددة اللغات. ولكن في حالة وجود لا تزال محدودة نسبيا، وقد أثبتت حقيقة أن كتلة لغة واحدة لتكون قادرة على جدا تحسين القدرة على ترجمة هذا النموذج، ولكن في الأداء متعدد اللغات الوقت نفسه من هذه المبالغ الضخمة من البيانات لم تكن أدلة معقولة، في حين أن نوعية البيانات المستخدمة في التجربة هي مرتفعة نسبيا، في الواقع، جمعت البيانات سوف يكون هناك الكثير من الضجيج، سيتم فقدان نموذج الأداء.

IV ملخص و Outlook

منذ مفهوم NMT متعددة اللغات تم اقتراح والأوراق ذات الصلة بعد آخر. في السنوات الأخيرة، وعلى نطاق واسع متعدد اللغات الترجمة الآلية لاستخدامها في الممارسة كما تم دراستها على نطاق واسع (أهاروني وآخرون. ، Arivazhagan، الذي )، توفر دعما قويا للاستخدام في العالم الحقيقي أكثر تعقيدا.

هذا على نطاق واسع متعدد اللغات الترجمة الآلية تتوقعه ميزات ممتازة ما يلي:

1. الحد الأقصى لعدد اللغات في نموذج واحد للنظر فيها. في النموذج الترجمة متعددة اللغات يمكن أن يكون أفضل، ويمكن توفير المزيد من الموارد؛

2. الحد الأقصى لنقل إيجابي المعرفة من الأعلى إلى الموارد منخفضة اللغة الموارد لغة. هذا لن تكون قادرة على الحصول على موارد عالية الأداء في اللغة، ولكن أيضا يمكن تحسين أداء اللغوية المطابقة تماما قليلة الموارد، والاستفادة الكاملة من البيانات.

3. الحد الأدنى للاضطراب في الموارد عالية لغة (نقل سلبي). لتجنب تأثير سلبي من العوامل الأخرى على التدريب على اللغة الموارد عالية.

4. قوي نموذج NMT متعددة اللغات، في واقع أداء جيدا في تعيين حقل مفتوح. نشر التعليمات واستخدام واقعية.

على الرغم من التقدم الكبير المحرز الحالي، متعددة اللغات والترجمة الآلية لا يزال لديه الكثير من المشاكل والتحديات.

مراجع

دا الحادي عشر angDong، هوا وو وى و، Dianhai يو، وهاى فنغ وانغ. 2015. متعددة المهام learningfor الترجمة متعددة اللغات.

ملفين جونسون، مايك شوستر، كووك V لو، multilingualneural نظام الترجمة الآلية وآخرون عام 2017. جوجل: تمكين الترجمة صفر النار.

SukantaSen، ديكودر كمال كومار غوبتا، آصف اقبال، Pushpak ما باتاشاريا .2019.MultilingualUnsupervised NMT باستخدام التشفير المشتركة واللغة-محددة

XuTan، يي رن، دي و، تاو تشين تشو تشاو، تعادل يان Liu.2019. الترجمة NeuralMachine متعدد اللغات مع تقطير المعرفة

CarlosEscolano، مارتا R. كوستا juss، خوسيه A. R. Fonollosa.2019. من آلة بلغتين toMultilingual العصبية الترجمة من قبل تدريب تزايدي

ثانه، لو ها، يناير نيهوس، والكسندر Waibel. 2016. نحو الترجمة الآلية multilingualneural مع ترميز عالمي وحدة فك الترميز.

أشيش فاسواني، نعوم Shazeer، نيكي بارمار، جاكوب Uszkoreit، Llion جونز، AidanN غوميز، اللاعب ukasz كايزر، وإيليا Polosukhin.2017. الاهتمام هو كل ما تحتاج.

كيشور Papineni سالم Roukos، ل دد وارد، andWei- جينغ تشو 2002. بلو :. Amethod لتقييم التلقائي الترجمة الآلية.

نافين Arivazhagan، أنكور Bapna، أورهان فرات، ديمتري Lepikhin، ملفين جونسون، ما الحادي عشر . M Krikun، ميا شو تشن يوان تساو، جورج فوستر، كولن الكرز، WolfgangMacherey، تشى فنغ تشن يونغ هوى وو 2019. واسع العصبية متعدد اللغات ترجمة آلية في البرية: النتائج والتحديات

Roee أهاروني، ملفين جونسون، أورهان فرات. 2019. واسع متعدد اللغات NeuralMachine الترجمة

تشن Hexuan وطلاب الدراسات العليا والبحوث الطبيعية مختبر معالجة اللغات، جامعة نورث هي الترجمة الآلية.

مافريكس الترجمة، عضوين أساسيين من مختبر شمال شرق جامعة الطبيعية اللغة المعالجة، التي أنشأتها أستاذ ياو Tianshun ل 198 0 سنوات، يقودها حاليا أستاذ تشو جينغ بو، والدكتور شياو تونغ، تعمل في مجال البحوث في اللغويات الحاسوبية، بما في ذلك الترجمة الآلية، التحليل اللغوي والتعدين النص. دعم فريق R & D 140 مافريكس اللغات وقد تم استخدام نظام الترجمة الترجمة على نطاق واسع والعجل المتقدمة سحابة الترجمة (https://niutrans.vip) السماح للتكنولوجيا الترجمة الآلية التي تمكن المؤسسات العالمية.

الصواب والخطأ، "العمة مايو" خارج مكشطة، ما يجب أن تشعر بالقلق إزاء؟

ضبطت عندما يسرق رجل والكهربائية البيع بطارية السيارة من البضائع المسروقة

191124 مبروك تشنغ تشنغ إعادة اكتشاف صورة شخصية المهارات أنيق مع لديك صورة شخصية الابن إلى الوراء

فريق سيتشوان مينغ دا فوز الاعصار الثالث في فريق شاندونغ لاتخاذ النصر بعيدا الأول من الموسم

191124 المدونين تشو Zhengting الحياة على خط الأعمال من نفس الفقرة الطفل قطعة واحدة الأدبية التي تستحقها

191124 تساى شو كون أن المعلم ikun الأجر الصور الشخصية للعمل ذلك! الزي الجمهورية قليلا سيد بسيطة الرجعية خارج

فاز في الدوري الممتاز مدرب شهر! لى شياو بنغ: هذا هو تشجيع لهم

ديربي 2.0 ضرب العاصمة الليلة، والحصان، سون يو، جيريمي وغيرها وو كه سونغ تجمعوا

191124 تبريد مواعيد تجميد على خط الصباح لى يى فنغ تشينغداو، وشيامن

الموضة في باريس في معرض تصميم المنزل Sandriver الحوار العالمي الفن التشكيلي بيده الكشمير

تشونغتشينغ سوازيلاند إلى التحدي شاندونغ لونينغ، قبل المنافسة القاتل التدريب

رد وزارة GuoZiHao التي تم تحديدها، وكان اسمه Gujing تقطير المركز الوطني التصميم الصناعي