AAAI 2020 | الحاسبات وقناة الصغرى AI: أهداف التدريب تحسين، لتعزيز جودة الترجمة من نموذج غير autoregression (مفتوح بالفعل)

يتم احتساب هذه المقالة مساهم في شبكة لى فنغ AI تكنولوجي ريفيو التي كتبها شاو Chenze أو استنساخها دون إذن المحظورة.

وقد يتم احتساب هذه المادة من قبل مجموعة يانغ فنغ وتينسنت قناة الصغرى فريق منظمة العفو الدولية معا لإكمال، وقال انه تم التعاقد معه ورقة AAAI2020 "التقليل من الفرق حقيبة من بين Ngrams لعدم نماذج الانحدار الذاتى والعصبية الترجمة الآلية" لتفسير الأعمال ذات الصلة مفتوحة المصدر.

الرسالة: الشبكي: //arxiv.org/pdf/1911.09320.pdf الرمز: الشبكي: //github.com/ictnlp/BoN-NAT

خلفية: غير متمتع بالحكم الذاتي الانحدار نموذج

الترجمة قبل التيار الرئيسي العصبية نموذج الترجمة الآلية الحالية هي نموذج autoregression، في كل خطوة من ترجمة الكلمة تعتمد على تشنغدو الخام، بحيث نموذج يمكن أن تولد كلمة فقط عن طريق الترجمة كلمة، إلى إبطاء عملية الترجمة. غير قو آخرون الانحدار نموذج العصبي الترجمة الآلية (NAT) لإنشاء كلمة الهدف النمذجة مستقل، حكما يمكن ترجمتها فك بالتوازي مع ذلك، إلى حد كبير تعزيز سرعة ترجمة للنموذج.

ومع ذلك، نموذج غير ذاتية الانحدار على جودة الترجمة وautoregression نموذج لديه فجوة كبيرة، وذلك أساسا عن سوء الآثار ترجمة نموذج على الجمل الطويلة، والترجمة على أكثر من الكلمات المتكررة السهو والخطأ، وذلك أدناه:

الشكل 1: NAT المتكررة أخطاء الترجمة كلمة والسهو. NAT: غير متمتع بالحكم الذاتي الانحدار نموذج، AR: نموذج الانحدار الذاتي

عندما وظيفة فقدان عبر الكون الناجمة عن نموذج غير ذاتية الانحدار تأثير ترجمة الفقيرة من الأسباب الرئيسية للتدريب على استخدام غير دقيقة. من جهة، على مستوى كلمة الخسائر عبر الكون لكل منصب على التنبؤ بنتائج تقييم مستقل، من الصعب نموذج تعتمد على تسلسل العلاقة، ومن ناحية أخرى، طلبت فقدان عبر الكون لتوقع نتيجة المحاذاة صارمة مع النموذج المرجعي الترجمة، وإلا فإنه من الصعب تقييم نموذج جودة الترجمة. كما هو مبين في الشكل 2،

الشكل 2: عندما المنحرفة، وفقدان عبر الكون لا يمكن إعطاء دليل دقيق

عندما لا تتماشى التوقعات مع الترجمة المرجعية، على الرغم من أن كلا الدلالي وثيقة للغاية، وفقدان الكون عبر أو سوف تصبح كبيرة جدا، ونماذج تعطي تعليمات خاطئة.

الأعمال ذات الصلة

وردا على هذه الوظيفة فقدان عبر الكون ليست دقيقة، قو، الذي سيتم تصنيفها على أنها "متعدد الوسائط" الترجمة، وهذا هو الحكم الصحيح قد يكون العديد من الترجمات، واقترح إدخال المتغيرات الخفية للحد من عدم اليقين الترجمة الجنس. وفي وقت لاحق، يتم تقديمها منفصلة المتغيرات الخفية، والتباين من التشفير، استنادا إلى معلومات الموقع من المتغيرات مخبأة في نموذج غير ذاتية الانحدار، حققنا يعزز إلى حد كبير تأثير.

طريقة المتغيرات الخفية أيضا بعض أوجه القصور، وهي نماذج من المتغيرات الخفية سوف يقلل من معدل ترجمة نموذج غير ذاتية الانحدار، والمتغيرات الخفية الصعب القضاء عليها تماما لعدم وضوح الترجمة، والمشكلة ليست دقيقة فقدان الكون عبر لا يزال موجودا.

وثمة نهج آخر هو استهداف نموذج الانحدار غير تدريب الذاتي لإدخال تحسينات، ويستند هذا المقال أيضا على هذه الفكرة. وانغ، الذي انضم مباشرة في أهداف التدريب تنظيم المدى من أجل نموذج مكرر قمع من أخطاء الترجمة والسهو. شاو وآخرون تسلسل المعلومات في النموذج، خوارزمية تعزيز التعلم لتحسين مستوى تسلسل التدريب، وهو مؤشر أكثر دقة من مستوى تسلسل لتدريب النموذج.

فوائد الطريقة المذكورة أعلاه هي قادرة على تعزيز النموذج دون التأثير على سرعة ترجمة جودة الترجمة. ومع ذلك، مصممة فقط لهذه المشكلة التي لوحظت في الترجمة، وأنها لا تحل المشكلة جذريا. منذ مؤشرات مستوى تسلسل منفصلة، ونحن لا يمكن أن تحسب بدقة التدرج وظيفة الخسارة، فمن الضروري استخدام التعزيز خوارزمية تعلم أن تفعل تقدير الانحدار. وبالإضافة إلى ذلك، خوارزمية تعزيز التعلم المستخدمة سرعة بطيئة، ويمكن استخدامها فقط لصقل مرحلة النموذج.

طرق

لفقدان عبر الكون ليست دقيقة، وهذا النموذج غير ذاتية الانحدار المقترحة أهداف التدريب على أساس أكياس ن الصفوف (tuple) (حقيبة من بين Ngrams، BON)، على أمل تقليل ترجمة النموذج المرجعي بين أكياس ن الصفوف (tuple) الخلافات. التقييم على مستوى التدريب المستهدف نتيجة التنبؤ ن الصفوف (tuple)، فمن الممكن أن تسلسل نموذج التبعية، ن الصفوف (tuple) أكياس الأمثل مباشرة لا حساسية لموقف المطلقة، دون تتماشى قيود. هو مبين في الشكل الثالث، وعندما لا يتم محاذاة نتيجة التنبؤ مع الترجمة إشارة، يمكن للهدف التدريب هو تقييم دقيق لجودة الترجمة.

الشكل (3): ن الصفوف (tuple) على أساس حقيبة تدريبية الهدف

اقترح بون تدريب يهدف إلى جعل كيس من ن-الصفوف (tuple) من الفرق بين النموذج المرجعي والتقييم الكمي للترجمة، وذلك لتشجيع الجيل نموذج الترجمة أقرب إلى ترجمة المرجعية، هل وصف مفصل التالية منه، وينقسم إلى ثلاث خطوات: بون تعريف وحساب، وتحديد وحساب طريقة التدريب عن بعد بون.

بون تعريف وحساب الافتراضات حجم المفردات هو V، لجملة من طول T، Y = (Y1، ......، YN)، والذي يعرف عموما ن الصفوف (tuple) باعتباره طول الكيس من ناقلات V ^ ن، يشار إلى عظمي، فمن الممثلين البعد من كل ن الصفوف (tuple) ز = (G1، ......، حسن الجوار) من عدد الحوادث على النحو التالي:

حيث وظيفة مؤشر 1 {} هي، عندما اقتنعت حالة إذا كان قيمة 1 و 0 خلاف ذلك. العصبية نموذج الترجمة الآلية، بسبب النمذجة احتمالي لها الترجمة ترجمة من كامل المساحة للتوزيع، والتعريف المذكور أعلاه لا ينطبق مباشرة. ولذلك، فإننا نعتبر جميع الترجمات المحتملة لكل بون الترجمة وفقا لتعريف الاحتمال المرجح القيمة المتوقعة من نموذج بون بون. لنفترض أن المعلمات طراز ، من ترجمة الأصلي احتمال X الترجمة Y هو P (Y | X، )، ثم نموذج تعريف BoN على النحو التالي:

(2) أين طريقة طبيعية جدا لتحديد بون نموذج، ولكن كما أن لديها مشكلة كبيرة: حجم فضاء البحث هو الأسي، فمن الصعب حساب. كنا خصائص نموذج الانحدار في كل موقف يتنبأ بشكل مستقل من احتمال عدم الذاتي الترجمة (2) صيغة تحويل كما يلي:

ملاحظات (3) حيث 2-3 صفوف من التحويل إلى غير محددة منذ نموذج النمذجة الاستقلال الاحتمالية الانحدار، وبالتالي (3) اشتقاق صالحة فقط لنموذج غير الانحدار. عن طريق تحويل (3)، ونحن لم تعد في حاجة إلى اجتياز جميع الترجمات المحتملة، يلخص كل المواقف حول احتمال ن الصفوف (tuple) ز ز سوف تكون قادرة على الحصول على العدد المتوقع من الحوادث BoN (ز). في FIG الصفوف (tuple) ز = ( 'الحصول على'، 'حتى') على سبيل المثال، يظهر طريقة حساب نموذج BoN.

الشكل 4: 2-الصفوف (tuple) من ( 'الحصول على'، 'حتى') احتساب العدد المطلوب من الحوادث

تحديد وحساب المسافة بون بون بعد الانتهاء من تعريف النموذج المرجعي والترجمة، يمكننا تحديد مؤشر المسافة لقياس الفجوة بين بون اثنين، المؤشرات المستخدمة عادة من المسافة L1، L2 المسافة، المسافة جيب التمام. وأشار، على طول ن الصفوف (tuple) من الحقيبة هو V ^ ن، على الرغم من أننا نفعل حساب لكل بعد لتبسيط BoN لها (ز) في أعلاه، ويحسب أن يكون V ^ n مرة للحصول على BON ناقلات كامل ، وكمية من حساب يتطلب مساحة تخزين كبيرة جدا. ولذا فإننا مرغوب فيه لتحديد مقاييس مسافة مناسبة، لذلك نحن لسنا بحاجة إلى كامل BoN ناقلات الحساب، وتبسيط حساب أخرى. من ما سبق (1)، وتعريف (2) ينظر، BoN نموذج متجه غير كثيفة، كل موقف وقيمة غير صفرية، ناقلات الجملة عظمي هي متفرق، موقف فقط قيمة غير صفرية قليلة. باستخدام هذا النوع، يمكننا القيام به لتبسيط حساب L1 المسافة بين ناقلات البلدين. أولا، تفترض أن طول الترجمة T، وهما يموت طول ناقلات L1 بون هي T-ن + 1:

وبناء على هذا، وبعد المسافة بين L1 متجهين بون يلي:

حدسي، القسم دقيقة (6) في الصيغة يمثل عدد من المباريات مع النموذج المرجعي في الترجمة على مستوى ن الصفوف (tuple)، وكلما زاد عدد من المباريات، وأصغر مسافة L1 بين ناقلات اثنين بون. معظم ناقلات باستخدام عظمي قيمة تبعثر، و0، نحن بحاجة فقط وظيفة دقيقة للنظر في العديد من غير الصفر موقف عظمي يحسب عدد من المباريات مع النموذج المرجعي MR-الصفوف (tuple) ن، لحساب كل من N- حقيبة مجموعة مسافة بون-L1. في وصف أسلوب التدريب أعلاه، نعطي تعريف وطريقة سريعة لبون بون بين المسافة ليرة لبنانية. في هذا القسم، فإننا نموذج غير الذاتي الانحدار لجعل وصفا محددا التدريب عن بعد بون. أولا، من أجل ضمان استقرار العملية التدريبية، ونحن سوف بون المسافة تطبيع فقدان بوصفها وظيفة من:

أساليب التدريب مماثلة تقوم على تعزيز التعلم مستوى تسلسل، يمكننا أن أول استخدام فقدان عبر الكون من المدربين قبل نموذج غير الانحدار، ومن ثم صقل فقدان بون نموذج، وبهذه الطريقة سوف يكون اسمه بون-FT.

وبالإضافة إلى ذلك، ويرجع ذلك إلى فقدان بون المقترحة سريع جدا ويمكن أن يؤدي مباشرة في الحساب، يمكننا أيضا فقدان بون وفقدان عبر الكون لنموذج الانحدار التدريب المشترك المرجح غير المتمتعة بالحكم الذاتي، وكان اسمه هذا الأسلوب بون المشتركة.

مزيج من اثنين من فوق الطرق، يمكننا أن نموذج التدريب أولا مشترك، ومن ثم صقل نموذج وحده مع فقدان بون، وكان اسمه هذا الأسلوب بون المشتركة + FT.

تجربة

ورقة WMT14 أون-دي، WMT16 أون-رو، IWSLT16 أون-دي ثلاث مجموعات البيانات، التجارب التي أجريت على الترجمة الاتجاه خمسة، والنتائج هو مبين في الشكل V.

الشكل 5: التجربة، تحسنت الطريقة المقترحة والنموذج الأساسي من طريقة تعزيز التعلم على ثلاثة مجموعات البيانات بشكل ملحوظ

اقترحت على النقيض بون-FT-وتعزز NAT، يمكنك ان ترى خسائر بون تدريب أفضل على مستوى تسلسل وأسرع. ونسبيا بون-FT تحسنت طريقة بون المشتركة بشكل ملحوظ، مما يدل على الحاجة إلى تدريب بحيث فقدان بون من المشاركة الكاملة، وهو فقدان بون تعزيز النسبي من مزايا التعلم: التعلم لتعزيز سرعة التدريب هي بطيئة جدا، وعموما تستخدم فقط لصقل النموذج. للحصول على أفضل بون المشتركة + FT، والطريقة التي تقليم المرحلة النهائية، ولكن أيضا رفع طفيف النسبي بون المشتركة، على WMT14 أون-دي بيانات بلغت نحو القيم رفع 5 BLEU.

كما فعلت المادة تجارب على فقدان الارتباط بون وفقدان عبر الكون وجودة الترجمة. نحن WMT14 En- > مجموعة تنمية دي للتجربة، وتطوير مجموعات من 3000 قسمت عشوائيا إلى جمل 100 مجموعات، 30 لكل منهما. ونحن نعتقد أن ما يقرب من قيمة BLEU يمكن أن تمثل نموذجا للجودة الترجمة، بون نموذج حساب الخسارة في كل مجموعة، وفقدان نتائج الترجمة القيم BLEU عبر الكون، وتم الحصول على فقدان بون، عبر قيمة معامل الارتباط من فقدان BLEU الكون، كما هو مبين في الجدول.

الجدول: معامل عبر ارتباط بون فقدان الكون وفقدان جودة الترجمة

يظهر الجدول الأول أنه في حالة ن = 2، وارتباط بون أفضل ترجمة فقدان الجودة، وأقوى بكثير من الخسائر عبر الكون. لذلك، يمكن فقدان الانتاج بون تقييم أكثر دقة نموذج لنموذج غير الانحدار من التدريب الذاتي. نحن مختلفون حيث طول الجملة من تحليل الارتباط، ومجموعة التنمية من خلال طول الجملة تنقسم إلى مجموعتين كل تحتوي على جمل 1500، وفقا للطريقة المبينة أعلاه لحساب الخسارة بون فقدان عبر الكون في المجموعة قصيرة والجمل الطويلة ارتباط في المجموعة الجملة، كما هو مبين في الجدول اثنين.

الجدول الثاني: في مختلف طول الجملة، عبر معامل الارتباط فقدان الكون وفقدان جودة الترجمة من بون

يبين الجدول 2 الخسائر الكون عبر في زيادة طول الجملة، ونوعية وأهمية الترجمة انخفضت بسرعة، في حين أن فقدان بون للحفاظ على علاقة العالي في الجمل الطويلة. هذه الظاهرة يتماشى تماما مع توقعاتنا، في حالة الجمل الطويلة، وليس الانحياز ظاهرة مماثلة إلى الشكل الثاني هو أكثر من المحتمل أن تحدث، وبالتالي فقدان عبر الكون من الدقة ومزيد من الانخفاض. فقدان بون استنادا إلى نموذج الانتاج ن الصفوف (tuple) لتقييم الحقيبة، لذلك لا يؤثر على ظاهرة المحاذاة.

الاستنتاجات

في هذه الورقة، نموذج غير ذاتية الانحدار عبر فقدان الكون مشكلة غير دقيقة، وفقدان بون بناء على كيس ن الصفوف (tuple). تبين التجارب، وفقدان بون وجودة الترجمة هي أكثر أهمية، مع نموذجها autoregression غير التدريب، يمكن أن تحسن بشكل كبير من تأثير ترجمة للنموذج. في العمل مستقبلا، من جهة، ونحن نريد لاستكشاف المزيد من نموذج غير الانحدار من أساليب التدريب الذاتي، ومن ناحية أخرى، نحن لا نريد أن يكون مقصورا على نموذج غير ذاتية الانحدار، المشار إليها سيتم تطبيق هذه الوثيقة إلى فقدان بون المزيد من المهام معالجة اللغة الطبيعية.

وذكرت شبكة لى فنغ.

أكثر AAAI 2020 تشير أوراق القراءة لشبكة لى فنغ المواد الأخرى: الشبكي: //www.leiphone.com/special/custom/meetingVideo.html من = SY؟

ICLR 2020 | آخر NAS القياسي: 0.1 ثانية لإكمال خوارزمية البحث NAS

الشبكات العصبية الاصطناعية بسيطة جدا، "العلم" كشفت عمل جديد التشعبات العصبية أيضا ضمنيا الحوسبة السلطة

الشبكة العصبية النظرية الافتراضية لا طائل من ذلك؟ تويتر، رديت مزدوجة النقاش ساحة المعركة، الناري

أول "مسابقة الذكاء الاصطناعي الوطني" كانت النتائج خارجا! 1000000 $ جائزة أعلى

الروبوت إعادة التأهيل للتعافي من الإيكولوجية، ومنطق ذكي العالمي فورييه

أعيدت 18 الأضاحي رماد فريق مكافحة الحرائق في جنوب نينغشيا، وعشرات الآلاف من الناس من "اتخاذ المنزل بطلا".

الزهور واحدا تلو الآخر لعلامة 2728 شهيدا، يانتاى خروف شؤون المحاربين القدامى إجلالا لشهداء

واحد ملصقات نقطة | اليوم، ياوتشنغ ثم نرحب انتصار 20 عامل طبي

رائحة المنطقة الساخنة | انخفضت الواردة الهواء البارد شاندونغ أدنى درجة الحرارة إلى 0 ! جينان الكانولا جميلة مفتوحة حقل زهرة

انفجر! حلقة حديقة صناعية تشنغيانغ حريق انفجار، تصاعد الدخان من موقع الحادث

تعازي! توفي ما لا يقل عن 59 عاملاً في المجال الطبي منذ الوباء ، يرجى تذكر هذه القائمة

الشرطة يهاى في مواقع مختلفة الصمت، لأشيد الأبطال