دوائر | راء بيرت وGPT، مايكروسوفت للبحوث آسيا، والمصدر المفتوح نموذج جديد MASS

فوز بيرت في تسلسل للغة الطبيعية تسلسل المهام جيل!

AI تقنية الصحافة : منذ عام 2018، قبل التدريب مما لا شك فيه المعالجة الطبيعية للغة (NLP) واحدة من المناطق موضوع البحث الأكثر شعبية. باستخدام بيرت، GPT وXLNet غيرها من نموذج لغة مشتركة، جعلت الباحثين في مجال فهم اللغة الطبيعية اختراقات كثيرة هامة. ومع ذلك، فإن تسلسل المهام الجيل اللغة الطبيعية لتسلسل، وهذه الأساليب السائدة ما قبل التدريب لم تجلب تحسينات كبيرة، ردا على ذلك، اقترحت مايكروسوفت للبحوث آسيا أساليب ما قبل التدريب عالمية جديدة --MASS، في هذه المهمة GPT يمكن الحصول على أكثر من بيرت ونتائج أفضل.

مقدمة

بيرت وXLNet في اللغة الطبيعية المهام فهم: نجاحا كبيرا (مثل تصنيف المشاعر، اللغة الطبيعية فرقة المنطق والفهم القراءة) الجوانب. ومع ذلك، مجال البرمجة اللغوية العصبية بالإضافة لمهمة فهم اللغة الطبيعية، وهناك العديد من تسلسل اللغة لتوليد سلسلة من المهام، مثل الترجمة الآلية، وتوليد تلخيص النص، وتوليد الحوار والأسئلة والأجوبة، وتحويل نمط النص. لهذه المهام، والتشفير - الاهتمام - التيار فك طريقة الإطار.

FIG التشفير - الاهتمام - إطار فك

كما هو مبين، وتسلسل مصدر التشفير X 1 كمدخل وتحولها إلى سلسلة ممثلة خفية، ثم المستخرجة المعلومات تسلسل فك التشفير من إظهار مخفية بواسطة آليات الإنتباه، وتولد تلقائيا تسلسل الهدف من النص Y .

XLnet بيرت وبشكل عام فهم لغة ترميز الطبيعي المدربين قبل، وGPT هو فك هو تدريب ما قبل النمذجة اللغة. عند استخدام بيرت وتسلسل GPT لتوليد تسلسل لغة مهمة، ونحن عادة ما تحتاج لوفك التشفير على التوالي قبل التدرب. في هذه الحالة، والتشفير - لم تكن آليات إطار فك والاهتمام التدريب المشترك - الاهتمام. ومع ذلك، فإن آلية اهتمام هو في غاية الأهمية في هذا النوع من المهام، وبمجرد أن عدم وجود سيؤدي إلى بيرت وGPT غير قادر على تحقيق الأداء الأمثل.

وهناك طريقة ما قبل التدريب الجديد

لتسلسل مهمة لتوليد سلسلة من اللغة الطبيعية، وآلة التعلم مايكروسوفت للبحوث آسيا واقترحت مجموعة أساليب ما قبل التدريب الجديدة التي ملثمين تسلسل لتسلسل ما قبل التدريب (MASS: ملثمون تسلسل إلى تسلسل ما قبل التدريب). MASS اخفاء عشوائي من طول المقطع ك للعقوبة، والتشفير - الاهتمام - فك إطار التنبؤ بأن ملثمين القطاع.

إطار FIG 2 MASS

كما هو مبين، فإن الجانب التشفير وملثمين 3-6 علامة 2، في حين أن الجانب فك الترميز، وملثمين توقع فقط العلم، في حين كانوا ملثمين علامات أخرى.

MASS قبل التدريب والمزايا التالية:

وملثمين العلامة الأخرى (في الجانب التشفير علامة غير المقنعة) فك الجانب، وبالتالي تعزيز مقتطفات فك معلومات إضافية لمساعدة التنبؤ شظايا الجملة مستمرة، وتعزيز التشفير - الاهتمام - التدريب المشترك بنية فك.
من أجل توفير المزيد من المعلومات المفيدة، يتم فرض التشفير لاستخراج معنى علامة غير المقنعة إلى وحدة فك الترميز، والتي قد تؤدي إلى تحسين القدرة على فهم تسلسل النص المصدر التشفير.
تم تصميم وحدة فك الترميز للتنبؤ علامات المتعاقبة (شظايا الجملة)، التي يمكن أن تحسن قدرة النمذجة لغة وحدة فك الترميز.

الإطار الموحد لمرحلة ما قبل التدريب

MASS هناك معيارا هاما على ك (طول شظايا ملثمين). من خلال تعديل قيمة ك، قد يكون ملثمين MASS النمذجة اللغة القياسية في لغة النمذجة بيرت وGPT في الجمع، وذلك لتمديد إلى ما قبل التدرب إطار MASS المشترك.

عندما ك = 1، وفقا لتصاميم علامة، وملثمين MASS الجانب التشفير، وسوف نهاية ملثمين من فك يتوقع العلامة، كما هو مبين في الشكل. فك المعلومات الجانب ليست المدخلات، وبالتالي فإن MASS يعادل نموذج اللغة لاخفاء بيرت.

FIG 3 ك = 1، يتم حجب جانب علم التشفير، وسوف نهاية فك التنبؤ علامة القناع

عندما ك = م (م هو طول تسلسل)، في MASS، ويخفي كل علامات على الجانب التشفير، وحدة فك الترميز ويتوقع كل علامات، كما هو مبين في الشكل. وحدة فك الترميز لا يمكن استخراج أي معلومات من الجانب التشفير، MASS يعادل نموذج اللغة القياسية في GPT.

FIG 4 ك = م، والجانب التشفير وحجب كل الكلمات، وسوف فك يتوقع كل العلامات ونموذج اللغة هو معيار يعادل GPT

يظهر قيم مختلفة ك في صيغة الاحتمال MASS في الجدول رقم 1، حيث م هو طول تسلسل، وملثمين u و v بداية شريحة والمواقف نهاية،

يتم حجب متواليات تمثيلية من علامة موقف يو لضد كما يمكن أن يرى، عندما ك = 1 أو م، ملثمين صيغة احتمال حكمه MASS نموذج اللغة والنموذج القياسي في لغة GPT بيرت.

صيغة احتمال الجدول 1 MASS في قيم مختلفة من ك

الباحثون لتحليل أداء MASS تجريبي بموجب القيم ك مختلفة، كما هو موضح في الشكل (5):

5 MASS أطوال مختلفة من اخفاء الأداء في إطار ك قبل التدريب وصقل المرحلة، بما في ذلك أ) قبل الجملة نموذج تدريب اللغة الإنجليزية من PPL ب) WMT13 الإنجليزية - الترجمة الفرنسية الجملة الفرنسية ج) WMT13 غير خاضعة للرقابة الإنجليزية - الترجمة الفرنسية BLEU قيمة د) قيمة ROUGE النص ولدت مقتطفات ه) الحوار ولدت PPL

عندما ك يساوي نصف طول الجملة، وهي مهمة المصب لتحقيق الأداء الأمثل لها. اخفاء نصف توازن جيد الجملة كلمة قبل التدرب جزء من وفك التشفير. إذا ما قبل التدرب تفضل نهاية التشفير (ك = 1، أي بيرت) أو تشتيت وحدة فك الترميز (ك = م، LM / GPT)، والأداء الأمثل لا يمكن تحقيقه، والذي أظهر أيضا تسلسل إلى تسلسل MASS مهمة مزايا الجيل اللغة.

تسلسل لتوليد مهمة اللغة تسلسل اختبار

قبل التدريب

ومن الجدير بالذكر أن، MASS يتطلب سوى غير خاضعة للرقابة قبل التدريب البيانات بلغة واحدة (على سبيل المثال WMT أخبار الزحف البيانات، ويكيبيديا البيانات، وما إلى ذلك). مهام الدعم MASS عبر لغة (مثل الترجمة الآلية) والمهام اللغة الواحدة (مثل توليد ملخص النص، جيل الحوار). باللغة الإنجليزية - مهام الترجمة الفرنسية مثل عبر لغة المدربين قبل، يمكن للباحثين الانجليزية في وقت واحد في نموذج واحد - الإنجليزية والفرنسية - الفرنسية قبل التدريب، واستخدام لغة إضافية ناقلات جزءا لا يتجزأ من لتمييز اللغة. في الترجمة الآلية غير خاضعة للرقابة، وانخفاض الموارد الترجمة الآلية، تلخيص النص توليد الحوار وتوليد أربعة مجالات والباحثين MASS صقل، للتحقق من صحتها.

دون رقيب الترجمة الآلية

معلومات مهمة الترجمة الآلية غير خاضعة للرقابة، وتمت مقارنة الباحثين MASS، بما في ذلك معظم أساليب متقدمة الفيسبوك XLM من قبل مع الطريقة السابقة. XLM باستخدام اخفاء نموذج تدريب ما قبل اللغة التي أنشأتها بيرت، وكذلك وقبل المدربين نماذج اللغة القياسية وفك التشفير.

وتظهر النتائج في الجدول رقم 2، MASS في WMT14 الإنجليزية - الفرنسية، WMT16 الإنجليزية - الألمانية والإنجليزية - على أداء ستة الترجمة الاتجاه الرومانية هي أفضل من XLM، والحصول على أحدث النتائج المثلى.

الجدول 2 مقارنة بين MASS من قبل على أساليب الترجمة الآلية غير خاضعة للرقابة، الإنجليزية - ذكرت الترجمة الفرنسية على newstest2014، والآخر يمكن العثور عليها في newstest2016، واستخدام XLM مجموعات بسبب مختلفة من الامتيازات وCLM في وفك التشفير، وبالتالي يتم عرض التقرير على كل لغة BLEU أعلى قيمة على XLM

انخفاض الموارد الترجمة الآلية

يشير انخفاض الترجمة الآلية المورد إلى استخدام بيانات التدريب باللغتين محدودة للالترجمة الآلية. الباحثون محاكاة WMT14 الإنجليزية -، WMT16 الإنجليزية الفرنسية - الألمانية والإنجليزية - الترجمة الرومانية (على التوالي 10K، 100K و1M بيانات ثنائي اللغة) من سيناريوهات الموارد منخفضة.

مقارنة FIG 6 MASS بين أدنى مستوى في الموارد وآلة طريقة الترجمة

الشكل (6) يبين الأداء الجماعي على نطاق وبيانات مختلفة من الأساس دون نماذج تدريب قبل وبدرجات متفاوتة من التحسن، ومع الإشراف على بيانات أقل لتعزيز تأثير أكثر أهمية.

ملخص النص ولدت

وتمت مقارنة الباحثون MASS وبيرت + LM (التشفير بيرت قبل التدريب، فك اللغة القياسية تدريب ما قبل نموذج مستعملة LM)، دبي لصناعات الطيران (دي الإشاعة من التشفير). وكما يتبين من الجدول 3، MASS الأداء المتفوق بيرت + LM ودبي لصناعات الطيران.

الجدول 3 ملخص مهمة الجيل النص في المقارنة بين نوعين من أساليب ما قبل التدريب وMASS،

توليد حوار

وتمت مقارنة الباحثون MASS وبيرت + LM. 4 يبين الجدول تحقيق MASS تخفض PPL من بيرت + LM.

الجدول 4 MASS المقارنة بين البيانات وبيرت + LM

وقال الفيسبوك الباحثين MASS تحقيق باستمرار مكاسب كبيرة في تسلسل المهام إنتاج لغة لتسلسل أنه يتوقع أداء في المستقبل في مهام اللغة الطبيعية فهم في الاختبار الشامل وأعرب عن أمله في العمل مستقبلا، وسوف نتقدم مجال تطبيق MASS لاحتواء الصوت والفيديو، ومتواليات أخرى لتوليد تسلسل المهام.

روابط ذات علاقة

عنوان الأصلي

https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language- الجيل المهام /

ورقة MASS

https://www.microsoft.com/en-us/research/publication/mass-masked-sequence-to-sequence-pre-training-for-language-generation/

جيثب عنوان مفتوح المصدر

https://github.com/microsoft/MASS

2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات

2019 نيان 12-14 يوليو ، ينظمه اتحاد عموم الصين للكمبيوتر (CCF)، شبكة لى فنغ وجامعة هونغ كونغ الصينية في رعاية (شنتشن)، وشنتشن، الذكاء الاصطناعي، ومعهد بحوث الروبوتات لشركة 2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات (يشار إلى أن CCF-GAIR 2019) وشنتشن يكون الستار رسميا.

بحلول ذلك الوقت، الحائز على جائزة نوبل JamesJ. هيكمان، أكاديمي أجنبي، رئيس القمة العالمية، المعروفة زميل، وعدد من الضيوف في الوزن الثقيل سوف شخصيا Zuozhen ، لمناقشة الذكاء الاصطناعي والمجال المعقد من الوضع الروبوتات البقاء على قيد الحياة والإنتاج والاستثمار وهلم جرا.

انقر على قراءة النص الأصلي انظر: بيرت 20 المهام توالت بشكل كامل: جوجل NLP أقوى نموذج مفتوحة المصدر XLNet!

طريق الحرير

دوائر | راء بيرت وGPT، مايكروسوفت للبحوث آسيا، والمصدر المفتوح نموذج جديد MASS

مقدمة

وهناك طريقة ما قبل التدريب الجديد

الإطار الموحد لمرحلة ما قبل التدريب

تسلسل لتوليد مهمة اللغة تسلسل اختبار

كنت المتحمسين الرقمية المبتدئين، وهذا هو بلدي 2019 "الأيدي قائمة ختم"

حول WF-1000XM3 والمهندسين سوني يخبرنا

"ضعفي" "مشاركة" 190614 تأخير ثابتة أيضا قبالة! مطار إنتشون بعد ظهر هذا اليوم المغادرة إلى تايلاند

ضد الولايات المتحدة للصين لزيادة الضرائب على عقود لمحاربة صناعة الألعاب الثلاثة الكبار تعاونت فعليا

يجب أن تستخدم عمق لمكافأة مشروع تعزيز التعلم ذلك؟ معهد بيركلي لمنظمة العفو الدولية: لا حاجة

تخدم 190 محطة 614 لي Madou T كل مراجعة أسلوب مفضل

190614 لي يي فنغ بكين وتشنغدو العودة إلى مجهولي الهوية بدءا أحمر نابضة بالحياة المدرسية التي تنتشر فيها الحشائش

قناة الصغرى صديق دائرة المرأة لعنة الشعب زلزال تشانغنينغ: اعتقل عشرة أيام

برنامج التعاون القطري-GAIR قمة رعاية انتهت رسميا! عشرة تستهدف أعلن

أريد أن تهيمن على الاقتصاد العالمي؟ شو يجب أن تؤدي في مجال المخ مثل حساب CCF-GAIR 2019

OLED TV SKYWORTH تريد انطلقت في "عاصفة عالمية" في البلاد

190614 أيام من الملك إلى سحر تغيير على المسرح لوهان مثيرة المقبل

دوائر | قدم معهد AI بيركلي جديدة الخوارزميات تعزيز البيانات، أقوى من AutoAugment الدماغ جوجل! | ICML 2019

اتبع 618، مهلا تصل معنا

هونغ كونغ: العثور على لحظة استرخاء في كل مكان بين | يوم واحد

أن الرؤية الحاسوبية يكون مثل بعد خمس سنوات؟ تخيل رواد وCV معا (على) | CVPR2019

سيتشوان هايدونج: مهرجان الثقافة والسياحة جينشا دخل السياحة من 57860000 يوان

ساعتين ونصف / ثلاثين ألف صورة / شيء

حافظ الاقتصاد الصناعي توسعا طفيفا في الربع الأول، فإن التحدي الأكبر هو لا يزال المفرطة

ديناميكية | من قبل منظمة العفو الدولية إلى الهدف مجلس كشف رقاقة "جامعة شيان جياوتونغ،" هو كيف يمكن تحقيق مكاسب DAC FPGA المسار عداء؟

وانغ Zixuan قميص طباعة الخروج من المطار على طول الطريق إلى نكتة حول تفسير خلايا الشارع من نوع

لا الأسلاك، وعمر البطارية الطويل: أبيض الذكية نسخة بطارية الكاميرا (التقييم)

مقدمة

وهناك طريقة ما قبل التدريب الجديد

الإطار الموحد لمرحلة ما قبل التدريب

تسلسل لتوليد مهمة اللغة تسلسل اختبار

الأحكام ذات الصلة