مؤخرا، أعلنت شركة جوجل نموذج اللغة AI ELECTRA كنموذج المصدر المفتوح على الإفراج TensorFlow. يستخدم هذا الأسلوب الجديد مهمة قبل التدريب ودعا كشف رمزي البديل (RTD)، مما يجعل من الممكن لوضع في وقت واحد جميع المدخلات من التعلم، وثنائية الاتجاه تدريبية نموذجية.

و، في حالة من موارد الحوسبة نفسها، ELECTRA أداء أفضل من الطرق الحالية، وفي حالة فقط 1/30 من مبلغ المعلمات للحصول على لا تقل عن النموذج الأكثر تطورا من أداء سلسلة بيرت.

ون | مدونة جوجل

الترجمة | بينغ يانغ لى

1، والوضع الحالي نموذج اللغة ومشاكل

في السنوات الأخيرة، وتقدم أحدث في نموذج لغة ما قبل التدريب يتيح معالجة اللغة الطبيعية جعلت أيضا تقدما كبيرا، بما في ذلك بعض من أكثر النماذج المتقدمة، مثل: بيرت، روبرتا، XLNet، ALBERT T5 وهلم جرا.

على الرغم من أن هذه الأساليب تختلف في التصميم، ولكن على وجه الخصوص استخدام المهام NLP (على سبيل المثال: تحليل المشاعر والمشاكل، وما إلى ذلك) عند صقل، لديه نفس الفكرة، وهي: استخدام عدد كبير من النص الخالي من الملصقات، لبناء فهم مشترك للغة نموذج.

لذلك، يتم تقسيم أساليب ما قبل التدريب الموجودة عادة إلى فئتين: نموذج اللغة (LM)، على سبيل المثال: GPT. هذا الأسلوب من المعالجة لإدخال النص بالترتيب من اليسار إلى اليمين، ثم في حالة من سياق معين سابقا، للتنبؤ الكلمة التالية.

قناع آخر هو نموذج اللغة (البحرية)، على سبيل المثال: بيرت، روبرتا وALBERT. يتم حظر هذه كميات صغيرة من نماذج الكلمة التي هي المحتوى التنبؤي من المدخلات. مقارنة الامتيازات إلى LM، فإنه لديه ميزة التنبؤ ثنائية الاتجاه، لأنه يمكن رؤية النص الذي تريد التنبؤ كلمة على اليسار واليمين.

ومع ذلك، هناك عيوب الامتيازات التوقعات النموذجية، تقتصر نماذج التنبؤ لمجموعة فرعية صغيرة من رمز الإدخال (جزء ملثمين من 15)، مما يقلل من كمية المعلومات التي يتلقونها من كل جملة، ويزيد من تكلفة الحسابية .

أساليب التدريب وأوجه القصور فيها موجودة مسبقا. تشير الأسهم العلامة التي يتم استخدامها لتوليد تمثيل ناتج معين (المستطيل). اليسار: نموذج اللغة التقليدية (مثل GPT) باستخدام الكلمة الوحيدة يقم من السياق الحالي. الحق: نموذج قناع لغة (مثل بيرت) من اليسار إلى اليمين تستخدم السياق، ولكن لكل إدخال يتوقع سوى جزء صغير من كلمة قبل التدريب نموذج جديد ELECTRA.

2، الجديد قبل التدريب نموذج ELECTRA

على وجه التحديد من أجل التغلب على أوجه القصور في ما سبق نوعين من نموذج اللغة، اقترح جوجل ELECTRA (التعلم بكفاءة والتشفير يصنف رمز الاستبدال بدقة) نموذج اللغة. هذا هو الأسلوب الجديد لمرحلة ما قبل التدريب، والنقطة الأساسية هي ما قبل المبرمج التدريب معرف النص كما المولدات وعدم التعامل مع نموذج اللغة المشكلة القائمة.

أوراق عنوان: الشبكي: //openreview.net/pdf معرف = r1xMH1BtvB؟

في نفس حجم البيانات النموذجية، حيث كمية حساب، أداء هذه الطريقة متفوقة بشكل كبير في طريقة نوع الامتيازات، مثل بيرت وXLNet، وعلاوة على ذلك، ELECTRA نموذج صغير يتطلب GPU واحدة فقط للحصول على تدريب أربعة أيام.

وتشير البيانات التجريبية المحددة أن هذا النموذج هو أصغر من نموذج أصغر درجة عالية بيرت GLUE 5 نقاط، وأكبر حتى من نموذج GPT (يستخدم هذا النموذج أكثر من 30 أضعاف القدرة الحاسوبية) نتائج أفضل.

عندما يكون مقدار الحساب وELECTRA تستخدم أقل من 1/4 ويمكن تحقيق أداء روبرتا GLUE XLNet باللغة الطبيعية الإشارة يفهم. إذا كنت تستخدم أكثر من أجهزة الكمبيوتر لتدريب ELECTRA كبير، ونموذج في التصنيف العالمي فرقة 2.0 Q مجموعة البيانات ولغة المهام التفاهم، والوصول إلى معظم الأداء المتقدم. (راجع بيانات محددة القسم الرابع)

3، والفكرة الأساسية - استبدال كشف رمزي

دعا ELECTRA باستخدام بديل رمز الكشف (RTD) تدريب ما قبل مهمة جديدة أن جميع المدخلات من المواقف: حين تعلم (على سبيل المثال، وLM)، تدريب نماذج اتجاهين (على سبيل المثال: MLM).

على وجه التحديد، الهدف ELECTRA هو أن نتعلم كيف نميز بين كلمة الإدخال. لا يستخدم قناع، ولكن من اقتراح لتحل محل كلمة في توزيع المعاينة المدخلات، الذي يحل قناع التناقض لتحقيق ما قبل التدريب وصقل هذه المشكلة.

ثم نموذج إعادة تدريب الممي للتنبؤ كل كلمة هي كلمة أو استبدال الكلمات الأصلية. والاستفادة من الممي هي: نموذج التعلم من كل الكلمات تدخل، بدلا من أن تكون الامتيازات، وذلك باستخدام الكلمات فقط للتستر، وبالتالي فإن حسابات أكثر فعالية.

كما يعتقد العديد من المطورين لمواجهة أساليب التعلم، ELECTRA حقا مصدر إلهام لتوليد شبكة المواجهة (GAN). ولكن الفرق هو، يستخدم نموذج كحد أقصى التعلم مماثل ولكن غير تصادمية.

على سبيل المثال في الشكل أدناه، فإن كلمة "المطبوخة" يمكن الاستعاضة عنها بعبارة "أكل". ورغم أن هذا هو بعض الحقيقة، ولكنه لا يتناسب مع السياق كله. قبل التدرب الاحتياجات المهمة لنموذج (أي الممي) لتحديد المدخلات تم استبدال العلامة الأصلية أو سيبقى على حاله.

فذلك لأن يتم تطبيق مهمة تصنيف ثنائية من طراز لكل كلمة المدخلات، و (كان نمط بيرت في النموذج 15) ليس فقط كمية صغيرة من كلمة قناع، وبالتالي فإن كفاءة طريقة RTD أعلى من الامتيازات. وهذا ما يفسر أيضا لماذا أقل ELECTRA مجرد مثال، يمكننا تحقيق نفس السبب الآخر أداء نموذج لغة.

عندما تكون جميع مدخلات من التعلم الموقف، واستبدال رمزي كشف القطار في الاتجاهين

حيث الشبكة العصبية من مولد رمزية الاستبدال. يتم تدريب الهدف مولد قناع نموذج اللغة، أي بعد سلسلة مدخلات معينة، وفقا لنسبة معينة (عادة 15) سيتم استبدال القناع في كلمة المدخلات، ثم الحصول على تمثيل متجه عبر الشبكة؛ باستخدام طبقة softmax بعد آخر، إدخال تسلسل كلمة للتنبؤ موقف ملثمين.

على الرغم من أن مولد بنية مماثلة لGAN، ولكن النص من الصعب تطبيق هذا الأسلوب لهذه المهمة، حتى الحصول على تدريب دالة الهدف هو لتغطية الحد الأقصى كلمة احتمال ذلك الحين.

بعد ذلك، ومولد الممي، وحصة نفس الكلمة المدخلات جزءا لا يتجزأ. الهدف الممي من تسلسل الإدخال لتحديد ما إذا كان يتم استبدال كل موقف مولد كلمة، إذا كان الموقف من كلمة المقابلة لتسلسل الإدخال الأصلي ليست متطابقة، فإنه يتم تحديد كبديل.

مولد الممي والشبكات العصبية نموذج

4، ونتائج محددة المقارن

سوف ELECTRA مع البرمجة اللغوية العصبية الأخرى قارن الباحثون أحدث الموديلات ووجد أنه في حالة إعطاء نفس حسابات الميزانية، فإنه تتم مقارنة مع كانت الطريقة السابقة تحسنا كبيرا في أدائها وروبرتا وXLNet إلى حد ما، واستخدام أقل من ربع كمية من الحساب.

X-محور يظهر مبلغ حساب لنموذج التدريب (في وحدات يتخبط)، ويظهر المحور الصادي ديف النتيجة الغراء. مقارنة مع نموذج البرمجة اللغوية العصبية الموجودة المدربين قبل، ELECTRA كفاءة التعلم هو أعلى من ذلك بكثير. ومن الجدير بالذكر أن أفضل نموذج الحالي (على سبيل المثال، T5 (11B)) ليست GLUE مناسبة على الرسم، لأن النماذج الحسابية وغيرها من استخدامها أكثر من ذلك بكثير (10 مرات أكثر من روبرتا).

لمزيد من تحسين الكفاءة، حاول الباحثون نموذجا ELECTRA الصغيرة التي يمكن أن تكون مدربة تدريبا جيدا في أربعة أيام GPU واحد الأصيل.

على الرغم من أنه من المستحيل تحقيق مع ضرورة تدريب العديد من نفس TPU دقة نموذج كبير، والأداء ELECTRA الصغيرة لكن لا تزال جيدة جدا، وحتى أفضل من GPT، وكمية من الحساب مطلوب ولكن الثلث فقط.

ثم، من أجل اختبار ما إذا كانت هذه النتيجة يمكن أن تكون على نطاق واسع، استخدم الباحثون المزيد من حساب (روبرتا نفس المبلغ تقريبا، حوالي 10 من T5) تدريب نموذج ELECTRA كبير.

الباحثون كبيرة ELECTRA، روبرتا، XLNet، بيرت ALBERT نموذج الإجابة والأسئلة في مجموعات بيانات الأداء 2.0 فرقة للقيام بهذا الاختبار، فإن النتائج تظهر في الجدول أدناه، ويمكنك الاطلاع على GLUE الرسوم البيانية، تفوقت ELECTRA جميع نماذج أخرى .

ولكن بالمقارنة مع نموذج T5-11b كبير، وسجل الأخير على الغراء لا يزال أعلى. ولكن من الجدير بالذكر أن حجم ELECTRA هو ثالث واحد، و 10 من الحوسبة التدريب.

SQUAD 2.0 قواعد البيانات يسجل ELECTRA-الكبيرة وغيرها من أحدث الموديلات

حاليا، وقد تم الافراج عن رمز لمرحلة ما قبل التدريب ELECTRA وتهذيب على المهمة المصب، وتشمل مهام الدعم الحالية: تصنيف النص والأسئلة وعلامات التسلسل.

يدعم رمز التدريب السريع للنموذج ELECTRA صغير على GPU. بعد ذلك، جوجل تخطط أيضا لاطلاق سراح رمز ينطبق على ما قبل تدريب ELECTRA المتجول، ELECTRA-قاعدة وELECTRA-الصغيرة و. (ELECTRA نموذج المتاحة حاليا باللغة الإنجليزية والمتابعة سيتم الافراج عنهم في لغات أخرى)

العنوان الأصلي:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

جيثب العنوان:

https://github.com/google-research/electra

طريق الحرير

فوز بيرت، وجوجل أفضل نموذج NLP قبل تدريب مفتوح المصدر، بطاقة واحدة هي أربعة أيام فقط من التدريب

1، والوضع الحالي نموذج اللغة ومشاكل

2، الجديد قبل التدريب نموذج ELECTRA

3، والفكرة الأساسية - استبدال كشف رمزي

4، ونتائج محددة المقارن

لماذا GAN الحاجة لذلك الكثير من الضوضاء؟

AAAI 2020 | مصقول مع التدريجي كشف كبير الهدف من أجل تحقيق النتائج المثلى

CVPR 2020 | ما تريد قوله عند النظر إلى الصور: إنشاء تلقائي لأوصاف الصور المحببة والقابلة للتحكم

كيف تحكي الالتهاب الرئوي عهد جديد والأنفلونزا التي التعلم العميق؟ من الفحص المبكر للتنبؤ حالة حرجة

تعلم الاتحادية أحدث الاتجاهات في مجال البحوث

هل يغير بحث Microsoft AI المدربين ، ويخلق وظائف جديدة ، ويروج للمحاربين القدامى ليحلوا محل Shen Xiangyang؟

ICLR2020 | جوجل أحدث الأبحاث: نموذج كمي ل"الاختلاف معقدة" تعميم الاصطناعية

BYD للحصول على 1.3 مليار يوان الدعم للمركبات جديدة للطاقة، والطاقة، تطوير السيارة الجديدة طريق طويل لنقطعه

غزوة الأولى في السوق في الخارج، وتأمل أن تنفق 140 مليون $ اقتناء المؤسسات التعليمية في ماليزيا

الفيروسات والمضيف "غرام الحب"

تكنولوجيا الحجر دراسة الانتقال العصر الجليدي المناخ حوض NIHEWAN المرحلة الأولى تقدم وون

منكب الجوزاء غير المنفجرة، "المذنب يوم القيامة" تقريبا؟

صدر ZTE أول هاتف محمول 5G سر أكسون 11، الضوء الرئيسي والتقاط الفيديو | التيتانيوم الأخبار

صدر ZTE أول هاتف محمول 5G سر أكسون 11، الضوء الرئيسي والتقاط الفيديو | التيتانيوم الأخبار

لماذا مصنعي الهواتف النقالة "والمستخدمين أصدقاء لم يعد" من؟

CVPR2020 | هل المصممين الداخليين عاطلين عن العمل؟ خوارزمية أوتوماتيكية لتصميم المشهد ثلاثي الأبعاد لوصف اللغة

كيف للاستيلاء على حافة انفجار الحوسبة فرص السوق | إنتل AI PARKnSHOP خطة الحوافز المبتكرة

2019 جائزة تورينج، منحت لرسومات التراث العلمي

22 اختيار CVPR عام 2020، بايدو 15 ورقات مختارة مفصلة

الرؤية - فصلا جديدا في الملاحة اللغة: كائنات المواقع النائية في المهام الملاحة مشهد حقيقي

ICML المراجعين الغاضبين، ولا تسهم أوراق لم نكملها!

حدود الأداء اختراق، علي سحابة رقة التنين على قراءة آخر ASPLOS

1، والوضع الحالي نموذج اللغة ومشاكل

2، الجديد قبل التدريب نموذج ELECTRA

3، والفكرة الأساسية - استبدال كشف رمزي

4، ونتائج محددة المقارن

الأحكام ذات الصلة