[جديد جي فاز استعراض] غوغل قد صدر للتو 24 نموذج بيرت الصغير، وذلك باستخدام التدريب WordPiece اخفاء، مع عدد أقل من طبقات، وهي ميزة تنافسية قوية في استراتيجية ما قبل التدريب الامتيازات المقطر أدق للقيود الموارد المشهد، وتشجيعهم على بناء نموذج أكثر إحكاما. "الكاتب تشي يوان عاجل جديد، محرر، مدير العمليات، مدير حسابات، HR إضافة قناة الدقيقة (الدكتور-wly) لمزيد من المعلومات."
تبسيط الجديد 24 بيرت جوجل نموذج للتحميل، بالنسبة للغالبية من الوقت قبل الباحثين أبيض يوم NLP لإرسال الهدايا.
بيرت انتصارات كبيرة في النموذج، نموذج كما خسر كبيرة!
بيرت ولدت لاتخاذ "مجنون 11 رقما قياسيا" هالة من العنف لكسر مع الكم الهائل من المعلمات. يمكننا القول أن نجاح بيرت، الإنجازات التي تحققت حتى نموذج كبير . ولكن من ناحية، والإنجازات التي بيرت، والحواجز من ناحية أخرى فقد أصبح أكثر استخداما ولا يمكن أن يكون، وهو ما ينعكس في ثلاثة جوانب.
وثمة عائق: مجموع موارد
حجم ضخم يجعل من يجب أن تحتل موارد التخزين الضخمة، مع الحفاظ على عدد كبير من موارد التخزين في حين تستمر أيضا لتستهلك كميات كبيرة من الطاقة.
العقبات هما: جدا تستغرق وقتا طويلا
وكان بيرت المؤلف يعقوب المذكورة "نموذج بيرت كبير من 24 طبقات، 2014 وحدات مخبأة في كمية 3.3 مليار مجموعات البيانات على المدى تحتاج إلى تدريب 40 عصر، فإنه قد يستغرق سنة على 8 P100".
ثلاث عقبات: التكلفة العالية
شخص مرة واحدة تحسب أن تكلفة التدريب هو على الارجح نماذج رئيسية ثلاثة:
- بيرت: 1.2 وان مييوان
- GPT-2: 4.3 وان مييوان
- XLNet: 6.1 وان مييوان
من أجل حل المشاكل المذكورة أعلاه، وقدم لها نسخة مبسطة بيرت
حجم المسائل . في الواقع، فإن الأسئلة الثلاثة المذكورة أعلاه، ويكمن مصدر في الحجم، لذلك بدأنا في دراسة لايت بيرت. في سياق الموارد المحدودة، وصغر حجم النموذج يحتوي على مزايا واضحة بذاتها.
DistillBERT : المعانقة الوجه فريق مدرب بعلم تكنولوجيا التقطير على أساس بيرت التصغير بيرت. يتم تقليل حجم موديل 40 (66M)، أي بزيادة قدرها 60 سرعة الاستدلال، ولكن الأداء انخفضت فقط بنحو 3 .
ALBERT : عن طريق تغيير نموذج العمارة، الحد بشكل كبير من حجم. ALBERT أصغر 12M فقط، أكبر ALBERT-XXLarge ديه 233M، وبيرت-قاعدة ديك 110M. ولكن في حين خفض مستوى الصوت، والسرعة المنطق لا تحسن كبير جدا.
TinyBERT : المعرفة طريقة التقطير إلى نموذج ضغط. ويتم إنتاج هذا النموذج بشكل مشترك من قبل HUST وهواوي.
أطلقت غوغل نفسه أصغر نموذج بيرت
بالأمس فقط، وجوجل تجديد جيثب مستودع للبيرت، أصدر نموذج بيرت 24 قاصرا، محدودة المفردات الإنجليزية وليست حالة الأحرف.
24 نموذج الاستخدامات WordPiece اخفاء التدريب، قبل التدريب مباشرة من خلال فقدان الامتيازات، ويمكن ان يكون على ما يرام ضبطها لمهام المصب من خلال التدريب القياسية أو صقل المهمة الأخيرة، وهي ميزة تنافسية قوية في الامتيازات المقطر استراتيجية ما قبل التدريب الدقيقة.
التوجيه النظري من ورقة "حسنا-مقروءة الطلاب يتعلمون بشكل أفضل: على أهمية مرحلة ما قبل التدريب نماذج مدمجة". عنوان ورقة: الشبكي: //arxiv.org/abs/1908.08962
بيرت نموذج يتطلب سوى صغير صقل لصقل بيرت فقا الطريق مع الأصل، ولكن معظم المعرفة الفعالة المقطر في حالة أكبر المعلم، أكثر دقة الصنع.
علما بأن نموذج بيرت-قاعدة في هذا الإصدار هو فقط للتأكد من اكتمالها، وقد تم إعادة تدريب وتحت نفس الظروف التي النموذج الأصلي.
نتيجة الغراء:
24 بيرت الصغيرة تحميل : HTTPS: //storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip