فقط، أصدرت جوجل 24 نماذج من بيرت الصغير، قبل التدريب مباشرة من خلال فقدان الامتيازات

[جديد جي فاز استعراض] غوغل قد صدر للتو 24 نموذج بيرت الصغير، وذلك باستخدام التدريب WordPiece اخفاء، مع عدد أقل من طبقات، وهي ميزة تنافسية قوية في استراتيجية ما قبل التدريب الامتيازات المقطر أدق للقيود الموارد المشهد، وتشجيعهم على بناء نموذج أكثر إحكاما. "الكاتب تشي يوان عاجل جديد، محرر، مدير العمليات، مدير حسابات، HR إضافة قناة الدقيقة (الدكتور-wly) لمزيد من المعلومات."

تبسيط الجديد 24 بيرت جوجل نموذج للتحميل، بالنسبة للغالبية من الوقت قبل الباحثين أبيض يوم NLP لإرسال الهدايا.

بيرت انتصارات كبيرة في النموذج، نموذج كما خسر كبيرة!

بيرت ولدت لاتخاذ "مجنون 11 رقما قياسيا" هالة من العنف لكسر مع الكم الهائل من المعلمات. يمكننا القول أن نجاح بيرت، الإنجازات التي تحققت حتى نموذج كبير . ولكن من ناحية، والإنجازات التي بيرت، والحواجز من ناحية أخرى فقد أصبح أكثر استخداما ولا يمكن أن يكون، وهو ما ينعكس في ثلاثة جوانب.

وثمة عائق: مجموع موارد

حجم ضخم يجعل من يجب أن تحتل موارد التخزين الضخمة، مع الحفاظ على عدد كبير من موارد التخزين في حين تستمر أيضا لتستهلك كميات كبيرة من الطاقة.

العقبات هما: جدا تستغرق وقتا طويلا

وكان بيرت المؤلف يعقوب المذكورة "نموذج بيرت كبير من 24 طبقات، 2014 وحدات مخبأة في كمية 3.3 مليار مجموعات البيانات على المدى تحتاج إلى تدريب 40 عصر، فإنه قد يستغرق سنة على 8 P100".

ثلاث عقبات: التكلفة العالية

شخص مرة واحدة تحسب أن تكلفة التدريب هو على الارجح نماذج رئيسية ثلاثة:

بيرت: 1.2 وان مييوان
GPT-2: 4.3 وان مييوان
XLNet: 6.1 وان مييوان

من أجل حل المشاكل المذكورة أعلاه، وقدم لها نسخة مبسطة بيرت

حجم المسائل . في الواقع، فإن الأسئلة الثلاثة المذكورة أعلاه، ويكمن مصدر في الحجم، لذلك بدأنا في دراسة لايت بيرت. في سياق الموارد المحدودة، وصغر حجم النموذج يحتوي على مزايا واضحة بذاتها.

DistillBERT : المعانقة الوجه فريق مدرب بعلم تكنولوجيا التقطير على أساس بيرت التصغير بيرت. يتم تقليل حجم موديل 40 (66M)، أي بزيادة قدرها 60 سرعة الاستدلال، ولكن الأداء انخفضت فقط بنحو 3 .

ALBERT : عن طريق تغيير نموذج العمارة، الحد بشكل كبير من حجم. ALBERT أصغر 12M فقط، أكبر ALBERT-XXLarge ديه 233M، وبيرت-قاعدة ديك 110M. ولكن في حين خفض مستوى الصوت، والسرعة المنطق لا تحسن كبير جدا.

TinyBERT : المعرفة طريقة التقطير إلى نموذج ضغط. ويتم إنتاج هذا النموذج بشكل مشترك من قبل HUST وهواوي.

أطلقت غوغل نفسه أصغر نموذج بيرت

بالأمس فقط، وجوجل تجديد جيثب مستودع للبيرت، أصدر نموذج بيرت 24 قاصرا، محدودة المفردات الإنجليزية وليست حالة الأحرف.

24 نموذج الاستخدامات WordPiece اخفاء التدريب، قبل التدريب مباشرة من خلال فقدان الامتيازات، ويمكن ان يكون على ما يرام ضبطها لمهام المصب من خلال التدريب القياسية أو صقل المهمة الأخيرة، وهي ميزة تنافسية قوية في الامتيازات المقطر استراتيجية ما قبل التدريب الدقيقة.

التوجيه النظري من ورقة "حسنا-مقروءة الطلاب يتعلمون بشكل أفضل: على أهمية مرحلة ما قبل التدريب نماذج مدمجة". عنوان ورقة: الشبكي: //arxiv.org/abs/1908.08962

بيرت نموذج يتطلب سوى صغير صقل لصقل بيرت فقا الطريق مع الأصل، ولكن معظم المعرفة الفعالة المقطر في حالة أكبر المعلم، أكثر دقة الصنع.

علما بأن نموذج بيرت-قاعدة في هذا الإصدار هو فقط للتأكد من اكتمالها، وقد تم إعادة تدريب وتحت نفس الظروف التي النموذج الأصلي.

نتيجة الغراء:

24 بيرت الصغيرة تحميل : HTTPS: //storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

طريق الحرير

فقط، أصدرت جوجل 24 نماذج من بيرت الصغير، قبل التدريب مباشرة من خلال فقدان الامتيازات

بيرت انتصارات كبيرة في النموذج، نموذج كما خسر كبيرة!

من أجل حل المشاكل المذكورة أعلاه، وقدم لها نسخة مبسطة بيرت

أطلقت غوغل نفسه أصغر نموذج بيرت

في اليوم التالي الأكبر في تاريخ ICLR 2020 إلغاء الخط، بحيث فقدت أفريقيا واندلاع AI الأول أعلى المنزل

السحر قفزة حرق 2.6 مليار دولار لعبودية؟ وقال الفيسبوك أنها لم ترغب في الوصول إلى القرص مان

كيف بعيدا عن الإجراء القرد العملاق مليون سنويا راتب AI خوارزمية مهندس؟

معظم التاريخ الكامل من "خريطة المعرفة" ورقة المراجعة عام 2020، 18 من الكتاب، 130 قوات الدفاع الشعبي

البالغ من العمر 17 عاما طالب في مدرسة ثانوية تطويرها بشكل مستقل معظم تتبع الموقع اندلاع النار في العالم! معبوده هو ستيف جوبز

الكم الحوسبة جهاز AI إلى الدماغ! جوجل المصدر المفتوح TensorFlow الكم الكم الحاسبات قاعدة

بابي وتو القائمة؟ قدم DeepMind MEMO النموذج الجديد محول، تحاكي المنطق الدماغ البشري

نصح الرئيس التنفيذي لشركة أبل كوك الموظفين زارة الداخلية في جميع أنحاء العالم، ستانفورد ومدارس النخبة أخرى مغلقة الاغلاق مدرسة

وو لي يخسر 1-2 على اللوم؟ المدرب الإسباني يين تشنغ يى خطوة، والمراوح تعيس

مثل سيمون العاطفة! الحد من كرة القدم الحقيقية لعبة مدير، يمكن للجميع أن يكون على درجة الماجستير من إيقاع

شهد 5-0! 60،000 شخص ميسي حظا رجل مجنون! 887 يوما لالمعجزات المنتجات ريال مدريد يخشى 01:00

كبير 1-0! الحياة الأسبانية والموت قبل الحرب، وإعادة هدية، بارك الله وو لي للبقاء في الدوري الاسباني؟

اي فون 11، الدخن 10، ممن لهم البحث عن الصور X2 تتناقض أقوى منها؟

"مدينة مغلقة" في إيطاليا: المقاهي في الهواء الطلق مليئة بالناس أكثر من أعمال الشغب في السجون

حدق زميل واحد، عروض ...... تجد الرعاية سون لي مقابلة: وكان هذا في الواقع لا غرفة مشرقة يرجى كتابة الحروف

استدعاء آلهة الذكاء الاصطناعي لمكافحة الفيروسات! Kaggle تطلق مسابقة تعدين نص مجموعة بيانات CORD-19

أعلن GitHub عن الاستحواذ على npm ، وتؤثر المنافسة الوحشية لشركة Microsoft في عالم المصدر المفتوح على 12 مليون مطور

أبل قد أعلنت للتو الحية WWDC تغير على الانترنت، وهي المرة الأولى دعم أبل دفع Alipay

أطلق ترامب 50 مليار دولار استجابة للتاج الجديد ، ويشارك موظفو Google البالغ عددهم 1700 موظف في الكشف عن الفيروسات

معالم النموذج قد تصل مليارات الدولارات؟ MIT شقيق كمية صغيرة من بيانات كاملة ذات جودة عالية النص إلى كلام!

ترامب تقرير التفتيش سلبية، ما يقرب من مليون شخص تلقوا في جميع أنحاء العالم الجديد الكشف عن الفيروسات التاج!

الثقيلة | بيركلي "التعلم غير خاضعة للرقابة عميقة" دورات جديدة في الربيع 2020 الضربات!

بيرت انتصارات كبيرة في النموذج، نموذج كما خسر كبيرة!

من أجل حل المشاكل المذكورة أعلاه، وقدم لها نسخة مبسطة بيرت

أطلقت غوغل نفسه أصغر نموذج بيرت

الأحكام ذات الصلة