هينتون جوجل أحدث أبحاث الدماغ: 137000000000 المعلمات نطاق واسع جدا الشبكة العصبية

1 جي فاز تجميع جديد

فائقة على نطاق واسع الشبكات العصبية: متفرق الخبراء بوابات طبقة مختلطة

ملخص

العصبية المعلومات القدرة على الشبكة عن طريق امتصاصه تحد من عدد من المعلمات. وكان، من الناحية النظرية، ووضعها إلى الأمام حساب شرط مفهوم (حساب مشروط)، وتحسن كبير في قدرة نموذج من دون زيادة كبيرة في الطلب على وسيلة لحساب السلطة. في الظروف حساب، ويستند جزء متحرك من الشبكة إلى عدد من العينات على (نشط على أساس لكل المثال). في الممارسة العملية، ومع ذلك، من أجل تحقيق شروط الحساب، هناك تحديا كبيرا من حيث الخوارزميات والأداء.

في هذه الدراسة، ونحن معالجة هذه القضايا وبالتالي تلعب بها في الممارسة العملية، والظروف المحتملة تحسب للحصول على زيادة بأكثر من 1000 مرة على قدرة النموذج، بينما يسمح للكفاءة الحسابية للكتلة GPU الحديثة يحدث فقط خسارة طفيفة. نقترح متفرق بوابات خليط من طبقة الخبراء (المزدحمة بوابات خليط من بين الخبراء طبقة، وزارة التربية)، وتغذية الأمام تصل إلى الآلاف من الشبكات الفرعية. وشبكة النابضة المدربة يقرر هؤلاء الخبراء طبقة (الخبراء) الجمع بين متفرق، ولكل عينة.

سنقوم زارة التربية والتعليم تطبيق النمذجة اللغة ومهمة الترجمة الآلية، والأداء نموذج (سعة نموذج) الكثير من المعرفة في هذه المهام الحاسمة لامتصاص جسم التدريب المتاحة. نقترح بنية النموذج، وتستخدم ما يصل الى 137 مليار المعلمات طبقة LSTM في كومة التفاف منهم. في كبيرة الترجمة الآلية والنمذجة لغة المعايير، وهذه النماذج بتكلفة الحسابية أقل من أفضل مؤهلة الفن مسبق لتحقيق نتائج أفضل.

1. مقدمة والأعمال ذات الصلة

1.1 الظروف حساب (شرطي الحساب)

وباستخدام بيانات التدريب ونطاق وحجم النموذج هو المفتاح لنجاح عمق التعلم. عندما مجموعة البيانات كبيرة بما فيه الكفاية لزيادة قدرة الشبكة العصبية (عدد المعلمة) أعلى التنبؤ دقة يمكن الحصول عليها. وقد أكد ذلك في سلسلة من البحوث في هذا المجال، بما في ذلك النص والصورة والصوت وغيرها من المجالات. وعمق نموذجي من نماذج التعلم، والتي يتم تنشيط نماذج لكل من العينة كلها، لأن عدد وحجم العينات تدريب النموذج، والتدريب مما أدى إلى زيادة تكلفة تربيعيا تقريبا مستوى. ولكن التقدم في القدرة الحاسوبية والحوسبة الموزعة لا تستطيع ان تلبي هذا الطلب.

من أجل تعزيز قدرة النموذج، في حين لم تزد بما يتناسب مع تكاليف الحوسبة، واقترحت دراسات سابقة أشكال مختلفة من الظروف الحوسبة (حساب مشروط). في هذه التصاميم، أكثر من وجهة نظر الشبكة من كل عينة (على أساس لكل المثال) قد تكون نشطة (النشطة) أو غير نشط (غير فعال). قرار بوابات (النابضة القرارات) يمكن أن يكون ثنائي (ثنائي)، متفرق مستمرة (متفرق ومتواصل)، عشوائية (العشوائية) أو القطعية (القطعية). لتعزيز التعلم والتدريب بوابات خوارزمية العودة انتشار صنع القرار كما يأخذ أشكالا عديدة.

جزءا لا يتجزأ من خليط من دورة لغة نموذج الخبراء (خليط من الخبراء، وزارة التربية) طبقة: FIG. في هذه الحالة، متفرق البوابة وظيفة محدد خبيرين لتنفيذ العمليات الحسابية، والناتج منها تسيطر عليها إخراج النابضة الشبكة.

في حين أن هذه الأفكار كبيرة من الناحية النظرية، ولكن حتى الآن لا توجد دراسات لإثبات نموذج قدرتها (قدرة النموذج)، وتدريب الوقت أو نوعية النموذج قد تحسنت كثيرا. نحن عزا ذلك إلى الصعوبات التالية:

أجهزة الحوسبة الحديثة، وخاصة GPU، أسرع على فرع (التفرع) في نسبة التشغيل (الحساب). المذكورة معظم الدراسات الاعتراف فوق هذا والاستفادة من كل قرار النابضة لفتح / إغلاق الشبكة لشريحة كبيرة.
حجم دفعة أمر بالغ الأهمية لأداء الشبكة، لأنهم إطفاء المعلمات النقل وتحديثات التكلفة. شبكة حالة حالة الحساب لتفعيل انخفاض حجم كتلة دفعة واحدة.
قد يكون عرض النطاق الترددي الشبكة اختناق. GPU الحوسبة مجموعة القدرة قد يكون آلاف المرات أكبر من تجميع عرض النطاق الترددي بين أجهزة الشبكة (شبكة الإجمالية بين الجهاز). لكفاءة الحسابية، تحتاج الشبكة لحساب النسبة يجب أن تتجاوز النسبة. ويمكن رؤية طبقة جزءا لا يتجزأ كما يتم احتساب شكل من أشكال الشرط، هو مشكلة الظروف غير المواتية. ويرجع ذلك إلى تضمين مطلوب عادة عبر شبكة النقل، وعدد (على سبيل المثال، وعدد من المعلمات) محدودة بسبب التفاعلات النطاق الترددي للشبكة بدلا من حساب القدرة.
ووفقا لهذه الأرقام، وفقدان المدى (حيث خسارة) كل قطعة يمكن تنفيذ و / أو رغب مستوى كل مثال من ترقق (تبعثر) ضرورية. البحث Bengio وآخرون (2015) يستخدم ثلاثة من هذه العناصر الخسارة. هذه القضايا قد تؤثر على نوعية النموذج وتحميل موازنة.

نموذج القدرة (قدرة نموذج) لمجموعات البيانات الكبيرة جدا هو الأكثر أهمية. وكانت دراسات سابقة حول الأوضاع حساب التقليدية التي تضم 600000 صلته مجموعة بيانات الصورة من التعرف على الصور من البيانات مجموعة صغيرة منها. علامة من الصعب تخيل هذه الصور توفر إشارة كافية لتدريب كاف المعلمات نموذج حتى مع الملايين، والمليارات.

في هذه الدراسة، علينا أولا حل جميع التحديات المذكورة أعلاه، وفي نهاية المطاف حالة حساب مصلحة يمكن ان تحققه. نحصل على قدرة نموذج من أكثر من 1000 أضعاف الزيادة، فقط خسارة صغيرة من حيث الكفاءة الحاسوبية، وتحسنت بشكل ملحوظ على أفضل نتيجة على النمذجة والترجمة مجموعات البيانات اللغة المشتركة.

نهجنا 1.2: متناثر بوابات خليط من طبقة الخبراء (المزدحمة بوابات خليط من بين الخبراء طبقة)

يتم احتساب حالة لدينا من قبل مكونات الشبكة العصبية العامة رواية: عن طريق بوابة متفرق خليط من طبقة الخبراء (وزارة التربية). وزارة التربية العديد من الخبراء، كل خبير لديه شبكة ال feedforward بسيطة وشبكة يمكن تدريب (شبكة النابضة) بوابة، وهو خبير في اختيار الشبكة متفرق من مقبض الباب أمام كل مجموعة المدخلات (انظر الشكل 1). جميع أجزاء الشبكة لتدريب مع انتشار عكسي.

في حين نقترح التكنولوجيا هو عام، ولكن في هذه الدراسة، ركزنا على نمذجة اللغة والترجمة الآلية المهام، والتي ثبت أنها الاستفادة من نماذج كبيرة للغاية. طبقنا كومة طبقة بين LSTM التفاف زارة التربية والتعليم (Hochreiter وشميدهوبر، 1997)، كما هو مبين في الشكل. النص في كل مكان، وقد تم استدعاء زارة التربية والتعليم مرة واحدة، قد تختار مجموعات مختلفة من الخبراء في كل موقع. على أساس بناء الجملة ودلالات (انظر الملحق E الجدول 9)، وخبراء مختلفة يمكن درجة عالية من التخصص. في نمذجة اللغة والترجمة الآلية المقاييس، حصلنا على تكلفة الحسابية صغيرة من تم نشر أفضل النتائج الحالية أداء أفضل.

2. الخبراء خلط (وزارة التربية) بنية الطبقة

يتكون خبير خلط طبقة (وزارة التربية) مجموعة من ن "شبكات الخبراء" E1، ...، دش، و "إخراج ناقلات ن الأبعاد متفرق" و "شبكة بوابات" G التكوين. وزارة التربية FIG. 1 يبين هيكل وحدة. كل الشبكة العصبية الخبير نفسه، معلمات الخاصة بها. بينما من حيث المبدأ تحتاج فقط لقبول إدخال خبير من نفس الحجم وتنتج يبلغ حجم انتاجها من نفس الحجم، ولكن في التحقيق الأولي من هذه المادة، فإننا سوف يقتصر على حالة من هذه النماذج، سواء مع نفس العمارة قبل شبكة التغذية إلى الأمام، ولكن المعلمات تكون مستقلة عن بعضها البعض.

شبكة 2.1 السيطرة

Softmax بوابات حدد (الأردن وجاكوبس، 1994) وظيفة النابضة غير قليلة هي رفع الأثقال المدخلات يمكن مضروبا في الوزن مصفوفة مجموعة العمل، ومن ثم تطبيق وظيفة Softmax.

صاخبة الأعلى-K-بوابات أضفنا مكونين Softmax شبكة النابضة: متفرق والضوضاء. وأضاف قبل ظيفة Softmax نحن ضجيج جاوس قابل للتعديل، وإلا حفظ القيم ك الأولى، مجموعة راحة ل- (والذي يؤدي إلى قيمة البوابة المقابلة يساوي 0). تبعثر يمكن توفير الطاقة الحوسبة. على الرغم من أن هذا النوع من تبعثر إنتاج بعض الانقطاع النظري في إخراج وظيفة النابضة، لكننا لم وحظ عمليا أن هذه مشكلة. ضجيج المدى (المدى الضوضاء) المساعدة في موازنة (تحميل موازنة). وهناك كمية الضوضاء من كل مكون يتم التحكم بالوزن من وزن الثانية مصفوفة يمكن تدريب Wnoise.

شبكة التدريب عن طريق بوابة استخدمنا بقية الشبكة الخلفية نشر بسيطة والتدريب بوابات نموذج. إذا اخترنا ك > 1، والقيم ك خبير الباب الأمامي للأوزان فيما يتعلق الشبكة المعزولة وجود وزن مشتق غير صفرية. هذا النوع من السلوك (Bengio وآخرون، 2013) وقد وصفت البحوث حول مقوم ذات الصلة الضوضاء. بوابات التدرج أيضا من خلال شبكة العودة نشر ما يصل الى مدخلاته. نهجنا مع (Bengio وآخرون، 2015) مختلفة، وهي استخدام البوابات المنطقية وتعزيز نهج أسلوب لشبكة التدريب النابضة.

3. التحدي الأداء

مشكلة 3.1 دفعة

في وحدة المعالجة المركزية الحديثة وGPU، وكمية كبيرة لحساب كفاءة تجهيز دفعة ضروري حتى يمكن تقييم أن المعلمات لتحميل وتحديث في سماء المنطقة. كل عينة من ك مختارة من الخبراء ن إذا كانت الشبكة المعزولة، وعينات للمجموعة ب، تلقى كل خبير أصغر بكثير من عينات دفعة ب. هذا يؤدي مع الزيادة في عدد من الخبراء وزارة التربية والتعليم تحقيق بسيط يصبح غير فعالة للغاية. هذه الدفعة حل انكماش لهذه المشكلة هو جعل حجم الدفعة الأصلي كبيرة بقدر الإمكان. ومع ذلك، من خلال تفعيل العديد من حجم دفعة من الذاكرة المطلوبة بين حد التخزين إلى الأمام والخلف. وبالتالي، اقترحنا تقنية لزيادة حجم الدفعة:

الهجين التوازي بيانات نموذج والتوازي (خلط التوازي البيانات ونموذج التوازي): في الترتيب تدريب موزعة التقليدية، تعدد نسخ من نموذج غير متزامن الأجهزة المختلفة على دفعات مختلفة من البيانات التي تمت معالجتها، ومجموعة من المعلمات إلى المعلمات خدمة المزامنة. في التكنولوجيا لدينا، عملية هذه دفعات مختلفة متزامن، بحيث يمكن دمجها في طبقة زارة التربية والتعليم.

الإلتواء: في نموذج لغتنا، ونحن بطلب للحصول على كل خطوة الوقت على طبقة من نفس زارة التربية والتعليم. إذا نحن ننتظر اكتمال طبقة، يمكننا زارة التربية والتعليم كدفعة كبيرة، ينطبق على جميع الخطوات الوقت. القيام بذلك طبقة إرادة المدخلات وزارة التربية حجم دفعة ن مرات، ن = عدد من الخطوات الوقت لتوسيع.

ارتفعت المتكررة زارة التربية والتعليم طبقة حجم الدفعة: ونحن نعتقد أن نماذج أكثر قوة قد تتطلب إعادة تدوير المستخدمة زارة التربية والتعليم. على سبيل المثال، يمكن استبدال مصفوفة الوزن عن طريق وزارة التربية LSTM RNN أو غيرها من الوزن. للأسف، ذلك من شأنه أن يدمر الإلتواء من المذكورة أعلاه، لأنه في خطوة وقت يعتمد على مدخلات زارة التربية والتعليم زمنية سابقة خطوة الناتج زارة التربية والتعليم. Gruslys وآخرون (2016) يصف التقنية، من خلال حساب تفعيل الأمام (التنشيط إلى الأمام)، إلى خفض كبير في عدد من تفعيل تخزين توسيع RNN. باستخدام هذه التقنية يمكن أن تجعل دفعة وزيادة كبيرة.

3.2 عرض النطاق الترددي

مشاكل الأداء رئيسية أخرى في الحوسبة الموزعة النطاق الترددي للشبكة. منذ تم إصلاح خبير (انظر أعلاه) وعدد قليل من المعلمات المعزولة، لذلك معظم المعلومات المطلوبة لإرسال المدخلات والمخرجات انتقال خبير في الشبكة. من أجل الحفاظ على كفاءة الحسابية، فإن نسبة من حجم الخاصة مدخلات حسابات الخبراء والإخراج، يجب أن تتجاوز حساب نسبة الطاقة الاستيعابية للشبكة لجهاز الكمبيوتر. لGPU، والتي قد تكون عدة آلاف إلى واحد. في التجربة، استخدمنا طبقة مخفية تضم خبراء ألف وحدة تفعيل RELU، المدخلات والمخرجات المحتسبة يساوي نسبة حجم طبقة مخفية. لذلك، يمكننا ببساطة عن طريق استخدام طبقات أكبر أو المخفية لتحسين كفاءة الحسابية باستخدام طبقات أكثر المخفية.

4. استخدام متوازن من الخبراء (موازنة استخدام الخبراء)

قليلا

5. التجارب والنتائج

511000000 لغة النمذجة الموحدة

الرسم البياني التالي (الشكل 2) يبين مقارنة بين وزارة التربية على المليار المفردات ونمذجة اللغة النتائج القياسي بين التكنولوجيا المتطورة حاليا. اليسار هو اختبار الحيرة (اختبار الحيرة) منحنى، بأنها مماثلة الميزانية الحوسبة (حوالي 8،000،000 في الوقت الأوقات خطوة الحساب) قدرة نموذج وظيفة النموذج. يتم حساب الحق بوصفها وظيفة الميزانية اختبار الحيرة (اختبار الحيرة). FIG الحق أدناه، السطر العلوي يمثل LSTM (Jozefowicz وآخرون، 2016) هذا النموذج، يمثل الخط السفلي زارة التربية والتعليم نموذج 4000000000 المعلمات يحسب لها ميزانيات مختلفة.

الجدول 1: نتائج ذات قدرة وزارة التربية تعزيز النماذج على الميزانية الحوسبة المختلفة، ويقارن بين أفضل نتيجة (Jozefowicz وآخرون، 2016.) ونشرت سابقا.

5.2100 مليار كلمات قاعدة بيانات أخبار Google

ويبين الشكل 3 في حيرة الاختبار بوصفها وظيفة من القدرة بعد التدريب الكلمات بيانات 10000000000 (الخط العلوي) و 100 مليار كلمة (تحت خط). عندما تكون البيانات تدريب أكثر من 100 مليار كلمة، والحيرة اختبار زيادة كبيرة ل65536 خبيرا (68 مليار المعلمة)، 39 أقل من المباراة حساب خط الأساس، ولكن يقلل من الخبراء 131072، وهذا قد يكون راجعا إلى تبعثر عالية جدا . الفجوة بين الخطين لتوسيع يظهر النموذج الذي يزيد من قدرة تدريب أكبر مجموعة مواتية. ، ويمكن الاحتفاظ حتي الخبراء في (طبقة متفرق 99.994) 65536 كفاءة الحسابية للنموذج عند 0.72 TFLOPS / GPU.

الشكل (3): نمذجة اللغة على الإحضار من 100 مليار الكلمات. نموذج حساب مماثل مع ميزانية (8 ملايين عملية / الساعة الخطوة).

5.3 WMT'14 البريطانية والترجمات الفرنسية والبريطانية الألمانية الترجمة من Google والبريطانيين والترجمات الفرنسية الإنتاج

ترجمة أكثر من 5.4 الجهاز

عنوان ورقة: الشبكي: //arxiv.org/pdf/1701.06538v1.pdf

مناقشات

ديني بريتز: هذا العمل يذكرني شبكات الطرق السريعة، لكنه يضيف المزيد من القيود، واستخدام متفرق بوابات حفظ القدرة الحاسوبية. إذا يناقش المؤلفان هيكل كل شبكة فرعية (خبير) ليست في الوقت نفسه ما يحدث كلما كان ذلك أفضل.

Smerity: تنفيذ معظم التكنولوجيات المتقدمة في الترجمة الآلية واللغة النمذجة جوجل الاستخدامات مليارات المعلمات. المرونة في استخدام جزء من هيكل نموذج (في نطاق واسع في نفس الوقت) بحيث أن المبلغ الإجمالي المحسوب من السهل إلى حد ما للتعامل مع!

[جي وون الجمهور الرقم الجديد في مربع الحوار، أدخل "0125" أوراق تحميل]

[البحث] جديد AI يونيكورن جي فاز معا 10 رأس المال الكبير

خطة بدء الأعمال مسابقة 2017

AI مسابقة ريادة الأعمال من جي وون جديد مع 10 التيار AI VC: الأزرق تشي المشاريع، سيكويا كابيتال الصين، صندوق الذكاء الاصطناعي قاو لينغ تشي، عاصمة بحيرة الأزرق، والأزرق الفيل رأس المال ورأس المال IDG عاصمة عالية يونغ، سيتيك الأوراق المالية الاستثمار في مجال البناء، مينغ المحتملين العاصمة sonhwa بعيد للانضمام إلى صندوق بادر برعاية يوان التشيلي الجديد، واللجنة الإدارية حديقة تشونغ قوان تسون بكين للعلوم، ويدعم لجنة إدارة تشونغ قوان تسون هايديان حديقة العلوم، هو تجميع رواد التكنولوجيا AI وقادة الاستثمار الحدث. تشى يوان لتوفير قوية موارد رأس المال الاستثماري جديدة إلى فرصة لرسو السفن القادمة AI يونيكورن الكامل من الطموح، وأعلى TS مشروع في انتظاركم ليأتي وجمع.

انقر أدناه لقراءة المقال الأصلي، وملء استمارة الطلب على الانترنت طلب التسجيل. تشارك الساعات صحيفة في اختيار المعلومات المطلوبة.

إذا كان أكثر من الوصف المعلومات (مثل BP، الخ)، ويمكن إرسالها إلى xzy100@aiera.com.cn، يرجى الإشارة إلى اسم الشركة من رأس الرسالة. إذا كان لديك أي أسئلة المشورة، لا تتردد في الاتصال المرسل إلى علبة البريد.

طريق الحرير

هينتون جوجل أحدث أبحاث الدماغ: 137000000000 المعلمات نطاق واسع جدا الشبكة العصبية

وجاءت القوات الخاصة فالكون الكوماندوز السنوية الأحرف بها، فأجابت 2018

وكبيرة مثل بكين، لماذا أنها خلقت العديد العالم؟

غير الشرعيين خارج الموقع خصم، وكيفية التعامل معها؟

مميزة المعالم السياحية TOP5، والسفر إلى فرنسا، هذه المجموعة من واحدة تكفي!

الملاحظات البصرية الأصلية هي أيضا ليست آه من الصعب | تلاحظ الأكاديمية

الذي هو معظم الصينية | زهرة المحكمة

نركز روسيا والهند على تسريع أو "المهجورة" الدولار، وبنك الاحتياطي الفيدرالي لا يوجد لديه الحق في رفض العودة شحنها إلى الذهب

صدمت! اليوم الوطني هذا المكان قليل من الناس أيضا أرخص، بدءا من الآن حتى لا تأخير!

ولد في عام 1978 | تشو دينغ: لا نواجه كل ربيع البحر

انظر خنان نانيانغ أكتوبر إلى جولة المشهد القديمة

"القرية العالمية" في الأشياء التي تريد أن تفعل؟ | الإنسان 2.0

في عام 2018، أنها تؤثر على جينغدتشن! اليوم، نشيدة هذه strivers!

زفاف انتهت لتوها، أكثر من 10 مليون مظاريف حمراء مليئة حقيبة LV المال تختفي فجأة! الهجوم يلة الشرطة ......

BMW + الروبوت = الدراجة الطريق وقوف السيارات الروبوت منغ المطور برنامج التوظيف العالمية

سمعت الكثير من الأساطير من المحيط، لا يمكنك معرفة هذه الأسرار!

استكشاف كبيرة ما! أربعة العالمية السيارات وكالة اختبار التحطم، الذي بيانات أكثر يمكن الاعتماد عليه؟

شركات التكنولوجيا بدء الدرس: كيفية استخدام أكثر أسرع؟ | تكنولوجيا IP المعروفة تشن هاو

بعد 00 الصنابير جنود شو، مستقبلهم لنتطلع إلى

فجر العيد في الأفق! كل معبأة حقائبك بعد -

20 كيلومترا، 16 ساعة، 15 المحتوى، والتي هي لتجنيد تفعل؟

طاغية لتكون مرجعا! أعلى معدل الاستهلاك من العلامات التجارية الفاخرة الأربعة، خلال السنوات الثلاث الماضية إلى النصف

وو شياو بو: أول شيء مهم، أكثر أهمية أو متعة؟

الأحكام ذات الصلة