كيفية تسريع تدريب اللغة نموذج العصبية؟ شمال شرق فريق جامعة دالاس مافريكس من المترجمين انقلاب

مذكرة لى فنغ شبكة AI تقنية مراجعة: هذه المادة هي اللغة مختبر المعالجة الطبيعية من جامعة نورث إيسترن (عجل فريق الترجمة) أعضاء شياو تونغ، لي يون جسر لى فنغ شبكة AI تقنية مراجعة كتب مقالات حصرية، والتي تم التأشير والتدقيق، شبكة لى فنغ في أعرب عن امتناني.

صفحة الفريق: شمال شرق جامعة الطبيعية اللغة تجهيز مختبر (عجل فريق الترجمة) تأسست في عام 1980 من قبل البروفيسور ياو Tianshun والبحوث والترجمة الآلية وتحليل لغة تعمل منذ فترة طويلة. أكثر من 2000 وكالة ترجمة فريق دالاس مافريكس ابتكر نظاما NiuTrans مفتوحة المصدر ونسخة طبعة المؤسسة ترجمت العجل من أكثر من 60 بلدا الاستخدام، ودعم 44 أنواع الترجمة. قدم الفريق عددا من الدرجات الأولى والثانية في CWMT، NTCIR مثل التقييم، التي نشرت في منظمة العفو الدولية، IJCAI، AAAI، ACL والمجلات الأخرى، وأكثر من 40 ورقة مؤتمر، وحصل على أعلى جائزة تشانغ الصيني مجال معالجة المعلومات في عام 2016 علوم المعلومات الصينية وجائزة التكنولوجيا (الجائزة الأولى).

أولا، اللغوية العصبية الشخصي نموذج

اللغة كما جسور التواصل بين البشر، ويلعب دورا هاما جدا في عملية طويلة من التطور التاريخي. وقال مع ظهور الذكاء الاصطناعي، والناس تريد أكثر من المعلومات لغة عادلة يمكن أن ينتقل بين البشر، ولكن أيضا يسمح الجهاز ل"فهم" الشعب. وجزء مهم جدا في هذه العملية هو إعطاء الناس اللغات المنطوقة إنشاء نموذج علمي وفعال، على وجه التحديد، هو جعل الجهاز لديه القدرة على العثور على الحق في الجمع بين الأحرف من الرقم المسلسل لدلالات النص، وعادة التواصل مع البشر.

في المثال أعلاه، ونحن سوف نموذج لغة على شكل مربع أسود، التي يمكن أن تكون من ثلاثة مداخل "الجملة" قاض، والحكم على معقولية اللغويات لها، نموذج اللغة وهو العمل الذي يتعين القيام به. على وجه التحديد، هو احتمال الحكم عليه بحكم سلسلة لسلسلة كاملة من الكلمات والكم، يظهر المنتج لاحتمال كل طلب كلمة في الموضع الحالي (يرجى الرجوع إلى الكلمات في كلمة يحدث التاريخ بعد) احتمال الحصول على الجملة بأكملها.

كيف يمكنك أن تعرف أن احتمال كل كلمة ويبدو ذلك؟ نموذج لغة العصبي، الذي هو التكوين العام كما هو مبين أعلاه (صور المتكررة نموذج العصبي لغة )، يتم تحويل المدخلات منفصلة طبقة المفردات كلمة إلى تمثيل متجه في الفضاء المستمر، والمسافة بين متجه يمكن أن تعكس مفردات مختلفة التشابه بين الكلمات. مخفي طبقة لإدخال كلمة نقل طبقة ناقلات التعبير أعمق. جنبا إلى جنب مع طبقة الإخراج إلى طبقة مخفية من المعلومات تسليمها في موقف كلمة المقبل من الممكن التنبؤ احتمال الحصول على التنبؤ من كل كلمة في المفردات، والتي يمكننا التنبؤ احتمال وجود الحكم وفقا للقاعدة السلسلة.

الثانية، وأسرع تدريب نموذج اللغة العصبي

مع تزايد التعرف على الكلام، والترجمة الآلية والمناطق لغة أخرى على متطلبات الأداء من نموذج، ونحن حريصون على أن تكون قادرة على زيادة تحسين أداء نموذج اللغة العصبي. بشكل عام استخدام كميات أكبر من البيانات تدريبية لتدريب نماذج هيكل نماذج أكثر تعقيدا والحصول على أداء أفضل، ولكن في نفس الوقت جلب مسألة وقت الذي يستغرقه لتستهلك التدريب تطول وفقا لذلك. وأمام هذا الوضع، كيفية الحد من فعالية تدريب نموذج اللغة العصبية يستغرق وقتا طويلا لتصبح مشكلة يجب حلها.

فكيف لتسريع تدريب من طراز اللغة العصبية ذلك؟ في عملية التنمية من المعالج، وذلك أساسا عن طريق زيادة الجهاز قبل تردد لتعزيز سرعة الحوسبة، وفي وقت لاحق نظرا لعوامل موضوعية، والبيئة المادية، ورفع تدريجيا بالتوازي متعددة النواة لاتجاه سرعة الحوسبة. عملية مماثلة، وهناك أيضا طريقتان لتسريع تدريب الشبكة العصبية، واحد هو لتسريع التدريب من خلال تحسين أداء الأجهزة، والآخر هو عن طريق زيادة عدد الأجهزة المشاركة في العملية لتحقيق الغرض من التسارع. الأول هو فكرة السائدة في الوقت الراهن، وهذا النهج عمليات مصفوفة الهجرة الشبكة العصبية تدريجيا العمليات المتعلقة بها وحدة المعالجة المركزية إلى GPU، تحقيق الغرض من التسارع. وهذا الأخير هو محور نحن بحاجة إلى دراسة، على أمل لتدريب نموذج اللغة العصبية على مزيد من الأجهزة.

وأساليب التدريب الثالثة والاستغلال الأمثل للأجهزة متعددة في نفس الوقت

تواجه المزيد من البيانات والتدريب، وكيف ندرب الشبكة على أجهزة متعددة؟ نهج شيوعا هو مواز البيانات ، والطريقة المقترحة من قبل جيفري دين وآخرون، والفكرة الأساسية هي لتفريق بيانات التدريب لتدريب في وقت واحد على أجهزة متعددة، والحفاظ على نفس مجموعة من معلمات الشبكة. عملية محددة لتعيين الخادم المعلمة في الشبكة، وتستخدم لحفظ معلمات الشبكة العالمية، المعلمات المتبقية من كل جهاز يرسله إلى الملقم بعد حساب وزنها التدرج الخاصة، وسيتم تحديث خادم معلمة التدرج لأحدث العالمية الأوزان لتعود أخيرا المعلمات التاريخ إلى جهاز خادم لإكمال التحديث من minibatch.

مزامنة استراتيجيتين موجودة المعلمات العملية المذكورة أعلاه، يتم تحديث معلمة واحدة في تزامن غير المتزامن آخر. والفرق هو أن الملقم بإرجاع مختلفة المعلمات تحديث المعلمات إلى كل جهاز توقيت. الحاجة السابقة إلى الانتظار لجمع كل من الجهاز ومن ثم نقلها إلى التدرج من حق التحديثات الوزن، كلما يتلقى هذا الأخير معلمة الخادم التدرج بعد التحديث إلى الأوزان الخاصة، يتم إرجاع الوزن والقيمة الحالية للجهاز، والعملية كما هو موضح أعلاه كما هو مبين في الشكل. ويرجع ذلك إلى تأثير تسارع بشكل غير متزامن محدودة، في حين أن التقارب نموذج سيؤثر سلبا حد ما، فإنه عادة أقل في حالات عملية.

من الناحية المثالية، منذ فرقت بيانات موازية على بيانات لعدد وافر من المدربين، وسرعة نظام التدريب ينبغي بالتالي يزيد خطيا مع عدد من الأجهزة الزيادة، ولكن النتائج الفعلية ليست مرضية. نستخدمها على جهاز واحد GPU أجهزة متعددة لنموذج التدريب اللغوية العصبية، كما هو مبين في الشكل صورة سرعة، ولم تصل إلى سرعة المتوقعة للبطاقة عدة مرات لتتحول هذه الظاهرة. ما الذي يسبب المشكلة هو؟

يمكننا أن نرى، في سياق بيانات موازية، والتدرج من مصفوفة الترجيح يتطلب نقل البيانات المتكرر بين الأجهزة، وسرعة نقل هذا الجزء بين كل من نقل بين الأجهزة داخل الجهاز أو الجهاز آلة العكس أداء الحوسبة بعيدون عن. وبعبارة أخرى، على الرغم من أننا استخدام أجهزة متعددة للتدريب التعاوني، وفرقت بنجاح العمليات ليتم تنفيذها بشكل متواز على أجهزة متعددة، ولكن من أجل الحفاظ على نفس مجموعة من المعلمات الشبكة، ولكن استثمر في هذه العملية على نقل البيانات بين الأجهزة وسوف يقتصر أي جهد صغير، مما أدى إلى زيادة سرعة الشاملة. واسون التجربة المذكورة سابقا، فإن الوقت الذي يستغرقه لنقل البيانات لتحتل حوالي 50 من إجمالي التدريب قتا طويلا، مما أدى إلى تأثير سلبي خطير على كفاءة النظام الموازي. واستجابة لهذه المشاكل، وقد اقترح العديد من الباحثين أيضا مجموعة متنوعة من الاستراتيجيات، على أمل للحد من أجهزة متعددة لنقل البيانات تدريبية تستغرق وقتا طويلا في آثار سلبية على تأثير مواز تسببت هنا يقدم ثلاث طرق التحسين المشتركة.

ويطلق على السياسة الأولى تسارع الكل تقليل ، فإنه قد تغيرت إلى وسط الهيكل انتقال حلقة، لإلغاء تحديد معالم الخادم، وذلك بين الأجهزة في الجهاز مع هيكل حلقة نقل البيانات في الداخل، بحيث كلما زاد النظام استخدام عرض النطاق الترددي، وأكثر كفاءة نقل البيانات.
وتسمى الطريقة الثانية مزدوج التخزين المؤقت، من خلال طريقة عازلة المزدوج للعمل، عملية التدريب الشبكة العصبية حساب التدرج ونقل البيانات قسمين تتداخل في الوقت المناسب، حتى أن وحدة الزمن لا يمكن أن يؤديها أكثر minibatch.
هناك أيضا طريقة أكثر بساطة والخام يسمى المتوسط نموذج ، والتي في كل جولة من عملية التدريب، لا التزامن بين المعلمات الجهاز، إلا إذا كان متوسط المعلمات بعد نهاية كل جولة من التدريب. هذا بشكل فعال يقلل من وتيرة نقل البيانات وذلك لتحقيق تأثير التسارع، والأمثل لعرض النطاق الترددي المنخفض من البيئة المادية (على سبيل المثال، فإن الجهاز هو على آلات متعددة، وذلك باستخدام اتصال Ethernet) أنظمة وغالبا ما تستخدم ذلك.

رابعا، وضع نقل البيانات على أساس أخذ العينات

وجه عدد كبير من تستغرق وقتا طويلا نقل البيانات في موازاة ذلك، نأمل لزيادة خفض الوقت الذي يستغرقه جزء. ونحن نعلم أن وقت الإرسال هو مساو لعرض النطاق الترددي مقسوما على كمية البيانات المنقولة في النظام، وقامت بذلك في فرضية لا تعديل البيانات في وضع مواز، لا يسعنا إلا أن تسارع بوسائلها، وهما، وزيادة سرعة البيانات وانخفاض عدد التحويلات. جميع خفض طريقة ينتمي إلى الفئة الأولى، عن طريق تغيير بنية نقل البيانات يحسن أداء الإرسال. ثم نضعه فكرة أخرى، سواء من زاوية ثانية، الذي هو للحد من كمية البيانات إلى أن تنتقل إلى تحسين وقت نقل البيانات هو؟

لدينا عرض النطاق الترددي المحدود، فمن المستحسن أن يستكمل في أسرع وقت ممكن الحق في نقل الوزن من التدرج، ومصفوفة التدرج من طريقة هي أن ينتقل من عينات، بحيث كمية أقل من البيانات إلى أن تنتقل، بحيث الوقت الذي يقضيه هذا الجزء أيضا وسيتم خفض وفقا لذلك. بعد تحديد الاتجاه العام للالأمثل، فإن السؤال التالي هو الذي الاستراتيجية التي يجب اتباعها لتذوق ذلك؟

بكل بساطة، "تركيز السلطة". عند إرسال المعلمة التدرج إلى الخادم، واستخراج الكامل من مصفوفة التدرج لتحسين أداء النموذج باللغة جزء أكثر فائدة من نقل العصبي، والحد من كمية البيانات لتحقيق الغرض من تقليل الوقت المستهلك ، كما هو مبين في الشكل.

يعرض هذا الأسلوب استراتيجيات أخذ العينات مختلفة لطبقة مختلفة نموذج اللغة العصبية. في طبقة الإخراج، على سبيل المثال، W الوزن مصفوفة، وحجم ت * ح، والخامس هو حجم المفردات، h غير عدد العقد طبقة مخفية. يمكننا أن نرى أنه عندما الشبكة عملية نشر إلى الأمام، فإن وزن كل صف دوت المتجه الناتج من طبقة مخفية للحصول على الاحتمال المتوقع من كلمة المفردات. وبعبارة أخرى، رتبة كلمة وزن طبقة الإنتاج ووزن كل صف في الجدول يتوافق إلى الكلمة المقابلة لهذا هو ما نريد أن يكون واحدا من أساسا هاما لإعادة أخذ عينات من حق الطبقة. من أجل جعل شبكة أسرع التقارب، وتركنا متجه صف من مجموعة التدريب كثيرا ما تحدث كلمة المقابلة لاحتمال أكبر للاستخراج، والمعلمات التي تم تمريرها إلى الملقم ليتم تحديثه. استراتيجية اختيار محددة:

حيث، Vbase هو يظهر المصطلح في minibatch الحالي، يتم تحديد فرجينيا من كثيرا ما تحدث عدة مفردات، يتم تحديد V [بيتا] عشوائيا من المفردات للتأكد من أن النظام هو قوي، ولكن في مجموعة الاختبار مستقرة. وبالمثل، في طبقة المدخلات وطبقة مخفية أيضا استراتيجيات أخذ العينات المختلفة.

على سبيل المثال، كما هو مبين في مرحلة التدريب، GPUl حساب التدرجات وزنه وفقا لوزن مصفوفة بهم، ثم منها المستخرج من خلال طريقة أخذ العينات الصفوف الأول والثالث وينتقل إلى خادم معلمة، قام أيضا GPU2 التعاطف مماثل العملية، واستخراج خطوط النقل الثانية والثالثة. يتلقى GPU3 الخادم المعلمة لهم المتراكمة في صفوف جهازين الحق بعد مرور أكثر التدرج الوزن، لإعطاء مصفوفة التدرج النهائية، والتي يتم تحديثها لمعلمات الشبكة. في هذه العملية، لم تكن عينات الجهازين بسبب متجه الانحدار من الخط الرابع، وذلك عندما لا يتم تحديث التحديث ذلك.

طريقة نستخدم طريقة أخذ العينات إلى أن تنتقل إلى استخراج التدرج وتحديثها كلما كان ذلك ممكنا للمساعدة في أداء الشبكة أن الجزء الأكبر منها. ولكن في الواقع، منذ قررنا تجاهل هذا الجزء من التدرج، من أجل الحصول على مزيد من تعزيز سرعة، لا يمكنك حساب لهم تماما. ونحن نعلم جميعا أن خطوتين إلى انتشار وانتشار العكسي قبل تدريب الشبكات العصبية في حاجة للذهاب من خلال الحصول على التدرج الوزن، حيث نبني اثنين من طرق أخذ العينات المختلفة لهم.

أو في طبقة الإنتاج، على سبيل المثال، عملية نشر إلى الأمام، ونحن تجاهل جزء من نمط أخذ العينات ويحسب على أساس A، نقل العكسي المقبل بطريقة متدرجة خلال أخذ العينات تمر بها التخلص منها مرة أخرى التدرج جزء B. اكتب عينات B في نفس الطريقة كما نفس الاستراتيجية أخذ العينات نقل البيانات، وذلك باستخدام ناقلات الصف فال الفرز، ونحن مزيد من تجسيد التعددية وكلمة تم اختيارها عشوائيا من فال إضافة إلى المفردات، فإن الإجراء العودة انتشار بهذه الطريقة يدخل بعض الضوضاء في المفردات، ويمكن تحسين فعالية متانة نموذج.

ركزنا على طريقتين المذكورة أعلاه PTB، فبئس شينخوا بيانات والاختبار، والنتائج الموضحة أعلاه، حيث الأساس هو نتيجة للتدريب غير متزامن، يمكن اعتبار محدودية تأثير التسارع. وزعت في شبكة المدربين على مجموعة الثلاثة المهمة، يمكننا أن نرى أن يتم تطبيق طريقة أخذ العينات للتأثير التدرج تسارع حساب الأمثل، في الحالة التي يكون فيها بطاقة 4، وطريقة غير متزامن السرعة النسبية حوالي 2.1 مرة ، بطاقة واحدة يمكن أن تحسن الأوقات النسبية 4.2.

LSTM نموذج اللغة مجموعة التدريب البيانات على ثلاثة الخصائص التي تم الحصول عليها كما هو مبين في الشكل. (الهدف الحيرة)، يمكننا أن نرى أن في تجسيد باستخدام أخذ العينات الأساس الأداء نموذج أو أقل. يظهر الشكل التالي الرسم البياني لمجموعة البيانات (شينخوا) الاختيار مع الحيرة تدريب مجموعة من الزمن، فإن الطريقة التي أخذ العينات في أربع بطاقات المحيطة، وهو ما يمكن ملاحظته بوضوح متفوقة الأساس التقارب في الجولة الخامسة من التدريب في حيرة انخفضت بشكل ملحوظ، في حين أن الوقت تقارب حوالي 8-10 طلقة.

في بداية القسم ذكرنا، هناك نوعان من طريقة تسريع الرئيسي لنقل البيانات في إطار فرضية لا تعديل نمط البيانات في موازاة ذلك، من أجل تعزيز كفاءة نقل وللحد من عدد من وسائل النقل، سواء المقابلة الكل تقليل نشير إلى أخذ العينات طريقتين. قارنا طريقتين لتسريع تأثير في التجارب، كما هو مبين أدناه، الكل الحد من الأساس الطريقة أربعة سرعة بطاقة حوالي 25، على أساس نسبة سرعة وضع عينة من حوالي 41. كنقطة انطلاق لاستراتيجيات مختلفة اثنين لتسريع، لذلك من الناحية النظرية يمكن استخدامها بطريقتين في نفس الوقت لتسريع النظام.

يمكننا أن نرى من خلال أكثر من عدد قليل من التجارب، ، يمكن تقديم طريقة تدريب نموذج اللغة العصبية القائمة على أجهزة أخذ عينات متعددة فعالا في الحد من الوقت المستهلك في نقل البيانات والتدريب على مزيد من الأجهزة. يتضمن طريقة نقل البيانات أخذ العينات وأخذ عينات من حساب الانحدار، والجهاز GPU أربعة التدريب، قد تكون السرعة النسبية بطريقة غير متزامنة عن 2.1 مرة، نسبة إلى بطاقة واحدة يمكن تدريب نحو 4.2 أضعاف سرعة. وقد تم تطبيق هذه الطريقة بنجاح إلى محرك الترجمة العجل الأساسية لنظام الترجمة، بما فيها الصينية والانجليزية واليابانية والكورية وغيرها من 44 لغات، بما في ذلك دعمها، وأداء تدريب موازية ترقية نظام متعدد جهاز واضح.

ملاحظة: محتويات الرئيسية هنا بالرجوع IJCAI 2017 ورقة التدريب الموازي صوم نماذج العصبية اللغة، وهي جزء من التجربة من CWMT 2017 ورقة تحليل نموذج اللغة على أساس مواز بيانات التدريب بطاقة متعددة العصبي.

مراجع

Mikolov T، Karafit M، L Burget، وآخرون. المتكررة الشبكة العصبية النموذج القائم على لغة // INTERSPEECH 2010، مؤتمر الرابطة الدولية الكلام الاتصالات، ماكوهاري، شيبا، اليابان، سبتمبر DBLP 2010: 1045-1048.

عميد J، G كورادو S، مونغا R، وآخرون. زعت على نطاق واسع شبكات عميقة .. المؤتمر الدولي للالعصبية معالجة المعلومات نظم كوران شركاه المحدودة 2012: 1223-1231.

وانغ L، وو W، Bosilca G، وآخرون. الاتصالات الفعالة في تدريب الشبكات العصبية مقياس كبيرة عام 2017.

هانسن L K، سلمون P. الشبكات العصبية اطقم . المعاملات IEEE على تحليل نمط وآلة الاستخبارات، 1990، 12 (10): 993-1001.

Surhone L M، Tennoe M T، S Henssonow F. طويل قصير الأجل الذاكرة . Betascript النشر، 2010.

طريق الحرير

كيفية تسريع تدريب اللغة نموذج العصبية؟ شمال شرق فريق جامعة دالاس مافريكس من المترجمين انقلاب

أولا، اللغوية العصبية الشخصي نموذج

الثانية، وأسرع تدريب نموذج اللغة العصبي

وأساليب التدريب الثالثة والاستغلال الأمثل للأجهزة متعددة في نفس الوقت

رابعا، وضع نقل البيانات على أساس أخذ العينات

مراجع

لقطة حقيقية شو الثيران سوبر بيضاء، لامبورغيني LM002، عرض الإطارات غير طبيعي 345

تجربة Ourui بو T1 القفل الذكي: دقة التعرف على بصمات الأصابع دعم متعددة حماية الذكية

كتريب الحجز "فخ"، والمستهلكين حفرة 10 مليارات في السنة؟ رد الرسمية؛ فون 8 انفجر من 5 على الأقل خدمة العملاء أبل وقال السبب ليس لي قسم | لى فنغ الصباح

شو النار لم الحقيقي مات في الولايات المتحدة، وبورشه 911 كاريرا الجديدة 4S

وقد تحدث شنشى آسيا حول الاستخبارات الخارجية تشاي فائقة الذكية الوحي المنزل: نوعية جيدة تطالب النجاح

شين تردد الصالحين الصغرى بلوق اندلعت الأخبار من قوة علمية وتكنولوجية جديدة ليشهدوا تغيير ممن لهم

الخوارزميات التطورية يمكن لم تعد بحاجة إليها لحساب الكتلة، جامعة طريقة جديدة من كيب تاون مع GPU يمكن تحديث سجل MNIST

قبل النظام "الآس مكافحة 7" يمكنك الحصول على 5th الجيل الحر أو 6TH عبة الجيل

تم ارسال علي قوة الأدبية فئة العمودية التفكير الجريء ليلة التحول الحقيقي إنشاء موضوع

تصنع محركات الطائرات رولز رويس لا تزال آمنة؟

خطة التحول إلهة: اختيار طريقة أفضل للحياة، ونجاحها الكمال

VR مطلق النار "الخطيئة الأصلية" تجربة العرض: فريق الموت مدمن مخدرات

2019 سائح ciqikou رأس السنة الميلادية

خنان جديدة الخفيفة حصة تشاي تشى قوه من الخبرة: من جميع النواحي فهم لفهم السوق المنزل الذكي

2019 الياسمين الشتاء تشونغتشينغ مدينة الأضواء، أن ننظر فيها؟ ما هي الخصائص التي لديكم؟ أرجو أن تتقبلوا هذه الفوانيس غزاة

لقطة حقيقية شو الجديد رولز رويس فانتوم، والفخامة

كيف ترون لي حلقات سائق سيارة فتحه؟

تبدو الراحة مشتركة؟ دورسيت GL معرفة كيفية إعادة تعريف "الفضاء الثالث"

"تقييم" يمكن الاستماع إلى الموسيقى الخلفية سيقول آلة واحدة backaudio الدلافين 100 لاعب متكامل

بو ران جيدا الذهاب عرض منزل في ميلانو لون موجة الزي المعنى الأدبي الكامل

السنة الجديدة القادمة! أضاءت Jinfo عشرة آلاف الفوانيس بلدة ستار

حديقة الربيع عيون جميلة، ومليون زهرة ينظر إلهة "رحلة ابنة البلد"، واستشهد 700 مليون امرأة كرنفال

أولا، اللغوية العصبية الشخصي نموذج

الثانية، وأسرع تدريب نموذج اللغة العصبي

وأساليب التدريب الثالثة والاستغلال الأمثل للأجهزة متعددة في نفس الوقت

رابعا، وضع نقل البيانات على أساس أخذ العينات

مراجع

الأحكام ذات الصلة