جديد طريقة تحسين الشبكة: عشوائية الوزن المتوسط

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: في هذه المقالة، الباحثين في العلوم البيانات ماكس Pechyonkin يناقش اثنين من الورق مثيرة للاهتمام الأخيرة، لأنها توفر طريقة سهلة لتحسين أي الشبكة العصبية معينة من خلال التكامل ذكي بطريقة الأداء. الصحيفتان هي: غريبوف وآخرون، "فقدان DNNS الوجه، واتصال سريع ووضع التكامل" واسماعيلوف وآخرون، "متوسط الوزن التطرف لتحقيق تعميم أوسع وأفضل."

بطبيعة الحال، إذا يمكنك إلقاء نظرة على فيتالي Bushaev من "تحسين الطريقة التي نتعامل بها مع معدل التعلم"، والقراءة القادمة سوف تكون أكثر استرخاء. لى فنغ شبكة AI تقنية مراجعة النص جمعت على النحو التالي.

الشبكة التقليدية فرقة العصبية

عموما، نحن نقول "المتكاملة" (الفرقة)، هو مزيج من عدة نماذج مختلفة، مما يتيح لهم تقديم تنبؤات استنادا إلى نفس المدخلات، ونموذج التنبؤ النهائي من التكامل وجاء قرار بعض طريقة المتوسط. قد تكون عملية اتخاذ القرار تصويت بسيط أو المتوسط، وربما عن طريق نموذج آخر، والذي يقوم على أساس نتائج نموذج متكامل، والتعلم للتنبؤ القيمة الصحيحة أو التسمية. ريدج الانحدار هو طريقة للتنبؤ نتيجة لعدد من مجموعات مختلفة ممكنة، بيانات الأقمار الصناعية Kaggle لتحديد بطل سباق الغابات المطيرة على طريقة استخدامها.

التكامل هو لقطة من كل فترة الدراسة في نهاية حفظ النموذج، ومن ثم استخدامها في التنبؤ.

عندما يطبق على دراسة معمقة المتكاملة، وتوقع مزيج من عدة شبكات للحصول على التنبؤ النهائي. عادة، عدة أبنية مختلفة من الشبكات العصبية هي أفضل، بسبب بنية مختلفة من الشبكة عموما سوف يخطئ على عينات التدريب المختلفة، والفوائد وبالتالي متكاملة ستكون أكبر.

لقطة التكامل باستخدام الدوري الصلب معدل التعلم

بالطبع، يمكنك أيضا دمج نفس نموذج العمارة، وربما سوف يكون التأثير جيدة بشكل مدهش. هذا هو مثل لقطة من ورقة متكاملة، مؤلف المحفوظة في عملية تدريب نفس الشبكة في لقطة مختلفة من قيمة الحق، ثم قم بإنشاء نفس بنية بعد التدريب، وشبكات متكاملة من أوزان مختلفة. يمكن القيام بذلك تحسين أداء الاختبار، ولكن أيضا سوبر توفير المال - لأنك تحتاج فقط إلى تدريب قطار نموذج مرة واحدة فقط، وتذكر فقط لانقاذ الوزن على الخط في أي وقت.

يمكنك قراءة مقال عن فيتالي Bushaev معدل التعلم مقال في بداية المقال ذكر بدقة. إذا كان لديك لم يحاكم معدل التعلم بحيث الدوري حتى الآن، ثم عليك أن تذهب ومحاولة، وأصبح أفضل، ومعظم الممارسات القياسية، هو بسيط وودود، وكمية خفيفة جدا من الحساب، يمكن أن يكون جدا مضاعفة.

جميع الأمثلة المذكورة أعلاه تتكامل جميعها في نموذج الفضاء. بعض نموذج الجمع، ثم يستخدم تنبؤات هذه النماذج للحصول على النتائج النهائية التنبؤ.

وهذا المقال أود أن أعرض ورقة، ويقترح المؤلفون جديدة المتكاملة في الفضاء الوزن . في هذه الطريقة، الأوزان جنبا إلى جنب من نفس الشبكة في مراحل مختلفة من التدريب للحصول على متكاملة ومن ثم استخدامها للتنبؤ الأوزان مجتمعة. هذا النهج ميزتان:

  • بعد الجمع بين الأوزان، ونحن لا يزال الحصول على النموذج النهائي، مما يساعد على تسريع التوقعات.

  • لقد أثبتت الوقائع أن هذه الطريقة أفضل من معظم قطة متكاملة ومتطورة للتيار.

قبل فهم كيفية عمل هذه العملية، ونحن بحاجة أولا لفهم فقدان الطائرة (خسارة السطح) والحل (حل للتعميم) التعميم.

الحل في الفضاء الوزن

علينا أولا أن نذكر أن شبكة المدربين هي مساحة قيمة الناشط نقطة عالية. لبنية معينة، كل واحدة منها مختلفة مجموعات قيمة الأوزان شبكة تمثل نموذجا مختلفا. أي الجمع بين أوزان للبنية معينة لا حصر لها، لذلك هناك عدد لانهائي من الحلول. يتم تدريب هدف الشبكة العصبية لإيجاد حل محددة (قيمة نقطة في الفضاء الأيمن)، مثل أن قيمة الدالة فقدان مجموعة التدريب البيانات واختبار مجموعة منخفضة نسبيا.

أثناء التدريب، الخوارزمية التدريب لتغيير الشبكة عن طريق تغيير الأوزان والأوزان الفضاء التجوال. التدرج يطوف أصل الخوارزمية في فقدان الطائرة، الخسارة هي وظيفة من ارتفاع الطائرة.

على نطاق واسع وضيق extremum القيم القصوى

بصراحة، تصور وفهم خصائص هندسية حقوق الفضاء ذات القيمة العالية من الصعب جدا، ولكن علينا أن نفهم ذلك. ونظرا للطبيعة أصل التدرج العشوائية، الطائرة من خلال فقدان هذا الفضاء الأبعاد عالية في التدريب، في محاولة لإيجاد حل جيدة - خسارة على خسارة قيمة أقل مستو من "نقاط". ولكن في وقت لاحق وجدنا أن الطائرة لديها الكثير من نقاط مثلى محلية. ولكن هذه ليست جيدة مثل طبيعة المتطرفة المحلية.

جيفري هينتون: "من أجل التعامل مع مساحة 14 الأبعاد للhyperplanes، تصور الفضاء ثلاثي الأبعاد، وبكيت نفسي" 44 "الجميع يفعل .." (المصدر: كورسيرا طبعا)

على نطاق واسع وضيق القيم القصوى القيم القصوى. عرض محلي الحد الأدنى من خسارة مماثلة في عملية التدريب والاختبار، ولكن لضيق الدنيا المحلية، فإن الخسارة الناتجة في التدريب والاختبار سيكون مختلفا جدا. يعني ذلك أن التعميم التطرف واسعة أفضل من التطرف الضيقة.

ويمكن استخدامه لقياس ثبات مزايا حل. والمبدأ هو أن مجموعة التدريب البيانات وجمع بيانات الاختبار أنتج مماثلة ولكن غير متطابقة طائرة الخسارة. يمكنك التفكير في الأمر على النحو طائرة اختبار قريب لطائرة التدريب الترجمة قليلا. إلى حل الضيق، خسارة واحدة في وقت الاختبار بسبب هذه النقطة المنخفضة قد يترجم إلى خسائر أعلى نقطة تم إنشاؤه. وهذا يعني أن (حاد) حل تعميم الضيق ليست جيدة - تدريب خسارة منخفضة، وارتفاع خسائر الاختبار. من ناحية أخرى، من أجل حل واسعة (شقة)، وأصغر الفرق بين التدريب والاختبار من الخسائر الناجمة عن فقدان هذه الترجمة.

شرحت الفرق بين الحلين، لأن الطريقة المقترحة في هذه الورقة، وأيضا تركز مقالتي على الطريقة، يمكن أن يجلب السرور، واسعة (شقة) حل.

لقطة المتكاملة (لقطة Ensembling)

في البداية، سوف SGD البوب خطوة كبيرة في الفضاء الوزن. بعد ذلك، منذ الصلب جيب التمام، سيتم تخفيض معدل التعلم تدريجيا، SGD تدريجيا تتقارب إلى حل المحلي، فإن خوارزمية حفظ نموذج "لقطات" لإضافته إلى نموذج متكامل. ثم معدل التعلم هو إعادة تعيين إلى قيمة أعلى، SGD خطوة كبيرة مرة أخرى، يجد أقصى محلي آخر، وهلم جرا.

لقطة طول فترة التكامل من 20-40 العصر. تعلم منذ فترة طويلة دورة معدل يكفي لإيجاد نموذج متباينة في الفضاء قيمة الحق من أجل لعب فوائد التكامل. إذا كان نموذج مشابه جدا، ثم نموذج متكامل للتنبؤ والشبكات المختلفة تكون قريبة جدا من أن التكامل لا يحقق الكثير من الفوائد لذلك.

لقطة أداء متكامل المعلقة، لتعزيز أداء نموذج، ولكن التكامل الهندسي بسرعة أفضل.

تجميع الهندسي سريع (سريع الهندسية Ensembling، FGE)

"فقدان DNNS السطح، اتصال سريع ووضع التكامل" رفعت بسرعة FGE التكامل الهندسي والتكامل لقطة تشبه إلى حد كبير، ولكن هناك بعض ميزات فريدة من نوعها. وهي تختلف أساسا في نقطتين. أولا، والتكامل السريع للهندسة باستخدام معدل التعلم التخطيط الخطي دورة دالة متعددة التعريف، بدلا من جيب التمام. ثانيا، وطول دورة هو أكثر من --2 FGE إلى أربعة حقبة قصيرة. للوهلة الأولى وأنا متأكد من أنك تشعر حدسي مثل هذه الفترة القصيرة من الخطأ، لأن النموذج كانت نهاية كل فترة من الزمن بين بعضها البعض قريبة جدا، النموذج المتكامل لذلك الحصول على أي ميزة. ومع ذلك، وجد الباحثون أن من بين نماذج مختلفة بما فيه الكفاية، هناك أقل خسارة من مسار الاتصالات. لدينا الفرصة للسفر مع الخطوات الصغيرة على طول مسارات، ولكن هذه النماذج يمكن أيضا أن يكون هناك اختلاف كبير بما فيه الكفاية، وهو ما يكفي للعب فوائد التكامل. لذلك، مقارنة التكامل لقطة، FGE أداء أفضل في خطوات أصغر نموذج البحث (وهذا أيضا يجعل التدريب أسرع).

اليسار: والحدس التقليدي، الدنيا المحلية جيدة متباعدة عن بعضها البعض منطقة خسارة عالية (كسر خط) في / يمين: هناك مسار بين قيمة الحد الأدنى المحلية، وفقدان هذه المسارات هي منخفضة جدا (الصلبة خط). FGE على طول هذه المسارات لإنقاذ لقطات لإنشاء لقطة من التكامل.

FGE من التكامل لقطة أو منفعة، الحاجة إلى تخزين نماذج متعددة ومن ثم يكون كل نموذج على التنبؤ، وبلغ متوسط للحصول على التنبؤ النهائي بعد. ولذلك، فإننا دفع سعر أعلى لأداء إضافي قوة المشغل المتكامل. لذلك ليس هناك وجبة غداء مجانية. حقا لم يفعل؟ هذا هو المتوسط المرجح عشوائي المفيد هنا.

عشوائي الوزن المتوسط (الاستوكاستك الوزن المتوسط، SWA)

الوزن عشوائي متوسط عدد سوى جزء صغير من مجموعة من قوة متكاملة بسرعة، يمكنك أن تكون على مقربة من أدائها. SWA يمكن استخدامها على أي بنية ومجموعات البيانات، سيكون لدينا أداء جيدا. ووفقا للتجارب ورقة، يمكن SWA الحصول على الحد الأدنى أوسع ذكرتها من قبل. في المعرفية الكلاسيكية، لا متكاملة SWA، لأنه في المراحل النهائية من تدريب تحصل سوى نموذج، لكنه تفوق على التكامل قطة، FGE وثيق.

اليسار: W1، W2، W3 تمثل ثلاثة شبكة تدريبية منفصلة، Wswa في المتوسط. في الشكل: أداء WSWA على مجموعة اختبار خارج SGD. اليمين: فقدان WSWA في التدريب هي أعلى من SGD. المشتركة WSWA متفوقة في الأداء على SGD مجموعة الاختبار، وهو ما يعني خسائر أكبر على الرغم من التدريب WSWA، فمن الأفضل التعميم.

SWA الحدس من ملاحظة أن الحصول عليها تجريبيا: الدنيا المحلية لكل دورة من التعلم حصلت يميل المودعة نمط (على الجانب الأيسر من قيمة الخسارة FIG من مساحة الطائرة حافة فقدان منخفضة، وانخفاض الخطأ المنطقة البني، نقطة W1، W2،3 تمثل ثلاثة شبكة المدربين مستقلة، على حافة المنطقة البني). يمكن حل هذه النقاط المتوسط، لإعطاء مقلاة واسعة، مما خفض الخسائر (على اليسار في الرسم FIG WSWA).

هنا هو مبدأ عمل SWA. ان يوفر فقط نموذجين، بدلا من العديد من نماذج التكامل:

  • النموذج الأول لانقاذ الوزن المتوسط من طراز (WSWA). وفي نهاية التدريب، وسوف يكون النموذج النهائي للتنبؤ.

  • والنموذج الثاني (W) تمر من خلال قيمة الحق الفضاء، على أساس معدل الدوري لتعلم التخطيط الأوزان استكشاف الفضاء.

صيغة التحديث الوزن SWA

في نهاية كل دورة التعلم، فإن الوزن الحالي أن يستخدم وزن النموذج الثاني لتحديث نموذجا للوزن الثقيل (الصيغة أعلاه). لذلك، في مرحلة التدريب، سوى نموذج التدريب، وكلا النموذجين المخزنة في الذاكرة. فقط عندما يكون متوسط نموذج التنبؤ على أساس التكامل بشكل أسرع بكثير مما كان متوقعا سبق وصفها، لأن هذا النوع من التكامل، تحتاج إلى استخدام نماذج متعددة للتنبؤ، وبلغ متوسط أخيرا.

وسيلة لتحقيق

توفر الكتاب تنفيذها الخاصة من PyTorch https://github.com/timgaripov/swa.

وبالإضافة إلى ذلك، https://github.com/fastai/fastai/pull/276/commits مرئية مقرها مكتبة SWA fast.ai. تصدع جدار امواى المكتبة!

عبر towardsdatascience.com، شبكة لى فنغ جمعت AI تقنية مراجعة

في هذه الأيام، لا يمكن لأسعار السيارات SUV يعيش؟ وقال فاو فولكس واجن: يمكن

ضبط 2019 ALIPAY خمسة أنشطة لمساعدتك على تفريغ أقوى العربة غزاة تاوباو التسوق

كبار الأزياء كبيرة كبيرة "المخبر بو" روائع الحب نظمت إيثان Zhongchu شي يوم رأس السنة الجديدة

أطلقت AutoX خدمة تسليم المدينة، وتقع ثلاث شاحنات من دون طيار

أخبار بطيئة رؤية | الربيع في أماكن أخرى من الزهور، ونحن نذهب لرؤية الثلج هوانغ السد

لا أستطيع أن أصدق ذلك! مما أجبر العديد من وسيم وطويل القامة شعرية SUV فقط 150000

Neuromation: يقول المقال كيفية الكشف عن الأطفال في سن العظام مع CNN

هذا العام أفلام الخيال العلمي لرؤية هذا هو واحد يكفي! "رجال في الأسود: العالم تبحث عن" فصل جديد في جديد الكلاسيكية

قد يكون هذا المثل الأعلى لخريف منتج واحد البرية من خيار للسلسلة؟ ! كبير Renge جديدة AW17 LOOKBOOK أطلق سراحه!

عندما موازنة العجلات؟ سوف يعلمك الحكم

صناعة البصائر الموضوع | تحليل الأغذية صناعة تجهيز المعدات

منتصف النهار ستار نيوز | برلين فيلم الدب المزدوج "للأبد" الافراج عن البر الرئيسى مارس، سيتم الافراج عن الإصدار في ثلاث ساعات ذلك؟ شنشى بما فيه الكفاية للمشاركة في الحكومة الجديدة أعلنت الموسم، لديهم