أساليب التعلم الجهاز لمنع أكثر من المناسب، لماذا؟

مذكرة لى فنغ الشبكة: إن qqfly المؤلف، جامعة شنغهاي جياوتونغ الروبوت الدكتوراه، وتخرج من قسم الهندسة الميكانيكية، والاتجاه البحثي الرئيسي من رؤية الجهاز وتخطيط الحركة، وكتابة بعض المحتوى مثيرة للاهتمام في عدد الجمهور قناة الصغرى: ناو (ID: qRobotics ). هذا التشطيب ورقة عرف أجاب تقريبا: آلة أساليب التعلم لمنع الإفراط في تركيب لماذا؟

الوقت ل"آلة الرؤية وتطبيقات" بالطبع مهمة كبيرة، فقط يأتي إلى هذا الجانب، هو ببساطة جمعت منه (راجع هينتون طبعا). وفقا لروتين السابق إلى الكتابة:

ما هو

Overfitting (overfitting) يشير إلى وجود مشكلة في عملية تركيب معالم النموذج، حيث تضم بيانات التدريب خطأ المعاينة والتدريب، كما سيتم أخذ النماذج المعقدة إلى خطأ المعاينة الحساب، وأخذ العينات خطأ من شأنه أيضا أن يكون مناسبا.

أداء محددة هو النموذج النهائي في تأثير التدريب مجموعة جيدة، النتائج السيئة على مجموعة الاختبار. ضعف نموذج التعميم.

لماذا

لماذا تسوية لأكثر من المناسب الظاهرة؟ هذا هو لأننا تناسب يستخدم نموذج عام للتنبؤ النتائج غير معروفة (لا يدخل ضمن مجموعة التدريب)، على الرغم من أن الإفراط في تركيب جيدة على مجموعة التدريب، ولكن (مجموعة الاختبار) النتائج السيئة في الاستخدام الفعلي. وفي الوقت نفسه، حول العديد من القضايا، ونحن لا يمكن أن شاملة من جميع الدول، فمن المستحيل أن تشمل جميع الحالات في مجموعة التدريب. لذلك، يجب أن نتمكن من حل هذه المشكلة من خلال تركيب.

لماذا هي أكثر شيوعا في تعلم الآلة؟ وذلك لأن آلة الخوارزميات ممكن التعلم من أجل تلبية المهمة المعقدة من المناسب قدرته على النموذج بشكل عام هي أعلى بكثير من تعقيد المشكلة، وهذا هو، آلة خوارزمية التعلم في إطار فرضية "تركيب القواعد الصحيحة لمزيد من المناسب الضوضاء القدرة "في.

المشكلة التقليدية للنوبة وظيفية (على سبيل المثال، نظام تحديد الهوية)، وعادة عن طريق التجربة والمادية، وما إلى ذلك لاشتقاق نموذج رياضي يتضمن معايير، يتم تحديد تعقيد النموذج، فقط تحتاج إلى ضبط المعلمات الفردية. نموذج "لا طاقة فائضة." تركيب الضوضاء.

ماذا عن

منذ أكثر من المناسب جدا مثير للاشمئزاز، ينبغي أن نكون كيفية منع الإفراط في تركيب ذلك؟ عمق الزوار تعلم المزيد من النار، وسوف تأخذ الشبكة العصبية كمثال على ذلك:

1. الحصول على المزيد من البيانات

هذه هي الطريقة الأكثر فعالية لحل الإفراط في تركيب، مجرد اعطاء بيانات كافية لتمكين نموذج "رؤية" أكبر قدر من "ظروف استثنائية"، وسوف تستمر لتصحيح بلده، مما أدى إلى نتائج أفضل:

كيفية الحصول على المزيد من البيانات، يمكن أن يكون لديك الطرق التالية:

  • الحصول على مزيد من البيانات من مصدر بيانات : هذا من السهل التفكير في مثل تصنيف الكائن، واتخاذ بعض الصور أكثر من جيدة، ولكن في كثير من الحالات، زيادة كبيرة في البيانات نفسها ليست سهلة، بالإضافة إلى ذلك، نحن لا نعرف كم من الحصول على البيانات كفى

  • توليد المزيد من المعلمات توزيع البيانات، تعيين البيانات الشخصية استنادا إلى البيانات التقدير الحالي : افعلوا هذا عموما لم يكن كذلك، سوف لأن يقدر عملية تكون بديلا المعلمات التوزيع في هامش الخطأ.

  • تعزيز البيانات (تكبير البيانات) : البيانات الموسعة بقواعد معينة. كما تصنيف الكائن، فإن موضع الكائن في الصورة، والموقف، وحجم، وسطوع الصورة الشامل وحتى لا يؤثر على النتائج تصنيف. يمكننا عموم من خلال الصورة، والوجه، والتكبير، وقطع وسائل أخرى لتوسيع أضعافا مضاعفة قاعدة البيانات؛

2. استخدام نموذج مناسب

قال في وقت سابق، وهناك أكثر من المناسب، فمن يرجع ذلك أساسا إلى سببين: بيانات قليلة جدا + نموذج معقد جدا. لذلك، يمكننا استخدام المناسب نموذج التعقيد لمنع الإفراط في تركيب المشكلة، والسماح لها تناسب قواعد حقيقية بما فيه الكفاية، ودون تركيب الكثير من هامش الخطأ.

(PS: إذا قمت بتمرير، النمذجة الرياضية البدنية، لتحديد مدى تعقيد النموذج، الذي هو أفضل وسيلة، وهذا هو السبب عمق التعلم بالتالي فإن إطلاق النار الآن، وأنا أصر على أن مبتدئين لتعلم لإتقان أساليب النمذجة التقليدية. )

للشبكة العصبية، فإننا يمكن أن تأتي من الجوانب الأربعة التالية سعة الشبكة الحد :

الهندسة المعمارية الهندسة المعمارية 2.1 الشبكة

هذا ومن المعلوم جيدا، والحد من عدد من طبقات الشبكة، الخ الدولار يمكن أن تحد من عدد من العصبية المناسب قدرة الشبكة؛

وقت التدريب 2.2 التوقف المبكر

لكل الخلايا العصبية، وظيفة تفعيله في أداء مختلف أقسام مختلفة:

عندما أوزان شبكة صغيرة، وظيفة تنشيط الخلايا العصبية في المنطقة الخطية، ثم ضعف القدرة تركيب الخلايا العصبية (العصبونات خطية مماثلة).

مع بعد الإجماع المذكور أعلاه، فإننا يمكن أن يفسر لماذا وقت التدريب الحد (وقف في وقت مبكر) مفيد: لأننا الأوزان المبدئية أصغر عموما عند تهيئة الشبكة. في وقت التدريب لفترة أطول، جزء من الأوزان شبكة المرجح أن يكون. إذا توقفنا عن التدريب في الوقت المناسب، يمكنك الحد من قدرة الشبكة داخل نطاق معين.

2.3 الوزن الحد الوزن الاضمحلال، والمعروف أيضا باسم التنظيم (تنظيم)

المبدأ على النحو الوارد أعلاه، ولكن هذه الأساليب تضاف مباشرة إلى حجم الأوزان إلى التكلفة، في ممارسة الحق للحد من زيادة قيمة الوقت. لL2 تنظيم كمثال:

يمكن تدريب ضرورة عملية للحد من التكلفة الإجمالية، وهذه المرة، من ناحية تقليل خطأ بين الناتج الفعلي وعينات C0، يمكن أيضا أن يقلل من قيمة الحجم الصحيح.

2.4 زيادة في الضوضاء الضوضاء

إضافة الضوضاء إلى الشبكة، وهناك العديد من الطرق:

2.4.1 والضوضاء في المدخلات:

مع ضجيج شبكة الاتصالات، وساحة للوزن تضخيمها ونشرها إلى طبقة الإنتاج، ويؤثر على خطأ التكلفة. مشتق هينتون مباشرة رؤية PPT ذلك:

إضافة يتم إنشاء الضوضاء التمويه في المدخلات في الإخراج

تدخل المدى. تدريب، والحد من الخطأ، ولكن أيضا تدخل الناتجة عن فترة عقوبة الضوضاء لتحقيق الغرض من تخفيض الوزن من الساحة، لتحقيق تأثير مماثل مع تنظيم L2 (صيغة المقارنة).

2.4.2 بالإضافة إلى الضوضاء على الأوزان

عند تهيئة الشبكة، وتوزيع جاوس مع متوسط 0 بمثابة التهيئة. أليكس قبور التعرف على الكتابة اليدوية RNN هو استخدام هذه الطريقة

. القبور، أليكس، وآخرون "نظام الارتباطية رواية عن التعرف على الكتابة اليدوية غير المقيد." المعاملات IEEE على تحليل نمط وآلة الاستخبارات 31.5 (2009): 855-868.

- قد تعمل على نحو أفضل، وخاصة في شبكات المتكررة (هينتون)

2.4.3 استجابة الشبكة بالإضافة إلى الضوضاء

عملية نشر إلى الأمام، بحيث الخلايا العصبية الناتج تصبح الاملاء ثنائي أو عشوائي. ومن الواضح أن هذا النهج أن يكون فوضوي قليلا لعرقلة عملية التدريب، وجعل التدريب أكثر ببطء، ولكن وفقا لهينتون قال الآثار على مجموعة الاختبار سوف تتحسن بشكل ملحوظ (ولكن لا أفضل بكثير على مجموعة الاختبار!).

3. الجمع بين نماذج متعددة

باختصار، وتدريب نماذج متعددة، ويبلغ حجم انتاجها متوسط كل نموذج نتيجة لذلك.

من N في هذا النموذج بوصفه مجموعة عشوائية من الناتج المرغوب فيه من الخطأ

، من متوسط الخطأ الناتج من جميع النماذج

كبيرة (أنا لا أعرف الصيغة الواردة بين قوسين لماذا لا تظهر):

استنادا على الأرجح على هذا المبدأ، هل يمكن أن يكون العديد من الطرق ل:

3.1 تكييس

بسيطة لفهم، هو مفهوم وظيفة دالة متعددة التعريف: لتتناسب مع نماذج مختلفة من أنحاء مختلفة من مجموعة التدريب. الغابات العشوائي (راند الغابات)، على سبيل المثال، يتم تدريب شجرة القرارات حفنة من علاقة. ومع ذلك، نظرا لتدريب الشبكة العصبية نفسها تستهلك الكثير من الحرية، وعموما لا تستخدم الشبكات العصبية وحدها تفعل تكييس.

3.2 تعزيز جهود

منذ تدريب الشبكة العصبية المعقدة بطيئة، ثم يمكن أن مجرد استخدام شبكة بسيطة العصبية (عدد طبقات، وعدد من القيود الخلايا العصبية). من خلال سلسلة من بسيطة تدريب الشبكة العصبية، المتوسط المرجح لالنواتج.

3.3 التسرب

هذا هو وسيلة فعالة جدا.

في مجال التدريب، في كل مرة عشوائية (على سبيل المثال، 50 الاحتمال) لتجاهل العقد معينة من طبقة مخفية، وبالتالي، نختار نموذج المقابلة لأخذ العينات العشوائية من 2 نماذج ^ H، في الوقت نفسه، لأن كل شبكة ينظر سوى بيانات التدريب (عشوائية في كل مرة الشبكة الجديدة)، على غرار ذلك التعبئة هذه الممارسة، وهذا هو السبب وأود أن تصنيفها إلى "الجمع بين مجموعة متنوعة من نماذج" في.

وعلاوة على ذلك، والأوزان التقاسم بين نماذج مختلفة (المستخدمة في الأوزان اتصال المشتركة التي الخلايا العصبية H)، والأوزان المقابلة لنوع واحد من طريقة التنظيم، والتأثير العملي هو أفضل من L2 تسوية.

4. نهج النظرية الافتراضية

هذا الجزء لم أفكر جيدا كيفية التحدث بوضوح، لكي لا تضليل للمبتدئين، حاولت الحصول فارغة، إذا كنت ترغب في مسح ثم تحديث في وقت لاحق. وبطبيعة الحال، وهذا هو أيضا نوع من طريقة مهمة لمنع الإفراط في تركيب.

وخلاصة القول:

"ليتل المدفع" فنغ يخشون فعلا من كوكب الزهرة؟ من أجل "الشباب" هو أيضا الكفاح

كبير 3، 2003: إذا نظرنا إلى الوراء ثلاث سنوات Tuowei التعاون التضامن مع هواوي

"بوتيك بوين" ميزة ابفيف البلاغ الكامنة Winpcap إيثرنت (أ)

الدكتور جامعة تشينغهوا تشو: قابلة نهج النظرية الافتراضية ونموذج الجيل عمق

SteamSpy انقطاع، ويقول مؤسس سوق ألعاب الكمبيوتر ومرة أخرى الدخان والمرايا

A خطوط المنخفضة للطاقة تقوم على تعظيم الاستفادة من MDAC / D تحويل

"كوكب القرود 3" سيتم الافراج عنهم، وتذكر ما لديك خبرة قيصر

أم مساعدتكم تتلقى مظاريف حمراء هي إلى أين تذهب؟ 100 البلدان العملات الأجنبية في الحمراء، والطفل بجانب الباب يبكي الحسد | موضوع صغير

لعق الوقت الشاشة | الجيدة زوجه ليو تاو

الأولى في العالم انتاج كميات كبيرة شياو 855 كيف قوي؟ لينوفو Z5 قياس برو GT-الأداء | التيتانيوم حالا

A دوري الاهتزاز الدقة تصميم رقاقة قياس الوقت لتحقيق

سامسونج دفع فعالة من حيث التكلفة A6s النقالة تريد استعادة حصتها في السوق يعتمد على إجابات الهاتف المحمول المحلية لا أتفق