العمق تدريب التعلم الخلل البيانات، وكيفية حل؟

مذكرة لى فنغ الشبكة: هذه المادة هي عبارة عن تجميع لللى فنغ ترجمات بلوق التكنولوجيا المجموعة، العنوان الأصلي ديب تعلم بيانات التدريب غير المتوازنة حلها مثل هذا، والمؤلف هو Shubrashankh تشاترجي؟

الترجمة | يي التشطيب | MY

عندما نقوم بحل أي مشاكل في التعلم آلة، واحدة من أكبر المشاكل التي نواجهها هي بيانات التدريب غير متوازنة. والمشكلة هي أن البيانات الخلل الأكاديمية لنفس التعريف، هذا يعني أن هناك اختلافات والحلول الممكنة. سنحاول كشف غموض فئات بيانات التدريب غير متوازن تصنيف الصور.

ما الدرجة مشكلة الخلل؟

في مشكلة التصنيف، وإذا كان هناك في جميع الفئات التي تريد التنبؤ حجم العينة في واحدة أو أكثر من فئات قليلة جدا، ثم ربما كنت تواجه مشكلة فئة الخلل البيانات.

مثلا

1. الغش توقعات (مبلغ من الغش هو أصغر بكثير من عدد المعاملات الفعلية)

2. التنبؤ بالكوارث الطبيعية (أصغر بكثير من الأشياء السيئة الأشياء الجيدة)

3. تصنيف الصور من الأورام الخبيثة (الصور في العينة التدريب تضمنت ما لا يقل عن الأورام السرطانية صورة)

لماذا هذه المشكلة؟

الفئة الخلل يمكن أن يسبب مشاكل لسببين رئيسيين:

1. للحصول على الطبقات غير متوازنة، لا يمكننا الحصول على أفضل النتائج في الوقت الحقيقي، وذلك لأن نموذج / خوارزمية لم تدرس بشكل كامل الطبقة ضمنية.

2. والحصول على التحقق من صحة واختبار عينات يخلق مشكلة، لأنه في بعض الحالات، والمراقبة فئة نادرة، من الصعب أن يكون لها ممثل في الصف.

ما هي طرق مختلفة لحل هذه المشكلة؟

هناك ثلاث طرق رئيسية المقترحة، ولكل منها مزايا وعيوب:

1. Undersampling - حذف رقم عشوائي من الملاحظات تقوم بما فيه الكفاية، مثل أن نسبة النسبية بين الفئتين كبير. ورغم أن هذا الأسلوب هو بسيط جدا للاستخدام، ولكن نحن البيانات المرجح أن يتم حذف يحتوي على معلومات هامة للتنبؤ الطبقة.

2. الإفراط - للفئة غير المتوازنة، استخدمنا نسخة عينة من رقم عشوائي القائمة المتزايدة من الملاحظات. من الناحية المثالية، فإن هذا النهج يعطي لنا عدد كاف من العينات، ولكن بعد أخذ العينات قد يؤدي إلى الإفراط في تركيب بيانات التدريب.

3. توليف أخذ العينات (وضرب) - المتطلبات التقنية لاحظنا على الطرق الاصطناعية الطبقة الخلل، واستخدام التكنولوجيا الحالية وأقرب طريقة تصنيف جارة هي مشابهة جدا. المشكلة هي أنه عندما عدد نادرة للغاية لمراقبة فئة كيفية القيام بذلك. على سبيل المثال، ونحن نريد لتحديد الأنواع النادرة مع تصنيف الصورة، ولكن نحن قد تكون في صورة من هذه الأنواع النادرة.

وعلى الرغم من كل أسلوب له مزاياه الخاصة، ولكن هناك الاستدلال محددة شيء تخبرنا متى تستخدم أي أسلوب. ونحن الآن استخدام دراسة متعمقة لتصنيف الصور خاص دراسة هذه المشكلة مفصلة.

صورة تصنيف الدرجة الخلل

في هذا القسم، وسوف نختار مشكلة تصنيف الصورة، حيث توجد مشكلة الطبقة الخلل، ثم سوف نستخدم بسيطة وتقنيات فعالة لحلها.

مشكلة - لقد اخترنا الموقع على kaggle "الحدباء التحديات تحديد الحيتان." ونحن نتوقع لمواجهة التحديات من الطبقات غير المتوازنة (مثالي، أقل من عدد الحيتان في الحيتان تصنف غير المصنفة، وهناك عدد قليل من الحيتان النادرة وبعض من أقل عدد من الصور.)

من kaggle: " في هذه اللعبة، لمواجهة التحدي المتمثل في إنشاء خوارزمية التعرف على أنواع الحيتان في صورة ما. سوف تحليل قاعدة بيانات سعيد الحوت من أكثر من 25،000 الصور والبيانات من المؤسسات البحثية والمساهمين العام. بواسطة مساهمتكم سوف تساعد مفتوحة السكان الثدييات البحرية في العالم في مجال فهم حول الثروة الحيوية. "

دعونا ننظر البيانات

منذ هذه مشكلة تصنيف صورة متعددة التسمية، أود في البداية مثل لدراسة توزيع البيانات بين مختلف الفئات.

الرسم البياني أعلاه يبين أن، في 4251 تدريب في الصورة، وهناك أكثر من 2000 فئات، صورة واحدة فقط. وهناك أيضا دروس في 2-5 الصور. الآن، هذه مشكلة الطبقة الخلل الخطيرة. لا يمكننا أن نتوقع لتدريب نموذج التعلم العميق مع صورة من كل فئة (رغم ان البعض قد يكون مجرد ما تستخدم خوارزمية للقيام بذلك، مشاكل التصنيف مثل طلقة واحدة، ولكن نحن الآن تجاهل هذا أولا). وهذا يثير أيضا مسألة كيفية تقسيم العينات التدريب والمصادقة عليها. من الناحية المثالية، تريد كل فئة تنعكس في عينات التدريب والمصادقة عليها.

ينبغي لنا أن نفعل الآن؟

على وجه الخصوص، رأيناها خيارين:

الخيار 1 - التدريب عينات صارم تعزيز البيانات (يمكننا ان نفعل ذلك، ولكن لأننا في حاجة فقط إلى تعزيز البيانات لفئة معينة، قد لا تحقيق كامل أهدافنا). لذا، اخترت الخيار تبدو بسيطة 2.

الخيار 2 - على غرار الإفراط الخيارات التي ذكرتها أعلاه. أنا مجرد استخدام مختلف تقنيات تحسين الصورة مثل الخلل صورة تكرارها 15 مرة في بيانات التدريب. كانت مستوحاة من قبل جيريمي هوارد (جيريمي هوارد)، واعتقد قال في محاضرة التعلم عميقة (الجزء 1 fast.ai بالطبع المناهج الدراسية) في هذا من قبل.

قبل بداية الخيار 2، ونحن نلقي نظرة على بعض الصور من عينات التدريب.

على وجه الخصوص، هذه الصور هي ذيل الحوت. لذلك، قد تكون متعلقة تحديد لاتجاه واضح الصورة.

لقد لاحظت أيضا أن العديد من البيانات صورة في الصور فقط بالأبيض والأسود أو قناة R / B / G.

وبناء على هذه الملاحظات، وأنا قررت أن أكتب التعليمة البرمجية التالية، وكانت الصور تدريب عينة التغييرات الطبقة غير متوازنة قليلا وحفظها:

أعلاه لكل كتلة صورة (عدد أقل من 10) وعولج على النحو التالي الطبقات الخلل:

1. صورة من كل R، G، B يتم حفظ القنوات كنسخة للمبادرة المعززة

2. حفظ كل صورة unsharp تعزيز نسخة

3. حفظ كل صورة unsharp تعزيز نسخة

يمكننا أن نرى في رمز أعلاه، ونحن نستخدم بدقة وسادة (مكتبة صورة الثعبان) في هذه العملية.

الآن لدينا 10 عينات على الأقل في كل اختلال التوازن الطبقي. نواصل تدريب.

تحسين صورة - ونحن نعتبر هذه المسألة ببساطة. نحن نريد فقط للتأكد من أن لدينا نموذج قادر على الحصول على عرض تفصيلي لذيل الحوت. تحقيقا لهذه الغاية، فإننا سوف التكبير في خريطة تحتوي تحسين الصورة.

تعلم كاشف معدل - قررنا تعيين معدل التعلم هو 0.01، ومعدل التعلم للكشف كما هو مبين في الشكل.

كان لدينا عدد قليل من التكرارات (نموذج تجميد الأول، ومن ثم ذوبان الجليد) مع نموذج Resnet50. نموذج المجمدة مفيد أيضا لهذا السؤال، لأن هناك imagenet صورة ذيل الحوت وجدت.

كيفية التصرف على بيانات الاختبار؟

ونحن في النهاية الحصول على الحقيقة على قائمة kaggle. الحل المقترح لدينا في المرتبة 34 في هذه اللعبة، ومتوسط دقة من خمسة إلى 0.41928 :)

استنتاج

في بعض الأحيان، وأبسط طريقة هي الأكثر منطقية (إذا لم يكن لديك المزيد من البيانات، مجرد تغيير طفيف لنسخ البيانات الموجودة، أكثر من احظ التظاهر هذه الفئة والتي تشبه إلى حد كبير النموذج الذي). فهي الأكثر فعالية ويمكن أن تكون أكثر سهولة وبشكل حدسي القيام به.

الرابط الأصلي: الشبكي: //medium.com/@shub777_56374/deep-learning-unbalanced-training-data-solve-it-like-this-6c528e9efea6

لى فنغ لى فنغ صافي صافي

LOL: PDD الطوارئ الصحية، انتقل إلى عملية جراحية في المستشفى، بدأت تلوح في الأفق!

لى يى فنغ بطولة في "عالم الحيوان" رشح لجوائز الإعلام هوليوود الموسيقى، أول المرشحين للصين

"هنتر س هنتر" لفتح المسلسل، والذي هو الجزء المفضل لديك؟

ونقلت: "لديها 000 كاميرا مزدوجة أيضا ارتفاع قيمة الين مجد اللعب 6X ليوان فقط 1299

360 صوت مساعد التماس لقب النشر 360N7Pro أو تم تحديدها!

2018 العشرة هي بعض الذين ينظرون إلى اختيار شخصية؟

LOL: ساو الذكور مع تشى قه العرض العام من المودة، والدة مسليا الزوجة من الأذن إلى الأذن!

والعثور على هايلاندر! كيا KX7 الرقم الرسمي الداخلية المحلي

T2F: إن أي أر، واستخدام التعلم العميق، وهو نص أساسي لإنتاج جها إنسانيا

ونقلت: السيف في السابعة فقط 2499 يوان الدخن 6

الهجوم المضاد من الدخن والدخن مستخدمي التعرض تصميم 8 الشباب طبعة التعبئة والتغليف!

2018 أجهزة أفضل الترفيه: تلفزيونات الفاكهة 4K