اعتراف الكلب: عندما بيانات التدريب وبيانات الاختبار ليست في نفس الوقت كيف نفعل؟

من أجل إنشاء الأداء الجيد للتعلم الآلة (ML) نموذج، يجب أن تكون في نفس البيانات من توزيع هدف التدريب نموذج واختبار. ومع ذلك، في بعض الأحيان نتمكن من جمع سوى كمية محدودة من البيانات من الهدف إلى التوزيع. قد لا تكون هذه البيانات كافية لبناء ما يلزم من مجموعات التدريب / تطوير / اختبار.

وفي الوقت نفسه، قد تكون بيانات مشابهة من التوزيع الأخرى المتاحة بسهولة. في هذه الحالة كيف نفعل؟ دعونا مناقشة بعض الأفكار لذلك!

بعض الخلفية

إذا كنت لم تكن مألوفة مع المفاهيم الأساسية للتعلم الآلة، يمكنك قراءة هذا القسم من أجل فهم أفضل لهذا المقال:

مجموعة التدريب والتطوير مجموعة ومجموعة الاختبار: لاحظ، مجموعة ديف المعروف أيضا باسم التحقق من صحة أو عقد على مجموعة.

الانحراف (أقل صالح) والتباين (overfitting) الخطأ: وهو شرح مبسط جدا لهذه الأخطاء.

كيفية مجموعات التدريب / تطوير / اختبار تقسيم صحيح.

مشهد

افترض أنك تقوم ببناء تطبيق تصنيف صورة الكلب، وهي الصورة التي يمكن استخدامها لتحديد ما إذا كان الكلب.

تطبيق للمستخدمين في المناطق الريفية، فإنها يمكن أن يتخذها صور جهاز الهاتف النقال من الحيوانات، بحيث طلبات تصنيفها من الحيوانات.

من خلال دراسة توزيع البيانات الهدف، وجدنا أن معظم الصور هي ضبابية، منخفضة الدقة كما هو موضح أدناه:

اليسار: الكلاب (أصناف إيطاليا فولت ايه Pinuo)؛ الأيمن: ثعلب القطب الشمالي

يمكنك فقط من هذا القبيل جمع الصور في 8000، فإنه لا يكفي لتدريب مجموعات بناء / تطوير / اختبار. افترض أنك قد حددت 100،000 على الأقل الصور.

كنت تريد أن تعرف إذا كان يمكنك استخدام مجموعة أخرى بيانات الصور - فضلا عن 8000 الصور التي تم جمعها - إلى مجموعات التدريب بناء / تطوير / اختبار.

يمكنك تحقيق بسهولة أن لبناء مجموعة من البيانات التي تحتوي على 100،000 أو أكثر من الصور على التقاط شبكة، وتواتر الصورة وصورة الكلب تردد الصورة وعدم الكلب نحتاج مماثل.

ومع ذلك، فمن الواضح أن هذه الشبكة من مجموعات مختلفة من توزيع البيانات، كانت الصورة واضحة وعالية الدقة، مثل:

صورة الكلب (اليمين واليسار) وفوكس صورة (وسط)

 كيفية بناء مجموعات التدريب / تطوير / اختبار؟

لا يمكن بناؤها التدريب / تنمية / مجموعات اختبار تستخدم فقط 8000 من مجموعة الصورة الأصلية، لأنهم لا يشكل الأداء الجيد للمصنف. عادة، رؤية الكمبيوتر، مثل قضايا التصور الطبيعي أخرى (معالجة اللغة الطبيعية أو التعرف على الكلام)، يتطلب كميات كبيرة من البيانات.

وبالإضافة إلى ذلك، لا يمكنك فقط استخدام مجموعة البيانات على شبكة الإنترنت. المصنف لا يمكن معالجة عدم وضوح الصورة للمستخدم، وهو أعلى مستوى الدقة الصور على شبكة الإنترنت لنماذج التدريب المختلفة. لذا، ماذا تحتاج؟ دعونا النظر في بعض الاحتمالات.

خيار واحد ممكن - خلط البيانات (shufflig)

ما يمكنك القيام به هو الجمع بين مجموعتي البيانات والاحتفاظ بها تعديلا عشوائيا. ثم، وضعت البيانات التي تنقسم إلى مجموعات التدريب / تطوير / اختبار.

لنفترض أن تقرر بنسبة 96: 2: 2 انقسام في التدريب / تنمية / مجموعة الاختبار، وسوف تكون هذه العملية مشابهة:

بعد الانتهاء من الانقسام، سيطلب من مجموعات التدريب / تطوير / اختبار من نفس التوزيع، كما هو مبين في الشكل.

ومع ذلك، هناك عيب كبير!

إذا نظرتم الى مجموعة التنمية في صورة 2000، أي بمعدل الصور فقط 148 من التوزيع الهدف.

وهذا يعني أنه في معظم الحالات، يتم تحسين الصور للتوزيع على شبكة الإنترنت (2000 صورة لها 1852) المصنف - وهذا ليس ما تريد!

عند تقييم أداء المصنف وفقا لمجموعة الاختبار، مثل. لذلك، وهذه الطريقة ليست مناسبة للتقسيم ومجموعات التدريب / تطوير / اختبار.

وهناك خيار أفضل

وثمة خيار آخر هو جعل مجموعات تطوير / اختبار من الهدف وزعت مجموعات البيانات، وتدريب مجموعة مجموعة البيانات من شبكة الإنترنت.

على افتراض انك لا يزال كما كان من قبل وفقا لل96: 2: 2 تنقسم إلى مجموعات التدريب / تطوير / اختبار. كل تطوير / اختبار مجموعة يحتوي على 2000 صورة - مجموعات البيانات عن الهدف - سيتم تعيين الصور المتبقية إلى مجموعة التدريب، كما هو مبين أدناه:

مع هذا الانقسام، وكنت أمثل المصنف، بحيث التوزيع الهدف على الأداء الجيد، وهو ما يهمك. وذلك لأن الصورة المتقدمة من التوزيع الهدف المحدد فقط.

ولكن الآن الأمر مختلف من توزيع تدريب توزيع التنمية / الاختبار. وهذا يعني أنه في معظم الحالات، يدرب المصنف على الصورة على شبكة الإنترنت. ولذلك، فإن النموذج الأمثل تنفق المزيد والمزيد من الوقت.

الأهم من ذلك أن الخطأ في مجموعة التدريب فيما يتعلق، فلن تكون قادرة على تحديد بسهولة الخطأ تصنيف في تباين الخطأ هو تطوير مجموعة، أخطاء عدم تطابق البيانات، أو كليهما.

دعونا النظر في هذه المسألة بمزيد من التفصيل ونرى ما يمكننا القيام به.

لا يطابق تباين البيانات

النظر في تقسيم مجموعة التدريب / تطوير / اختبار فوق الخيار الثاني. للبساطة، تفترض أن الخطأ البشري هو صفر.

وبالإضافة إلى ذلك، إذا وجدت أن الخطأ التدريب هو 2، وتطوير الخطأ هو 10. خطأ 8 بين الاثنين هو كم عدد الأخطاء بسبب عدم تطابق بين مجموعتي البيانات بسبب البيانات (على افتراض أنها تأتي من توزيعات مختلفة)؟ نموذج التباين (الإفراط في تركيب) هو كم؟ نحن لا نعرف.

دعونا تغيير التدريب انقسام / تطوير / اختبار. إزالة جزء صغير من مجموعة التدريب، ويشار إلى مجموعة "الجسر". لن يتم استخدام الجسر مجموعة لتدريب المصنف، ولكن جمع مستقلة. وهذا القرار تنتج مجموعة من أربعة، مجموعة من أربعة بيانات تابعة لتوزيعات اثنين، كما هو مبين أدناه:

فرق

مع هذا القرار، ونحن نفترض أن تجد أن الخطأ التطوير والتدريب هو 2 و 10 على التوالي، والجسر يحدد كان العثور على خطأ 9، على النحو التالي:

الآن، يتم تعيين مجموعة التدريب الخطأ 8 بين الخطأ ورقم الخطأ لتطوير تباين الخطأ؟ كم هو أخطاء عدم تطابق البيانات؟

بسيطة جدا! الجواب هو 7 و 1 من التباين من الأخطاء عدم تطابق البيانات الخطأ. ولكن لماذا؟

وذلك لأن مجموعة التدريب ووضع الجسر من توزيع نفس، والفرق بينهما هو خطأ من 7. يعني ذلك أن المصنف overfitting على مجموعة التدريب. وهذا يدل على أننا الآن لديهم مشكلة ارتفاع التباين.

أخطاء عدم تطابق البيانات

الآن، دعونا نفترض أن تجد تعيين خطأ الجسر تصل إلى 3، والباقي كما كان من قبل، على النحو التالي:

يقع بين التدريب والتطوير 8 من التباين الخطأ في كيفية العديد من الأخطاء؟ ما هو حجم البيانات عدم تطابق الأخطاء؟

الجواب هو تباين خطأ من 1 و 7 من أخطاء عدم تطابق البيانات. لماذا؟

هذه المرة، لأنه إذا كان المصنف من نفس التوزيع (مثل مجموعة الجسر)، وأداء جيدا في مجموعة البيانات لم يسبق له مثيل من قبل. إذا كان الأمر من توزيع مختلفة، مثل مجموعة التنمية، ثم أدائها ضعيف. لذلك، لدينا مشكلة مع البيانات غير متطابقة.

تقليل التباين هو آلة التعلم مهمة مشتركة. على سبيل المثال، يمكنك استخدام طريقة تنظيم (طرق تنظيم)، أو تعيين مجموعة التدريب أكبر.

تقليل الخطأ عدم تطابق البيانات هو مسألة أكثر إثارة للاهتمام، وهنا نأتي إلى مناقشة.

تخفيف البيانات لا يطابق

للحد من الأخطاء عدم تطابق البيانات، تحتاج إلى تطوير بطريقة أو بأخرى / اختبار مجموعة بيانات (التوزيع الهدف) دمجها في مجموعة التدريب.

غالبا ما يضاف المزيد من جمع البيانات من توزيع الهدف إلى مجموعة التدريب هو الخيار الافضل. ومع ذلك، إذا لم يكن ذلك ممكنا، ثم (كما افترضنا عند مناقشة البداية)، يمكنك أن تجرب الطريقة التالية.

تحليل الأخطاء

تحليل الأخطاء على تطوير مجموعة ويختلف عن خطأ من هذه الأخطاء على مجموعة التدريب يمكن أن توفر الأفكار من أجل حل البيانات لا تتناسب مع المشكلة.

على سبيل المثال، إذا تم العثور على خطأ على العديد من التطورات الحالية يحدث في الحالة التي يكون فيها صورة الخلفية الحيوان الصخور، والحيوان عن طريق إضافة صورة خلفية مع الصخور في مجموعة التدريب والحد من هذه الأخطاء.

تجميع البيانات يدويا

توليف البيانات التي لديها خصائص مماثلة عندما تطوير / اختبار مجموعة من الخصائص على طريقة أخرى لمجموعة التدريب المشترك.

على سبيل المثال، ذكرنا من قبل، وقد وضعنا / أكثر من مجموعة التدريب من الصورة غير واضحة، ومجموعة التدريب لدينا في الغالب على صورة حادة على شبكة بناؤها. مجموعة التدريب يمكن ضوح اصطناعيا لصورة لجعلها أكثر مماثلة لمجموعة تطوير / اختبار، على النحو التالي:

تدريب مجموعة قبل وبعد طمس صورة

ومع ذلك، هناك نقطة مهمة للاهتمام!

وقد عرض في نهاية المطاف لأنك تفعل overfitting المصنف اصطناعية.

في مثالنا، ولدت بشكل مصطنع من قبل بعض الدوال الرياضية الهدف الشخصي غامض قد يكون فقط مجموعة فرعية من ضبابية الصورة الحالية.

وبعبارة أخرى، قد يكون السبب في التوزيع الهدف من طمس من قبل مجموعة متنوعة من الأسباب. على سبيل المثال، الضباب، منخفضة الدقة الكاميرا، قد يكون الهدف تحريك القضية. ولكن الاصطناعية تشوه قد لا تمثل كل من هذه الأسباب.

عموما، عندما مجموعة التدريب (مجموعة التدريب يمكن استخدامها لحل مشاكل من أي نوع، مثل رؤية كمبيوتر أو التعرف على الصوت) بيانات المركبة، عندما قد تحدث مجموعات البيانات الاصطناعية للنموذج overfitting.

في العين البشرية، وهذا يبدو مجموعة بيانات كافية ممثلة للتوزيع المستهدف. ولكن في الواقع، أنها ليست سوى جزء صغير من التوزيع الهدف. ولذلك، فإن استخدام هذه الأداة القوية - عندما تكون البيانات التوليف تضع ذلك في الاعتبار.

ملخص

عندما وضع نموذج التعلم الآلي، من الناحية المثالية، ينبغي أن يكون التدريب / تنمية / مجموعة بيانات الاختبار من توزيع البيانات نفسه، وهذا هو، عندما يستخدم مستخدم ونموذج البيانات تواجه التوزيع.

في بعض الأحيان، ومع ذلك، فإننا لا يمكن جمعها من البيانات بما فيه الكفاية التوزيع المستهدف لبناء مجموعات التدريب / تطوير / اختبار، وتوزيع بيانات مماثلة الآخر هو من السهل جدا الحصول عليها.

في هذه الحالة، يجب أن مجموعة تطوير / اختبار تأتي من التوزيع الهدف، والبيانات من توزيع أخرى يمكن أن تستخدم لبناء (معظم) مجموعة التدريب. يمكنك استخدام تقنيات مطابقة البيانات لتسهيل توزيع الفروق بين جمع البيانات وتطوير مجموعة التدريب / الاختبار.

حول لهم ولا قوة! تعرف الإعلان الرسمي تقريبا من أبل دائرة الرقابة الداخلية وستحمل 32 من التقدير من رسوم المستخدم

بدأت الحرب الكاميرا، الرائد نوكيا الجديد شتوتغارت Linwu وقالت إنها مضاءة

اليوم صوت الأساسية | ليس بصمة شاشة فيلم يمكن؟ سامسونج S10 مصنع للضرب حتى الموت فيلم

سوبر دفتر عمر البطارية، سيد كيفية اللعب؟ كيف تلعب؟

واحدة من أكثر أنيقة جديدة عربة أودي A6 أفانت في معرض شنغهاي للسيارات

2018 مكتبات الأعلى 15 بيثون هنا

"لكمة في وقت مبكر لكسب المال" في كثير من الأحيان انفجر لغم الصرف وضع Jingdong بعثة الولايات المتحدة هي الاحتيال لعب الفريق سيئة!

جيمس نايت قبل أخذ الوقت لزيارة المدرسة I وعد

آخر تناول فطيرة، الدخن 8 MIUI10 نسخة التطوير مفتوحة بيتا من الروبوت 9.0

حزب هامسيك تلقي الفحص الطبي: آخر

اليوم صوت الأساسية | جامعة أكسفورد لوقف قبول التبرعات وتمويل هواوي هواوي ينتظر التفسير

LOL اللعبة خصيصا ليعود إصلاح فلاش، Win10 دفع نسخة جديدة من 17754