تعلم الدراما فرشاة ينسى: المواقع أسرع R-CNN وعدد وافر من التعرف على الحروف سيمبسون

الكسندر عطية هو "عائلة سيمبسون" متعصب، قبل ان يكتب الشبكة العصبية التفاف لتحديد سيمبسون تعليمي 20 حرفا. حرف بعد صورة معينة، يمكن للنموذج عودة الفئة من الصورة، لتحديد تأثير جيد جدا، F1 تسجيل ما يصل إلى 96.

و qubit ترجم هذا البرنامج التعليمي: لم فرشاة الدراما لا تنسى أن تعلم CNN: TF + Keras الاعتراف عائلة سمبسون الشخصيات | مدونة + + قواعد البيانات البرنامج التعليمي

مجموعات البيانات ذات الصلة فتح بالفعل على Kaggle، ولكن يمكن للنموذج CNN التعرف سوى شخص واحد، ولا تشير إلى موضع الصورة الشخص.

الكاتب لم يرض فقط لبناء تصنيف بسيط، لذلك في هذه المقالة، أنشأت الكتاب صورة يمكن الكشف عن وتصنيف كل حرف في النموذج الجديد، قبل أن النموذج هو أكثر تعقيدا بكثير من النموذج، ويمكن لكل كائنات فردية رسم الحدود.

دعونا اتبع مقالته لمعرفة كيفية بناء هذا النموذج الشبكة مع وظيفة الموقع بالإضافة إلى الاعتراف.

في البداية، وفكرت في استخدام انزلاق طريقة نافذة لتصنيف شخصيات متعددة في الصورة. من أجل الكشف عن كل حرف، لدينا مجموعة من نافذة مختلفة الأحجام تقرير متعددة. الخوارزمية يمكن التنبؤ عدد كبير من الصورة الفرعية في كل صورة، ولكن الحساب هو تستغرق وقتا طويلا جدا.

لذلك، في هذه المقالة، وسوف تستخدم أسرع وأكثر تقدما عميق نموذج التعلم أسرع R-CNN، وهذا يبدو مثيرا للاهتمام. لا تزال تستخدم هذه المادة لTensorFlow نهاية الجزء الخلفي من مكتبة Keras.

أسرع R-CNN الشبكة

ومن المفترض شبكة الكشف عن الهدف لإعطاء موقف من المنطقة المستهدفة بناء على (مقترح المنطقة) خوارزمية الاقتراح.

نموذج مقترح الشبكة الجسم، وطاقة الربط للحدود وتوقع موقف الهدف من كل هدف يسجل شبكات التفاف كاملة يتحقق في وقت واحد.

أسرع R-CNN هو نسخة مطورة من R-CNN وسريعة R-CNN، الذي يشبه في بنيته سريعة شبكة R-CNN، ولكن باستخدام ConvNet استبداله قسم الاقتراح المنطقة.

 أسرع R-CNN شبكة الرسم

ما يلي هو قناة حركة إلى الأمام تغذية:

1. حيث خريطة الشبكة تم الحصول عليها من الالتواء طبقة نهاية الإلتواء.

2. شبكة منطقة اقتراح (وRPN) اقترح المنطقة ذات الاهتمام العائد على الاستثمار (إقليم الفائدة) من خلال هيكل convnet، الطيف المميز للتجهيز.

3. يتم تمرير كل من المنطقة المقترحة لطبقة العائد على الاستثمار المجمعة.

4. مرتبطة ارتباطا كاملا طبقة عن طريق تصنيف كل منطقة.

يان Henon مرة واحدة مع Keras الأدوات مكتبة أسرع شبكة CNN R-المذكورة أعلاه.

جمعت قبل أن تتمكن من رؤية المكدسة "التفاف الشبكة العصبية في عملية التنمية تقطيع الصورة: من R-CNN إلى قناع R-CNN"، لمعرفة المزيد عن تجزئة الصورة.

تحسين جمع البيانات

في الجزء الأول من مجموعة البيانات المستخدمة لا تزال هناك بعض المشاكل، لذلك فإننا لا نزال بحاجة إلى التركيز على تدريب كل شخص لتحديد المربع المحيط المقابلة.

يمكننا النقر على الماوس مكتبة وmatplotlib، ترسيم الحدود لكل إطار الصورة. تم تحميلها تميزت مجموعة التدريب والإرشادات لمنصة Kaggle.

 تحديد إحداثيات المربع المحيط من كل من الأحرف الموجودة في الصورة

ليس فقط أننا لا حفظ الصورة في شكل مجموعة التدريب، سيوفر إحداثيات المربع المحيط والفئة المقابلة كملف نصي:

لكل حرف، لتحديد إحداثيات الزوايا اليمنى واليسرى من مربع إحاطة من الحرف.

 توزيع الأحرف حجم العينة

تجهيزها البيانات

تدريب مجموعة من الصور الفرعية قد نسب مختلفة والقرار، ومن هنا جاءت الحاجة إلى المعالجة.

أولا ضبط دقة الصورة، والقرار 300 بكسل الحد الأدنى من الحافة، مع المحافظة على نفس نسبة الارتفاع. ثم بطرح متوسط البيانات لكل قناة لتطبيع الصورة، بحيث تكون قيمة وسط مجموعة التدريب. بواسطة العملية المذكورة أعلاه، بحيث نطاق الاختلاف من كل ميزة انخفاض مماثل التدرج ظاهرة هارب.

شبكة تحدد

شبكة ResNet على شبكة الإنترنت ورقة من المقترحات الإقليمية التي شيدت RPN. في حين تستخدم أيضا طبقة الشبكة الأساسية يعرف المصنف الحرف.

مدرب

عندما تدريب نموذج يقوم على تدريب مجموعة من تدريب تكرار الخطوة 50، وطول كل التكرار 1000. يستخدم أيضا اثنين من تعزيز البيانات، فمن الأفقي دوران 90 درجة والوجه.

نحن نريد لتدريب الشبكة غير ممكن على وحدة المعالجة المركزية، ولذا فإنني استخدام AWS EC2 تسلا K80: التكرار المطلوب من كل 390 ثانية.

 فقدان دقة وقيمة التدريب

اختبار نموذج

 نموذج التدريب الاداءات 1

 نموذج التدريب الاداءات 2

في كل صورة، ونموذج وضعه بشكل صحيح أحرف رسم وتصنيف، التنبؤ المربع المحيط في حين تحديد المواقع إحداثيات كل حرف.

يمكن أن ينظر إلى الواقع، وهذا النموذج يمكن أن يتم الكشف عن الشخصيات FIG، ولكن يتم تحديد أكثر الخام مربع الطابع المحيط. في الواقع، يحدد نموذج المربع المحيط الحرف هو كبير جدا، لذلك عندما تكون هناك المزيد من الشخصيات في الصورة، والمربع المحيط قد تتداخل. حول هذه النقطة، يمكن تحسين قيمة عن طريق تعديل وظيفة قمع overlap_threshold وعدم الحد الأقصى.

بالطبع، بالمقارنة مع الجزء الأول من التدريب تركز فقط على الصور من الناس مصنفة شبكة convnet، دقة نموذج لديها انخفاض معين.

وحدة المعالجة المركزية باستخدام جهاز كمبيوتر محمول للتنبؤ، ببطء شديد، كل صورة يستغرق 8 ثواني، واستخدام نماذج للتنبؤ تسلا K80 GPU، استغرق كل صورة 0.98 ثواني.

يمكننا ببساطة ومزيج بسيط من الإلتواء شبكة انزلاق مقارنة النافذة، مثل الجزء الأول من شبكة CNN المستخدمة، والنتيجة تبدو مثيرة جدا للاهتمام. للحصول على صورة 640x460 الحجم، 64x128 انزلاق مجموعة نافذة (الخطوتين 8 بكسل أفقية واسعة العمودي هو 4 بكسل)، لا تزال بحاجة للتعامل مع 6000 صور الفرعية. حتى التنبؤ سرعة الشبكة سريع، لم تكن الا صور من كل 0.01s الفرعية، وهذه المرة كل معالجة الصور لا يزال يأخذ 60 ثانية. وبالإضافة إلى ذلك، إذا جنبا إلى جنب مع انزلاق أسلوب النافذة، يمكنك فقط الحصول على نسبة الارتفاع الثابت من الصورة الفرعية أكثر من واحد.

الاتجاه تحسين

المقبل، وسوف تستمر في أن تكون وضعت صورة لتوسيع مجموعة التدريب، إذا كان هناك سيستمر أساليب جديدة ليتم تحديثه.

روابط ذات علاقة

1. أسرع keras RCNN التي حققها:

https://github.com/yhenon/keras-frcnn

2. رمز المشروع الكامل:

https://github.com/alexattia/SimpsonRecognition

[نهاية]

إشعار

القراء الكم أربع مجموعات فتح التطبيق، المهتمة أصدقاء الذكاء الاصطناعي يمكن أن تضيف المكدسة إلكتروني الصغير مساعد: qbitbot، وتطبيق للقبول في المجموعة، ومناقشة مع الذكاء الاصطناعي.

وبالإضافة إلى ذلك، تجمهر و qubit القهوة الكبيرة مجموعة التكنولوجيا الطيار الآلي، الطيار الآلي قبلت بحث فقط في المجالات ذات الصلة في المهندسين المدرسة أو الخط الأول . تطبيق: إضافة qbitbot كصديق، تلاحظ " الطيار الآلي "تاريخ ~

تجنيد

المكدسة هو تجنيد المحررين والمراسلين والعمليات والمنتجات وغيرها من المواقف، ومقرها في تشونغ قوان تسون في بكين. مزيد من التفاصيل، في عدد من واجهة الحوار العامة، يجيب: "التوظيف".

تشو جون استعادة ما حدث: جين بينجكسيانج جعل التضحيات من أجل الهبوط، يجب أن المساعدات الخارجية احترام زملائه والمشجعين

احتفال مشهد الدوري الممتاز LOL

WE شقيق أعضاء أمر بالغ الأهمية للعودة LCK، WE أخيرا مجموعة RNG تصل إلى محاكاة الصف بأكمله؟

الصواريخ الأربعة المحظوظين! سجل تتصلب، مستغربا مجموعة نجاحا كبيرا، سائق ثنائي النواة، وأيضا لن حتى التوقيع على اتفاقيتين

ليبي اختيار أي اللكمات إما معسر، مثل هيدينك ضربات فرق! بعد الكلمات واثقة سي Guosai Zhaiyin

الدخن الله السوبر الربط خرافية الذيل، بطل الضربات ناز جديدة، ومهارات سلبية مثل شنقا مفتوحة

فضيحة النفط تأجلت، CR-V للبيع شرق هذا يحدث حلوى طويلة

أعلنت ستانفورد موجهة نحو مهام متعددة التخصصات عدة جولات من مجموعات البيانات الحوار

هيدينك السماح تولد من جديد الأولمبية! إذا فاز الفاناديوم ليو MVP، الرجل القوي بعد معارك دامية الساحة خلع الملابس

بول مشتركة لمكافحة الانسحاب، من خطر الإصابة تسبب جيمس، يانغ يي: أداء بول مثل الاخوة!

صعوبة اللعبة مريضة؟ يمكن أن التلاميذ يعبرون بسهولة الحدود، ولكن المتشددين الألعاب صرخة المعتدى عليهم!

سيد Qiazhiyisuan "الثنائي روي ميكروفون إرسال" لإرسال إيقاع هارفارد H4