الجهاز لا تعلم www.jqbxx.com: عمق تعلم الآلة البلمرة، خوارزميات التعلم عميقة والتقنيات القتالية
بعد ذلك فوق
العصبية تصنيف شبكة: R-CNN طريقة سلسلة
R-CNN (CVPR2014، TPAMI2015)
خوارزمية
تصنيف الشبكة العصبية هي الفكر مواقف وافر من أحجام مختلفة، ويتم تحديد المنطقة الداخلية من التلافيف صورة الشبكة العصبية ليست شيئا ، موقف المرشح (اقتراح) الطريقة المقترحة للاستخدام العام EdgeBox .
عندما R-CNN المقترح أصلا اختيار 20 الكشف عن القائمة، ويقوم على أساس ImageNet نموذج، يمكن للنموذج تصنيف 1000 الطبقة تعترف 21 إلى فئات (فئة 20 + أخرى) صقل نموذج التصنيف.
= >
ميزة عملية الاستخراج: حساب مرشح منطقة الصورة؛ المرشح المنطقة تقطيع الصورة، وتجزئة من حجم الجزء المدخلات يصبح تغيير حجم، الموافق استخراج الخصائص المتطورة، وخصائص التخزين (الكتلة، 200-300G مساحة لتخزين صور)
واحد تدريبية للكشف عن وجوه: لكل نوع من أنواع التدريب على حدة، ولكل نوع من التدريب لضمان بيانات الميزان، كل فئة وتصنيف ثنائي (نعم / لا). المصنف مثل القطط، وعلى الأرجح لم يكن لديك صورة مثالية من القط، أذن واحدة فقط، وهذا ليس قط، ونحن نريد أن يكون مقارنة مع القيمة الحقيقية، نظرة على المنطقة اليمنى السفلى الأيسر العلوي، وإذا كان التداخل (المساحة الكلية) أكثر من ذلك، أنهم يعتقدون صور القط. كل فئة لديها الكثير من مثال مضاد الإيجابي (1/0).
الانحدار هو هدف منفصل التدريب - منطقة مرشح بناء على صقل: وبالمثل، ولكل نوع من التدريب الفردي، لضمان أن كل نوع من أنواع بيانات التدريب التوازن، حيث كل فئة يفعل عودة BBOX. والغرض من ذلك هو عدم معرفة موقف إزاحة القط وبعد، مع ويقابل العودة إلى الموقف، أقرب إلى القيمة الحقيقية (الحقيقة على الأرض)، ودقة الكشف النهائية ستكون أعلى.
وعموما، R-CNN عملية اختبار ل
مجموعة البيانات المشتركة
تقييم
- MAP (متوسط متوسط الدقة)
- آيو ، وتعتبر القيمة المتوقعة والقيمة الحقيقية والجزء متعددة المتراكبة كل من نسبة ومجموعة، أكبر عموما من 0.5 أن يكون صحيحا
النتائج المقارنة من R-CNN
لم Regionlets (2013) لا تخضع لصقل، R-CNN (2014، AlexNet) تم صقل مع المصنفات تدريب سابقا، R-CNN + BBOX ريج (AlexNet)، مع الانحدار، بالإضافة إلى تعويض ل إطار الكشف عن نطاق التعديل بها، R-CNN (VGG-16) في نموذج قاعدة VGG
بشكل عام، تم تعديل نموذج أساسا من منظور الثلاثة التالية
مزايا وعيوب
المزايا:
العيوب:
سريع R-CNN (ICCV2015)
تقدم سريع في ثلاثة من R-CNN
- حصة حساب الإلتواء
- زيادة العائد على الاستثمار طبقة تجميع
- التدريب الكامل (نهاية إلى نهاية)
- بدلا من استخدام SVM softmax تصنيفها، وأضاف مع وظيفة متعددة موضوعية وخسارة مرشح كتلة العودة، بالإضافة إلى اقتراح منطقة الخارجي المستخرجة تحقيق نهاية إلى نهاية
- متعدد الأهداف معا التعلم
حصة حساب الإلتواء
سريع R-CNN طبقة بعد الإلتواء الماضي بالإضافة إلى طبقة ROI تجميع، SPP-NET هو في الواقع نسخة مبسطة من الخصائص المذكورة أعلاه هي:
1. والسؤال المهم هو كيف ملامح مناطق مختلفة من الاتساق؟
موحدة كاملة ربط طبقة الاتصال المطلوبة شكل المنطقة، وتجهيز بذلك تتفق على FIG تتميز في المنطقة، ويتم ذلك على تجميع
خصائص التنسيق - الحد الأقصى تجميع
المنطقة المحلية
100x50 = > اضغط 4: 2 تجميع
50x100 = > الصحافة 2: 4 تجميع
= > ميزة 25x25
= > 225 FC
إذا تجميع حجم ليست مثالية، فإنه لا توجد مشكلة، وتجميع نفسها بعد ملء تجميع كل خريطة بكسل، طالما يمكنك اختيار قيمة بكسل من المنطقة أمام تجمع، وليس تنظيما بالضرورة
موقع + فئة التعلم المشترك
صورة = > سي إن إن خريطة ميزة حساب = > = تطبيق اقتراح > خريطة ميزة المنطقة المقابلة لا تعطي حجم ثابت منطقة تجميع خريطة ميزة = > تصنيف والانحدار
بدلا من استخدام SVM softmax تصنيف، واستخدام تعدد المهام وظيفة خسارة (فقدان متعددة المهام) المرشح مربع سي إن إن عودة إضافتها بشكل مباشر إلى الشبكة في التدريب، وإزالة المنطقة اقتراح مرحلة الاستخراج، حتى أن عملية التدريب هي نهاية لهذه الغاية (النهاية إلى النهاية)، وتدريب الشبكة بالكامل واختبار مريحة للغاية
تحسينات في الأداء
انظروا إلى تحسين أداء الوضع
ومع ذلك، شريطة أن يكون المرشح منطقة لا يعتبر (اقتراح) لتوليد واذا كانت المنطقة مرشح زائد الوقت (اقتراح)
اقتراح منطقة استخراج لاستخدام البحث الانتقائي، والكشف عن الهدف الوقت يستهلك معظمها في ذلك (اقتراح المنطقة ذكر 2 ~ 3S، وتصنيف ميزة أن أذكر فقط 0.32s)، لا يمكن تلبية الطلب في الوقت الحقيقي، ثم كيفية حلها تحسب مساحة المرشح؟ طريقة واحدة هي الاعتماد أيضا على الشبكة العصبية.
أسرع R-CNN (NIPS2015)
RPN (منطقة الشبكة اقتراح)
الشبكة العصبية في حل مشكلة توليد المنطقة مرشح، حيث الشبكة العصبية هي في المقام الأول مجموعة من زيادة الانتاج RPN (منطقة اقتراح الشبكة) مرشح LAN
وأخيرا، هناك العديد من الميزات من بكسل في FIG، يتم احتساب كل بكسل، ونواة الالتواء، وتوليد ك prpoposal ممكن (في الواقع في كثير من الأحيان K = 9، وهي منطقة يمكن المحتلة في وقت واحد من قبل عدد وافر من الأشياء، ويمكن توزيعها وذلك ل يتم إنشاء الشكل)، وهناك يتم احتساب درجة لكل من الاقتراح. كما هو موضح، وعلى الجانب الأيسر هو الرسم البياني المميزة لل3X3 التفاف الشبكة، والحق هو مربع ك مرساة (المقابلة إلى وحدة توليد المرشح الأصغر). نحسب الرسم البياني المميزة انزلاق النافذة، كل بكسل 256 يولد ناقل بطول (طول الموجه لها هو التصميم الخاصة، توصيات VGG 512 د)، ويستخدم هذا متجه لتوليد قيمة ك الاقتراح، و2K درجة المقابلة (الكائن الهدف نعم / لا)، (الإحداثيات الأفقية والعمودية) إحداثيات 4K.
قيمة الانتاج الشبكة:
ك = 9 (3 أحجام، ونسبة 3 الارتفاع) مرساة واحدة، وعدد من اقتراح يمكن أن تنتج؟
FIG حجم ميزة x العرض - > HWx9 في 2400x9 الورق
إذا كانت الصورة الأصلية كما المنطقة ميزة VGG conv5 FIG، والمنطقة 3X3 المقابلة ل؟
بعد أربعة تجميع، ودفع إلى الأمام، 6X6 - > 12x12 - > 24x24 - > 48x48، وهو التكبير 16 أضعاف
مرساة فهم كيفية ترجمة ثبات
تجميع أصغر تجاهل أثناء الترجمة، ثلاثة بكسل تتحرك طبقة بعد تجميع 4، والموقف من موقف البيت بعد الحركة وفرق الطور يمكن تجاهلها
مرساة مع الفرق اقتراح الخارجي
عدد: 1-2 أوامر من انخفاض حجمها؛ أداء: أكثر كفاءة.
السرعة: 10X
مرساة تعلم معنى التصميم؟
الشبكات العصبية لديها القدرة على العثور على المبلغ النهائي، أيضا لديه القدرة على العثور على الكثير من كمية الأوسط. مرساة الحكم ليس مجرد هدف، لن توجد مبالغة، فإنه يمكن تحديد أكثر من ذلك؟ أو، فإنه لا يمكن أن يكون أساسا لأهداف، وتحديد ما يفعله الهدف، وهذا هو، صالح مباشرة
لجعل RPN شبكة وسريعة طبقة شبكة CNN R-إعمال الحق في تقاسم قيمة الالتواء، وتدريب وسريع R-CNN RPN عند استخدام أسلوب التدريب 4 مراحل:
أسرع R-CNN المستخدمة التعلم المشترك المباشر (التعلم المشترك) طريقة أعلاه، شبكة مع وظيفة أربعة خسارة
تحسينات في الأداء
بالقرب من المعالجة في الوقت الحقيقي، ومع ذلك، لا يزال من الصعب الكشف عن الهدف في الوقت الحقيقي، وبعد YOLO مثل هذه الأساليب يمكن أن تحقق في الوقت الحقيقي.
الشبكة العصبية الانحدار: يولو طريقة سلسلة
يولو
خوارزمية
سيتبين يولو مهمة الكشف عن الهدف بمثابة التنبؤ المنطقة المستهدفة والتنبؤ فئة من مشاكل في الظهر، مع واحدة البضائع التنبؤ الشبكة العصبية الحدود مباشرة وفئة العشرات، يمكنك مباشرة لمعرفة ما هو كائن، وحيث .
يتم تقسيم الصورة إلى اس باي اس شعرية (خلية الشبكة)، وعادة 7X7 الشبكة، كل شبكة الجيل:
S = 7، B = 2، N = 20
A مجموع أهداف مقابل: SxSx (5B + N)
2X5 + 20 = 30 المعلمات، 49x30 = 1470 القيم العددية للتراجع
عدد مرشح المناطق: (B = 2) 98 ث < < أسرع R-CNN
كل منطقة صغيرة توليد اثنين من المناطق المرشحة، وهي المنطقة التي هو اقتراح الخام قليلا، ومناطق صغيرة من مجموعة واسعة من الانحدار، للعثور على الهدف
وظيفة الخسارة:
أداء
الأداء:
- وقت التشغيل
- انخفاض طفيف في دقة
- دقة تحديد المواقع الفقيرة
بعد الكثير من تجميع، سيكون هناك بعض الضعف في استجابة إلى الموقع
القيود
SSD: إن طلقة واحدة الكاشف
SSD أكثر مفصلة وهيكل الشبكة الى حد ما مثل resnet. حيث ومتعدد الطبقات المتوسطة نوع الموقف المشاركة الحساب، والمحددة في خريطة ميزة شعرية من مختلف الأحجام من طبقة الإنتاج المختلفة، يذكر "مرساة" في الشبكة لتعويض الأخيرة فقط يولو كتلة 7X7 الفرعية طبقة من الجزء المفقود. ويولو مقارنة أسرع وأكثر دقة.
- المناطق المرشحة 98 مباراة 8732
- معدل 21:46 (قاعدة VGG)
- 66.4 الدقة: 74.3
الروابط المرجعي:
الهدف طريقة الكشف - من RCNN، سريعة RCNN لأسرع-RCNN
YOLO: سريع في الوقت الحقيقي الكشف عن الهدف