"كشف الهدف خوارزمية" Lianliankan: من أسرع R-CNN، R-FCN لFPN

مذكرة لى فنغ الشبكة: هذا المقال هو عبارة عن تجميع لللى فنغ ترجمات بلوق التكنولوجيا المجموعة، العنوان الأصلي ماذا نتعلم من المنطقة استنادا للكشف عن وجوه (أسرع R-CNN، R-FCN، FPN)، من تأليف جوناثان هوى.

الترجمة | تانغ تشينغ لي التشطيب | جيانغ فان

في هذه السلسلة، وسوف نناقش خوارزمية شاملة الكشف عن الهدف. الجزء 1، قدمنا منطقة مشتركة تقوم على كشف الهدف، تضم السريع R-CNN، أسرع R-CNN، R-FCN وFPN. الجزء 2، قدمنا للكشف عن خطوة واحدة (dectors تبادل لاطلاق النار واحد، SSD). الجزء 3، ونحن نناقش أداء الخوارزمية وبعض أمثلة محددة. من خلال دراسة هذه الخوارزميات في نفس البيئة، في أي أجزاء من أبحاثنا ودورها، والذي هو جزء مهم، الأجزاء التي يمكن تحسينها أكثر. الآمال كيف الخوارزمية لدراسة اليوم، وسوف نقدم الاتجاه للأبحاث المستقبل.

الجزء 1: من هدفنا منطقة كاشف المدرسية إلى ما (أسرع R-CNN، R-FCN، FPN)؟

الجزء 2: نحن التنقل خلال الكشف عن أي شيء تعلمت (SSD، YOLO)، FPN وفقدان التنسيق؟

الجزء 3: تصميم واختيار كشف الأهداف والدروس المستفادة والاتجاهات؟

انزلاق نافذة مجسات (كشف انزلاق النافذة)

منذ فوز AlexNet البطولة في عام 2012 تحديات ILSVRC، واستخدام CNN لتصنيف أصبح القطاع المهيمن. طريقة بسيطة والنفط الخام للكشف هدفا لنافذة انزلاق ومن اليسار إلى اليمين، من أعلى إلى أسفل الشريحة باستخدام التصنيف لتحديد الهدف. من أجل التمييز بين أنواع مختلفة من مسافة الهدف البصرية، ونحن نستخدم حجم ونسبة الارتفاع مختلفة من النافذة.

ونحن نتابع قطع نافذة انزلاق جزء من من الكتل صورة الصورة. منذ تصنيف عموما لديهم صورة حجم ثابت، يجب أن تكون مشوهة كتلة الصورة. ومع ذلك، فإن هذا التصنيف دقة وليس له تأثير، عندما يتعين على التدريب المصنف أيضا استخدام تشوه صورة.

ويتم تغذية سلالة كتلة صورة المصنف CNN 4096 مقتطفات من الميزات. ثم نحن المصنفة من قبل المصنف SVM للحصول على المربع المحيط مع الانحدار الخطي هو.

وفيما يلي الزائفة رمز. ولدت لنا الكثير من النوافذ للكشف عن مواقف مختلفة، وأشكال مختلفة من الهدف. لتحسين الأداء، والحد من عدد من النوافذ هو الحل واضح.

انتقائية البحث (انتقائية البحث)

لم يعد بطريقة وحشية بسيطة، ونحن توليد منطقة الكشف عن الهدف من الفائدة (regins من الفائدة، رويس) الطريقة المقترحة من قبل المنطقة (منطقة أسلوب الاقتراح). انتقائية البحث خوارزمية (الانتقائي البحث، SS)، تركنا كل بكسل الفردية مثل بداية المجموعة. ثم، وحساب الملمس الجمع بين أقرب مجموعتين كل مجموعة. من أجل تجنب ابتلاع الإقليمي كل شيء، نحن نفضل دمج مجموعات صغيرة. استمرار الدمج، الاندماج حتى جميع المجالات الممكنة ولإتمام الاندماج. أدناه، ويظهر الصف الأول كيف أن المنطقة تنمو. يظهر الخط الثاني كل رويس الممكنة في عملية الاندماج.

R-CNN

المنطقة R-CNN باستخدام الطريقة المقترحة (منطقة طريقة اقتراح) من حوالي 2000 ولدت المنطقة ذات الاهتمام (regins من الفائدة، رويس). كتلة صورة مشوهة لحجم ثابت، ويتم تغذية لشبكة CNN. ثم، بعد طبقة اتصال كاملة، لتصنيف هدف واستخراج المربع المحيط.

ما يلي هو نظام سير العمل.

باستخدام أقل، ولكن أعلى رويس الجودة، R-CNN تشغيل أسرع وأكثر دقة من طريقة نافذة انزلاق.

إعادة المربع المحيط هو (الحدود regressor مربع)

منطقة حسابيا مكثفة للطريقة المقترحة. لتسريع هذه العملية، ونحن غالبا ما تستخدم نسخة مبسطة من شبكة المنطقة المقترحة يولد رويس، ثم الانحدار الأسلاك (باستخدام طبقات مرتبطة ارتباطا كاملا) لاستخراج المربع المحيط.

سريع R-CNN

R-CNN يحتاج أكثر من كافية لضمان دقة للمنطقة المقترحة، والعديد من المجالات متداخلة بعضها البعض. تدريب R-CNN وعمليات التفكير وبطيئة جدا. على سبيل المثال، ولدت لنا اقتراح في المنطقة عام 2000، اقترح على التوالي إلى كل منطقة CNN. وبعبارة أخرى، كررنا تم استخراج الميزات 2000 مرة لرويس مختلفة.

أعرب CNN في الفضاء خريطة ميزة يتميز الفضاء أكثر إحكاما. يمكننا الاستفادة من هذه الميزات التي تم تعيينها إلى الكشف عن الهدف، بدلا من الصورة الأصلية؟

نحن يتميز لم يعد إعادة استخراج-لكل كتلة صورة، بدلا من استخدام مستخرج ميزة (شبكة CNN) للصورة بأكملها في بداية الميزات الاستخراج. ثم، يتم تطبيق الطريقة المقترحة مباشرة على ملامح خريطة المنطقة. على سبيل المثال، سريع R-CNN طبقة اختيار التفاف conv5 VGG16 تكون مجتمعة لتوليد كشف الأهداف التي كتبها رويس، حيث يضم تعيين ميزات المقابلة. نحن نستخدم كتلة صورة ROI تجميع تحويل الضغط إلى حجم ثابت، والمدخلات ثم إلى طبقة اتصال كامل وتحديد المواقع تصنيف (موقف الكشف عن الهدف). منذ استخراج ميزة عدم تكرار، الوجبات R-CNN تقصير كبير في وقت المعالجة.

ما يلي هو العمل الشبكة:

في رمز زائف التالي، تم نقل كمية كبيرة من حساب عملية استخراج سمة من لحلقة. لاستخراج في وقت واحد يضم 2000 رويس، تحسنا كبيرا السرعة. سريع سرعة التدريب R-CNN 10 مرات أسرع من R-CNN، المنطق 150 مرة أسرع.

ومن السمات الرئيسية هي سريعة R-CNN الشبكة بالكامل (مستخرج ميزة والمصنف الانحدار المربع المحيط) قد تدرب على يد فقدان نهاية تعدد المهام خسائر متعددة المهام (خسارة وفقدان تصنيف المواقع). هذا التصميم يحسن دقة.

ROI تجميع

منذ سريع R-CNN طبقة باستخدام ومرتبطة ارتباطا كاملا، حتى نطبق ROI تجميع تحويل مختلف الأحجام رويس حجم محدد مسبقا والشكل.

على سبيل المثال، فإننا الخريطة 8 8 حيث يتم تحويل حجم 2 2 في معرفة مسبقا.

أعلى اليسار: خريطة الميزة.
أعلى اليمين: العائد على الاستثمار (الأزرق) متراكبة مع خريطة الميزة.
أقل اليسار: قسمنا أبعاد ROI الهدف. على سبيل المثال، وهدفنا هو حجم 2 2، سيتم تقسيم العائد على الاستثمار إلى أربعة أجزاء متساوية الحجم أو ما شابه ذلك.
أسفل اليمين: الحد الأقصى لقيمة كل جزء، حيث والنتيجة هي نتيجة للتحولات رسم الخرائط.

ونتيجة لذلك، وخصائص كتلة 2 2، يمكننا ادخال وإحاطة المربعات الموجودة على الانحدار سفينة المصنف.

أسرع R-CNN

سريع R-CNN الانتقائية بحث مماثل (الانتقائي البحث) الطريقة المقترحة من قبل هذا المجال إضافية. ومع ذلك، تعمل هذه الخوارزميات على وحدة المعالجة المركزية، وسرعة بطيئة للغاية. عند اختباره، الوجبات التنبؤ R-CNN يتطلب 2.3 ثانية، 2 ثانية من الذي يولد 2000 قضى على رويس.

أسرع R-CNN مع سريعة R-CNN يستخدم تصميم مماثل، إلا أنه يتم استبدال من قبل منطقة من الطريقة المقترحة لشبكة عمق الداخلية. الجديد شبكة المنطقة المقترحة (منطقة اقتراح الشبكة، RPN) أكثر كفاءة. زوج واحد من جيل رويس صورة تحتاج 10ms فقط.

شبكة سير العمل. اقترح طريقة المنطقة استبدال شبكة التلافيف الجديدة (RPN).

شبكة المنطقة المقترحة (شبكة اقتراح منطقة)

شبكة المنطقة المقترحة (وRPN) مع أول انتاج شبكة التلافيف الرسم البياني المميزة كمدخل. الشرائح (فلتر) نظرا لخصائص تصفية 3 3، وذلك باستخدام الشبكة مثل ZF (أدناه) لتقديم توصيات إلى شبكة التفاف المنطقة غير معروف الفئة. أو غيرهم مثل ResNet VGG يمكن أن تستخدم لاستخراج تتميز بشكل كامل، ولكن الحاجة حساب السرعة. ويتم تغذية ZF قيم الانتاج شبكة 256 في اثنين من طبقات مختلفة مرتبطة ارتباطا كاملا للتنبؤ المربع المحيط والنتيجة الكائن (2 درجة objectness). إطار كائن يحتوي على وصف كائن غير. يمكننا استخدام يستخدم الانحدار لحساب النتيجة من كائن واحد، ولكن بالنسبة البساطة، أسرع R-CNN يستخدم المصنف تصنيف الفئتين ممكنة: "هناك كائن" الطبقة والطبقة "الكائن / الخلفية غير موجود."

RPN لكل منصب في خريطة ميزة (بكسل) القيام التخمينات K. الناتج RPN وهكذا في كل إحداثيات موقف و 4 ك 2 ك عشر جزء. يوضح الرسم التوضيحي التالي استخدام فلتر 3 3 من FIG 8 8 فيها، والناتج منها ما مجموعه 8 8 3 مناطق الفائدة (العائد على الاستثمار) (عندما ك = 3 ساعات). ويبين الشكل الصحيح ثلاث مناطق اقترح الحصول عليها في مكان واحد.

لدينا الآن ثلاثة تخمينات، وبعد ذلك سوف تتحسن تدريجيا تخمين لدينا. لأننا في حاجة فقط تخمين الصحيح، لذلك نستخدم تخمين الأولي من مختلف الأشكال والأحجام سوف يكون أفضل. وهكذا، وأسرع اقتراح R-CNN ليس المربع المحيط اختيار عشوائي. ولكن فيما يتعلق العدد المتوقع من أعلى اليسار تعويض ما يشار إلى الإطار المرجعي للمرساة، مثل س، ص. لأننا لا بد من إزاحة، لذلك لدينا تخمين ما زال على غرار الربط.

من أجل تنفيذ كل موقع التنبؤات ك، نحن بحاجة إلى أن توضع في كل موقع ك مرساة المركز. فهي مختلفة ولكل موقف توقع من نفس الشكل ولكن مرساة يرتبط بها بشكل خاص.

هذه المراسي يتم بعناية قبل اختيار جيدة، فهي متنوعة ومعقولة جدا الأجسام الغطاء الحقيقي للحياة على مختلف المستويات وفي نسب مختلفة. وهذا يجعل والتدريب الأولي يكون تخمين أفضل، في حين تسمح محددة، وأشكال مختلفة وتوقع لكل منهما. وبهذه الطريقة في وقت مبكر تدريب أكثر استقرارا وأسهل.

أسرع استخدام R-CNN المزيد من المراسي. أسرع R-CNN مرساة باستخدام تسع وظائف: 3 يستخدم ثلاثة مستويات مختلفة ونسب. في كل موقف باستخدام تسعة أنواع من المراسي، وذلك لكل مكان، والتي أنتجت ما مجموعه 2 9 الأشياء ويسجل 4 9 الإحداثيات.

الراسية في أوراق مختلفة أيضا فمن المعروف مربع إحاطة مسبق أو التقصير.

أداء R-CNN

أدناه، أسرع R-CNN أسرع بكثير.

واستنادا إلى شبكة المنطقة التفاف كامل

لنفترض أننا تستخدم فقط للكشف عن الوجه الرسم البياني الحق مميزة. ما إذا كنا نستطيع استخدام هذا لتحديد الموقف من مواجهة ذلك؟ هو ممكن. لأن العين يجب أن يكون موجودا في الزاوية اليسرى العليا من صورة الوجه، ويمكننا أيضا تحديد موقف من الوجه مع هذه المعلومات.

اذا كان لدينا ميزات إضافية مصممة خصيصا للكشف عن اليسار في FIG والأنف والفم، يمكننا الجمع بين نتائج وجه تحديد المواقع أكثر دقة.

لماذا علينا أن الكثير من المتاعب؟ في أسرع R-CNN، كاشف متصلة تعدد طبقات كاملة تفعل التنبؤ، عدد وافر من 2000 ROI، التي تستهلك عالية.

R-FCN كل ROI عن طريق تقليل كمية العمل اللازمة لتحسين سرعة، استنادا إلى الميزة المذكورة أعلاه مستقلة عن، يمكن أن يحسب رويس من مساحة FIG في وقت واحد في كل من خارج ROI. المهمة التالية هي أبسط، وبالتالي أسرع من R-FCN أسرع R-CNN.

يمكننا أن نفكر في هذه الحالة، M هو حجم 5X5، كائن مربع أزرق في FIG يتميز فيه، وتنقسم نحن المنطقة الكائن مربع متوسط إلى 3 * 3. ونحن الآن إنشاء ميزة جديدة من FIG M والذي يكتشف إلا في الزاوية العلوية اليسرى من منطقة مربع. ميزات جديدة للFIG دون حق، يتم تنشيط فقط وحدة الشبكة الصفراء.

لأننا تقسيم مربع إلى تسعة أجزاء، ونحن يمكن أن تخلق FIG 9 حيث كل المنطقة المقابلة لاكتشاف الكائن. منذ يتم الكشف عن كل منطقة فرعية الكائن الهدف FIG، لذلك يشار إلى هذه الميزات كموقع حساسة جزء FIG التين (تسجيل موقف حساس خرائط).

على سبيل المثال، يمكننا أن نقول أن المستطيل الأحمر الذي كسر خط في الشكل رسمها هو رويس المقترحة. نحن نميز 3 * 3 المنطقة ورسم كل المنطقة قد تشمل إمكانية جزء المقابلة لها من وجوه. على سبيل المثال، في المنطقة اليسرى العليا من إمكانية اليسار عين رويس موجودة. ونحن ندعو يتم تخزين هذه نتيجة التصويت في مجموعة من 3 * 3 (أقل من اليمين). على سبيل المثال، مجموعة صوت قيمة أهمية هذا الاحتمال يتم العثور على مربع من المنطقة اليسرى العليا من المرمى.

عشرات الخرائط عملية التين رويس ومجموعة التصويت دعا موقف ROI حساسة مجمعة (موقف حساس ROI بركة). هذا التجمع العملية وROI ذكرنا من قبل هي مشابهة جدا. لن يكون هناك أكثر تعمقا لتفسير ذلك، ولكن يمكنك الرجوع إلى فصول لاحقة لمزيد من المعلومات.

بعد كل القيم الموقف حساب العائد على الاستثمار حساس المجمعة الانتهاء، والنتيجة هي تصنيف متوسط جميع عناصرها.

اذا كان لدينا كائن فئة C ليتم الكشف. سوف نستخدم C + 1 الطبقات، لأنه يتضمن عدد وافر الخلفية (غير المستهدفة وجوه) نوع. وهم على التوالي 3 3 في فئة خريطة النتيجة، مما يجعل ما مجموعه (C + 1) 3 3 نقاط تشانغ FIG. باستخدام مجموعة يسجل رسم فئاتها الخاصة، يمكننا التنبؤ درجات لكل فئة. ثم نستخدم softmax لتشغيل هذه الحسابات لحساب احتمال كل فئة.

التالي هو تدفق البيانات (FIG)، مثل مثالنا، ك = 3.

رحلتنا حتى الآن

نبدأ أبسط انزلاق خوارزمية النافذة.

ثم نحاول الحد من عدد من النوافذ، وسيغيب عن عملية لحلقة تتم إزالة قدر الإمكان.

في الجزء 2، لدينا إزالة أكثر اكتمالا للحلقة ل. وكشف عن واحد (كشف طلقة واحدة) لإكمال الكشف لمرة واحدة من كائن، دون الحاجة إلى خطوة إضافية للمنطقة المقترحة.

توسيع RPN، R-FCN، قناع R-CNN القراءة

FPN وR-FCN من وصفناها هنا هو أكثر تعقيدا، إذا كنت ترغب في معرفة المزيد، يرجى الرجوع إلى ما يلي:

https://medium.com/@jonathan_hui/understanding-feature-pyramid-networks-for-object-detection-fpn-45b227b9106c
https://medium.com/@jonathan_hui/understanding-region-based-fully-convolutional-networks-r-fcn-for-object-detection-828316f07c99

موقع بلوق https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

لى فنغ لى فنغ صافي صافي

طريق الحرير

"كشف الهدف خوارزمية" Lianliankan: من أسرع R-CNN، R-FCN لFPN

التعامل مع + سيارة الفضاء ذيل سيارات الدفع الرباعي، سويسرا المتنافسة إلى السماء!

مقهى للانترنت قارن جميع مناطق العالم، اليابان الأكثر مدروس وأفريقيا وأفضل بيئة!

ليلة قراءة شو مانيكير المنزل في عطلة سبعة بغض النظر عن ثمانية عمة لا يمكن الهروب من "مخالب" السياح شو تغذية عن طريق الخطأ الى اي فون أبل عندما الدب البني

"تشي تان تشاو مينغ والتعرض أمثاله أشهر لتعزيز أغنية" أوراقها "لي هوم للعب بجروح في كثير من الأحيان

والامتيازات الضريبية شراء تنتهي! مشحونا 200000 التشريد صغيرة أوصى SUV

ورفض الآلاف من العلامات التجارية، وقال انه قد مات في "عدم وجود الكبير"!

يأخذك الماضي تنمية المهارات خطاب حياة

فيفو إطلاق X9 ستار نسخة الرمادي: ديسمبر 24 للبيع

يا الأحداث تشو النهر وعكس، تشو نهر في الواقع كان مهددا، فروا إلى منزل أحد الأصدقاء!

إصدار الولايات المتحدة الجديد من نيسان اكس تريل من السعر الرسمي من 166700

صافي التعرض الدخن 6 بدءا شياو 835! مارس 2017 للبيع

حصلت جبل بفضل مجموعة الولايات المتحدة 10 أشهر: التوحيد، وتسريح العمال، وإنهاء، والتي سميت ......

الطيار الآلي سامسونج الصناعة الناشئة، وكيف يتم إعداده ليصبح أبرز الشركات المصنعة؟

"السم: القاتل الجارديان" نشرت جزء السم اختراق، ودعا المعرض المتداول رجل قوة

كامل الشاشة وID الوجه، الجديد باد برو يمكن إحياء سوق الكمبيوتر اللوحي؟

ونقلت: الشاشة الصغيرة كاميرا مزدوجة 8 انخفض إلى 2199 يوان غرامة المجد

"X-الرجال: الأسود فينيكس" العيش الكون مخفية القوة التدميرية للملصقات جديدة فينيكس مرئية جنون امرأة

تسبب حكمة الرئيسية هيسنس إطلاق كثيف ياو الأقفال الذكية، مفتاح لفتح الباب وأسود

المجد للملك، تحت نهر تشو على وجه السرعة للموظفين مرحبا، ويطلب منهم الاعتذار!

دونغفنغ نعمة MX5 يأتي، تحوم H6 أيضا الجلوس عليه؟

Jingdong الكثير من معركة الهجوم المضاد! تجاوزت القيمة السوقية 31800000000 $، ناجحة وراء Jingdong!

"فريق العمل فات مان" حزمة العرض بيل هو أميرة وعقد شنت المقالة "المسيل للدموع بعضها البعض" دراما

الأحكام ذات الصلة