الجهاز لا تعلم: التفاف الشبكة العصبية الملاحظات CNN - الكشف عن الهدف 2

الجهاز لا تعلم www.jqbxx.com: عمق تعلم الآلة البلمرة، خوارزميات التعلم عميقة والتقنيات القتالية

بعد ذلك فوق

العصبية تصنيف شبكة: R-CNN طريقة سلسلة

R-CNN (CVPR2014، TPAMI2015)

خوارزمية

تصنيف الشبكة العصبية هي الفكر مواقف وافر من أحجام مختلفة، ويتم تحديد المنطقة الداخلية من التلافيف صورة الشبكة العصبية ليست شيئا ، موقف المرشح (اقتراح) الطريقة المقترحة للاستخدام العام EdgeBox .

عندما R-CNN المقترح أصلا اختيار 20 الكشف عن القائمة، ويقوم على أساس ImageNet نموذج، يمكن للنموذج تصنيف 1000 الطبقة تعترف 21 إلى فئات (فئة 20 + أخرى) صقل نموذج التصنيف.

= >

ميزة عملية الاستخراج:  حساب مرشح منطقة الصورة؛ المرشح المنطقة تقطيع الصورة، وتجزئة من حجم الجزء المدخلات يصبح تغيير حجم، الموافق استخراج الخصائص المتطورة، وخصائص التخزين (الكتلة، 200-300G مساحة لتخزين صور)

واحد تدريبية للكشف عن وجوه: لكل نوع من أنواع التدريب على حدة، ولكل نوع من التدريب لضمان بيانات الميزان، كل فئة وتصنيف ثنائي (نعم / لا). المصنف مثل القطط، وعلى الأرجح لم يكن لديك صورة مثالية من القط، أذن واحدة فقط، وهذا ليس قط، ونحن نريد أن يكون مقارنة مع القيمة الحقيقية، نظرة على المنطقة اليمنى السفلى الأيسر العلوي، وإذا كان التداخل (المساحة الكلية) أكثر من ذلك، أنهم يعتقدون صور القط. كل فئة لديها الكثير من مثال مضاد الإيجابي (1/0).

الانحدار هو هدف منفصل التدريب - منطقة مرشح بناء على صقل:  وبالمثل، ولكل نوع من التدريب الفردي، لضمان أن كل نوع من أنواع بيانات التدريب التوازن، حيث كل فئة يفعل عودة BBOX. والغرض من ذلك هو عدم معرفة موقف إزاحة القط وبعد، مع ويقابل العودة إلى الموقف، أقرب إلى القيمة الحقيقية (الحقيقة على الأرض)، ودقة الكشف النهائية ستكون أعلى.

وعموما، R-CNN عملية اختبار ل

  • 1K-2K المرشح المنطقة المولدة لكل صورة
  • لكل منطقة مرشح، حيث الحوسبة الشبكة باستخدام عمق
  • حيث يتغذى كل SVM الدرجة المصنف، فإنه يتم تحديد ما إذا كان التصنيف الطبقي، الانحدار في وقت واحد مع موقف إطار مرشح تصحيح
  • متابعة العلاج
  • مجموعة البيانات المشتركة

    تقييم

    • MAP (متوسط متوسط الدقة)
    • آيو ، وتعتبر القيمة المتوقعة والقيمة الحقيقية والجزء متعددة المتراكبة كل من نسبة ومجموعة، أكبر عموما من 0.5 أن يكون صحيحا

    النتائج المقارنة من R-CNN

    لم Regionlets (2013) لا تخضع لصقل، R-CNN (2014، AlexNet) تم صقل مع المصنفات تدريب سابقا، R-CNN + BBOX ريج (AlexNet)، مع الانحدار، بالإضافة إلى تعويض ل إطار الكشف عن نطاق التعديل بها، R-CNN (VGG-16) في نموذج قاعدة VGG

    بشكل عام، تم تعديل نموذج أساسا من منظور الثلاثة التالية

  • صقل
  • العودة إلى صقل
  • نموذج قاعدة
  • مزايا وعيوب

    المزايا:

  • للكشف عن الهدف CNN، CNN والاستخدام الفعال للاعتراف، وتحسين الأداء بشكل كبير
  • المادة المفتعلة من الاستنسل، وطريقة وجود التنوع
  • + تصنيف الانحدار، قد يكون للعثور على الموقع الدقيق لل
  • العيوب:

  • من أجل الكشف عن الهدف، ويتم احتساب جميع المناطق المرشحة، وعدد كبير من الالتواء، بطيئة جدا
  • لبطء هذه المشكلة، SPP-NET يعطي الحل. بعد الانتهاء من صورة R-CNN المذكورة اقتراح المنطقة (2K حول) كل اقتراح كصورة لمعالجتها لاحقا (CNN المذكورة ميزات + تصنيف SVM)، والصورة هي في الواقع عملية 2000 مرة المذكورة الميزات وتصنيف ! طبقة SPP-NET فيها على التفاف الصورة تجريد، ومن ثم تعيين على طبقة اقتراح المنطقة حيث التفاف في موقف FIG الأصلي، بحيث طبقة الإلتواء حيث الصورة مرة واحدة فقط لرفع، ثم كل اقتراح منطقة حيث طبقة الإدخال إلى طبقة اتصال التفاف كامل العمليات اللاحقة تفعل
  • التدريب SVM مع كسر CNN، SVM فقدان أي وسيلة للCNN الخسارة، معلومات فعالة لا يمكن أن تستخدم لتحسين النموذج، وليس النهائي إلى نهاية
  • لكل نوع من التدريب الفردي والروتين الحكومي غير طبيعي
  • سريع R-CNN (ICCV2015)

    تقدم سريع في ثلاثة من R-CNN

    • حصة حساب الإلتواء
    • زيادة العائد على الاستثمار طبقة تجميع
    • التدريب الكامل (نهاية إلى نهاية)
    • بدلا من استخدام SVM softmax تصنيفها، وأضاف مع وظيفة متعددة موضوعية وخسارة مرشح كتلة العودة، بالإضافة إلى اقتراح منطقة الخارجي المستخرجة تحقيق نهاية إلى نهاية
    • متعدد الأهداف معا التعلم

    حصة حساب الإلتواء

    سريع R-CNN طبقة بعد الإلتواء الماضي بالإضافة إلى طبقة ROI تجميع، SPP-NET هو في الواقع نسخة مبسطة من الخصائص المذكورة أعلاه هي:

  • الإلتواء المكاني موقف الحساب عقد
  • حساب الإلتواء من منطقة مشتركة مرة واحدة فقط
  • قطع مساحة + مرشح استخراج مخطط ميزة تميز FIG. + = حساب كاملة المقابلة لمناطق مرشح القطع
  • الاقتراح المنطقة لقطع الصورة، وتغيير حجم، واستخراج الميزات، في الواقع، ما يعادل العثور على اقتراح المنطقة في ميزة الأصلية إيتوري
  • 1. والسؤال المهم هو كيف ملامح مناطق مختلفة من الاتساق؟

    موحدة كاملة ربط طبقة الاتصال المطلوبة شكل المنطقة، وتجهيز بذلك تتفق على FIG تتميز في المنطقة، ويتم ذلك على تجميع

    خصائص التنسيق - الحد الأقصى تجميع

    المنطقة المحلية

    100x50 = > اضغط 4: 2 تجميع

    50x100 = >  الصحافة 2: 4 تجميع

    = >  ميزة 25x25

    = >  225 FC

    إذا تجميع حجم ليست مثالية، فإنه لا توجد مشكلة، وتجميع نفسها بعد ملء تجميع كل خريطة بكسل، طالما يمكنك اختيار قيمة بكسل من المنطقة أمام تجمع، وليس تنظيما بالضرورة

    موقع + فئة التعلم المشترك

    صورة = >  سي إن إن خريطة ميزة حساب = >  = تطبيق اقتراح >  خريطة ميزة المنطقة المقابلة لا تعطي حجم ثابت منطقة تجميع خريطة ميزة = >  تصنيف والانحدار

    بدلا من استخدام SVM softmax تصنيف، واستخدام تعدد المهام وظيفة خسارة (فقدان متعددة المهام) المرشح مربع سي إن إن عودة إضافتها بشكل مباشر إلى الشبكة في التدريب، وإزالة المنطقة اقتراح مرحلة الاستخراج، حتى أن عملية التدريب هي نهاية لهذه الغاية (النهاية إلى النهاية)، وتدريب الشبكة بالكامل واختبار مريحة للغاية

    تحسينات في الأداء

    انظروا إلى تحسين أداء الوضع

    ومع ذلك، شريطة أن يكون المرشح منطقة لا يعتبر (اقتراح) لتوليد واذا كانت المنطقة مرشح زائد الوقت (اقتراح)

    اقتراح منطقة استخراج لاستخدام البحث الانتقائي، والكشف عن الهدف الوقت يستهلك معظمها في ذلك (اقتراح المنطقة ذكر 2 ~ 3S، وتصنيف ميزة أن أذكر فقط 0.32s)، لا يمكن تلبية الطلب في الوقت الحقيقي، ثم كيفية حلها تحسب مساحة المرشح؟ طريقة واحدة هي الاعتماد أيضا على الشبكة العصبية.

    أسرع R-CNN (NIPS2015)

    RPN (منطقة الشبكة اقتراح)

    الشبكة العصبية في حل مشكلة توليد المنطقة مرشح، حيث الشبكة العصبية هي في المقام الأول مجموعة من زيادة الانتاج RPN (منطقة اقتراح الشبكة) مرشح LAN

  • أنتجت المنطقة المرشح مباشرة، دون الحاجة لتوليد إضافية
  • هي في الأساس انزلاق النافذة، RPN ببساطة الانزلاق مرة أخرى على طبقة التفاف مشاركة كآلية مرساة والإطار المرشحين الانحدار يمكن أن يكون متعدد النطاقات اقتراح المنطقة نسبة متعدد الجوانب المتعددة
  • FIG مباشرة في ميزة قطع اللاحقة
  • وأخيرا، هناك العديد من الميزات من بكسل في FIG، يتم احتساب كل بكسل، ونواة الالتواء، وتوليد ك prpoposal ممكن (في الواقع في كثير من الأحيان K = 9، وهي منطقة يمكن المحتلة في وقت واحد من قبل عدد وافر من الأشياء، ويمكن توزيعها وذلك ل يتم إنشاء الشكل)، وهناك يتم احتساب درجة لكل من الاقتراح. كما هو موضح، وعلى الجانب الأيسر هو الرسم البياني المميزة لل3X3 التفاف الشبكة، والحق هو مربع ك مرساة (المقابلة إلى وحدة توليد المرشح الأصغر). نحسب الرسم البياني المميزة انزلاق النافذة، كل بكسل 256 يولد ناقل بطول (طول الموجه لها هو التصميم الخاصة، توصيات VGG 512 د)، ويستخدم هذا متجه لتوليد قيمة ك الاقتراح، و2K درجة المقابلة (الكائن الهدف نعم / لا)، (الإحداثيات الأفقية والعمودية) إحداثيات 4K.

    قيمة الانتاج الشبكة:

  • أنها ليست الهدف
  • الوضع النسبي للتغطية
  • ك = 9 (3 أحجام، ونسبة 3 الارتفاع) مرساة واحدة، وعدد من اقتراح يمكن أن تنتج؟

    FIG حجم ميزة x العرض - >  HWx9 في 2400x9 الورق

    إذا كانت الصورة الأصلية كما المنطقة ميزة VGG conv5 FIG، والمنطقة 3X3 المقابلة ل؟

    بعد أربعة تجميع، ودفع إلى الأمام، 6X6 - >  12x12 - >  24x24 - >  48x48، وهو التكبير 16 أضعاف

    مرساة فهم كيفية ترجمة ثبات

    تجميع أصغر تجاهل أثناء الترجمة، ثلاثة بكسل تتحرك طبقة بعد تجميع 4، والموقف من موقف البيت بعد الحركة وفرق الطور يمكن تجاهلها

    مرساة مع الفرق اقتراح الخارجي

    عدد: 1-2 أوامر من انخفاض حجمها؛ أداء: أكثر كفاءة.

    السرعة: 10X

    مرساة تعلم معنى التصميم؟

    الشبكات العصبية لديها القدرة على العثور على المبلغ النهائي، أيضا لديه القدرة على العثور على الكثير من كمية الأوسط. مرساة الحكم ليس مجرد هدف، لن توجد مبالغة، فإنه يمكن تحديد أكثر من ذلك؟ أو، فإنه لا يمكن أن يكون أساسا لأهداف، وتحديد ما يفعله الهدف، وهذا هو، صالح مباشرة

    لجعل RPN شبكة وسريعة طبقة شبكة CNN R-إعمال الحق في تقاسم قيمة الالتواء، وتدريب وسريع R-CNN RPN عند استخدام أسلوب التدريب 4 مراحل:

  • تهيئة الشبكة باستخدام المعلمات نموذج على المدربين قبل ImageNet، RPN غرامة ضبط الشبكة؛
  • عن طريق (1) المنطقة استخراج شبكة التدريب واقتراح RPN سريعة شبكة R-CNN.
  • (2) استخدام السريع R-CNN شبكة reinitialization RPN، وطبقة التفاف الثابتة وتقليم.
  • تحديد (2) سريعة طبقة التفاف R-CNN، (3) في الشبكة استخراج المنطقة اقتراح RPN تقليم
  • أسرع R-CNN المستخدمة التعلم المشترك المباشر (التعلم المشترك)  طريقة أعلاه، شبكة مع وظيفة أربعة خسارة

  • مرساة ليست هدفا
  • مرساة الانحدار المنطقة مرشح عودة
  • R-CNN سريع تصنيف
  • سريع R-CNN الانحدار على أساس موقف المرشح
  • طريقة توليد مجتمعة التعلم أقل المناطق المرشحة، ولكن لا يتأثر دقة وسرعة هو 10 مرات أسرع، بالقرب التجهيز في الوقت الحقيقي (@ K40 GPU، 12G).
  • تحسينات في الأداء

    بالقرب من المعالجة في الوقت الحقيقي، ومع ذلك، لا يزال من الصعب الكشف عن الهدف في الوقت الحقيقي، وبعد YOLO مثل هذه الأساليب يمكن أن تحقق في الوقت الحقيقي.

    الشبكة العصبية الانحدار: يولو طريقة سلسلة

    يولو

    خوارزمية

    سيتبين يولو مهمة الكشف عن الهدف بمثابة التنبؤ المنطقة المستهدفة والتنبؤ فئة من مشاكل في الظهر، مع واحدة البضائع التنبؤ الشبكة العصبية الحدود مباشرة وفئة العشرات، يمكنك مباشرة لمعرفة ما هو كائن، وحيث .

    يتم تقسيم الصورة إلى اس باي اس شعرية (خلية الشبكة)، وعادة 7X7 الشبكة، كل شبكة الجيل:

  • باء BBOX، 4 الإحداثيات أشهر + درجة الثقة ال 1
  • الطبقات N يشير البروفسور (الفئة
  • أنا
  • | كائن)
  • العلاقات العامة (المصنفة | كائن)
  • مرساة والفرق هو أن هنا جزء N، جزء تنتمي إلى كل فئة يمثل عدد منها
  • S = 7، B = 2، N = 20

    A مجموع أهداف مقابل:  SxSx (5B + N)

    2X5 + 20 = 30 المعلمات، 49x30 = 1470 القيم العددية للتراجع

    عدد مرشح المناطق:  (B = 2) 98 ث < <  أسرع R-CNN

    كل منطقة صغيرة توليد اثنين من المناطق المرشحة، وهي المنطقة التي هو اقتراح الخام قليلا، ومناطق صغيرة من مجموعة واسعة من الانحدار، للعثور على الهدف

    وظيفة الخسارة:

    أداء

    الأداء:

    • وقت التشغيل
    • انخفاض طفيف في دقة
    • دقة تحديد المواقع الفقيرة

    بعد الكثير من تجميع، سيكون هناك بعض الضعف في استجابة إلى الموقع

    القيود

  • كل شبكة يولو التنبؤ اثنين فقط صناديق، فئة واحدة. هذا النموذج يؤدي إلى انخفاض المجاورة دقة التنبؤ الهدف. وهكذا، YOLO في قائمة الانتظار الهدف هو منخفضة (مثل الطيور) دقة التعرف.
  • يولو هو التعلم من البيانات توقع إحاطة صناديق، وبالتالي، لاستهداف زاوية جديدة أو غير مألوفة لم يتم الاعتراف بها.
  • يولو فقدان وظيفة المساواة في المعاملة بين الخطأ صناديق المحيط الصغيرة وصناديق المحيط كبيرة، مما يؤثر على دقة تحديد نموذج. لأن لمربعات صغيرة المحيط، خطأ أكبر أثر صغير.
  • SSD: إن طلقة واحدة الكاشف

    SSD أكثر مفصلة وهيكل الشبكة الى حد ما مثل resnet. حيث ومتعدد الطبقات المتوسطة نوع الموقف المشاركة الحساب، والمحددة في خريطة ميزة شعرية من مختلف الأحجام من طبقة الإنتاج المختلفة، يذكر "مرساة" في الشبكة لتعويض الأخيرة فقط يولو كتلة 7X7 الفرعية طبقة من الجزء المفقود. ويولو مقارنة أسرع وأكثر دقة.

    • المناطق المرشحة 98 مباراة 8732
    • معدل 21:46 (قاعدة VGG)
    • 66.4 الدقة: 74.3

    الروابط المرجعي:

    الهدف طريقة الكشف - من RCNN، سريعة RCNN لأسرع-RCNN

    YOLO: سريع في الوقت الحقيقي الكشف عن الهدف

    ويبو، يمكن للزوار تحقق دائرة من الأصدقاء؟ فإنه لا وجود له!

    معا لالحنين الحوامل ذلك! سو نيكا مع وكمان هل تذكرين؟

    ثم إرم القمامة، في الواقع، وطرح بعض الأجهزة القديمة ليست سيئة الآن

    368800 من! لينكولن كونتيننتال مدرج في القائمة: 2.0T ترقية ستة معايير الانبعاثات الوطنية

    الجهاز لا تعلم: NLP LDA سلسلة موضوع نموذج 2-

    قد كذلك إضافة ما يصل الى قطعة كبيرة من قدرة الآلات 3T القرص الصلب، شمس صغيرة في أيدي SSD بلدي

    الجهاز لا تعلم: نمو عمق الشبكة: - لبناء دولة مستقرة ذات جودة عالية ومتنوعة من نماذج GAN المواجهة

    تعلم الآلة ليست: تصفية التعاونية القائمة على التشفير الذاتي

    أكثر من المجدي لبدء الجيل السابع المعالج، للمبتدئين 3000 منصة يوان المنزل الألعاب

    تعلم الآلة ليست: تحليل فيديو - غير المحلية (غير المحلية) الشبكة العصبية

    الجهاز لا تعلم: CTR سلسلة (1) دخول الظهور وLR تقديرات مقدمة

    المحلي أقوى رقاقة! هواوي رسميا كيرين 970، كما أعلنت ماتي 10 ......