مجموعة HE مينغ كاي: حيث شبكة الهرم، قناع R-CNN لمعرفة كل مقسمة

الشكل من تعلم الجزء كل شيء

المصدر: skrish13.github.io

الكاتب: الترجمة كريش: شياو تشين

[استعراض فاز جي الجديدة توضح هذه المقالة FAIR هو كاي مينغ، تسونغ يي لين وآخرون فريق بعض من أحدث الابتكارات في مجال الرؤية الكمبيوتر، بما في ذلك ميزات الهرم الشبكة، RetinaNet، قناع R-CNN وضعف طريقة تقسيم شبه إشراف على سبيل المثال.

خصائص الشبكة الهرم (هرم ميزة الشبكات)

دعونا الآن مشهورة ميزة شبكات الهرم (FPN) ابدأ، والتي هي في CVPR 2017 بحث نشر، والكتاب تسونغ يي لين، هو كاي مينغ وآخرون. أوراق FPN عظيم حقا. بناء نموذج الأساس يمكن لأي شخص أن يبني في مجموعة متنوعة من المهام والموضوعات الفرعية ومجالات التطبيق ليس سهلا. قبل مناقشة في التفاصيل، نحن بحاجة إلى فهم هذا: FPN هي مكونات إضافية مشتركة أو ميزات، الخ ResNet DenseNet شبكة المستخرج. يمكنك الحصول على نموذج FPN المدربين قبل تريده من مكتبة DL المفضلة لديك ومثل غيرها من قبل المدربين على استخدامها كنماذج.

نطاق مختلف وحجم الكائن يظهر. مجموعات البيانات لا يمكن التقاط جميع البيانات لذلك، يمكنك استخدام صورة الهرم (A تعددية نسبة التخفيض الصورة)، بحيث CNN أسهل المناولة. لكنه بطيء جدا. لذلك، يستخدم الناس فقط التنبؤ مقياس واحد يمكن التنبؤ بها من الطبقة المتوسطة. هذا هو قليلا مثل أمام الطريق، ولكن يتم تنفيذه في الفضاء الميزة. على سبيل المثال، وبعد بضع ResNet وضع كتلة Deconv، وتقسيم يحصل على الإخراج (التصنيف هو أيضا مشابهة، وربما يكون 1X1 التحويل GlobalPool).

وجدت الكتاب FPN وسيلة ذكية لتحسين الأسلوب أعلاه. وقد يست مجرد اتصال أفقيا، ولكن أيضا من أعلى إلى أسفل على رأس الطريق. هذا هو معقول جدا! التي يستخدمونها بسيطة MergeLayer (وضع = 'إضافة') إلى مزيج من الاثنين معا. وهناك نقطة رئيسية لفكرة أن ملامح الطبقة السفلى (مثل طبقة التحويل الأولية) معلومات الدلالي هي صغيرة نسبيا، غير كافية لتصنيف. ومع ذلك، وميزات يمكن استخدامها لفهم أعمق. هنا، يمكنك أيضا الاستفادة من جميع من أعلى إلى أسفل FMaps مسار (خريطة مميزة) لفهم ذلك، تماما مثل أعمق طبقة من نفسه. ويرجع ذلك إلى اتصال عرضية هذا وترتبط لتشكيل مرحلة من أعلى إلى أسفل.

بعض التفاصيل من أوراق FPN

  • الهرم (هرم) : انه ينتمي الى المرحلة التي هو كل من الانتاج بنفس الحجم في FIG. الطبقة الأخيرة هي إخراج FMaps هرم المرجعية. على سبيل المثال: ResNet - 2،3،4،5 كتلة عشر من الانتاج. على أساس توافر ومحددة المهام من الذاكرة، يمكنك تغيير الأهرامات حسب الحاجة.

  • موصل عرضية (اتصال الجانبي) : 1X1 التحويل وأعلى لأسفل الممر هو upsampling 2X. وتأتي هذه الفكرة من أعلى هذه الميزة، في حين أن إنتاج الخشنة تتميز أسفل، ويتم زيادة الاتصال عرضية من القاع التفاصيل مسار أدق. كما هو مبين في الشكل.

  • وتصف هذه الورقة فقط تجريبي بسيط. انها فقط لاظهار هذه الفكرة في أداء بسيط خيارات التصميم هو جيد جدا، يمكنك أن تفعل أكثر وأكثر تعقيدا.

كما قلت من قبل، وهذا هو عبارة عن شبكة الأساسية، ويمكن استخدامها في أي مهمة، بما في ذلك الكشف عن الهدف، وتجزئة، وتقدير قفة، وكشف الوجه وهلم جرا. بعد أن نشرت الصحيفة بضعة أشهر، وكنا أكثر من 100 مراجع! عنوان الورقة هو FPNs للكشف عن وجوه، ما زالت الكتاب لاستخدامه كأساس FPN RPN (منطقة اقتراح الشبكة) وشبكة أسرع-RCNN. المزيد من التفاصيل الرئيسية شرح بشكل كامل في ورقة، وهذا غيض جزءا منه.

بعض النقاط من التجربة:

  • FPN لRPN: مقياس واحد عن طريق استبدال FMap FPN. انهم (كما FPN لا تتطلب متعددة المراحل) لكل مرحلة لها بعد واحد من مرساة. وتبين أيضا أن جميع مستويات الهرم قد التسلسل الهرمي الدلالي مماثل.

  • أسرع RCNN: بطريقة مشابهة لإخراج صورة الملاحظة الهرم الهرم. وهكذا، روي استخدام المعادلة التالية لتعيين إلى مستوى معين.

  • هل ث، ح = مستوى 224224 خلال رسم الخرائط.

  • حيث ث، ح التوالي تمثل العرض والارتفاع. ك هو مستوى توزيع العائد على الاستثمار. K0 هو ث، ح = 224224 عند مستوى رسم الخرائط.

  • أنها الاجتثاث التجارب لعمل كل وحدة، من أجل تأكيد بداية الورقة المعلنة.

  • وهي تستند أيضا على DeepMask وSharpMask ورقتين أظهرت كيف FPN لتوليد اقتراح التجزئة.

قراءة الورقة الأصلية لمعرفة تفاصيل التنفيذ والإعدادات التجريبية.

قانون

الرسمية Caffe2 - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselines

كافيه - https://github.com/unsky/FPN

PyTorch - https://github.com/kuangliu/pytorch-fpn (فقط على الشبكة)

MXNet - https://github.com/unsky/FPN-mxnet

Tensorflow - https://github.com/yangxue0827/FPN_Tensorflow

فقدان التنسيق كثيفة وظيفة الكشف عن وجوه RetinaNet--

RetinaNet مع FPN أعلاه من نفس الفريق، المؤلف الأول أيضا تسونغ يي لين. وقد نشرت هذه الدراسة في ICCV عام 2017، وأفضل ورقة الطالب من السنة.

هذه الورقة اثنين الفكرة الرئيسية - دعا فقدت التركيز (فقدان البؤري، FL) وفقدان وظيفة دعا مرحلة واحدة من شبكة الكشف عن وجوه RetinaNet . الشبكة على COCO المهام الكشف عن وجوه أداء جيدا جدا، ولكن أيضا للفوز على مؤشر FPN السابق.

فقدان التنسيق

فقدان التنسيق هو فكرة ذكية جدا، وبسيطة جدا! إذا كنت بالفعل على دراية فقدان مرجح، وفقدان الوزن، وهذا هو في الأساس نفسه، ولكن مع أوزان أكثر ذكاء، وسوف تركز المزيد من الاهتمام على الصعوبات التي تواجه تصنيف عينة. الصيغة على النحو التالي:

حيث معلمة يمكن تغيير مكان.

هو احتمال وجود عينة من المصنف. على افتراض أن أكبر من 0، سوف العينة تقليل الوزن للتصنيف الوزن.

الطبيعية وفقدان الوزن هي وظيفة وزن الطبقة الوزن. في ورقة ويمثل أنها خسارة متوازنة . علما بأن هذه الخسارة ويصنف، وجنبا إلى جنب مع تجانس RetinaNet خسائر L1 المهام في الكشف عن وجوه.

RetinaNet

صدر FAIR هذه الشبكة الكشف عن مرحلة واحدة، ومما يثير الدهشة. حتى الآن، والكشف عن الهدف في مرحلة واحدة، لا تزال هي المهيمنة YOLOv2 وSSD. لكن، وكما يشير المحللون، لم تكن هاتين الشبكتين قادرا قريبة جدا من طريقة SOTA. RetinaNet ذلك، ومن مرحلة واحدة وبسرعة. ويرى المؤلف أن أفضل نتيجة ويرجع ذلك إلى خسائر جديدة، وليس بسبب وجود شبكة بسيطة (والذي هو في نهاية العام FPN). سوف مرحلة واحدة للكشف يكون هناك الكثير بين الخلفية والطبقات إيجابية غير متوازن (بدلا من عدم التوازن الداخلي الطبقات إيجابية). من وجهة نظرهم، وفقدان وظيفة المرجح فقط لتحقيق التوازن، ولكن لفترة بسيطة FL / عينات صعبة، ولكن أيضا أن اثنين يمكن أن تكون مجتمعة.

قانون

Caffe2 الرسمية - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselines

PyTorch - https://github.com/kuangliu/pytorch-retinanet

Keras - https://github.com/fizyr/keras-retinanet

MXNet - https://github.com/unsky/RetinaNet

قناع R-CNN

مرة أخرى، قناع R-CNN أيضا من فريق FAIR هو كاي مينغ، التي نشرت في ICCV عام 2017. قناع R-CNN ل أمثلة على تجزئة الهدف . باختصار، يتم تقسيم الهدف الكشف عن وجوه سبيل المثال إلى حد كبير، ولكن بدلا من استخدام المربع المحيط، فإن المهمة منها هو إعطاء تجزئة دقيقة من وجوه FIG!

TL، DR:  إذا كنت تعرف أسرع R-CNN، ثم قناع R-CNN على فهم جيدة، فمن لإضافة رأس قسم آخر (فرع). ولها ثلاثة فروع، على التوالي، للتصنيف، إحاطة الانحدار مربع والتجزئة.

يفترض تفسير التالية التي لديك بالفعل بعض فهم أسرع R-CNN:

  • قناع R-CNN وما شابهها أسرع R-CNN، أسرع R-CNN هو على مرحلتين، حيث أن المرحلة الأولى هي RPN.

  • إضافة مواز قناع التنبؤ فرع تجزئة - وهو FCN.

  • الخسارة

  • و
  • ROIlign طبقة بدلا من ROIPool. فإنه لن يكون مثل ROIPool كما اعتقلت (خ / spatial_scale) عشرات إلى عدد صحيح، على العكس من ذلك، ينفذ الاستيفاء المترابط للعثور على تلك العائمة قيمة بكسل نقطة في.

  • على سبيل المثال: تخيل، ارتفاع العائد على الاستثمار والعرض، على التوالي 54167. صورة نطاق والمكانية هي إلى حد كبير جامعة / FMap UNIVERSITY (H / ساعة)، وفي هذه الحالة يطلق عليه أيضا خطوة (خطوة). عادة 224/14 = 16 (H = 224، ح = 14).

ROIPool: 54/16، 167/16 = 3،10

ROIAlign: 54/16، 167/16 = 3.375، 10.4375

الآن يمكننا استخدام الاستيفاء شبه خطيه لأخذ العينات.

شكل الناتج ROIAlign (مثل 7X7)، والمنطق على غرار منطقة منها في صناديق المناسبة.

المهتمين يمكن أن ننظر في ROIPooling من الثعبان تنفيذ Chainer، ومحاولة لتحقيق ROIAlign الخاصة بهم

ويمكن استخدام كود ROIAlign في مكتبات مختلفة، يرجى الاطلاع على رمز قاعدة أدناه.

  • جذعها هو ResNet-FPN

قانون

Caffe2 الرسمية - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselines

Keras - https://github.com/matterport/Mask_RCNN/

PyTorch - https://github.com/soeaver/Pytorch_Mask_RCNN/

MXNet - https://github.com/TuSimple/mx-maskrcnn

تعلم كل شيء الانقسام (تعلم الجزء كل شيء)

يوحي اسمها، فإن هذه الورقة هي عن الانقسام. وبشكل أكثر تحديدا، فيما يتعلق أمثلة على تجزئة A. مجموعة البيانات القياسية لتقسيم الرؤية كمبيوتر صغير جدا، ومشاكل العالم الحقيقي ليست فعالة بما فيه الكفاية. حتى عام 2018، تأسست في عام 2015 مجموعة البيانات COCO لا تزال مجموعة البيانات الأكثر شعبية والأكثر ثراء، على الرغم من أنه ليس لديها سوى 80 فئات من الكائنات.

في المقابل، والتعرف على وجوه والكشف عن مجموعة من البيانات (على سبيل المثال OpenImages ) وجود 545 فئات 6000 فئات لتصنيف وللمهام الكشف. أما وقد قلت ذلك، جامعة ستانفورد، فضلا عن مجموعة أخرى من البيانات، ودعا البصرية الجينوم، والذي يحتوي على 3000 كائنات الفئة! لذلك لماذا لا تستخدم مجموعة هذه البيانات ذلك؟ لأن عدد قليل جدا من عدد من الصور في كل فئة، بحيث DNN لا يعمل حقا على مجموعة البيانات هذه، حتى لو كان أكثر وفرة، والناس لن تستخدم هذه مجموعة البيانات. وعلاوة على ذلك، وضعت البيانات الشرح أي تجزئة، وكشف فقط للكائن مربع إحاطة 3000 فئات (إحاطة مربعات) هي علامات التبويب المتاحة.

دعونا نعود تعلم كل شيء القطاعات في هذه الورقة. والواقع أن المربع المحيط (وثاب مربع) وينقسم، وتعليق (تجزئة الشرح) لمجال ليس هناك فرق كبير، إلا أن هذا الأخير هو أكثر دقة. ولذلك، لأن مجموعة البيانات البصرية الجينوم ديه 3000 الطبقات، لماذا لا نستفيد من هذه المجموعة البيانات وتنقسم حالات تفعل ذلك؟ FAIR هو كاي مينغ هو الفريق للقيام بذلك. يمكن أن يسمى هذا ضعف الرقابة (شبه خاضع للإشراف أو ضعيفة؟) التعلم، مما يعني أنك لا يمكن المهام الإشرافية كاملة تريد تحقيقه. كما يمكن أن تترافق مع شبه أشرف، لأنهم على حد سواء استخدام COCO + البصرية مجموعة بيانات الجينوم. هذه الورقة هي حتى الآن أروع.

  • وهو مبني على قناع-RCNN خلال

  • في حين لا يوجد قناع ملحوظ وصفت مساهمة في التدريب

  • إضافة بين قناع وقناع BBOX وظيفة نقل الوزن

  • عندما يرمز أي مساهمة من قبل قناع، wseg ماساكا ملامح يتوقع أن يكون مضروبا في الوزن، وعندما يكون هناك مدخلا الرمز بواسطة قناع، لا يتم استخدام هذه الوظيفة، استبدال استخدام بسيط MLP.

  • كما هو مبين في الشكل. وهناك مجموعة البيانات COCO، B هو VG. لاحظ أن اثنين من مسارات مختلفة من المدخلات المختلفة.

في هي عدم وجود تعليقات المتاحة، لا يمكن عرض المؤلف على دقة VG من مجموعة البيانات، لذلك وضعوا هذه الفكرة يمكن تطبيقها على إثبات مجموعة البيانات نتيجة. باسكال VOC هناك 20 فئات، وهذه الفئات شائعة في COCO. ولذلك، فإنها تستخدم فئة VOC تسميات للتدريب، وفقط استخدام العلامة من COCO BBOX من هذه الفئات 20 من التدريب. 20 يظهر مثال للنتائج ركزت على تقسيم البيانات الطبقة COCO على المهمة. بالعكس، لأن مجموعة البيانات واثنين من الحقائق على الأرض. النتائج هو مبين في الجدول التالي:

المراجع:

لين، تسونغ يي، بيوتر الدولار، روس B. Girshick، Kaiming و، بهاراث هاريهاران وسيرج J. Belongie ". شبكات الهرم ميزة للكشف عن الكائنات "* 2017 مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط (CVPR) * (2017): 936-944.

لين، تسونغ يي، بريا غويال، روس B. Girshick، Kaiming ووبيوتر الدولار ". فقدان التنسيق للكشف عن وجوه الكثيفة . "* 2017 المؤتمر الدولي حول الرؤية الحاسب الآلي (ICCV) * (2017): 2999-3007.

و، Kaiming، جورجيا Gkioxari، بيوتر الدولار وروس B. Girshick ". قناع R-CNN . "* 2017 المؤتمر الدولي حول الرؤية الحاسب الآلي (ICCV) * (2017): 2980-2988.

هو جين تاو، Ronghang، بيوتر الدولار، Kaiming و، تريفور داريل وروس B. Girshick ". تعلم الجزء كل شيء . "* * كور ABS / +1711.10370 (2017): ن باغ ..

رن، Shaoqing، Kaiming و، روس B. Girshick وجيان الشمس ". أسرع R-CNN: نحو الكشف عن الكائنات في الوقت الحقيقي مع شبكات اقتراح منطقة. "* المعاملات IEEE على تحليل نمط وآلة الاستخبارات * 39 (2015): 1137-1149.

Chollet، فرانسوا ". Xception: ديب التعلم مع Depthwise مفصول الإلتواءات "2017 مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط (CVPR) (2017): 1800-1807.

لين، تسونغ يي، مايكل مير، سيرج J. Belongie، جيمس هايز، بيترو بيرونا، ديفا Ramanan، بيوتر الدولار وC. لورانس Zitnick ". أشياء عادية في السياق: مايكروسوفت COCO . "ECCV (2014).

Krasin، إيفان وDuerig، توم وAlldrin، نيل وفيراري، فيتوريو آخرون OpenImages: A بيانات العام على نطاق واسع متعدد التسمية ومتعدد الطبقات تصنيف الصور . الإدراجات المتاحة من https://github.com/openimages

كريشنا، Ranjay، Congcong لي، أوليفر غروث، جستن جونسون، كينجي هاتا، جوشوا كرافيتز، ستيفاني تشن، يانيس Kalantidis، ديفيد A. شمة، مايكل S. بيرنشتاين ولي في في ". البصري الجينوم: توصيل اللغة والرؤية الجماعية لعن طريق الكثيفة الشروح صورة "المجلة الدولية للكمبيوتر الرؤية 123 (2016): 32-73.

الأصل: الشبكي: //skrish13.github.io/articles/2018-03/fair-cv-saga

120 سيارة كروز الزوجين النوم طار فجأة من السيارة بسرعة عالية

ترقية التجزئة أنتا، كيف لتتناسب مع قيمة المستهلك؟

"نسخة AI من بيت من ورق" فريق ترامب التلاعب البيانات الكبيرة حول نقلت حملة + AI غضب شعبي عارم

ليو تاي المدرسة الابتدائية: قراءة جوهر كلاسيكية من التراث الثقافي التقليدي

اختيار الكنيسة، وعد العمر

"يبحث جيدة الشباب هانتشونان" وانغ Junlin: مدرب غير لائق عندما يحلم في "الراعي" العودة للوطن Penfolds الطريق

رحلات طيران منخفضة التكلفة المخزون مارس، من الشمال إلى الجنوب طالما أن الحد الأدنى 140، وتجنب هذه هي المرة!

الذي هو معظم الصينية | السنوات صغيرة، شياو السنة

ثلاثة تقسيم الرئيسي الدرجة الأولى البرية، الآس الأول من يي فاي، ودموية من مشاة البحرية الامريكية قسم 1 الخزان تشوسين

هانتشونان حمل جراد البحر تفتيش السلامة جودة الإنتاج والعمل وأخذ العينات

المطار هو أكثر متعة من مناطق الجذب؟ مرة أخرى أبدا تقلق بشأن تأخير!

"الشكل تعرف الخوارزمية." هذا هو أسهل كنت قد رأيت من أي وقت مضى "مواصفات خوارزمية"