ثلاث سنوات، شهدت CNN نوع من التغير التكنولوجي في مجال تجزئة الصورة؟

CNN هو أكثر بكثير من مشكلة التصنيف.

في هذه المقالة، فإننا سوف ننظر في المثال صورة معا انقسام الميدان، سي إن إن التاريخ سطور: كيف يمكن استخدامها للحصول على نتائج مذهلة.

وفقا لشبكة لى فنغ ومن المفهوم أنه في عام 2012، دعا اليكس Krizhevsky، جيف هينتون، وايليا Sutskever الفوز ImageNet التحدي علامة فارقة في تاريخ CNN، منذ ذلك الحين، CNN تصبح المعيار الذهبي لتصنيف الصور والأداء والتحسين المستمر. الآن، فقد كان أداء فائقة البشري في ImageNet التحدي.

منذ عام 2015، نسبة الخطأ CNN أقل من الإنسان في ImageNet

في حين أن هذا أمر مثير للغاية، ولكن بالمقارنة مع الإنسان معقد للغاية، فهم البصرية متنوعة من النظم، والتعرف على الصور هو أبسط من ذلك بكثير.

في مهمة التعرف على الصور، فقط نظرة عامة على كائن المركزي الكشف عن هويته، أن المهمة لتحديد ما هي صورة نعم. ولكن عندما ننظر في جميع أنحاء العالم مع العيون، ونحن بعيدون مهمة أكثر تعقيدا.

عرض عيوننا معقدة للغاية، مع العديد من تداخل، كل هيئة انسداد، لدينا خلفية مختلفة، أدمغتنا فقط يتم تصنيف هذه الكائنات، وسوف تحديد حافة صورة، والفرق، والعلاقة بينهما.

والسؤال هو: هل CNN "عقد العيش" هذه مهمة معقدة؟ وبعبارة أخرى، إعطاء صورة معقدة جدا، CNN ما إذا كنا نستطيع تحديد كائنات مختلفة التي حافة الشخصية؟ كما أظهرت روس معهد Girshick وزملاؤه في السنوات الأخيرة: انه قابل للتحقيق تماما.

مقدمة

هذه المادة سوف اقول الكشف عن وجوه مقرها CNN، تجزئة فكرة بديهية وراء التيار التكنولوجيا، ونرى كيف تتطور من تطبيق واحد إلى آخر. من بينها، نحن سوف تغطي R-CNN (الإقليمي CNN)، CNN الحل الأولي لمثل هذه المشاكل، الوجبات R-CNN وأسرع R-CNN وغيرها من الموضوعات. الفيسبوك ون عطلة نهاية الأسبوع لمناقشة فرق بحثية حديثة الانخراط في خارج قناع R-CNN، وسعت إلى تكنولوجيا الكشف عن وجوه يوفر تجزئة على مستوى بكسل.

هذا هو أطروحة من هذه المادة تنطوي على:

R-CNN: https://arxiv.org/abs/1311.2524

سريع R-CNN: https://arxiv.org/abs/1504.08083

أسرع R-CNN: https://arxiv.org/abs/1506.01497

قناع R-CNN: https://arxiv.org/abs/1703.06870

2014: R-CNN

يتم تطبيق R-CNN CNN لكائن الكشف المبكر.

دراسة متعمقة من قبل والد جيفري مستوحاة من الدراسات المخبرية من هينتون، بقيادة أستاذ كاليفورنيا بيركلي جيتندرا مالك أثار فريق صغير قضية على ما يبدو لا مفر منه في اليوم:

إلى أي مدى Krizhevsky وآخرون. يمكن تعميمها النتائج آل إلى التعرف على الأشياء؟

كاسم، والتعرف على الهدف من ذلك هو العثور على أشياء مختلفة في الصورة، ومهمتها المتمثلة في تصنيف (أعلاه). ويضم الفريق روس Girshick، جيف دوناهو وتريفور داريل، وجدوا أن المشكلة يمكن اختبار على VOC التحدي PASCAL، وكانت النتيجة Krizhevsky لحلها. VOC باسكال الاعتراف الكائن شعبية هو تحدي ImageNet مماثلة.

وكتب الباحثون:

ورقة أثبتت للمرة الأولى، وأبسط من أنظمة أخرى تعتمد ميزة HOG، CNN لديها أداء التعرف على الأشياء متفوقة جدا في VOC باسكال.

الآن، دعونا نلقي نظرة على العمارة، والمناطق مع CNNs (R-CNN)، وكيف تعمل.

فهم R-CNN

هدف R-CNN هو: إدخال صورة، والتي مكان معترف به بشكل صحيح من قبل الكائن الرئيسي في كتلة الصورة.

المدخلات: صورة

الإخراج: كل كتلة علامة كائن +

ولكن كيف يمكنك أن تعرف هذه الكتل حيث ينبغي عليه؟ نهج R-CNN، وطريقة بديهية لدينا مثل - الخروج مع الكثير من القطع في الصورة لمعرفة إذا كان هناك أي تداخل مع كائن.

تولد هذه الحدود، أو الموصى بها من المحلية، R-CNN يستخدم عملية تسمى الانتقائية بحث. على مستوى عال، الانتقائية البحث (أعلاه) لعرض الصور عن طريق النوافذ من مختلف الأحجام. لكل بعد من خلاله الملمس أو اللون أو كثافة البيكسلات المجاورة المعينة كمجموعة، لتحديد الكائن.

كما هو مبين أعلاه، عندما برنامج توليد الإطار، R-CNN مشوها المنطقة المحددة في مربع القياسية، ونسخة معدلة من التغذية AlexNet (ImageNet 2012 عنوان البرنامج، من وحي R-CNN).

في الطبقة الأخيرة من CNN، R-CNN انضم إلى دعم آلة ناقلات، هو بسيط جدا القيام به: إذا كان هذا هو تصنيف الأشياء، وإذا كان الأمر كذلك، ما هو كائن. هذه هي الخطوة الرابعة في الشكل أعلاه.

لتحسين الحدود

الآن، لأنه تم العثور على الكائن في مربع، ما اذا كنا نستطيع تضييق الحدود، وجعلها أكثر انسجاما مع حجم ثلاثي الأبعاد للجسم؟ الجواب هو نعم، هذه هي الخطوة الأخيرة من R-CNN. R-CNN تشغيل بسيطة الانحدار الخطي على المنطقة توصية وتنسيق الإطار لتوليد النتيجة النهائية للحصول على أكثر إحكاما.

هذه هي المدخلات والمخرجات من نموذج الانحدار:

الإدخال: صورة الكائن المقابلة لهذه المنطقة الفرعية

الإخراج: نظام الحدود الجديدة للكائن

تلخيص أسفل، R-CNN فقط العديد من الخطوات التالية:

توليد توصيات بشأن الحدود

تشغيل مربع من الكائنات على AlexNet قبل المدربين. ما SVM نظرة على الحدود حيث نعم الكائن.

تشغيل الحدود على نموذج الانحدار الخطي، إحداثيات تصنيف الكائن بعد الانتاج الحدود أكثر إحكاما.

2015: سريع R-CNN

فإنه يعجل، يبسط R-CNN.

R-CNN تأثير جيد جدا، ولكن لعدة أسباب، والأمر متروك وتشغيل بطيئة على وجه الخصوص:

لكل مجال من مجالات الموصى بها لكل صورة، فإنه يحتاج إلى CNN (AlexNet) من تمريرة إلى الأمام. وهذا يعني أن كل صورة سيتطلب حوالي 2000 تمريرة إلى الأمام.
يجب أن تقسم إلى تدريب ثلاثة نماذج مختلفة - صورة ولدت ميزات CNN، فئة توقع نماذج التصنيف والانحدار لتشديد الحدود. وهذا يجعل من خط أنابيب التدريب صعبا للغاية.

في عام 2015، روس Girshick أول مؤلف R-سي إن إن يحل كل المشاكل، وأدى إلى ولادة هذا التاريخ وجيزة في خوارزمية الثانية: سريع R-CNN

روس Girshick

خصائص سريع R-CNN

1. العائد على الاستثمار (إقليم الفائدة) تجميع

للتمرير إلى الأمام CNN، عن تقديره Girshick أن لكل صورة، والعديد من المنطقة الموصى بها حتما التداخل، نفس العملية سوف تتكرر CNN مرارا وتكرارا (2000 مرات). كانت فكرته بسيطة: لماذا لا تعمل مرة واحدة فقط في كل صورة CNN وايجاد وسيلة مشتركة الحوسبة في السنوات 2000 الموصى بها؟

مع تقنية تسمى RoIPool، الوجبات R-CNN تنفيذ الأفكار. تمرير إلى الأمام حصة CNN في جوهرها، كل هذه المنطقة الفرعية سوف RoIPool الصورة. هذا الرقم هو على سبيل المثال، يتم الحصول CNN ميزة مذكرة لكل منطقة عن طريق تحديد كيفية CNN سمة من سمات المنطقة المقابلة من FIG. ثم، يتم تجميع خصائص كل منطقة ( "مجمعة"، عادة تجميع أقصى). ولذلك، فإن الحاجة الصورة الأصلية العد مرة واحدة فقط بدلا من 2000 مرة.

2. نماذج مختلفة دمجها في شبكة

الميزة الثانية هي التدريب المشترك في نموذج والتصنيف والحدود الانحدار حجم CNN. سابقا، واستخراج صورة ميزة لاستخدام CNN، تصنيف الدعم الموجه استخدام الجهاز، وتشديد استخدام العائد الحدود. R-CNN سريع إكمال ثلاث مهمات مع شبكة واحدة.

أما بالنسبة لكيفية القيام بذلك، راجع الخريطة. R-CNN سريع إضافة طبقة تصنيف الانتاج softmax على CNN، بدلا من آلات ناقلات الدعم. إضافة موازية للطبقة الانحدار الخطي softmax إلى الإطار الناتج تنسيق. وبهذه الطريقة، يتم الحصول على جميع المخرجات المطلوبة من قبل الشبكة العصبية واحدة. هذا هو إدخال نموذج شامل والمخرجات:

أدخل: هناك مناطق صورة الموصى بها

الإخراج: كل التعرف على الأشياء الحدود المنطقة تشديد

2016: أسرع R-CNN

اسم واضح وصريح للغاية، فإنه يسرع توصية الاختيار.

حتى مع المزايا المذكورة أعلاه، الوجبات R-CNN لا يزال لديه عقبة رئيسية: الدائرة المزكي. وكما رأينا، فإن الخطوة الأولى في الكشف عن موضع الكائن، هو لتوليد سلسلة من المرشحين الحدود لاختبار. لى فنغ شبكة المستفادة في سريعة R-CNN، هذه أوصت به الانتقائية البحث يتم إنشاء. وهذا الأخير هو عملية بطيئة نوعا ما، يصبح عنق الزجاجة للنظام كله.

في عام 2015، مايكروسوفت سون جيان، رن Shaoqing، وKaiming، روس Girshick جعل الخطوات الموصى بها لايجاد وسيلة تقريبا دون أي تكلفة، ويتحقق ذلك عن طريق ما يسمونه أسرع R-CNN الهندسة المعمارية.

سون جيان

أسرع R-CNN الفكرة من وراء ذلك هو: منذ ينصح اختيار اعتمادا على ميزة صورة تم احتساب CNN تمريرة إلى الأمام، ثم، لماذا لا إعادة استخدام هذه المناطق أوصى نتيجة CNN، بدلا من تشغيل خوارزمية بحث انتقائية منفصلة؟

هذا هو أسرع R-CNN أسرع الأسباب.

الشكل أعلاه، يمكنك أن ترى كيف واحدة CNN اختيار وقت واحد والتوصية التصنيف. وبهذه الطريقة، فقط CNN يحتاج الى تدريب، وحصلنا على اختيار توصية شبه مجانية. كتب المؤلفان:

"لدينا ملاحظات هي: FIG المنطقة ميزة التفاف كاشف لاستخدامها على أساس، على سبيل المثال أسرع R-CNN، ويمكن أيضا أن تستخدم لتوليد اختيار الموصى بها."

هذا هو نموذج المدخلات والمخرجات:

المدخلات: صورة (توصيات الدائرة لا تحتاج)

الإخراج: تصنيف والحدود الكائن في الرسم البياني.

كيف يتم إنشاء دائرة انتخابية

معا يمكننا قضاء بضع دقائق لنرى كيف يتم إنشاء أسرع ميزة R-CNN CNN من الدائرة حيث الموصى بها. أسرع R-CNN فيها على CNN الكامل التفاف شبكة المضافة (بالكامل التلافيف الشبكة)، لتوليد منطقة اقتراح الشبكة.

المنطقة الشبكة اقتراح مقدم من تمرير نافذة انزلاق (انزلاق نافذة) في FIG تتميز CNN للعمل، وتقييم القيمة المحتملة من كل إطار في كل ناتج إطار الإطار K. هذه K الحدود بالنيابة عن ما؟

حدسي، ونحن نعلم أن الأجسام في الصورة يجب أن تتوفر بعض نسبة الارتفاع المشتركة والحجم، مثل جسم الإنسان مثل شكل مربع مستطيل. وبالمثل، ونحن نعلم مربع ضيق جدا وليس كثيرا. لذلك أنشأنا نسبة الارتفاع المشتركة للصناديق مرساة --K، يسجل كل مربعا مرساة، ونحن مربع الانتاج وصورة لكل وظيفة.

مع هذه الصناديق مرساة، ونحن نلقي نظرة على منطقة اقتراح إدخال شبكة والإخراج.

الإدخال: CNN حيث FIG.

الإخراج: مربع المقابلة لكل مرساة. والنتيجة التي تمثل صورة الكائن هو مربع.

بعد قد قدم كل من الكائنات إلى مربع سريعة R-CNN، وتوليد تصنيف مربع تشديد.

2017: قناع R-CNN

مدد أسرع R-CNN إلى تجزئة صورة مستوى بكسل.

حتى الآن، شهدنا عددا من الميزات من استخدام CNN، وذلك باستخدام مربع إلى صور القفل بطريقة ممتعة للكائنات مختلفة. ما إذا كنا سوف تكون قادرة على تحقيق هذه التقنيات، لتحديد موقع كل بكسل من كائن من ذلك؟

المشكلة تكمن في تقطيع الصورة (تقطيع الصورة). في هذا الصدد، وضعت الفيسبوك منظمة العفو الدولية وKaiming، Girshick وغيرهم من الباحثين اطار ما يسمى قناع R-CNN.

وسريع R-CNN، أسرع R-CNN، مثل قناع R-CNN الكامنة وراء منطق واضح وصريح: أسرع R-CNN للاعتراف الكائن على ما يرام، ونحن يمكن أن تمتد إلى تجزئة مستوى بكسل؟

قناع R-CNN لتحقيق ذلك، والإخراج أفرع قناع ثنائي بإضافة فرع لأسرع R-CNN، تشير إلى ما إذا بكسل هو جزء من الكائن. هذا الفرع (الجزء الأبيض في الرسم) بصراحة التفاف الكامل هو سمة من سمات شبكة CNN FIG. هذا هو مدخلاته والمخرجات:

الإدخال: CNN حيث FIG.

الإخراج: مصفوفة، بكسل ينتمون إلى كائن مثلت بنسبة 1 في المصفوفة، أو مع 0 (والذي هو قناع مزدوج).

لقناع R-CNN يجري كما هو متوقع، جعلت الكتاب تغيير طفيف: RoiAlign، أو إعادة تنظيم RoIPool.

RoiAlign

عند تشغيل بدون تعديل على النسخة الأصلية من أسرع R-CNN، اختار RoIPool مساحة عرض مميزة، وسيكون لها المساحة الأصلية قليلا خارج المحاذاة. وتتطلب الصورة مستوى بكسل دقة تجزئة. وهكذا، فإن الكتاب بمهارة لRoIPool تعديلها لجعلها أكثر دقة حيث تم ترتيب ذلك في المحاذاة، وهذا هو RoIAlign.

لنفترض أن لدينا صورة 128X128، ميزة خرائط 25x25، تريد معرفة ملامح من المساحة الأصلية من 15x15 ركن من أركان الصورة المقابلة للموقف، وكيفية اختيار وحدات البكسل في خريطة الميزة؟

نحن نعلم 25/128 بكسل في كل بكسل من الصورة الأصلية الموافق سمة من FIG. من أجل تحديد بكسل في الصورة الأصلية 15، وتتميز في FIG نحن بحاجة إلى اختيار ~ 15 * 25/128 = 2.93 بكسل.

لهذه الحالة، تجاهل RoIPool سوف جزء اختيار اثنين بكسل، مما يؤدي إلى مشاكل المحاذاة. ولكن في RoIAlign، وتجنب بطريقة رقمية بعد إزالة الفاصلة العشرية، ولكن استخدام المترابط الاستيفاء (المترابط الاستيفاء) للحصول على معلومات دقيقة عن 2.93 موقف بكسل. على مستوى عال، وهذا الترتيب يتجنب الخطأ.

بعد توليد قناع، قناع R-CNN لهم، جنبا إلى جنب مع تصنيف مربع أسرع R-CNN توليد تجزئة دقيقة إلى حد ما:

بعد الكلمات

فقط ثلاث سنوات مرة، رأينا آلة التعلم المجتمع من Krizhevsky وآخرون. التقدم آل النتائج الأولية إلى R-CNN، وتطورت في نهاية المطاف قوية مثل هذه البرامج قناع R-CNN. إذا ما أخذ وحده، قناع R-CNN خطوة مثل قفزة هائلة في مجال التكنولوجيا، ويمكن أن تقدم. ولكن في هذا التاريخ وجيزة، وآمل أن نرى أن هذا التقدم هو مجموع سلسلة من بديهية التقدم، التدريجي هو نتيجة سنوات من مضنية التعاون البحثي.

ومع ذلك، R-CNN إلى قناع R-CNN بعد ثلاث سنوات فقط. على مدى السنوات الثلاث المقبلة، وعدد من رؤية الكمبيوتر التقدم؟

عبر athelas، شبكة لى فنغ المترجمة

طريق الحرير

ثلاث سنوات، شهدت CNN نوع من التغير التكنولوجي في مجال تجزئة الصورة؟

مقدمة