DeepLabv1 وDeepLabv2 - التفاف جوفاء (تجزئة الدلالي)

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي:

مراجعة: DeepLabv1 وDeepLabv2 - عتروس الإلتواء (الدلالي تجزئة)

الكاتب | سيك-هو تسانغ

الترجمة | ستيفن اثنين Gouzi

تصحيح التجارب المطبعية | صلصة الكمثرى فان مراجعة | جونسون لي يثير التشطيب | الأسماك وانغ لي

الرابط الأصلي:

https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d

في هذه المقالة والتعليقات على شبكة DeepLabv1 وDeepLabv2 بسبب التفاف مثقب عتروس الإلتواء وشروط استخدامها مرتبطة ارتباطا كاملا مع المطار (الميدان عشوائية شرطي، CRF)، بالإضافة إلى DeepLabv2 هناك تقنية إضافية تسمى الهرم المكاني تجميع Atous المكانية الهرم تجميع (ASPP)، وهذا هو الفرق الرئيسي DeepLabv2 وDeepLabv1. (وبطبيعة الحال، هناك اختلافات أخرى، مثل: DeepLabv2 استخدام ResNet وVGGNet التجربة، ولكن DeepLabv1 فقط VGGNet).

نموذج DeepLab

هذا الرقم هو DeepLab العمارة نموذج. أولا، الصورة المدخلة والإلتواء عتروس شبكة ASPP من خلال. ثم، والإخراج لشبكة FIG المترابط الاستيفاء محرف bilinearly، وصقل النتائج وفقا لCRF متصلا بشكل كامل والحصول على الناتج النهائي.

وقد تم نشر DeepLabv1 وDeepLabv2 على 2015 ICLR و 2018 TPAMI، في الوقت وأنا أكتب ونقلت الصحيفة عن هذه القصة 400 و 2000.

وتتعلق هذه المادة على المحتويات:

  • الإلتواء مثقب

  • الهرم المجمعة الفضاء

  • شروط مرتبطة ارتباطا كاملا مع المطار

  • النتائج التجريبية

  • الإلتواء 1.Atrous

    "عتروس" يأتي حقا من الكلمة الفرنسية "عتروس" معنى الكهف. لذلك التحويل عتروس، المعروف أيضا باسم "الالتواء فارغة". بعض الصحف المعروفة أيضا باسم "الالتواء المتوسعة". وعادة ما تستخدم لتحويل المويجات، التي يتم تطبيقها الآن لدراسة التفاف العمق.

    هنا هو التعبير التفاف عتروس:

    الإلتواء ذات بعد واحد من مثقب (ص >  1: عتروس الإلتواء، ص = 1: عادي التفاف)

    • عندما ص = 1، وهو التفاف القياسية التي نستخدمها عادة.

    • عندما ص >  1، والذي هو الإلتواء مثقوبة، ص هو خطوة لأخذ عينات من عينات المدخلات في عملية التفاف.

    ويوضح الشكل التالي هذه النقطة

    الإلتواء القياسية التفاف جوفاء (القاع)

    عتروس فكرة التفاف بسيطة. في الجزء العلوي من الرسم البياني هو التفاف القياسية.

    في الجزء السفلي من هذا الرقم، وهو التفاف جوفاء. يمكننا أن نرى أنه عندما = معدل 2، يتم أخذ عينات من إشارة الدخل بالتناوب. أولا، وسادة = 2 الوسائل التي ملأنا صفرين على اليسار واليمين. ثم، في حالة معدل = 2، لدينا كل اثنين من المدخلات إلى إشارة الدخل وعينات للالتفاف. وهكذا، في الإخراج، سيكون لدينا خمسة مخارج، مما يجعل الزيادة في خصائص الانتاج من FIG. إذا كان لنا أن نتذكر FCN النص، سلسلة من تلافيف وحيث FIG تجميع يسبب الإخراج هو صغير جدا، وبالتالي يتطلب 32 أضعاف أخذ العينات الماضية، يتم تكبير إلى حد ما على مدى العينة.

    وبالإضافة إلى ذلك، والالتواء عتروس تمكننا من توسيع مرشح نواة آفاق الإلتواء لتشمل اكبر المعلومات الميدانية تقبلا. وفي الوقت نفسه، فإنه يوفر آلية فعالة للسيطرة على حجم الحقل تقبلا، والعثور على الموقع الدقيق (حقل صغير)، وقبل وبعد معلومات الإصلاح (حقل كبير للعرض) أفضل توازن بين التفاصيل.

    في DeepLab باستخدام VGG-16 أو ResNet-101، والمباراة النهائية المجمعة (pool5) أو التلافيف خطوة conv5_1 يتم تعيين إلى 1، من أجل تجنب إشارة المفرطة يتم استخراج. وباستخدام سعر التفاف جوفاء = 2 استبدال كل طبقة التفاف اللاحقة. يؤدي هذا الناتج يصبح أكبر من ذلك بكثير. نحن بحاجة فقط ثمانية أضعاف حجم العينة يمكن أن تكون متطلبات الانتاج. والاستيفاء شبه خطيه ل عينة 8 لديه أداء جيد للغاية.

    تجميع 2. الهرم مساحة ثقب (ASPP)

    مساحة ثقب الهرم المجمعة (ASPP)

    ASPP هو في الواقع نسخة من مساحة تجمع الهرم، وقد وصفت المفاهيم في SPPNet في. في ASPP، ومعدلات الاستخدام من تلافيف جوفاء موازية في مدخلات خريطة الميزة، وتنصهر معا. منذ نفس الفئة من الكائنات في الصورة قد يكون بنسب مختلفة، ASPP مفيدة للنظر في نسبة الأجسام المختلفة، والتي يمكن أن تحسن دقة.

    3. شروط مرتبطة ارتباطا كاملا مع المطار (CRF)

    يتم توصيل CRF بالكامل بعد تطبيق إخراج الاستيفاء شبه خطيه إلى الشبكة

    CRF مترابط تماما

    x غير التسمية تعيين بكسل. P (الحادي عشر) هو احتمال توزيع التسمية في الاول بكسل. ولذلك، فإن i الأول هو احتمال لوغاريتمي. لولاية ثانية، ij، بل هو مرشح. عندما الحادي عشر! = XJ الوقت، = 1. عندما الحادي عشر = XJ، = 0. بين قوسين، وهو مبلغ مرجح لاثنين من النوى. تعتمد أول النووية اختلاف قيمة بكسل وموقع الفرق بكسل، الذي هو مرشح الثنائي. مرشح الثنائي وجود خصائص الاحتفاظ الحافة. جوهر الثاني يعتمد فقط على الفرق بكسل الموقع، الذي هو مرشح الضبابي. وتلك ث، وجدت من قبل تصديق متقاطع. عدد التكرارات 10.

    في: FIG النتيجة (المدخلات قبل وظيفة softmax)، والشكل التالي: (الانتاج وظيفة softmax) FIG الثقة.

    10 مرات من قبل CRF، ممهدة مناطق صغيرة من الألوان المختلفة المحيطة الطائرات فوق.

    ومع ذلك، CRF هي مرحلة لاحقة من العملية، يصبح ليس ذلك الإطار DeepLabv1 والتعلم DeepLabv2 نهاية. وليس في استخدام DeepLabv3 وDeepLabv3 +.

    4. نتائج

    4.1 التجريبية التأكيد

    DeepLab-LargeFOV (اليسار: أي، سوى التحويل عتروس واحد)، DeepLab-ASPP (الحق، أي وASPP)

    في باسكال VOC 2012 مجموعة نتائج التحقق باستخدام كل مكون نموذج ResNet-101

    • بسيطة لاستخدام ResNet-101: 68.72

    • MSC: مدخلات متعددة النطاق

    • يتكون COCO نموذج من مجموعة بيانات من قبل التدريب: COCO

    • أغسطس: البيانات المعززة رفع صورة المدخلات من قبل عشوائي (0،5-1،5)

    • LargeFOV: استخدام نموذج المعاينة على التفاف فارغة DeepLab

    • ASPP: تجويف باستخدام نموذج التفاف مواز DeepLab

    • CRF: شروط مرتبطة ارتباطا كاملا مع المطار لالتجهيز النهائي

    4.2 مقارنة مع معظم أساليب متقدمة

    VOC باسكال 2012 اختبار مجموعة (أقصى اليسار) PASCAL للسياق (الثاني من اليسار) PASCAL-الشخص-الجزء (الثاني من اليمين) معرض سيتي سكيب (أقصى اليمين)

    تقاس على النحو المبين أعلاه

    4.3 النتائج النوعية

    النتائج: باسكال السياق البيانات

    نتائج: البيانات معرض سيتي سكيب

    DeepLab ولكن هناك بعض الأمثلة على الفشل، حيث عدد وافر من الدراجات الهوائية والكراسي أجزاء صغيرة، وأجزاء دراجة الساق:

    أمثلة من الفشل

    آمل في المستقبل أن تكون قادرا على كتابة بلوق وظيفة عن DeepLabv3 وDeepLabv3 +.

    مراجع

     الدلالي الإنقسام صورة مع ديب التلافيف شبكات وCRFs متصلة بالكامل

     DeepLab: الدلالي الإنقسام صورة مع ديب التلافيف نتس، عتروس الإلتواء، وCRFs مرتبطة ارتباطا كاملا

    I المواد ذات الصلة

       

    أريد الاستمرار لعرضها روابط ذات صلة والمراجع؟ شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

    انقر على [DeepLabv1 وDeepLabv2 - التفاف جوفاء (تجزئة الدلالي)] أو الضغط لفترة طويلة وصول عنوان الطرفين:

    https://ai.yanxishe.com/page/TextTranslation/1531

    بيثون مجموعة كبيرة من الكتب الصينية

    الصيني ه 100 بيثون، 6 أجزاء من شفرة المصدر، من الدخول إلى راهب بيثون، خدمة القطار.

    يشمل الثعبان الأساسية، المتقدمة والزواحف والخوارزمية، والتعلم العميق، TensorFlow، NLP، الخ

    نصائح: حجم الملف 2.89GB، والحذر المرور تحميل، يمكنك الأولى يو جمع ~ ~!

    انقر على الرابط لتحصل على: الشبكي: //ai.yanxishe.com/page/resourceDetail/676

    أخبار الثقيلة! اندي لفي اليانصيب

    AX4 باعتبارها أول الصغيرة SUV دونغفنغ، وهو ما يكفي صدق أن تفعل؟

    اثنين تناسب الكلاسيكية مقدار السلطة؟ كلا الهواء VaporMax زائد اللون التعرض لدائرة الوردي جدا ذلك!

    CEIS2017 | المخرجين الشباب، لا تأخذ من المال لا تحترم فيلم "الربا"

    إذا جاكي شونغ هو الغناء الدوائر الأردن، كوبي براينت هو إيسون تشان، وهو أربعة ملوك الثلاثة الأخرى؟

    اللعب الدخن آلة حقيقية لاول مرة: الكمثرى الشاشة الخلفية + بصمة + التدرج + حركة المرور 10G شهريا

    صدر أقل من شهر، اي فون الجديد هذه المشاكل لا يمكن ان تتسامح

    CCF-GAIR 2018 | قمة الذكاء الاصطناعي والروبوتات العالمية على جدول أعمال اليوم الأول أعلنت: 5 قصة الفقرة، الناس يدفعون الجزية لجميع AI

    ومن المتوقع الأحذية في العام المقبل أقوى الضربات! a يحمم قرد س أديداس دام 4 مشاهد تجسس مشترك!

    "رودي" هو ممتاز! أنجيلا: لدي زوج من الأجنحة غير مرئية للطيران معي

    "مايكرو أولئك الذين يمكن أن" يؤدي هذا الاتهام، ووسائل الإعلام ليكو الدراما كيف الأصلي المحتوى السابق IP من قبل شبكات مفاجئة

    هناك جيل جديد من بويك ريغال GS هيكل تجربة التلاعب أكثر ذكاء