أمثلة من تقطيع الصورة نظرة عامة وENET

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي:

صورة الإنقسام نظرة عامة وENET التنفيذ

الكاتب | تل Shamsian

الترجمة | sherry3255، alexchung

تصحيح التجارب المطبعية | مراجعة جيف ديمبس | صلصة الكمثرى فان التشطيب | الأسماك وانغ لي

الرابط الأصلي:

https://medium.com/@mista2311/image-segmentation-overview-enet-implementation-8394ff71cf26

في هذا المنصب، وسوف أتناول تقطيع الصورة وإدخال أوراق ENET.

أوراق تحتوي على وصلة:

https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf

رابط المكتبة:

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

صورة الإنقسام نظرة عامة

في مجال الرؤية الكمبيوتر، يتم تقسيم الصورة الرقمية إلى عدد وافر من مكونات (سلسلة من بكسل، أو فائقة بكسل في فن) هو عملية تجزئة الصورة. هدف الفرقة هو تبسيط و / أو تحويل الصور يمكن تحويلها إلى أكثر وضوحا وأسهل لتحليل التعبير عن المحتوى. وعادة ما تستخدم تجزئة الصورة لتحديد موقف من صورة الهدف والحدود (خط، السطح) هو. وبشكل أكثر تحديدا، وتقسيم الصورة إلى علامة كل من بكسل صورة، حيث لديها بكسل نفس التسمية لها نفس الخصائص. وهناك مجموعة متنوعة من تقنيات في مجال تجزئة الصورة:

  • تقنية تجزئة مقرها المنطقة

  • الإنقسام الكشف الحدود

  • تقنيات تجزئة القائم على التجميع

خوارزمية الكلاسيكية للتجزئة صورة

في الماضي، قدمنا الكثير من خوارزميات مختلفة لتقسيم الصورة، هي:

تقنية عتبة - الهدف الرئيسي من هذه التقنية لتحديد صورة العتبة المثلى. قيمة كثافة بكسل تتجاوز كثافة عتبة يصبح 1، ستكون قيمة كثافة بكسل المتبقية الصفر، وأخيرا تشكيل صورة ثنائية. وهناك طريقة لتحديد قيمة عتبة هم: أوتسو، ك وسيلة تجميع، وطريقة أقصى الكون.

الحركة والتفاعلية الإنقسام - هذا الأسلوب يستند صورة الحركة تجزئة. فكرة واضحة ومباشرة لتحديد الاختلافات في الرقمين في ظل افتراض أن الهدف هو في الحركة، ثم والفرق هو بالضرورة الموقع المستهدف.

الكشف عن الحدود - يضم عدد وافر من الطرق الرياضية، بل هو كائن في صورة رقمية أشار تغييرات جذرية في سطوع الصورة، أو أكثر بشكل رسمي يتحدث، كان لديه نقطة من المنطقة الانقطاع. منذ حدود المنطقة والحواف وجود ارتباط وثيق، لذلك الكشف الحدود هو تقنية تجزئة أخرى هي عموما خطوة شرط مسبق.

المنطقة طريقة المتزايد - استنادا بكسل المجاورة في المقام الأول في نفس المنطقة على افتراض وجود قيم بكسل مماثلة. الخطوات المشتركة للمقارنة بكسل وبكسل جارتها، إذا تم استيفاء معيار التشابه، ثم بكسل يمكن تقسيمها إلى واحد أو أكثر من الكتل التي النقط المجاورة تذهب. التشابه معيار اختيار أمر بالغ الأهمية، والنتيجة هي الحساسية للضجيج في كل الحالات.

هناك العديد من الطرق لتقسيم صورة لم يرد ذكرها في أعلاه، مثل طريقة اثنين من المجموعات، طريقة مطابقة سريع، طريقة التحول فاصلا وما شابه ذلك.

نموذج التعلم العمق لتجزئة صورة

UNET - يستخدم ش-الشباك لصورة تنقسم بسرعة وبدقة التلافيف هيكل الشبكة العصبية. وحتى الآن، ISBI التحدي، وشبكة من أفضل نموذج السابق (على أساس نافذة انزلاق شبكة الإلتواء) قسمت بنية الخلايا العصبية مهمة تحت المجهر الالكتروني حققت نتائج أفضل. في عام 2015 المؤتمر ISBI التي فازت تحديا كبيرا للكمبيوتر لكشف تلقائيا bitewing تسوس فيلم الثقيلة، وإلى حد كبير (انظر نشرة لدينا) ويمكن اعتبار أن اثنين من المجهر الضوئي الأكثر تحديا التي تنتقل عن طريق فئة (المرحلة وعلى النقيض من المجهري DIC)، وفاز تتبع الخلية التحدي.

SegNet - SegNet تشكلها التشفير وحدة فك الترميز، ولكن لا مرتبطة ارتباطا كاملا طبقة. SegNet هو التفاف كامل 13 VGG16 طبقة الشبكة التلافيف (على FCN) التي تحتوي على.

قناع R-CNN - أسرع R-CNN CNN باستخدام ميزة استخراج لاستخراج ميزة الصورة. ثم استخدم شبكة CNN الموصى بها لإنتاج المنطقة من اهتمام (روي). نحن تجمع روي طبقة تطبيق حزمة لهم لتشكيل البعد الثابتة. ثم تستخدم طبقة المدخلات مرتبطة ارتباطا كاملا لتصنيف والمربع المحيط التوقعات.

حل كامل شبكة المتبقية (FRRN) - دقة FRRN بكسل للحصول على دقة وضوح الصورة كاملة قناع تجزئة قبل تنفيذ خطوات المعالجة الإضافية المطلوبة.

الهرم المشهد شبكة عزم (PSPNet) - مخلفات كامل القرار الشبكة الحاسوبية هي كثيفة جدا، وتطبيق بطيئة جدا في الصور الفوتوغرافية واسعة النطاق. لحل هذه المشكلة، PSPNet باستخدام أقصى أربعة تجمعات مختلفة من العمليات التي تتوافق مع أربعة أحجام مختلفة خطوة والنوافذ. قد يكون طبقة الخلايا القصوى أكثر فعالية استخراج المقاييس المميزة من المعلومات المختلفة.

DeepLabv3 + - قد يتم تشفيرها شبكة السابقة التي تصفية ومعلومات السياق حمامات متعددة النطاق باستخدام سعر مختلف للتغيير. يمكن تحديث الشبكة لالتقاط أوضح الحدود المستهدفة من خلال استعادة المعلومات المكانية. DeepLabv3 + يجمع بين النهجين. DeepLabv3 + أثناء استخدام التشفير، وحدة فك تجمع الهرم الفضاء.

ENET تحقيق

ENET (كفاءة الشبكة العصبية) يوفر القدرة على أداء الوقت الحقيقي بكسل بكسل تقسيم دلالات. ENET سرعة التنفيذ أسرع من 18 مرات، و 75 مرات أقل من عدد العمليات المطلوبة النقطة العائمة، و 79 أضعاف مع الحد من المعلمات، ويوفر مقارنة مماثلة مع دقة نموذج التقليدية أو أعلى (وفقا إلى عام 2016). إجراء اختبارات CamVid، مناظر المدينة ومجموعات البيانات أحد

تتكون العمارة النموذج الأولي من خمس كتل والاختناقات التكوين. الاختناقات الثلاثة الأولى لترميز صورة المدخلات، واثنين من أجل فك رموز صورة الإدخال.

وحدة كل الاختناقات يتألف:

  • الإسقاط يمكن تخفيض أبعاد 1X1

  • طبقة التفاف الابتدائية (CONV) (أي العادية، أو الكامل التوسع الإلتواء) (3X3)

  • التوسع 1X1

  • توحيد دفعة والإلتواء بين جميع طبقات PReLU

إذا كان عنق الزجاجة والاختزال، ثم تمت إضافة طبقة أقصى الخلية إلى الفرع الرئيسي. بدلا من ذلك الإسقاط الأول أثناء استخدام حجم خطوة من 1X12X22 الإلتواء.

أنها تطابق عدد لتنشيط وظيفة FIG مليئة الصفر.

أحيانا تلفيفي التفاف غير المتماثلة، على سبيل المثال التفاف سلسلة من الإلتواء 1 * 5 * 51.

التي يستخدمونها يكون تنظيما مساحة التسرب:

  • ع = 0.01، وذلك قبل bottleneck2.0

  • ص = 0.1، ثم

نتائج النموذج ENET

إذا كنت ترغب في تدريب نموذج ENET والنتائج استنساخه لمرة واحدة، تستطيع أن ترى في دفتر مفتوحة من خلال قراءة النص ربط وتشغيله. يمكنك تشغيل دون الحاجة لتحميل والاستخدام.

إذا كنت مثل ذلك، لا تنسى أن التصفيق، تألق ومفترق المشروع !!!!

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

أريد الاستمرار لعرضها روابط ذات صلة والمراجع؟

انقر على الرابط لفتح الصحافة أو انقر فوق [تجزئة صورة نظرة عامة وENET سبيل المثال]:

https://ai.yanxishe.com/page/TextTranslation/1469

AI Yanxishe المحتوى مثيرة تحديثها يوميا، وعرض محتوى أكثر إثارة: شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

CVPR 2018 أفضل من الأوراق عشر الأهداف عمق التعلم من خوارزمية الكشف مصغرة المركبات الذاتية دراسة متعمقة للميزة البصرية خرائط في عام 2018 مع "حرج" تجربة التعلم لتبادل البيانات العلمية

في انتظاركم لتفسير:

مثل رؤية الكمبيوتر / الإدراك: هيكل من الحركة

لعبة AI الابتداء

DQNs كبار: ميزة أخذ من عمق تعزيز التعلم للعب لعبة باك مان عمق تعزيز التعلم اتجاهات جديدة: جوجل الفضول كيفية إدخال تعزيزات كيل التعلم

الفيلم نسخة من "كسر باد" جاء، كرات أو داع إلى "وكلاء رقة رابحة 3" الترفيه وجود مادي

وان النص الكلمة التي ترى كل شيء مع دراسة متعمقة لشبكة التفاف مختلف (الجزء الأول)

قديمة بالأبيض والأسود صورة سحب ثلاثة أجيال من استخبارات الشرطة

200000 لشراء سيارة متوسطة الحجم للغاية التكوين هو منخفض جدا؟ تنظر بموجبها العديد من سيارات الدفع الرباعي

وان النص الكلمة التي ترى كل شيء مع دراسة متعمقة لشبكات التفاف مختلف (الجزء الثاني)

طرحت شركة آبل الجديد الهواء باد وباد مصغرة، بسعر 2999 يوان

الأسبوع المقبل، في عداد المفقودين تغيير دائم، أحب هذه الحياة لا يتغير، والقديمة الحب 4 كوكبة في متناول اليد، جنبا إلى جنب يوشينغ يونغ

ملاحظة على منتدى الإبداع وريادة الأعمال التي تنظمها التعليم العالي

الجماليات البصرية اختراق، ممن لهم R17 برو يجلب يتغير لون جديد تدريجيا

منذ نهاية سيبينغ مدينة يوكون مدرسة علم الصينيات التجريبية: محلية الصنع السحر حبوب منع الحمل "مسحوق الوجبات الخفيفة" لتعزيز القضاء على الكرمة

وان كلمة النص | تقرير للأمم المتحدة: كيف البلدان النامية التنظيم المالي المبتكر؟

ممن لهم العلامة التجارية الاصلية Realme القادمة الجهاز الجديد، تسربت في الموقع الرسمي صور