الشمالية، فتح اعتمادا على الجمع، وخلق أقوى في الوقت الحقيقي شبكة دلالية تجزئة

الكاتب | Bbuf

تحرير | الجمل

تؤدي: MSFNet تم التوصل إليه في مجموعة اختبار مناظر المدينة 77.1 mIoU / 41FPS (ملاحظة 1024 * 2048)، حيث بلغ 75.4 mIoU / 97FPS على Camvid مجموعة الاختبار، هو أقوى دوري الدرجة في شبكة دلالية الوقت الحقيقي.

لإدخال الورقة التالية التي الشمالية، منظر مفتوح، بنغ تشنغ مختبر المحرز في ديسمبر 2019، بعنوان "في الوقت الحقيقي الدلالية الإنقسام عبر ضرب المكانية شبكة فيوجن".

أوراق عنوان: HTTPS: // ع الحادي عشر v.org//abs/1911.07217

في الوقت الحقيقي تجزئة الدلالي في العديد من التطبيقات الصناعية مثل الطيار الآلي، لعبت الروبوت دورا هاما. هذه هي مهمة صعبة تتطلب مراعاة السرعة والدقة. لحل هذه مهمة معقدة، فإن هذه الورقة يعرض متقاربة ومتعددة الفضاء كفاءة شبكة (MSFNet) للتجزئة سريعة ودقيقة. MSFNet فيوجن القائم على وحدة متعددة ميزة المقترحة، واستخدام إشراف حدود الطبقة للتعامل مع المعلومات ذات الصلة الحدود، وحدة يمكن الحصول على المعلومات المكانية والمجالات تقبلا الموسعة.

وهكذا، وأخذ عينات من حجم ميزة النهائي من حجم الصورة الأصلي على FIG 1/8 دقة جيدة جدا ويمكن الحصول مع الحفاظ على سرعة عالية. تبين التجارب التي أجريت على مناظر المدينة ومجموعات البيانات Camvid أن هذا الأسلوب له ميزة مطلقة. على وجه التحديد، MSFNet على اختبار مناظر المدينة مجموعة 77.1 mIoU / 41FPS (ملاحظة 1024 * 2048)، على Camvid تعيين اختبار 75.4 mIoU / 97FPS.

1. الخلفية

ويهدف تجزئة الدلالية لتعيين فئة إلى كل بكسل، والتي هي مهمة هامة في رؤية الكمبيوتر. كان هناك الكثير من التقنيات تجزئة الدلالي وقد اقترحت لدعم تطبيقات مختلفة مثل القيادة الأوتوماتيكية، مثل المراقبة بالفيديو والواقع المعزز. ركزت الأساليب القائمة على تحسين دقة، ولكن الأداء المنخفض الكمون في الوقت الحقيقي هو التطبيق العملي لمعظم المشاكل الحرجة، لذلك فإن عددا متزايدا من الدراسات الحديثة اهتمام في الوقت الحقيقي تجزئة الدلالي.

بعض الطرق لتسريع قرار من التفكير عن طريق الحد من سرعة الإدخال، ولكن هذا سوف المعلومات على محمل الجد المكانية تفقد، وبخاصة تكنولوجيا المعلومات والحافة ذات الصلة. بعض الأساليب الأخرى للحد من مسار الحسابية خفض التكاليف، ولكن هذا سوف يؤدي إلى انخفاض حاد في دقة الشبكة.

فكرة أخرى شائعة لاستخدام شبكات الضحلة وخفيفة الوزن، ولكن هذه الشبكات لها عيوب واضحة، لأنها عادة ما تكون ضحلة جدا ولا يمكن الحصول على ما يكفي من حقل تقبلا. هذه العيوب تجعل من الصعب توفير شبكة المعلومات الفضائية استهدفت والأداء تتحلل بشدة. وبالإضافة إلى ذلك، فإن عددا أقل من القنوات يقلل من خصائص التعبير عن الشبكة. وجميع العوامل المذكورة أعلاه لحد من الشبكة الحالية في الوقت الحقيقي أداء تجزئة الدلالي. من أجل حل المشكلة في الوقت الحقيقي تجزئة الدلالي، وقد اقترحت هياكل الشبكة متعددة، كما هو مبين في Figure2:

الهرم مساحة (SPP) هو بنية استخدامها على نطاق واسع ويمكن توسيع حقول تقبلا، لكنه سيزيد على محمل الجد تكلفة الحسابية، ولا يمكن أن تعوض عن فقدان المعلومات المكانية. هيكل U يمكن أن يخفف من المشكلة أعلاه إلى حد ما، لكنه لا يزال يتطلب الكثير من التكاليف الحسابية. وبالإضافة إلى ذلك، فإنه من الصعب الحصول على ما يكفي فقط من خلال دمج ميزة الخريطة الحقل تقبلا وجعل الكمال حتى لفقدان المعلومات المكانية.

ميزة أخرى مفيدة لهيكل إعادة استخراج ميزة تمثيلا والتوسع في مجال تقبلا، فقد المعلمة ميزة أقل وأسرع. ومع ذلك، فإنه لا يمكن أن تعوض عن SPP تحت أخذ العينات المعلومات المكانية مماثلة مما يؤدي إلى الخسارة. من خلال تحليل البنية التحتية للشبكة الحالية، وجدت الصحيفة أن المفتاح هو كيفية توسيع مجال تقبلا وإعادة تعويض-فقدان المعلومات المكانية، مع الحفاظ على التكلفة الحسابية أصغر.

وبناء على هذا، تقترح الورقة الفضاء متعدد الطبقات المتقاربة شبكة (MSFNet) يمكن حل المشاكل المذكورة أعلاه. MSFNet العنصر الأساسي هو متعدد ميزة الانصهار وحدة (MFM)، كما هو مبين في Figure2. ويستخدم التكامل أكبر من كل يطل مستويات مختلفة، وبالتالي توسيع مجال تقبلا واستعادة مزيد من المعلومات الفضاء. وبناء على هذه الوحدة، سوف FIG ميزة النهائية (1/8 حجم الصورة الأصلي) يحتوي على مساحة كافية المعلومات، والحد بشكل كبير من تكلفة الحسابية. وبالإضافة إلى ذلك، اقترح ورقة أيضا نوع من الرقابة حافة الحدود إلى خسائر تجنب المتصلة بالمعلومات المكانية.

2، طريقة

في هذا القسم، MSFNet إرادة التفاصيل هذه المادة. يدخل هنا تصور المكاني وحدة الانصهار خلية متعددة المزايا. ثم، على أساس متعدد ميزة وحدة الانصهار يدخل فرعين لأخذ العينات والإشراف الحدود أكد. الشبكة بالكامل كما هو مبين في Figure3.

أكثر من 2.1 حيث وحدة الانصهار

القائمة في الوقت الحقيقي شبكات تجزئة الدلالي غالبا ما تستخدم للحصول على معلومات الدلالي رفيع المستوى والاختزال للحد من تكاليف الحسابية. ومع ذلك، فإن الفضاء أخذ العينات بعد تكرار تحت المتقدم طبقة الدلالي خسر على محمل الجد. يتميز رفيعة المستوى مع الرقم منخفضة الدقة الهدف، لا يمكن الاحتفاظ بدقة شكله. لحل هذه المشكلة، بعض أساليب استخدام الهرم المكاني مجمعة (SPP) أو عتروس مساحة الهرم تجميع (ASPP) لتوسيع مجال تقبلا. ولكن هذه الهياكل الخاصة وغالبا ما تستخدم لتخصيب المعلومات الدلالي رفيع المستوى، بدلا من المعلومات المكانية على مستوى منخفض.

المكاني تجميع التصور واستنادا إلى التحليل الوارد أعلاه، فإننا نقترح كتلة المتبقية لكل الإدراك المكاني للهيكل جديد يسمى المجمعة (ساب)، وهذا مرتبط إلى بنية الشبكة الأساسية بعد. من أجل انتزاع الميزة الغنية، واستخدام عدد وافر من الخطوات ليالي و k هو حجم تجمع طبقة الأساسية هي 2S + 1. عالية الدقة (1024x2048) صور، على التوالي، في خمس عينات عمودية كتلة المتبقية خمس مرات.

أكثر رسميا، ويمثل الناتج من كل كتلة المتبقية على النحو التالي: حيث H وW هو طول المدخلات والعرض، C هو عدد من القنوات، وانزلاق حجم الخطوة. وتعرف عملية تجميع مثل حجم خطوة وحجم النواة (هذه الصيغة الأوراق الأصلية خاطئة، لا بد لي من ايجاد وأكد مؤلف الورقة) مجموعة. ويعرف المكاني الإدراك الناتج حدة الخلية على النحو التالي:

أين هو أنا وعشر وحدات الخلايا المتبقية الإدراك المكاني للي-ث وحدة الانتاج. على وجه التحديد، لا يتم استخدام أخذ العينات، وحجم سمة من سمات الصورة الأصلية من FIG 1/4، وأخذ عينات من شبكة الموصوفة هنا مباشرة من خصائص الانتاج من FIG 1/8 دقة الصورة. استرداد حقول تقبلا الكبيرة والمعلومات المكانية للتجزئة الدلالية مهم جدا. هذا التصميم من خلال البناء يمكن أن يعوض عن فقدان المعلومات المكانية، ويمكن توسيع مجال تقبلا إلى حد ما. وعلاوة على ذلك، فإن هذا الأسلوب له قدرة أفضل على استرداد المعلومات المكانية في كل مستوى الحقل تقبلا، ودون زيادة تكلفة الحسابية حد كبير في تحسين الأداء.

ميزة الانصهار ميزة FIG لها هنا القرار نفسه وإخراج وحدات SAP بلمرة الإخراج، ثم عمق ميزة التكامل 3X3 فصل الالتواء، لأن عدد كبير من القنوات بعد البلمرة، واستخدام عمق التفاف فصل يمكن أن تقلل كثيرا من تكاليف. يمكن إدراج مثل هذه السمات، ليس فقط في استخرجت العمود الفقري للطبقة مختلفة تزيد من تدفق المعلومات، ولكن أيضا تعزيز حساسية طبقة الدلالي للمعلومات المكانية. الإشراف الحدود باستخدام عدد من الأساليب لتحسين دقة الشبكة إشراف الحدود مقسمة. معظم هذه الشبكات هي أن تصنف على أنها حدود الطبقة، واستخدام الرقابة الحدودية في فقدان وظيفة، الأمر الذي يعني أنها لن تستخدم إلا لمساعدة إشراف الحدود. هذه أساليب مختلفة، وهذا يتحقق باستخدام فئة معينة من الحدود الإشراف على الاستخراج من خصائص شبكة الجذع.

إشراف 2.2 الحدود

الطريقة التقليدية الكثير من حيث أخذ العينات الإخراج إلى FIG 1/4 الحجم الأصلي، ثم استخدام المعالجة الاستيفاء شبه خطيه لحجم الصورة الأصلي. نجد أن حجم الصورة الأصلي 1/44 1/8 مرات، 16 مرات 1/16. وهذا يعني أنه في حالة ما إذا كان نفس العدد من القنوات، وحيث FIG 1/8 الحجم بالمقارنة مع حجم 1/4 حيث FIG أربعة أضعاف تكلفة الحسابية. اقترح حدة الانصهار على أساس الميزة، يمكن أداؤها على فرع عينة بقسمة حجم عينة من 1/8 حجم ميزة على الصورة الأصلية للFIG. يلاحظ أن الضحلة التشفير مع ثروة من المعلومات المكانية.

ولكن نظرا لصغر حجم الخريطة ميزة النهائية، وأنها لا يمكن أن يتعافى تماما المعلومات المتعلقة الحافة. ومن أجل التغلب على المشاكل المذكورة أعلاه التي يسببها فقدان الدقة، وهذا يعرض ورقة عينة على المهام المتعددة فك فريدة من نوعها لتحقيق الرقابة على الحدود الصف. متعدد ميزة وحدة الانصهار في كل مرحلة غنية ميزات عالية الجودة، والذي يسمح لنا بالمرور سريعا على عينة من فرع حبيبات دقيقة لتحقيق نتيجة مرضية.

من أجل استرداد المعلومات المكانية ومواصلة تحسين نتيجة الحافة، يقترح استخدام اثنين من فرع أخذ العينات منفصل. في عملية أخذ العينات، وأخذ عينات من الفرعين لا يمر المعلومات مع بعضها البعض. بالنسبة للحدود، نقترح مراقبة استخدام مهمة تقسيم الحدود الحقيقية، التي هي أكثر اهتمام الملف الشخصي الحافة. في كل مرحلة أخذ العينات لديه قرار مختلف. فقد اثنين من المدخلات، عينة واحدة على المرحلة السابقة من FIG مميزة المترابط، والآخر هو ناتج الرسم المميز لFIG تتميز في الانصهار مع نفس الدقة كما وحدة ميزة. وأخيرا، عندما القرار هو 1/8 من حجم الصورة الأصلي، قد تنصهر فيها من قبل اثنين من فروع استخدام عمق upsampling التفاف فصل، للحصول على الناتج النهائي.

2.3 هيكل الشبكة

تم تحسين شبكة دلالية أولا، بالنظر إلى ميزة الانصهار الحقل حدة تقبلا والمعلومات المكانية وتنقسم. وشبكة المعدلة ودون أي تكلفة إضافية الحسابية. MSFNet هو إطار كثيفة الشبكة، وأكثر كفاءة، وهيكل على شكل U للشبكة أن الأمر مختلف تماما. ثانيا، استخدام فرع منفصل من استخراج المعلومات المتعلقة الحافة، يمكن الإشراف على نحو فعال والطبقة تنفيذ الصحيحة الحدود التي تفصل النتيجة النهائية. باختصار، MSFNet الترميز هو بنية شبكة نموذجية. وفي الوقت نفسه، وذلك في الوقت الحقيقي للتفكير، يجب عليك اختيار شبكة العمود الفقري خفيفة الوزن لاستخراج الميزات. وبالإضافة إلى ذلك، والإشراف الحدود من الدرجة هو وحدة مستقلة التي يمكن تطبيقها بسهولة على مختلف هياكل الشبكة الأخرى.

العمود الفقري كما المستخدمة هنا، وشبكة العمود الفقري هي خفيفة الوزن ResNet-18، وقبل المدربين نموذج في ImageNet. كيفية التقاط الفعال للمعلومات السياق الدلالي للتجزئة الدلالي لا يزال يمثل مشكلة التحدي. وبالمثل، يتطلب متعددة ميزة وحدة الانصهار أيضا معلومات السياق الغنية. ResNet 184 كتلة المتبقية مختلفة، كل كتلة المتبقية يتكون من اثنين 3X3 الإلتواء ومتصلة لتشكيل القفز. تم تصميم هذه الشبكة لتقديم دعم أفضل لاحتياجات هذه الورقة، وحدة التكامل متعددة الوظائف للحصول على معلومات السياق الدلالي. ResNet-18 يمكن تحقيق الأداء في الوقت الحقيقي وضمان الجودة استخراج الميزة. وظيفة الخسارة في هذه الشبكة، وظيفة خسارة إضافية للرصد والمعلومات استخراج الحافة ذات الصلة إلى فرع أخذ العينات المكانية. وبالإضافة إلى ذلك، فإن وظيفة فقدان جذع لمراقبة انتاج الشبكة بالكامل. جميع الخسائر هي وظيفة من مستوى الصيغة 2 تظهر فقدان عبر الكون.

وبالإضافة إلى ذلك، قدم أيضا معلمة لتحقيق التوازن بين اثنين من أجل أفضل تعزيز فقدان أداء الشبكة ينقسم، كما هو مبين في المعادلة 3، حيث ذ يمثل التنبؤ نتيجة للشبكة، ذ 'تمثل وسائل الشرح حقيقية.

3. التجريبية

لأن MSFNet تم تصميمه من أجل كفاءة عالية الدقة تجزئة الصورة، وبالتالي فإن تقييم الورق والأداء في مناظر المدينة Camvid. هنا أولا إدخال مجموعتي البيانات وتفاصيل تنفيذ التعليمات البرمجية. ومن ثم تحليل الآثار شبكة جزء من هذه الورقة. وأخيرا، فإن نتائج المقارنة مرحلة من الأداء في الوقت الحقيقي للتجزئة الدلالي MSFNet الشبكة الموجودة بالفعل.

3.1 الإدراجات

مناظر المدينة جمع مناظر المدينة من البيانات المشهد في شوارع المدن الكبيرة من 50 مدن مختلفة. أنه يحتوي على 5000 صورة المشروح مع غرامة و 199 98 مع دقة وضوح الصورة الخشنة تصل إلى 1024x2048 الشرح. الإعدادات القياسية مناظر المدينة، والتدريب 2975 صور توضيحية، و 500 للتحقق من ما تبقى 152 5 الاختبار. وبالإضافة إلى ذلك، فإنه يحتوي على 30 فئات، ولكن بالنظر فقط 19 فئات من التدريب والتقييم. كما المستخدمة هنا، التجربة الصور فقط مع التعليقات. Camvid مجموعة البيانات Camvid هو شارع معروفة المستخرجة من تسلسل الفيديو. أنه يحتوي على 701 الصور المشروح، وبعد إجراء عام، ويستخدم لتدريب صورة 367، يتم استخدام صورة 101 للمصادقة، وصورة للاختبار هو 233. هذه مجموعة من البيانات يحتوي على 11 فئات أعلى دقة من 720x960.

3.2 تفاصيل التنفيذ

نموذج التدريب محسن آدم استخدام الورق. وبشكل أكثر تحديدا، وحجم دفعة من 12، والموهن الوزن. معدل التعلم الأولي إلى 0.0001 وتوهين جيب التمام استراتيجيات والتعلم أقل معدل للتسوس إلى 0.000001. على مناظر المدينة تدرب 350 الحقبة، تدريب 700 الحقبة في Camvid. لتعزيز البيانات، والوجه ورقة باستخدام مستوى عشوائي وناقص المتوسط. وعلاوة على ذلك، يتم استخدام قيمة عشوائية كما مقياس تكبير الصورة. بعد ذلك، على مناظر المدينة عشوائي اقتصاص حجم الصورة إلى 1024x1024، وفي Camvid ثم خفض لحجم 768x1024.

3.3 شبكة هيكل تحليل

هذا الجزء من التجربة، بتقييم الورق باستخدام مناظر المدينة مجموعة التحقق من الصحة. ولكي نكون منصفين، ونحن لا تستخدم أي استراتيجيات اختبار مثل تعزيز التنبؤية متعددة النطاق أو دمج متعددة النماذج. في نفس الوقت، من أجل تحليل أكثر دقة التجارب، حيث استخدام mIOU كما معايير التقييم.

متعدد ميزة وحدة الانصهار أولا مناقشة متعددة ميزة وحدة التكامل يوفر الميزات الضرورية للمعلومات أخذ العينات من أجل كل مرحلة من مراحل فرع. كما هو مبين في TABLE1، مع شبكة العمود الفقري، وتجميع عدد من العمليات لكل مرحلة لتحسين دقة 0-2، وتنقسم من 72.2 إلى 75.3. علما بأن عدد من الخلايا يمثل الهيكل عموما U على شكل صفر. عندما يكون عدد المجمعة 4-5، ودقة جدا تحسين وmIOU تصل إلى 77.2.

تشير الصحيفة إلى أن أداء حمامات خمسة جدا عندما الترقية لأن الخريطة هي الميزات الصغيرة جدا، وتكامل نموذج عالمي للمعلومات يمكن أن تسهل نشر المعلومات وتعزيز استخراج أفضل التدرج في مستويات مختلفة من النماذج الميزة. يحاول الورقة أيضا إلى FIG العمود الفقري حيث نتائج أسوأ كل مرحلة من مراحل البلمرة إلى الخريطة الحد الأدنى الميزة، ولكن في الشبكة الأساسية وكل مرحلة من مراحل الخلية 5 مرات مقارنة مع معدل دقة تجزئة 75،3-77،2 . والسبب هو أن تدهور أداء الشبكة العمود الفقري في الضحلة سيجلب بعض الضوضاء. وبالمثل، معلومات الدلالي الضحلة ليست غنية ميزة الخريطة، والتي يمكن أن تكون ضارة لاستخراج المعلومات العالمية رفيعة المستوى الدلالي.

تجميع من حجم النووي الذي من شأنه أن يعزز متانة نموذج. هذه المعالم تجعل ترتيب ميزة FIG لكل بكسل يمكن التقاط لا يقل عن أربعة النوافذ، وبالتالي تحسين خصائص الأداء الانصهار. من المتوقع والأوراق باستخدام التفاف بدلا من التوسع في المجمع عندما وأثر هو أسوأ من ذلك. على الرغم من أن التفاف التوسع يمكن الاحتفاظ بالمعلومات المكانية زيادة الحقل تقبلا في نفس الوقت، ولكن العديد من الميزات من هذه الوحدة التكامل لا تحتاج إلى الحفاظ على القرار المكانية الأصلي. كما هو مبين في الجدول رقم 5، 76.2 يمكن الحصول عليها عندما تكون قيمة حجم تجمع mIOU تساوي حجم خطوة من جوهر، عند استخدام التفاف 3X3 الموسعة، نتائج فقط 74.8.

من أجل حل تصنيف إشراف فقدان حافة الحدود المعلومات المكانية، والإشراف بالحدود المقترحة (CBS) استنادا إلى فرع عينة على اثنين مستقلة تماما، حيث واضطر أشرف المعلومات المكانية لاستخراج الحافة. هنا، والحساب هو أساسا لاستكشاف عرض الحدود والإشراف فقدان الحدود الحدود الحقيقية. أولا تعريف العرض من تمثيل الحدود. A بكسل بكسل الحدود إذا وفقط إذا كان هناك ما لا يقل على مسافة بكسل واحد وبكسل الحالي لا تنتمي إلى نفس الفئة، وبكسل بكسل الحدود. ورقة لحساب فقدان الحدود بطريقتين. الميزة الأولى هي استخدام الاستيفاء شبه خطيه لupsampled إلى FIG 1/8 الحجم الأصلي، والأسلوب الآخر هو لحساب مباشرة 1/8 خصائص الخسارة في FIG.

كما هو مبين في Table4، وحجم العينة إلى السبب الأصلي تدهور الأداء 1/8 حيث FIG. والسبب هو لأن حدود أخذ العينات شبه خطيه سبب الانقطاع، والتي قد تتداخل مع تقسيم أداء الفرع الرئيسي، مما تسبب تقلبات. ولكن عند حساب الخسارة في ميزة FIG 1/8 لتجنب التقلبات الكبيرة الناجمة عن انقطاع مساحة مميزة. من Table4 يمكن أن ينظر إليه عندما عرض الحدود هو 1، وهي أعلى دقة ممكنة للتجزئة.

لتحسين المقارنة، قامت الصحيفة عن الإشراف على الحدود مختلفة من التجربة هو مبين في Table3.

يتم تعيين بكسل الحدود من فئة إلى 1، يتم تعيين البعض ل0، فإن هذه الاستراتيجية يمكن أن ينظر إليه من نتائج في دقة انخفضت من 77.2 إلى تجزئة 76.3. ل0/1 أساليب الرقابة الحدودية، من أجل تحسين أدائها تقسيم له تأثير معين. ومع ذلك، ويرجع ذلك إلى حدود هذه الرقابة هي التي نفذت في المرحلة النهائية من الشبكة، لذلك لا يمكن أن يكون فئة الاعتراف أفضل. وأخيرا، فإن فرع العينة وعدد من الانصهار مع عدة ميزة الانصهار التجارب وحدة شبكة الاجتثاث التي أجريت.

ويمكن أن ينظر إليها عند استخدام فرع أخذ العينات على أداء الانصهار مهما كان ضعيفا. وذلك لأن في هذا الفرع أخذ العينات الشبكة هو فك بسيط، لا يمكن أن يتعلم في حين تعدد المهام وتعدد المهام جعل الضوضاء سوف تؤثر على أداء تجزئة الدلالي. عندما القضاء على فرعين الضوضاء أداء تجزئة الدلالي جدا تحسين، إن لم يكن الانصهار يمكن أيضا الحصول على 76.0 من mIOU.

وأخيرا فإن كل نموذج، نظرة على MSFNet نتيجة المباراة النهائية للأداء. الانصهار كما هو مبين في Table7، استنادا إلى "U-الشكل-8S"، فإنه يؤدي الصورة من ميزة الأصلية لأخذ العينات النهائية FIG 1/8 على ميزات متعددة وصفها ويمكن تنفيذ هذه الوثيقة وحدة الترقية ضخمة، فإن معدل دقة من 71.1 يرتفع الى 76.0. من أجل حل مشكلة الحدود خسر والإشراف حدود الدرجة على أساس عينتين من الفرع المقترح يمكن زيادة تحسين نموذج الأداء تجزئة، وارتفعت من 76.0 إلى 77.2.

3.4 السرعة النسبية ودقة

يوضح Table6 مقارنة بين دقة وسرعة MSFNet.

كما المستخدمة هنا، 5001024x2048 صورة نتائج التقرير قرار الاختبار، والبيئة التجريبية هي GTX احد 2080 تي GPU على الجهاز الظاهري. وسويفت نات وبالمثل، عندما تستخدم هنا المنطق BN طبقة استبعاد لأن التكامل BN يمكن الإلتواء. بعض النتائج MSFNet التصور هو مبين في Figure4،

باستخدام هذه الشبكة قد تنفيذ تجزئة الدلالي عالية الأداء على مناظر المدينة.

3.5 نتائج على بيانات أخرى

من أجل التحقق من براعة هذا الأسلوب، يتم تنفيذ ذلك على كل من مجموعات البيانات أيضا Camvid. حل مجموعة البيانات إلى 720x960. من أجل التكيف بشكل أفضل مع نموذجنا، يتم تغيير حجم الصورة الأصلية 768x1024 لللتدريب والاختبار. 5 في حين أن التصور المكاني للعينة داخل الخلية حيث ل3 مرات لاستيعاب هذا القرار صورة أفضل. وبالإضافة إلى إظهار مزيد من براعة هذا النهج، وسوف تكون المادة الأصلية 512x768 قرار لنفس التدريب والاختبار. نتائج الاختبار النهائي كما هو موضح في Table8،

يمكن أن ينظر إليه في mIOU MSFNet وصلت إلى أعلى سرعة في حالة من هذه المادة SOTA.

4. الخلاصة

تقدم هذه الورقة رواية تقوم على التصور المكاني للالتحام متعددة الخلايا خصائص وحدة، مما يحسن كثيرا من ممارسة أداء تجزئة الدلالي. وعلى أساس هذه التقنيات إشراف الحدود من الدرجة المقترحة للتعويض عن فقدان المعلومات المكانية ذات الصلة إلى الحافة. وأخيرا، فإن صحة الأسلوب ومناظر المدينة Camvid البيانات. وأظهرت النتائج أن MSFNet في سرعة ودقة من الطرق الحالية لتعزيز SOTA أكبر من ذلك بكثير.

تحت وباء فيروس كورونا الجديد، AAAI2020 أيضا الانتقال إلى اللقاء؟

منع من دخول الولايات المتحدة، انخفض المشاركين موقع AAAI2020 من خلال ورقة كيفية المشاركة؟

منذ التعلم تحت إشراف والتعلم العميق كيفية حفظ البيانات من المأزق؟

لعبة ذكية لصناعة السيارات سوق الأسهم تشى شيدا هونج كونج: لم يكن يتوقع لامبورغيني لكسب المال لذلك

نماذج النسخة المزدوجة لاختبار المياه مرة أخرى، رائعة أبل لتكون محفورة 6 مرات اي فون؟

ما هو السبب وراء تراجع الذهب؟

ليس فقط البحث المسحي، تسويق فصيل واقعية كيف نفعل؟

مؤتمر عبر الهاتف، والحصول على بالملل

اليوم هذه المؤسسات لشراء 12 سهم، باعت 116 مليون يوان شو الغوص الطبية CBBC العين

"توقف مغلق التعلم" - أكاديمية الصينية للعلوم الدماغ مركز التميز تشي تقديم دورات الفيديو الحية

لقاح - التاريخ، وآلية والفئات

قراءة MEMS تصنيع النص وشعاع الالكترون الطباعة الحجرية

[يناير] يجب أن لا يغيب عن مخزون كبير من العشرة الأوائل "الأصلي" جيد رجل

يقترح العلماء الحوار أفضل البصرية لإيجاد حل لمشكلة جيل مزدوجة القناة متعددة الخطوات نموذج المنطق