الحقل الدلالي تجزئة للجبال: تقترح جوجل البحث الدلالي باستخدام تجزئة الشبكة العصبية

مذكرة لى فنغ شبكة AI تقنية الاستعراضي: المؤلف شين تاي حمراء، علبة ahong007@yeah.net، وكتب التفسير الحصري لجوجل البحث باستخدام الشبكات العصبية لتحقيق تجزئة الدلالي ولى فنغ شبكة AI تقنية الاستعراض.

1. مقدمة

في أرخايف استعراض ورقة عند حدها ترى اسم المادة لا يعرف تنتمي CV تحديد المناطق التي، شغف واحد ليانغ تشيه الخوف، ومسح بصورة مجردة إلى VOC باسكال 2012 (الدلالي تقطيع الصورة)، قراءة جاءت القصة الكاملة لفهم، وجوجل و انه اتخذ خطوة كبيرة.

قوة جوجل المتزايد في سحابة AutoML، مقارنة مع الأعمال السابقة إلا من حيث زراعة مكثفة في مجال تصنيف الصور، والآن لكسر توسيع تقسيم التربة، قدم الفصل الأول نموذج تجزئة الدلالي القائم NAS (هندسة الشبكات العصبية) في أرخايف (DPC، خلية التنبؤ كثيفة) وكان NIPS2018 وردت، ويكتسب دولة من فن الأداء (MIOU على DeepLabv3 +) وأكثر كفاءة حسابيا (معلمات نموذج أقل مناظر المدينة، باسكال شخص، الجزء، VOC باسكال 2012، تقليل كمية من الحساب).

جوجل يبدو أن ارتفاع العائد تجزئة الدلالية المهيمنة في مجال الصورة، ليانغ تشيه من Deeplabv1- Deeplabv3 + جهود متواصلة، أو MobileNetV2 المؤلف المشارك، والآن تطوير الأراضي البكر في الفضاء NAS: استنادا MobileNetV2 الشبكة قبل نموذج تجزئة الدلالي NAS، وأداء تجاوز مقرها العمود الفقري.

2. الدافع

لقد أصبحت تكنولوجيا التعلم عميقة موضوعا ساخنا في مجال الذكاء الاصطناعي، والتي يتم عرضها في التعرف على الصور، التعرف على الكلام، معالجة اللغات الطبيعية وغيرها من المجالات ميزة كبيرة، وما زالت تتطور. منذ أن جوجل الغيمة AutoML، NAS (العصبية العمارة البحث، ابحث عن هندسة الشبكات العصبية) أيضا تقدما كبيرا، ولكن يتم تطبيق المزيد من الجهود لتصنيف الصور ومعالجة اللغة الطبيعية. في العام الماضي، التعلم الفوقية (الفوقية التعلم) في تصنيف الصور على نطاق واسع، وقد تحقق أداء وراء تصميم اليدوي البشري في هندسة الشبكات العصبية.

تصنيف الصور بناء على NAS على الهجرة إلى معالجة عالية الدقة صورة (تجزئة الدلالي، والتعرف على وجوه، والأمثلة على الانقسام) لديها تحديات كبيرة: (1) وحدة تشغيل الشبكة العصبية فضاء البحث وطبيعة مختلفة إلى حد كبير. (2) العمارة بحث بطبيعتها يجب أن تعمل على صور عالية الدقة، فإنه لا يمكن تحقيق الانتقال من منخفضة الدقة نموذج التدريب على الصورة لصور عالية الدقة.

أطروحة أول محاولة لالفوقية التعلم عن انهيار التنبؤ صورة (أنا أفهم أن مستوى بكسل تجزئة الصورة). عادة الدلالي تجزئة الفن باستخدام التشفير فك الفضاء نموذج هيكل الهرم، مثل تجويف الإلتواء، حيث كان الهدف هو تحقيق متعدد النطاقات عالية الدقة صورة شيدت، والتنبؤ بكسل العلامة مستوى كثافة. ورقة استخدام هذه التقنيات لبناء فضاء البحث، في حين أن بناء أقل حساب وبسيطة مهمة وكيل المعالجة، التي يمكن أن توفر بنية المعلومات التنبؤية متعددة النطاق للصور عالية الدقة.

أوراق نموذج قدمت في مناظر المدينة بيانات اختبار التحقق من صحة، وحققت 82.7 mIOU، وأكثر من الإنسان مصمم اليد نموذج 0.7. حققت دولة من فن الأداء في تجزئة الشخص جزء وVOC 2012. تشير تحديدا إلى الأوراق الأصلية.

3. العمارة

تعلم الناجح في المهام تصور عمق حقق يرجع ذلك أساسا إلى معالمه أتمتة العمليات الهندسية: الهرمي مستخرج ميزة استنادا إلى بيانات من اقصاه الى اقصاه في شكل التعلم، بدلا من التصميم اليدوي. ومع ذلك، مع هذا النجاح يأتي الطلب المتزايد على مشاريع البنية التحتية، أكثر وأكثر تم تصميم بنية العصبية المعقدة باليد. خوارزمية المهندس العام الذاتي باستهجان "الخيمياء المعلم" لأن المعلمات تصميم المحدد فائقة هناك الكثير من الاحتمالات، هو الميتافيزيقيا، وليس هناك انتظام واضح.

العصبية العمارة البحث (NAS) هو خوارزمية البحث في تصميم نموذج لهيكل مساحة بحث معين، وتمثل الاتجاه المستقبلي للتعلم الآلة. NAS هو حقل دون AutoML، ودرجة من التداخل في تحسين المعلمة فائقة membered وتعلم فن. كنت مؤخرا قد كتب مقال استعراض NAS (استعرض المهندس --NAS السماح خوارزمية خوارزمية التحرير)، NAS يمكن تقسيمها إلى ثلاث فئات وفقا لأبعاد: فضاء البحث، واستراتيجية البحث واستراتيجية تقييم الأداء.

3.1 البحث الفضاء

من حيث المبدأ، فضاء البحث يحدد هندسة الشبكات. تنقسم إلى ثلاث فئات في مهمة تصنيف الصور: سلسلة مساحة الحامل متعددة الفروع مساحة العمارة والبناء خلية / كتلة من فضاء البحث.

وتقترح الورقة فضاء البحث العودية على أساس الكثيفة التنبؤ الخليوي (DPC) مبنية على معلومات سياق متعددة على نطاق والترميز، والمهام تجزئة الدلالي.

العمارة نموذج رقم 1 DPC

DPC يمثله (الرسم البياني احلقي موجهة، DAG) موجهة الرسم البياني احلقي، كل خلية B يحتوي على فروع، كل فرع موتر رسم الخرائط مدخلات الانتاج. أنواع الخلايا لكل عملية 1X1 الإلتواء، 3X3 تلافيف نسبة باطلة، يعني الأهرامات تجميع المكانية من مختلف الأحجام.

FIG 23X3 التفاف النوع نسبة الفراغ

تقدم هذه الورقة طريقة عملها، وهناك 8X83X3 التفاف تجويف، مجمعة العملية يعني هناك 4X4 الهرم الفضاء، أي مجموع وظيفة التشغيل * 18 + 4 + 8 * 4 = 81 أنواع للفرع B الخليوي، بحث الفضاء B! * 81B، عندما B = 5، فضاء البحث لمدة 5! * * 8154.21011.

3.2 بحث استراتيجية لل

بحث يعرف استراتيجية كيفية استخدام خوارزمية يمكن أن بسرعة وبدقة العثور على معلمات تكوين شبكة الأمثل.

ويعتبر عموما نماذج التعلم الآلي سوبر المعلمة ضبط وجود مشكلة مربع الأمثل السوداء، ويسمى مشكلة الصندوق الأسود هي أننا في عملية ضبط في فقط لرؤية المدخلات والمخرجات من هذا النموذج، لا يمكن الحصول على عملية التدريب نموذج المعلومات التدرج، ونحن لا يمكن أن نفترض أن نموذج المعلمات فائقة والمؤشرات بما يتماشى مع الظروف الأمثل محدبة النهائية.

التلقائي جدولة خوارزمية عموما بحث الشبكة (شبكة البحث)، والبحث العشوائي (بحث عشوائي)، والخوارزمية الجينية (الخوارزمية الجينية)، Paticle سرب الأمثل (PSO)، النظرية الافتراضية الأمثل (الأمثل النظرية الافتراضية)، TPE، SMAC وسائل أخرى.

أوراق عن طريق بحث عشوائي على أساس جوجل الوزير تحقيق . هناك تطبيق مفتوح المصدر للمستشار (غير جوجل مفتوح المصدر، طرف ثالث)، بما في ذلك بحث عشوائي، بحث الشبكة، النظرية الافتراضية تحسين خوارزمية تعديل المعلمة على جيثب، يمكن تبدو مهتمة في.

3.3 سياسة تقييم الأداء

لأن تأثير نموذج التعلم عمق تعتمد اعتمادا كبيرا على حجم البيانات التدريب، ومجموعة التدريب في المعتاد المعنى، اختبار والتحقق من صحة مجموعات مقياس للتحقق من أداء نموذج يمكن أن يكون تستغرق وقتا طويلا جدا، مثل DPC في مناظر المدينة مجموعة البيانات على التدريب، وذلك باستخدام P100 GPU العمارة مرشح التدريب (90 تكرارات) تتطلب مدة أسبوع أو أكثر، لذلك فمن الضروري القيام ببعض استراتيجيات تقييم مماثل، وتدريب لتلبية أداء سريع ويمكن التنبؤ به من مجموعة التدريب على نطاق واسع.

مهمة تصنيف الصور وعادة ما يتم تدريبية نموذجية في صورة ذات دقة منخفضة، ثم تهاجر إلى نموذج وصورة عالية الدقة. ولكن الحاجة للحصول على معلومات سياق تقطيع الصورة متعددة الحجم. ويعرض ورقة وكيل مجموعة البيانات تصميم: (1) شبكة العمود الفقري أصغر (شبكة العمود الفقري)، (2) على مخبأ شبكة العمود الفقري في FIG ميزة ولدت مجموعة التدريب، وبناء على أساس DPC لها واحدة. (أوزان فهم الشخصية يجب أن تكون مشتركة الطريق). (3) إنهاء مبكر (التجارب تحتل 30K التدريب التكراري كل مرشح العمارة) العمارة مرشح التدريب.

مع أوراق الاستراتيجية المذكورة أعلاه، فإنه يعمل فقط 90 دقيقة تدريب على GPU، مقارنة مع الأسبوع تقلل إلى حد كبير الوقت والتدريب.

بعد العمارة البحث، ومرشح ورقة تجربة العمارة reranking، قياس دقيق لأداء كل العمارة في مجموعات البيانات الكبيرة. reranking التجربة، وشبكة العمود الفقري من خلال صقل وتدريب التقارب الكامل، إنشاء النموذج الأمثل كأفضل بنية DPC.

4. تجربة والنتيجة

فهم المشهد الورق (مناظر المدينة)، وينقسم جسم الإنسان (PASCAL- شخص-الجزء الأول)، وتجزئة الدلالية (VOC باسكال 2012) يبين مقارنة الأداء DPC نموذج. مجموعة البيانات COCO شبكة العمود الفقري قبل المدربين، تدريب تعلم معدل نسبة التعلم متعدد الحدود، وتهيئة إلى 0.01، والمحاصيل (حجم الدفعة = 8،16) صورة، ضبطها غرامة BN المعلمات. تقييم والهندسة المعمارية البحث، وحجم الصورة من نوع واحد. بالمقارنة مع غيرها من نظام دولة من بين الفن، يتم تقييم من قبل عدد وافر من متوسط صورة معينة تحجيمها.

استخدام اقترحت DPC رقة العمارة فضاء البحث نشر مهمة الوكيل الذي تم إنشاؤه مناظر المدينة، و 370 وDPC تقييم العمارة GPU 28K مدة أسبوع. شبكة العمود الفقري أطروحة، MobileNet-V2 لصقل نموذج كامل، اختار أعلى 50 العمارة إعادة ترتيب.

أوراق في الشكل (5)، ويبين الشكل 6 أعلى DPC العمارة التخطيطي. في الشكل 5B كل فرع (1 * 1 عن طريق الالتواء) L1 من الأوزان تسوية، لاحظنا أن المساهمة في فرع وجود 3 3 الإلتواء (معدل = 1 6) هو الحد الأقصى، ويحتوي على نسبة كبيرة (أي خلفية أطول ) اشتراكات فرع أقل. وبعبارة أخرى، فإن المعلومات ميزة صورة من أقرب (النطاق المكاني أي النهائي) من الناتج النهائي للشبكة تساهم أكثر. في المقابل، فإن أسوأ أداء ضمن DPC (FIG. 6C) لا تحتفظ المعلومات المكانية غرامة لأنه شلالات أربعة فروع بعد عملية تجمع الصورة العالمية.

التجربة الورق، والجدول رقم 1، الجدول 2، الجدول 3 تتوافق مع المشهد فهم (مناظر المدينة)، تابعة للدولة تقسيم الجسم (PASCAL- شخص-الجزء الأول)، والأداء نموذج تجزئة الدلالية (VOC باسكال 2012)، وDPC في كل مجموعة البيانات المكتسبة من فنون الأداء.

5. مناقشة

1، اقترحت ورقة DPC العمارة بنيت خلية فضاء البحث عن كل خلية لديها تجزئة الدلالي التفاف الكلاسيكية مساحة فارغة الهرم تجميع، والالتواء 1X1 وتنفيذ الدولة للفنون مستوى في mIOU.

2، وأوراق استراتيجية البحث بحث عشوائي والتقييم وmIOU فقط، مقارنة مع جوجل ورقة أخرى MnasNet، وتحسنت بشكل ملحوظ في دقة والاستدلال الوقت.

3، المعلمات اختيار مجردة يتطلب نصف ونصف من الكفاءة الحاسوبية، ولكن على النقيض من تطبيقات وتعديلها Xception MobileNet-V2 في الجدول 1، أي مجموعة البيانات ورقات فقط مناظر المدينة، ومجموعات البيانات الأخرى لا تنعكس مزايا الكفاءة الحاسوبية. بحث والهندسة المعمارية ورقة من وظيفة الهدف عندما لا يعكس التدريب الحسابات الكفاءة.

بالإضافة إلى ذلك، فإن هيكل الناتج هو أكثر كفاءة حسابيا، والتي تتطلب نصف المعلمات ونصف تكلفة الحسابية كدولة السابقة للأنظمة الفنية

4، مثل Google للجبال في مجال تجزئة الدلالي، سوف يكون هناك عدد كبير من مقرها البصرية للكشف عن وجوه تنفيذ NAS، أمثلة على تقسيم الأوراق ممتاز، تطبيق NAS لمنتجات الصناعة قاب قوسين أو أدنى.

5، وتنقسم الصورة تصنيف الدلالي (لتصنيف كل بكسل من الصورة) وتعميمها، تصنيف الصور، وهناك العديد من أوجه التشابه في فضاء البحث، ولكن الكشف عن الهدف يتطلب إقليم اقتراح، التنطط بوكس الانحدار شابه ذلك، زيادة البحث صعوبة الفضاء والهدف NAS في مجال الكشف قد يستغرق شوطا طويلا جدا للذهاب.

أكثر من مجرد فهم بعد قراءة MnasNet أوراق شخصية أو بإجراءات موجزة أو بعض الأفكار والآراء حتما التحيز، والقراء أمل قراءة بتشكك، رحبت تصحيح الصرف.

6. المراجع

1. تبحث عن كفاءة البنى متعدد مقياس لالكثيفة صورة التنبؤ

أرخايف: 1809.04184 (2018)

2. العصبية العمارة البحث: دراسة

أرخايف: 1808.05377 (2018)

3. خدمة لتعظيم الاستفادة الصندوق الأسود

4. https://github.com/tobegit3hub/advisor

5. MnasNet: التفكير نموذج جديد خفيف الوزن محطة

https://zhuanlan.zhihu.com/p/42474017

6. دعونا التحرير خوارزمية المهندس ---- مراجعة NAS

https://zhuanlan.zhihu.com/p/44576620

الظلام سلسلة الويب: بيتكوين محفظة تم تفريغ فجأة، مستخدمي الشبكة المظلمة الجانب الغربي قصة "حلم السوق"

هل اختبار القيادة أكثر شمولا خاصة بهم المال تريل 2017

الحزم والمرونة لتأتي وتذهب دون أن يترك أثرا، الاندلاع المفاجئ من مولان

تويوتا، مجموعة سوفت بانك تصل التلقائي مونيه شركة القيادة، لتكون معركة كبيرة في سوق خدمات السفر

أبيض وأسود العاصفة! الوقت قرد لتحقيق مشترك جديد CYRCLE الين واليانغ سلسلة من المنتجات واحدة!

"أكثر من الأزرق" 14 آذار للقاء الجمهور البر! نصائح للمستخدم مع المناشف الورقية رؤية أكبر

فاراداي: اختراق التعاونية متعددة الأغراض والأدوات ومنصة إدارة الضعف اختبار

تجربة قوة معززة للساكنة SAIC ROEWE ei6

داجي استخدام هذه المجموعة من النقوش والمعدات والدبابات يمكن ثوان!

يبدو العليا العاشر لويس فويتون للم أر؟ يمكن لديهم التعرض الجديد؟

النار، وجيانغسو مقال برامج التشغيل الأقدم لقيادة عصابة كبيرة مع اليد بعد الآن

JAC سلاح السفر الداخلي اختبار قيادة السيارات الكهربائية iEV6E