اقترح سون جيان الفرق المتنقلة تنتهي ShuffleNet الشبكة العصبية، وأفضل من جوجل MobileNet

1 جي فاز عمود جديد

ShuffleNet أفكار التصميم

التفاف الشبكة العصبية هي مكون أساسي من أنظمة الذكاء الاصطناعي البصرية الحديثة. الدراسات الحديثة على نموذج التلافيف تلو الآخر، مما أدى إلى هندسة الشبكات عالية الأداء كما VGG، ResNet، Xception ResNeXt وما شابه ذلك، على تعدد المهام البصرية يتجاوز مستوى الإنسان. ومع ذلك، غالبا ما رافقت نجاح هذه النماذج من التعقيد الحسابي ضخمة (المليارات من عملية نقطة عائمة، أو أكثر من ذلك). لا يمكن إلا أن حدود هذه مثل هذه النماذج أن تستخدم لكتل الملقم عالية الأداء، وبالنسبة للعديد من التطبيقات النقالة الجانب (عادة ما يصل الى تسمح ملايين إلى عشرات الملايين من عملية نقطة عائمة) عاجزون.

طريقة واحدة لحل هذه المشكلة تتمثل في تصميم هيكل نموذج أكثر وخفيفة الوزن. الغالبية العظمى من الشبكة العصبية التلافيف الحديثة بحساب مقدار التركيز في عملية التفاف، وبالتالي كفاءة تصميم طبقة الالتواء هو المفتاح لتقليل تعقيد الشبكة. من بينها، اتصال متفرق (اتصال متفرق) هو وسيلة فعالة لتحسين كفاءة التشغيل من الالتواء، والالتواء من الكثير من النماذج الجيدة الحالي وقد تم استخدام هذه الفكرة. على سبيل المثال، غوغل "Xception" شبكة يتم إدخال مفهوم "عمق التفاف فصل" سيتم تقسيمها إلى عملية التفاف من قبل التفاف قناة مشتركة (depthwise الالتواء) والإلتواء pointwise (pointwise الإلتواء) اثنين القسم، والحد من فعالية كمية من حساب والمعلمة، الفيسبوك و"ResNeXt" شبكة يتم استخدام أول التفاف بنقطة أو يقلل رقم القناة من الميزات المدخلات، ثم استخدام كمية أقل من الالتواء حساب حزمة (التفاف مجموعة ) استبدال الهيكل الأصلي للعملية التفاف، فإنه يمكن أيضا أن يقلل من التعقيد الحسابي للمجلس بكامل هيئته.

يتبع ShuffleNet بنية الشبكة نفسها اتصال متفرق مفهوم التصميم. من خلال تحليل Xception ونموذج ResNeXt، وجدت أن التعقيد الهيكلي اثنين من تلك العملية التفاف الأصلية قد انخفض على الرغم من أن يتم احتساب الانقسام التي كتبها نواة الالتواء، ومع ذلك، فإن المبلغ من حساب التفاف من قبل نقطة الانقسام ولدت كبيرا، أصبحت عنق الزجاجة الجديد. على سبيل المثال، بلغت نسبة نموذج التفاف ResNeXt الحكيمة نقطة عن 93.4 من التعقيد الحسابي. مرئية، من أجل تعزيز سرعة النموذج، يجب علينا أن نسعى هيكل أكثر كفاءة لتحل محل التفاف الحكيمة نقطة.

مستوحاة من ResNeXt، يقترح المؤلفان إلى استخدام حزمة من نقاط التفاف (مجموعة pointwise الإلتواء) ليحل محل الهيكل الأصلي. بواسطة التفاف من المدخلات يقتصر داخل كل مجموعة، ومبلغ من حساب نماذج حققت انخفاضا كبيرا. ومع ذلك، وبذلك يرتفع السؤال الذي يطرح نفسه: عندما تكون نقطة كومة التفاف متعدد الطبقات بفارق نقطة، وينقسم نموذج تدفق المعلومات داخل كل مجموعة، ليس هناك تبادل للمعلومات بين مجموعات (FIG 1 (أ) أدناه). . وهذا قد يؤثر على القدرة على تمثيل وتحديد دقة النموذج.

(1) نقطة من الالتواء نقطة مع عملية إعادة ترتيب القناة

وهكذا، في حين باستخدام التفاف حزمة من نقاط، وآلية تبادل المعلومات بين المجموعتين هناك حاجة لإدخال. وهذا هو، للطبقة الثانية التلافيف، كل احتياجات التفاف نواة لفي نفس الوقت تتلقى كما خصائص المدخلات من كل مجموعة، FIG 1 (ب) هو مبين في الشكل. لاحظ الباحثون أن، من خلال تقديم "القناة إعادة ترتيب" (قناة خلط ورق اللعب، كما هو موضح في الشكل (1) ج) يمكن أن يتحقق بسهولة هذه الآلية؛ ومنذ تشغيل عملية إعادة ترتيب القناة، بحيث بنية الشبكة قد تكون جزءا لا يتجزأ في نهاية إلى نهاية الدراسة.

هيكل الشبكة ShuffleNet

والإلتواء على أساس عملية قناة حزمة من نقاط إعادة ترتيب، يقترح المؤلفون وحدة ShuffleNet الهيكلية الجديدة، كما هو مبين في الشكل. ورثت بنية "شبكة المتبقية" (ResNet) تصميم الأفكار، وعلى هذا الأساس، وقدم سلسلة من التحسينات لتعزيز كفاءة نموذج: أولا، كل قناة الإلتواء استبدال التفاف 3X3 الأصلي، وعمليات التفاف للحد من التعقيد من الميزات المكانية المستخرج، كما هو مبين في الشكل 2 (أ) أدناه؛ وفي وقت لاحق، والتفاف للهيكل الأصلي من الأمام والخلف من الحزمة من قبل اثنين من 1X1 نقطة، واثنين غرفة إضافة إعادة ترتيب القناة العملية، وكذلك الحد الحساب عبر قناة عملية التفاف. وحدة النهائية الهيكلية في FIG 2 (ب) هو مبين في الشكل. وبالمثل، فإن الورقة تقترح أيضا وحدة هيكلية أخرى (FIG 2 (ج))، الاختزال مخصصة ميزة الخريطة .

مع وحدات الهيكلية ShuffleNet، شيدت الكتاب نموذجا شبكة ShuffeNet كاملة. وتتكون أساسا من وحدة بنيوية 16 ShuffleNet التراص، وشبكة تابعة لثلاث مراحل، كل مرحلة من خلال نصف حجم خريطة ميزة الفضاء، في حين تضاعف عدد القنوات. حساب مجموع حول نموذج كله 140MFLOPs. طبقات ببساطة عن طريق التوسع في عدد من القنوات ل، يمكن أن تكون نماذج أخرى من التعقيد التعسفي.

كما يمكن العثور عليها، وكلما زاد عدد من الحزم التفاف، وتقلل من النموذج الحسابي وهذا يعني أنه عندما المبلغ الإجمالي من الحساب هو ثابت، وأكبر عدد من الحزم قد تسمح أكثر عدد من القنوات، ويعتقد المؤلفون هذه الإرادة أكثر ملاءمة لشبكة ترميز المعلومات، وتعزيز القدرة على تحديد نموذج .

FIG 2 ShuffleNet حدة الهيكلية

النتائج التجريبية

من خلال سلسلة من التجارب على ImageNet 2016 مجموعات البيانات تصنيف مسيطرة توضيح ضرورة كل ShuffleNet الوحدات الهيكلية المكونة، الوحدات الهيكلية المزايا الأخرى للشبكة. من ثم مرت فوق الهدف MS COCO نتائج الاختبار تعميم وصف النموذج. وأخيرا، فإن المؤلف يعطي تسارع تأثير ShuffleNet فعلا على التوالي على منصة ARM عند حساب.

  • بكسل packetized الإلتواء

لالتعقيد الحسابي من 140MFLOPs، 40MFLOPs، 13MFLOPs ShuffleNet مجموعة نموذج مقارنة تؤثر على عدد من الحزم في التفاف الحكيمة نقطة 1-8 لكل الأداء أثناء السيطرة على تعقيد النموذج. كما يتبين من الجدول رقم 1، مع حزمة (ز > نسبة الخطأ دائما من الشبكة دون حزمة (ز = 1) 1) من الشبكة. المؤلفون لوحظ للشبكات الصغيرة (مثل ShuffleNet 0.25X)، ومجموعة أكبر الحصول على نتائج أفضل أن القناة الأوسع أهمية خاصة بالنسبة للشبكات الصغيرة. مستوحاة من هذا، وإزالة وحدتين الهيكلية للمرحلة الثالثة من الشبكة، وكمية من حساب التوفير إلى الشبكة لزيادة العرض، يتم تحسين أداء الشبكة بشكل أكبر.

الجدول 1 في عدد من المجموعات على نسبة الخطأ تصنيف

  • إعادة ترتيب القناة

يعاد ترتيب القنوات بحيث المعلومات الكائن يمكن تبادل بين المجموعات. في التجربة، مع شبكة إعادة ترتيب القناة هو دائما أفضل من أي قناة شبكة إعادة ترتيب، يتم تقليل نسبة الخطأ بنسبة 0.9 إلى 4.0. على وجه الخصوص، وعدد من الجماعات كبير (على سبيل المثال، ز = 8)، والسابق هو أعلى بكثير من هذا الأخير.

  • بالمقارنة مع غيرها من الوحدات الهيكلية

يتم استبدال استخدام نفس التصميم العام للشبكة في التعقيد الحسابي مع الحفاظ على وحدة الهيكلية ShuffleNet الوحدات الهيكلية VGG مثل، ResNet، Xception مثل وResNeXt، استخدم بالضبط نفس أساليب التدريب. النتائج في الجدول رقم 2 تظهر في التعقيد الحسابي مختلفة، ShuffleNet أفضل دائما بكثير من الشبكات الأخرى.

الجدول نسبة الخطأ 2 التصنيف وغيرها مقارنة تكوين شبكة (المئوية)

  • MobileNets وعلى النقيض من بعض هيكل الشبكة الأخرى

مؤخرا هوارد وآخرون. MobileNets المقترحة ، واستخدام هيكل الشبكة كفاءة في القناة من قبل التفاف من تصميم جهاز الهاتف النقال. في حين أن النموذج هو تصميم ShuffleNet أقل من 150MFLOPs في MobileNet زيادة لأمر 500 ~ 600MFLOPs، لا يزال أفضل MobileNet. في 40MFLOPs النظام، ShuffleNet من نسبة الخطأ MobileNet من 6.7. ويمكن الحصول على تفاصيل من نتائج هو مبين في الجدول 3.

الجدول 3 ShuffleNet والمقارن MobileNet

وبالمقارنة مع بعض هيكل الشبكة الأخرى، يعكس ShuffleNet أيضا ميزة كبيرة. وكما يتبين من الجدول 4، وصلت 40MFLOPs فقط ShuffleNet 0.5X AlexNet الأداء، في حين بلغ التعقيد الحسابي AlexNet 720MFLOPs، ShuffleNet من 18 مرات.

الجدول المقارن 4 ShuffleNet الآخرين الحسابية المعقدة وشبكة هيكل

  • الكشف عن وجوه MS COCO

في أسرع-RCNN الإطار، وشبكة التعقيد مقارنة 1.0 MobileNet-224 ShuffleNet 2X حسب ما أوردته 600 في القرار FIG صلت 24.5، و 19.8 MobileNet، مشيرا إلى أن الشبكة على مهمة الكشف جيدة تعميم

  • سرعة التشغيل الفعلية

وأخيرا، فإن المؤلف على منصة ARM لاختبار السرعة الفعلية للشبكة. 40MFLOPs في تحقيق مقارنة المؤلف من دقة مماثلة AlexNet ShuffleNet سرعة التشغيل الفعلية حول 13x مرات أسرع. أدخل على 224x224 ميلي ثانية فقط 15.2 لإكمال المنطق، عند مدخل 1280X720 الحاجة فقط 260.1 ميلي ثانية.

آفاق تطبيق

تتطلب العديد من المهام الرؤية الحاسوبية المعلومات الدلالات الهامة، مثل الكشف عن وجوه، والتعرف على وجوه، في حاجة الى الخير "نموذج القاعدة"، كما مستخرج الميزة. في الأجهزة النقالة اليوم أكثر وأكثر أهمية، وخوارزميات رؤية نموذج تشغيل على أعلى من ذلك أن يكون أكثر دقة من متطلبات سوف يكون أعلى. بغض النظر عن الكشف عن الهدف والاعتراف، وكشف الوجه والاعتراف، أو صورة أسلوب التحرير، والجمال، أو تحليل سلوك المستخدم مباشرة، ونحن لا يمكن فصلها عن نموذج دعم القاعدة. نموذج أساسا جيدا يسمح الحوسبة الطلب على الطاقة لأن النموذج الأصلي كبير جدا لتشغيل بكفاءة على الهاتف يمكن تشغيلها بكفاءة، وعدد من المستحيل الممكن.

وبالإضافة إلى ذلك، وتقنيات ضغط النماذج المستخدمة عادة أخرى، مثل رقيق، ويمكن أيضا أن تطبق تقنية الشبكات تكميم إلى ShuffleNet، وتحسين كفاءة التخزين والسرعة، لزيادة خفض عتبة الهبوط خوارزميات الرؤية والتطبيقات.

مراجع

فرانسوا Chollet Xception :. ديب التعلم مع depthwise تلافيف فصل أرخايف :. +1610.02357، 2016.

Saining شيه، روس Girshick، بيوتر الدولار، Zhuowen تو، وKaiming والمجمعة التحولات المتبقية للشبكات العصبية العميقة أرخايف: .. +1611.05431 و 2016.

Kaiming و، شيانغ يو تشانغ، Shaoqing رن، وجيان الشمس ديب التعلم المتبقية للاعتراف الصورة. وفي وقائع المؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط، صفحات 770-778، 2016.

هوارد، أندرو G.، وآخرون "Mobilenets: الشبكات العصبية التلافيف فعالة لتطبيقات المحمول الرؤية". أرخايف ورقة أرخايف: 1704.04861 (2017).

رن، Shaoqing، وآخرون "أسرع R-CNN: نحو الكشف عن وجوه في الوقت الحقيقي مع شبكات اقتراح المنطقة". التقدم في أنظمة معالجة المعلومات العصبية 2015 ..

انقر هنا لقراءة النص الأصلي لمعرفة وظائف جديدة فاز جي

سبا الخيزران مع سرطان البحر! هذا 0.5H، والذي يصل إلى مدينة مفتاح منخفضة، وخيارات كبيرة عطلة قبل حلول فصل الشتاء

SUV صغيرة نجم السوق! وخط انتاج كميات كبيرة من نفس القوة صقل S4 الهندسة؟

كيفية تنظيم المعلومات على نحو فعال؟

تويوتا أفالون وسائل الاتصال تذوق، لديك لمعرفة ما جديدة بقعة مشرقة!

لا تذهب إلى جنوب أفريقيا إلى هاواي وجزر لديها رحلات مباشرة إلى مجموعة الحيتان 2H، للاستفادة من الاسترخاء تأشيرة اللعب عالية

Anguanxuanshu العامة هذا العام والتي تبلغ قيمتها

بعد النمو الهائل من احتياطي الذهب في الصين، تليها اثنين من الأمور المثيرة للاهتمام يحدث

بالإضافة إلى BBA، ومهرجان الربيع الذي افتتح العديد من السيارات الفاخرة في العودة إلى ديارهم، والجيران هم حسود!

الفرق بين الناس، وهذه الميزة تأخذ من الثالثة ثماني ساعات

نصف U23 العنيف الوطني لكرة القدم 5: 0 الفلبين طلاب فريق شبه المهنية! هذه هي كرة القدم!

لا نتجاهل هذه المفاجآت في اليابان، والأسعار هي مدينة ساحلية منخفضة، فإن معظم الناس لا تلعب

فعلت لماذا يختفي وسيط، ولكن الأهم