ستانفورد ICLR 2018 الأوراق المقبولة: كفاءة متناثر فينوغراد التفاف الشبكة العصبية | ICLR 2018

لى فنغ شبكة AI تقنية مراجعة من قبل: ICLR 2018 الذي سيعقد في أوائل شهر مايو في فانكوفر، كندا. ورقة "كفاءة شبكات متناثر-فينوغراد التلافيف العصبية" يتم تعيينهم ICLR عام 2018، المؤلف الأول، كتب جامعة ستانفورد الدكتوراه طالب ليو Xingyu المخطوطة لتفسير الحصري للى فنغ شبكة AI تكنولوجي ريفيو، جميع الحقوق محفوظة.

مقدمة

تعكس التفاف الشبكة العصبية مزايا هائلة في العديد من التطبيقات من تعلم الآلة. يتم تحديد حساب الأداء واستهلاك الطاقة بشكل رئيسي من قبل عدد من عملية التفاف الضرب. ومع ذلك، كمية هائلة من حساب الشبكة العصبية التلافيف يحد تطبيقه على جهاز محمول.

هناك طريقتان رئيسيتان للحد من عدد من الضرب التلافيف الشبكة العصبية:

  • 1) باستخدام الخصائص الجبرية الخطية من الالتواء، والالتواء على سبيل المثال فينوغراد خوارزمية يمكن أن تقلل من عدد من الضرب من قبل الخطية تحويل والخلايا العصبية التفاف النواة.

  • 2) العصبي ضغط الشبكة، على سبيل المثال، من خلال استخدام الأوزان والخلايا العصبية في تبعثر التقليم membered منذ ولدت تبعثر ReLU.

ومع ذلك، فإن اتجاهين تتعارض المذكورة أعلاه: سوف تحول خطية من الخلايا العصبية ونواة التفاف على جعل الغائب تبعثر الأصلي، لذلك لا يمكن استخدامها لتسريع تبعثر. واستخدام فينوغراد التفاف الخوارزمية على الشبكة العصبية التفاف متفرق ولكن زيادة كمية حساب.

واستجابة لهذه المشاكل، وتقترح هذه الورقة اثنين من التحسينات.

  • أولا، سوف ننقل فينوغراد ReLU نطاق وظيفة تفعيل ذلك عصبية عندما ضرب يوان هو متفرق.

  • ثانيا، نحن على حق بعد فينوغراد تحويل التقليم الثقيلة، بحيث عندما الحق في العمل في الضرب الثقيلة متفرق.

وقد اظهرت النتائج أن فقدان دقة ضمن 0.1، والطريقة المقترحة الجديدة يمكن أن تقلل من عدد من الضرب على التوالي 10.4 مرة، 6.8 مرة و 10.8 مرة في CIFAR-10، CIFAR-100 وImageNet مجموعة البيانات نسبة تخفيض نسبة إلى مضاعفة مقارنة الأصلي 2،0-3،0 مرات الترقية المعيار.

متفرق فينوغراد الإلتواء

تقليديا فينوغراد التفاف الخوارزمية في حجم الخلية تأثير حقل الإدخال الأساسي فيها د هو قطع PXP الشكل، وبعد 3 3 التفاف التفاف المجال الزمني نواة ز (ف 2) س (ف 2) كتلة الانتاج S. جميع الكتل الانتاج مع بعضها البعض للحصول على صفة إخراج FIG.

القيام به: د وغرام على التوالي مصفوفة التحويل G و B التي تم الحصول عليها B ص س ص حجم ونطاق فينوغراد ^ مجلس التجارة والتنمية GGG ^ T، مع تحول الضرب هادمارد المصفوفة التي تم الحصول عليها بعد عامين S. عندما ص يساوي 4، ومصفوفات B و A يحتوي على العناصر الوحيدة 0، 1 و -1، وبالتالي فإن الضرب من ألف وباء يتطلب الوحيدة الجمع والطرح. صيغة حسابية هو مبين أدناه:

الوقت المجال تشذيب الشبكة: عند استخدام شبكة تشذيب العادية (هان وآخرون 2015) عندما تأثير ReLU من السابقة وظيفة تنشيط طبقة في الوقت مدخلات نطاق د، ومجردة ز في وقت واحد الأوزان المجال. يتم احتساب كتلة الناتج S بالمعادلة التالية:

عندما حساب كما هو مبين في الشكل. = 4 ص. على الرغم من أن د و ز، على التوالي، وذلك بسبب ReLU وتشذيب هي متفرق، ومع ذلك، G () G ^ T و B ^ نطاق الوقت T () B تحويل يمحو 0. وبالتالي، فإن تناثر خفض عدد الضرب.

فينوغراد شبكة تقليم المحلية: عند استخدام تشذيب الشبكة المحلية فينوغراد (ليو وآخرون عام 2017، لي وآخرون 2017) عندما تأثير ReLU من السابقة وظيفة تنشيط طبقة في الوقت مدخلات نطاق د، في حين أن الأوزان فينوغراد نطاق GGG ^ T ومجردة. يتم احتساب كتلة الناتج S بالمعادلة التالية

عندما حساب كما هو مبين في الشكل. = 4 ص. على الرغم من أن الأوزان تشذيب فينوغراد الوزن GGG ^ T نطاق ومتفرق، ومع ذلك، B ^ T () B-مجال تحويل يمحو د 0 الواردة. ولذلك، فإن د الوقت المجال الناجمة بسبب ReLU تبعثر لا يزال لا يمكن أن يحقق تقليل عدد الضرب.

فينوغراد-ReLU شبكة التفاف العصبية: لحل هذه المشكلة، نقترح فينوغراد-ReLU التفاف الشبكة العصبية. وسوف ReLU تعمل على نطاق فينوغراد بدلا من نطاق الوقت. وهكذا، خلال عملية الضرب، ومتفرق، وعدد من الضرب يمكن زيادة خفض الوزن الثقيل فينوغراد نطاق GGG ^ T والمدخلات B ^ مجلس التجارة والتنمية. يتم احتساب كتلة الناتج S بالمعادلة التالية

عندما حساب كما هو مبين في الشكل. = 4 ص.

ومن الجدير بالذكر أننا قد تخلت تماما الوقت التفاف نطاق النواة. لأن لا بد RELU طبقة التلافيف لسابقتها، وبدأت عملية المجال ReLU فينوغراد الواقع من الطبقة الثانية. وتجدر الإشارة إلى أن العصبية هندسة الشبكات والإلتواء العام الشبكات العصبية التلافيف الجديدة المقترحة ليست معادلة في الرياضيات. لذلك، والتدريب، وتشذيب وتحتاج إلى تغيير كالتالي شبكات تدريب إعادة.

التدريب: نحن المباشرة التفاف نواة بعد فينوغراد تحويل التدريب المجال. بعد تحقيق الاستفادة المثلى من التهيئة عشوائية التفاف نواة تحسب مباشرة من انتشار التدرج الظهر.

التقليم: نحن فينوغراد التفاف مجال تقليم: القيمة المطلقة لجميع العناصر أقل من ر قيمة العتبة ومن المقرر ان 0. الروافد يتم الحصول على قيمة ر العتبة تشذيب المطلوبة معدل ص المحسوبة. في تجاربنا، والتقليم من كل الطبقات هو نفسه.

رفع الأثقال: نحن نستخدم قناع قبل التقليم خطوة للحصول على إعادة تدريب. في عملية تدريب إعادة، ومجردة أجبر الأوزان إلى 0 من القناع. فقدان وظيفة التدرج حساب الخلايا العصبية مدخلات الشبكة وفينوغراد التدرجات الترجيح المجال يمكن أن ينتقل عن طريق المنبع من خلال عوائد قاعدة السلسلة:

التجارب والنتائج

ونحن على الأسلوب أعلاه يتم تطبيقها على مجموعات بيانات مختلفة من أبنية شبكة مختلفة. اخترنا البنية التحتية للشبكة التجريبية في معظم حجم التفاف نواة غير 3X3، التي يمكن أن تضمن معظم طبقة الإلتواء يمكن تحويلها إلى طبقة التفاف فينوغراد. نصنف استخدمت مجموعات بيانات الصورة CIFAR-10، CIFAR-100 والتجربة ImageNet. كل بنية الشبكة قارنا ما سبق ثلاثة أنواع من الشبكات. ثلاثة أنواع من الشبكات بدأت من الصفر وتدريب التقليم تكرارية - عملية إعادة التدريب.

CIFAR-10:

نحن نستخدم التجارب شبكة VGG nagadomi. ويمكن اعتبار VGG-nagadomi كما خفيفة الوزن VGGNet، حيث طبقة 83X3 التفاف الطبقة. سنقوم صحيحا الطبقة الأولى من كثافة كبيرة من 80، وطبقة المتبقية تشذيب تكرارا من 80 إلى 20.

يتبين من هذا الرقم، عند فقدان أقل من 0.1 معدل دقة، والوقت المجال شبكة التقليم، قد تكون مجردة تقليم الشبكة المحلية فينوغراد إلى 60 فقط الكثافة، اقترحنا قد تكون مجردة شبكة فينوغراد-ReLU ل كثافة 40.

جدول يقارن المبلغ المحسوب للشبكة والوزن والخلايا العصبية مساهمة منها بعد تشذيب الكثافة. تشذيب شبكة نطاق الوقت، يمكن أن يحسب فينوغراد تشذيب الشبكة المحلية فقط تقليل كمية 5.1 و 3.7 مرة على التوالي. واقترحنا شبكة فينوغراد-ReLU قد يقلل من كمية حساب 13.3 مرة، مقارنة مع اثنين شبكة إشارة ترقية 2.6 و 3.6 مرة على التوالي.

CIFAR-100:

نحن نستخدم التجارب شبكة ConvPool-CNN-C. ConvPool-CNN-C 9 طبقات التلافيف، التي سبع طبقات 3X3 الإلتواء. سنقوم صحيحا الطبقة الأولى من كثافة كبيرة من 80، وطبقة المتبقية تشذيب تكرارا من 80 إلى 20.

يتبين من هذا الرقم، عندما قد تكون مجردة فقدان معدل دقة أقل من 0.1، فينوغراد تشذيب الشبكة المحلية لكثافة 70، في حين قد تكون مجردة نطاق الشبكة وتشذيب لدينا المقترحة شبكة فينوغراد-ReLU إلى 60 كثافة.

جدول يقارن المبلغ المحسوب للشبكة والوزن والخلايا العصبية مساهمة منها بعد تشذيب الكثافة. تشذيب شبكة نطاق الوقت، يمكن أن يحسب فينوغراد تشذيب الشبكة المحلية فقط تقليل كمية 3.5 و 3.2 مرة على التوالي. واقترحنا شبكة فينوغراد-ReLU يمكن أن تقلل من كمية حساب 7.1 مرات، مقارنة مع شبكة إشارة اثنين ترقية 2.1 و 2.2 مرة على التوالي.

ImageNet:

نحن ResNet 18 الشبكة باستخدام البديل من التجربة. الفرق بين البديل الأصلي ResNet-18 هو أن نستخدم 1X13X3 خطوة الإلتواء وطبقة الخلايا لتحل محل 2X22X23X3 خطوة الإلتواء. نحن أيضا إزالة تجمع الأخير من طبقة، بحيث يكون حجم المجموعة الأخيرة من طبقة الالتواء هو 14x14. وسوف نقوم بإعادة كثافة الأوزان طبقة التفاف تشذيب تكرارا من 80 إلى 10.

يتبين من هذا الرقم، عند فقدان أقل من 0.1 معدل دقة، وقت الشبكة التقليم المجال فينوغراد الشبكة المحلية التقليم لا يمكن إلا أن تكون مجردة إلى الشبكة على التوالي 60 و 50 من الكثافة، واقترحنا قد فينوغراد-ReLU مجردة إلى 30 الكثافة / 35.

جدول يقارن المبلغ المحسوب للشبكة والوزن والخلايا العصبية مساهمة منها بعد تشذيب الكثافة. تشذيب شبكة نطاق الوقت، يمكن أن يحسب فينوغراد تشذيب الشبكة المحلية فقط تقليل كمية 5.1 و 4.5 مرة على التوالي. واقترحنا شبكة فينوغراد-ReLU يمكن أن تقلل من كمية حساب 13.2 مرة، بالمقارنة مع شبكة إشارة اثنين ترقية 2.6 و 2.9 مرة على التوالي.

بحث

نحن تصور التفاف نواة المقترحة شبكة فينوغراد-ReLU. اخترنا الستة الأولى من المدخلات والمخرجات قنوات طبقة res2a_2a. يمكن أن ينظر إليه لم التفاف نواة شبكة فينوغراد-ReLU لا تظهر معنى فيزيائي واضح. ومع ذلك، وجدنا (2،2) عنصر (من اليسار إلى اليمين، من أعلى إلى أسفل، والهدف الأولي لل1) عادة ما يكون أكثر أهمية من العناصر الأخرى. أحد الأسباب المحتملة هو أن، (2،2) عناصر في الخلايا العصبية الإدخال حقل معين في فينوغراد: هو واحد فقط في الخلايا العصبية B ^ مجلس التجارة والتنمية فقط وليس لالطرح من قبل الأفعى الخطية التحول. FIG سلس ميزة المدخلات، والتي تعني (2،2) هو العنصر الوحيد من عنصر لديه غير صفرية يعني.

"حرب النجوم جدي: سقوط إطلاق مقطورة رأس فرسان ': تؤمن إلا قوة

واستنادا إلى تصميم نظام ذكي مراقبة المنزل KNX حافلة

و alipay "النمل بطاقة الكنز" بطاقة الهاتف المتاحة: الشهر الأول من تفعيل لم شهريا

سمعة بأنها "ليست اختيار طريق" ماي لي شيويه بينغ اليوم الافراج عن صورة التخريب!

منتصف النهار ستار نيوز | "دولفين الأميرة" يطير في السماء ليلا! تشانغ جين 70 متر ارتفاع الحفل صادمة، "كابتن ماجد" عشرة آلاف سينضم تشونغتشينغ القيادة، أصدر DONG بيان ردا على سؤال ل10

يمكن نظارات AR جعل تأثير كوك اختراق ستيف جوبز؟

"الكسول الحرب العالمية" بيع إشعار: جحافل من الكسالى، القتال الشرس

فقدان مصلح، تسلا موديل 3 "إنتاج الجحيم" كيف طبقات؟

والتي استمرت 15 عاما، وخلق أكثر من 400 براءة اختراع افتتاح HZMB غدا!

قبل فتح! سعيد ملتوية فيلم "لي عمة الشاي" يتعرض "يا عمة" MV

التركيز "آمنة ونظيفة وذكية" رحلة على الطريق التكنولوجيا مع المورد السيارات القاري هو مثل؟

هذا الأسبوع لعبة الوقت الشعبي: تضطر إلى تغيير اسم نقطة جيدة