AAAI 2020 | NAS الرابعة النموذج المقترح تحسين خوارزمية، 10 مرات أسرع

الكاتب | النموذج العادي الرابع تحرير | جيا وى

عنوان ورقة: الشبكي: //arxiv.org/abs/1905.13577

الرمز: الشبكي: //github.com/xujinfan/NASP-codes

بحث العمارة العصبية (NAS) للهندسة المعمارية المدمج يدها أكثر من تحديد قلق أفضل المعماري. في السنوات الأخيرة، وطريقة البحث للاختلاف لأنه يمكنك الحصول على الأداء العالي NAS في غضون أيام قليلة، وأصبح موضوعا ساخنا. ومع ذلك، ويرجع ذلك إلى بناء شبكة فائقة، فإنه لا يزال يواجه قضايا هائلة منخفضة التكلفة الحسابية والأداء.

في هذه الورقة، فإننا نقترح وسيلة فعالة تستند NAS القريبة التكرار (NASP) هو. ويختلف العمل السابق، عملية البحث NASP سيتم تحديد إعادة بأنها منفصلة مشكلة التحسين مقيدة ونموذج تنظيم التعقيد. منذ الهدف الجديد هو من الصعب حلها، ونحن كذلك اقتراح خوارزمية فعالة لالأمثل من الاستدلال الداني. وبهذه الطريقة، NASP طريقة البحث ليست فقط أسرع من سرعة الحالية للتفاضل، ولكن أيضا يمكن العثور على الهندسة المعمارية ونموذج أكثر توازنا التعقيد.

وأخيرا، أشار عدد كبير من التجارب التي مهام مختلفة، يمكن للNASP الحصول على أفضل أداء على دقة الاختبار وكفاءة الحسابية، ووجد هيكل نموذج أفضل في الوقت نفسه، أكثر من 10 مرات أسرع من حالة التقنية الصناعية السابقة السهام مثل. وبالإضافة إلى ذلك، NASP القضاء على العلاقة بين العملية.

وبالإضافة إلى ذلك، في عام 2020 ورقة WWW "كفاءة العصبية وظائف التفاعل البحث عن التعاونية تصفية"، ونحن سوف يتم تطبيق NASP توصية خوارزمية للنظام في هذا المجال، الاهتمام موضع ترحيب:

فيديو: الشبكي: //www.tuijianxitong.cn/cn/school/video/26

PPT: الشبكي: //www.tuijianxitong.cn/cn/school/openclass/27

الرسالة: الشبكي: //arxiv.org/pdf/1906.12091

الرمز: الشبكي: //github.com/quanmingyao/SIF

خلفية

وقد تم تطبيق شبكة العمق إلى العديد من التطبيقات التي بنية مناسبة لضمان الأداء الجيد أمر ضروري. في السنوات الأخيرة، NAS لأن عدد أقل من المعلمات يمكن العثور عليها، وأصبح أفضل أداء للشبكة محط اهتمام والبحوث، والتي يمكن أن تحل محل هندسة تصميم من الخبراء البشري. NASNET هي رائدة العمل في هذا المجال، وتلفيفي العصبية شبكة (CNN) أنها صممت مشاكل القرار متعددة الخطوات، واستخدام التعزيز تعلم لحلها.

ومع ذلك، لأن فضاء البحث هو منفصلة وضخمة، NASNET الحاجة مئات GPU يستغرق وقتا طويلا لمدة شهر، من أجل الحصول على بنية الشبكة مرضية. وفي وقت لاحق، وتنقسم الشبكة المقترحة إلى كتل، والبحث ضمن خاصية كتلة أو وحدة تصاعدي جيدة الإرسال، NASNetA) من خلال مراقبة الشبكة. ثم، يتم استخدام وحدة التعرف على لبنات بناء لتجميع الشبكات الكبيرة. هذه استراتيجية البحث على مرحلتين يقلل كثيرا من حجم المساحة البحث، بحيث الخوارزميات التطورية، الخوارزميات الجشعة، تعزيز التعلم وخوارزميات البحث الأخرى تسارع بشكل ملحوظ.

وعلى الرغم من انخفاض مساحة البحث، ولكن فضاء البحث لا يزال منفصلة، غالبا ما تكون صعبة للبحث على نحو فعال. وقد ركزت الأبحاث الحديثة حول كيفية يصبح فضاء البحث المتاحة من التفاضلية منفصلة. وميزة هذه الفكرة يكمن في المساحات الصغيرة يمكن حساب المعلومات التدرج، لتسريع سرعة الأمثل تقارب الخوارزمية. لقد ولدت فكرة مجموعة متنوعة من التقنيات، مثل تصميم اختيار Softmax دارت على نحو سلس وتدريب مجموعة من الشبكة؛ سناس تعزيز تعزيز التعلم من خلال تمهيد خطة أخذ العينات. NAO باستخدام التشفير التلقائي لرسم خريطة للفضاء البحث قد يكون المساحات الصغيرة الجديدة.

في كل هذا العمل (الجدول 1)، هو الأكثر دارت المعلقة، لأنه يجمع بين مزايا كل فضاء البحث للاختلاف والصغيرة، من أجل تحقيق التدرجات الانخفاض السريع داخل الوحدة. ومع ذلك، فإن البحث عن الكفاءة والهندسة المعمارية تقدير الأداء لا يزال غير مرض. لأنه لا يزال في عملية البحث عظمى الشبكة، من وجهة نظر الحسابية للعرض، جميع العمليات المطلوبة في عملية أصل انتشار التدرج الأمامية والخلفية، فقط عملية مختارة. من وجهة نظر الأداء، وتشغيل كثير من الأحيان مترابطة. على سبيل المثال، 7X7 مرشح الإلتواء يمكن استخدامها كعامل تصفية تغطي حالة خاصة من 3X3. عند تحديث أوزان الشبكة دارت شيدت الفرقة قد تؤدي إلى اكتشاف الهندسة المعمارية ذات نوعية رديئة. وعلاوة على ذلك، والسهام لم تكتمل، أي الحاجة إلى إعادة تعريف هيكل الناتج بعد عملية بحث. هذا يمكن أن يؤدي إلى انحرافات بين الهندسة المعمارية والهندسة المعمارية البحث النهائية، ويمكن أن يؤدي إلى انخفاض الأداء البنية النهائية.

طريقة العمل

في هذا العمل، والنموذج الرابع الطريقة المقترحة NAS (NASP) على أساس شبه خوارزمية (الدانية التدرج خوارزمية) بالقرب من تكرار العد، من أجل تحسين كفاءة وأداء طرق البحث الصغرى القائمة يمكن أن يكون.

نعطي NAS القضايا الصيغ وتحسين خوارزمية جديدة، والذي يسمح تفتيش مساحة للاختلاف، مع الحفاظ على بنية منفصلة. وبهذه الطريقة، NASP لم تعد هناك حاجة لشبكة التدريب فائقة، وهو أسرع بكثير، مما أدى إلى هيكل أفضل للشبكة.

مساهمة العمل هي:

1، بالإضافة إلى مساحة مشتركة بحث في مناقشة NAS الماضي واكتمال وتعقيد النموذج، يحدد عمل عامل جديد ومهم أن القيود على بنية NAS.

2، فإننا سوف تصف NAS مشكلة الأمثل باعتبارها عائقا، وحفظ للتفاضل الفضاء، ولكن قوات العمارة هي منفصلة، وهذا هو، في محاولة للحفاظ على كمية صغيرة من التنشيط عند عملية عكس انتشار التدرج أثناء البحث. وهذا يساعد على تحسين كفاءة وفصل عمليات البحث المختلفة في عملية التدريب. وقدم التنظيم أيضا في هدف جديد، وبالتالي السيطرة على حجم بنية الشبكة؛

3، والتحسين صعب لأن هذه القيود منفصلة، ولا يمكن استخدام دارت التكيف بسيطة. وهكذا، يقترح النموذج الرابع خوارزمية الأمثل جديدة مشتقة من نهاية القريبة من التكرار، ويزيل مكلفة تقريب النظام الثاني السهام اللازمة من أجل ضمان تقارب الخوارزمية، ونحن مزيدا من التحليل النظري.

4، وأخيرا، في تصميم والهندسة المعمارية CNN RNN، وذلك باستخدام مجموعة متنوعة من مجموعات البيانات الأساسية في التجربة. بالمقارنة مع معظم أساليب متقدمة، اقترح NASP يست سريعة فقط (أكثر من 10 مرات أسرع من دارت)، ويمكن العثور على هيكل نموذج أفضل. وقد اظهرت النتائج أن NASP يمكن الحصول على أفضل أداء على دقة الاختبار وكفاءة الحسابية.

الخوارزمية هي على النحو التالي:

في الخطوة الثالثة، ونحن نستخدم منفصلة قرب مكرر هيكل توليد، هيكل المستمر من قبل المعلمات تحديث (خطوة واحدة التدرج النسب، لا من أجل تقريب الثاني) في الخطوة الرابعة، وأخيرا، وهيكل الشبكة في منفصلة، وتحديث أوزان الشبكة.

النتائج التجريبية

في البحث عن وظيفة باستخدام CNN وRNN بنية التجربة. استخدامات اختبار CIFAR-10، ImageNet، PTB، WT2 أربع مجموعات البيانات.

العمارة البحث CNN ل كابل (وسائل البحث على CIFAR-10)

على نفس العمارة البحث CIFAR-10، N = 7 من قبل وحدة الإلتواء تتألف من العقد، يتم الحصول على الشبكة عن طريق إضافة وحدة 8؛ في عملية البحث، قمنا بتدريب وحدة تراكب 50 يتكون من ثماني دورات صغيرة الشبكة. نحن هنا النظر في مسافتين البحث المختلفة. دارت نفس الأول، ويحتوي على سبع عمليات. ثانيا أكبر، تضم 12 عملية.

NAS بالمقارنة مع أحدث الأساليب، في نفس المكان (7 العملية)، وأداء NASP ودارت (الدرجة الثانية) أي ما يعادل (الدرجة الأولى) أفضل من السهام. في مساحة أكبر (12 عملية)، NASP لا يزال أسرع بكثير من دارت، خطأ أقل بكثير من غيرها من طرق الاختبار.

في التجارب المذكورة أعلاه، تم تنظيم تعقيد الباحثين في النموذج، أنشأنا = 0. وأظهرت النتائج أن النموذج مع زيادة حجم يصبح أصغر.

من أجل استكشاف تجربة للبحث عن الهجرة الخلية على ImageNet، سنقوم بالبحث عن كومة خلية 14 مرة. ومن الجدير بالذكر أنه يمكن NASP استخدام الأساليب المتطورة لتحقيق خطأ الامتحان التنافسي.

RNN العمارة البحث ( في وحدة البحث PTB)

ودارت وضع وحدة العودية N = 12 عقد، أول عقدة متوسطة قبل تحويل خطي من العقد اثنين من المدخلات، وتضاف النتائج، ومن ثم الحصول على وظيفة عن طريق تفعيل تان، نتيجة المتوسطة الأولى من عقدة ينبغي يتم تحويلها من وظيفة التنشيط. في عملية البحث، تدربنا على طول سلسلة من 50 مرحلة 35 من شبكة صغيرة. من أجل البحث في وحدة التقييم على أداء وحدة PTB، وجدنا مرحلة التدريب شبكة أحادي الطبقة متكررة تصل إلى 8000، مع حجم دفعة 64 حتى التقارب. وقد اظهرت النتائج أن النظام الثاني دارت أبطأ بكثير من الدرجة الأولى، NASP ليس فقط أسرع بكثير من السهام، ويمكن أن تحقق مقارنة مع الأسلوب الأكثر تقدما آخر من اختبار الأداء.

المبسطة اختبار نموذج

1 دارت النقيض

وقد أعطت تجارب تحديث معلمات شبكة (أي ث) وهيكل (أي، A)، مقارنة مفصلة. الوقت ابحث في نفسه، يمكن NASP تحقيق أعلى قدر من الدقة، NASP وقضاء وقت أقل في نفس الدقة. هذا يؤكد كذلك NASP أعلى من الكفاءة دارت.

2، مقارنة مع الفترة نفسها من العمل

انضم أيضا التجربة المقارنة بين عمل نفس الفترة. في اسرع وقت ممكن وBayesNAS تقليم NAS كمشكلة الشبكة، وإزالة الموظفين غير صالحة أثناء عملية البحث. ASNG وجماعات التنمية الزراعية هي عشوائي الاسترخاء فضاء البحث، إلا أن استخدام ASNG الطبيعية التدرج النسب الأمثل، وذلك باستخدام جامبل-ماكس جماعات التنمية الزراعية أداء تقنية التدرج النسب.

سيتم مقارنة التجربة مع تلك الأعمال NASP، تبين التجارب، NASP هو أكثر كفاءة، يوفر أداء أفضل في مهمة CNN. وبالإضافة إلى ذلك، NASP يمكن أيضا أن RNN تطبيقها.

المراجع:

ليو، H، سيمونيان، K، ويانغ، Y. دارت:.. للاختلاف بنية البحث في ICLR 2019.

. باريك، N.، وبويد، خوارزميات S. القريب. الأسس والاتجاهات في تحسين 2013

تقرير AAAI 2020:

تحت وباء فيروس كورونا الجديد، AAAI2020 أيضا الانتقال إلى اللقاء؟
منع من دخول الولايات المتحدة، انخفض المشاركين موقع AAAI2020 من خلال ورقة كيفية المشاركة؟
نشرت AAAI أفضل ورقة
AAAI 2020 الافتتاح الرسمي، و 37 من الأوراق المقبولة من الصين، صدارة لثلاث سنوات متتالية الاستحواذ

وقائع AAAI 2020:

AAAI 2020 @ وانغ جينغ رقة ستفسر (PPT تنزيل)
ما يدرس NLP اتجاه الرياح على AAAI 2020 هناك؟
ظهرت مايكروسوفت ست ورقات AAAI 2020

AAAI سلسلة رقة 2020 القراءة:

خطاب أفضل الاعتراف والترجمة نماذج 01. بناء عن طريق الترجمة التفاعلية

02. منظور جديد لاستكشاف "الكشف عن وجوه" علاقة متبادلة المنفعة مع "تقسيم مثيل" من

03. أين تنبع منظور المترابط تجميع، والتكرار، والطبيعة المفاجئة جديدة للمشكلة من؟

04. قصة باستخدام الرسم البياني المشهد لتوليد سلسلة من الصور ل

05.2100 مجد مجال الملك 1V1 الفوز نسبة 99.8، ويجب أن يدرك تينسنت تفسير التقني لمنظمة العفو الدولية

06. متعددة المهام التعلم، وكيفية تصميم آلية أفضل تقاسم المعلمة؟

07. لسانه وننسى؟ هذا النموذج يمكن أن تساعدك | متعدد القنوات القاموس نموذج العكس

08. DualVD: إطار جديد الحوار البصري

09. مع BabelNet بناء متعدد اللغات للمعرفة سيميم

10. اخدود سهلة لملء: الترجمة نهاية إلى كلام، قبل التقارب طريقة التدريب وصقل

11. فقد يكون الوقت قد اثنين من أنت؟ شرائح محتوى الفيديو على أساس توقيت مخطط ثنائي الأبعاد الكشف

12. آليات كرة الثلج للتعليم الشبكة العصبية وأقل علاقة الوقت

13. خلال الكشف عن نموذج فصل التوصيف الدلالي والنحوي آليات الدماغ

14. متعدد الوسائط صيغة التوجيه الإيمانية المتعدد الوسائط خلاصات التلقائي

15. استخدام آلية الاهتمام طويلة لتوليد الترجمة التنوع

16. صفر عينة تعلم لتوسيع خريطة المعرفة (فيديو التفسير)

17. الفيديو كود الاستعلام استرجاع الصورة القائمة مفتوحة المصدر!

استنادا NAS-18. تصميم الشبكة GCN (القراءة فيديو)

19. التشخيص العصبي بسبب نظام التعليم الذكي، والتعلم من البيانات البيني وظيفة

الرقم 20. ومتعددة المراحل الإلتواء خوارزمية التعلم تحت إشراف النفس

21. النموذج الجديد، وتوليد حوار أكثر مرونة، وأكثر شخصية (فيديو التفسير، وتعلق PPT)

22. التعرف على النص لفصل اهتمام الشبكة

23. الدراسة صفر العينة على أساس الخصائص البصرية ضد طريقة المتبقية

24. هو عرض وحدة التقييم، وآلة رفع الترجمة الإخلاص الطلاقة (مفتوحة بالفعل)

25. كاميرا متعددة المساعدة الموقف التعاوني في إطار مبادرة لتحقيق مسار الهدف

26. إعادة النظر في تقييم الصورة الجمالية وتجد يسلط الضوء على نقطة محورية

27. تحسين أهداف التدريب، لتعزيز جودة الترجمة من نموذج غير autoregression (مفتوحة بالفعل)

28: المزدوج عرض علامات التصنيف باستخدام عدد وافر من ضعف تحسين الأداء تصنيف

29. وبناء على سياسة شجرة تعزيز التعلم التدريجي

30. تمثيل مشترك على أساس الترجمة الآلية العصبية (تفسير الفيديو)

31. هو عرض وحدة التقييم والطلاقة آلة رفع الترجمة الإخلاص (القراءة فيديو)

32. A العصبية آلية شبكة كرة الثلج عدة مرات علاقة التعلم (تفسير الفيديو)

33. غير المتمتعة بالحكم الذاتي العائد الترجمة الآلية (تفسير الفيديو) على أساس التدريب الهدف ن الصفوف

مجموعة 34. فحص القضائية البيانات (تفسير الفيديو، مع رابط التحميل)

35. ضعف الرقابة تجزئة الدلالية (القراءة فيديو)

36. الشبكات العصبية الثنائية متفرق، لا يتطلب أي مهارة، جعلت الدقة SOTA (تفسير الفيديو)

النص من الحدود إلى 37. - وهناك طريقة لكشف نص الشكل التعسفي

فاز الكراك "القراءة والفهم" مشاكل والأداء الرائدة في العالم: 38. DCMN + نموذج

45. الكشف عن هدف جديد من ضعف الإطار إشراف

46. DIoU وCIoU: آيو الصحيح الكشف عن الهدف المفتوحة

47. استخدام آلية الانتباه إلى تحقيق لتحديد المواقع الأمثل للكاميرا (تفسير الفيديو)

طريق الحرير

AAAI 2020 | NAS الرابعة النموذج المقترح تحسين خوارزمية، 10 مرات أسرع

AAAI 2020 | DIoU وCIoU: آيو تصحيح في الكشف عن الهدف المفتوحة

في عام 2020 ، كيف يجب أن أذهب في نهاية التعلم العميق؟

AAAI 2020 الافتتاح الرسمي، و 37 من الأوراق المقبولة من الصين، صدارة لثلاث سنوات متتالية الاستحواذ

أفضل ورقة صدر بهدوء، AAAI 2020 بالإضافة إلى "سحابة مؤتمر" وضع الفيديو، ولكن أيضا كيف تلعب؟

296 الانتخابات، معهد بحوث مايكروسوفت آسيا AAAI 2020 ورقات مختارة، ويجب أن نرى

AAAI 2020 | المقترحة شانغ تقنية إطارا جديدا للكشف عن وجوه من ضعف الرقابة

كيف مهرجان المصابيح في وباء قد انتهت؟ مع AI لجعل لم شمل الأسرة العشاء دايتون

وسيتم نشر ML & NLP أعلى الأوراق في إجمالي الترتيب: جوجل معظم جنون، شمال واضحا في المراكز العشرة الأولى، تشو مينغ، تشانغ يو، وليو تينغ ثلاثة صينيين

ورقة اليوم | نموذج التوازن الوسائط، مزيج من التحليل الدلالي، التعبير عال من الاستعلام SQL، والناس تشكل نماذج تقدير

الفيسبوك اكبر جسم مواز مفتوحة المصدر، الإحضار 4500000000، وتغطي 576 نوعا من لغة، أو أن تصبح معايير التقييم NMT

بعد الوباء، وسوف أعود إلى المدينة الكبيرة تفعل؟

رأس السنة الميلادية يوم وهانغتشو، وهو رجل في السيارة إلى النوم، ويستيقظ XingJu

على 1.2 مليون آمن، استغرق اللصوص 270،000 فقط! قال: لا يكون الرجل سيئة للغاية على الاطلاق؟

استنادا الجرافين-تقدم البحوث الكهروكيميائية تخزين الطاقة مكثف

السارس COV-2؟ فيروس العهد الجديد، السارس التاجى، التاجى المرتبطة السارس، ما هي العلاقة بينهما؟

تلك الأمراض المعدية الرهيبة في التاريخ

البرق في الماضي والحاضر

الصحوة شو التهاب العاصفة - الكبار قوي لجعل أي يائسة

الصحوة | 'أو الحاشية "قاتلة: بطاقة أستاذ من فورت لماذا غاب عن جائزة نوبل؟

ورقة اليوم | Q & A نموذج البصرية، ونمط مختلف من نقل العصب، صورة نظام ضغط؛ صورة K-SVD دي الإشاعة، الخ

كاي في الحلم، اقترح DeepMind ضغط محول، وكتاب مفتوح مستوى مجموعة البيانات PG-19

أطلقت مايكروسوفت أكبر نموذج NLG من أي وقت مضى: العمارة القائمة على محول، 17 مليار المعلمة نعمة

الأحكام ذات الصلة