أطلق معهد ناقلات هينتون ODE العصبية: ما وراء ResNet 4 ميزة كبيرة في الأداء

 الأنفس جي تقرير جديد

المصدر: أرخايف

الكاتب: ون فاي، شياو تشين

[استعراض فاز جي الجديدة اقتراح هينتون ناقلات معهد الباحثين لإنشاء فئة جديدة من نموذج الشبكة العصبية، والشبكة العصبية جنبا إلى جنب مع ODE الله المعادلات التفاضلية في كثير من الأحيان (العصبية ODE) جنبا إلى جنب مع ODE للقيام التوقعات. يتم تحديث طبقة بعد طبقة طبقة خفية، ولكن مع الشبكة العصبية لتحديد المشتقات عمق لها، وحساب بتكيف يحلون الناتج ODE.

ونحن نعلم أن الشبكة العصبية هي نموذج هرمي كبير، قادر على أنماط من البيانات المعقدة التعلم. هذا هو السبب في الشبكات العصبية لديها العديد من التطبيقات الناجحة في التعامل مع الصور والصوت والفيديو وتسلسل العمل. ولكننا كثيرا ما ننسى أنه وظيفة الشبكة العصبية هي مقراب عالمي ولذلك، فإن الشبكة العصبية ويمكن استخدام أدوات التحليل العددي لحل أكثر "الكلاسيكية" المشاكل الرياضية، مثل ODE (العادية المعادلات التفاضلية، ODE).

2015 تبين ResNet شبكة المتبقية، أصبحت دراسة نموذج عمق الكلاسيكية للصناعة، ResNet جعل مرجع لكل إدخال، ودراسة تشكيل وظيفة المتبقية، هذه الوظيفة المتبقية هي أسهل لتحسين طبقات الشبكة تعمقت كثيرا. العديد من الباحثين تقريبية كما ResNet ODE حلالا، وتوسيع العودة إلى الوراء من ResNet (العودة إلى الوراء) دراسة وحساب تقريبي.

في أحدث ورقة، خلق العديد من الباحثين من كلية الحقوق بجامعة تورونتو جيفري هينتون وناقلات "العراب التعلم العميق"، وعمق التعلم وODE حلالا جنبا إلى جنب، واقترح " العصبية ODE "(العصبية ODE) وسيلة أكثر عمومية لإظهار هذه الصفات.

وسوف تكون العصبي مثل مكونات نموذج ODE، والنمذجة السلاسل الزمنية، يشرف التعلم وتطوير تقديرات كثافة نموذج جديد. هذه النماذج الجديدة التي يمكن تعديلها وفقا لكل طريقة تقييم المدخلات، ويمكن التحكم بشكل واضح المفاضلة بين دقة وسرعة الحساب.

عمق المعادلات التفاضلية العادية التعلم والجمع بين لتقديم أربع مزايا رئيسية

شبكة المتبقية، المتكررة نموذج الشبكة العصبية مثل فك وتدفق موحد (تدفقات تطبيع)، من خلال الجمع بين سلسلة من التغييرات للدولة سرية (الدولة الخفية) لبناء التحولات المعقدة:

بين

،

. ويمكن رؤية هذه التحديثات كما تحول مستمر متكررة من يولر تفريد.

عندما نضيف أكثر من طبقات إلى الشبكة، واتخاذ خطوات أقل ما الذي سيحدث؟ في الحد، ونحن نستخدم الشبكات العصبية لتحديد المعادلة التفاضلية العادية (ODE) هي معلمات ديناميكية مستمرة وحدات الخفية:

من طبقة الإدخال

بداية، يمكننا طبقة الانتاج

يعرف بأنه الوقت

الحل لهذه المشكلة القيمة الأولية من الوقت ODE. ويمكن حساب هذه القيمة المعادلة التفاضلية الصندوق الأسود حلالا، لإخفاء وحدة التقييم حلالا حيوي عند الضرورة

لتحديد الدقة المطلوبة من الحل. يقارن الشكل 1 هاتين الطريقتين.

الشكل 1: يسار: تسلسل محدود من التحولات تحديد شبكة المتبقية منفصلة. وتعرف الشبكة ODE حقل متجه، فإنه يتغير باستمرار الدولة: الصحيح. تمثل الدوائر تقييم الموقف.

ODE حلالا باستخدام تعريف ونموذج تقييم له الفوائد التالية:

  • كفاءة الذاكرة . في الفصل 2 ورقة، ونحن شرح كيفية حساب أي ODE حلالا التدرج خسارة القيمة العددية لجميع المدخلات، دون العودة انتشار من خلال حلالا العملية. انها لا تخزن أي مبلغ قبل منتصف القناة للسماح لنا تقريبا نفس التكلفة إلى نموذج الذاكرة القطار، وهي عقبة رئيسية في نموذج التدريب العمق.
  • التكيف الحاسبات . يولر (طريقة أويلر) وربما كان أسهل طريقة لحل ODE. يوفر حلالا ODE الحديث ضمانة حول نمو تقريب الخطأ، حجم اكتشاف الخطأ والتكيف في الوقت الحقيقي من استراتيجيات التقييم لتحقيق المستوى المطلوب من الدقة. وهذا يجعل من نموذج تقييم التكلفة كما تعقيد زيادة المشكلة. بعد التدريب، يمكنك تقليل دقة التطبيقات في الوقت الحقيقي أو تطبيقات الطاقة المنخفضة.
  • المعلمات الكفاءة . عند معلمات وحدات ديناميكية سرية (مخفي حدة ديناميكية) بوصفها وظيفة مستمرة من الزمن، "طبقات" معلمة مرتبطة بالقرب تلقائيا. في القسم 3، وتبين لنا أنه يقلل من عدد من المعلمات المطلوبة لمهمة التعلم تحت الإشراف.
  • تدفقات تطبيع لمد وعكسها . فوائد غير متوقعة من التحول المستمر هو تغيير صيغة متغير أسهل للحساب. في القسم 4، نستمدها هذه النتيجة، ويستخدم لبناء طبقة جديدة من طراز كثافة عكسها أن تدفقات يتجنب الاختناقات تطبيع في خلية واحدة، وطريقة احتمال الحد الأقصى من خلال التدريب المباشر.
  • نموذج السلاسل الزمنية المستمر . وحيث فاصل مراقبة منفصلة والإرسال مختلفة الشبكة العصبية المتكررة، قد طبيعيا أن تدمج البيانات المستمرة المعرفة من قبل ديناميكية في أي وقت وصوله. في القسم 5، بنينا وأثبت هذا النموذج.

يوفر ODE حلالا خوارزمية العودة انتشار شائعة

وقال معدو الدراسة، وهو أستاذ مساعد في جامعة تورونتو ديفيد Duvenaud من قبل حلالا ODE، وتوفير backprop عامة ، ولكن نهجها هو أن تبدأ من عكسها بدلا من نشر الخلفي في الحسابي ODE حلالا في (لأنه يستهلك الكثير من الذاكرة). تمت إضافة هذا الأسلوب لautograd.

وقال كاتب آخر، طالب الدكتوراه في جامعة تورونتو تيان تشي تشن أيضا أن المكان التي يعملون فيها والابتكار المصدر المفتوح هو الذي اقترح طريقة جديدة، في إطار التمايز التلقائي، والجمع بين القصيدة والتعلم العميق.

وبالإضافة إلى ذلك، تلقى الدراسة أيضا الكثير من غير متوقعة. على سبيل المثال، لبناء توحيد تدفق مستمر (تدفقات تطبيع مستمر) العودة إلى الوراء قوية، يمكنك استخدام العرض، وهو نفس ريال NVP، ولكن لا حاجة إلى قسم أو نوع أبعاد البيانات.

تيار التوحيد تدفقات مستمرة تقارن تطبيع. يتم تحديد نموذج من سعة التدفق من عمق تطبيع شبكة (K)، ويمكن زيادة هذا النموذج تطبيع سعة التدفق المستمر من خلال زيادة العرض (M)، مما يجعلها أسهل في القطار. المصدر: الأبحاث

أيضا في الوقت المستمر RNN (RNNs بدوام مستمر) ، قادرة على التعامل مع الوقت المراقبة وعدم انتظام، في حين النمذجة مع عملية بواسون تقريبية تعتمد على الدولة. ويوضح الشكل التالي مقارنة العامة للRNN والعصبية ODE:

وقال تيان تشي تشن انه يحب ولا سيما التغيير حظة من المتغيرات، التي تفتح بطريقة جديدة، مع تيار مستمر ولدت النمذجة القياسية.

حاليا، والكتاب يتحدثون عن حلالا ODE لتوسيع GPU، بذل المزيد من التوسع على نطاق واسع.

الرسالة: الله المعادلات التفاضلية في كثير من الأحيان

ملخص

نقترح فئة جديدة من نموذج الشبكة العصبية العميقة. لم يتم تحديد طبقة في تسلسل منفصلة خفية، ولكن لبالحدود مشتقة الشبكة العصبية الخفية. الشبكة تستخدم إخراج المعادلة التفاضلية حلالا لحساب الصندوق الأسود. هذه الأعماق المتعاقبة (المستمر العمق) وجود نموذج التكلفة التخزين المستمر لضبط استراتيجية وفقا لتقييم كل المدخلات، وقد تعرض الدقة العددية (صراحة) للحصول على سرعة التضحية. وتبين لنا أن هذه الخصائص في شبكة مستمرة وعمق النماذج متغير الكامنة المتبقية في الوقت المناسب المستمر. نحن أيضا ببناء تدفق مستمر موحدة (تدفقات تطبيع مستمر)، وهو نموذج يمكن استخدامها لتوليد أقصى طريقة احتمال أن القطار دون الحاجة إلى تقسيم أو فرز أبعاد البيانات. أما بالنسبة للتدريب، وتبين لنا من دون الحصول على عملياته الداخلية، حلالا ODE لأي عملية شد نشر قابلة للتطوير. وهذا يسمح لنا لنهاية القصيدة لإنهاء التدريب في أكبر نموذج في.

الموارد واقرأ المزيد:

  • العصبية ODE الرسالة: الشبكي: //arxiv.org/pdf/1806.07366.pdf
  • autograd: الشبكي: //github.com/HIPS/autograd/blob/master/autograd/scipy/integrate.py

قضاء أوقات جيدة تتركز الربيع جيدة، أكثر جمالا من زهور الربيع هي هذه الفنادق!

أنا على وظيفة | الحامض والحلو، المر، وحار، والذوق هو السنة الجديدة

بيجو 4008: إذا كنت لا تبالي بيئة العمل والصفات الميكانيكية، ويمكن شراء شراء شراء

20000 للفرد الواحد إشغال الفندق أي نوع من التجربة؟

والسنة الجديدة غائبة الشرطة يوم من اجتماع "انتقد"، بعد أصدقاء معالجة له نظرة حزينة ......

فولفو V90 CC ما هي أبرز؟ كيفية الدخول الى آفاق المحلية؟

تشانغ يى مو بكين ثماني دقائق توالت عرض حفلي الافتتاح والختام، والمستخدمين كوريا: 8 دقائق مسمار 17 يوما

تعلم أن شرب الشاي، وكانت أيام غرامة

العودة التي قد تواجهها على وشك أن تبدأ الأمطار على نطاق واسع والثلوج | تحذير

الحفل الختامي لبكين ثماني دقائق تظهر صدمة بيونغ تشانغ، والأصدقاء تنهد: هذا هو النمط الحقيقي بلد كبير

وبالنظر إلى كل الميزانية قبل شراء سيارة، عبثا

هالة يأتي في أوروبا الشرقية، حب الناس هو الحب لا يمكن تخليص نفسها!