دوائر | NIPS2018 أفضل ورقة تفسير: العصبية المعادلات التفاضلية العادية

AI تقنية الصحافة : منذ وقت ليس ببعيد، NeurIPS 2018 الذي عقد في مونتريال، كندا، للحصول على واحدة من جائزة أفضل ورقة في ورقة اجتماع شهرة هي "العصبية المعادلات التفاضلية العادية"، عنوان الورقة: الشبكي: //arxiv.org/abs/1806.07366. برانيسلاف هولاندر على نحو العلوم البيانات إلى تفسير هذه الورقة، AI تقنية مراجعة الترجمة تلخيصها على النحو التالي:

مؤلف هذا الكتاب هو جزء من معهد الشهير من جامعة تورونتو ناقلات. في هذه المقالة، سأحاول أن أشرح النقاط الرئيسية في هذه الورقة، ومناقشة آثارها المحتملة على عمق المجال من الدراسة. الأوراق المتعلقة المعادلة التفاضلية العادية (ODE)، الشبكة العصبية المتكررة (RNN) وتدفق تطبيع المفاهيم (NF)، ولكنني سوف يشرح آراءه حدسي وقت ممكن، لذلك لا يمكن أن نفهم تماما التفاصيل التقنية في فهم المفاهيم الرئيسية في القضية. إذا مهتما، يمكنك الذهاب لقراءة هذه المخطوطات في التفاصيل. يتم تقسيم المادة إلى أجزاء متعددة، واحد أو أكثر المقاطع شرح كل جزء من ورقة.

تغييرات التفاضلية من تسلسل لالعصبية

اليوم، والهندسة المعمارية متعددة الشبكة العصبية (مثل، شبكة RNN أو ثانوي) كتلة يحتوي على تكرار طبقة، وهذه الطبقات يمكن أن يؤمر كتل محفوظة المعلومات، وتغييرها من قبل وظيفة تعليمية في كل خطوة. عموما، يمكن وصف هذه الشبكة من خلال المعادلة التالية:

ولذلك، حزب التحرير هو "مخفي" معلومات من الوقت t الخطوة، و (حزب التحرير، t) والمعلومات والمعلمة التعلم وظيفة مخفية حاليا. في هذه الورقة، فإن المسألة الأساسية هي ما إذا كنا يمكن أن تنمو خطوة خفض تدريجيا  لتحسين الأداء الأمثل الحالي لهذه الشبكات. يمكننا أن نتصور هذا هو الزيادة التدريجية في عدد من التقييمات RNN، أو زيادة عدد الشبكات المتبقية طبقة المتبقية. اذا لم نفعل ذلك، نحن في نهاية المطاف مع نسخة متباينة من المعادلة المذكورة أعلاه:

لأن حل المعادلة هي وظيفة (وظيفة ح (ر))، لذلك يسمى هذا التفاضلية العادية المعادلة (القصيدة). وبعبارة أخرى، من خلال حل المعادلة نحصل على تسلسل مخبأة المطلوبة. نحن يجب على كل تقدير، من H0 الدولة الأولي في حل المعادلات. تعرف هذه المشكلة أيضا مشكلة القيمة الأولية.

مع "طريقة adjoint" لحساب حلالا وضع التدرج

الحل العددي للODE عادة ما يتم إنجاز من خلال دمج. على مر السنين، اخترع الناس الكثير من طرق التكامل، بما في ذلك العليا المتغيرات طريقة أويلر بسيطة وطريقة رونج-كوتا. ومع ذلك، وهذه الأساليب هي غاية مكثفة حسابيا. هذا ينطبق بشكل خاص، فإنه يتطلب خطوة من دمج الفرق في عملية التدريب، إضافة إلى جمع كل من معلمات الشبكة التدرج، الذي يؤدي إلى تكلفة الذاكرة أعلى.

تقدم هذه الورقة طريقة لحساب قصيدة التدرج "طريقة adjoint" البديل استخدام Pontryagin. مرة الثانية خلال حل ODE زيادة rearwardly، ويمكن استخدامها مع جميع تكامل ODE، ويستغرق ذاكرة أقل. دعونا ننظر التقليل من ODE حلالا نتيجة لفقدان وظيفة، وهي:

في الخطوة الثانية، وذلك باستخدام تعريف حل ODE، في الخطوة الثالثة، كما قدم ODESolve مشغل ODE حلالا. كما ذكرت من قبل، هذا المشغل يعتمد على أولي الدولة ض (T0)، F العدد، بداية ونهاية مرات T0، T1 ومعلمة البحث. "القانون يرافق" يحدد الآن التدرج من w.r.t فقدان الوظيفة، التي كانت مخبأة:

هذا العدد مع زيادة في ODE.

حساب الانحدار

ويمكن الآن (المعادلات أعلاه إلى التدرج الأول) أن يتحقق من خلال حل ODE تعزيز المؤخرة. للتأكد من اكتمالها، وتوضح الصيغة التالية كيفية حساب التدرج w.r.t المعلمات وظيفة الشبكة العصبية:

وكما جاء في الكتاب، كامل خوارزمية التدرج الحساب على النحو التالي:

ODE لشبكة التعلم تحت إشراف

القادم هو الجزء الأكثر إثارة للاهتمام من ورقة: التطبيقات ذات الصلة. التطبيق الأول من الكتاب المذكور في الورقة هو في المناطق التعليمية تحت إشراف، وهي MNIST كتابة تصنيف الرقمي. وتظهر النتائج أن أقل المعلمات المتبقية مع أداء الشبكة بشكل ملحوظ. شبكة هنا، لتقييم الصورة المدخلة وعينات مرتين، ومن ثم تطبيقها على كتلة المتبقية 6. وباختصار، فإن الشبكة تتكون من حوالي 600000 المعلمات. الشبكة تستخدم ODESolve واحد شبكة طبقة 6 استبدال وحدة ODESolve. وبالإضافة إلى ذلك، والكتاب اختباره على شبكة RK، باستثناء باستخدام طريقة رونج كوتا مباشرة الأخطاء نشر في الظهر، وشبكة وشبكة يشبه RK. وكما ذكر أعلاه، يمكنك تقييم عدد من طبقات الشبكة العصبية التقليدية وارتباط شبكة ODE. عدد المعلمات من الشبكتين 220،000، نتيجة هامة هي، حوالي 1/3 من المعلمات يستخدم شبكة RK ODE وأداء الشبكة من الشبكة إلى حد كبير نفس المتبقية. وعلاوة على ذلك، ومدى تعقيد شبكات الذاكرة ODE ثابتة (انظر أدناه).

أخرى، دقة تعديل ODE حلول لتعظيم أداء الحوسبة. على سبيل المثال، يمكن للشخص أن يكون تدريب دقيق للغاية، ويقلل من دقة التقييم (لمزيد من التفاصيل، يرجى الرجوع إلى النص الأصلي).

تدفق تطبيع مستمر

توزيع تطبيع التدفق التحولات عكسها. ويمكن أن تكون بسيطة تحويل كثافة الاحتمال من خلال سلسلة من غير الخطية كثافة التحول احتمال معقدة، كما هو الحال في الشبكة العصبية. وبالتالي، فإنها تستخدم توزيع صيغة تحويل متغيرة:

في الصيغة أعلاه، Q0 (Z0) هو التوزيع الأولي، QK (ZK) هو توزيع تحويلها، وتحويلها إلى FK، ك = 0 ... K. الحفاظ على التكامل أعلاه وجاكوبي محددا يضمن في جميع أنحاء دالة التوزيع التحول 1. لسوء الحظ، باستثناء بعض التحول بسيط، وحساب المحدد مكلفة للغاية.

تدفق تطبيع هو تطبيق مشترك للautocoder التغاير (VAE)، يفترض عادة أن المتغيرات الكامنة هي التمويه. هذا الافتراض يجعل إخراج VAE أسوأ من ذلك، لأنه لا يسمح للشبكة لمعرفة التوزيع المطلوبة. لتدفق تطبيع، غاوس حجة يمكن تحويلها إلى مجموعة متنوعة من التوزيع قبل "فك"، وبالتالي زيادة القدرة الإنتاجية للVAE. هذا بلوق شرحا مفصلا لتدفق تطبيع: HTTP: //akosiorek.github.io/ml/2018/04/03/norm_flows.html

تتناول هذه المقالة توسيع تدفق تطبيع في مجال المستمر. ومن المثير للاهتمام، وهذا يبسط حساب ثابت التطبيع. وإذا تركنا المتغير العشوائي المستمر في الوقت المناسب، والوقت تغير وصفها من قبل وظيفة و (و هي يبشيز مستمر)، واحتمال تغيير في عدد من متابعة بسيطة المعادلة التفاضلية:

لذلك، يتم استبدال حساب المحدد هنا عن طريق عملية تتبع بسيط. وبالإضافة إلى ذلك، إذا أردنا استخدام التحويل و، ثم نحن بحاجة فقط لجمع التتبع:

من أجل إثبات فعالية كنف، والمادة اختبار من احتمال توزيع هدف تحويل الكثافة جاوس اثنين من التوزيعات، كما هو مبين في الشكل.

باستخدام كنف (العلوي صفين) وNF (السطر التالي) المتحولين (من 5 إلى 100) بين توزيع التمويه والتوزيع الهدف.

باستخدام أقصى طريقة تقدير احتمال لتدريب الشبكة العصبية والشبكة العصبية، وتوزيع احتمال الهدف في ظل توقع-تعظيم، ثم عينة من توزيع نموذج انعكاس المعروفة.

توليد سلسلة زمنية من النماذج من ODE

هذه المقالة المذكورة التطبيق الثالث (وربما معظم التطبيقات الهامة)، والتي ODE غرار السلاسل الزمنية. دافع واحد لهذا العمل هو بداية اهتمامهم البيانات أخذ العينات غير النظامية، مثل السجلات الطبية أو بيانات حركة مرور الشبكة البيانات. وغالبا ما تعرف هذه البيانات المنفصلة سيئة، مما يؤدي إلى فقدان البيانات في غضون فترة زمنية معينة أو متغيرات كامنة غير دقيقة. هناك بعض الطرق للاتصال وقت إدخال المعلومات RNN، لكن هذه الأساليب لا حل المشكلة جذريا.

يتم إنشاؤها على أساس الزمن المتواصل حل وحدة نموذج ODE، وبالنظر إلى الحالة الأولية والوقت مراقبة حالة T0 Z0 ... TN، ونموذج احتساب المحتملين والدولة الناتج z_t1 ... z_tN x_t1 ... x_tN:

الشبكات العصبية مسؤولة لحساب الدالة و حالة كامنة في أي وقت ر بدءا من الوقت الحالي خطوة ض. هذا النموذج هو التشفير التلقائي الاختلاف، والذي يستخدم RNN (الرقم الأخضر أدناه) في الحالة الأولية Z0 المشفرة الكامنة مسار الماضي. كما هو الحال مع جميع التشفير التباين التلقائي المعلمة التي التوزيع (في هذا المثال، يرضي [مو] يعني، الانحراف المعياري للتوزيع جاوس) للاستيلاء على الدولة من توزيع المحتملين. من هذا التوزيع، يتم معالجة عينة واحدة من ODESolve.

تم اختبار الهندسة المعمارية ثنائية الاتجاه في مجموعة بيانات الاصطناعية دوامة ثنائي الأبعاد، مجموعة البيانات في أخذ العينات غير النظامية نقطة زمنية، والبيانات لديها ضجيج جاوس. يظهر الشكل التالي نوعيا خصائص النمذجة ممتاز الكامنة العصبية ODE نموذج:

استنتاج

تقدم هذه الورقة التفكير الشبكة العصبية مثيرة جدا للاهتمام والرواية. هذا يمكن أن يكون ورقة تاريخية مفتوحة دراسة متعمقة جديدة من التطور. أتمنى ومع مرور الوقت، بدأ المزيد والمزيد من الباحثين على التفكير من وجهة نظر الشبكة العصبية المختلفة، وحتى لا هذا المقال.

ما إذا كان أسلوب تنطبق حقا على النص من مختلف النماذج الحالية، سوف يثبت أن تكون فعالة في بقايا الوقت أن ينظر إليها. وذكر البلاغ أيضا بعض القيود المفروضة على نهجها:

  • كميات صغيرة قد تكون مشكلة مع هذا النهج، ومع ذلك، يذكر المؤلف، حتى لو كان عدد من كميات قليلة، تقييم طوال فترة التجربة لا يزال يمكن التحكم فيها.

  • فقط عندما الشبكة لديها وزن محدود واستخدام يبشيز وظيفة غير الخطية (على سبيل المثال، تان أو RELU، بدلا من وظيفة خطوة)، من أجل ضمان تفرد حلول ODE.

  • قبل مسار عكسها الأمامي قد تكون عرضة للخطأ لسفينة العددية لوضع، وضع العكسي لسفينة خطأ العددية والآثار العامة نظرا لعدد وافر من القيم التي تم تعيينها إلى نفس الحالة الأولية وانتهاء المعلومات الناقصة.

وأشار الكتاب أيضا أن منهجهم يست فريدة من نوعها، شبكة متبقية لتقريب ODE حلالا الأفكار التي عفا عليها الزمن. وبالإضافة إلى ذلك، هناك أوراق في محاولة لمعرفة معادلات مختلفة من قبل الشبكة العصبية وعمليات التمويه.

ميزة هامة من الطريقة المقترحة هي أنه في عملية التقييم أو التدريب، عن طريق تغيير دقة التكامل العددي، ويمكن ضبط بحرية التوازن بين السرعة والدقة. وعلاوة على ذلك، فإن هذه الطريقة أيضا مناسبة للغاية (فقط العصبية صافي مطلوب يبشيز مستمر)، ويمكن تطبيقها على نماذج السلاسل الزمنية، يشرف التعلم، وتقدير الكثافة الآخرين، أو عملية متسلسلة.

سيتم سرد حدث M6 في 18 نوفمبر: 7 لتحديد المواقع الأعمال MPV

تحدي ماك بوك اير، وهذا قد يكون موافق حقا! هواوي MateBook 13 في الموقع خريطة جولة

يوم واحد 120700000000، ثلاثة أسباب رئيسية لماذا عمق التحليل لم يعد لمدة يومين القط 11 المنزل!

"طفل الغد"، "الهيب هوب" "سوبر بوي"، الذي يمكن أن ينقذ رخيصة مشروع شبكة معنى؟

ملخص | المخ العلوم والتكنولوجيا شو هاو يون: AutoML ممارسة مهنة الهندسة والتطبيقات الصناعية على نطاق واسع | AI Yanxishe 104 قاعة

JAC iEV7S مدرجة رسميا: بيع 119500 يوان الدعم

تدفق الغلاف الموضة في عصر من القتال، وو يى لو هان هو أكبر مساهم، TFBOYS حقن دماء جديدة

الصوت الذكية + شاشة كبيرة الفيديو، ويسمى هواوي قرص نسخة M5 الشباب

وسوف ينظر أعلى سلسلة وسمع: من NeurIPS 2018 AI نرى تقدما ووجهات النظر والاتجاهات في 2019 توقعات

قوه بينغ معضلة الأعمال: بطولة احترافية لمدة 20 سنوات، خمس سنوات، ثلاثة ضرب، الصافية للسنة واحدة الأحمر الطريق، بلغت قيمتها مليون 60، وبمجرد أن ضربة دمرت تماما؟

الرقم الرسمي سيتروين C4 الصبار جديد: الفرنسية أعطى أخيرا في لالعلمانية

والأداء النهائي ملزمة رقيقة: هواوي MateBook tushang 13 الحقل