جامعة ستانفورد Mateng يو: لا يمكن أن نفهم عمق خوارزميات التعلم القائمة؟ وهو مصمم مع فهم

تخرج من الطبقات جامعة تسينغهوا ياو، وتخرج من جامعة برينستون، تحت وصاية البروفيسور سانجيف أرورا، والدوائر ما Tengyu AI كنجم صاعد، وقد نشر 20 ورقة ذات جودة عالية في المؤتمرات والمجلات العالمية الكبرى، لديها فاز بجائزة أطروحة الدكتوراه 2018 ACM، والعديد من الجوائز الأكاديمية الوزن الثقيل أخرى.

مؤخرا، برعاية معهد بحوث بكين تشى يوان الذكاء الاصطناعي من قبل العلماء في الخارج وفي الجلسة، ما Tengyu جلب نكهة كاملة من تقرير الجافة، وليس فقط "مصممة بشكل صريح تنظيم هو" ويستند التركيز مؤخرا من العمل البحثي على فهم مشترك للعمق تعلم طريقة، أيضا على أساس الخبرة البحثية الخاصة بها لتبادل الكثير من منهجيات البحث ووجهات النظر.

وأشار إلى أن الآن طريقة شائعة تستخدم لفهم عمق التعلم الضمني طريقة التنظيم، إلا أنها وجدت في الدراسة، قد تكون طريقة تنظيم واضح خيارا أفضل.

وفي الوقت نفسه، شدد على أن علوم الكمبيوتر التقليدية مع الفيزياء والبيولوجيا وغيرها والفرق هو أن العلم: يمكنك الاستمرار في تصميم خوارزميات جديدة. "على الرغم من أننا لا نستطيع أن نفهم عمق خوارزميات التعلم القائمة، ولكن لا يمكننا أن نفهم فقط ولكن أيضا لضمان أن نقوم بتصميم طريقة جديدة وفعالة".

هنا نلقي نظرة على محتويات التقرير Mateng يو:

أولا، لماذا أكثر من نموذج معلمات يمكن تحقيق تعميم التعليم العميق؟

التعلم العميق هو اتجاه الأبحاث ما Tengyu مجموعة بحثية مهمة، ومن أهم فكرة هي من المستوى المنهجي، وتحسين أداء نموذج التعلم العميق من وجهة النظر الفنية من خلال تحليل بعض الرياضية أو نظرية.

وأشار إلى أنه من منظور منهجي، وهو التحدي الأساسي تعلم عميقة جدا هو أنه في الوقت الراهن هناك جدا الاحتياجات من البيانات على نطاق واسع لتحقيق التعميم، وعلى نطاق ويتطلب كمية كبيرة من البيانات مبالغ فيه جدا لدرجة انه يعتقد الأكاديمية الصعب البيانات بالكامل جمع أكبر قدر ذلك، في كثير من الأحيان الصناعة فقط يمكن القيام به.

لذا، إذا كنت ترغب في تقليل الاعتماد على البيانات نموذج التعلم العمق، نحن بحاجة إلى فهم كيفية استخدام بيانات أقل لتحقيق نموذج التعلم تعميم العمق.

فلماذا تم الآن معلمات (Overparametrized) من نموذج التعلم العميق يمكن تعميم ذلك؟

وذلك لأن هذا النموذج هو الآن عمق التعلم بالمقارنة مع الطراز السابق، أي بفارق الأساسي هو: الحكمة التقليدية السابقة هي أنه عندما يتجاوز عدد من البيانات حتى الآن عدد من المعلمات، ونموذج يمكن تعميمها؛ وفي دراسة متعمقة من الأوقات، وهذه النقطة عكس الرأي ينبغي أن يكون هناك أكثر من المعلمات نموذج ناجح، وكمية صغيرة من البيانات. وحتى الآن تعلم عمق نموذج لتحقيق التعميم، أكثر من كمية البيانات المطلوبة المعلمات.

ومع ذلك، في عصر التعلم العميق، ونماذج تعميم من الصعب جدا لشرح، لأن ذلك هو الكثير من الحكمة التقليدية والتي لم تعد سارية. بعض من هذه النظرة التقليدية لا يزال ساري المفعول، مثل قانون الحلاقة أوكام (أوكام الشفرة)، يشير إلى نموذج قليلة التعقيد قد بشكل جيد للغاية التعميم.

ومع ذلك، فإن هذا "التعقيد منخفض" هو في الواقع من الصعب تحديد، وبالتالي فإن مسألة أكثر أهمية هو كيفية تعريف بشكل صحيح تعقيد النموذج، ويمكن أن نجد أي وسيلة لقياس والتعريف الصحيح من التعقيد. هذه هي المشكلة التي تريد حلها الدراسة النظرية.

نهج مشترك هو ضمني طريقة تسوية، يمكن أن تركز على أسلوب التحليل على جانبين هما: أولا، الخوارزمية تفضل تجسيد قليلة التعقيد، وثانيا، وانخفاض تعقيد نموذج التعميم أيضا. تحليل جيد من هذين الجانبين، يمكننا أن نفهم خوارزميات القائمة، في حين استكشاف طرق جديدة تعقيد متري - بسبب تعقيد الخوارزمية هو حق أساسي من مقاييس تفضيل التعقيد.

ما Tengyu بعض من فريق العمل لتنفيذ حذوها يوضح بعض النتائج:

  • أولا، من حيث التقارب والتدريب نموذج، معدل التعلم أمر ضروري. على سبيل المثال، أظهرت في الآونة الأخيرة ورقة المادة NeurIPS بهم، ويستخدم العصبي معدل التعلم شبكة اثنين من طبقة كبيرة، لا يمكن إلا أن تتجلى بوصفها وظيفة الخطية، بل وحتى مع نموذج معقد جدا، في وجود ضوضاء فقط وهي تمثل بعض الحلول بسيطة جدا، بحيث النموذج لتكون أبسط مما كان متوقعا، الذي هو في الواقع لعبت دورا الضوضاء في دراسة تنظيم العمق.

  • ثانيا، طريقة تهيئة تعقيد النموذج، له نفس التأثير. لنشر سبيل المثال Chizat باخ ورقة في 2019، أثبتت دولة التهيئة كبيرة من المرجح أن يكون الحد الأدنى الظل العصبية الحل القاعدة النووية. وبعض من أعمالهم، ثبت أنه أكثر قليلا تهيئة تفضل الحصول الدولة "الغنية"، ستكون أكثر إثارة للاهتمام من الدول النووية، مثل نواة أو أصغر حل L1 الحل القاعدة. ودورث آخرون وصفت عمل أساسي: تهيئة نموذج أصغر، سوف تتلاقى إلى الحد الأدنى للحلول بدلا من حل L1 L2.

الفكرة الأساسية من هذا العمل هو أن الخوارزميات المختلفة لها أفضليات مختلفة، ولكن أفضليات مختلفة على قدر مختلف من التعقيد، فإن معدل التعلم لديهم تفضيل، الدولة التهيئة لها الأفضليات.

، ويستند الثانية إيجابية ضمنية / الخوارزمية هي الطريقة الوحيدة لمعرفة أن نفهم عمق من ذلك؟

إذا أردت أن تفهم عمق التعلم، ليس فقط لفهم طريقة تنظيم للقيام بهذا النوع من الضمني / الخوارزمية؟

وردا على ذلك، ما Tengyu أعتقد أننا يجب أن ترغب في إعادة النظر في النهج الكلاسيكي - فهم طريقة تنظيم واضح. وقال طريقة تنظيم واضح يستحق فعلا أن تشعر بالقلق إزاء الجميع، ولكن على المدى القصير، قد يكون طريقة أكثر إنتاجية.

ضمنية تنظيم طريقة / خوارزمية، من أجل تلبية الاحتياجات، والحاجة إلى خوارزمية تسوية، الخوارزمية سوف تميل إلى رسم منخفض حل التعقيد. ومع ذلك، من الخوارزمية تنظيم يرتبط مع الكثير من الورق، وجدوا في وصف "خوارزميات تميل إلى التوصل إلى حل قليلة التعقيد" الجوانب الاختناقات، وفي وصف "منخفض حل تعقيد تعميم أفضل" الجانب هو بسيط نسبيا .

لذلك، قد تكون موضع تقدير طريقة تنظيم واضح أن عمق تعلم أفضل خيار.

في هذا النموذج الكلاسيكي تعلم الآلة، ويتم التركيز على دراسة كيفية التعقيد يمكن أن تجعل من نموذج الأداء تعميم أفضل. ل "حل تعقيد منخفض الخوارزميات تميل إلى رسم" هذا عنق الزجاجة البحث، ثم "كل هذا يتوقف على الحظ."

عدم وجود طريقة النقطة تنظيم واضح هو الحاجة إلى تغيير خوارزمية، بسبب يجري منضمة إلى تعقيد خوارزمية سوف يتغير. ومع ذلك، ميزته ليست فقط قادرة على فهم الخوارزميات الحالية يمكن أيضا تصميم بعض المقاييس تعقيد جديدة أو العادية، مصممة عدد من الخوارزميات الجديدة والتحسين، وفصل البيانات الإحصائية.

وأشار إلى أن حقل مؤخرا تعلم الآلة هو موضوع الحريق هو "أسفل المزدوج" (مزدوجة النسب) الظاهرة، التي لا خطأ انخفاض اختبار واحد، ولكن تراجع مزدوج. في واحدة من عملهم مؤخرا، وهي المحاولة بعد الخوارزمية تسوية، قد لا يحدث مرة أخرى تظهر ظاهرة انخفاض مزدوجة.

Nagarajan وآخرون. 2019 جائزة أفضل ورقة لNeurIPS عرض ظاهرة التقارب متسقة لا يمكن أن يفسر عمق التعلم. وأشاروا إلى مكافحة مثال لتوضيح هذه النقطة، على الرغم من أن هذا هو إقناع جدا أمثلة مضادة، ولكن مجموعة مجرد تصل مضادة مثال على خوارزميات القائمة. وهذا هو، بعد إضافة خوارزمية تسوية، هذه المعاكسة من المرجح أن تكون لم تعد صالحة.

كيف كان فحص ما إذا كان التحسين وفصل البيانات الإحصائية ذلك؟

هذه الطريقة، بعد نموذج المنتظم للدالة الهدف، بغض النظر عن ما خوارزميات يمكن تحقيق نفس القدرة على التعميم، الذي يمكن أن يفسر تحسين وفصل البيانات الإحصائية.

وقال Mateng يو أنهم الآن قادرة على أن تثبت استخدام طريقة تنظيم واضح لاستبدال طريقة تنظيم الضمني، وإن لم يكن يغني تماما، لكنه يعتقد أن نسير في هذا الاتجاه.

ثالثا، لا يمكن أن نفهم عمق خوارزميات التعلم القائمة؟ ثم تصميم يمكن أن نفهم!

في لحظة والمعرفية العامة المجتمع AI، وآلية داخلية لا يمكن أن نفهم عمق التعلم، إلى مشكلة علمية في حد ذاته. وفي هذا الصدد، أشار Mateng يو إلى أن علوم الكمبيوتر التقليدية مع الفيزياء والبيولوجيا وغيرها والفرق هو أن العلم: يمكنك الاستمرار في تصميم خوارزميات جديدة.

محتويات البحث العلمي هي ظاهرة أكثر موضوعية (مثل الثقوب السوداء) حدث أو موجود في العالم، وفي علوم الكمبيوتر، يمكن أن الباحثين لم يدرسوا ما الشعر، ولكن إلى أي شيء الدراسة كنت ترغب في الدراسة.

ودعا وقال: ".. في حين أننا لا يمكن أن نفهم عمق خوارزميات التعلم القائمة، ولكن لا يمكننا أن نفهم فقط ولكن أيضا لضمان أننا تصميم خوارزمية جديدة فعالة اعتقد الباحثون في مجال البحث العلمي الكمبيوتر يمكن القيام به نهج أكثر نشاطا."

تقرير، ما Tengyu أيضا على أساس العمل الأخير الخاص، وتقاسم حتما مثال محددة لدراسة واضحة للتسوية، لى فنغ شبكة AI تقنية تعليق هنا نعلق محتوى الدكتور ما PPT: صافي صافي لى فنغ لى فنغ

تقارير لى فنغ شبكة AI تقنية الاستعراض.

ذكرى شهداء 16 شو بو ليو حلم: كما غنية مثل سحابة شو Zhiliang مع حملة للتبرع

عندما البث الصينية الحداد تصريحات غير لائق، علقت مراسل الفرنسي لمدة أسبوع واحد

مقاطعة بيشوي بمقاطعة شاندونغ، بدأت فرق أرسلت تنشيط حملة التعليم في المناطق الريفية، والمساعدة إنعاش الريف

عقدت مدينة ويفانغ "الطائرات الورقية إرسال الأفكار" حملة

الاندفاع المبادئ التوجيهية ماتيلدا الوقاية من الاوبئة الى فريق الانقاذ في البرازيل، وهي الخطوة التي استقل مجلة وسائل الاعلام الاجنبية

هل تعرف ما هي | لماذا المزيد من الشركات الصغيرة والمتوسطة أكثر وطلب الاستشارات الإدارية المهنية؟

المحتملين صناعة البطاريات في مختلف أنحاء العالم أسبوعي 22: 300 براءة اختراع! "بطارية بليد" BYD دعونا الأميال اختراق 500 كم

2019 النشطة صناعة العقارات في أشهر الماركات عشر - وان بي هنغ منخفضة رئيسيا رفيعة المستوى مبيعات قياسية المالي معركة تاج لشراء بدون توقف

وافتتح الكراهية! المديرين التنفيذيين مجد قصف الدخن 100 مليون بكسل. ويشير بيكسل جيدة أو سيئة إلا إذا كان مستوى، وهذا هو السهل جدا

350 مليون $ من عمليات الاستحواذ تفشل؟ ستقوم إنتل وقف تطوير NNP-T، مع التركيز على هافانا مختبرات

ZHONGZHI في المدينة! أفضل تكنولوجيا الطاقة الوقاية من الاوبئة والسيطرة وحرة ومفتوحة وباء حلال المشاكل

أريدكم أن تتناولوا وجبة جيدة في جميع الأوقات وأن تشيدوا بأجمل العاملين الطبيين