أستاذ جامعة بكين وانغ لى وى: الماضي والمستقبل من نظرية التعلم الآلي (أربعة)

شبكة لى فنغ [AI تقنية مراجعة] الصحافة: وفقا لجمعية الصينية البروفيسور وانغ لى وى الذكاء الاصطناعي في الفترة الثانية AIDL * ورشة عمل حول مقدمة الذكاء الاصطناعي من أحدث تعلم الآلة قدم تقرير صادر عن "نظرية التعلم الآلي: الماضي والمستقبل" تم تحريرها من شبكة لى فنغ قطع من دون تغيير بنية القاصر الأساس.

وانغ لى وى

وانغ لى وى، والتعلم الآلي في المجالات الرئيسية للأستاذ باحث في جامعة بكين. نشر أكثر من 60 بحثا علميا في مجلات محكمة، بما في ذلك COLT، خطط التنفيذ الوطنية، JMLR، PAMI وغيرها من الاجتماعات. وقد تم اختيار لمنظمة العفو الدولية 10 لووتش 2010، وكان أول من يحصل على هذه الجائزة من العلماء الآسيوية. كان عام 2012 أول مؤسسة العلوم الطبيعية الوطنية لصندوق الشباب المتميز، القرن الجديد المواهب ممتازة. يستأصل أي مؤتمر رسمي الآخرين منطقة الرئاسة، وعدد من المجلات الأكاديمية هيئة التحرير. ما يلي هو خطاب في الموقع، والبروفيسور وانغ لى وى الجزء الرابع، وتغطي رأسها إدخال حسابي الاستقرار.

| خوارزمية الاستقرار

ثم نتحدث عن ثلث نظرية التعلم أكثر أهمية، ودعا حسابي الاستقرار (الاستقرار الخوارزمية).

أي استقرار الخوارزمية؟

تحدثنا فقط عن تطور نظرية التعلم الآلي، ومنذ البداية تقريبا لا يهتمون الخوارزمية، ننظر فقط إلى تعقيد النموذج، ببطء إلى الهامش، في الواقع والخوارزميات، في حين حسابي الاستقرار في الواقع، هو لمناقشة طبيعة الخوارزمية، الخوارزمية I ما لدينا بالضبط نوع من الميزات، مما يؤدي إلى أن يكون لدينا تعميم الخير.

حسابي الاستقرار ما هو عليه؟ ونحن لا تزال تنظر في نقطة أكثر الكلي للعرض، نعود في وقت لاحق لمعرفة التفاصيل الخاصة بهم. باختصار، ما هي خوارزمية مستقرة؟ في جوهرها هو أن أقول، عندما الخوارزمية باستخدام مجموعة التدريب البيانات يمكن تدريب نتيجة لذلك، إذا كان لي مجموعة التدريب البيانات لديها 10000 البيانات، أضع 9999 تظل دون تغيير، ووضعها في بيانات سوف جديد، ثم هذا الوقت كنت خارجا من التعلم المدرسي تصنيف خوارزمية يكن تغييرا كبيرا؟ إذا لم يكن هناك تغيير كبير، ثم خوارزمية التعلم هي مستقرة. إذا كان هناك تغيير كبير، ونحن نقول أن الخوارزمية ليست مستقرة.

حسابي الاستقرار، حتى من جهة النظر الكمية هو توصيف التالية من العلاقة: عند استبدال واحدة من بيانات التدريب، فإن النتائج خوارزمية خارج المدرسة يكون هناك تغيير كبير.

خوارزميات مستقرة لديها القدرة تعميم أفضل

ونحن نرى أنه من خوارزميات أكثر استقرارا لديها القدرة تعميم أفضل، أو لا تقول خوارزمية مستقرة لديها قدرة أفضل التعميم؟ النظر بشكل حدسي، على ما يبدو خوارزمية مستقرة لديها قدرة التعميم جيدة.

كما أغتنم البداية، "قانون هوك" لتوضيح. إذا كان هو النموذج الخطي، واستبدال بيانات التدريب، في الواقع، هذا الخط لن تتغير بشكل ملحوظ، إذا كان لدي 100 البيانات، مع متعدد الحدود 99-لكي تتطابق مع البيانات 100، إذا استبدال هذه البيانات 100 أعتقد أن النظام 99 تغييرات كبيرة جديدة قد تحدث متعدد الحدود. لكي يتمكن الجميع من منظور جديد، وهو توصيف استقرار الخوارزمية.

نظرية الاستقرار الخوارزمية وصفا كميا جدا: إذا كان لي أن الخوارزمية أي نوع من درجة من الاستقرار، ثم خوارزمية سوف تكون قادرة على توليد مجموعة من أي نوع من التوصيف و، فإننا سوف تكون قادرة على إعطاء وصف دقيق للمجال الرياضيات، توصيف الكمي. محتوى معين، والقفز فوق.

SVM وSGD، وكيفية استقرار الخوارزمية؟

قبل أن أتحدث عن هذا الاستقرار خوارزمية جديدة نسبيا، للحديث عن بعض الخوارزميات التقليدية جدا، وهناك بعض الاستقرار جيدة جدا.

على سبيل المثال، SVM الاستقرار جيدة. SVM يمكن ان يثبت رياضيا، الذي حل محل بيانات التدريب إذا، في الواقع، فإن النتائج التي تحصل عادة ما تكون التغييرات هي صغيرة نسبيا، هو 1 / مستوى n، ن هو مقدار البيانات. إذا قمت بتغيير البيانات فقط 1 / التغييرات مستوى n، لذلك هو الاستقرار جيدة الخوارزمية. أي نوع من الاستقرار خوارزمية جيدة جدا؟ على سبيل المثال، في السابق كان قد دعا خوارزمية شجرة القرار (قرار شجرة)، استبدال إذا كان أحد البيانات، فمن الممكن لتغيير شجرة القرارات وفقدت تماما.

لذا من هذه الخوارزمية نقول مرة أخرى على طريقة الأكثر شيوعا اليوم. اليوم، لدينا الكثير من الناس مع التعلم العميق (ديب التعلم)، وعمق من تدريب لتعلم، وأنت أي نوع من التدريب خوارزمية ديب التعلم في ذلك؟ أكثر طريقة شائعة لSGD (العشوائية التدرج النسب). علينا أن نسأل لكم، SGD بالضبط هذه الخوارزمية هي خوارزمية مستقر أو مستقر الخوارزمية؟ حدسي كنت تعتقد لأول مرة عن، أصل التدرج (GD) تسعى التدرج الحالي، يسير خطوة صغيرة في الاتجاه من أصل التدرج. منذ كنت التسول GD الصعب، لذلك نحن نبدأ من نقطة عشوائية للعرض، تسعى للحصول على التدرج من نقطة بيانات معينة، وهذا هو SGD.

SGD هذه الخوارزمية لا يوجد استقرار ذلك؟ هذا هو نتيجة من العام الماضي 2016 (أعلاه)، SGD خوارزمية لديها استقرار معين، إذا كنت تستخدم SGD استقراره هو جيد جدا على دالة محدبة. عادة نعلم جميعا، وفقدان وظيفة غير محدب من عمق التعلم، والتي ما زالت تثبت SGD هو استقرار معين، على الرغم من الناحية النظرية قد بعد إثبات أنه ليس لديها استقرار عالية جدا، ولكن يمكن أن يكون لها الاستقرار جيدة، في واقع الامر ليست مستقرة؟ أعتقد إذا كان المعلم يقوم به البحث، يمكن للطلاب يعتقدون فعلا عن هذا السؤال، إذا كنت تفعل هذا التعلم العميق هو المزيد من النتائج الهامة.

خوارزمية التعلم العمق

التالي يمكننا تلخيص لفترة وجيزة خوارزميات التعلم عميقة. الناس تفعل الكثير من تطبيقات التعلم عميقة سوف تجد نظرية التعلم آلة التقليدية لا يمكن أن يفسر نجاح التعلم العميق اليوم، لأن التعلم اليوم العميق في نواح كثيرة مع الجهاز التقليدية نظرية التعلم يبدو أن متناقضة.

أنا، على سبيل المثال، اليوم نستخدم هذه الدراسة عمق الشبكة، VC البعد لها هو كم؟ يمكن أن تثبت رياضيا، إذا كانت الشبكة مرتبطة تماما، VC البعد لها أساسا انها عدد من المسلسلات، ولكن اليوم نحن نستخدم الشبكة، وعدد وعادة ما جمعت بيانات التدريب جهدنا لأمر من حجم، وعدد من سلسلة أننا عدد المعلمات، وذلك في الواقع نحن في نوع من نموذج وسيطة لمعرفة ذلك؟ في VC البعد حوالي 10 أضعاف مساحة للبيانات التدريب للقيام بذلك معنا ذكر من قبل، كنت تفعل بيانات التدريب 10 مرات في غضون VC البعد، ليست هي نفسها. في حالة VC البعد تدريب البيانات 10 مرات، إذا كنت تستخدم الخطأ التدريب تقليل مثل خوارزمية بسيطة، ونحن لا يمكن أن نأمل في الحصول على أي نتائج جيدة. لذلك من وجهة نظري الشخصية، هو كان على عمق التعلم قادرا على نموذج 10 أضعاف المبلغ من تعقيد البيانات في الدراسة وتكون ناجحة، وتعتمد اعتمادا كبيرا على خوارزمية SGD في VC البعد.

إذا كنت تصميم خوارزمية الأمثل، وأنا سوف أعطيك البيانات، مما يتيح لك عدد من المعلمات من أجل مقدار التدريب شبكة البيانات 10 مرات، وتجد حلا الأمثل العالمي، استطيع ان اقول بمسؤولية لكم ان النتائج النهائية يجب أن يكون الفقراء. لذلك علينا أن نتعلم عمق اليوم أعتقد أنها كانت قادرة على القيام، على وجه التحديد لأنها الحل الأمثل لا العالمي، إذا كان يمكن العثور عليها، ويتم تقسيم هذا الأداء، أو يجب أن يتم استبدال شبكات أصغر قد وجدت. حتى ألهم SGD خوارزمية الجميع هو أنه، لو كان يتحدث من وجهة نظر ابحاثا، لا توجد وسيلة أفضل لقاء يتحدث أمام؟

يمكن أن أتحدث قليلا جنبا إلى جنب بشكل وثيق مع جوانب التطبيق. إذا كان هناك تجربة التعلم عمق المعلم في هذه التجربة، والطلاب، لا يعرفون كيفية القيام بذلك، على أي حال، فإن تجربة بعض طلابي هو: من دون شك، وعمق من التدريب لمعرفة الأكثر صعوبة، وغالبا ما يحدث هذه الظاهرة التالية في واحد أو أكثر.

أولا، على تركيب. أنا والتدريب، والتدريب الخطأ انخفض بسرعة، ولكن أظهر اختبار وجود فرق كبير في مجموعة بيانات الاختبار ومجموعة بيانات التدريب، ما هي أسباب ذلك؟ منذ عمق التعلم وعادة ما يكون شبكة أو نموذج معقد جدا، لذلك عندما تجد نقطة منخفضة جدا من خسارة التدريب لنموذج كامل، أو أن هذا المسار تذهب SGD التي، في الواقع، واستقرار الخوارزمية بمعنى ما من احتمال، قد تذهب السيئة هذا الوقت، ولم تتخذ جيدة، في الواقع، والاستقرار لا وجود لها، وهذا هو الظاهرة الأولى. في التعلم العميق اليوم، والإفراط في تركيب هو ظاهرة شائعة جدا.
ثانيا، مسألة فقدان التدريب. أنت فقط لا تدريب لأسفل فترة طويلة، وهو ما أسباب ذلك؟ شخصيا، أعتقد أن هذا هو السبب، SGD لأنه هو عشوائي، فإنه لم يتم العثور على الخسارة، يمكن تخفيضها إلى نقطة مقبولة، على سبيل المثال، في منطقة مسطحة جدا على البطاقة في هناك، هل ترى الكثير من التعلم العميق وقدم الباحثون التطبيقات، مثل Bengio، والكثير من هذه التقارير، وغالبا مدربين لم يسقط، لأنه قد يكون عالقا في منطقة مسطحة للغاية، حيث مناطق واسعة من فقدان التدريب الخاص بك تغيير يذكر، هذا الاستنتاج ليس حقا؟ لا أعتقد ذلك بالضرورة على صواب تماما، ما زلنا بحاجة إلى مزيد من البحث.
هناك ظواهر أخرى، مثل نتائج التدريب التي تم الحصول عليها من قبل مختلف المعلمات شديدة ومختلفة جدا، ونحن نعلم جميعا أن هناك العديد من المعلمات التعلم فائقة عميقة ستعمل لحن لك هذا العدد ليس هو نفسه، ونتائج التدريب مختلفة تماما، لذلك يمكن أن تكون هذه من مستوى الدراسة النظرية للدراسة، والبحث ليس فقط، ولكن نأمل أيضا أن تكون قادرة على توجيه كل المستقبل للجميع، هو كيف يمكنني تصميم خوارزمية، للوصول إلى غرض جيدة في نهاية المطاف. إذا من جهة نظر أكاديمية، وهذا ينبغي أيضا أن يكون قيمتها السؤال استكشاف، من جهة نظر الطلب، لتحسين كفاءة التدريب لدينا هو قيمة للغاية.

وكما تعلمون، إذا كنت تريد أن تفعل التعلم العميق من الباحثين من ذوي الخبرة، وشخص بدأت للتو، لنفس المشكلة، حتى إذا كنت تحصل على نفس الرمز، في الواقع، كنت أريد أن أصل الكلمة نفس النتيجة، فإنه يأخذ الفارق الزمني ضخمة، وبالتالي فإن هذه المناطق تستحق بعض القضايا استكشافها في العمق.

حول SGD الاستقرار خوارزمية وخوارزميات محددة، لماذا لها الاستقرار، وأعتقد أن الرياضيات لا يتحدث كثيرا، ويمكن أن نفكر مرة أخرى. SGD الآن هناك العديد من خوارزميات التحسين المختلفة، لا يمكنك الذهاب للتفكير في الامر من حيث استقرار الخوارزمية، والتي عدة أساليب مختلفة من الاستقرار الذي أفضل، من هو أسوأ من ذلك؟

في الواقع، وأعتقد أن الفارق ضئيل، إذا كان لديك فهم هذه، لا يمكن القول إن مساعدة مباشرة على حل المشكلة، ولكنها سوف تساعدك على تسريع سرعة التدريب، يصبح محقق خبرة كبيرة. وتحدث هناك أمام التسرب، ومناقشة ذلك من وجهة نظر الاستقرار، فإنه يمكن أن تعمل من أجل تعميم؟ ممكن في الواقع، من الممكن تماما بالنسبة لنا من عدة زوايا مختلفة للنظر في هذه القضية.

| بعض المناقشات حول عمق خوارزمية التعلم

وأخيرا، تحدث الكثير من الناس يتحدثون عن الأكاديميين، وخاصة في التعلم العميق للمجتمع الأكاديمي، ونحن نعرف كل شيء عن عمق التعلم لديهم ثلاثة من معظم الباحثين تأثيرا، هينتون، LeCun وBengio، والآن تدرس أيضا ما يسمى التعلم العميق فقدان السطح . وبعبارة أخرى، فإن هدفنا هو تحسين شبكة التعلم، الشبكة التي هي في الواقع في عملية محاولة لتقليل الخسائر التعلم، ثم يمكننا وضع هذه الوظيفة الخسارة، بطبيعة الحال، وظائف جدا جدا عالية الأبعاد (كم كنت المعلمة، وظيفة هو العدد)، وأنا لا يمكن تحليل هذا الفضاء عالية الأبعاد في بلدي وظيفة الخسارة في نظرة نهاية مثل؟

هناك الكثير من الناس لكتابة أوراق لإثبات فقدان السطح إلى عمق الشبكة لا الدنيا المحلية سيئة، مثل واحد العام الماضي يستأصل ورقة عن طريق الفم. لكننا لا سيما إجراء البحوث أعتقد، في الواقع، يجب أن تكون قادرا على فهم قليلا التفكير، فمن المستحيل بكل بساطة، على ما يبدو الاستنتاج غير صحيح.

مثال بسيط جدا: أنت الأكثر استفادة من الشبكة، وعدد من الداخل كامل المساحة كبيرة جدا، لأن الشبكة لديها التماثل عالية. على سبيل المثال، لدي شبكة من هذا القبيل، وأنا معلمة الإعدادات الأمثل، وأنا لا مجرد التقليب من هذه المعلمات (التقليب)، هو الأفضل، مع وظيفة غير محدب من هذا النوع، وجود الدنيا المحلية. لذلك المحتوى فقدان سطح يمكن أن يكون هناك الكثير من البحوث، وليس ذلك بسيط الآن تخيل.

لذا، إذا كنت ترغب في إجراء البحوث لتطوير أساليب جديدة، تحدثنا عنه في وقت سابق، وتشهد الآن المشكلة هي لمنع أكثر من المناسب، هناك الوضع يأتي إلى مكان حيث لا تقع الشقة، هل واجهتم مكان مثل هذا كيف خرجت في أقرب وقت ممكن، وتكون قادرة على السماح لها قطرة.

هذا من وجهة نظر الاستقرار في خوارزمية إدخال شخصيا، أعتقد عند نقطة ما يمكن أن تذهب إلى الدراسة، وعمق التعلم والتعميم، والتعلم الآلي، نقطة مثيرة للاهتمام التي يمكن دراستها.

وخلاصة القول، أعتقد أننا يجب أن أعترف بصراحة أن نظرية التعلم لدينا حتى الآن لا يوجد تفسير جيد لعمق التعلم، في الماضي نظرية VC، الهامش النظرية، فضلا عن استقرار الخوارزمية على ما يرام، وهكذا لا يمكن أن تفسر على الرغم من أن الاستقرار خوارزمية أعتقد أن جزءا من التفسير، ولكن الموقف يجب أن نأخذ، على الأقل من وجهة نظري، هو لا يعني أن نظرية التعلم لا معنى له، وأعتقد أنه من معنى، يجب أن تنتقل إلى من خلال أكثر تعمقا والبحوث في المستقبل تساعدنا على تحسين توليد البصيرة، تصميم خوارزمية تعلم أفضل، وربما في يوم من الأيام، قد لا يكون التعلم العميق أفضل وسيلة، أو حتى القضاء عليها، وأعتقد أن هذا أمر ممكن تماما، ولكن سيكون هناك طريقة جديدة وأفضل.

I تقرير عن هنا. شكرا لك!

تقرير حول موضوع البروفيسور وانغ وأساتذة آخرين، لا تنزعج تقارير المتابعة لى فنغ الشبكة.

طريق الحرير

أستاذ جامعة بكين وانغ لى وى: الماضي والمستقبل من نظرية التعلم الآلي (أربعة)

| خوارزمية الاستقرار

أي استقرار الخوارزمية؟

خوارزميات مستقرة لديها القدرة تعميم أفضل

SVM وSGD، وكيفية استقرار الخوارزمية؟

خوارزمية التعلم العمق

| بعض المناقشات حول عمق خوارزمية التعلم

التقاط القمامة يجب أن ترتدي الملابس ذات الماركات الشهيرة، وأنها تأتي من الأحياء الفقيرة في أفريقيا ......

MEIZU لا انتزاع 16، MEIZU الفصل الأصفر على 16S تعرضت لها: قد تفرج العام المقبل

كل واحد منهم مذهلة خلفية مدار الساعة، وجعل جهاز الكمبيوتر الخاص بك نظرة أفضل | ديك دودج

هذا البرنامج سامة! رؤية ابتسامة مرة واحدة! "متر التشويه" في قطعة اليد

أول الثدي في العالم: إذا كنت لا عارية ويخجل، ولا كما مثير وآسف

لاول مرة الصين السوبر في معرض جنيف للسيارات: في الدقيقة تكنولوجيا توربينات الغاز، مائة ميل في الساعة 2.5 ثانية التحمل 2000 كم

لعبة مايكروسوفت E3 ملخص كامل: الفقرة 50 "العملاقة الصعبة" يتحول تحفة المقلية المجال، والتي معظم الألعاب تستحق الشراء؟

عندما خرج عن مساره النجم زوجاتهم يخرج لصالحه، الحب أو مصالح من اللعبة؟

بعد مشاهدة هذا قصة شبح، بكيت مثل كلب ......

Evoland 2: تاريخ من أكثر الألعاب الكلاسيكية جمع للعب هذه واحدة تكفي

لعبة إكس بوكس خصم هذا الأسبوع: لا يخرج من "ديابلو 3" على نسخة كاملة منه

كوالكوم شياو 855 مادة جديدة: أنه لا يدعم 5G، بالإضافة إلى النوى NPU جديدة

فينوس النار ثلاثية الكراهية: الخبث الذكور في كل عام، لا سيما هذا العام، موجة بعد موجة!

مايكروسوفت وجوجل خوض حرب طويلة الأمد لفتح الأمازون سحابة يمكن أن تستمر هيمنة؟

فاز إباحي، السجن، عندما يكون هذا ثلاثة صغيرة ...... 3 مليارات دولار من الناس الأرستقراطية خائفة شريط سقوط ......

هل هاتين الخطوتين، دعونا دائرة الرقابة الداخلية ميزة كلمة المرور ملء السهل أن تطير | ديك دودج

مثيرة للضحك! المشاركة هوانغ جينغ يو شين تنغ في البرنامج، مسرح الكوميديا التفاعلية في لفة

لعبة نينتندو E3 ملخص كامل: "ليلة القلعة" سقط التبديل، وكذلك مفاجأة لك أن تعرف

9.0 الجرجير، وبعد قراءة هذا المقال وأنا أضحك إلى المتخلفين عقليا

رجل حقيقي! أجنبي المطار إهانة الصين، سون جيان الاستبداد توقف

أستاذ جامعة بكين وانغ لى وى: الماضي والمستقبل من نظرية التعلم الآلي (ج)

618 عاما لتعزيز مثل هذا الشراء، توفير كل دقيقة "مائة مليون و!" | العمل الرائع

| خوارزمية الاستقرار

أي استقرار الخوارزمية؟

خوارزميات مستقرة لديها القدرة تعميم أفضل

SVM وSGD، وكيفية استقرار الخوارزمية؟

خوارزمية التعلم العمق

| بعض المناقشات حول عمق خوارزمية التعلم

الأحكام ذات الصلة