"Bengio مقابل جوجل" التعلم العميق مبارزة الأخوية، الشبكة العصبية طبيعة المعمم للنزاع

1 جديد الأصلي جي وون

مختبر Bengio نشرت مؤخرا ورقة، وهذا الورق يكون موضوعا لندوة ICLR 2017:

"الشبكة العميقة لا يتعلمون من خلال الذاكرة."

لماذا أقول هذا ورقة اليوم؟

بسبب وجهات نظره وغيرها من ورقة ICLR واحد، مع الدماغ جوجل السابق "لفهم عمق التعلم ضرورة تعميم إعادة التفكير" تضارب . تلك الورقة التي Chiyuan تشانغ MIT هو أول مؤلف، وشارك في تأليف دانيال بينهم أسماء مثل جوجل الدماغ سامي Bengio (نعم، انه هو، ونحن غالبا ما نقول شقيق Bengio، ورئيس الرقم إلى اليسار منه قليلا - الشكل كنت لا أعتقد أن اثنين منهم الإخوة)، وقبل الدماغ جوجل في العمل، والآن هو DeepMind الباحث أوريول Vinyals؟

ومن الجدير بالذكر أن "عمق التعلم لفهم الحاجة إلى إعادة النظر في التعميم" بعد مقال نشر في المجتمع الأكاديمي أثار نقاشا والاهتمام حية - وفقا للمناقشة على تويتر، ورقة ICLR يسجل جدا عالية.

يشار شخص باسم "ملزمة لتخريب فهمنا لعمق التعلم"، والمقالة.

في "إعادة النظر في التعميم" تلك المادة، وجد الباحثون من خلال التجارب:

قدرة فعالة للالعصبية ذاكرة شبكة العنيف مجموعة البيانات بالكامل هي كبيرة بما فيه الكفاية.

حتى لو كان الأمثل هو سمة العشوائية، وهذه العملية هي أيضا من السهل جدا. في الواقع، مقارنة مع التسمية الحقيقية للتدريب، زادت العلامة عشوائية وقت التدريب التي كتبها مجرد عامل ثابت صغير.

التسميات كلها سمات أخرى للمشكلة هو مجرد تحويل البيانات بشكل عشوائي، والشبكة العصبية لمعرفة نفسه.

في الواقع، يدخل مؤلف اثنين من التعريفات الجديدة - على "الصريح" و "ضمني" تسوية لمناقشة عمق التعلم. الآن، لهذين تسوية، Bengio يعرض ورقة المختبر بالضبط النقطة عكس الرأي.

اثنين من الورق الثقيل، سواء كانت صحيحة أو خاطئة - أو، ما هو السبب الحقيقي لعمق الشبكة العصبية هو تعميم قوية؟

بداية دعونا مع معهد ماساتشوستس للتكنولوجيا، وجوجل الدماغ والتعاون DeepMind "لفهم عمق الحاجة إلى إعادة التفكير في تعميم الشبكة العصبية" يبدو.

جوجل الورق الثقيل: فهم عمق التعلم، والحاجة إلى إعادة النظر في مشكلة التعميم

ملخص

وعلى الرغم من حجم كبير، وعمق من نجاح الشبكات العصبية الاصطناعية في الأداء بين التدريب والاختبار قد يظهر الفارق ضئيل جدا. على مدى السنوات عموما أن يعزى إلى خطأ التعميم صغير، سواء خصائص سلالة نموذج أو للتدريب التقني العادي في استخدام المصطلحات.

من خلال نظام تجريبي واسع النطاق، ونحن لشرح الأساليب التقليدية لا يمكن أن يفسر لماذا أداء تعميم الخير الشبكة العصبية على نطاق واسع في الممارسة العملية. على وجه التحديد، وتبين تجاربنا أن أسلوب التدرج العشوائية من التدريب، والشبكة الأكثر تقدما للالتفاف تصنيف الصور من علامات عشوائية بسهولة تناسب بيانات التدريب. طبيعة هذه الظاهرة ليست واضحة نفوذ تنظيم، حتى لو كنا استبدال الصورة الحقيقية عن الضوضاء عشوائي غير منظم تماما، يحدث الظاهرة أيضا. نحن نستخدم أكد هيكل نظري هذه النتائج التجريبية تشير إلى أن عدد من نقاط البيانات هو ممارسة شائعة طالما أن عدد المعلمات يفوق عمق 2 بسيطة الشبكة العصبية لديها بالفعل تعبير مثالي عن معدل عينة محدود (محدود عينة التعبيرية).

نفسر وتمت مقارنة النتائج التجريبية لدينا مع النموذج التقليدي.

1. نظرة عامة

الشبكات العصبية الاصطناعية وعادة ما يكون على عمق أكثر بكثير من عدد العينات التي هي قابلة للتدريب المعلمات نموذج مدربة. وعلى الرغم من الاختلافات، وبعض من هذه النماذج لا تزال تظهر يتم إنشاء خطأ صغير جدا، و"خطأ التدريب" و "خطأ اختبار" بينهما. في نفس الوقت، والحصول على سيئة نموذج تعميم الطبيعي العمارة هي بالتأكيد من السهل جدا. لذا، ما السبب في اختلاف بين الخير وتعميم سيئة؟ والإجابة على هذا السؤال ليس فقط يساعد على جعل الشبكات العصبية أسهل للفهم، ولكن أيضا المبادئ التوجيهية أكثر ثراء وأكثر موثوقية الهندسة المعمارية نموذج.

للإجابة على هذا السؤال، ونظرية التعلم الإحصائية لديها عدد من المقاييس تعقيد مختلفة (التدابير تعقيد) يمكن التحكم يقترح الخطأ التعميم. بما في ذلك VC البعد (Vapnik، 1998)، RADEMACHER التعقيد (بارتليت ومندلسون، 2003)، والاستقرار موحد (موخرجي وآخرون، 2002؛. & بوسك Elisseeff، 2002؛ بوجيو وآخرون، 2004.). وبالإضافة إلى ذلك، عند عدد كبير من المعلمات، وتقترح النظرية أن بعض شكل من أشكال التنظيم لضمان أن الخطأ التعميم صغير. إذا كان الوضع مع وقف مبكر لتسوية يمكن أيضا أن تكون ضمنية.

مساهمتنا

في هذا العمل، من خلال إظهار أنه لا يمكن التمييز بين الشبكة العصبية لديه خصائص مختلفة تماما من التعميم، فإننا نتساءل عن الفهم التقليدي للتعميم.

الاختبار العشوائي. جوهر النهج الذي نتبعه هو معروف الاختبارات الإحصائية اللامعلمية من المتغيرات العشوائية (Edgington وOnghena، 2007). في المجموعة الاولى من التجارب، ونحن تدريب عدد من العمارة القياسية في نسخة من البيانات، والذي هو البديل الحقيقي لكلمة دلالية تسميات عشوائية. ويمكن تلخيص اكتشاف الأساسية لدينا على النحو التالي:

DNN من السهل لتناسب تسمية عشوائية.

وبشكل أكثر تحديدا، عندما علم البيانات الحقيقية عشوائي تماما لتدريب الخطأ تدريب الشبكة العصبية 0. بالطبع، ليست أفضل من اختبار عشوائي احتمال الخطأ، لأنه لا يوجد ارتباط بين التدريب والاختبار العلامة تسميات. وبعبارة أخرى، من خلال تسمية العشوائية بشكل منفصل، يمكننا إجبار تحسين نموذج التعميم إلى حد كبير، دون تغيير النموذج، وحجم، معلمة أو محسن. أكدنا هذه الحقيقة في العديد من العمارة القياسية المختلفة في CIFAR10 وImageNet التدريب القياسية التصنيف. باختصار، من الناحية الإحصائية للتعلم، هذه الملاحظة لها تأثير عميق:

قدرة فعالة للذاكرة الشبكة العصبية من كامل قوة مجموعة البيانات هي كبيرة بما فيه الكفاية.

حتى لو العلامة عشوائي الأمثل هو لا يزال من السهل. في الواقع، مقارنة مع التسمية الحقيقية للتدريب، ووقت التدريب ويضيف سوى عامل ثابت الصغيرة؛

العشوائية علامة تحويل البيانات هي مجرد طبيعة كل المشاكل التعليمية الأخرى لم تتغير.

في هذه المجموعة الأولى من التجارب، ونحن قد حلت محل الصورة الحقيقية مع بكسل عشوائي تماما (مثل التمويه الضوضاء)، ولوحظ أن يستمر لتتناسب مع بيانات التدريب الشبكة العصبية التلافيف مع الخطأ صفر. وهذا يشير إلى أنه مهما هيكل، والالتواء شبكتهم العصبية يمكن أن يصلح الضجيج العشوائي. نحن العشوائية مزيد من مقدار التغير بسلاسة بين مجانا الضجيج المضافة والكامل من الضوضاء. هذا أدى إلى سلسلة من مشاكل في التعلم وسيطة، درجة ما من إشارة لا تزال موجودة في التسمية. مع تحسن مستوى الضوضاء، لاحظنا تدهور مستمر من الخطأ التعميم. هذا يدل على أن الشبكة العصبية يمكن التقاط إشارة البيانات المتبقية، في حين تستخدم قوي الجزء المناسب الضوضاء.

وسوف نناقش في مزيد من التفاصيل أدناه كيفية استبعاد هذه الملاحظات جميع الأبعاد VC، قد يفسر RADEMACHER التعقيد واستقرار هذه الأداء تعميم موحد القائمة الشبكات العصبية.

تأثير تنظيم واضح. إذا كانت بنية النموذج نفسه ليست تسوية مصفوفة كافية، فإنه لا يزال قادرا على إظهار تسوية صريح مفيدة إلى أي مدى. علينا أن نبرهن، تنظيم شكل واضح، مثل تخفيض الوزن، وفقدان البيانات وزيادة، لا يمكن أن يفسر تماما الشبكة العصبية خطأ التعميم. وبعبارة أخرى:

يمكن تحسين الأداء واضح تعميم تسوية، ولكن ليس ضروريا ولا كافيا لخطأ سيطرة التعميم.

التعبير محدودة معدل عينة. نحن تكمل النتائج النظرية لدينا مع تظهر الملاحظات التجريبية أن الشبكة العصبية العامة على نطاق واسع يمكن أن تمثل أي علامة على بيانات التدريب. أكثر رسميا، علينا أن نظهر شبكة ReLU مزدوجة بسيطة جدا، حيث ع = 2N + د المعلمة، د يمكن أن تمثل أي حجم في أي ن البعد من العينات المسمى. قبل هذا ال آخرون ليفني. (2014) استخدام العديد من المعلمات، أي، O (DN)، لتحقيق نتائج مماثلة. على الرغم من أن لدينا عمق الشبكة 2 له حتما عرض كبيرة، ولكن لا نزال قادرين على الحصول على شبكة عمق ك، حيث كل طبقة لها سوى O (ن / ك) المعلمات.

وعلى الرغم من التعبير السابق للمجموعة نتيجة في الشبكة العصبية يمكن أن تلعب دورا ما في المجال بأكمله، وهذه المرة ونحن نركز على معدل عينة محدود والتعبير المتصلة بالشبكات العصبية. فهم تأثير قبل التوالي على وظيفة الفضاء طبقة عمق مقابل (Delalleau وBengio، عام 2011؛ الدان وشامير، 2016، Telgarsky، 2016؛ كوهين وShashua، 2016)، تظهر نتائجنا أن عمق حتى 2 شبكة الخطية حجم تمثل بالفعل بيانات التدريب أي تسمية.

دور تنظيم الضمني. وعلى الرغم من واضحة وظيفة تنظيم (مثل التسرب والوزن الاضمحلال) لتعميم قد لا يكون ضروريا، ولكن بالتأكيد ليس كل من نماذج تناسب بيانات التدريب وتعميم الخير. في الواقع، في الشبكة العصبية، ونحن دائما تقريبا اختيار نموذج لدينا وانتاج العشوائية المدى التدرج النسب. اللجوء إلى النموذج الخطي، نقوم بتحليل كيف SGD باعتبارها وظيفة تنظيم ضمنية. لالنموذج الخطي، SGD تتلاقى دائما إلى حل وجود قاعدة صغيرة. ولذلك، فإن الخوارزمية نفسها تنظيم اجتثاث ضمنا. في الواقع، لقد قال ذلك، لمجموعات البيانات الصغيرة، حتى لو لم النظامي على طريقة نواة جاوس أيضا يمكن أن يكون التعميم جيدة. ورغم أن هذا لا يفسر لماذا بعض الهندسة المعمارية تعميم أفضل من أبنية أخرى، لكنها لا تشير إلى أن هناك حاجة إلى مزيد من البحوث لفهم ما ورثت من النموذج باستخدام SGD تدريب في الممتلكات نعم.

2. وفيما يتعلق بحجة

الخلفية الضرورية:

Ademacher التعقيد: المقاييس تعقيد الفرضية استنادا إلى مجموعة البيانات H (X_1 ... X_n). في المتوسط، وفرصة لتولي هذه الفئة مقياس تعقيد H تناسب كافة العلامات المحتملة في البيانات. في قسم التوزيع العشوائي أدناه، سوف نستخدم هذا complextiy إثبات كافية لشرح مدى تعقيد هذا النموذج على نطاق واسع للنجاح.

التوحيد والاستقرار: مقياس لحساسية نموذج معين من عرض بديل واحد من عينات البيانات. ومن المهم أن نلاحظ أن هذا هو فقط خصائص النموذج، وليس ملكا للبيانات نفسها.

العشوائية:

المفهوم الأول هو "صالح استرخاء DNN التسمية عشوائية". في الأساس، يمكننا أن نجعل أي مجموعة من المدخلات والمخرجات لتناسب أي مجموعة، وتدريب لتحقيق 0 أخطاء. وهذا يسمح لنا أن نستنتج أن بما فيه الكفاية DNN كبير يمكن ببساطة استخدام الذاكرة العنف لاحتواء البيانات.

حتى مع مستويات مختلفة من العشوائية في البيانات، يمكن للنموذج ندخلها. مع زيادة كمية الضجيج في عشوائية، التعميم (خطأ اختبار - خطأ التدريب) يبدأ في الزيادة. يعني ذلك أن النموذج هو التعلم لتحديد ما ينبغي الإبقاء على الإشارات في البيانات واستخدام الذاكرة لتتناسب مع الضوضاء.

نحن نستخدم البيانات لاختبار مستويات عدة من العشوائية، وشبكة دائما تناسب تماما أثناء التدريب. ومع ذلك، والمزيد من الإدراج عشوائي، تأخذ دالة الهدف وقتا أطول. ويرجع ذلك أساسا إلى النتائج الخطأ مرة أخرى، نشر كبيرة في التحديث المعلمة التدرج من الكتلة.

الشكل 1: CIFAR10 المناسب على العشوائية وعشوائية علامة بكسل. (A) يظهر خسارة التدريب ضمن إعدادات التجريبية المختلفة حيث خطوة التدريب مع تدهور؛ (ب) يظهر المقابلة الساعة تقارب مختلفة نسبة الفساد التسمية، (C) يظهر الخطأ اختبار في الفساد تسمية مختلفة (ل خطأ التدريب 0، لذلك هذا هو أيضا خطأ التعميم)

في هذه التجارب نقطة هو أن نلاحظ أن هذا هو مجرد تغيير البيانات. كما المستخدمة هنا، هذه التجربة العشوائية لاستبعاد الأسباب المحتملة لنجاح التعميم، مثل RADEMACHER التعقيد والاستقرار موحد.

يمكننا استبعاد المقاييس التعقيد، مثل RADEMACHER، لأن لدينا نموذج يصلح تماما بيانات التدريب (وبالتالي، R (H) = 1). لم يعد بإمكاننا استخدام التقارب موحدة من الحدود كسبب لشرح الخطأ التعميم منخفضة. ونحن لا يمكن استخدام مقاييس الاستقرار، لأن هذا التغيير هو للبيانات بدلا من أي معالم النموذج.

تنظيم:

والمفهوم الثاني هو "يمكن تحسين أداء صريح تنظيم التعميم، ولكن ليس ضروريا ولا كافيا للسيطرة على خطأ التعميم." ل هذه المادة سوف تسوية تقنية تساعد على ضبط المعلمات تلخيصها على النحو التعميم، ولكن للاختبار منخفضة الأخطاء غير مطلوب. وهناك طريقة جيدة للتفكير في دور التنظيم أن تنظر في الفضاء فرضية بأكمله. باستخدام regulizer، ونحن أساسا سوف الفضاء فرضية المرجح أن مجموعة فرعية أصغر.

هذه الورقة محاولات لثلاثة أنواع من تنظيم واضح: زيادة البيانات، الوزن الاضمحلال والتسرب. ووجد الباحثون، وزيادة البيانات والوزن تسوس يساعد على الحد من اختبار خطأ، ولكن حتى من دون استخدام هذا النموذج هو لا يزال قادرا على تعميم جيد. (ملاحظة: مقارنة مع اضمحلال الوزن، ووجد زيادة البيانات أن تكون مفيدة جدا، وهذا هو القول، والبيانات هي أفضل regularizer).

ويبين الجدول 2 أداء كل الحقيقي التسمية Imagenet الوجه والتسمية عشوائية

حاول الكاتب أشكال مختلفة من التنظيم الضمني، مثل التوقف المبكر وتوحيد دفعة واحدة. لكل من التقنيات، والحالة التي يكون فيها عدم استخدام خطأ التعميم إلا في انخفاض طفيف في الفن. وهذا يسمح للمؤلفين لإبرام "سبب regularizer الجذر لا يمكن تعميمها".

الشكل 2: تأثير إيجابي الضمني على أداء التعميم. أغسطس لتكبير البيانات، WD هو تسوس الوزن، BN هو تطبيع دفعة واحدة. (A) عندما البعض regularizer في عداد المفقودين، ووقف في وقت مبكر يمكن أن يحتمل تحسين التعميم، و(ب) CIFAR10، ووقف في وقت مبكر في الأساس أي مساعدة، ولكن الدفعة تطبيع تحقيق الاستقرار في عملية التدريب، وتحسين التعميم.

التعبير معدل عينة محدودة

وجدت المواد أدلة "موجود مع تفعيل و2N + د ReLU على اثنين من طبقة أوزان الشبكة العصبية، والتي قد تمثل حجم البعد د أي وظيفة من عينات ن" نظرية. وهذا يدل حقا على القوة (القوة الغاشمة) من قدرة أي مجموعات بيانات الشبكة العصبية.

3. الخاتمة

مفهوم التعلم الآلي التقليدي من البساطة (البخل) القائمة. في أي صيغة تقريبا، ويعزى ذلك إلى وضع التعلم المستخرجة من البيانات منخفضة التعقيد. لا تعتبر ذكريات العنف عادة ما تكون وسيلة فعالة للتعلم. وفي الوقت نفسه، قد يكون استراتيجيات الذاكرة نقية بطريقة حل الطبيعي والفعال لهذه المهمة في السؤال.

نتائجنا تتحدى الفهم التقليدي للتعلم الآلة، والتي تبين قدرة فعالة من العديد من الشبكات العصبية ناجحة سهلة لديك ذاكرة نقية. وهذا يقودنا إلى الاعتقاد بأن هذه النماذج يمكن التعامل مع الكثير من الاستخدام الجيد للذاكرة عندما يتم استخدامها لتدريب حل المشكلة. ومن الممكن أن تتعلم بالمعنى التقليدي لا يزال يحدث جزئيا، ولكن يبدو أن ترتبط ارتباطا وثيقا كمية كبيرة من الذاكرة. ولذلك، فإن الطريقة التقليدية ليست مناسبة للتفكير لماذا هذه النماذج يمكن أن يكون التعميم جيد جدا.

ونحن نعتقد أن فهم احتياجات الشبكة العصبية لإعادة النظر في التعميم. نأمل أن رقتنا هي البداية، من خلال التشكيك في وجهة النظر التقليدية، مشيرا إلى المشاكل التي لم تحل.

Bengio نقطة مختبر للرأي: عمق هذه الشبكة هو ليس من خلال التعلم والذاكرة

ملخص

نحن نستخدم تجربة طريقة التحقق من صحة مظاهرة، الشبكة العصبية عمق (DNN) العمارة نموذج على الرغم من overexpression (أبنية نموذج بشكل مفرط التعبيرية)، ولكن ليس عن طريق " الذاكرة " تدريب البيانات لتحقيق أداء جيد فيها. في الواقع، وعمق التعلم الشبكة العصبية هو بسيط، تتوفر لتلبية الافتراضات عينات بيانات محدودة. لدعم وجهة النظر هذه، فقد أنشأنا وجود اختلافات نوعية في الشبكة العصبية تعلم الضوضاء وطبيعة جمع البيانات، والتي تبين: (1) الحاجة إلى المزيد من القدرة المناسب الضوضاء؛ وقت التقارب (2) المسمى عشوائيا لفترة أطول، ولكن الساعة تقارب المدخلات عشوائي أقصر، (3) DNN وظيفة تعليمية في العينة بيانات التدريب الفعلية، هو أبسط من بيانات التدريب الضوضاء، وفقدان بسيطة من معايير التقييم حدة هي وظيفة من الوقت التقارب. وأخيرا، وتبين لنا أن لتنظيم صريح إيجابي تعديل بشكل مناسب (مثل التسرب)، يمكنك تقليل أداء DNN الضوضاء على مجموعة بيانات التدريب، دون التأثير على تعميم البيانات الفعلية.

1. مقدمة

يتم قياس التعميم (التعميم) لقدرة مجموعة البيانات تدريب من طراز يعمل على البيانات الواردة سابقا لم أر، التي لا ينظر مع بيانات التدريب لديه نفس البيانات الأساسية التوزيع. تعميم من وجهة النظر التقليدية التي هي القدرة ما يكفي كبيرة (أكبر من عدد المعلمات مثل عدد العينات التدريب) نموذج، في التعبير كافية ل"تذكر" كل من العينات، مجموعة التدريب وبالتالي لoverfitting، مما أدى إلى التحقق من صحة أو ضعف التعميم على مجموعة الاختبار. ولكن خلافا لهذا الرأي، وعمق الشبكة العصبية (DNN) عادة ما تحتوي على أكثر من المعلمات التدريب عينة، ولكن المعارض الأداء الجيد التعميم. العمل مؤخرا عن تشانغ وآخرون (2017، ترجمة: ورقة جوجل المذكورة أعلاه) وجدت أن الأساليب التقليدية لا يمكن أن يفسر طبيعة DNN. وهي تظهر DNN قادرة على التكيف مع الضجيج العشوائي، وخلص إلى أن، في جزء منه بسبب عمق الشبكة يمكن التعلم من خلال "ذاكرة واسعة النطاق." نحن لا أعتقد ذلك، والدعم من خلال مختلف بين أظهرت دراسة البيانات الضوضاء العشوائية والتعلم وجهة نظرنا.

"تذكر"، وهي مجموعة التدريب ماذا يعني؟ وأحد التفسيرات هو أن لكل عينة التدريب، DNN يمكن تحقيق دقة تصنيف مثالية (أي خطأ تدريب قريبة من الصفر). ويبدو أن هذا هو الحال، ولكن ليس تماما - يتحدث بصريا، إلى "تذكر" خوارزمية من البيانات يجب أن تكون محدودة إلى حد ما في مجموعة التدريب، تماما كما طاولة البحث. وهذا بدوره يؤدي إلى تفسير آخر؛ والتدريب الصفر خطأ التعميم والخطأ العشوائي. وبموجب هذا التعريف، DNN لا تذكر.

ومع ذلك، فإن هذا التعريف لا تنطوي على عملية التعلم - أو حدسي، ونحن قد لا "الثقة" نتيجة الخطأ تعميم استخدام نتائج القياس، لأننا نعتقد أنه إذا كان خوارزمية كجدول بحث عن تعلم (وهذا هو مجرد طاولة البحث أداء تعميم جيد)، ونحن لا يزالون يعتقدون أن المعلومات "تذكر" بدلا من تعلمها. وهذا بدوره أدى بنا إلى الثلث، تعريفا غامضا من الذاكرة: ليس في وضع التعلم . نحن اعتقد ان هذا هو المقصود فعلا عندما يستخدم معظم الناس مصطلح "ذاكرة العنف"، "ذاكرة نقية" أو "الذاكرة الجماعية"، يريدون التعبير عنه.

ومع ذلك، وتبين لنا أنه حتى مع هذا التعريف، DNN لا يزال لا "تذكر" بيانات حقيقية. القدرة النظرية لتصبح نموذجا قدرة فعالة ، محدودة بعاملين: حجم مجموعة البيانات ووقت التدريب (تحديث). وتبين لنا أن يتم إصلاح القدرة الفعالة، وعمق الشبكة للحصول على بيانات عشوائية والبيانات الحقيقية، والافتراضات تعلمت مختلفة - أكثر بساطة إلى بيانات حقيقية.

2. اختبار ومناقشة

اختبار ونقاش والباحثين تحل محل بعض جزء من مجموعة البيانات مع الضوضاء (i.i.d عشوائي أو علامة). ثم القيام مدخلات ضجيج جاوس (البيانات الفعلية مطابقة المتوسط والتباين).

أول اكتشاف (انظر الشكل 1)، والمزيد من العينات هي استبدال الضوضاء، وهناك حاجة DNN أكثر قدرة على تحقيق أقصى قدر من الأداء. هذا يدل على أن شبكة ممكنة مع وضع أكثر بساطة، أي أقل البيانات الحقيقية من المعلمات.

الحد من قدرة مجموعة البيانات أو مجموعة البيانات زيادة حجم سوف تبطئ عملية التدريب على البيانات الفعلية والضوضاء. ومع ذلك، التجربة 2 (الشكل 2) يدل على أن للبيانات الفعلية التي لم يكن اعتبارا.

في تحليل تأثير تنظيم الدراسة، وجد الباحثون، و(تشانغ وآخرون، 2017) وجد أن تختلف، إذا كنت تستخدم عشوائي التدريب العلامة، تنظيم (مثل التسرب والضجيج التمويه) يمكن أن تحد من دقة التدريب. واستخدم الباحثون الطريقة المقترحة في ورقة الناس مثل تشانغ تم اختبار (انظر ورقة).

3. الخاتمة

أثبتت التجربة أن الذاكرة من تحقيقنا، والتعلم والتعلم البيانات الضوضاء الحقيقي مختلفة. في حالة لديها نفس القدرة الفعالة سيكون أسهل في الاستخدام من الضوضاء التعلم الافتراضات DNN تعلم بيانات حقيقية. هذا يكشف عن أهمية DNN قبل التعلم والتعميم، ويوفر وسيلة ممتعة لتقييم فعالية التنظيم صريح (أي التي تعوق قدرة الذاكرة).

***

ما هو السبب الحقيقي لعمق الشبكة العصبية هو تعميم قوية؟

لا تتردد في ترك التحليل.

[جي وون الجمهور الرقم الجديد في مربع الحوار، أدخل "170219" تحميل الورق]

المواد المرجعية

https://openreview.net/pdf؟id=rJv6ZgHYg

https://arxiv.org/pdf/1611.03530.pdf

https://theneuralperspective.com/2017/01/24/understanding-deep-learning-requires-rethinking-generalization/

https://medium.com/intuitionmachine/rethinking-generalization-in-deep-learning-ec66ed684ace#.3cycyk87b

[البحث] جديد AI يونيكورن جي فاز معا 10 رأس المال الكبير

خطة بدء الأعمال مسابقة 2017

AI مسابقة ريادة الأعمال من جي وون جديد مع 10 التيار AI VC: الأزرق تشي المشاريع، سيكويا كابيتال الصين، صندوق الذكاء الاصطناعي قاو لينغ تشي، عاصمة بحيرة الأزرق، والأزرق الفيل رأس المال ورأس المال IDG عاصمة عالية يونغ، سيتيك الأوراق المالية الاستثمار في مجال البناء، مينغ المحتملين العاصمة sonhwa بعيد للانضمام إلى صندوق بادر برعاية يوان التشيلي الجديد، واللجنة الإدارية حديقة تشونغ قوان تسون بكين للعلوم، ويدعم لجنة إدارة تشونغ قوان تسون هايديان حديقة العلوم، هو تجميع رواد التكنولوجيا AI وقادة الاستثمار الحدث. تشى يوان لتوفير قوية موارد رأس المال الاستثماري جديدة إلى فرصة لرسو السفن القادمة AI يونيكورن الكامل من الطموح، وأعلى TS مشروع في انتظاركم ليأتي وجمع.

انقر أدناه لقراءة المقال الأصلي، وملء استمارة الطلب على الانترنت طلب التسجيل. تشارك الساعات صحيفة في اختيار المعلومات المطلوبة.

إذا كان أكثر من الوصف المعلومات (مثل BP، الخ)، ويمكن إرسالها إلى xzy100@aiera.com.cn، يرجى الإشارة إلى اسم الشركة من رأس الرسالة. إذا كان لديك أي أسئلة المشورة، لا تتردد في الاتصال المرسل إلى علبة البريد.

طريق الحرير

"Bengio مقابل جوجل" التعلم العميق مبارزة الأخوية، الشبكة العصبية طبيعة المعمم للنزاع

وفيما يلي معظم السماء المرصعة بالنجوم جميل! غالاكسي انظر هنا، لقاء الجنة على الأرض!

صباح الخير | المرادفات وإذا كان الحب، وأود أن نسميها معجزة

ما لوه الدهون، وو شياو بو متفائلون بشأن الاقتصاد القائم على المعرفة في نهاية المطاف هو الإنترنت؟

ارسل هذه السعرات الحرارية، رئيس الذقن المزدوجة لمواجهة أصدقائك

أفرجت مبيعات سيارات الدفع الرباعي في يناير كانون الثاني وسبتمبر العشرة الأوائل! شكلت المستقلة للسبعة مقاعد، يمكن وصفها بأنها غرامة على مهل!

سعر صرف الرنمينبي أعلى من 7 قاب قوسين أو أدنى؟ مستشار البنك المركزي: متى يمكن التصرف

8000 يوان الأحذية يحطم الأب، مراهق كان هذه الموجة من إنذار ...... عملية للشرطة خدم

"الطبيعة" أنحف رقاقة في العالم لإنقاذ قانون مور: ذرة واحدة فقط الدوائر المتكاملة سميكة، المعدن السائل نانو الطباعة

أصبح الحرارة SUV أكثر تلاشى! هذا النموذج هو "النار ناسفة" ما الإيقاع

بالإضافة إلى الأكل والنوم في حالة ذهول، والحديث حول غبي منغ، الذي لم يفز أكثر من كوالا

المشترين الصينيين للاستثمار الأسترالي انخفض، فإن سوق العقارات الأسترالي هو الآن الكساد العظيم، والاقتصاد الأسترالي أو الركود أمر لا مفر منه

الدموع الرأس! تكريم مائة طليعة الإصلاح، تلك الصور مفجع!

وسائل الإعلام الأجنبية: قالت ايران ان الاقتصاد العالمي أو مع عواقب وخيمة، أو حجب نقاط الاختناق، وقفز سعر برميل النفط؟

الانتربول يفعلون كل يوم؟ حقا في حاجة إلى "النار والماء" تفعل؟

أوصى LeCun! 50 أسطر من التعليمات البرمجية للحصول على GAN PyTorch

هذه التأشيرة التي قد لا نراه مرة أخرى

ولكن أيضا أدنى دفعة أولى، ولكن أيضا ضمان لفترة طويلة، ودعا هذا SUV على "مقتصد"!

سوف متعددة البلاد أو في العالم لن تكون قادرة على استخدام دولار امريكى من النفط الإيراني، الذي سيكون المستفيد؟

لماذا يجب أن لا البقاء مستيقظين طوال الليل؟ هذا الثقب الدماغ التفسير مفتوحا على مصراعيه!

أصبح سائق القديم لفتح السيارة لسنوات عديدة؟ فهم هذه التدابير الثلاثة، ثلاثة أيام غير كافية!

"أمي، أنا الوطن!"

زرعت لي شي مين شجرة الجنكة، جميلة عام 1400!

الأحكام ذات الصلة