لا تزال نحن في عداد المفقودين النظرية الأساسية للكيفية إعداد مسار عمق الدراسة في المدرسة الثانوية؟

مذكرة لى فنغ شبكة AI تقنية مراجعة: هذه المادة من كبار الخبراء تعلم الآلة، خطط التنفيذ الوطنية 2017 "جائزة لاختبار الزمن" (اختبار جائزة الوقت) الفائز علي رحيمي. آخر مرة علي في كلمته إلى قضية الفوز التعلم العميق تشبيه مناقشة على نطاق واسع الكيمياء مجتمع التعلم العميق، يان ليكون أيضا قرصة يصل اليه، ولكن في النهاية نحن جميعا اعترفت دراسة متعمقة للبما فيه الكفاية الأساس النظري الصلبة. من ناحية أخرى، وعمق التعلم على قيد الحياة، لا تتصل فقط مختلف سادة معروفة والأطباء من جامعة التطبيقات شعبية، والمدرسة حتى المرحلة الجامعية والثانوية ولبدء التفكير حول إعداد آلة التعلم / AI الدورات، وبطبيعة الحال المعيشية في طليعة موجة التعلم العميق.

حسنا، اقترح علي المشكلة التالية.

علي التفكير في المشاكل التي تسببها كتابة مقال. لى فنغ شبكة AI تقنية مراجعة النص جمعت على النحو التالي.

كنت أعتقد أن تكنولوجيا التعلم عميقة قد نضجت لتكون قادرة على تدريسه في المدارس المتوسطة افعل؟

لماذا تسأل؟ منذ وقت ليس ببعيد، تلقيت مدير المنتج في شركة كبيرة للالبريد الإلكتروني. وبما أنني نفسي أود أن فتح البريد الخاص أعلنت، لذلك، أنا هنا سوف التمسك بها:

من: M.

مرحبا، علي،

...

كيف يعلم أعضاء فريق الشباب لاختبار حدسهم للمعلمات نموذج أو الحصول على هذا الحدس من ذلك؟

لدينا فريق من المهندسين وغالبا ما تكون نتيجة للبحث من علماء آخرين هناك مباشرة "وراثة" المعلمات شديدة، لكنهم خائفون جدا من المعلمات لحن الخاصة بهم.

هذا البريد الإلكتروني واسمحوا لي في أيام قليلة من التأمل. لا أستطيع التفكير في إجابات بناءة طويلة.

إذا كنت تريد حقا لي أن الجواب، وأنا أريد أن أقول: يجب مهندسيه أن يكون حقا خائفة!

إذا كنت مهندسا، واجه فوق هذه الشبكة، تحتاج إلى جعلها تعمل بشكل أفضل على مجموعة بيانات معينة. يمكنك التفكير في وجود هذه طبقة الشبكة وجميع أسبابها. ولكن كعلم، ونحن ما زلنا لا نملك وسيلة مشتركة للتعبير عن هذه الأسباب. نحن نعلم عمق التعلم بنفس الطريقة التي نحن تدريس مواد أخرى تختلف على نطاق واسع.

كيف المهندسين البصرية هي لتنفيذ العمل

وقبل بضع سنوات، وأنا تعرضت لمجال البصريات. في مجال البصريات، سوف بناء مكون للتعامل مع طبقة المدخلات. هنا هو عدسة الكاميرا:

لتصميم شيء من هذا القبيل، فإن عليك أولا استخدام بنية البصرية الأساسية، فهي عادة باسم المشاهير اختراع اسمه. سوف تقوم بإجراء تجارب المحاكاة، والتي وجدت الأماكن التي أنها لا تلبي الاحتياجات الخاصة بك، ثم أدخل عدسات إضافية إلى أوجه القصور الصحيحة.

بعد ذلك، عليك أن تكون معالجتها بواسطة نظام محسن كامل العددي، مثل الشكل المنحني، والموقف، والمعلمات تعديل الميل، بحيث بعض الأهداف تصميم مكبر. بعد ذلك، سوف ثم محاكاة وتعديل التصميم، نظام التحسين، وتكرار هذه العملية مرارا وتكرارا، حتى النظام لتلبية الطلب.

هذه العملية وعمق الشبكات العصبية على حد سواء من ذلك بكثير!

هذه السلسلة من الهيكل 36 العدسات كل لها معنى محددة تم إدراجها فقط فيه، التي تعتبر مسؤولة عن تصحيح بعض الحالات الشاذة. وهذا يتطلب أن يكون لدينا نموذج عقلي واضح جدا، لمعرفة ما دور كل عدسة من خلالها الضوء. ويستند هذا النموذج العقلي على ميزة تأتي عادة، مثل الانكسار والانعكاس، الانكسار، والتشتت، أو تصحيح واجهة الموجة.

الناس ليسوا خائفين من هذه العملية التصميم. كل عام والولايات المتحدة لديها المئات من المهندسين البصرية عليا العمل في تصميم العدسة. أنها ليست خائفة من العمل.

هذا ليس لأن البصريات هي في غاية البساطة. هذا هو لأنها منظمة تنظيما جيدا البصريات نموذج العقلية.

لقد أصبح تدريس البصريات الحديثة مستويات مختلفة من التجريد.

في الجزء العلوي، فمن أبسط واحدة - البصريات راي. الأشعة الضوئية هي موجة الضوئية مبسطة، والموجة الضوئية، ممثل ناقلات الطبيعي للجبهة الموجة للضوء. البصري موجة الحل التقريبي للمعادلات ماكسويل. معادلات ماكسويل يمكن استخلاصها من فيزياء الكم، وأنا لست أفهم تماما.

ولدت كل طبقة الخروج من طبقة الكامنة عن طريق تبسيط الافتراضات. وهكذا، كل طبقة يمكن أن تفسر أكثر تعقيدا من طبقة أعلى من هذه الظاهرة.

أقضي معظم الوقت الذي يقضيه في الطبقة العليا من أربعة تصميم التجريد.

هذه هي الطريقة نعلمه علم البصريات اليوم. ولكن هذه النظريات لا دائما مثل هيكل الشبكة أعلاه المنظمة لذلك. حتى قبل قرن من الزمان، منها بعض النظريات أيضا في حالة متناقضة من التعايش. يمكن الممارسين الاعتماد على مجرد عدد قليل من عدم وجود موثوقة وغير رسمية على نظرية البصرية.

قبل ما يقرب من مائة سنة من التعريف الرسمي للبصريات راي في نيوتن، هذا الوضع لم يمنع تلسكوب غاليليو المذكورة أعلاه لخلق عظيم. العقل غاليليو، وكان لديه نموذج عقلي جيدة بما فيه الكفاية من الضوء، والذي يسمح له لإنشاء تلسكوب يمكن تكبير الأشياء عشر مرات. ولكن لديه أيضا بعض العيوب لفهم البصريات، حتى انه غير قادر على تصحيح انحراف لوني، أو أوسع مجال الرؤية.

قبل هذه الأشعة يتم توحيد نظرية كومة من التجريد، كل واحدة منها سوف تحتاج إلى البدء من النظرية الأساسية لمفهوم الضوء. هذا وسوف يشكلون مجموعة جديدة من افتراضات غير واقعية. نيوتن غرار مثل البصريات أشعة الضوء يمكن أن تنجذب أو صده الجزيئات مادة ضباب الصلبة. هيغنز نمذجة الضوء إلى موجة ضغط طولية نشر "الأثير" غامضة عبر وسائل الإعلام. وكان مثل صوت من الضوء، مثل النمذجة. يفترض ماكسويل أيضا أن انتشار الضوء من خلال "الأثير". يمكنك أيضا رؤية آثار هذا الافتراض في المعادلات معامل ماكسويل.

نعم، هذا هو نموذج سخيفة! ولكن لا يمكن قياسها كميا، والقدرة على التنبؤ بها.

وعلى الرغم من هذه الفرضيات قد تبدو سخيفة الآن، ومع ذلك، وهذه النماذج يمكن كميا، والقدرة على التنبؤ. يمكنك ملء هذه النظم والبيانات التي يتم الحصول عليها إخراج القيمة المتوقعة. وهذا مفيد جدا للمهندسين في!

لذلك من أجل التعلم العميق ......

في دراسة متعمقة لاستكشاف ما يتعين علينا القيام به، هو أن تجد وصفا لوظيفة كل طبقة دراسة متعمقة للغة وحدات المستخدمة.

كما لو أننا يمكن أن تصف كيف تمر أشعة الضوء من خلال الجهاز البصري كما هو موضح في واحدة من العمق البصري كل طبقة من الشبكة العصبية وجود وظيفة ما كنا الشبكة العصبية تصميم عمق العمل سيكون من الأسهل.

وأعتقد أن هذا من وظيفة عملية الالتواء وطبقة منهم مطابقة تصفية إدخال، ويتبع طبقة الخلايا بواسطة العنصر غير الخطية. هذا هو وصف نسبيا "القاع"، وظائف مماثلة لوصف المشهد من منظور معادلات ماكسويل.

ربما هناك أكثر "مستوى" من التجريد نتمكن من الاعتماد على، يمكننا وفقا لقيمة البيانات بعد تعديل طبقة الشبكة لوصف وظيفة صورة كمية من طبقة الشبكة، على غرار كيف ضوء عازمة وفقا لعدسة لوصف وظيفتها .

وإذا كان هذا المفهوم المجرد ويمكن قياس ذلك أعلى. بهذه الطريقة، يمكنك إدخال الأرقام في صيغة تحليل الخام، والتي سوف تساعدك على تصميم هيكل الشبكة.

ونحن لا نزال بعيدين جدا عن هذه اللغة. حسنا، دعونا نبدأ مع الحالات أبسط.

ولكن ربما كنت مع الانحراف من الخيال!

دعونا بدء تشغيله الحالات أبسط. لدينا الكثير من نموذج التدريب عمق النفسي لكيفية عمل الشبكات العصبية. لقد جمعت عددا كبيرا من الحالات يستحقون تفسير هذه الظاهرة. دعونا نلقي نظرة على قلوب هذه النماذج هو تفسير كيف لا بأس به من هذه الظواهر.

قبل كنت أكثر في عمق التحليل، وأنا أعترف أن هذه الدراسة صغيرة هي صعبة للغاية. أخذت بصري أكثر من 300 سنة للقيام بذلك، لكنني قضيت بعد ظهر اليوم السبت للقيام هذا البحث. وفقا لذلك، وليس لدي سوى بلدي النتائج في بلدي بلوق.

  • الظاهرة: خوارزمية العشوائية التدرج أصل (SGD) من عشوائية جيدة بما فيه الكفاية التهيئة، ولكن بعد أخطاء رقمية صغيرة أو خطوات غير لائقة سوف يدمر على الفور عملية أصل التدرج.

وقد لاحظ بعض الأطباء أن تراكم التغيرات الصغيرة في طريق الانحدار سوف يؤدي إلى اختلافات كبيرة في الأداء على مجموعة الاختبار. على سبيل المثال، عند استخدام GPU بدلا من وحدة المعالجة المركزية للتدريب (https://github.com/tensorflow/tensorflow/issues/2226،https://github.com/tensorflow/tensorflow/issues/2732)، والتي ستظهر القضية.

هل تعتقد أن هذا هو التفسير المعقول من الملاحظات يستحق كل هذا العناء؟ أو هل تعتقد أن هذا يمكن أن تكون مزورة، والملاحظات كاذبة ذلك؟ أو ربما كنت تعتقد أن هذه الملاحظة في بعض الأخطاء، وإلى حد ما بل هو التناقض في المنطق؟ أو كان تفسيرها ليس مناسبا.

أنا متأكد من أنك بالتأكيد لديهم مشاعر مختلطة في هذا الوقت. ولكن في الوقت الراهن سجل دعونا أنها ظاهرة، لمواصلة بحثنا.

  • الظاهرة: نموذج الضحلة المحلي خير من الدنيا حاد الحد الأدنى التعميم

هذه الحجة هي الآن بشعبية كبيرة. بعض الناس يصرون على أنه من الصحيح (https://arxiv.org/abs/1609.04836،https://arxiv.org/abs/1611.01838،https://arxiv.org/abs/1704.04289،https://arxiv. غزاله / أى بي إس / +1710.06451)، والبعض الآخر، وأنا منهم، يعتقدون أن هذا البيان غير صحيح من جهة نظر منطقية، أولئك الذين يعتقدون أنه من حق مردود: من الخبرة، وهذا البيان هو الصحيح في الواقع (HTTPS: // arxiv.org/abs/1703.04933)! اليوم، بعض الباحثين أن يتم تكريره هذا البيان، الإصدار حصلت متغيرات (https://arxiv.org/abs/1706.08947). هذه الحجة قد مربكة (https://twitter.com/beenwrekt/status/941005520420225025).

أحتاج أن أشير إلى أن هذه الظاهرة قد تكون مثيرة للجدل، ولكن مع ذلك تسجيله.

  • الظاهرة: تضمين الجزء الأكبر تنظيم (BN) طبقة تسارع ستوكاستيك أصل التدرج

"دفعة تنظيم فعال." هو بلا منازع هذه الحجة تقريبا. أنا هنا فقط على سبيل المثال لا بالدليل ( ويتم تسجيل هذه الظاهرة، امتنع عن التعليق.

  • الظاهرة: على الرغم من أن هناك العديد من الدنيا وسرج نقاط المحلية، ولكن التدرج العشوائية أصل خوارزمية تنجح دائما في حل المشاكل الأمثل

لهذه المشكلة، الناس لديهم كل أنواع القصص. وهناك حجة استشهد في كثير من الأحيان هي نقطة سرج المشتركة والحد الأدنى المحلي (https://arxiv.org/abs/1712.04741) على وجه عمق وظيفة فقدان التعلم والتدريب. وبالإضافة إلى ذلك، والناس إما يعتقدون أصل التدرج يمكن التغلب على هذه المشكلة (https://arxiv.org/abs/1412.6544)، أو لا يرون حاجة للتغلب على هذه المشكلة، وإيجاد حل يمكن استخلاصها يمكن أن يكون التعميم جيد (الشبكي: / /arxiv.org/abs/1712.04741). بعض الناس يعتقدون أن عمق الخسارة من طراز سطح التعلم بشكل عام قدرا كبيرا من (

هنا، أود أن مضض هذه الظاهرة سجلت.

  • الظاهرة: التسرب من "استراتيجية عشوائية" أخرى أكثر فعالية

أنا لا أعرف كيفية تصنيف التسرب خوارزمية مماثلة، حتى هنا أود أن أشير إليها بأنها "استراتيجية عشوائية".

آسف، أنا هنا فقط لتسجيل عليه، لا تعليق.

  • الظاهرة: عمق الشبكة العصبية يمكن أن نتذكر علامة عشوائية، ويمكن تعميمها

والدليل هنا هو واضح (https://arxiv.org/abs/1611.03530)، أصدقائي الأعزاء، ووجدوا دعما لهذا الرأي.

وعلى الرغم من إثارة للجدل، وأنا هنا أو سيتم تسجيله.

تفسير

لقد وجدت بعض الظواهر. اقتبست أعلاه من الورق، وأنا عندي وجهة نظري، أن تكون قادرة على أن تكون قادرة على تفسير هذه الظواهر في أفضل درجة من النظرية الأكاديمية.

دعونا نلقي نظرة على التقدم بحثنا:

ولكن ما زلنا لا تحصل سعيدة جدا، ونحن نواجه أيضا مع الأسئلة التالية:

أولا وقبل كل شيء، وأنا لا يتفقون معنا في بعض الملاحظات التي نريد لشرح بداية معقولة

ثانيا، لا أستطيع أن أشرح هذه المنظمة إلى التجريد الهرمي، وليس كما التجريد بيانات واضحة البصرية الهرمية التي تخرج.

ثالثا، وأظن أن بعض النظريات وأقتبس من ورقة غير صحيحة.

وجهة نظري

توافد عدد كبير من القادمين الجدد لصناعتنا، ونحن عادة دائما تقريبا استخدام بعض بطريقة غير القياسية لتدريبهم وتعليمهم بعض الشبكات العصبية تدريب ما قبل العمق، ومن ثم يتطلب منهم أن الابتكار أنفسهم. بالنسبة لأولئك الذين يحتاجون إلى تفسير هذه الظاهرة، ونحن لا يمكن أن نوافق على أنفسهم. أريد أن أكون قادرة على تدريس هذه الأمور في المدرسة الثانوية، ونحن لا تزال بعيدة جدا.

فكيف نفعل ذلك؟

إذا نحن قادرون على تقديم نموذج النفسي يتكون من مستويات مختلفة من طبقات التجريد، وتستخدم لوصف عمق وظيفة التعلم من كل طبقة من الشبكة، سيكون أمرا رائعا. في عمق المجال من الدراسة، ونحن "معامل الانكسار"، "تشتت" ما "حيود" مفهوم المقابلة هو؟ ربما كنت قد فكرت في هذه القضايا، لكننا لم نضع لغة موحدة حول هذه المفاهيم.

دعونا نتفق على مجموعة من الظواهر من وسائل النقل ويجمع. ثم، يمكننا أن نحاول أن نشرح لهم. ما هو لدينا ما يعادل ما حلقات نيوتن، ظاهرة كير، تأثير فاراداي من ذلك؟

قامت مجموعة صغيرة من الزملاء وأنا بدأت دراسة ميدانية، في محاولة لالنماذج العقلية في مجال عملنا لتصنيف، لجعلها رسمية، ومن ثم التحقق منها تجريبيا. هذا هو مشروع كبير. وأعتقد أن هذا هو وضع دراسة متعمقة الهرمية للنموذج النفسي، فإن الخطوة الأولى لإعداد بالطبع عمق الدراسة في المدرسة الثانوية.

عبر argmin، شبكة لى فنغ جمعت AI تقنية مراجعة

تيان زوانزوانغ منتج "خلال الربيع" تعرض النسخة الدولية من الملصق 9.8 مهرجان تورونتو السينمائي العرض

المحلية المصنعة للهواتف النقالة لا يمكن ان تلعب الخير: أعلنت شركة جوجل Adnroid مواصفات 7.0 AOSP

AI ضرب مؤخرا تمويل قياسي من سلالة شانغ قد بدأت للتو خمسة طرازات جديدة

"فاينل فانتسي 15" أعلن مصمم اثنين عمل جديد تجريبي فيديو تجريبي

هذا هو الحقيقي "400" قوانغتشو وشنتشن اختبار محرك شيري الطاقة الجديدة ومنظمة العفو الدولية Ruize 5E 450

أدى فون 7 أعلى انخفاض 800 يوان! المزدوج 11 ترويجية كبيرة لل5 هواتف

صديقها الصور أفضل من حقل الدخن 6X قرار مجلس أرباحا صافية لا تزيد عن 5 الأجهزة

بعد مصباح كهربائي وراء البحر ذكي ارتفعت الذين الائتمان

وواصل "هؤلاء النساء" إعادة التدوير الحرارة سمعة ما يقرب من نجوم السينما تحفة تأخذ قصة قلب

BMW حتى ثلاثة طاقة جديدة لتسليم على مبيعات السيارات الجديدة ضبط 50 مليون سنة من FLAG؟

حزمة بيل لتحقيق "فريق عمل رجل الدهون" ظهرت في تشونغتشينغ مشهد اطلاق النار بدأ في البكاء كلارا

عشاء "الطائر الوطن" 11 عاما معا مرة واحدة فقط تؤكل