أشاد Wu Enda شخصيًا بملاحظات مخطط التكرير لدورة التعلم العميق الخاصة هذه! (مع تحميل)

المصدر: Machine Heart، AI Youdao

هذا المقال عن 7500 كلمة ، واقترح ريدينج 10+ دقائق.

تنظم هذه المقالة ملاحظات الدراسة حول أساسيات التعلم العميق والشبكات التلافيفية والشبكات المتكررة ، مع التنزيلات ~

عرضت وو إندا خريطة معلومات الدورة التدريبية الخاصة بالتعلم العميق التي اكتملها تيس فيرانديز ، وقد سجلت هذه المجموعة من خرائط المعلومات بشكل جميل المعرفة والميزات المميزة لدورة التعلم العميق. لذلك ، ليس من المناسب فقط للمبتدئين فهم التعلم العميق ، ولكن أيضًا مناسب لممارسي التعلم الآلي والباحثين لمراجعة المفاهيم الأساسية. نعتقد أن هذه ليست مجرد مذكرة بالطبع ، ولكن أيضًا مجموعة من الرسوم البيانية والمذكرات. أدناه ، سنقدم المذكرة من ثلاثة جوانب لأساسيات التعلم العميق والشبكات التلافيفية والشبكات المتكررة ، ونقدم عنوان التنزيل لخريطة المعلومات.

قم بالرد على الرسالة الخاصة "Backstage" للحصول على رابط تنزيل هذه الملاحظة

أساسيات التعلم العميق

1. المفاهيم الأساسية للتعلم العميق

التعلم تحت الإشراف: تحتوي جميع بيانات الإدخال على بيانات خرج متطابقة محددة. في بنى الشبكة المختلفة ، توجد طبقات العقدة لبيانات الإدخال وبيانات الإخراج عند كلا طرفي الشبكة. وتتمثل عملية التدريب في ضبط وزن اتصال الشبكة بينهما بشكل مستمر.

أعلى اليسار: تم سرد التعلم الخاضع للإشراف على بنى الشبكة المختلفة. على سبيل المثال ، يمكن استخدام الشبكة العصبية القياسية (NN) لتدريب الوظائف بين ميزات المنزل وأسعار المنزل ، ويمكن استخدام الشبكة العصبية التلافيفية (CNN) لتدريب الوظائف بين الصور والفئات. يمكن استخدام الشبكات العصبية المتكررة (RNN) لتدريب الوظائف بين الكلام والنص.

أسفل اليسار: تظهر البنى المبسطة لـ NN و CNN و RNN على التوالي. تختلف العمليات الأمامية لهذه البنى الثلاثة ، حيث يستخدم NN مصفوفة وزن (اتصال) مضروبة في قيمة العقدة وينتشر على التوالي إلى الطبقة التالية من العقد ؛ تستخدم CNN نواة الالتواء المستطيلة لتدوير تسلسل الصورة بشكل تسلسلي تشغيل المنتج ، والانزلاق ، والحصول على الطبقة التالية من المدخلات ؛ ذاكرة RNN أو نسيان معلومات الخطوة الزمنية السابقة لتوفير ذاكرة طويلة الأجل لعملية الحساب الحالية.

اعلى اليمين: يمكن لـ NN معالجة البيانات المنظمة (الجداول وقواعد البيانات وما إلى ذلك) والبيانات غير المنظمة (الصور والصوت وما إلى ذلك).

أسفل اليمين: يرجع تطور التعلم العميق بشكل أساسي إلى ظهور البيانات الضخمة ، ويتطلب تدريب الشبكات العصبية كمية كبيرة من البيانات ، وقد عززت البيانات الضخمة بدورها ظهور شبكات أكبر. إن الاختراق الرئيسي في بحث التعلم العميق هو ظهور وظيفة تنشيط جديدة. يمكن استخدام وظيفة Relu لاستبدال وظيفة السيني للحفاظ على عملية نزول متدرجة سريعة في الانتشار العكسي. وستكون الوظيفة السينية مشتقات مشتقة صفرية عند اللانهاية الإيجابية والسلبية هذا هو السبب الرئيسي وراء اختفاء التدرج يؤدي إلى بطء التدريب أو حتى الفشل. لدراسة التعلم العميق ، تحتاج إلى تعلم الدورة الفاضلة "فكرة - رمز - تجربة - فكرة".

2. الانحدار اللوجستي

أعلى اليسار: يستخدم الانحدار اللوجستي بشكل أساسي في مشاكل التصنيف الثنائي ، كما هو موضح في الشكل ، يمكن أن يحل الانحدار اللوجستي مشكلة ما إذا كانت الصورة هي قطة ، حيث تكون الصورة هي الإدخال (x) ، والقط (1) أو غير القط (0). يمكننا التفكير في الانحدار اللوجستي كمشكلة فصل مجموعتين من نقاط البيانات. إذا كان هناك انحدار خطي فقط (وظيفة التنشيط خطية) ، بالنسبة لنقاط البيانات ذات الحدود غير الخطية (على سبيل المثال ، مجموعة من نقاط البيانات محاطة بمجموعة أخرى) لا يمكن الفصل بشكل فعال ، لذلك تحتاج هنا إلى استبدال وظيفة التنشيط الخطي بوظيفة التنشيط غير الخطي. في هذه الحالة ، نستخدم وظيفة التنشيط السيني ، وهي وظيفة تنعيم بمدى (0 ، 1) ، والتي يمكن أن تجعل ناتج الشبكة العصبية يحصل على نتائج مستمرة وتطبيعية (قيمة الاحتمال). على سبيل المثال ، عندما تكون عقدة الإخراج (0.2 ، 0.8) ، تم تحديد الصورة على أنها ليست قطة (0).

أسفل اليسار: الهدف التدريبي للشبكة العصبية هو تحديد الوزن المناسب و التحيز المدى b ، فما هو شكل العملية؟

هذا التصنيف هو في الواقع مشكلة تحسين ، والغرض من عملية التحسين هو تقليل الفجوة بين القيمة المتوقعة y والقيمة الحقيقية y. ويمكن تحقيق ذلك رسمياً من خلال إيجاد الحد الأدنى لقيمة الهدف. لذلك نحدد أولاً شكل الوظيفة الهدف (دالة الخسارة ، دالة التكلفة) ، ثم نقوم بتحديث w و b تدريجياً مع نزول التدرج. عندما تصل دالة الخسارة إلى القيمة الدنيا أو تكون صغيرة بما يكفي ، يمكننا الحصول على نتيجة تنبؤ جيدة.

اعلى اليمين: يتغير الرسم البياني لقيمة دالة الخسارة على السطح المعلمي. يمكن استخدام التدرج للعثور على أسرع مسار نزول. يمكن أن يحدد حجم معدل التعلم سرعة التقارب والنتيجة النهائية. عندما يكون معدل التعلم كبيرًا ، يكون التقارب الأولي سريعًا ، وليس من السهل البقاء عند الحد الأدنى المحلي ، ولكن من الصعب التقارب إلى قيمة مستقرة في الفترة اللاحقة ؛ عندما يكون معدل التعلم صغيرًا ، يكون الوضع هو العكس تمامًا. بشكل عام ، نأمل أن يكون معدل التعلم أعلى في المرحلة الأولى من التدريب وأقل في المرحلة اللاحقة ، وبعد ذلك سنقدم طريقة التدريب لتغيير معدل التعلم.

أسفل اليمين: لتلخيص عملية التدريب بأكملها ، بدءًا من عقدة الإدخال x ، احصل على المخرج المتوقع y من خلال الانتشار الأمامي ، واستخدم y hat و y للحصول على قيمة دالة الخسارة ، وابدأ في تنفيذ الانتشار الخلفي ، وتحديث w و b ، وتكرار العملية بشكل متكرر حتى التقارب.

3. خصائص الشبكة الضحلة

أعلى اليسار: تحتوي الشبكة الضحلة على عدد أقل من الطبقات المخفية ، كما هو موضح في الشكل ، توجد طبقة مخفية واحدة فقط.

أسفل اليسار: فيما يلي خصائص وظائف التنشيط المختلفة:

  • السيني : تستخدم الدالة السينية غالبًا في مشكلة التصنيف الثنائي ، أو الطبقة الأخيرة من مشكلة التصنيف المتعدد ، ويرجع ذلك أساسًا إلى طبيعتها الطبيعية. يميل تدرج وظيفة السيني إلى الصفر على كلا الجانبين ، مما سيؤدي إلى بطء التدريب.
  • تانه : بالمقارنة مع السيني ، فإن ميزة وظيفة tanh هي أن قيمة التدرج أكبر ، مما يمكن أن يجعل سرعة التدريب أسرع.
  • ReLU: يمكن فهمه على أنه تنشيط العتبة (حالة خاصة من نموذج التموج ، يشبه طريقة عمل الأعصاب البيولوجية). هذه الوظيفة شائعة جدًا. إنها في الأساس وظيفة التنشيط التي يتم اختيارها بشكل افتراضي. الميزة هي أنها لن تسبب مشاكل تدريب بطيئة ولأن قيمة التنشيط صفر لن تشارك العقد في الانتشار الخلفي ، وهذه الوظيفة لها أيضًا تأثير الشبكة المتفرقة.
  • Leaky ReLU : يتم تجنب نتيجة التنشيط الصفري ، بحيث يتم تنفيذ عملية الانتشار الخلفي دائمًا ، ولكن نادرًا ما يتم استخدامها في الممارسة.

اعلى اليمين : لماذا تستخدم وظيفة التنشيط؟ بتعبير أدق ، لماذا تستخدم وظيفة التنشيط غير الخطي؟

يمكن أن نرى من المثال في الشكل أعلاه أن الشبكة العصبية بدون وظيفة التنشيط تنتشر من خلال طبقتين ، والنتيجة النهائية هي نفسها العملية الخطية لطبقة واحدة. الشبكات العصبية مكافئة للشبكات العصبية أحادية الطبقة (باستثناء طبقة الإدخال).

أسفل اليمين : كيفية تهيئة قيم المعلمات w و b؟

عندما تتم تهيئة جميع المعلمات على الصفر ، ستصبح جميع العقد هي نفسها ، ويمكن تعلم نفس الميزات فقط أثناء عملية التدريب ، ولكن ليس الميزات المتعددة الطبقات والمتنوعة. الحل هو تهيئة جميع المعلمات بشكل عشوائي ، ولكن هناك حاجة إلى كمية صغيرة فقط من التباين ، لذلك استخدم Rand (0.01) للتهيئة ، حيث 0.01 هو أيضًا أحد المعلمات المفرطة.

4. ملامح الشبكات العصبية العميقة

أعلى اليسار: تزداد السعة المعلمة للشبكة العصبية بشكل كبير مع زيادة عدد الطبقات ، أي أن بعض الشبكات العصبية العميقة يمكنها حل المشكلات التي تتطلب الشبكات العصبية الضحلة حسابات حجم أسي نسبي لحلها.

أسفل اليسار: يمكن لشبكة CNN العميقة أن تجمع الميزات البسيطة الأساسية في طبقة معالم أكثر تعقيدًا تلو الأخرى ، فكلما زاد العمق ، زاد تعقيد وتنوع الصور التي يمكن تصنيفها. وينطبق الشيء نفسه على شبكة RNN العميقة ، والتي يمكن أن تتحلل الكلام إلى صوتيات ثم تدمجها تدريجيًا في حروف وكلمات وجمل وأداء مهام معقدة من الكلام إلى نص.

حق: تتمثل خصائص الشبكة العميقة في أنها تتطلب الكثير من بيانات التدريب وموارد الحوسبة ، والتي تتضمن عددًا كبيرًا من عمليات المصفوفة ، والتي يمكن تنفيذها بالتوازي على GPU ، وتحتوي أيضًا على عدد كبير من المعلمات المفرطة ، مثل معدل التعلم ، وعدد التكرارات ، وعدد الطبقات المخفية ، واختيار وظيفة التنشيط ، خطة تعديل معدل التعلم ، حجم الدفعة ، طريقة التسوية ، إلخ.

5. الانحراف والتباين

إذن ما الذي تحتاج إلى الانتباه إليه عند نشر نموذج التعلم الآلي الخاص بك؟ يوضح الشكل التالي تجزئة مجموعة البيانات والانحراف والتباين المطلوب لبناء تطبيقات ML.

كما هو موضح أعلاه ، يختلف عدد العينات المطلوبة للتعلم الآلي الكلاسيكي ونماذج التعلم العميق اختلافًا كبيرًا ، ويبلغ عدد العينات للتعلم العميق آلاف المرات من ML التقليدي. لذلك ، فإن توزيع مجموعة التدريب ومجموعة التطوير ومجموعة الاختبار مختلفان أيضًا ، وبالطبع نفترض أن مجموعات البيانات المختلفة هذه جميعها تخضع لنفس التوزيع.

تمثل مشكلة الانحراف والتباين أيضًا تحديًا شائعًا في نماذج تعلُّم الآلة ، ويوضح الشكل أعلاه بدوره عدم الملاءمة الناجم عن الانحراف المرتفع والتجهيز المفرط الناجم عن التباين العالي. بشكل عام ، حل مشكلة الانحراف العالي هو اختيار شبكة أكثر تعقيدًا أو بنية شبكة عصبية مختلفة ، ويمكن أن يؤدي حل مشكلة التباين العالي إلى إضافة تسوية أو تقليل تكرار النموذج أو استخدام المزيد من البيانات للتدريب.

بالطبع ، تحتاج نماذج التعلم الآلي إلى إيلاء المزيد من الاهتمام لهذه المشكلات ، لكنها تمثل الجزء الأساسي والأهم في تكوين تطبيقات ML. البعض الآخر ، مثل المعالجة المسبقة للبيانات ، وتطبيع البيانات ، واختيار المعلمات المفرطة ، كلها تنعكس في خريطة المعلومات التالية.

6. تسوية

التسوية هي الطريقة الرئيسية لحل نماذج التباين العالي أو المفرط. في السنوات القليلة الماضية ، اقترح الباحثون وطوروا مجموعة متنوعة من أساليب التسوية المناسبة لخوارزميات التعلم الآلي ، مثل تحسين البيانات ، تسوية L2 (تسوس الوزن) ، وتسوية L1. ، التسرب ، Drop Connect ، التجميع العشوائي ، الإنهاء المبكر ، إلخ.

كما هو موضح في العمود الأيسر من الشكل أعلاه ، تعد تسوية L1 و L2 أيضًا أكثر طرق التسوية استخدامًا في تعلم الآلة. يضيف التسوية L1 مصطلحات تسوية للدالة الهدف لتقليل مجموع القيم المطلقة للمعلمات ؛ بينما في تسوية L2 ، فإن الغرض من إضافة شروط التسوية هو تقليل مجموع مربعات المعلمات. وفقًا لبحث سابق ، فإن العديد من ناقلات المعلمات في تسوية L1 هي ناقلات متفرقة ، لأن العديد من النماذج تتسبب في أن تقترب المعلمات من الصفر ، لذلك يتم استخدامها غالبًا في إعدادات اختيار الميزة. بالإضافة إلى ذلك ، تسمح تسوية المعلمة الجزائية المعيارية L2 لخوارزمية التعلم العميق بـ "إدراك" الإدخال x مع تباين أعلى ، لذا فإن أوزان الميزة ذات التباين المشترك (التباين المتزايد نسبيًا) مع هدف الإخراج ستتقلص.

في العمود الأوسط ، يوضح الشكل أعلاه تقنية Dropout ، وهي طريقة للتخلص من بعض الخلايا العصبية وعلاقاتها مؤقتًا. يمكن للتخلص من الخلايا العصبية بشكل عشوائي أن يمنع الإفراط في التجهيز ، مع ربط بنيات الشبكات المختلفة بشكل كبير وفعال. بشكل عام ، ستحدد الشبكة العصبية التي تستخدم تقنية Dropout معدل الاحتفاظ p ، ثم يختار كل عصبون عشوائيًا ما إذا كان سيتم إزالته باحتمالية 1-p في دفعة من التدريب. في الاستدلال النهائي ، يجب الاحتفاظ بجميع الخلايا العصبية ، وبالتالي لها دقة أعلى.

يُعد التكييس أسلوبًا لتقليل خطأ التعميم من خلال الجمع بين نماذج متعددة ، والنهج الرئيسي هو تدريب عدة نماذج مختلفة بشكل منفصل ، ثم السماح لجميع النماذج بالتصويت على إخراج عينة الاختبار. ويمكن اعتبار Dropout أسلوبًا للتعبئة يدمج عددًا كبيرًا من الشبكات العصبية العميقة ، لذلك يوفر طريقة تقريب تكميلي متكاملة رخيصة التكلفة ، وهي شبكة عصبية يمكنها تدريب وتقييم كمية بيانات القيمة.

وأخيرًا ، يصف الشكل أعلاه أيضًا طرق التنظيم مثل تحسين البيانات والإنهاء المبكر. تعمل زيادة البيانات يدويًا على زيادة مجموعة بيانات التدريب عن طريق إضافة تحويلات أو اضطرابات إلى بيانات التدريب. تُستخدم تقنيات تحسين البيانات مثل التقليب الأفقي أو الرأسي للصور ، والاقتصاص ، وتحويل الألوان ، والتوسع ، والتدوير بشكل شائع في التمثيل البصري وتصنيف الصور. يستخدم الإنهاء المبكر عادة لمنع الإفراط في التعبير في نماذج التدريب ذات الأداء التعميمي الضعيف. إذا كان عدد التكرارات صغيرًا جدًا ، فإن الخوارزمية عرضة للتشويه (التباين الصغير والانحراف الكبير) ، والعديد من التكرارات ، تكون الخوارزمية عرضة للتضخم (التباين الكبير والانحراف الصغير). لذلك ، الإنهاء المبكر يحل هذه المشكلة عن طريق تحديد عدد التكرارات.

7. التحسين

يعد التحسين وحدة مهمة جدًا في نموذج تعلُّم الآلة. فهو لا يسيطر على عملية التدريب بالكامل فحسب ، بل يحدد أيضًا أداء النموذج النهائي وطول الوقت المطلوب للتقارب. يوضح الرسمان البيانيان التاليان نقاط المعرفة التي تحتاج طريقة التحسين إلى الانتباه إليها ، بما في ذلك إعداد التحسين وطريقة التحسين المحددة.

يوضح ما سبق المشاكل التي تنشأ غالبًا مع التحسين والعمليات المطلوبة. أولاً ، قبل إجراء التحسين ، نحتاج إلى تطبيع بيانات الإدخال ، وثوابت التطبيع (الوسط والتباين) لمجموعات التطوير والاختبار هي نفسها مجموعة التدريب. يوضح الشكل أعلاه أيضًا سبب التطبيع ، لأنه إذا كان فرق الحجم بين الميزات كبيرًا جدًا ، فإن سطح وظيفة الخسارة عبارة عن شكل بيضاوي طويل وضيق ، وسيعزى أصل التدرج أو طريقة الانحدار الأكثر حدة إلى ظاهرة "سن المنشار". من الصعب التقارب ، لذا فإن التطبيع مع دائرة يساعد على تقليل الصدمة في الاتجاه النزولي.

إن اختفاء التدرج التالي ومشاكل انفجار التدرج هي أيضًا ظواهر شائعة جدًا. يشير "اختفاء التدرج" إلى الظاهرة القائلة بأن معيار التدرج للمعلمة يتناقص بشكل كبير مع زيادة عمق الشبكة. التدرج صغير جدًا ، مما يعني أن المعلمات تتغير ببطء ، مما يجعل عملية التعلم راكدة. يشير انفجار التدرج إلى التراكم المستمر للتدرجات الكبيرة من الأخطاء أثناء عملية تدريب الشبكة العصبية ، مما يؤدي إلى تحديث كبير لأوزان النموذج. وفي الحالات القصوى ، تصبح قيم الوزن كبيرة جدًا بحيث تظهر قيم NaN.

يمكن استخدام اختبار التدرج بشكل أقل الآن ، لأننا بحاجة فقط إلى استدعاء المُحسِّن لتنفيذ خوارزمية التحسين على TensorFlow أو أطر العمل الأخرى. يستخدم اختبار التدرج بشكل عام الطرق العددية لحساب المشتق التقريبي والانتشار ، بحيث يمكنه اختبار ما إذا كان التدرج الذي قمنا بحسابه بناءً على الصيغة التحليلية صحيحًا.

فيما يلي خوارزميات التحسين المحددة ، بما في ذلك خوارزميات معدل التعلم التكيفي الأساسية مثل نزول التدرج العشوائي لمجموعة صغيرة ، ونسب التدرج العشوائي القائم على الزخم ، و RMSProp.

الدفعة الصغيرة من التدرج العشوائي (يشير SGD عادةً إلى ذلك) يستخدم مجموعة من البيانات لتحديث المعلمات ، وبالتالي تقليل كمية الحساب المطلوبة لتكرار واحد بشكل كبير. تقلل هذه الطريقة من تباين المعلمات المحدثة وتجعل عملية التقارب أكثر استقرارًا ؛ كما يمكنها استخدام عامل تشغيل المصفوفة المحسن للغاية في إطار التعلم العميق الشائع للعثور على تدرج كل دفعة صغيرة من البيانات بكفاءة. عادة ما تحتوي مجموعة صغيرة من البيانات على ما بين 50 و 256 عينة ، ولكنها ستختلف باختلاف الاستخدامات.

تهدف استراتيجية الزخم إلى تسريع عملية التعلم من SGD ، خاصة في حالة الانحناء العالي. بشكل عام ، تستخدم خوارزمية الزخم المتوسط المنزلق للتحلل الأسي للتدرج السابق لتصحيح هذا الاتجاه ، وذلك لاستخدام معلومات التدرج التاريخي بشكل أفضل. تقدم الخوارزمية متغير v كمعامل في مساحة المعلمة للتحرك بشكل مستمر في متجه السرعة. يمكن تعيين السرعة عمومًا كمتوسط انحلال أسي للتدرج السلبي.

خوارزميات معدل التعلم التكيفي مثل RMSProp و Adam الموضحة لاحقًا في الشكل أعلاه هي حاليًا طرق التحسين الأكثر استخدامًا. تقوم خوارزمية RMSProp (Hinton، 2012) بتعديل AdaGrad لأداء أفضل في ظل ظروف غير محدبة. فهي تغير تراكم التدرج إلى متوسط متحرك مرجح بشكل كبير ، وبالتالي التخلص من معلومات التدرج التاريخية البعيدة. RMSProp هي خوارزمية التحسين التي اقترحها Hinton في الفئة المفتوحة ، في الواقع ، يمكن اعتبارها حالة خاصة من AdaDelta. ولكن أثبتت الممارسة أن RMSProp لديه أداء جيد جدًا ، ويستخدم حاليًا على نطاق واسع في التعلم العميق.

تحصل خوارزمية آدم على مزايا خوارزميات AdaGrad و RMSProp. لا يقوم Adam فقط بحساب معدل تعلم المعلمة التكييفية استنادًا إلى متوسط عزم الدرجة الأولى مثل خوارزمية RMSProp ، ولكنه أيضًا يستفيد بشكل كامل من متوسط عزم الدرجة الثانية للتدرج (أي التباين المتحيز / التباين غير المركز).

8. فرط المعلمة

فيما يلي رسم تخطيطي للمعلومات يقدم معلمات مفرطة ، والتي تحتل دورًا مهمًا في الشبكات العصبية ، لأنها يمكن أن تحسن أداء النموذج بشكل مباشر.

من المعروف جيدًا أن المعلمات الفائقة مثل معدل التعلم ، وعدد الوحدات المخفية للشبكة العصبية ، وحجم الدفعة ، وعدد المستويات ، ومعامل التسوية يمكن أن تؤثر بشكل مباشر على أداء النموذج ، وكيفية ضبطه مهم جدًا. الأكثر شيوعًا حاليًا هو الضبط اليدوي. سيختار المطورون معلمات هايبر "معقولة" بناءً على تجربة النمذجة الخاصة بهم ، ثم يقومون ببعض التعديلات الصغيرة بناءً على أداء النموذج. ومع ذلك ، لا يزال التعديل التلقائي للمعلمات مثل العملية العشوائية أو التحسين البايزي يتطلب قدرًا كبيرًا جدًا من الحساب ، والكفاءة منخفضة نسبيًا. ولكن في الآونة الأخيرة ، تم إحراز تقدم كبير في استخدام التعلم المعزز ، والخوارزميات الجينية ، والشبكات العصبية للبحث عن المعلمات المفرطة ، ويبحث الباحثون عن طريقة فعالة ودقيقة.

طرق البحث الحالية للمعلمات الفائقة هي:

  • الاعتماد على الخبرة: استمع إلى غرائزك ، واضبط المعلمات التي يجب أن تكون صحيحة ، ثم تحقق مما إذا كانت تعمل ، واستمر في المحاولة حتى تتعب.
  • بحث الشبكة: دع الكمبيوتر يجرب بعض القيم الموزعة بالتساوي داخل نطاق معين.
  • بحث عشوائي: دع الكمبيوتر يجرب بعض القيم العشوائية لمعرفة ما إذا كانت سهلة الاستخدام.
  • التحسين بايزي: استخدم أدوات مثل MATLAB bayesopt لتحديد أفضل المعلمات تلقائيًا - اتضح أن تحسين Bayesian يحتوي على معلمات مفرطة أكثر من خوارزمية التعلم الآلي الخاصة بك ، ولا أحبها. أعود إلى الاعتماد على الخبرة وأساليب البحث في الشبكة.

نظرًا للمساحة المحدودة ، فإن العرض التقديمي التالي سيقدم فقط لفترة وجيزة خرائط المعلومات ، وأعتقد أنها مفيدة جدًا للقراء.

9. عملية التعلم الآلي المنظمة

نحتاج إلى إعداد نظام التعلم الآلي الخاص بنا وفقًا للعملية أو الهيكل ، أولاً وقبل كل شيء ، نحتاج إلى تحديد الأهداف التي سيحققها النموذج ، مثل الأداء المتوقع وطرق القياس. ثم قسم مجموعات التدريب والتطوير والاختبار ، وتوقع مستوى التحسين المحتمل. ثم يتم بناء النموذج وتدريبه ، ويمكن استخدامه للاستدلال بعد التحقق من مجموعة التطوير ومجموعة الاختبار.

10. تحليل الخطأ

بعد الانتهاء من التدريب ، يمكننا تحليل مصدر الخطأ وتحسين الأداء ، بما في ذلك العثور على تسمية خاطئة ووظيفة فقدان غير صحيحة.

11. مجموعة التدريب ومجموعة التطوير ومجموعة الاختبار

يوضح الشكل أعلاه النقاط التي يجب الانتباه إليها في مجموعات البيانات الثلاث المقسمة وأدائها ، أي إذا كان لديهم معدلات دقة مختلفة ، فكيف يمكننا تصحيح هذه "الاختلافات". على سبيل المثال ، المعدل الصحيح لمجموعة التدريب أعلى بشكل ملحوظ من مجموعة التحقق ومجموعة الاختبار ، مما يشير إلى أن النموذج أكثر من اللازم. المعدل الصحيح لمجموعات البيانات الثلاث أقل بكثير من المستوى المقبول ، والذي قد يكون بسبب عدم ملاءمة.

12. طرق التعلم الأخرى

بالطبع التعلم الآلي والتعلم العميق ليس فقط طرق التعلم تحت الإشراف ، ولكن أيضًا مثل التعلم عن طريق النقل والتعلم متعدد المهام والتعلم الشامل.

شبكة تلافيفية

13. أساسيات الشبكات العصبية التلافيفية

حجم البيانات المتضمنة في مهام رؤية الكمبيوتر كبير بشكل خاص ، وهناك الآلاف من نقاط البيانات في الصورة ، ناهيك عن تحسين دقة الصور ومقاطع الفيديو. في هذا الوقت ، إذا تم استخدام الشبكة المتصلة بالكامل ، فسيكون عدد المعلمات كبيرًا جدًا ، لذلك يتم استخدام الشبكة العصبية التلافيفية (CNN) ، ويمكن تقليل عدد المعلمات بشكل كبير. يشبه مبدأ العمل في CNN مسح الصورة بأكملها باستخدام مرشح يكشف عن ميزات معينة ، واستخراج الميزات ، ودمجها في طبقة معالم أكثر وأكثر تعقيدًا طبقة تلو الأخرى. طريقة عمل "المسح" هذه تجعلها تتمتع بخصائص جيدة لمشاركة المعلمات ، بحيث يمكنها اكتشاف الهدف نفسه في مواضع مختلفة (التناظر الانتقالي).

يمكن الحكم على ميزة الكشف المقابلة لنواة الالتواء من خلال توزيع المعلمات الخاصة بها. على سبيل المثال ، يمكن لنواة الالتواء التي ينخفض وزنها من اليسار إلى اليمين أن تكتشف حدود الخطوط الرأسية بالأبيض والأسود وتعرضها كخريطة معالم ذات مركز مشرق وجوانب مظلمة. يعتمد الضوء النسبي المحدد والنتائج المظلمة على العلاقة النسبية بين توزيع بكسل الصورة ونواة الالتواء. يمكن أن تكون أوزان النواة الالتفافية مشفرة بشكل مباشر ، ولكن من أجل تكييف البنية نفسها مع المهام المختلفة ، من الأفضل الحصول على أوزان النواة الالتفافية من خلال التدريب.

المعالم الرئيسية لعملية الالتفاف:

حشوة: ستعمل عملية الالتفاف المباشر على جعل خريطة المعالم الناتجة أصغر وأصغر ، وستضيف عملية الحشو قيمة 0 بكسل حول الصورة ، بحيث يكون حجم خريطة المعالم التي تم الحصول عليها بعد الالتفاف والصورة الأصلية (الطول والعرض ، باستثناء عدد القنوات) نفس الشيء.

الخياران الأكثر استخدامًا هما: "VALID" ، ولا يتم عمل أي حشو ؛ "SAME" ، بحيث يكون طول وعرض خريطة ميزات الإخراج متطابقين مع الصورة الأصلية.

خطوة: حجم الخطوة بين عمليتي الالتفاف.

يمكن أن يكون هناك العديد من نواة الالتواء على طبقة تلافيفية. نتيجة كل عملية نواة الالتفاف هي قناة. خرائط المعالم لكل قناة لها نفس الطول والعرض. يمكن تكديسها لتشكيل خريطة معالم متعددة القنوات مثل المجلد التالي. إدخال الطبقات.

بنية الشبكة العصبية التلافيفية العميقة:

تتكون بنية الشبكة العصبية التلافيفية العميقة بشكل رئيسي من التراص متعدد المستويات للطبقات التلافيفية وطبقات التجميع ، وأخيرًا تقوم الطبقة المتصلة بالكامل بالتصنيف. تتمثل الوظيفة الرئيسية لطبقة التجميع في تقليل حجم خريطة المعالم ، وبالتالي تقليل عدد المعلمات ، وتسريع الحساب ، وجعل أداء الكشف عن الهدف أكثر قوة.

14. الشبكة العصبية التلافيفية الكلاسيكية

  • LeNet 5: شبكة تصنيف التعرف على الكتابة اليدوية ، هذه هي أول شبكة عصبية تلافيفية ، اقترحها يان لوكون.
  • AlexNet: شبكة تصنيف الصور ، مقدمة لوظيفة تنشيط ReLU في CNN لأول مرة.
  • VGG-16: شبكة تصنيف الصور بعمق أكبر.

15. شبكة عصبية تلافيفية خاصة

  • ResNet: يمكن أن يؤدي إدخال الاتصالات المتبقية للتخفيف من اختفاء التدرج ومشكلات انفجار التدرج إلى تدريب شبكات عميقة جدًا.
  • الشبكة في الشبكة: يمكن أن يؤدي استخدام نواة الالتفاف 1 1 إلى تغيير عملية الالتفاف إلى نموذج مشابه لشبكة متصلة بالكامل ، ويمكن أيضًا تقليل عدد القنوات في خريطة المعالم ، وبالتالي تقليل عدد المعلمات.
  • شبكة التأسيس: يمكن لعمليات موازية باستخدام أحجام متعددة من نواة الالتواء ثم التراص في قنوات متعددة التقاط ميزات بأحجام متعددة ، ولكن العيب هو أن كمية الحساب كبيرة جدًا ، ويمكن تقليل عدد القنوات بمقدار 1x1.

16. ممارسة التوصيات

  • استخدام تطبيق مفتوح المصدر: من الصعب جدًا التنفيذ من الصفر ، ويمكن أن يستكشف تنفيذ الآخرين بسرعة مهام أكثر تعقيدًا وإثارة للاهتمام.
  • تحسين البيانات: من خلال إجراء عمليات مثل النسخ المطابق والاقتصاص العشوائي والتدوير وتغيير اللون في الصورة الأصلية ، يزداد مقدار وتنوع بيانات التدريب.
  • نقل التعلم: عندما يكون هناك القليل جدًا من بيانات التدريب للمهمة الحالية ، يمكن ضبط النموذج المدرب بالكامل على كمية صغيرة من البيانات للحصول على أداء جيد بما فيه الكفاية.
  • نصائح لأداء جيد في المعايير والمسابقات: استخدم تكامل النموذج ، واستخدم متوسط نتائج إخراج نماذج متعددة ؛ في مرحلة الاختبار ، قم باقتصاص الصورة في نسخ متعددة للاختبار بشكل منفصل ، وقم بمتوسط نتائج الاختبار.

17. خوارزمية الكشف عن الهدف

كشف الهدف هو استخدام المربعات المحيطة للكشف عن موضع الأشياء في الصورة. أسرع R-CNN و R-FCN و SSD هي النماذج الثلاثة الأكثر انتشارًا والأكثر استخدامًا للكشف عن الهدف. يوضح الشكل أعلاه أيضًا العملية الأساسية لـ YOLO.

18. التعرف على الوجه

هناك نوعان رئيسيان من تطبيقات التعرف على الوجه: التحقق من الوجه (التصنيف الثنائي) والتعرف على الوجه (التصنيف متعدد الأشخاص).

عندما يكون حجم العينة غير كافٍ ، أو عند إضافة عينات جديدة باستمرار ، يجب استخدام التعلم بلقطة واحدة. الحل هو معرفة وظيفة التشابه ، أي تحديد تشابه الصورتين. على سبيل المثال ، عند تعلم التعرف على الوجوه في شبكة سيامي ، يتم استخدام ناتج الشبكتين لتقليل الفرق بين ناتجين من نفس الشخص وزيادة الفرق بين ناتجين من أشخاص مختلفين.

19. أسلوب النقل

نقل النمط هو موضوع ساخن ، وسوف يعطي شعورا منعشا بصريا. على سبيل المثال ، إذا كانت لديك صورة ، ثم قمت بتطبيق السمات النمطية لصورة أخرى على هذه الصورة ، مثل تعديل صورتك بأسلوب رسام مشهور أو لوحة مشهورة ، فيمكننا الحصول على أعمال ذات أنماط فريدة.

شبكة متكررة

20. أساسيات الشبكات العصبية المتكررة

كما هو موضح أعلاه ، تمثل مشاكل التسلسل مثل التعرف على الكيان المسمى نسبة كبيرة في الحياة الواقعية ، في حين أن خوارزميات التعلم الآلي التقليدية مثل سلاسل ماركوف المخفية يمكن أن تقدم افتراضات قوية للتعامل مع بعض مشاكل التسلسل. ولكن في الآونة الأخيرة ، حققت الشبكات العصبية المتكررة اختراقات كبيرة في هذه المشاكل ، يتم حفظ بنية الحالة المخفية لـ RNN في شكل دائري. وتعتمد حالة الطبقة المخفية في كل لحظة على حالتها السابقة. تسمح هذه البنية لـ RNN بحفظ وتذكر ومعالجة الإشارات المعقدة طويلة المدى في الماضي.

يمكن للشبكات العصبية المتكررة (RNN) تعلم الميزات والتبعيات طويلة الأجل من بيانات التسلسل وبيانات السلاسل الزمنية. تحتوي RNN على مجموعة من الوحدات غير الخطية ، حيث يشكل اتصال واحد على الأقل بين الوحدات دورة موجهة. يمكن لشبكة RNN المدربة أن تمثل أي نظام ديناميكي ؛ ومع ذلك ، فإن شبكة RNN المدربة تتأثر بشكل رئيسي بمشكلة الاعتماد على التعلم على المدى الطويل.

يوضح ما يلي تطبيق ومشاكل ومتغيرات RNN:

تتمتع الشبكات العصبية المتكررة بقوة كبيرة في مشاكل التسلسل مثل نمذجة اللغة ، ولكن في الوقت نفسه ، لديها أيضًا مشاكل اختفاء متدرجة خطيرة. لذلك ، فإن شبكات RNN القائمة على البوابات مثل LSTM و GRU لديها إمكانات كبيرة ، فهي تستخدم آلية البوابات للاحتفاظ بمعلومات الخطوة الزمنية السابقة أو نسيانها وتشكيل ذاكرة لتوفير عملية الحساب الحالية.

21. تمثيل الكلمات في البرمجة اللغوية العصبية

يعد تضمين الكلمات أمرًا مهمًا جدًا في معالجة اللغة الطبيعية ، لأنه بغض النظر عن نوع المهمة التي يتم تنفيذها ، فمن الضروري وصف الكلمة. يوضح الشكل أعلاه طريقة تضمين الكلمات ، يمكننا تعيين المفردات إلى متجه الأبعاد 200 أو 300 ، وبالتالي تقليل مساحة وصف الكلمات بشكل كبير. بالإضافة إلى ذلك ، يمكن أن تمثل طريقة تمثيل الكلمات هذه دلالات الكلمات ، لأن الكلمات ذات المعاني المماثلة قريبة من مسافة قريبة في مساحة التضمين.

بالإضافة إلى Skip Grams الموصوفة أعلاه ، يوضح ما يلي أيضًا الأساليب الشائعة لتعلم تضمين الكلمات:

GloVe word vector هو طريقة شائعة جدًا لتعلم ناقلات الكلمات ، ويمكن استخدام تمثيل الكلمات الذي يتعلمه أيضًا لتصنيف الجمل والمهام الأخرى.

22. تسلسل إلى تسلسل

الطريقة الأكثر استخدامًا للتسلسل إلى التتابع هي إطار التشفير - فك التشفير ، وهناك وحدات أخرى مثل بحث الحزمة.

يمكن لبنية وحدة فك ترميز التشفير وآلية الانتباه حل العديد من مشكلات معالجة اللغة الطبيعية. يتم عرض درجة BLEU وآلية الانتباه أدناه. لا غنى عنها في هندسة وتقييم الترجمة الآلية.

ما سبق هو كل خرائط المعلومات الخاصة بدورات Wu Enda الخاصة بالتعلم العميق. ولأنها تحتوي على مزيد من المعلومات ، فقد قدمنا جزءًا منها فقط ، ولا يزال هناك العديد من المحتويات التي لا تعدو كونها تمريرة بسيطة. لذلك من الأفضل للقراء تنزيل هذا الرسم البياني وفهمه ببطء وتحسينه في عملية التعلم اللاحقة.

قم بالرد على الرسالة الخاصة "Backstage" للحصول على رابط تنزيل هذه الملاحظة

المحرر: هوانغ جيان

التدقيق اللغوي: لين Yilin

- إنهاء -

اتبع منصة WeChat العامة التابعة لمعهد Tsinghua-Qingdao Data Science Research الرسمي " فطيرة البيانات THU "ورقم الأخت" فطيرة البيانات "احصل على المزيد من فوائد المحاضرات وجودة المحتوى.

افتتح ميرك مركز الابتكار قوانغدونغ فى جزيرة البيولوجية: منطقة خليج ثلاث صناعات رئيسية ويضيف "تعزيزات"

وكانت المساعدات إلى الحقيقة Wuhou "خمسة إجراءات" لتعزيز الصحة لصالح الفقراء

تجمع الباحثين والأطباء والمستثمرين في هذه الصناعة، والتي سوف تحطم من الشرارة؟

استخدام نموذج المزيج الغوسي لجعل التكتل أفضل وأكثر دقة (مع البيانات والتعليمات البرمجية والموارد التعليمية)

شمال غرب شارع فيرست إيسترن قناة تاون - على الجنوب خط فينيكس الشاي + قنوات رحلة المدينة

جيثب 3K سوبر ستار! من التعليمات البرمجية بايثون إلى APP عليك سوى أداة صغيرة

معالجة الصرع لتعزيز تدويل الطبقات الصرع بين الصين والولايات المتحدة الذي عقد في بكين

النتائج الأولية الأولى من يوان مينغ يوان الحصان! وقد فقدت مساعدة كسر القدماء الصب "التكنولوجيا السوداء"

معهد بحوث السيارات سوتشو جامعة تسينغهوا لموجة: شبكة السيارة الذكية التي تربط بين ستة اتجاهات وخطة الصين

الخريف ناجحة! تهدئة قلق فوري، وقوانغدونغ أدنى درجة الحرارة إلى أصابع اليد الواحدة! تحت البرد على الطريق

8K الكاميرا لاول مرة قرار عادل 15 أضعاف 1080P الكاميرا

الدكتور جامعة تسينغهوا في بكين: العلمية النقاش التفكير "التعبير" و "المعرفي" تسبب