كتاب أندرو نغ، "التدريب غش آلة التعلم" ست نقاط تلخص | الموارد

تجف الانتهاء مترجم

تقارير و qubit | عدد ملفه QbitAI

كيف تقرأ "آلة التدريب تعلم غش" أندرو نج؟

تعلم باسكال الملاحظات القادمة!

مؤخرا، رجل يدعى نيكلاس DONGES المهندسين شقيق نشرت بلوق وظيفة، لاستخراج النقاط الست "آلة التعلم تدريب غش" في.

هذا الكتاب ليس من السهل قراءة، وليس فقط المعرفة النظرية، ولكن أيضا تحتاج إلى بعض الخبرة العملية.

اتبع هذه النقطة، ويمكنك معرفة كيفية اختيار هذه المسألة، تقسيم مجموعة البيانات، نموذج تكرارية وهلم جرا، لبناء نظام تعلم الآلة بشكل أسرع وأفضل.

محتويات الرئيسية للو qubit جمعت على النحو التالي، على أمل أن تلهمك.

التكرار، التكرار، التكرار

في جميع أنحاء الكتاب، وأكد أندرو نغ، تعلم الآلة هو عملية متكررة وسريعة التكرار مهم جدا.

بدلا من انفاق الكثير من الوقت في التفكير حول كيفية بناء نظام تعلم آلة الكمال، ونحن قد وكذلك بناء نموذج أولي بسيط في أقرب وقت ممكن.

بناء نموذج أولي في غضون بضعة أيام، ثم سوف ترى فكرة جديدة تخبرك نوع من التوجيه ما أن تختار لتحسين أداء النموذج.

التكرار التالي، ويمكن تحسين النظام وفقا لهذه القرائن، وبناء على الإصدار التالي من نظام. واحدا تلو الآخر، لا نهاية.

وقال أندرو نغ، التكرار أسرع، أدلى النموذج مزيد من التقدم.

عدة نقاط أخرى، تقوم على هذا المبدأ.

ملاحظة، ولكن هذا المبدأ لا ينطبق إلا على الناس لبناء تطبيقات الذكاء الاصطناعي في حل مشاكل العالم، بالنسبة للأشخاص الذين يرغبون في إجراء البحوث في هذا المجال، لأغراض مرجعية فقط.

باستخدام مؤشر تقييم واحد

لماذا يجب أن أختار مؤشر تقييم واحد، والسبب بسيط جدا: لتقييم بسرعة أداء الخوارزمية، ثم أعاد أسرع.

استخدام مؤشرات متعددة لتقييم، ولن يؤدي ذلك إلا عملية أكثر صعوبة.

لنفترض أن هناك اثنين من الخوارزمية، دقة (الدقة) من 94 ونذكر (استدعاء) من 89. كانت دقة آخر 88، 95 التذكير.

لا يوجد مؤشر واحد مثل هذا، فإنه من الصعب أن القاضي أي واحد هو أفضل، ويستغرق بعض الوقت لتقييم خوارزمية في النهاية الذي هو أكثر ملاءمة لهذه المشكلة التي تريد حلها.

وعلاوة على ذلك، في الجزء الخلفي من كل تكرار، وسوف تفقد الكثير من الوقت على هذه العملية.

إذا كنت تستخدم مؤشر تقييم واحد، مثل الدقة أو درجة F1، يمكنك فرز جميع الخوارزميات أو النماذج القائمة على الأداء، وسرعان ما تقرر أيهما الأكثر فعالية.

طريقة أخرى لتحسين عملية التقييم، يتم دمج العديد من المؤشرات في مؤشر واحد، على سبيل المثال، بلغ متوسط عدد وافر من مؤشرات الخطأ.

ومع ذلك، على سبيل المثال، قال مشاكل في التعلم آلة المرتبطة الحلول لتلبية احتياجات المؤشر أكثر من واحد بالإضافة إلى النظر في خطأ، ولكن أيضا يجب أن يكون لديك وقت قصير كافية لتشغيل.

وأوضح أندرو نغ أنه ينبغي أن يكون تعريفا للوقت "مقبول" تشغيل، والتي يمكن التخلص بسرعة خوارزميات بطيئة، وإيجاد خوارزمية جيدة بناء على تقييم مؤشر واحد.

وباختصار، فإن مؤشر تقييم واحد لتقييم بسرعة خوارزمية الأداء، وتسريع معدل التكرار.

تحليل الأخطاء أمر بالغ الأهمية

تحليل الأخطاء، انظر إخراج خوارزمية ليس هو الإجراء الصحيح من العينة. تخيل الممي القط، فإن الطيور يكون مخطئا لقطة، قد يكون لديك العديد من تحسين الأسلوب هو أفضل.

، ويمكن تقييم هذه التحسينات من خلال تحليل الخطأ الطرق المناسبة لمعرفة ما اذا كان يمكن تحسين أداء النظام. دون الحاجة إلى قضاء أشهر لتنفيذ هذه الطرق، في النهاية فقط لتجد عديمة الفائدة.

هذا يمكن أن تساعدك على اتخاذ قرارات أفضل.

وإذا كان كل صورة الممي تصنيفها عن طريق الخطأ، 9 فقط من الطيور، ثم لا على وجه التحديد الأمثل لصور الطيور، لأن معظمهم لا رفع أكثر من هامش 9 من الخطأ.

وبالإضافة إلى ذلك، يمكن إجراء تحليل الأخطاء لتحسين تقييم عدة طرق يمكن أن يؤديها في وقت واحد.

أولا، إنشاء جداول البيانات، والتعبئة في كل صورة يتم تصنيفها بشكل سيئ في كل صف، كل عمود، تعبئة في تحسين الأسلوب.

بعد ذلك، تحقق من كل صورة وعلامة أساء تصنيف نرى ما هي نعم التصنيف الصحيح.

يمكن أن ينظر إليه من خلال جدول، الطريقة التي يمكن أن يحسن خوارزمية أفضل. على سبيل المثال، وذلك باستخدام "أسلوب 1"، النظام قد تصنف على سوء تصنيف صورة 40 صحيحة، "الأسلوب 2" 12 "الطريقة 3" 9 فقط. وبناء على هذا، يمكن الاستنتاج، هو لتحسين ينبغي أن يتم على طريقة للخروج.

في ظل الظروف العادية، طالما نظرة على هذه العينات، وكيفية تحسين خوارزمية سوف تكون واضحة.

وهناك تعريف واضح لنسبة الخطأ الأمثل

نسبة الخطأ الأمثل، ومساعدة للمضي قدما في الخطوات اللاحقة التكرار. في الإحصاءات، بل هو أيضا غالبا ما يشار الى بايز نسبة الخطأ (نسبة الخطأ بايز).

لنفترض أنك تقوم بإنشاء صوت - نظام تحويل النص، حيث 19 من ملفات الصوت لها ضجيج في الخلفية كبير، حتى لو كان هو قانون الإنساني لم نسمع بوضوح.

في هذه الحالة، وحتى أفضل أنظمة الذكاء الاصطناعي، قد يكون هناك ما يقرب من 19 خطأ.

إذا كانت المعالجة الأمثل نسبة الخطأ بالقرب من 0 من الأسئلة، وأنظمة الذكاء الاصطناعي وينبغي أيضا أن تستهدف مع 0 أخطاء.

كما يمكن أن تساعدك على اكتشاف ما إذا كان خوارزمية المتضررين من الانحراف عالية أو تباين عالية، مما يساعد على تحسين خوارزمية المقبلة.

ولكن كيف لنا أن نعرف أن نسبة الخطأ الأمثل هو كم؟ لمهمة الإنسان جيدة، ويمكن مقارنة أداء النظام مع الإنسان، لذلك أن الأمثل تقدير نسبة الخطأ.

وفي حالات أخرى، غالبا ما يكون من الصعب تحديد نسبة الخطأ الأمثل. ولذلك، يجب علينا أن نركز على أسئلة جيدة البشر يمكن القيام به.

يمكن للانسان ان يفعل لحل سؤال جيد جدا

في جميع أنحاء الكتاب، وقد أوصى أندرو نغ أن نقوم بدراسة جيدة جدا من المشاكل الإنسانية، مثل التعرف على الكلام، تصنيف الصور، الكشف عن وجوه، وما إلى ذلك، وقد بينا مرارا وتكرارا لماذا.

أولا، يجب الحصول أو إنشاء مجموعات بيانات الموسومة أسهل إذا كان الناس يمكن أن تحل مشاكلهم، وأنها يمكن أن توفر تسمية دقيقة للغاية مباشرة إلى خوارزمية التعلم.

ثانيا، يمكنك استخدام أداء الشخص، حيث وصل سعر الخطأ الأمثل من الخوارزمية. وأوضح أندرو نغ أن تعريف تقدما معقولا، ويمكن تحقيق مساعدة خطأ الأمثل تعزيز الفريق. ويمكن أيضا اكتشاف ما إذا كان وجود خوارزمية الانحراف عالية أو تباين مرتفع.

لا يمكن أن يؤديها الثالث تحليل الأخطاء، على الحدس البشري. إذا كنت بناء نظام التعرف على الصوت، وقد أساء تصنيف المدخلات، يمكنك محاولة لفهم الإنسان والحصول على تصنيف الصحيح وفقا لما المعلومات، ومن ثم استخدام هذه المعلومات لتحسين خوارزمية.

على الرغم من أن الخوارزمية هو أبعد من البشر في عدد متزايد من البشر لا يمكن إكمال المهمة، ولكن يجب أن لا تزال تحاول تجنب هذه المهام.

وهذا يجعل الأمر أكثر صعوبة للحصول على تسميات البيانات لم تعد قادرة على الاعتماد على الحدس البشري، فإنه من الصعب أن تعرف كم هو الأمثل نسبة الخطأ.

كيفية تقسيم مجموعات البيانات

المهمة المحددة، وأيضا معرفة كيفية نموذج تكرارية، وكيفية اختيار مجموعة البيانات ذلك؟

اقترح أندرو نغ أيضا وسيلة لتقسيم مجموعة البيانات. توصياته هي كما يلي:

  • تدريب مجموعة: فقط لتدريب الخوارزمية، وليس لأغراض أخرى.
  • وضع التحقق من الصحة: مجموعة البيانات هذه المعلمة للتعديل جدا، واختيار وإنشاء الخصائص المناسبة، وتحليل الأخطاء. انها تستخدم أساسا لتحديد الخوارزميات.
  • وضع الاختبار: لتقييم أداء النظام، ولكن ليس لاتخاذ القرارات. وهو يستخدم فقط لتقييم، وليس لأي غرض آخر.

التحقق من صحة واختبار مجموعات للتقييم السريع للأداء الخوارزمية. الغرض منها هو إرشادك إلى معظم التغييرات الهامة لهذا النظام.

اقترح أندرو نغ أن اختيار مجموعات البيانات للتحقق ويجب أن يكون وقت الاختبار الدقيق.

هذه البيانات، تأكد من وجود ارتباط وثيق مع النظام لحل المشكلة، وذلك لتحسين أسلوب النظام.

بيانات الفرق البيانات المستخدمة في عملية التدريب، وخاصة نظام ستتعامل أكبر، يجب أن تولي اهتماما لهذا.

على سبيل المثال، باستخدام نموذج التدريب العاديين صور الكاميرا اتخاذها، ولكن بعد هذا النموذج الواجب اتخاذها لمعالجة الهاتف الذكي خارج الصورة. ولكن ليس هناك ما يكفي من الصور النقالة الذكية كمجموعة التدريب.

عند هذه النقطة، يجب عليك استخدام الصور الهواتف الذكية تؤخذ على أنها مجموعة التحقق من صحة ومجموعة اختبار لنموذج متكرر.

في المجموعة اختبار، يجب أن حدد أن تلك البيانات تعكس بدقة أداء النظام، بدلا من بيانات التدريب.

وبالإضافة إلى ذلك، فإن اختيار التحقق من صحة واختبار مجموعة من البيانات، تولي اهتماما لالاتساق.

إذا أجريت النظام أيضا على مجموعة التحقق من صحة، حالة ضعف الأداء على بيانات الاختبار، ورطة.

بوابة

"غش آلة تدريب التعلم" النسخة الصينية:

https://accepteddoge.com/machine-learning-yearning-cn/docs/ch58/

بلوق الأصلي:

https://towardsdatascience.com/6-concepts-of-andrew-ngs-book-machine-learning-yearning-abaf510579d4

- كامل  -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI عناوين على التوقيع

' " تتبع تقنيات AI دينامية جديدة والمنتجات

وسائل الإعلام الأجنبية أفضل من أعلن مسؤول في وقت سابق؟ ما شانغ لماذا قوانغدونغ، على غرار نجم اللعب لا يعمل

أداء كاي مينغ هو وراء قناع R-CNN! هوا Keshuo سو سين جديد مفتوح المصدر طريقة تقطيع الصورة

حقوق التأليف والنشر "الثقب الأسود" حرق الحروف الصينية، باستخدام Microsoft أسود أنيق، وكان التعدي؟ وكان الناشط الخط مؤسس Tucao

غارنيت غارنيت جينغ باو، والاولمبية في سيدني حلم أربعة دولارات الرهان الملايين الذين يجب أن الرهان كل خصم ياو مينغ

10000 سبعة أسود وشاشة الهاتف للطي للعب ملك المجد بهذه الطريقة؟ العضو: لا يمكن تحمله!

مجرد ثانية واحدة للتأهل، فريق الصين نهائيات كأس العالم U20 المرأة من الأسف

CBA لمعظم مرحلة يصرف، وقد انخفضت فريق الكرة، مما يجعل من التصفيات بالضيق بسهولة

متشرد المال لشراء الهاتف المحمول، والهاتف كشك شبكة التحول فرك للعب مباريات والمستخدمين: لا تعبث مع مبرمج!

التقى لكرة القدم معظم الد الماشية وابنه في 23 الناقل مع بوفون لقاء CCTV5، نجل الرئيس قد تشنغ جامعة الكونغ

CVPR من الورق! شقيق الصيني، ثم التنقل صاحب العمل الروبوت، وفاز بالجائزة الأولى في ورقة 5000

وقال مذيع أبدا الإقلاع عن التدخين، والآن يجب أن نحارب وجوههم بك؟ تصفية هل الأضرار الرصين نظرة: العضو

لن يفوز على المنزل، U20 كأس العالم للسيدات اليوم مواجهة معركة حياة أو موت