Scikit تعلم المطورين الأساسيين مقابلة: بناء آلة التعلم سير العمل الأكثر عرضة لارتكاب هذا الخطأ 02:00

هذه المقالة هي مقابلة مع Scikit تعلم المطورين، towardsdatascience الواردة في الأصل، ومطوري AI تجميع ما الانتهاء من المقابلة أدناه.

مذيع : Haebichan يونغ، رئيس المشروع الموقع TowardsDataScience. سان فرانسيسكو Recurly عالم البيانات.

المستطلعين : أندرياس مولر، Scikit تعلم مطوري الأساسية، والمؤلفين كتاب "بيثون آلة التعلم الشروع في العمل"، والعلماء في بيانات معهد العلوم جامعة كولومبيا، محاضر.

Haebichan يونغ: كيف للمجتمع المصدر المفتوح هو الحفاظ على Scikit تعلم؟ سير العمل والملكية هيكل من المكتبة هو نوع من كيف؟

أندرياس مولر: الأول هو المستخدم. Scikit-يتعلم معظم الناس الذين ساهموا في بداية كل المستخدمين. إذا كنت لا تستخدم هذه الحزمة، لم يكن لديك القدرة على فعل هذا الشيء.

الثانية، هي التي تحرك معظم مساهمة كبيرة من الناس من حالات الاستخدام. بعض إصدارات مكتوبة بالنسبة لي Scikit التعلم، لأنني أريد أن استخدامها. هذه عادة ما تكون أفضل صيغة. كنت لا تريد أن تكون برامج محددة للغاية لمواجهة حالات الاستخدام، وكنت لا تريد أن العلامة في وظيفة.

ثالثا، لمعقدة كما Scikit تعلم شيء ما كنت لا تريد البدء في إضافة بعض الميزات الجديدة الرائعة. كثير من الناس لديهم نموذج المفضلة لديهم، انهم يريدون لإضافته إلى Scikit تعلم أن تبدأ في مساهماتهم. ولكن الآن إضافة نموذج لScikit تعلم يستغرق نحو عام. لذلك أنا حقا أن يوصي أن تبدأ صغيرة. أنا وثائق تنضيدها من البداية. وثائق محسنة هي دائما موضع ترحيب. هناك الكثير من الأشياء عن تتبع القضية.

Haebichan يونغ: تحقيق أولئك الذين Scikit تعلم في آلة سير العمل التعلم، ترى الأخطاء الشائعة ما أو شيء غير فعال؟

أندرياس مولر: في الأخطاء العامة، الشائعة المرتبطة Scikit التعلم والتعلم الجهاز بطريقتين.

1. للحصول على التعلم Scikit، والجميع قد تستخدم خط الانابيب. إذا كنت لا تستخدم الأنابيب، قد يكون هناك بعض الأماكن التي ظلموا. 2 منذ سنوات، قدمنا لتحويل العمود الذي يسمح لك لمعالجة البيانات مع المتغيرات المستمرة والفئوية، أو التعامل مع أنواع أخرى من واحدة ساخنة التشفير، كل شيء على ما يرام.

2. وهناك خطأ شائع أرى في تعلم الآلة لا تولي اهتماما كافيا للمقاييس. Scikit تعلم دقة القياس كما الافتراضي. ولكن مرة واحدة لديك بيانات غير المتوازنة، ودقة هو مؤشر الرهيب. يجب عليك أن تنظر حقا باستخدام مؤشرات أخرى. ونحن لن تغيير المقياس الافتراضي، لأنه يتم استخدام دقة على نطاق واسع، ولكن هناك شرح ذلك بوضوح. ومع ذلك، تعلم الآلة، ولعرض مقاييس أخرى للنظر في حالات استخدامك سواء كانوا من أكثر المشاكل شيوعا.

ما هي خط أنابيب؟ إذا لم يكن دقيقا، ما مؤشرات أخرى أكثر مناسبة لتعلم الآلة؟

في Scikit تعلم، يتم تعبئتها كل نماذج ML في فئة الثعبان بسيطة تسمى "مقدر" في. عادة في عملية التعلم الآلي، قد يكون لديك المصنف مع سلسلة من الخطوات قبل العلاج. قناة يسمح لك لتغليف كل خطوة المعالجة، واختيار ميزة، والقياس، متغير الترميز وغيرها، وعادة ما يكون لها نماذج النهائية للإشراف في مقدر واحد.

بحيث يكون لديك كائن للقيام بكل العمل نيابة عنك. ومن المريح جدا لتكون قادرة على كتابة يظهر رمز الخطأ أقل، لأنه يضمن أن تقوم بتدريب ومجموعات اختبار هي نفسها. وأخيرا، يجب عليك استخدام البحث عبر شبكة التحقق من صحة أو CV. في هذه الحالة، فمن المهم أن كل ما قبل المعالجة تتم في دورة عبر التحقق من الصحة. إذا تم تحديد وظيفة في دورة خارج تصديق متقاطع، يمكن لأمور سيئة جدا يحدث. ولكن في خط أنابيب الخاص بك، وانت تعرف كل شيء دورة عبر التحقق من الصحة.

سلسلة محاضرات أندرياس مولر كولومبيا

لهذا الاجراء، وعادة ما تكون تجاهلها في تصنيف ثنائي. في تصنيف ثنائي والدقة تعتمد على ما هي أهدافك. أحب مشاهدة ومتوسط مساحة تحت دقة منحنى ROC. هذه هي بعض نوع من مقياس الحبيبات غرامة. وأود أيضا أن نرى منحنى استدعاء دقيقة (AUPRC). وتكمن أهمية هذه المؤشرات هي أنها لا تعتمد على عتبة القرار من التطبيق الخاص بك، لأنها تحتل المرتبة المؤشر. لذا عليك أن تقرر أين تعيين عتبة للإشارة إلى "في ما أقوله هو احتمال وجود فئة 1 أو الدرجة 0؟".

المؤشرات الأخرى التي يمكنك دراسة مؤشر F1 أو متوسط معدل سحب / دقة، وهذه هي مثيرة جدا للاهتمام.

Haebichan يونغ: هل هناك Scikit تعلم حزمة أدوات أخرى أو استخدام ميزات تجعلك تشعر بأنك غير كافية أو مقومة بأقل من قيمتها؟

أندرياس مولر: هناك ميزة لم تستغل بالكامل، لأنها لا تزال جديدة للغاية، ومما يعزز ذلك التدرج اصمت. ويتحقق هذا LightGBM الجذر، مما يعزز التدرج تحقيق أسرع بكثير من ذي قبل. وهو أسرع قليلا من XGBoost، أبطأ من LightGBM. حاليا لا يمكن أن تدعم القيم التعامل مع عداد المفقودين، ولكن سيتم قريبا الافراج عن هذه الميزة في الاسبوعين المقبلين بعد إطلاق سراح. كما أنها لا تدعم متغير نوعي، سيتم الافراج عن وظيفة في ربيع العام المقبل.

Haebichan يونغ: لقد ذكرت LightGBM مثيرة جدا للاهتمام، لأنه أكثر وأكثر على أساس المكتبات ML الثعبان تم إصدارها، مثل Catboost، فضلا عن إطار التعلم عمق مثل Pythorch. كيف يمكنك أن مثل هذه تنمو في مجال اعب ML؟ هذه الظاهرة هي الآثار التنافسية؟

أندرياس مولر: أعتقد أنه في معظم الحالات، وتنويع جيد. وتوفر معظم أطر مماثلة-Scikit معرفة واجهة، ومتوافقة مع حزمة لدينا. منذ Scikit تعلم مجموعة واسعة من التطبيقات، وبالتالي سرعة التنمية هي بطيئة جدا. يمكننا أن نرى، XGBoost والناس LightGBM قيمة جدا. لذلك، ونحن نريد أن يعرف الجميع حول هذا الموضوع، ونحن نريد أن تدرج في حزمة Scikit التعلم غير قادرة على الوصول إلى جمهور أوسع.

لمكتبة التعلم العميق هو جزء من السبب هو أنها يمكن أن تتحرك بسرعة أكبر، لأننا نتحرك ببطء شديد. بالطبع، هناك نوعان من الأشياء إلى ملاحظة ما يلي:

1. بالمقارنة مع غوغل أو الفيسبوك، نحن حقا موارد قليلة جدا، بحيث المهندسين والمنافسة لا معنى له. أعتقد Keras تبريد حقا، ليس لدي أي سبب لإعادة تنفيذ هذه الاشياء في Scikit تعلم في.

2. أسباب فنية. الآن، لتحقيق الدعم GPU سلس على منصات مختلفة لا يزال من الصعب جدا. يمكنك ان ترى Tensorflow في هذا المجال. هناك إصدارات مختلفة على Tensorflow، لتجميع لأبنية مختلفة، يجب تجميع نفسك. لن نزيد الكثير من المتاعب في Scikit تعلم.

Haebichan يونغ: قلت في محاضرة في جامعة كولومبيا على البيانات الخلل، هذه المشكلة واثنين من حلول رئيسية: 1) نموذج (دون أخذ العينات / الإفراط) و 2) بعد تغيير التغييرات نموذج البيانات (برنامج تدريبي نفسه). ما هي مزايا وعيوب كل منها استراتيجية، وخاصة من حيث Scikit تعلم؟

أندرياس مولر: أريد أن التراجع عن سؤالك، ذكرت مرة أخرى الشيء الأكثر أهمية هو مؤشر وكيف تقيمون ذلك. ما هو هدفك؟ هدفك هو غير دقيق، ولا هو ROC-AUC. هذا ليس شيئا تفعله لأغراض التطبيق. يجب عليك أن تنظر ما يعنيه أن تولد نتائج محددة في سياق التطبيق.

وبمجرد الانتهاء من ذلك، يمكنك تحديد المقاييس، حاول أساليب مختلفة لتحقيق أقصى قدر من هذه المقاييس. اختزال جذابة للغاية هو أنه يمكنك في كثير من الأحيان رمي الكثير من البيانات، لكنها لن تؤثر حقا على النتيجة. إذا كان لديك نسبة 1: 1000 +، كنت لا تريد وضعه يقلل 1: 1، ثم يمكنك تعيينها إلى 1: 100 أو 1:10، يمكنك الحصول على نفس النتيجة. لذلك مجموعة البيانات الخاصة بك للحد من 100 مرة.

"هدفك هو غير دقيق، ولا هو ROC-AUC. هذا ليس الغرض الخاص من التطبيق. يجب عليك أن تنظر ما يولد نتائج تعني في سياق تطبيق معين."

حتى إذا كان لديك كمية كبيرة من البيانات وحساب ليست مشكلة، undersampling هو أكثر الطرق فعالية للحصول على نتائج مماثلة. على العكس من ذلك، لم أكن أرى الناس استخدام ممارسة ضرب و، وهذا هو توليد البيانات الاصطناعية. كثيرا ما يذكر الناس، ولكن أشك في ذلك بطريقة أو بأخرى.

من حيث تغيير النموذج، وغالبا ما تستخدم الأوزان الصف وسوف يساعد. الطبقة ظيفة فقدان الوزن يتغير في الواقع، كما لو كان oversampled عدد قليل من الطبقات. لذلك يمكنك استخدام جميع العينات، ولكن إعطاء الأقلية المزيد من الوزن. هذا شيء أن الناس تجد من المفيد. ومع ذلك، وهذا هو أكثر مثل أن تجرب شيئا مختلفا، وكان لديك المقاييس الصحيحة لقياس أفضل الحلول التي تناسب مشكلتك.

كولومبيا سلسلة من المحاضرات من أندرياس مولر

Haebichan يونغ: ومن المثير للاهتمام، وبهذه الطريقة التي ذكرتها ضرب. في الشركة التي أعمل بها، ولقد تم تجريب ضرب. ولكن من حيث النتائج الفعلية، أو جوانب أخرى من مفوضية الاتحاد الأفريقي وأي فوائد كبيرة. و، لأنني خلق جميع البيانات الاصطناعية هذه، فإنه يبطئ إلى حد كبير أسفل خط الأنابيب بلدي. لذا أطلب منكم، والشكوك الخاصة بك تأتي من؟

أندرياس مولر: لقوله I والجميع أنك ونقول بالضبط نفس الشيء.

Haebichan يونغ: لماذا تعتقد أن هذا هو؟

أندرياس مولر: بالنسبة لي، وآلة تعلم العديد من الأمور التجريبية. إذا حاولت تعيين على الكثير من البيانات، ولكنه لا يساعد لكم، ثم فإنه ليس من المفيد. من الصعب القول لماذا تعزيز التدرج يعمل بشكل جيد. وأعتقد أن معظم الناس يعتقدون أن تعزيز تأثير التدرج هو جيد جدا، لكنني لا أعتقد أن أحدا يمكن أن يفسر لماذا التدرج الصحيح تعزز أكثر فعالية من آلة الدعم الموجه. أعتقد أن لا أحد يمكن أن يكون طريقة بسيطة أو ذات مغزى لشرح.

من حيث ضرب، وأعتقد أن حدث شيئان:

1. أعتقد توزيع ضرب من البيانات لوضع افتراضات. لذلك، A) على افتراض إما خط مستقيم بين العينات المجاورة من الخطأ؛ ب) إذا كانت العينة بعيدة جدا، وهناك فئات أخرى من عينات المتوسطة، ثم الوضع قد كسر.

2. إضافة هذه العينات الاصطناعية قد يكون عمليا أي مساعدة لفئات نموذج كنت مهتما.

في الحقيقة، لدي خطة ومتعاون، لكتابة ورقة عن المعايير القياسية العامة. كما تقول، لماذا ينبغي لنا أن نحاول استخدام ضرب؟ وذلك لأن الطريقة المقترحة في التحقق من الأدب، ولكن في الممارسة العملية، تم اكتشاف أن ليس لديها تأثير كبير.

للمقابلة كاملة، ومشاهدة أشرطة الفيديو وغيرها على موقع يوتيوب، أندرياس دي عمق تفسير Scikit تعلم الحزمة: الشبكي:؟ //Www.youtube.com/watch ت = 6RSQIHAVzuo

عن طريق: الشبكي: //towardsdatascience.com/want-to-truly-master-scikit-learn-2-essential-tips-from-the-official-developer-himself-dada6ff56b99

لى فنغ صافي الاختيار السنوي - العثور على أفضل الممارسات الهبوط AI من 19 الصناعات الرئيسية

تأسست في عام 2017، و "القائمة السنوية أفضل الأحوال AI ناجتس" الأولى الذكاء الاصطناعي حالة الأعمال المسابقة في هذه الصناعة. شبكة لى فنغ من البعد التجاري، والبحث عن الذكاء الاصطناعي في مختلف قطاعات أفضل الممارسات الهبوط.

وقد تم إطلاق الجائزة الثالثة رسميا، والانتباه إلى عدد الجمهور قناة الصغرى "شبكة لى فنغ"، أجاب الكلمة "قائمة" للمشاركة في التسجيل. هي التفاصيل المتاحة من مايكرو إشارة: xqxq_xq

شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

السيارة الذكية الكهربائية، الطيار الآلي، وتجمع التحديات السفر المحمولة معا في شتاء عام 2019 مكتب سيارة كيفية الخروج؟

Subei حصاد الأرز موسم الحصاد ترحيب "شارة"

الخريف والشتاء يمكن Shanghe! ووهان الحديقة النباتية، خمسة أصناف جديدة من النباتات لوتس معتمدة دوليا

وTuguhun المقابر الملكية الأكثر اكتمالا ظهرت فى قانسو

نجم مزدوج على مرمى حجر! أطلقت الصين بنجاح أول بيدو للملاحة بالأقمار الصناعية والخمسين واحد وخمسين

"المطالبات المهنية" وقد أظهرت هذه الصناعة المطالبات الخبيثة النظم التنظيمية المقترحة

جولة حيث الشمسية الوثائقي "فور سيزونز الصينية" | الحلقة العشرين الثلوج

بكين وحدها عندما الإمبراطورية 800 سنة، كل ذلك بسبب انه لتصميم جيدة

ما هو الدعم؟ يتم تشغيل دادو الجدار الجنوبي الواقع في زاوية هذا المعبد

بطولة الفيديو شو الأوروبي تصفيات: بلجيكا يفوز قبرص

نصب تذكاري الدولية للقضاء على العنف ضد المرأة

يانغتشو، وقوانغشى: جمال المناظر الطبيعية السياح "في حالة سكر"