كيفية بدء اللعبة Kaggle رحلة

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي:

كيفية بدء التنافس على Kaggle

الكاتب | جيراق شادها

الترجمة | IinIh المحرر | جيف ديمبس والأسماك وانغ

الرابط الأصلي:

https://towardsdatascience.com/how-to-begin-competing-on-kaggle-bd9b5f32dbbc

إذا كنت قد أكملت للتو أول منهج التعلم جهازك، غير متأكد من كيفية البدء في استخدام المعارف الجديدة. ثم عليك أن تبدأ مع بسيطة ايريس مجموعة البيانات، أو الممارسة ضمن بيانات تيتانيك (الذي قد يكون أول شيء فعله). ولكن ما هو أكثر إثارة للاهتمام، يمكن أن تبدأ مباشرة، وغريب على الشبكة واللعب معها للحصول على مكافأة؟

إذا كنت تقرأ هذا المقال، يجب أن نعرف بالفعل Kaggle هو منبر لعبة علم البيانات، حيث يمكنك استخدام منظم (قيمة أو فئة من جداول البيانات) والبيانات غير المهيكلة (مثل النصوص والصور والصوت) ، للمشاركة في عدد كبير من المواضيع التعلم الآلي في اللعبة، والحصول على مكافأة مع ميدالية ذهبية وKaggle الجميع يتطلع الأهداف. رغم أنه قد تقولون أن المباراة ستكون جنبا إلى جنب مع الآخرين خجول، ولكن الشيء الأكثر أهمية هو أن نتعلم المزيد من المعرفة، بدلا من التركيز على النتائج. مع هذا في الاعتبار، وسوف تجد أن اللعبة سوف تصبح مثيرة للاهتمام، والحصاد الكامل، حتى الادمان.

خطوة 1. اختر لعبة

يرغبون في العثور على تطابق

قبل بدء لعبة جديدة، وهو الشيء الأكثر أهمية للنظر فيها. عليك أن تعطي نفسك نحو شهرين من أجل حل المشكلة، وعلى دراية حقا مع خصوصيات وعموميات من البيانات. فإنه يأخذ الكثير من الوقت. اختر لعبة لم يكن لديك الكثير من الاهتمام، وجعل ليس فقط أن تصبح أكثر اهتماما في المباراة بعد إضافة بضعة أسابيع للتخلي عنها. في الجدول الزمني لعبة أضاف في وقت مبكر، وسوف اعطيكم المزيد من الوقت لفهم الخلفية المعرفية لتحسين نوعية التعليم في جميع مراحل حل المشاكل مع أفراد المجتمع.

التركيز على التعلم

إذا وجدت لعبة بالاحباط وأعتقد أن هذا أمر صعب جدا، ثم يجب علينا التركيز على التعلم والاستمرار إلى الأمام قدر الإمكان. التركيز على المواد التعليمية، حتى تتمكن من معرفة المزيد. عندما كنت لا تشعر بالقلق حول الترتيب على اليافطة، وربما سوف تكون قادرة على تحقيق انفراجة.

محاولة لفهم كل سطر من التعليمات البرمجية على أعلى الدرجات الترتيب من الحبوب.

اسأل نفسك إذا كان هناك سطحي جدا الطريقة يمكن تحسين نتائجها. على سبيل المثال، يمكنك إنشاء ميزات جديدة لتعزيز نموذج النتيجة؟ يمكننا تعديل طفيف في معدل التعلم التي يستخدمونها للحصول على أداء أفضل؟ العثور على بعض شنقا الفاكهة، ولكن لا تحاول إعادة اختراع العجلة. هذه العقلية يمكن أن يسرع إلى حد كبير التعلم الخاص بك، مع ضمان أن لا تصبح بالاحباط.

مراجعة قواعد شرط غريب

هذا والمحتويات الأخرى لا تقل أهمية، ومع ذلك الالتفات إلى أخرى. وهناك لعبة حديثة تحتوي على قاعدة ما يلي:

لا يمكن أن تحتوي على معلومات سرية والأسرار التجارية، فإنه ليس من أودع ومسجل براءات الاختراع أو طلب البراءة.

يتحدث في منتدى المستخدم، وهذا سيجعل استخدام أحكام التسرب يصبح غير قانوني، تم تسجيل براءة اختراع هذه التكنولوجيا من قبل جوجل.

الألباب والمناقشة

طوال اللعبة التي غالبا ما تحتاج إلى رؤية القادمة لوحات الألباب والمناقشة.

بدأنا نرى بعض من أعلى، إضافة (استكشافية تحليلات البيانات؟، تحليل البيانات استكشافية ل؟، استكشافية البيانات Analysii؟)، لتحديد مستوى اهتمامك في هذا المجال والموضوع. عند استعراض نتائج الآخرين، في حين أن التفكير في أفكار جديدة لهذا النموذج البيانات، مثل الهندسة الميزات وهلم جرا.

وهو يوفر جيدة جدا خلفية المعرفة "ترحيب" للآخر في المنطقة المناقشة.

الوصول إلى المعرفة في هذا المجال في اللعبة يجب أن تكون جيدة، يمكن أن تساعدك على فهم متعمق لكيفية عمل النموذج الخاص بك، يمكن إلى حد كبير يساعد على ميزة المشروع. وعادة ما قضاء أسبوع أو أسبوعين قبل بداية المباراة ليصبح نصها كما الكثير من المواد كما فهم المشكلة. من أجل مساعدتك، فإن معظم منظمي سباق إنشاء دخول آخر في المنتديات، ويعطي وصلات لهذا المجال الهام من ورقة / المادة. كما أنها قد توفر نظرة ثاقبة النصائح الأساسية حول كيفية حل مجموعات كبيرة من البيانات، والبيانات. عند الحصول على المزيد من المعلومات حول القضايا المطروحة، وهذه العمليات هي دائما تستحق التدقيق بها ومراجعتها.

استكشاف تحليل البيانات

ما يجب أن تشعر بالقلق إزاء؟

لتحليل مجموعات البيانات الأولية لأنواع مختلفة من البيانات على تحليل والفرق كبير. ومع ذلك، هذه المفاهيم وعادة ما تكون في مختلف المجالات متشابهة، ويمكن تعديل المحتويات التالية وفقا لمجال عملك معين من الدراسة. للبساطة، ونحن نفترض هنا البيانات غير المهيكلة. وفيما يلي بعض الأسئلة قبل إجراء أساس تحليل البيانات.

  • ما هي البيانات موضوعي يتم توزيعها؟

  • هناك ارتباط كبير بين الخصائص المختلفة من قبل؟

  • هناك في عداد المفقودين القيم بيانات CCP؟

  • تدريب واختبار البيانات وأكثر ما شابه؟

  • ما هي البيانات موضوعي يتم توزيعها؟

    أول شيء يجب عليك القيام به هو إلقاء نظرة على توزيع مجموعة البيانات لكل فئة. إذا كان هناك فئة الخلل، تحتاج إلى العثور بسرعة، لأن هذا سيكون له تأثير كبير على النموذج. ولا سيما في تدريب فئة سيتم غمرها لفئات أخرى من المعلومات. وفيما يلي بعض فئات التقنيات لمعالجة الخلل (على سبيل المثال، ضرب، ADASYN، وإزالة عينة يدويا، المعلمات من نموذج لحل مجموعة البيانات الخلل)، ولكن أولا نحن بحاجة إلى تحديد ما إذا كان نوع البيانات في الزي العسكري. وهناك طريقة سريعة للتحقق من ذلك عن طريق رسم مكتبة، سيبورن، استنادا إلى مكتبة matplotlib الشعبية.

    الهدف الخلل من الدرجة متعددة

    يمكننا أن نرى أن الفئة 90 ويمثل مفرط في البيانات. ضرب وغيرها من التقنيات المذكورة أعلاه يمكن إنشاء مجموعة أكثر توازنا من البيانات. في المقابل، مثل أن النموذج يمكن أن تمتد إلى أفضل لم يسبق له مثيل، لا توجد أية بيانات في الميزان.

    ما إذا كان هناك ارتباط كبير بين الخصائص؟

    معاملات ارتباط بيرسون (معامل ارتباط بيرسون) بين السمات المميزة احتساب يمكن الحصول على معلومات مفيدة للغاية. ونحن نعرف ما إذا كان يتميز يمكن أن الخصائص ذات الصلة يساعدنا على قيام بهذا المشروع، أو لإزالة أعمدة البيانات غير المرغوب فيها. على سبيل المثال، في خريطة الحرارة أدناه، EXT_SOURCE_1 مصادر خارجية من طالبي القروض لتصنيف الائتمان. وترتبط DAYS_BIRTH، وعمر المتقدم تحسب بعد يوم من الطريق، وEXT_SOURCE_1 سلبا. وهذا قد يعني حساب EXT_SOURCE_1 يحتوي عمر مقدم الطلب. بشكل عام، ونحن نريد لتجنب بما في ذلك ميزة (وتسمى خطي الارتباط) يمكن الحصول عليها من قبل مجموعة خطية من الميزات الأخرى، فإنه يوفر المعلومات الزائدة عن الحاجة لنموذج.

    FIG القيمة الحرارية للمعامل ارتباط بيرسون بين القيم الإيجابية والسلبية تظهر ملامح

    هل هناك في عداد المفقودين القيم في البيانات؟

    تريد دائما للتأكد من الحصول على مجموعة كاملة من البيانات، كما أنه يحتوي على بعض القيم المفقودة. على سبيل المثال، إذا تم العثور على نموذج ميزة هامة جدا، ولكن وجدت أن عددا كبيرا من الميزات خط والقيم مفقودة، فمن الممكن أن تحسن كثيرا من أداء نموذج عن طريق إدخال القيم المفقودة. ويمكن أن يتم ذلك عن طريق استنتاج قيمة سمة خط مشابهة لا يحتوي على نان. تجسيد آخر (وتسمى الردم) هو قيمة غير خالية بجانب ملء القيم المفقودة. حيث كما يتم استخدام قيمة متوسط من البيانات غير خالية، أو متوسط في بعض الأحيان لتقدير القيم المفقودة. يوفر نهج pandas.DataFrame.fillna عدد من الخيارات المختلفة للتعامل مع مشكلات فقدان القيم، قيمة القراءة Kaggle النواة هي أيضا موارد مفيدة.

    ومع ذلك، فإن القيم المفقودة لا يعني دائما أنه لا يوجد بيانات السجل. في بعض الأحيان، وتشمل ميزة نان هو مغزى، أن الأسلوب أعلاه لا ينطبق على خط البيانات. على سبيل المثال، طلب القرض تضم مجموعة البيانات الهدف ثنائي (سواء الموافقة على طلب مقدم الطلب) يحتوي على ما إذا كان مقدم الطلب لديه الخصائص للسيارة. اذا كان هناك من دون سيارة، فإن ميزة سيارة أخرى في تاريخ التسجيل تحتوي على قيم نان، لأنه لا يوجد معلومات متوفرة لملء.

    تدريب واختبار البيانات مثل كم؟

    يحتوي جسم الباندا DataFrame يمكن توفير طريقة فيه إحصاءات مجموعة البيانات pandas.Dataframe.describe، مثل الحد الأقصى، يعني، الانحراف المعياري، 50 المئوية وما شابه. وهذه الطريقة سوف يعود DataFrame آخر، حتى تتمكن من إضافة المعلومات الإضافية التي تريد. على سبيل المثال، يمكنك إضافة خط للتحقق من عدد من القيم المفقودة في كل عمود، وظائف لتحقيق ما يلي:

    هذا هو وسيلة مفيدة جدا بالنسبة لك لتحقق بسرعة تشابه مجموعة التدريب واختبار مجموعة الميزة. ولكن إذا كنت تريد أن يكون لها قيمة واحدة يمكن أن تكون جيدة فهم من المعرفة من التدريب والاختبار للمجموعات ذلك؟ ثم استخدم للتحقق من صحة ضد (التحقق من صحة الخصومة) الأسلوب له. كلام قد يبدو مخيفا بعض الشيء، ولكن بمجرد فهم التكنولوجيا، ثم أنها بسيطة جدا. ضد الخطوة التحقق من صحة يحتوي على ما يلي:

  • مجموعات البيانات التدريب والاختبار مجتمعة معا لتشكيل مجموعة البيانات الكبيرة

  • يتم تعيين كافة الميزات من على خط المرمى التدريب 0

  • في كل الاختبارات، ويتم تعبئة خط مميز الهدف (تحت ذلك عليك أن تعرف ما الذي تفعله) 1

  • إنشاء الهرمية مطوية من البيانات (يمكن تنفيذها مباشرة في sklearn)

  • نموذج LightGBM، أو نماذج أخرى تركيبها على التحقق تدريب والتوثيق مطوية للطي

  • تحقق على تصريحات ادلى بها مجموعة البيانات بالكامل، وتحسب منحنى ROC (منطقة تحت المتلقي تعمل منحنى مميزة). أنا باستخدام هذا التطبيق لحساب المنطقة.

  • المنطقة تحت المنحنى ROC 0.5 تمثل نموذج لا يمكن التمييز بين الصف الاختبار والتدريب العمود، لذلك مماثل لمجموعتي البيانات. إذا كانت المنطقة أكبر من 0.5، ونموذج يمكن رؤية أن هناك بعض الاختلافات بين مجموعات التدريب والاختبار، وبالتالي يستحق الحفر للتأكد من نموذج البيانات الخاص بك يمكن أن يتنبأ بشكل جيد في الاختبار.

  • لقد وجدت نواة التاليين يمكن أن تساعدك على إتقان هذه التقنية:

    • https://www.kaggle.com/tunguz/adversarial-santander

    • https://www.kaggle.com/pnussbaum/adversarial-cnn-of-ptp-for-vsb-power-v12

    لماذا نبدأ من نموذج قائم على الشجرة؟

    تحديد النموذج الصحيح مهم جدا في البداية، عند بدء تشغيل أول سباق يمكن أن يكون مربكا للغاية. وتقول دعونا كنت تتعامل مع البيانات المهيكلة، وكنت ترغب في الحصول على المعلومات الكامنة في نموذج البيانات قبل الدخول إلى المبنى. عند إدخال لعبة جديدة، مثالية لرمي LightGBM أو XGBoost نموذج البيانات. وهي تستند إلى نموذج لتعزيز شجرة، ولها تفسيرها جيدا، فمن السهل أن نفهم. كلا توفير وظيفة السحب الانقسام، وهذه الميزة مفيدة لخلق عمق الحد الأقصى من حوالي 3 = شجرة، يمكنك ان ترى بالضبط تجزئة نموذج الميزات المستخدمة من البداية.

    وتعطى طريقة lightgbm.Booster.feature_importance لمعظم سمة هامة من سمات هذا النموذج، والتي تتم من طراز كم مرة تجزئة (نوع المهم = "سبليت") على ميزة معينة أو كل قسم على ميزة محددة الحصول على معلومات حول مقدار (نوع المهم = "الحصول على") جهة نظر. عرض الميزة مفيدة بشكل خاص في التركيز على أهمية البيانات مجهول، والتركيز على هذه البيانات، يمكننا الحصول على الخصائص الخمس الأولى وفهموا ما يتميز قد يكون، وأنهم يفهمون أهمية هذا النموذج. هذه الميزة يمكن أن يساعد كثيرا المشروع.

    حتى من دون استخدام GPU، وسوف تجد سرعة التدريب LightGBM سريعة جدا. وأخيرا، وهذه النماذج لهما وثائق جيدة جدا، مبتدئين لتعلم أنها لا ينبغي أن يكون أي مشاكل.

    تقييم

    لا أعرف كيفية استخدام طريقة موثوق بها لتقييم هذا النموذج، لديك أي وسيلة للحصول على أفضل أداء من طراز في اللعبة. لمؤشر التقييم الرسمي قبل المشاركة في السباق أمر بالغ الأهمية. بمجرد أن تعرف بالضبط كيف يقدم التقييم، ينبغي أن يكون على يقين من أن استخدام مؤشر التقييم الرسمي في مجال التدريب والتحقق من صحة (إذا لم يكن هناك التنفيذ السليم، فإنه يستخدم نسختها الخاصة). مؤشر تقييم موثوقية جنبا إلى جنب مع مجموعة والمصادقة، ويمكنك تجنب تقديم المتكرر، ويمكن بسرعة وبانتظام اختبارها والتحقق منها. شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

    أيضا، إذا كنت ترغب في مجموعة واحدة من القيم المستخدمة لتقييم النموذج النهائي. عرض خسارة التدريب والمصادقة على فقدان أو مجموعة من المؤشرات، بما في ذلك الدقة، أذكر، درجة F1، AUROC، هذه المنتج الفعلي مفيد جدا، ولكن في اللعبة، وتريد أن تكون قادرا على رؤية بسرعة عددا و يقول "هذا النموذج أفضل من ذي قبل وكنت". مرة أخرى، فإن هذه القيمة لتكون المؤشر الرسمي. إذا لم يكن كذلك، يجب أن يكون لديك سبب وجيه لعدم القيام بذلك.

    إذا كنت تتبع الاقتراحات المذكورة أعلاه، في كثير من الأحيان في التجربة، وكنت بحاجة إلى وسيلة يمكن الاعتماد عليها لتتبع نتائج. أود أن تعمل على مثيل عامل الميناء حاوية MongoDB، في تقديري بعد كل النصي التنفيذ، وأرسلت معالم النموذج والنتيجة التحقق هذه الحالة. I حفظها بشكل منفصل لكل نموذج من الجدول (أو المشار إليها في جمع MongoDB). عندما انتهيت من تنفيذ العديد من التجارب، وأنا سوف يسجل كملف MongoDB.archive وملف CSV لتحميل إلى دليل محلي جهاز الكمبيوتر الخاص بي لمشاهدة سريعة. التعليمات البرمجية الأصلية.

    في حالة وصفها هنا، حول كيفية التعامل مع نتائج قياسية من مختلف المدارس الفكرية، وهذا هو بلدي الأسلوب المفضل، ولكن أود أن أعرف كيف يكون البعض العلماء البيانات للتعامل معها!

    جيراق شادها هو يونايتد المجموعة / Optum في دبلن، ايرلندا. العالمة البيانات. يمكنك استخدام هذا البريد الإلكتروني للاتصال بهم (chadhac@tcd.ie)، له ينكدين، أو متابعته على Kaggle وجيثب.

    مواصلة عرضها روابط ذات صلة والمراجع؟

    انقر على [ كيفية بدء تشغيل رحلة لعبة kaggle] للوصول إلى:

    https://ai.yanxishe.com/page/TextTranslation/1698

    أوصى الرئيس اليوم: التي AI، بيانات كبيرة، والتعلم الآلي، دروس مجانية

    35 من أعلى الأصلي في العالم تعليمي فتح خلال ساعات محدودة من مثل هذا الكتاب واحد من قبل نائب البيانات العلمية موقع KDnuggets محرر المعروفة، هو أيضا عالم بيانات كبار، هواة ماثيو عمق تكنولوجيا التعلم مايو توصية، لديه ثروة من البيانات العلمية في مجال التعلم الآلي و البحث والتجربة.

    انقر على الرابط لتحصل على: الشبكي: //ai.yanxishe.com/page/resourceDetail/417

    لم أفكر سرق كارتييه ووتش، ومفاتيح السيارة بورش، تبين أن Qinge!

    Goujian مظلة السيف، Yunmeng Shuihudi جين "مقتصد كأس" وغيرها من المنتجات الثقافية والإبداعية المذهلة لاول مرة

    مواجهة الضغوط، وقال هواوي: مستعدون

    هويتشو: شراء سيارة مستعملة، ومبلغ القرض لا يمكن تفسيره أكثر من اثني عشر ألف، وهذا هو حفرة ذلك؟

    يانغ يينغ السبب في الجسم بعد الولادة استرداد بسرعة، لأنها أيضا مختلطة اللياقة البدنية دائرة من الناس من مختلف اللياقة البدنية

    هويتشو: لتغيير التأجير على قروض بطاقات سيارة، والفائدة هي جذر مدير مطابقة النزاعات وسداد الفائدة

    بيت المرأة المفتوح هو الزملاء الذكور بهدوء

    مؤسس 51VR لى يى: كيفية تطبيق لمحاكاة في الوقت الحقيقي والنقل الذكية بدون طيار؟

    هويتشو: سباق السحب أو تعديل أو H-دواسة الوقود، وأنها تلعب بارد؟ دراجة نارية شرطة المرور التحقيق الخاصة في الهشيم

    خليج دايا في هويتشو، والعقارات: شراء منزل وافقت العام الماضي على أرضية الأجور، المنزل لا تزال لم تسلم العام الماضي

    "إنشاء معسكر 2019" مدرسة شقيقة لمساعدة من العروض الساعة الثالثة، مرحلة إلى التحديات التفاعلية الكاملة

    مجموع المدينة من سبعة في التحاق اختبار دفعة