آلة التعلم دائما خطوة على الألغام؟ أمثلة ليعلمك لتجنب المزالق

في عملية التعلم البيانات العلمية، قد تواجه الكثير من الأخطاء النموذجية، بما في ذلك التصور بيانات غير صحيحة، ومعالجة الخطأ والقيم خطأ، والخطأ تحويل المتغيرات الفئوية وهلم جرا ...... من خلال تعلم هذه المادة، وسوف تعرف كيفية تجنبها خطأ.

بعد الزحف البيانات، وذلك قبل تطبيق نموذج التعلم الآلي، ونحن بحاجة لاستكمال عدد من الخطوات. على سبيل المثال، والحاجة إلى كل توزيع متغير التصور لمعرفة والبحث في القيم المتطرفة، وفهم أسباب وجود هذه القيم الشاذة.

للقيم مفقودة لبعض الوظائف، ماذا يمكنك أن تفعل؟ ما هي أفضل طريقة للتحول إلى سمة مميزة تصنيف الرقمية هو أن؟ هناك العديد من مثل هذه المشاكل. لذا، ما خطأ سوف تواجه ذلك معظم المبتدئين؟

1. التصور

أولا وقبل كل شيء، يجب أن تصور توزيع ميزات مستمرة، ليشعر إذا كان هناك عدد كبير جدا من القيم المتطرفة، وهذا ينبغي أن يكون أي نوع من التوزيع، وكذلك ما إذا كان هذا التوزيع المنطقي.

ويمكن تصور بطرق مختلفة، مثل قطع مربع، رسم بياني، وهي وظيفة التوزيع التراكمي وكمان FIG. ومع ذلك، ينبغي أن يكون قادرا على تحديد ما يصل إلى تقديم معلومات عن مخطط البيانات.

لعرض توزيع (التي توزع عادة أو التوزيع ذات النسقين)، الرسم البياني مفيدة للغاية. على الرغم من أن الرسم البياني هو جيد نقطة الانطلاق، ولكن عدد من المؤامرات مربع لتحديد القيم المتطرفة وعرض الجانب الربع المتوسط قد يكون موقف أفضل.

ووفقا لهذه الأرقام، فإن السؤال الأكثر إثارة للاهتمام هو: هل رأيت شيئا كنت تتوقع؟ الإجابة على هذا السؤال يمكن أن تساعدك على اكتشاف البيانات رؤى أو أخطاء في البيانات.

للإلهام وفهم ما خريطة سيعطي قيمة أكبر، حزمة الرسم سيبورن بايثون هي مفيدة جدا. آخر التصور المصدر والوصول إلى الثاقبة Kaggle هو النواة.

يظهر الشكل التالي الرسم البياني المتتالية رسم كل ميزة في سياق أسعار الإيجارات، ومن المتوقع أن نرى ذيل طويل جدا الأيمن من التوزيع في قانون الإيجار وليس في المساحة الكلية.

ميزة الرسم البياني مستمرة

مخطط صندوق يمكن أن تساعدك على رؤية واضحة لعدد من القيم المتطرفة لكل وظيفة. في الواقع، فإن معظم تفعل فواتير شقة لا الضالة، أو أكثر من 200 متر مربع من المحلات التجارية استوديو صغير، إما منخفضة جدا الإقامة الإيجار طالب.

FIG ميزة مربع مستمرة

2. الحاجة إلى تقدير قيمة مجموعة البيانات كله؟

لأسباب مختلفة، في عداد المفقودين في بعض الأحيان القيم. إذا كان كل الملاحظة مفقودة قيمة سلبية واحدة على الأقل، ينتهي بك الأمر مع مجموعة بيانات مبسطة للغاية.

هناك العديد من الطرق لحساب قيمة، متوسط أو متوسط. عليك أن تقرر ما يجب القيام به من قبل، ولكن تأكد إحصاءات تأكد فقط حساب استنادا إلى بيانات التدريب الداخلي لبيانات تجنب مجموعة اختبار التسرب.

يمكنك وصف البيانات الإيجار أيضا الشقة يمكن استخراجها. كلما نقص من الشقق ذات الجودة العالية، حالة أو نوع، إذا كان الوصف يحتوي على هذه المعلومات، فإنه يمكن أن يفترض أن هذا هو في الواقع من المعلومات.

3. كيفية تحويل المتغيرات الفئوية؟

بعض الخوارزميات (اعتمادا على التنفيذ) لا يمكن استخدام البيانات مباشرة تصنيف، فمن الضروري في بعض الطريق، لتحويلها إلى قيمة.

هناك العديد من الطرق لتحويل القاطع التوقيع الرقمي متغير، مثل ترميز علامة، المشفرة الساخنة، والبعثرة الترميز وثنائي الترميز. ولكن عندما كان معظم الناس يجب أن تستخدم ترميز الساخنة واحد يستخدم بطاقات مشفرة بشكل غير صحيح.

تأجير البيانات، على افتراض عمود نوع الشقة، الذي يحتوي على القيم التالية: . العلامة الترميز يمكن تحويله إلى إدخال العالمية، وهو ما يعني أن الكامنة >  علية > البيوت المزدوجة. بالنسبة لبعض الخوارزميات (مثل أشجار القرار وتنوعاتها) من هذه الترميز هذه الميزة قد تكون جيدة جدا، ولكن تطبيق SVM في آلة الانحدار والدعم الموجه قد لا تكون جيدة جدا.

في مجموعة بيانات أسعار الإيجار، وحالة مشفرة على النحو التالي:

  • الجديد: 1
  • الديكور: 2
  • في حاجة إلى التجديد: 3

جودة مشفرة على النحو التالي:

  • فاخر: 1
  • أفضل من المعتاد: 2
  • المعتاد: 3
  • بسيط: 4
  • غير معروف: 5

4. الحاجة للمتغيرات موحدة تفعل؟

توحيد جميع المتغيرات المستمرة لتحقيق نفس الحجم، مما يعني أنه إذا كانت قيمة متغير من 1K إلى 1M، متغير آخر 0،1-1، وتطبيع سيكون لديهم نفس النطاق.

يستخدم L1 أو L2 طريقة التنظيم للحد من تركيب أكثر من ذلك يمكن استخدامها في العديد من خوارزميات الانحدار. ومع ذلك، والتوحيد هو تطبيق المواصفات الهامة قبل L1 أو L2.

معاملات صالح عند حساب سعر الإيجار في يورو من سعر في معاملات سنتا أمريكيا المناسب تحسب حوالي 100 مرة. L1 و L2 معامل أكبر وأكثر سلبية، مما يعني أنه يتميز صغيرة الحجم وأكثر سلبية. لمنع هذا، يجب تطبيع ميزة قبل تطبيق L1 أو L2.

السبب التوحيد آخر هو أنه إذا كنت تستخدم خوارزمية أصل التدرج، مع نزول التدرج سيضم التحجيم والتقارب السريع.

5. عدد ما إذا كانت المتغيرات الهدف التصدير؟

في الواقع، وهذا ليس الجواب القياسية تعتمد على عدة عوامل:

  • الحاجة إلى النتيجة أو الخطأ المطلق
  • الخوارزمية المستخدمة
  • ما المؤامرات المتبقية ومؤشرات التغيير في المعرض

وفي المقابل، فإن أول شيء أن نلاحظ المؤامرات والمؤشرات المتبقية. في بعض الأحيان، ونموذج لوغاريتمي سوف تنتج المتغيرات الهدف أفضل، فإن النتائج تكون سهلة الفهم. ومع ذلك، هناك غيرها من الممكن تحويل صحيح، على سبيل المثال، مع الجذر التربيعي.

على تجاوز المكدس، وهناك الكثير من الإجابات على هذه المسألة. قطع المتبقية وجذر متوسط مربع الخطأ (RMSE) على متغيرات هدف سجل الخام جيدا شرح هذه المشكلة.

لتأجير البيانات التي يمكن استخلاصها على عدد من الأسعار، لأن المؤامرات المتبقية تبدو أفضل.

مؤامرة المتبقية من اللوغاريتم (يسار) والبيانات هو دون تغيير الإيجار (يمين) من الرقمين لا تشمل المتغيرات الفواتير. الحق (الجزء الأيمن من مخلفات FIG) إن "عدم تجانس" - كما كان متوقعا من الصغيرة الى الكبيرة، والمخلفات الكبيرة.

بعض أمور أكثر أهمية

سوف تتأثر بعض الخوارزميات (مثل الانحدار) من قبل CCP الخطية البيانات، لأن معامل يصبح غير مستقر للغاية. منذ اختيار النواة، SVM دعم آلة ناقلات قد أو قد لا تتأثر شارك الخطية.

القرار القائم على خوارزمية لم يكن تأثير الخطية المتعددة، التي تتميز في أنها يمكن أن تستخدم بالتبادل في شجرة مختلفة، دون التأثير على الأداء. ومع ذلك، منذ المتغيرات ذات الصلة قد يبدو أقل أهمية، لذلك لشرح ملامح يصبح أهمية أكثر صعوبة.

 آلة التعلم

مطلعون على البيانات وتنظيف بعد قيمة غير طبيعية، لمعرفة أفضل وقت لتعلم الآلة. يمكنك استخدام العديد من أشرف خوارزمية التعلم الآلي.

يستكشف هذا المقال ثلاث خصائص خوارزميات مختلفة، مقارنة الاختلافات الأداء والسرعة - مع تطبيقات مختلفة من التدرج تعزيز شجرة (XGBoost وLightGMB)، غابة عشوائية (FR، scikit-تعلم) وثلاثة طبقة الشبكة العصبية (NN، Tensorflow) . هنا تحديد RMSLE (الجذر يعني مربع من عدد من الأخطاء) كمؤشر لعملية التحسين، نظرا لوجود عدد من الأهداف المستمدة المتغيرات.

XGBoost وLigthGBM الأداء تماما، RF قليلا أسوأ من ذلك، في حين أن أسوأ أداء NN.

اختبار الأداء تعيين الخوارزمية (RMSLE)

واستنادا إلى ملامح خوارزمية شجرة القرار تفسيرا جيدا للغاية. على سبيل المثال، فإنها تلد درجة أهمية الميزة.

خصائص أهمية: العثور على السائقين من سعر الإيجار

بعد تركيب نموذج يقوم على شجرة القرارات، يمكنك معرفة أي الميزات هي الأكثر قيمة للتنبؤ الأسعار.

ويتميز على أهمية توفير درجة، وكمية المعلومات في كل ميزة لبناء نموذج شجرة القرارات. يتم احتساب أسلوب واحد لحساب هذه النتيجة باستخدام عدد من البيانات سمة من سمات شجرة مقسمة على الإطلاق. يمكن احتساب النتيجة بطرق مختلفة.

الملامح الرئيسية لأهمية ان تميزوا حول برامج التشغيل السعر.

لتوقعات سعر الإيجار، وتبلغ المساحة الكلية لمعظم دافعا هاما من السعر وليس من المستغرب. ومن المثير للاهتمام، واحدة من عدد باستخدام واجهة برمجة التطبيقات الخارجية (API) تهدف إلى وظيفة هو الأكثر عامل مهم.

أهمية تحسب ميزة الفاصل (اللوحة العليا)، وكسب (أدناه)

ومع ذلك، وفقا لخيار خصائص، قد تكون هناك تناقضات أهمية وظيفية. وهناك طريقة جديدة لحساب أهمية من الميزات، وكلاهما دقيقة ومتسقة - استخدم حالات العسر الشديد مكتبة بيثون، قيمة SHAP تمثل خصائص مسؤولية التغيير مخرجات النموذج.

وأظهرت بيانات أسعار الإيجار تحليل الناتج في FIG.

 تحتوي كل شقة على نقطة في كل صف. يتأثر موقف X-النقطة خصائص تنبؤات النموذج العملاء، واللون المميز للنقطة يمثل قيمة الشقة.

خريطة تحتوي على ثروة من المعلومات القيمة (الفرز وفقا لمتوسط (| شجرة SHAP |)). إخلاء المسئولية: البيانات اعتبارا من بداية 2018، وقد تطوير المنطقة، لذلك قد تختلف العوامل ذات الصلة الأسعار.

  • على مقربة من وسط المدينة (محطة Stadtmitte قاد على بعد بضعة كيلومترات إلى محطة مترو الانفاق وتأخذ القطار إلى محطة القطار فريدريش في الوقت المناسب) سيزيد من السعر المتوقع من الشقق الإيجار.
  • وتبلغ المساحة الإجمالية هي أقوى قوة دافعة من سعر الإيجار.
  • إذا كان لديك أصحاب الشقق ذات الدخل المنخفض يتطلب دليلا على (الألمانية للWBS)، وتوقع انخفاض الأسعار.
  • سوف استئجار شقة في هذه المناطق زيادة الإيجار: ميته، برينزالور بيرغ، Wilmersdorf في، شارلوتنبورغ، زيليندورف وفريدريش.
  • أن المناطق بأسعار أقل، على النحو التالي: سبانداو، تمبلهوف، الزفاف ورينكندورف.
  • ومن الواضح أن ظروف أفضل - قيمة خفض أفضل - جودة أفضل - القيمة عند أدنى مستوى ممكن - مع الأثاث، الذي بني في تكاليف المطبخ وشقة مصعد ستكون أعلى.

ومن المثير للاهتمام يؤثر على الوظائف التالية:

  • الوقت إلى أقرب محطة مترو
  • عدد من المحطات ضمن نطاق 1 كيلومتر.

إلى أقرب محطة مترو الوقت:

لبعض الشقق، وارتفاع قيمة هذه الميزة يبدو للإشارة إلى أن أسعار أعلى. لأن تقع هذه الشقق في منطقة سكنية ثرية جدا خارج برلين.

يمكن أيضا أن ينظر بالقرب من مترو هناك احتمالين: خفضت الاسعار وزيادة أسعار بعض الشقق. قد يكون السبب شقة قريبة جدا من سوف تتأثر أيضا الضوضاء تحت الأرض أو الاهتزاز الناجم عن القطارات من محطة المترو، ولكن من ناحية أخرى، يمكن الوصول إليها جدا. ومع ذلك، قد تكون هناك دراسة أكثر تعمقا من هذه الميزة، لأنه يظهر فقط أقرب محطة مترو قريبة إلى الترام بدلا من محطة الحافلات /.

محطة المترو رقم في حدود 1 كم من:

وينطبق الشيء نفسه على عدد من محطات مترو الانفاق بعيدا عن شقة ضمن نطاق كيلومتر واحد. بشكل عام، هناك العديد من حول محطة مترو سيزيد من سعر الإيجار. ومع ذلك، كما أن لديها تأثير سلبي - مزيد من الضجيج.

متوسط عدد السكان

بعد العرض ومقارنة أداء نماذج مختلفة، يمكنك الجمع بين نتائج كل نموذج وبناء ككل.

آلة التعبئة مجموعة من نماذج التعلم، ومن المتوقع باستخدام عدة خوارزميات لحساب البلمرة النهائية المتوقعة. وهي مصممة لمنع تخفيض المفرط للخوارزمية الاندماج التباين المقترحة.

باستخدام مجموعة من المزايا: نموذج أداء أفضل مربع أحمر في أسفل اليسار، ولكن المربع الأزرق في النموذج العلوي الأيمن من أجل أداء أفضل. من قبل مجموعة من نماذج التنبؤ اثنين قد تحسين الأداء العام.

منذ ذلك الحين كان متوقعا من الخوارزمية أعلاه، يمكننا الجمع بين كل أربعة نماذج في كل السبل الممكنة، وفقا لعدد من الجذر مربع الخطأ نفسه من مجموعة التحقق من صحة (RMSLE) اختيار واحد وسبعة أفضل مجموعة من النماذج.

ثم حساب RMSLE سبعة نماذج على مجموعة الاختبار.

خوارزمية اختبار RMSLE.

مقارنة مع نموذج واحد، ومجموعة من خوارزمية شجرة القرارات على أساس الأداء يستند على ثلاثة من أفضل.

يمكنك أيضا إنشاء مجموعة من الأوزان، وتوزيع أفضل من النموذج بوصفه أكثر وزن واحد. على أساس أن نماذج أخرى فقط عندما تختار لدعم واحد على النموذج الأفضل.

في الواقع، إذا كنت لا تحاول، ونحن لن نعرف ما إذا كان هو أفضل من متوسط نموذج واحد شامل.

Stackup

متوسط أو الموزون المجموعة غير الطريقة الوحيدة لتعيين نماذج التنبؤ مختلفة. يمكنك أيضا كومة نموذج بطريقة مختلفة!

والفكرة هي لخلق العديد من النماذج التراص نموذج القاعدة والفوقية النموذج على أساس نتائج النموذج المستخدم لتوليد التنبؤ النهائي. ومع ذلك، وكيفية تدريب metamodel ليس كذلك بسيطة، لأنها سوف تكون متحيزة لصالح من أفضل نموذج القاعدة.

في حالة أسعار الإيجارات، إلا أن نموذج كومة لم تتحسن RMSLE- حتى زادوا الأهداف. يمكن أن يكون هناك عدة أسباب - إما المشفرة بشكل غير صحيح، أو إدخال التراص الكثير من الضجيج.

المجموعة الترجمة: هاو جينغ جينغ، هو تينغ روابط ذات صلة: https://www.kdnuggets.com/2018/12/common-mistakes-data-science.html للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

Code الشرح: كيفية فهم الجبر الخطي في التعلم العمق؟

اليوم صوت الأساسية | 2018 جرد من معظم مستخدمي تطبيق Shadiao: أنت لا تستطيع أن تفعل خطورة مضحك

كمبيوتكس 2017 | عرض ASUS أنحف 14 بوصة كمبيوتر محمول في العالم

تعلم الآلة الذاتي أو الطبقات ذكرت، وكيفية اختيار؟

WeChat ALIPAY منافس هنا! هذه المنصة يطلق على دفع 6.2 أضعاف لتصل إلى السوق انتزاع

"القذرة" اليد الاستنساخ! ديزني "شيرلي روز" يتم سحبها آذان السياح، ويزعم نتيجة لخروج عدم الراحة الجسدية

JMC نطاق نمر نسخة كهربائية نقية من لاول مرة رسميا NEDC 335KM الحياة بشكل عام

ابنة وقتا طويلا، وبشرت أخيرا تحديث MIUI نسخة مستقرة

الصوت الأساسي اليوم | الحيل الجديدة! جعل الوجه لمدة التعرف على الوجه للقضاء كلمة المرور

جيتا VA3 / VS5 / VS7 لاول مرة "يي البيئة" نظام الإفراج

وبعد ثلاث سنوات، والهواتف الروبوت القضاء بالفعل، في حين قبل ثلاث سنوات، ولكن حتى الان هذا الموقع الرسمي فون في بيع

العلم بيانات القناة، وأنت الأنسب لمن أين تبدأ؟