حصريا | الأعمال ميزة الآلي (الرابط المرفق) مع مكتبة بيثون Featuretools

الكاتب: براتيك جوشي

الترجمة: تشانغ لينغ

تصحيح التجارب المطبعية: لي Runjia

هذه المقالة حول 4000 كلمة القراءة الموصى بها 10 دقيقة.

جزء الهندسية الأساسية يتميز وصف لفترة وجيزة في هذه الوثيقة، وفهم بديهية من وجود سبيل المثال، باستخدام بيثون Featuretools أخيرا أتمتة المكتبة يتميز لتحقيق مشروع العملية.

مقدمة موجزة

ماراثون القراصنة في آلة التعلم والمنافسة، وخصائص جودة المشروع في كثير من الأحيان فارق هام في أعلى الترتيب 10 وغاب عن القمة 50، لذلك كل المشاركين الذين لديهم خصائص يمكن أن تثبت أهمية المشروع.

ومنذ ذلك الحين أدركت أن المشروع ميزة لديها امكانات كبيرة منذ ذلك الحين، لقد كنت مدافعا قويا عن ذلك. ولكن عندما يتم يدويا، وهذا يمكن أن يكون عملية بطيئة وصعبة. يجب أن أكافح للتفكير في ما موجودة ملامح وتحليل توافرها من زوايا مختلفة. الآن، وكلها عمليات FE (ميزة الهندسة، الهندسة الميزة) يمكن أن يكون آليا، وسوف تظهر لك في هذه المقالة.

سوف نستخدم مكتبة بايثون دعا Featuretools المشروع الميزة، وتحقيق هذه العملية. ولكن قبل إجراء مزيد من الدراسة، علينا أولا فهم المكونات الأساسية للانخفاض FE، وفهم لهم مثالا بديهية. وأخيرا، مجموعة بيانات BigMart المبيعات للحصول على نظرة ثاقبة في عالم رائع من ميزات التشغيل الآلي الهندسة.

دليل

1. ما هي الخصائص؟

2. ما هي ملامح المشروع؟

3. لماذا تحتاج إلى أعمال الميزة؟

4. خصائص الهندسة أتمتة

5. Featuretools الملف الشخصي

ممارسة 6. Featuretools

7. Featuretools للتفسير

1. ما هو سمة

في سياق التعلم الآلي، وتتميز في هذا سمة واحدة تستخدم لتفسير هذه الظاهرة أو مجموعة مميزة. عندما يمكن تحويل هذه الخصائص إلى شكل من أشكال القياس، ما يطلق عليه الميزات.

على سبيل المثال، لنفترض أن لديك قائمة الطالب، تتضمن القائمة أسماء كل طالب، وساعات التعلم، ومجموع درجات معدل الذكاء قبل الامتحان. الآن، هناك طالب جديد، وانت تعرف له / لها ساعات التعلم والذكاء، ولكن له / لها درجات الاختبار في عداد المفقودين، وتحتاج إلى تقدير درجات الاختبار انه / انها يمكن الحصول عليها.

هنا، تحتاج إلى بناء مع درجات معدل الذكاء وstudy_hours نموذج تنبؤي لتقدير القيم المفقودة. لذلك، أصبح الذكاء وstudy_hours سمة من سمات هذا النموذج.

2. ما هي ملامح المشروع؟

وتتميز في عملية الهندسة ويمكن تعريف ببساطة لأن البناء من الميزات الجديدة من مجموعة البيانات الميزات الموجودة. لنفترض أن لدينا عينة من البيانات، والذي يحتوي على بعض التفاصيل من السلع، مثل الوزن والسعر.

الآن، يمكننا استخدام Item_Weight وITEM_PRICE لبناء ميزة جديدة تسمى Price_per_Weight من. وينقسم ذلك فقط عن طريق وزن المنتج مع أسعار السلع فقط. وتسمى هذه العملية تعمل الميزة.

هذا مجرد مثال بسيط من هيكل من الميزات الجديدة من الميزات الموجودة، ولكن في الواقع، عندما يكون لدينا عدد لا بأس به من ميزات، يمكن أن المشروع ميزة تصبح معقدة جدا ومرهقة.

لنأخذ مثالا آخر، في مجموعة من البيانات التقليدية تيتانيك، وتتميز في وجود اسم الراكب، اسم وفيما يلي بعض من مجموعة البيانات:

  • Montvila، القس جوزاس
  • غراهام، الآنسة مارغريت إديث
  • جونستون، وملكة جمال كاترين هيلين "كاري"
  • بير، السيد كارل هاول
  • دولي، السيد باتريك

ويمكن في الواقع هذه الأسماء تقسيمها إلى العديد من الميزات الأخرى المثيرة للاهتمام. على سبيل المثال، عنوان مماثل استخراج ودمجها في فئة واحدة. دعونا ننظر في عدد من أسماء مختلفة في عنوان الركاب.

وكما يتبين من الشكل، "دونا"، "سيدة"، و "الكونتيسة"، "الكابتن"، "العقيد"، "دون"، "الدكتور"، "الكبرى"، "رؤيا"، "السير" و "Jonkheer "ومن النادر جدا، ويمكن وضعها على لقب تحت التسمية التي rare_title. بالإضافة إلى ذلك، عنوان "Mlle" و "السيدة" يمكن أن يعزى إلى "ملكة جمال"، و "السيدة" يمكن استبدال مع "السيدة".

وهكذا، وهذا العنوان الجديد يضم سوى خمس قيم مختلفة كما هو مبين أدناه:

هذا هو ميزة لدينا تعمل عن طريق استخراج المعلومات المفيدة من سمة من سمات هذه العملية، حتى كاسم ركاب هذه الميزة في أول وهلة لا معنى له.

3. لماذا تحتاج إلى أعمال الميزة؟

أداء نموذج التنبؤ يعتمد اعتمادا كبيرا على بيانات التدريب المحددة للميزة نوعية نموذج. إذا كنت تستطيع بناء نموذج يمكن أن توفر مزيد من المعلومات حول الميزات الجديدة المتغير الهدف، ثم سيتم تحسين أداء النموذج. لذلك، عندما مجموعة البيانات ليست كافية الميزات ذات جودة عالية، ونحن يجب أن تعتمد على ملامح المشروع.

واحدة من الاكثر شعبية في Kaggle المسابقة، دراجة التنبؤ الإيجار الطلب، يتعين على المشتركين للتنبؤ الطلب على استئجار واشنطن، DC، وفقا لذات الصلة بالطقس والوقت وغيرها من البيانات، وأنماط استخدام التاريخية.

كما هو موضح هنا، فإن المزايا الذكية من المشروع مساعدة المشاركين على 5 من رأس الترتيب. بعض من ملامح التكوينات التالية:

  • ملامح الرواية عن طريق شجرة القرارات، التي تتميز التكوين تجزئة ساعة: ساعة صناديق
  • صناديق درجة الحرارة: وبالمثل، فإن درجة الحرارة المميزة تجزئة متغير
  • سنوات صناديق: 1/8 من المميزات الجديدة لبناء من 2 سنوات
  • يوم النوع: يوم في "يوم عمل"، "نهاية الأسبوع" و "العطل"

هذا الهيكل الميزة ليست سهلة، لأنه يتطلب الكثير من العصف الذهني واسعة التنقيب عن البيانات. ميزة

الهندسة لا يمكن قراءة الكتب ومشاهدة أشرطة الفيديو على التعلم، وبالتالي، ليست كل منهم على أنها جيدة. هذا هو سمة من سمات المشروع ومن المعروف أيضا باسم قضية الفن. إذا كان جيدا، ثم لديك ميزة في المنافسة. مثل السويسري روجيه فيدرر (السويسري روجيه فيدرر)، على درجة التنس، وقال انه هو سيد من الميزات الهندسية.

4. خصائص الهندسة أتمتة

تحليل ما سبق صورتين، يظهر اليسرى في بداية القرن 20، مجموعة من الناس يتم تجميع السيارة، يتم عرض الحق اليوم مجموعة من الروبوتات القيام بنفس العمل. يمكن لأي العمليات المؤتمتة جعلها أكثر كفاءة واقتصادا. وبالمثل، فإن ميزة يعمل بشكل جيد. وعلاوة على ذلك، في تعلم الآلة، وقد الآلي ملامح المشروع.

بناء نموذج التعلم الآلي وعادة ما يكون عملية صعبة وشاقة التي تنطوي على العديد من الخطوات. لذلك، اذا كنا نستطيع أتمتة نسبة معينة من خصائص المهام الهندسية، والعلماء البيانات وخبراء المجال يمكن أن تركز على جوانب أخرى من هذا النموذج. هذا يبدو رائعا، ولكن من الصعب أن نصدق، أليس كذلك؟

الآن أن لدينا فهم الحاجة الملحة لتطوير الميزات الهندسية الأتمتة إلى مساعدة، ثم السؤال التالي الذي يطرح نفسه هو، كيف؟ آه، لدينا أداة عظيمة التي يمكن استخدامها في حل هذه المشكلة، ويسمى Featuretools.

5. Featuretools الملف الشخصي

Featuretools هي مكتبة مفتوحة المصدر لأتمتة أعمال الميزة. وهي أداة ممتازة تهدف إلى تسريع عملية ميزات توليد، بحيث يكون لدينا المزيد من الوقت للتركيز على الجوانب الأخرى من طراز تعلم بناء الجهاز. وبعبارة أخرى، فإنه يجعل بياناتك في "الانتظار لتعلم آلة" الدولة.

قبل استخدام Featuretools، ينبغي لنا أن نفهم مكونات الرئيسية الثلاثة في حزمة:

  • الكيان (الكيانات)
  • شامل ميزة العمق (ميزة العميقة التجميعي، DFS)
  • حيث عزر (ميزة البدائيون)
  • ويمكن اعتبار كيان وتمثيل إطار بيانات الباندا، مجموعة من عدد وافر من الكيانات دعا Entityset.
  • شامل ميزة العمق (DFS) له علاقة مع عمق تعلم أي شيء، لا تقلق. في الواقع، DFS هو سمة من سمات أساليب الهندسة هي Featuretools العمود الفقري. وهو يدعم بناء الميزات الجديدة من المربع بيانات واحد أو عدة.
  • تتميز DFS التي كتبها العلاقات كيان البدائية تطبق بناء Entityset من الميزات الجديدة. هذه الميزات هي فكرة شائعة الطريقة اليدوية من ميزة توليد. على سبيل المثال، بدائية "متوسط" للعثور على متوسط قيمة المتغير على مستوى التجميع.

تعلم أفضل طريقة لتصبح مألوفة Featuretools هو ليتم تطبيقها على مجموعة البيانات. لذلك، في المقطع التالي، سوف نستخدم مجموعة البيانات BigMart المبيعات في القضايا العملية لتعزيز مفهومنا.

ممارسة 6. Featuretools

التحديات التي تواجه BigMart المبيعات هو بناء نموذج تنبؤي لتقدير مخازن محددة في مبيعات كل سلعة، والتي سوف تساعد واضعي السياسات على تحديد سمات BigMart المهم من كل منتج أو متجر، الذي يلعب أساسيا في تحسين المبيعات الإجمالية الدور. علما بأن في مجموعة بيانات معينة، وهناك 1559 نوعا من البضائع عبر 10 مخازن.

يعرض الجدول التالي قدمت بيانات مميزة:

متغير وصف Item_Identifier رقم المنتج Item_Weight الوزن Item_Fat_Content سواء كان المنتج منخفض الدهون Item_Visibility عرض المنتج يمثل كل المتاجر في نسبة مساحة عرض المنتجات منطقة ITEM_TYPE فئة المنتج Item_MRP أعلى سعر للسلع Outlet_Identifier عدد من المتاجر Outlet_Establishment_Year سنة التأسيس مخازن Outlet_Size منطقة تخزين Outlet_Location_Type المدينة نوع مخزن Outlet_Type نوع الموقع (محل بقالة أو سوبر ماركت) Item_Outlet_Sales مبيعات مخزن البضائع (أي تطلبت المتغيرات الانتاج المتوقع)

يمكنك تحميل البيانات من هنا.

6.1 التثبيت

تطبيق Featuretools لبيثون 2.7،3.5 و 3.6، ويمكن تركيبها بسهولة باستخدام Featuretools نقطة.

6.2 تحميل حاجة المكتبات والمعلومات

6.3 إعداد البيانات

أولا، فإننا سوف Item_Outlet_Sales تخزينها في متغير في المبيعات، وملامح الهوية وتخزين test_Item_Identifier test_Outlet_Identifier في.

ثم، فإننا سوف تدريب ومجموعات اختبار الجمع مشكلة تجنب تنفيذ الخطوات نفسها مرتين.

تحقق من القيم المفقودة في مجموعة البيانات.

المتغيرات Item_Weight وOutlet_size لديهم الكثير من القيم المفقودة، قدرتنا على معالجة ما يلي:

6.4 تجهيزها البيانات

وأنا لن تفعل الكثير من عمليات تجهيز قبل، لأن الغرض من هذه المقالة هو لمساعدتك على البدء باستخدام Featuretools.

يبدو Item_Fat_Content يحتوي على اثنين فقط فئات، وهي "قليل الدسم" و "عامة" والقيمة المتبقية تعتبر زائدة عن الحاجة. لذا، دعونا تحويله إلى متغير ثنائي.

6.5 Featuretools تحقيق أعمال ميزة

الآن، يمكننا أن نبدأ باستخدام Featuretools لأتمتة أعمال الميزة! يجب أن يكون مجموعة البيانات معرف ميزة فريدة من نوعها (مجموعات البيانات لدينا ليس لديها أي من هذه الخصائص). ولذلك، فإننا سوف يخلق ID جنبا إلى جنب مجموعة بيانات فريدة من نوعها. إذا لاحظت، وهناك نوعان ID البيانات - واحدة للسلع واحد للمخازن. ولذلك، ببساطة ربط اثنين يمكن أن توفر لنا مع هوية فريدة من نوعها.

يرجى ملاحظة أنه نظرا لعدم وجود ملامح تعد ضرورية Item_Identifier، أزلت هذه الميزة. ومع ذلك، فإنه يحتفظ خصائص Outlet_Identifier، لأنني تخطط لاستخدامها لاحقا.

قبل المتابعة، سوف نستحدث EntitySet ميزة، بل هو المربع الذي يحتوي على عدد من هياكل البيانات والعلاقات بينهما. لذا، دعونا خلق مزيج إطار بيانات EntitySet، وأضاف إلى ذلك.

يحتوي على بيانات مستويين من المعلومات، أي المعلومات على مستوى البند ومستوى تخزين. وعلاوة على ذلك، Featuretools توفر عدد وافر من وظيفة انقسام بيانات الجدول المحدد. لذلك، وفقا لمحلاتنا ID Outlet_Identifier إنشاء جدول جديد "مخرج" من الجدول BigMart.

دعونا نتفحص ملخص EntitySet.

كما هو مبين أعلاه، والتي تضم كيانين، bigmart ومخرج. ويتكون أيضا من قبل Outlet_Identifier علاقة اتصال بين الجدولين. وهذه العلاقة تلعب دورا رئيسيا في توليد الميزات الجديدة.

الآن سوف نستخدم عمق ميزة شامل (ديب ميزة التجميعي) تلقائيا خلق ميزة جديدة. أذكر، DFS البدائيون ميزة واستخدام جداول متعددة EntitySet موجود لبناء الميزات الجديدة.

target_entity ID هي الجهة المستهدفة، ويشير إلى كيان الهدف الذي نريد لبناء الخصائص الفيزيائية الجديدة (في هذه الحالة، هو الكيان bigmart '). معلمات ميزة التحكم Max_depth الناتجة عن تراكب مميزة عزر تجسيد التعقيد. المعلمات N_jobs هي عن طريق استخدام عدد وافر من النوى موازية للمساعدة في حساب الميزة.

هذا ما تفعله مع Featuretools، في حد ذاته شيدت عددا من الميزات الجديدة.

دعونا ننظر هذه الميزات البناء الجديد:

ميزات DFS رواية 29 تكوينها في مثل هذه الفترة القصيرة من الزمن. هذا هو صدمة، لأن التشغيل اليدوي يستغرق وقتا أطول. إذا احتوى مجموعة البيانات الخاصة بك متشابكة جداول متعددة، لذلك Featuretools لا تزال سارية المفعول.

في هذه الحالة، لم يكن لديك موحدة على الطاولة، وأكثر من الجداول المتاحة بالفعل.

دعونا ننظر في الأسطر القليلة الأولى من feature_matrix.

هناك مشكلة مع هذا الإطار البيانات، فإنه غير مصنفة بشكل صحيح. سنقوم فرزها وفقا لالمربع بيانات الركاب والحمولات معرف متغير.

الآن، feature_matrix نوع إطار البيانات بشكل صحيح.

6.6 نماذج بناء

الآن هو الوقت المناسب للكشف عن فعالية هذه الميزات من الجيل! وسوف نستخدمها لبناء نموذج للتنبؤ Item_Outlet_Sales. لأن البيانات النهائية (feature_matrix) محملة الفئة العديد من الميزات، قررت استخدام CatBoost الخوارزمية. ويمكن أن تستخدم مباشرة التمييز الطبقي، وقابلة بطبيعتها.

يمكنك الرجوع إلى هذه المقالة لقراءة المزيد عن CatBoost.

CatBoost يتطلب من جميع فئات المتغيرات في شكل سلسلة. لذلك، علينا أولا تحويل البيانات إلى فئة متغير سلسلة:

ومن ثم إعادة feature_matrix التدريب انقسام ذهابا ومجموعات اختبار.

يتم تقسيم مجموعة التدريب في التدريب جزأين والتحقق، حتى أن أداء الخوارزمية اختبار المحلية.

وأخيرا، فإن نموذج التدريب. باستخدام RMSE (جذر متوسط مربع الخطأ، RMSE) كإجراء.

1091.244

التحقق من صحة مجموعة البيانات RMSE النتيجة ~ 1092.24.

بنفس النتيجة نموذج من 1155.12 في القائمة العامة. في حالة عدم وجود أي أعمال الميزة، كانت مجموعة التحقق من صحة وهدافي مشترك و 1103 ~ 1183 ~. وهكذا، ليس فقط السمات المميزة Featuretools التكوين عشوائي، ولكن أيضا قيمة للغاية. الأهم من ذلك، فإنه يوفر الكثير من خصائص الوقت الهندسة.

7. Featuretools للتفسير

لدينا حلول البيانات العلمية للعرض سهلة الاستخدام للتعلم الآلة هي جانب مهم جدا. وأوضح Featuretools ميزة ولدت يمكن بسهولة للاستماع إلى عدم الفن، لأنها تقوم على فكرة مميزة سهلة الفهم.

على سبيل المثال، يتميز outlet.SUM (bigmart.Item_Weight) وoutlet.STD (bigmart.Item_MRP) تمثل مجموع كل مخزن كل معيار الوزن من المنتجات والفرق في تكلفة السلع.

وهذا يجعل الخبير تعلم الآلة الذين ليست قادرة على المساهمة في مناطقهم من الخبرة أيضا.

السجل الأخير

Featuretools بباقة تغير فعلا قواعد تعلم الآلة اللعبة. وعلى الرغم من استخدامه في الصناعة لا تزال مقيدة، ولكنها كانت شعبية في القراصنة وML سباق الماراثون. أنه يوفر الوقت وأنه يولد العملي المميز قد فاز حقا بلدي صالح.

في المرة القادمة التي تحاول معالجة أي مجموعة من البيانات حول، في قسم التعليقات وتقول لي كيف يتم تنفيذ هذه العملية!

العنوان الأصلي: التدريب العملي على دليل الآلي ميزة الهندسية باستخدام Featuretools في الارتباط بيثون الأصل: الشبكي: //www.analyticsvidhya.com/blog/2018/08/guide-automated-feature-engineering-featuretools-python/

مقدمة المترجم

تشانغ لينغ ، في منصب محلل بيانات، ماجستير في التخرج الحاسوب. في العمل البيانات، نحن بحاجة إلى الشجاعة لإعادة تشكيل نفسها، ولكنها تحتاج أيضا المثابرة التعلم مدى الحياة. ولكن ما زلت أحبه صارمة، هوسها الفني. بدا الأمر لم البيئة البحرية البيانات، مما يشكل تحديا البيانات المهمة. شكرا البيانات المرسلة THU توفير مثل هذا المنبر المهنية، وأعرب عن أمله في مستقبل أفضل المهنية وجعل لكم التقدم معا!

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور " بيانات الإرسال THU "أيتها الأخوات ولا". إرسال البيانات THU "لرعاية المزيد من المحاضرات ونوعية المحتوى.

البيانات الكبيرة وAI نعمة المورد الكهرباء ومهاجمة-1102!

1 نوفمبر إلى 15 في تشنغدو تنظيف المشتركة دراجة 18 مليون سيارة

المعركة - مانشستر يونايتد حو ليستغرق ثلاثة القبعات دي بالا على التوالي يوفنتوس أربعة أهداف في انتر ميلان 3-1 عكس روما

الروبيان البلاستيك متغير، القريدس إعادة التدوير بطريقة فاي

الفنون الليبرالية الطلاب بعد 12 أسبوعا من التدريب لتصبح جوجل AI عالم الدماغ؟ وقال الحزب: أنت تريد أكثر من ذلك

جودة الإيطالية تصنيفات الحياة: الأولى بولزانو، ميلان، 55، روما 88

الدوري الاسباني - ميسي وسجل المفقودة نقاط ضعف باولينيو لاول مرة برشلونة 2-0 اتلتيكو مدريد 5-1

تم كسر الرقم القياسي 21 عاما! أكملت عمالقة الدوري الممتاز 10 Liansha في المنزل، ولكن أيضا حصاد أخبار جيدة

تسجيل | 2018 البيانات ومنتدى التنمية وسائل الإعلام: البيانات، ووسائل الإعلام، ومجموع ما يهمك!

حصري | أنشئ محرك توصية باستخدام Python من البداية (مع رمز)

يندين تسع رحلات ذهابا وإيابا، وهونج كونج، الصين المنافسة "الفشل الكامل"

محركات الصواريخ الجديدة المصنعة من المليارديرات "كذبة الفضاء" هو مرة أخرى سلاح