كيف "الفصول الدراسية AI" اختيار ميزة (قسم نظرية) آلة التعلم سوف تواجه "حفرة"

الجميع في نهاية الأسبوع بخير، التقى مرة أخرى. هذا الأسبوع نقول هو كيف يمكن للمشكلة اختيار الميزة.

مهمة التعلم آلة نموذجية للتنبؤ قيمة عينة المقابلة لعينة من الميزات. إذا كانت ميزة قليلا عينة، ونحن سوف تنظر إضافة ميزات، مثل زيادة الخوارزمية هو سمة نموذجية من متعدد الحدود الانحدار. في سياق الأسبوع السابق، وأعتقد أننا وصلنا إلى فهم، والمزيد من الميزات نموذج، وارتفاع تعقيد النموذج، تقود بسهولة إلى الإفراط في تركيب. في الواقع، إذا كان لدينا حجم العينة أقل من عدد من الميزات، فإنه لا مفر من الإفراط في تركيب.

واقع الحال في كثير من الأحيان يتميز كثيرا، والحاجة للحد من عدد من الميزات.

الأول هو "صفة غير ذات صلة" (ميزة لا صلة لها بالموضوع). على سبيل المثال، فإن نسبة الرجال والنساء من رطوبة الهواء ودرجة الحرارة المحيطة، والرياح، والتنبؤ والسكان المحليين تمطر غدا، والجنس هو فيه ميزة غريبة نموذجية.

ثانيا، يجب علينا تقليل ميزة فئة أخرى تسمى "ميزات اضافية" (ميزة زائدة عن الحاجة)، على سبيل المثال، للتنبؤ الأسعار بنسبة مساحة المنزل، وغرفة نوم، منطقة المرآب، حيث مستوى الاستهلاك في المدينة، مستوى المدينة وغيرها من الضرائب الخصائص ، ثم مستوى (الأسعار أو ضريبة الدخل) الاستهلاك ميزات زائدة عن الحاجة. دليل على أن مستوى الاستهلاك وجود ارتباط بين مستوى الضرائب، ونحن بحاجة فقط واحدة من الميزات بما فيه الكفاية، لأنه من واحد استنتاجها آخر. (إذا كنت تعتمد خطيا، ثم نقوم به نموذج الانحدار الخطي مع مرور الوقت، سوف تكون هناك مشكلة الخطية المتعددة خطيرة من شأنها أن تؤدي إلى الإفراط في تركيب).

ميزة خفض لها اهمية عملية هامة جدا، وحتى بعض الناس يقولون أن هذا هو معظم القضايا الهامة في هذه الصناعة. لأنه بالإضافة إلى الحد من الإفراط في تركيب، يمكن اختيار الميزة أيضا جعل نموذج أفضل توضيحي، وتسريع نموذج التدريب، بشكل عام، ولكن أيضا من أجل أداء أفضل.

المشكلة هي أنه، في مواجهة المجهول، من الصعب أن لديهم معرفة كافية لخصائص القاضي ليست ذات صلة أهدافنا، ويضم والخصائص بين لا علاقة. في هذا الوقت، نحن بحاجة إلى طريقة في الرياضيات والهندسة لمساعدتنا قدر الإمكان على الخصائص المطلوبة مختارة فقط.

وتشمل الطرق الشائعة الترشيح (الفلترة)، وطريقة التغليف (Warpper)، تضمين (التضمين). بعد ذلك، أن نعطي مثالا لكل طريقة الفرعية، المقابلة لكل طريقة وسيتم شرح كيفية اختيار الميزة.

فلتر (مرشح)

ويستخدم الترشيح الطريقة فقط لاختبار ناقلات ميزة وارتباط الهدف (متغير الاستجابة)، و لا يتطلب أي خوارزمية تعلم الآلة لا تعتمد على أي نموذج، ولكن الإحصاءات لا غربلة التطبيق: وفقا لحجم احصاءات لدينا، تعيين المناسب العتبة، تتم إزالة ميزة دون عتبة.

لذلك، إلى حد ما، والترشيح هو أكثر مثل مشكلة رياضية، على غرار نحن فقط ومدربة في فرعية الميزة بعد الترشيح.

معامل الارتباط (معامل الارتباط)

ونحن نعلم جميعا أن التباين في المتغير العشوائي هو مقياس لدرجة تباين المتغيرات، التغاير واثنين من المتغيرات العشوائية (التغاير) هو مقياس لدرجة الاختلاف من نقابتهم. إذا X، Y على التوالي وجود مرغوب فيه

،

المتغيرات العشوائية، ثم يتم تعريفها على أنها التغاير

. كما يمكن أن يرى، والتغاير هو الانحراف عن المتوسط في X و Y درجة متوسط الانحراف عن متوسط قيمة لها من المنتج.

وهذا هو، إذا X أكبر من معدلها، Y أيضا يميل أكبر من الوسط، ثم التغاير سيكون إيجابيا، مشيرا إلى أن الجمعية هي إيجابية، إذا X أكبر من معدلها، Y تميل إلى أن تكون أقل من المتوسط، والتغاير ستكون سلبية ، مشيرا إلى أن الجمعية هو سلبي. يمكننا توسيعه:

إذا X و Y مستقلة، ثم

. (على العكس ليس صحيحا بالضرورة)

في الصورة

و

التخطيطي، حيث التباين

يميز درجة الانحراف عن المتوسط المتغير العشوائي،

توصيف درجة ارتباط خطي بين البلدين، ويمكن رؤية حدسي أنه كلما زادت زاوية بين خطين، س، ذ أكبر من الارتباط، ثم

أكبر.

وهناك فكرة الطبيعي هو ما إذا كانت زاوية

كمقياس لاثنين من المتغيرات العشوائية ذلك؟ في الواقع، نحن تعريف معامل الارتباط على أساس:

وهو يقابل

. معامل الارتباط هو ليس فقط أكثر هندسيا بديهية، وقياس أبعاد القرابة، لم يعد يعتمد على درجة وحدات قياس الارتباط.

الشكل التالي يبين حالة مثالية، ومساحة ميزة المقابلة لمعامل الارتباط المحدد.

الحزمة (Warpper)

والفرق هو أن طريقة الترشيح باستخدام هذه الطريقة وسيلة للالتفاف على ميزة البحث. والفكرة الأساسية هي ثابتة من اختيار فرعية مجموعة ميزة الأولي، وفقا لمجموعة فرعية من تقييم أداء المتعلم، حتى اختيار أفضل فرعية. في عملية البحث، وسوف نفعل كل نماذج فرعية والتدريب.

يظهر في الصورة مخططا لعملية التفاف، حيث الدقة المقدرة هي أداء نموذجي للتصنيف تعلم الآلة.

وبناء على هذا، تصبح حزمة القانون إلى حد كبير مشكلة الكمبيوتر: مشكلة البحث (البحث فرعية) في فرعية الميزة. لدينا العديد من الأفكار، والطريقة الأكثر وضوحا هو شامل (بحث شامل)، من خلال جميع مجموعات فرعية ممكنة، ولكن هذه الطريقة تنطبق على القضية رقم أقل من الميزات والخصائص، مرة واحدة زيادة، سوف تواجه مجموعة من انفجار، حسابيا غير ممكن. (N ملامح، وشبه التجميع له

ممكن)

فكرة أخرى هي العشوائية بحث خوارزمية مثل لاس فيغاس (لاس فيغاس خوارزمية)، ولكن مثل هذه الخوارزمية في عدد كبير من الميزات عند حساب التكلفة لا تزال مرتفعة، وليس هناك أي خطر على أي حل. لذلك، نحن غالبا ما تستخدم خوارزمية الجشع:

بحث إلى الأمام (البحث إلى الأمام)

في البداية، تتميز وفقا لعدد من مجموعات فرعية مقسمة، كل مجموعة فرعية هي ميزة واحدة فقط، كل مجموعة فرعية تقييمها. ثم على فرعية الأمثل من المزايا وتدريجيا يزيدون الكمية القصوى نموذج الأداء، ونموذج لا يعوض عن أداء أضاف الميزة حتى الآن.

وبعد البحث (البحث إلى الخلف)

في البداية، ومجموعة من الميزات كميزة طرح مجموعة فرعية، كل مجموعة فرعية لديها N-1 حيث، ليتم تقييم كل مجموعة فرعية. ثم على فرعية الأمثل من المزايا تدريجيا، بحيث الحد الأقصى لنموذج الأداء حتى نموذج للحد من خصائص الأداء لا الماكياج.

بحث ثنائي الاتجاه (بحث ثنائي الاتجاه)

 وإلى الأمام بحث بحث الوراء والجمع.

اعدام عودي (القضاء تكراري)

 تكرار نموذج التدريب، ورفض أفضل أو أسوأ سمات كل من مجموعة ميزة اكتمال اعدام التدريب في الجولة المقبلة، حتى يتم إزالة كافة الميزات، يتم رفض الطلب مقياسا لأهمية الميزات.

تضمينها (التضمين)

إذا كنت تعتقد مليا طريقتين الأولى، والترشيح والمتعلم لا يهم، لا مجرد اختيار ميزة فحص إحصاءات، وملفوفة قانون إصلاح المتعلم، ولكن البحث اختيار الميزة في الفضاء الميزة. ويتم أكبر اختراق تضمين هذا الاختيار الميزة تلقائيا خلال تدريب المتعلم.

إذا كنت تتذكر لحد من الإفراط في تركيب نظرية، يجب أن نتذكر ريدج الانحدار واسو:

انهم في الواقع لا تغيير النموذج نفسه، فقط إضافة المعلمة على أساس وظيفة الأمثل (مربع الخطأ نفسه) من القاعدة، والمعلمات

ويعكس حجم الأهمية النسبية لهذا المصطلح العادي والخطأ مربع يعني،

فإن أكبر، العادية وزن أكبر يكون على المدى الصحيح، فإن نتائج المعلمات الأمثل يفضلون القيم المعلمة أصغر.

في الواقع، فهي عن طريق الحد من طرق وزن معامل للحد من الإفراط في تركيب، النموذج الخطي، وهو ما يعني تقليل معامل الترجيح المرتبطة ميزة ليست مهمة، في الواقع، فإن ميزات تفعل بعض الفرز.

طرق لاسو والتي قد تكون بعض العوامل الترجيح إلى الصفر، مما يعني أنه ليس هناك سوى معامل الوزن ليست صفر الميزة سوف تظهر في النموذج. وبعبارة أخرى، على أساس

تسوية هو وسيلة لتضمين معيار.

يظهر في الصورة من التخطيطي النتائج الأمثل لاسو، الخطأ مربع يعني بالإضافة إلى تنظيم دخول تأثير على المدى هو: لا تكرارية النتائج الأمثل إلى نقطة سوداء بالكامل (نقطة النهاية)، ولكن التقاطعات على التكرار، وغالبا ما تكون في محور التقاطع.

وبالإضافة إلى ذلك، شجرة القرارات هي أيضا نموذجية من تضمين. لأن استخدام شجرة القرار ميزات سرية، ونحن في عملية اختيار ميزة شجرة القرارات عملية توليد، وعقدة تابعة شيدت وفقا لخصائص قيم مختلفة حتى لا ملامح أو القدرة تصنيف صغيرة جدا، فإنه يتوقف عن توليد عقدة.

قراءة Xinjunkaiba

الفصول الدراسية TIPS

قال شرطا هاما لهذه المادة وتسمى معامل الارتباط أيضا معامل ارتباط بيرسون، في الواقع، أن ينظر إليها على أنها معامل ارتباط بيرسون هو جيب تمام الزاوية من مركز البيانات، في حين تأتي الفكرة من مركز توزيع جاوس. حتى معامل ارتباط بيرسون هو مقياس للعلاقة توزيع أكثر عادة المتغيرات العشوائية. إذا لم هذا افتراض وجود لها، يمكنك استخدام معامل ارتباط سبيرمان.

طريقة الترشيح المستخدمة في مشاكل الانحدار، ويمكن أيضا استخدام المعلومات المتبادلة (المتبادلة المعلومات)، يمكنك استخدام تصنيف تطبيق خي مربع اختبار (تشي تربيع اختبار).

نحن سوف تدمج أشجار القرار متعددة، والغابات العشوائية الحصول على (الغابات عشوائية)، وأشجار القرار، لأنها يمكن أن تقرر هذه الفئة، وتقييم أهمية من الميزات، من أجل تحقيق ميزة اختيار ستلعب دور مماثل .xgboost الدور.

التعلم عمق لديه القدرة على معرفة خصائص تلقائيا، واختيار ميزة تعلم الآلة هي جزء مهم جدا، وهو عمق التعلم يمكن تحقيق واحد من الأسباب الرئيسية لنجاح.

الكاتب: الراهب دون هيد آند شولدرز

للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

النسخة الجديدة من أندرويد: البرمجيات المارقة وداع، أكثر منعش وأكثر جمالا وأكثر قوة، واسمحوا دائرة الرقابة الداخلية الحسد الذهاب!

اليوم صوت الأساسية | اختبار ماكياج الظاهري، واختيار الأرقام الفم أحمر مؤسسة لا متشابكة!

سيتم سرد جين كانغ SERES SF5 نسخة الانتاج رسميا يوم 10 ابريل ابتداء من الربع الثالث

الإعلاميين الساخنة: الدوري الاسباني كثافة عالية حقا، والأداء وو لي هو أفضل مما كان متوقعا

اليوم صوت الأساسية | كأس العالم Lengmendiebao، وجاءت بسرعة موجة من منظمة العفو الدولية تخسر المال!

7 الدخن جعل التعرض: بصمات الأصابع + الانفجارات الشاشة حجم الشاشة اختيار + مكرر

أبل يوم أمس تحديث بعض ما؟ نلقي نظرة على ملخص المعد لكم!

بكين تم حظره أيضا! قوانغتشو للسيارات ميتسوبيشي ويلسون طول أغنية المواد استهلاك الوقود قياس

اسبانيول 2-2 الغواصة الصفراء، أدلى وو لي بطاقة صفراء في الدوري الاسباني لاول مرة

سعر أقل من ألف! في "دفتر" الروبوت يمكن بسهولة الحصول على المنزل والمكتب

والد القنبلة الهيدروجينية توفي ثلاثة أيام فقط كنز وطني آخر CAS الموت الأكاديمي

البيانات دفعة أقوى M.2 SSD: Huirong الماجستير، وقراءة ارتفعت إلى 3.5GB / ق