كيف "AI الفصول الدراسية" اختيار ميزة (مواد قانون) آلة التعلم سوف تواجه "حفرة"

مرحبا.

إذا كنت تقرأ البرنامج يوم أمس - "آلة التعلم قد تصادف" حفرة "- كيفية اختيار الميزات (قسم نظرية)"، والتي تدرك طريقة مهتمة جدا، لذلك آمل أن يكون هذا التنفيذ كود التفسير المقالة، يمكنك جعل بعد مهمة اختيار ميزة أسهل قليلا.

هنا لدينا ميزات اضافية من أول بيانات مستقلة والخصائص البصرية تفعل، حتى نتمكن من فهم الدافع ملامح محددة، تليها الترشيح، على التوالي، وطريقة التفاف الأسلوب، وتضمين شفرة هذه الميزات تجعل من العرض المحدد، في حين مراقبة اختبار تعيين على خطأ التعميم لتعكس التفوق اختيار ميزة، وأخيرا نحن نحاول الجمع وتحقيق نتائج أفضل.

البيانات المستخدمة في مرض السكري تراثنا السابق لديه مشكلة أن درجة تدهور مرض السكري والجنس في النهاية ليست هناك علاقة؟ وبعبارة أخرى، فإنه ليس له علاقة في النهاية لا شيء لا ميزة؟

من قواعد البيانات استيراد sklearn

سيبورن استيراد كما SNS

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

استيراد نمباي كما أرستها

# قراءة البيانات

البيانات = datasets.load_diabetes ()

X = البيانات

ص = البيانات

# مؤامرة

sns.set ( 'darkgrid' = نمط)

plt.plot (X، Y،. ك "، markersize = 5)

plt.xlabel ( 'الجنس')

plt.ylabel ( 'quantitativemeasure تطور المرض')

plt.legend ()

plt.show ()

يمكننا أن نرى من هذا الرقم خارجا على كل من الجنسين، وعرضت أهدافنا ميل موزعة بالتساوي، فمن المرجح أن ميزة مستقل بين الجنسين، ومع ذلك، كنا الاستفادة بشكل أفضل من طريقة معامل الارتباط لإجراء اختبار من كافة الميزات :

من قواعد البيانات استيراد sklearn

fromsklearn.feature_selection f_regression استيراد

سيبورن استيراد كما SNS

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

استيراد نمباي كما أرستها

# قراءة البيانات

البيانات = datasets.load_diabetes ()

X = البيانات

ص = البيانات

# حساب معامل الارتباط

تسجيل = f_regression (X، Y)

# مؤامرة

sns.set ( 'darkgrid' = نمط)

sns.barplot (النتيجة، البيانات)

plt.xlabel ( 'نتيجة')

plt.ylabel ( 'ميزات')

plt.legend ()

plt.show ()

معامل الارتباط هو مقياس للعلاقة خطية يمكن أن ينظر إليه من هذا الرقم، ومعامل الارتباط هو صغير جدا بين الجنسين ويتميز الهدف من الهدف، ثم بقية باسم 'عمر'، 'S1'، 'S2 "لا ينبغي إزالتها، نفعل المعلومات المتبادلة ميزة التصفية:

......

fromsklearn.feature_selection mutual_info_regression استيراد

تسجيل = mutual_info_regression (X، Y، discrete_features = خطأ، random_state = 0)

......

وبالإضافة إلى ذلك، يمكننا أيضا استخدام معامل ارتباط سبيرمان:

من scipy.stats spearmanr استيراد

تسجيل =

إلى  ن في  مجموعة (10):

 score.append (np.abs (spearmanr (X، Y)))

كما يمكن أن يرى، "عصر '،' الجنس '،' S1 '،' S2" لا يزال أدنى التهديف أربع سمات، و "عمر"، "الجنس"، "S2" لا يزال أدنى يسجل ثلاثة الميزات. يمكننا القول، المعلومات المتبادلة ومعامل بيرسون، وسبيرمان معامل تحقيق مستوى معين من الاتساق. لذلك من خلال هذا الفلتر، ونحن اتسمت بها درجة أهمية فهم في النهاية كم الميزات التي سيتم اختيارها لدخول النموذج النهائي يعتمد على مدى العديد من الميزات التي يمكن تحقيق أفضل أداء.

حتى هذه النقطة، علينا أن نفعل غير تدرس العلاقة مع الهدف للوصول إلى قضاء دور ميزة غريبة، ولكن بالإضافة إلى ذلك، نحن ميزة اختيار مهمة هامة أخرى هي القضاء على ميزات لا لزوم لها. للحصول على بيانات دينا، ونحن قد يعتقد حدسي والعمر وضغط الدم لها علاقة معينة:

plt.plot (X، X،. ك ')

ولكن إذا ذهبنا فقط التصور من فضاء العينة، لا نستطيع أن نفعل أحكام دقيقة مثل هذه الصورة لا نستطيع الحصول على أي معلومات. والأفضل من ذلك، ونحن نفعل معامل الارتباط لكل ميزة ولكل ميزة للحصول على مصفوفة الارتباط (علما بأن هذه المرة نحن ميزة فقط للتجهيز، بغض النظر عن الهدف ط):

من scipy.stats spearmanr استيراد

سيبورن استيراد كما SNS

من قواعد البيانات استيراد sklearn

البيانات = datasets.load_diabetes ()

X = البيانات

score_mat = np.abs (spearmanr (X))

sns.set (نمط = 'الأبيض')

sns.heatmap (score_mat، ANNOT = صحيح، مركز = 0)

plt.show ()

A الساحات الملونة أخف وزنا، وارتفاع درجة الارتباط. يمكننا أن نلاحظ حقيقة مثيرة للاهتمام: نحن قلقون من العمر ودرجة نسبية من ضغط الدم هو فقط 0.35، أقل بكثير من "S1" المصل "S2" ارتباط الدم، وهو ما يصل الى 0.88، في حين أن 'S3 "المصل و "S4" لدينا علاقة المصل إلى 0.79 فهم بديهية من هذا الارتباط، يمكننا القيام به على درجة عالية من الارتباط مقابل "S1" المصل "S2" الأمصال:

plt.plot (X، X،. ك ')

كلا تبين وجود علاقة خطية قوية! ثم يمكننا أن نستنتج أن هذا هو سمة من السمات لزوم لها، ونحن بحاجة فقط للحفاظ على واحد منهم.

كما رأينا أعلاه، والترشيح وهناك نوعان من المهام الرئيسية: العثور على ميزات اضافية من خلال العلاقة بين ميزة اختبار لتحديد ميزة غريبة من ميزة واختبار ارتباط الأهداف.

بعد ذلك، مثل ويقدر طريقة التفاف بكثير نسبيا، يتم طرح عليه في جمع كافة الميزات، وذلك باستخدام استراتيجية الجشع. لا يسعنا إلا أن استخدام النموذج الخطي لمراقبة تأثير عدد مختلف من ملامح قدرات النموذج المناسب، وفقا لنظرية نقول أن أقل الخصائص، معالم النموذج أقل، والقدرة على احتواء النموذج سيكون أضعف. ومع ذلك، فإن الغرض من اختيار ميزة هو السماح للقدرة التعميم أقوى، لذلك نحن نريد أن يتجاوز عدد من السمات كمعلمات لمراقبة الخطأ التعميم على مجموعة الاختبار عن طريق تصديق متقاطع:

من sklearn.feature_selection RFECV استيراد

سيبورن استيراد كما SNS

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

استيراد نمباي كما أرستها

من sklearn.linear_model انحدار خطي استيراد

fromsklearn.model_selection KFold استيراد

البيانات = datasets.load_diabetes ()

X = البيانات

ص = البيانات

LR = انحدار خطي ()

هداف = 'neg_mean_squared_error "

rfecv = RFECV (مقدر = LR، خطوة = 1، السيرة الذاتية = KFold (5)،

 الإحراز = هداف)

rfecv.fit (X، Y)

sns.set ( 'darkgrid' = نمط)

plt.xlabel ( "عدد offeatures المحدد")

plt.ylabel ( "validationscore الصليب (MSE)")

plt.plot (المدى (1، ليون (rfecv.grid_scores_) +1)، -rfecv.grid_scores _، "ص"، والتسمية = "offeatures عدد الأمثل: د" rfecv.n_features_)

plt.legend ()

plt.show ()

التفاف طريقة استخدام خاصية يمكننا اختيار أفضل ميزة فرعية تضم عددا من 6، مثل مجموعة ميزة التعميم هو أفضل من فرعية من كافة الميزات، وMSE هي أفضل ميزة فرعية حوالي 2946.88، وجميع من معالمه MSE حوالي 2993، والبيانات وصفها اختيار ميزة قد تحسن بشكل كبير من أداء النموذج. ما يمكننا أن نرى العديد من الميزات عن طريق الحفاظ على التعليمات البرمجية التالية:

np.array (البيانات) # يستخدم هناك مجموعة منطقية الإنقسام نمباي

طريقة تغليف بسيط جدا والنفط الخام، والاستخدام المباشر للخصائص أداء مجموعة فرعية من الميزات المحددة لتحقيق التأثير، ولكنها ثابتة المتعلم، إذا كنا معول انتهى تتميز الانحدار الخطي، فإنه يظهر فقط أن هذه الميزات هي الأكثر في الانحدار الخطي أفضل مزيج، ولكن لم يضع لمجموعة واسعة من النماذج، مثل نموذج النظرية الافتراضية وSVM.

جزءا لا يتجزأ من تضمين داخل المتعلم، واكتمال عملية التدريب اختيار ميزة في نفس الوقت، وهذا يجنب جزءا لا يتجزأ من التعلم اختيار الميزة مع فصل المتاعب، لأن أسلوب التفاف قد يكون اختيار التغيير مميزة يختلف المتعلم .

وكان علينا في "الإفراط في تركيب مشكلة (قانون المقالة)" مثل هذه الصورة (أفضل

حول 0.057):

وهي تمثل الخطأ تعميم نموذج التغيير مع معامل تسوية، لذلك اختر الخطأ الحد الأدنى تعميم والأمثل في الفضاء المعلمة المقابلة لفقدان بعض الميزات:

coefs_lasso =

أشعة الفا = np.linspace (0.01،0.5،1000)

إلى  ل في  أشعة الفا:

 اسو لاسو = (ألفا = أ)

 lasso.fit (X، Y)

 coefs_lasso.append ((lasso.coef_))

تنظيم من السهل جدا أن النهج، لأنها تشارك في النموذج الأمثل، ولكن لا يعتمد على النموذج نفسه، وذلك في العديد من النماذج يمكن أن تكون جزءا لا يتجزأ في ذلك. إذا تم تضمين ذلك الانحدار الخطي، ومرة أخرى في شكل لدينا نوقش في وقت سابق، إذا كان من الممكن جزءا لا يتجزأ من SVM، فإنه قد يكون بمثابة اختيار الميزة.

اختيار من نقطة نمذجة عرض مميزة، هو في الأساس هو تقليل أبعاد المتغيرات نموذج المدخلات لدينا، مما يؤدي إلى أداء أفضل وأسرع سرعة تدريب، وحتى أفضل التفسيرية.

ثم لا توجد وسيلة أخرى لتحقيق نفس الغرض؟ وسوف نقدم المقبل المختلفة للحد من البعد وميزة اختيار واحد، وكيف نطبق الحد من البعد المناسب.

قراءة Xinjunkaiba

الفصول الدراسية TIPS

البيانات هنا والبيانات "overfitting (قانون الفصل)،" نفسه، وذلك أساسا لمشاكل الانحدار. إذا كانت المشكلة هي تصنيف، ثم تصفية طريقة معامل الارتباط والمعلومات المتبادلة ولكن أيضا للقيام بهذه التغييرات المناسبة، يجب أن نكون أكثر sklearn.featureselection من fclassif وmutualinfoclassif، وchi2.

طريقة معامل سبيرمان المستخدمة في هذه الورقة من Scipy وحدة الإحصاءات. وبالإضافة إلى ذلك، فإن المهام شائعة الاستخدام الحاجة الترشيح، ويمكن العثور عليها في السنوات Scipy تقريبا.

من الناحية النظرية، إزالة نفسه الترشيح يجب إزالة الميزة مع خاصية القانون لا يتجزأ، ولكن في الواقع، لأن توزيع البيانات غير معروفة، وكثير من الافتراضات الرياضية طريقة الترشيح لم يعد يحمل، حتى واقع البيانات كبيرة جدا ومعقدة جدا العلاقة، باستثناء خصائص الترشيح غالبا ما تكون مختلفة لا يتجزأ من القانون.

طريقة التغليف، في حين أن المبدأ هو بسيط وسهل الاستخدام الخوارزمية، ولكن في الواقع كثير من الأحيان الكثير من الميزات، وحساب وسوف تصبح كبيرة جدا. لذلك يستخدم طريقة تنظيم شيوعا، بينما كثيرا ما يستخدم القانون كوسيلة لتصفية قيمة مرجعية، فإن مرشح لن تنتهي إلى مجموعة مختارة الميزة.

الكاتب: الراهب دون هيد آند شولدرز

للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

اليوم صوت الأساسية | AI لجعل "إدمان" اختفاء جنتلمان؟

الجنة لبو: لعبة ذكريات طفولتك في هذه اللحظة مستعرة خارج

نصائح انعكاس؟ ضرب سلتيك أول نصف سلة له على التوالي رئيس ملتوية ايرفينغ

Doinb هذا هو حقا حمل السوبر، هزم IG أدنى مستوى الدولة RW

العمل كفاءة القطع الأثرية مجانا على الأصدقاء دائرة الرقابة الداخلية، وتعلم استخدام كما لو التقطت عدة مئات من ملايين!

كيف "الفصول الدراسية AI" اختيار ميزة (قسم نظرية) آلة التعلم سوف تواجه "حفرة"

مع ما يكفي منخفضة لجعل قلبك! BMW X7 التعرض / معرض شنغهاي للسيارات المدرجة

النسخة الجديدة من أندرويد: البرمجيات المارقة وداع، أكثر منعش وأكثر جمالا وأكثر قوة، واسمحوا دائرة الرقابة الداخلية الحسد الذهاب!

اليوم صوت الأساسية | اختبار ماكياج الظاهري، واختيار الأرقام الفم أحمر مؤسسة لا متشابكة!

سيتم سرد جين كانغ SERES SF5 نسخة الانتاج رسميا يوم 10 ابريل ابتداء من الربع الثالث

الإعلاميين الساخنة: الدوري الاسباني كثافة عالية حقا، والأداء وو لي هو أفضل مما كان متوقعا

اليوم صوت الأساسية | كأس العالم Lengmendiebao، وجاءت بسرعة موجة من منظمة العفو الدولية تخسر المال!