حصريا | علم الغابات عشوائية

هذا المقال هو لإرسال البيانات البحثية "المتكاملة التعلم شهر" في المادة الثالثة، سيصدر هذا الشهر حول موضوع المحتوى إلى التركيز على التعلم، فإن نهاية الشهر يكون للرد على فوز الأنشطة التفاعلية الجائزة، لا تتردد في ترك رسالة لمناقشة المواضيع ذات الصلة.

الغابات عشوائية - نظرة عامة

عند عدد كبير جدا من المتغيرات، سوف تأخذ ما طريقة لمعالجة البيانات؟

عادة، عندما تكون المشكلة معقدة جدا، ونحن في حاجة إلى مجموعة من الخبراء بدلا من خبير في حل المشكلة. مثل لينكس، وهو نظام معقد للغاية، فمن الضروري لبناء مئات من الخبراء.

وهلم جرا، يمكن أن نجبر قرارات العديد من الخبراء، جنبا إلى جنب مع خبرتها في مجال البيانات العلمية المهنية المستخدمة في ذلك؟ هناك هو دعا التكنولوجيا "غابة عشوائية"، هو استخدام العشوائي لللتحسين النتائج التي تم إنشاؤها بقرار واحد لصنع القرار الجماعي. في هذه الطريقة، كل البرامج الخوارزمية "الخبير" شجرة استخدمت لإنجاز مهمتهم، ومن ثم استخدام مجموعة من هذه الأشجار لحساب أو تستمد خوارزمية نموذج، وجدت في نهاية المطاف، والنموذج النهائي المستمدة من أي متخصص سوف يكون الإخراج الممتاز.

الغابات قرار ينتمي إلى دمج خوارزمية التعلم، والتعلم المتكاملة (التعلم الفرقة) القلق الشعبي في هذه الصناعة. التعلم الفرقة باستخدام مجموعة من المتعلم على التعلم واستخدام قواعد معينة لكل دمج للحصول على النتيجة التعلم هو أفضل من طريقة التعلم الفرد المتعلم لتعلم الآلة. متكاملة خوارزمية تمثيلية خوارزمية التعلم لتعزيز والأسرة تكييس سلسلة من الخوارزميات.

قرار البيانات شجرة

أولا، دعونا نفهم آلية صنع القرار بناء على شجرة قرار واحد.

العديد من الطلاب التقدم بطلب للحصول على "الكلية المهنية والتقنية الفائقة." متوسط درجة التاريخية SAT للقبول هي 2200، GPA متوسط درجة هي 4.9. نحصل على معلومات التطبيق 1000 المتقدمين. نحن بحاجة إلى خلق نموذج للتنبؤ الطلاب على الأرجح أن اعترف. كيف لنا أن نفعل ذلك؟

أسلوب واحد هو الأول متوسط أكثر من 2200 SAT المتقدمين تصنف على أنها مجموعة يرمز لها "على الأرجح". ثم مزيد من الانقسام جزء من GPA، GPA أقل من أو يساوي 4.9، تصنف على أنها "على الأرجح"، GPA فوق 4.9، والتقسيم هو "من المرجح جدا".

ثم، في نفس الطريقة التي نتعامل بها مع عشرات SAT أدناه 2200 المجموعات. GAP نسبة عالية من الأصوات، تصنف على أنها "ممكن"، ودرجة منخفضة من GAP تصنف على أنها "من المستحيل". قد يبدو هذا معقولا جدا، ولكن هناك العديد من المشاكل:

  • إذا كان أحد يبدأ GPA إلى الانقسام، وعشرات SAT ثم قسمة هذه النتيجة سوف تكون هي نفسها تجميع ذلك؟ ما هي أفضل طريقة لتقسيمه؟

  • وإذا استخدمنا أكثر القياسية، مثل النتيجة ورقة، والمواد الاختيارية والجوائز والمواهب الرياضية، ونحن يجب أن يكون مقدار وما هي السمات هي معظم السمات الهامة هي الفائدة؟

  • في حالة معينة المتوسط، كيف منفصلة القيم والقيم المتطرفة؟ لتوزيع كيف يؤثر ذلك على معدل خطأ ذلك؟

استخدام بنية البيانات الداخلية من شجرة القرار ينقسم:

ويكيبيديا هذا الرسم يمثل الهيكل الداخلي من "تايتانيك" مجموعة البيانات الناجين.

سبق هو الإطار شجرة القرار لاتخاذ القرارات. الرقم التالي على كل عقدة هو احتمال البقاء على قيد الحياة، ونسبة تمثل القيمة المرصودة للتصنيف. كل يتوافق فرع إلى اليسار هو "نعم"، المقابلة لفرع الصحيح هو "لا". تمثل كل عقدة خضراء "البقاء على قيد الحياة"، وتمثل كل عقدة حمراء "لا ناجين". عدد قياسي من الزوج أو الأقارب باسم "sibsp".

من خلال ما سبق يمكن تعلمها، وإذا كنت ذكرا، وأقل تكلفة الفضاء في فرصها في البقاء على قيد الحياة هي أصغر من ذلك بكثير. إذا كنت طفلا كان أو أنثى، وفي أماكن الإقامة أغلى، سيكون هناك فرصة أكبر للبقاء على قيد الحياة.

قياس درجة شجرة القرارات "جيدة"

وتستخدم تقنية شجرة القرارات كسب المعلومات والكون لقياس مدى نجاح شجرة القرار. أساسا، نحن نريد أن يكون العدد المناسب من نقطة الانقسام، لذلك لدينا "أفضل" طريقة تقسيم، ونحن لن تستمر في تقسيم المجموعة. فكيف لنا أن نعرف طريقة تجزئة أفضل من الآخر ذلك؟

من الواضح، إذا نقطة البيانات بشكل واضح جدا وتنقسم مجموعة مقسمة إلى "قبول" و "رفض"، ثم وهذا هو "جيد".

ومع ذلك، يقول دعونا نتبع تشير الصحيفة تقسيم واضح، ولكن عشرات GPA لكل مجموعة المنضبط جدا، ومتوسط درجة تعيين STA. حسنا، نحن في الواقع لم يجعل التنبؤ جيدة، لأن مجموعتين من نفس الارتباك، لا يرون جيدة أو سيئة.

درجة من الارتباك نيابة عن الكون نظام، وزيادة الكون، ونظام أكثر فوضوية. عندما تكون جميع المتغيرات ضمن مجموعة من القيم هي نفسها عندما الكون هو صفر. وهكذا، عندما وضعناها تقسيم فيها أكبر فرق بين المجموعة مع مجموعة أخرى، في حين أن الفرق أصغر بين الأفراد في كل مجموعة، أي حزمة البيانات إلى بيانات مركزية، هو أن هذه الكون مجموعة بيانات عملية التخفيض. وإذا استخدمنا طريقة لتجميع مجموعات البيانات، إذا كان الكون لم تسقط، ثم قدمت دليلا قويا على أن هذه ليست ميزة جيدة، أو تقسيم قيمة جيدة.

إذا مقلوب شجرة أنشأناها، ثم عندما كنا الجمع بين عقدتين في نفس الموقف، والكون يتغير الزيادات، وزيادة في الكون دعا كسب المعلومات. وذلك بعد انعكاس، وارتفاع اكتساب المعلومات، وتجزئة أفضل.

على ما يبدو منطق ليست قوية، ولكن لديها لا دعم، ويستخدم بشكل رياضي قوي جدا مثل هذه البرامج النمذجة الرياضية لخلق أساس لبناء شجرة القرار.

عندما مجموعة معينة من عينات ديها العديد من الميزات، ويضم من أفضل تحديد شجرة وتجزئة للبتجزئة القيمة الميزة. ثم، فإنه إخراج عدد من المعلمات، بما في ذلك عدد من ميزة تقسيم يستخدم، وملامح محددة ومعلومات قيمة كسب وما شابه ذلك.

فكيف النمذجة البرمجيات لخلق أفضل قرار شجرة ذلك؟ ومن مرة أخرى واحدا تلو الآخر، والمقارنة بين الحصول على معلومات من كل منهما، ومن ثم اختيار أفضل النقيض.

إدخال الغابات عشوائية

يوفر قرار شجرة نموذج بسيط، واضح النظري لفهم عملية التصنيف متكررة. ومع ذلك، من الناحية العملية، شجرة واحدة عندما حل المشاكل العملية التي تنطوي على عدد كبير من المتغيرات والبيانات على نطاق والمتوسطة الحجم، ليست فعالة جدا. ولذلك، فإننا بحاجة إلى أسلحة ثقيلة - الغابات القرار من قبل مجموعة من "الخبراء" تتكون من.

هنا يشير "الخبير" إلى ما هو عليه؟

ونحن نعتقد أن "الخبراء"، وكان كل شخص في الاعتبار نموذج شجرة القرارات، ثم هذه المجموعة من 100 خبير معا، متحدثا ليس كذلك تماما، قمنا بإنشاء غابة عشوائية. عندما كنا نتوقع نتائج جيدة في شجرة قرار واحد، ونحن نريد مجموعة من "الخبراء" لمساعدة قرارات جعل. ولذلك، فإننا بحاجة إلى طريقة لتحديد كيفية تنظيم وفرز "خبراء" من "آراء".

ستتم إزالة استدعاء الأولمبية الرياضية أو الغوص المنافسة، حيث هناك مجموعة من القضاة لكل مشارك درجة، قد نتذكر، على أعلى الدرجات وأدنى درجات، وبلغ متوسط بقية. عشوائية غابة خوارزمية تستخدم هذه التقنية لإزالة بعض من "آراء"، ولكن قد تؤدي الى ازالة عشوائيا على نسبة معينة من "آراء"، ثم قم بتشغيل "لعبة" مرة أخرى، وتكرار هذه العملية، ويقول 100 مرة، ومن ثم متوسط النتائج.

لماذا يجب أن يكون هناك مثل هذه التكنولوجيا المعقدة؟

من ناحية، ثبت رياضيا، فهي أكثر دقة. ولأن عندما يكون لدينا 10 مرات أو 100 مرة عدد من الميزات، يمكن الغابات عشوائية اختيار الميزات الأكثر أهمية، وهذه الميزات المستخدمة في النمذجة، ونحن لا تحتاج إلى بذل أي جهد إضافي. لذلك هذا هو كيف نفعل ذلك؟ تتضمن هذه المشكلة حساب التكلفة، لذلك لدينا نموذج قد تشغيل بضع دقائق بدلا من بضع ثوان لمعالجة الآلاف من العينات، وعلى نطاق واسع الحالي الحوسبة حقيقة واقعة. ومع ذلك، أيضا يجلب هذه التكلفة من المزايا الأخرى، والغابات عشوائية أكثر قدرة على التعامل مع القيم المفقودة والضوضاء والقيم المتطرفة، ويمكن التعامل مع أنواع البيانات المختلطة وعدد من المتغيرات المتغيرات الفئوية.

سنبحث مجموعات البيانات الغنية التي تم الحصول عليها من التسارع الهاتف والدوران متر، استنادا إلى مجموعة معينة من خصائص البيانات، لفهم مختلف الأنشطة للمستخدم، مثل الجلوس والوقوف والمشي وهلم جرا. مجموعة البيانات لديها اكثر من 500 من هذه الميزات، تعقيد البيانات، والتنوع، لذلك هذا هو غابة عشوائية الجمع بين خبرة الصناعة مع القوات المشتركة، وهو الخيار الأفضل للاستكشاف وتحليل.

ممارسة

المصطلحات التالية يتعلمون، وكيف أنها ستدرس شجرة القرارات المرتبطة الغابة عشوائية.

  • أخذ العينات النفس

  • تجمع النفس

  • خوارزمية التعبئة

  • تعزيز خوارزمية

  • حقيبة الخطأ

إشارة:

شجرة:

الغابات عشوائية - تجهيزها البيانات

مقدمة موجزة

الآن، طبقنا الغابات عشوائية لمجموعة البيانات المعقدة التي تم الحصول عليها من كائن مصدر مطلع لتحليلها. لماذا استخدام الغابات عشوائية؟ قريبا سوف تعرف.

سنقوم إنشاء النماذج التنبؤية من التسارع الهاتف وجيروسكوب مجموعات البيانات التي حصل عليها باستخدام. تنسيق البيانات لغة المحددة لR ، موجودة في منطقة الأمازون S3، الفوقية تخزينها في قاعدة البيانات UCI . مجموعة البيانات المشفرة قراءة البيانات الموجودة على الهاتف وشركات الهاتف المحمول حركة السمت.

رصد الأجسام في واحدة من الأنواع التالية ستة الأنشطة - الجلوس والوقوف، الاستلقاء، والمشي، والذهاب إلى الأمام، إلى الوراء.

طريقة

هدفنا هو، بفارق نقطة بيانات معينة، تكون قادرة على التنبؤ النشاط الذي يقومون به. وضعنا هدفا، وهي يمكن أن يفهم استخدام متغير لخلق نموذج، وليس "الصندوق الاسود" نموذج. نستطيع أن نختار فقط لإنشاء معامل متغير ونماذج الصندوق الأسود. عندما نقطة بيانات معينة، ونحن ندخل هذا النموذج، وسوف يطفو على السطح جوابا. عادة ما يكون هذا ممكنا، ولكن هناك الكثير جدا من المكونات "سحرية" بالنسبة لنا لتأسيس الحدس أو تطبيق المعرفة المهنية لا تساعد كثيرا.

لذلك نحن ذاهبون لفتح مربع، بمجرد أن تشكل بعض الحدس، يمكننا الجمع بين عدد من الوظائف الخبرات والغابات عشوائية. لقد وجدنا أنه في المدى الطويل، وهذا هو وسيلة أكثر مرضية، ويبدو قوي جدا.

سوف نستخدم الخبرة وحدها سوف يقلل من عدد من الحجج إلى 36، ثم استخدم للتنبؤ عشوائي الغابات "النشاط" متغير. من وجهة نظر دقة عرض، وهذا قد لا يكون أفضل نموذج، ولكن نريد أن نعرف ما حدث، فإن القلق هذا الجانب، وثبت أن تكون أفضل.

نحن نستخدم دقة محددة - زائد أو ناقص القيمة المقدرة، حساسية وخصوصية لتقييم نموذجنا.

البيانات طهر

وهناك مجموعة البيانات الواردة يحتوي على 21 المشاركين البيانات النشطة. مجموعة البيانات لديها 7352 الصفوف، 561 أعمدة من الأرقام، بالإضافة إلى "موضوع" عمودين عدد صحيح و "النشط" تمثيل سلسلة من العمود. وبما أن هناك 563، سنقوم بحذف خطوة إنشاء قاموس البيانات الرسمية، في إشارة مباشرة إلى مضمون feature_info.txt.

مقسوما على التحليل الأولي وجدت أن النص اسم العمود غامضة وهناك عدد من المشاكل:

  • أسماء الأعمدة المكررة - حوادث متعددة

  • يحتوي اسم العمود ()

  • هناك الكثير من اسم عمود مكرر ")"

  • أسماء الأعمدة التي تحتوي على "-"

  • أسماء الأعمدة التي تحتوي على ""

  • العديد من اسم العمود يحتوي على "BodyBody"، ونحن نفترض أن هذا هو خطأ مطبعي

تحويل "النشاط" كمتغير القاطع، يتم تعيين "المشاركين" إلى نوع عدد صحيح.

إنشاء التأويل النموذج، بدلا من الغابات عشوائية ليتم استخدامها على شكل مربع أسود. لذلك نحن بحاجة إلى فهم متغير لدينا، وتعزيز حدسنا منهم.

من أجل استخراج البيانات الخطة، موقع UCI مجموعات البيانات ثيقة مفيدة جدا، ونحن إجراء دراسة مفصلة. على وجه الخصوص وثيقة feature_info.txt، فمن المهم جدا أن فهمنا لهذه المتغيرات. في الواقع، ونحن نرفض استخدام القاموس البيانات، ولكن استخدام feature_info.txt تفسير المصطلحات. لذا، دعونا مراجعة تفاصيل التي تعتبر بالغة الأهمية.

ممارسة

تنفيذ النشاط تنظيف لكل مجموعة البيانات. وهي:

  • أسماء الأعمدة لتحديد وإزالة حوادث متعددة المكررة

  • تحديد وأسماء الأعمدة الصحيحة المذكورة في (). كيف يمكنك حل هذه المشكلة؟

  • تحديد وتعديل اسم زائدة عمود). كيف يمكنك حل هذه المشكلة؟

  • تحديد وتعديل اسم العمود "-". كيف يمكنك حل هذه المشكلة؟

  • المحددة في اسم العمود وتعديل لزوم لها "." كيف يمكنك حل هذه المشكلة؟

  • تحديد وتعديل اسم العمود يحتوي على "BodyBody" من

نصائح للمتعلمين

القيمة الرئيسية لهذه المجموعة البيانات كما يلي، لأنها تتيح لنا أن نفهم:

  • يمكنك فقط استخدام قوة تكنولوجيا "الصندوق الأسود"، والحصول على نتائج مفيدة.

  • يمكنك أيضا استخدام الخبرة لتبسيط العملية. هذه البينات يمكن تسليط الضوء على مزايا تحصل على الخبرة.

  • لأنها تتيح لنا الخروج من منطقة الراحة، وتسعى المعلومات ذات الصلة من مصادر البيانات الدلالي مماثلة من أجل تعزيز قدرات التحليل.

  • وهذا يوضح حقيقة أنه من الصعب دمج جميع البيانات والمعلومات ذات الصلة.

  • كنا نعرف أن لتنظيف البيانات، لكننا نريد أيضا لتوسيع معرفتنا، تفعل القليل من البحوث لتعزيز القدرات المهنية لدينا.

  • وحتى هذه مجموعة بيانات معينة قد تبدو الفني قليلا، ولكن يمكن بسهولة أن يكون جنبا إلى جنب مع علم الأحياء أو التمويل، والميكانيكا. وينبغي أن يكون عالما بيانات على استعداد لامتداد نفسك قليلا الخلط. يجب أن يكون معظم العلوم الناجح الناس متعدد التخصصات على استعداد.

وهذا هو ما نعرفه من.

بالإضافة إلى فهم معنى كل متغير، نريد أن نحصل على خلفية تقنية حول معنى كل متغير.

لذلك نستخدم المطور الروبوت دليل من المدرسة كل المعلمات المادية الهامة. في هذه الطريقة، ونحن توسيع نطاق المعرفة المهنية، حتى نتمكن من فهم البيانات اللغة - نحن نريد أن نعيش، الكلام لنا، والتعلم من أسراره. ونحن نفهم أكثر الخلفية من مصادر البيانات، ثم نستكشف البيانات بشكل أفضل وأسرع، أكثر دقة.

في هذه الحالة، متغير ودليل الروبوت المطور مع X، Y، Z بادئة / لاحقة يعطي الإطار المرجعي محددة المتغيرات المقاسة، بما في ذلك عنصر متجه التسارع، والتسارع، وزاوية الجاذبية، أو بشكل أكثر دقة أن أقول هذا هو تسارع ناقلات بسبب الجاذبية. نحن نستخدم هذه المعلومات، جنبا إلى جنب مع شركائنا في الحركة بديهية، والسرعة، والتسارع.

ضغط متغير

لذلك نحن أخرج المتغيرات، وقدم بعض التعليقات المختصرة.

قبل مواصلة استكشاف، تحتاج إلى فتح مجلد الدليل مجموعة بيانات ملف HAR. هناك ملف يسمى feature_info.txt. وتصف هذه الوثيقة المعنى المادي للكل ميزة، وعن طريق حساب متوسط البيانات الأصلية، وغيرها من العمليات بعد القيم العينة التي تم الحصول عليها.

دعونا نلقي نظرة:

  • جميع أسماء متغير

  • جسدي

أولا، دعونا نلقي نظرة على المحتوى. عندما بدأنا في استثمار الوقت، يمكنك الجمع بين المعرفة والفهم للجسم البشري، للحصول على بعض المبادئ التوجيهية المفيدة:

  • في نشاط ثابت (الجلوس والوقوف، الاستلقاء)، فإن المعلومات الحركة ليست مفيدة.

  • في أنشطة ديناميكية (المشي 3 أنواع)، وسوف تكون المعلومات الرياضية مهم جدا.

  • متغير زاوية في التمييز بين "الكذب ودائمة" و "المضي قدما والعودة" الجانب، سيكون مفيدا جدا.

  • التسارع وضغط متغيرات مهمة في التمييز الحركات المختلفة، في حين تسربت الهزة عشوائي في بقية.

  • حجم ومتغير زاوية يحتوي على نفس المتغيرات المعلومات XYZ (= علاقة قوية) الواردة

  • اخترنا التركيز على هذا الأخير، لأنها أسهل لشرح.

  • هذا مهم جدا لأنه خفض مئات من المتغيرات.

  • تجاهلنا متغير تردد، لأننا لا يمكن أن تجعل تبسيط وشرح، وربطها مع النشاط البدني.

  • الانحراف المتوسط وهو معيار مهم جدا، ونحن سوف الالتواء وشملت الذروة.

  • المتغيرات في الشكل 1 فعالة باعتباره مؤشرا، مما يدل على عملنا لاستكشاف والتحقق من صحة أفكارنا.

الشكل 1. استخدام تسارع الجسم الرسم البياني لتقييم المتغيرات والدينامية كما تنبئ الأحداث. هذا هو واحد نستخدم علمه ومثال على اختيار متغير والاستفسار البيانات.

القضاء على التدخل

عندما خفضت المتغيرات -X-Y -Z (الإحداثيات الديكارتية)، أزلنا الكثير من المتغيرات اضطراب، لأنها ترتبط بقوة مع حجم وزاوية الإحداثيات القطبية. قد يكون لا يزال بعض التدخل، ولكن ما تبقى من أثر ليست كبيرة.

من وجهة نظر الحس السليم، لأن الحد الأدنى والحد الأقصى، وبالتالي فإن متوسط / الانحراف المعياري ترتبط، لذلك لدينا لإزالة كل هذه الاضطرابات. تقليل عدد المتغيرات النهائي ال 37، على النحو التالي:

نصائح اقرأ: فعلنا بعض تعيين اسم مرهقة، من أجل الحفاظ على سلامة الدلالي، لأننا نريد "مربع أبيض" النموذج. يمكننا استخدام بضعة أسطر من التعليمات البرمجية والتعليق عليها، تعيين المتغيرات المتبقية لV1، V2 ..... V37. ولكننا لن نفقد فرصة للاستفادة من الخبرات اللازمة لتفسير والقيمة تشتق.

اسم الترجمة: من أجل تسهيل البيانات البحثية، ونحن المتغيرات إعادة تسمية ومبسطة لتسهيل القراءة، ونتخلص من كل "الهيئة" و "ماج"، ثم "يعني" استبدال "متوسط"، و "الأمراض المنقولة جنسيا" بعبارة "SD "، على النحو التالي:

على سبيل المثال:

tAccBodyMag - - >  tAccMean

fAccBodyMag-STD - >  fAccSD

إلخ

النتائج:

بعد التخفيض، وتحويلها اختيار أسماء المتغيرات (مع التجمعات ذات مغزى):

  • tAccMean، tAccSD tJerkMean، tJerkSD

  • tGyroMean، tGyroSD tGyroJerkMean، tGyroJerkSD

  • fAccMean، fAccSD، fJerkMean، fJerkSD،

  • fGyroMean، fGyroSD، fGyroJerkMean، fGyroJerkSD،

  • fGyroMeanFreq، fGyroJerkMeanFreq fAccMeanFreq، fJerkMeanFreq

  • fAccSkewness، fAccKurtosis، fJerkSkewness، fJerkKurtosis

  • fGyroSkewness، fGyroKurtosis fGyroJerkSkewness، fGyroJerkKurtosis

  • angleAccGravity، angleJerkGravity angleGyroGravity، angleGyroJerkGravity

  • angleXGravity، angleYGravity، angleZGravity

  • الموضوع، النشاط

استنتاج

الآن، وبعد العلاج، وحصلنا على نتيجة مثالية.

المتغيرات الرئيسية التي تم الحصول عليها لحجم التسارع والإحصاءات زاوية غضب والمتغيرات. وهذا يسمح لنا أن نشعر، والتركيز على المعرفة المتخصصة، وبعض القراءات الإضافية، والبحوث، جنبا إلى جنب مع بعض الحدس المادي الأساسي، فإن الحصاد تكون كبيرة جدا.

هذا هو مجموعة من التعاقد الدلالي، وسهلة نسبيا لفهم وتفسير المتغير.

يمكننا إجراء جولة جديدة من متغيرات البحث، ونحن قد تعتقد أن 37 متغيرات كثيرا، لا يمكن أن نتذكر مرة واحدة. من أجل حل هذه المشكلة، ونحن نستخدم الأسلحة الثقيلة، وذلك باستخدام نماذج البرمجيات والخوارزميات الغابات عشوائية لعملية.

إشارة

< https://spark-public.s3.amazonaws.com/ dataanalysis / samsungData.rda >

الاعتراف آخر الإنسان عن طريق الهواتف الذكية

< >

الروبوت مرجع المطور

< >

الغابات عشوائية

  < >

كود لحساب تدابير خطأ

< https://gist.github.com/nborwankar/5131870 >

الغابات عشوائية - تحليل

مقدمة موجزة

فكرة التحليل هو استخدام مجموعة البيانات متغير بعد عملية مرحلة الاستكشاف لبناء الغابات العشوائية والتنبؤ الأنشطة البشرية.

هذه المتغيرات هي كما يلي:

 tAccMean، tAccSD tJerkMean، tJerkSD

tGyroMean، tGyroSD tGyroJerkMean، tGyroJerkSD

fAccMean، fAccSD، fJerkMean، fJerkSD،

fGyroMean، fGyroSD، fGyroJerkMean، fGyroJerkSD،

fGyroMeanFreq، fGyroJerkMeanFreq fAccMeanFreq، fJerkMeanFreq

fAccSkewness، fAccKurtosis، fJerkSkewness، fJerkKurtosis

fGyroSkewness، fGyroKurtosis fGyroJerkSkewness، fGyroJerkKurtosis

angleAccGravity، angleJerkGravity angleGyroGravity، angleGyroJerkGravity

angleXGravity، angleYGravity، angleZGravity

الموضوع، النشاط

لهذه:

  • باستثناء الماضيين، عن البعض الآخر بيانات رقمية.

  • "المشاركون" هو عدد صحيح، لتحديد شخص واحد، حيث مجموعة البيانات 21-1 إلى 27 بندا في عداد المفقودين.

  • "آخر" هو متغير نوعي - التعرف المبكر على ستة أحداث، بما في ذلك "الاعتصام"، "الوقوف"، "كذبة"، "السير"، "المضي قدما"، "العودة".

  • لماذا نستخدم الغابات عشوائية؟ نحن نستخدم نموذج غابة عشوائية ، وهذا الأسلوب لديه دقة عالية نسبيا، تليها بيانات دينا معقدة للغاية.

هذا هو السبب الرئيسي ونحن نستخدم اثنين الغابات العشوائية، خاصة بعد ضغط، وعدد من الميزات لا تزال كبيرة.

طريقة

تصميم التجارب مثال

عادة في تحليل مجموعات البيانات هذه، ونحن نستخدم هذه البيانات لخلق نموذج. كيف لنا أن نعرف أن هذا النموذج هو ينطبق أيضا على بيانات أخرى ذلك؟ الجواب الحقيقي هو "نحن لا نعرف." ونحن متأكدين أننا يمكن أن تخلق نموذجا ينطبق أيضا على بيانات جديدة.

ولكن كيف يمكننا القيام به للحد من احتمال "خلال تركيب" نموذج ذلك؟ وأضاف أن "Overfitting" هو مصطلح تقني، في نموذج البيانات معين (لذلك) لديها أداء مثالي، ولكن مجموعة البيانات الجديدة، ولكن سوء الأداء. هناك طريقة النمذجة لتجنب هذا الفخ. على النحو التالي:

ونحن نركز على بيانات جزئية من مجموعة البيانات المخصصة للاختبار، ووضع نماذج للتمييز بين مجموعة البيانات المستخدمة، و "محفوظة" مجموعة من البيانات تسمى مجموعة الاختبار.

ثم نأخذ البيانات المتبقية، وكذلك تقسيمها، ويسمى مجموعة البيانات الكبيرة مجموعة التدريب وتعيين التحقق من صحة ما يسمى مجموعة أصغر. ثم استخدمنا نموذجنا لبناء مجموعة التدريب وعرض أدائها في مجموعة المصادقة (غير المدرجة هنا "تحفظات" البيانات).

لا يمكننا استخدام مجموعات التدريب والتحقق من صحة لضبط نموذجنا، الذي بني قبل نموذج لا يمكن استخدام "محفوظة" مجموعة من الاختبارات. بعد النمذجة كاملة، ونحن سوف تشغيل نموذج "محفوظة" بيانات الاختبار عندما بيانات الاختبار لتحقيق نسبة الخطأ المقبول، انتهينا من إنشاء النموذج.

ومع ذلك، إذا كان النموذج قيد التشغيل في مجموعة الاختبار، وعرض نسبة الخطأ عالية، ثم النموذج هو المشكلة. ونحن لا يمكن أن يستمر لضبط نموذج للحصول على نتائج أفضل، لأن overfitting تحدث مرة أخرى. فكيف يمكننا أن نفعل؟ سوف نقوم خلط جميع البيانات، ثم "محفوظة" مجموعة اختبار جديد، ومن ثم تكرار التشغيل. في بعض الحالات، سيكون لدينا مجموعة الاختبار تكون البيانات طرف ثالث، لدينا نموذج قبل التسليم، لا يمكن اختبارها باستخدام التحقق من صحة مجموعة الاختبار. لدينا النجاح لمرة واحدة.

لدينا التصميم التجريبي

بياناتنا مشاركة أربعة المشاركين كمجموعة بيانات الاختبار، والباقي لالنمذجة. لماذا نفعل هذا؟ إذا نظرنا إلى الوثائق الداعمة، فمن المستحسن أيضا استخدام الأربعة الأخيرة على أنها مجموعة الاختبار. أتمنى، أن نبدأ في القيام به على النحو الموصى به. ونحن نحتفظ مع كل هذه الخطوط الأربعة ذات الصلة، في حين أن النمذجة لاستبعادهم.

في "المشاركين" 17 المتبقية في 12 قبل أن استخدام "المشاركين" كمجموعة التدريب، والخمسة الباقية كمجموعة التحقق من الصحة. لماذا هذه النسبة؟ عادة، يتم استخدام 30 كما ومجموعة بيانات التحقق، و 70 من التدريب الفعلي. وتستخدم مجموعة التحقق لدينا اختبار "الداخلية"، وليس لنمذجة، وسيتم استخدام كل خطوة. الفرق بين اختبار والتحقق من صحة مجموعات الفعلي هو أن ما دمنا تشغيل البرنامج بعد كل بيانات مختلطة، ثم إعادة استخراج مجموعة التحقق من الصحة، يمكنك الاستمرار في تعديل وتحسين نموذجنا.

وهناك طريقة أخرى على هذا الأساس، علاوة على ذلك، تحقق لا يمكن أن يؤديها ن مرات. وتنقسم مجموعة التدريب إلى ن (عادة 10) أجزاء متساوية، ثم تم استخدام كل جزء كما التحقق من صحة وضع بالتتابع، للفترة المتبقية من التدريب، وهذه العمليات النمذجة ن مرات. وبعد ذلك بلغ متوسط هذه النماذج لإنشاء أفضل نموذج.

نحن هنا للقيام التحقق ن عشر.

لأن نموذجنا مع "العينة" وهكذا، قسمنا البيانات وفقا ل "المشاركين" متغير، والأمل أن جميع مستقلة بيانات الاختبار. ماذا يعني هذا؟ يجب أن تكون بيانات الاختبار في الواقع بالنسبة لنا، هو تماما البيانات غير معروفة - وهذا يعني أنه يجب أن تكون مستقلة عن بيانات التدريب. ولذلك، فإننا نفترض لا يتم فصل البيانات الأربعة اختبار، لكننا ببساطة خلط كافة الصفوف، و 20 تم اختيارها عشوائيا على أنها مجموعة بيانات الاختبار.

يرجى ملاحظة أن لدينا حوالي 7000 خطوط، لذلك كل واحد منا لديها المئات من الصفوف. إذا نختار عشوائيا ومزجها، ثم سيحتوي دينا مجموعة اختبار 21 المعلومات الشخصية، وبطبيعة الحال، فإن مجموعة التدريب تشمل أيضا 21 معلومات شخصية. اختبار مجموعة ليست مستقلة عن مجموعة التدريب، لأن هناك درجة معينة من كلا تتزامن البيانات. ولذلك، فإن جمع المستخرجة لم يحقق مفيد حقا للتحقق من تأثير - إحصائيا، يا التدريب والتحقق من صحة مجموعات لديها بالفعل معلومات مماثلة، وهذا هو، قد تسربت مجموعة اختبار لمجموعة التدريب.

هذه قضية نحن المنزلية معين يمارس مماثل، قرر في وقت لاحق في اليوم التالي في الفصول الدراسية. ثم تلقينا مجموعة من الأسئلة، والتدريب على العمل متشابهة جدا، ولكن تغيرت بعض الأرقام. أنها لا تحقق فعلا فهمنا لجوهر المشكلة، فقط اسمحوا لنا أن نعرف المزيد عن وظيفة (أكثر من المناسب).

حتى عندما نكون جزءا من خطوط البيانات المستقلة الناس، ونحن نعلم مجموعة التدريب ولم يكشف عن معلومات مثل هذا الشخص. بيانات الاختبار للقيام بذلك هي تستحق الجهد المبذول، لذلك يمكننا القول بكل ثقة أن نموذجنا لا يصلح البيانات الإفراط في العينة.

نتائج التدريب

ندير دينا بيانات عن عشوائي نماذج البرمجيات الغابات، كما هو موضح سابقا، وكيفية اشتقاق نموذج وبعض الوصف خير المعلمات نموذجنا.

تطبيق وظيفة التنبؤ نموذج وتشغيل مجموعة اختبار مجموعة من الصحة، ثم تحليل الأخطاء، النتائج التالية:

نحن نطبق الآن بعض الطرق الشائعة للتنبؤ "جيدة".

لمزيد من التفاصيل حول هذه التدابير، انظر ، ، .

استنتاج

يمكننا استخلاص استنتاجات محددة التالية من النتائج المذكورة أعلاه.

في هذا السياق، وأداء الغابات عشوائية مرضية للغاية، وانخفاض معدلات الخطأ وارتفاع القدرة على التنبؤ. استخدام المعرفة المهنية ويمكن الحصول على درجة عالية من المستغرب من القيمة التنبؤية، وانخفاض معدل الخطأ في التحقق من صحة واختبار مجموعات.

وتدعم النتائج أن معدل دقة التنبؤ 90، OOB نسبة الخطأ حوالي 2. نحن فقط ذهب مرة واحدة، ولم ذهابا وإيابا إلى ضبط النموذج. يرجى ملاحظة أن نتمسك بسيادة هنا، حتى بعد الانتهاء من وضع نماذج للحصول على مجموعة الاختبار.

حجم التسارع، والوقت واتساع زاوية غضب كمتغير، والقدرة على بناء نموذج تنبؤي جيد جدا. بطبيعة الحال، يمكن نموذج العنف توفر قدرة أفضل على التنبؤ، وإنما هو سوداء التطبيقات مربع. إذا تسبب في نمط الارتباك لسبب أو فشل، ونحن ببساطة لا أفهم لماذا. بدلا من ذلك، ونحن نستخدم هذه الخبرة لمراقبة العملية، وخلق نموذج يمكن أن يكون مفهوما، وأوضح.

عند تشغيل الاختبار، وأداء النموذج على مجموعة الاختبار هو أفضل من مجموعة التحقق من صحة، بغض النظر عن البيانات من خط "الملخص"، أو فرد واحد.

دعونا ننظر في كيفية تحسين نماذج المستقبل. علما بأن نموذجنا، في بعض الحالات، قد تكون معيبة أو غير مكتملة، لتحسين وهلم جرا، ولذا فإننا سوف عدم الإفراط في اثق من هذا النموذج، والقدرة على فعل الأشياء خارج.

التعليقات

  • باستخدام نموذج الخبرة يزيل بعض ميزات تتعلق حجم القوة في عملية اختيار متغير، مثل الحد الأقصى، الحد الأدنى، وبعض المتغيرات المتصلة التناوب. قد تكون هذه مهمة، ولكن لم يتم اختباره. ونحن قد نلاحظ في القرن المقبل.

  • وينبغي أن يكون دراسة مفصلة لأهمية المتغيرات - أننا حقا كان ينبغي تحديدها باستخدام عدد قليل من السمات الأكثر أهمية لخلق نموذج لرؤية أي فرق. في حساب هذا سيكون أكثر كفاءة. حتى نتمكن من استخدام أساليب بسيطة مثل الانحدار اللوجستي، لتبسيط مجموعات البيانات للتصنيف.

ممارسة

بدلا من استخدام الخبرات للحد من متغير، ولكن استخدام "الحرج عشوائية" مباشرة على كافة الأعمدة. ثم أهمية استخدام متغير والنظام متغير.

تتم مقارنة نماذج الناتجة باستخدام نموذج مع المعرفة المهنية المكتسبة. يمكنك تقصير بيانات عملية تنظيف ببساطة عن طريق إعادة تسمية المتغيرات X1، X2 ... XN، ذ، حيث ص هو "النشط" المتغير التابع.

الآن ننظر إلى نموذج جديد غابة عشوائية تحصل عليه. في التوقعات قد تكون أكثر دقة من طريقة فوقنا. هذا هو نموذج الصندوق الأسود، حيث المتغيرات لا معنى له.

  • فهو يوفر لك نظرة ثاقبة ماذا؟

  • النموذج الذي تحب؟

  • لماذا؟

  • هذه هي قوة تفضيل مطلق لا تزال تتغير؟

  • ما قد يؤدي إلى تغيير؟

المزيد من المحتوى المثير، يرجى زيارة تسينغهوا - أكاديمية تشينغداو للعلوم بيانات رسمية العام رقم القناة الصغيرة "THU فصيل البيانات"

إشارة:

بيانات الأصلي كبيانات R

< https://spark-public.s3.amazonaws.com/dataanalysis/samsungData.rda >

الاعتراف آخر الإنسان عن طريق الهواتف الذكية

< >

الروبوت مرجع المطور

< >

الغابات عشوائية

  < >

مصفوفة الارتباك

<   >  

دقة متوسط

< >

الدقة

< >

إستدعاء

< >

F قياس

  < >

العنوان الأصلي:

< https://github.com/nborwankar/LearnDataScience >

انتظرت 1996 يوما! سجلوا أخيرا الكرة الأولى فائقة، والجمهور تحول يا رجل يلعب الأمواج!

العلوم البيانات نظرة عامة المادة بانوراما: قانون الخوارزمية، ونوع المشكلة ......

السابق 2-11، منطقة التقليدية من المنافسة التجارية

GIF- والشباب القومي السابق والرئيسية وأفضل قادم جديد، 4 عدسة لرؤيته يلعب في السوبر تمتص

الأعمال جوجل السابقين بعد المضادة التي حصل عليها موظفي غوغل يمكن ان يعود الى ناديه السابق على استعداد؟

حصريا | منصة البيانات الكبيرة لبناء عملية النقل الذكية والتطبيقات (PPT تحميل

حصريا | قراءة المادة Adaboost

"ليتل بحيرة لونغ" للقيام مع النباتات المائية التقرير موضوع عنما، وتحويل دراسة بحثية دعا معلمه حماية البحيرة

الذي لعب المرأة المعجزة شنقا؟

حصريا | كيفية تفسير نموذج خصم الأرباح باستخدام لغة R (PPT تنزيل)

الحمل، هو في الحقيقة شيء خطير! هذا هو فيلم الخيال العلمي

حصريا | عصر يحترق: تقرير البيانات الكبيرة عازمة حملة وطنية للياقة البدنية