جمع | الأكثر استخداما محلل بيانات 10 آلة خوارزميات التعلم! (حل المرجعي)

المصدر: التمييز من شيويه تشنغ دورة Udacity

هذه المقالة حول 3700 كلمات وأوصت القراءة 7 دقائق.

توضح هذه المقالة خوارزميات تعلم الآلة العشرة الأوائل وبياناتها المميزة التي يستخدمها العلماء.

في مجال تعلم الآلة، كان هناك قول مأثور يسمى "ليس هناك وجبة غداء مجانية،" ببساطة، وهو ما يعني أن أي خوارزمية واحد يمكن أن يكون لها تأثير أفضل في كل قضية، هذه النظرية في التعلم تحت إشراف وكان من المهم على وجه الخصوص.

على سبيل المثال، لا يمكن القول إن الشبكة العصبية هي دائما أفضل من أشجار القرار، والعكس بالعكس. تشغيل النموذج حول عدد من العوامل، مثل حجم وهيكل مجموعة البيانات.

لذلك، يجب أن تحاول العديد من خوارزميات مختلفة بناء على سؤالك، واستخدام البيانات لتقييم أداء مجموعة اختبار واختيار أفضل المشاركات.

بالطبع، يجب أن تحاول خوارزمية وتلبية مشاكلك مع المهمة الرئيسية منها هي تعلم الآلة المدخل. على سبيل المثال، إذا كنت ترغب في تنظيف المنزل، قد استخدم مكنسة كهربائية، مكنسة أو ممسحة، ولكنك بالتأكيد لن يحصل بدأت معاول حفر عليه.

لحريصة على تعلم أساسيات تعلم آلة آلة الوافد الجديد والتعلم، وهنا اتخذت خوارزميات عشرة التعلم الجهاز الذي يستخدم العلماء البيانات، أن أعرض لكم لهذه الخصائص عشرة من الخوارزمية، ونحن نفهم على نحو أفضل وسهلة التطبيق، التحقق من ذلك.

1. الانحدار الخطي

الانحدار الخطي هو على الارجح واحدة من الإحصاءات وآلة التعلم من الاكثر شهرة والأكثر من السهل أن نفهم الخوارزمية.

لأن النمذجة التنبؤية يركز على نموذج تقليل الخطأ، أو لحساب تفسيرها لجعل توقعات أكثر دقة. سنقوم الاقتراض من العديد من مختلف المناطق وإعادة الاستخدام وسرقة الخوارزمية، والذي ينطوي على بعض علم الاحصاء.

باستخدام معادلة الانحدار الخطي ممثلة العثور على أوزان محددة المدخلات متغير الثقيلة (B)، لوصف العلاقة الخطية بين المتغير الإدخال (س) والمتغير الإخراج (ص).

الانحدار الخطي

مثال: ص = B0 + B1 * س

نظرا المدخلات س، فإننا سوف يتوقع ذ والهدف الخطية خوارزمية التعلم الانحدار هو إيجاد قيمة B0 معامل وB1.

قد تستخدم تقنيات مختلفة من نموذج الانحدار الخطي البيانات والتعلم، وعلى سبيل المثال العاديين المربعات تعظيم الاستفادة من أصل التدرج وحلول الجبر الخطي المستخدمة.

وكان الانحدار الخطي نحو 200 سنة، وقد درس على نطاق واسع. إذا كان ذلك ممكنا، وبعض قواعد الإبهام عند استخدام هذه التقنية لإزالة مشابهة جدا (ذات الصلة) متغير وإزالة الضجيج من البيانات. هذا هو أسلوب سريعة وبسيطة وخوارزمية أولى جيدة.

2. الانحدار اللوجستي

الانحدار اللوجستي هو أسلوب آخر اقترضت من الإحصائي مجال تعلم الآلة. هذا هو (قيمتين الطبقات مشكلة) من طريقة محددة تصنيف ثنائي.

الانحدار اللوجستي والانحدار الخطي مماثل لأن كلا الهدف من ذلك هو إيجاد قيمة الوزن لكل متغير الإدخال. الانحدار الخطي هو مختلف، والانتاج المتوقع يستحق باستخدام وظيفة غير الخطية دعا تتحول وظيفة منطقية.

المنطق يبدو وظيفة مثل S كبير، ويمكن تحويل أي قيمة في نطاق 0-1. وهذا مفيد، لأننا لا نستطيع تطبيق القاعدة على المقابلة وظيفة المنطق الانتاج، وتصنيف القيمة 0 و 1 (على سبيل المثال، إذا كان IF أقل من 0.5، ثم إخراج 1) وقيمة الدرجة التنبؤ.

لوجستية الانحدار

ويرجع ذلك إلى نموذج تعليمي فريد من نوعه، الذي أدلى به التنبؤ الانحدار اللوجستي أنها يمكن أن تستخدم أيضا لحساب احتمال ينتمون إلى الفئة 1 أو الفئة 0. وهذا مفيد لعدد من القضايا تحتاج إلى أن تعطى المبادئ الأساسية.

كما هو الحال مع الانحدار الخطي، عند إزالة المتغيرات والصفات الغريبة والإخراج هي مشابهة جدا لبعضها البعض خصائص (ذات الصلة)، الانحدار اللوجستي يفعل أفضل. هذا النموذج هو عملية التعلم مشكلة تصنيف ثنائي سريعة وفعالة.

3. الخطي تحليل التمايز

الانحدار اللوجستي التقليدي يقتصر على تصنيف ثنائي. إذا كان لديك أكثر من فئتين، والخطية خوارزمية التمايز تحليل (الخطي تحليل التمايز، ويشار إلى LDA) هي تقنيات التصنيف الخطية المفضل.

LDA يمثل بسيط جدا. وهو يتألف من الخصائص الإحصائية للتكوين البيانات الخاصة بك، وتحسب وفقا لكل فئة. لمتغير مدخل واحد، والتي تشمل:

  • متوسط قيمة كل نوع.
  • حساب الفرق في جميع الفئات.

الخطي تحليل التمايز

LDA قيمة التمايز تحسب لكل فئة وفئة وجود الحد الأقصى لقيمة أن توقع. تفترض هذه التقنية أن البيانات لديه توزيع جاوس (منحنى الجرس)، فمن الأفضل لإزالة القيم المتطرفة يدويا من البيانات. هذا التصنيف ويتوقع مشكلة النمذجة في طريقة بسيطة وقوية.

4. تصنيف وشجرة الانحدار

A شجرة القرارات هي مهمة خوارزمية التعلم الآلي.

وتمثل شجرة ثنائية نموذج شجرة القرارات المتاحة. نعم، هذا من خوارزميات شجرة ثنائية وهياكل البيانات، لا شيء خاص. على الطفل اليسار واليمين الليمفاوية تمثل كل متغير واحد المدخلات (خ) والمتغير (يفترض أن يكون متغير رقمي).

قرار شجرة

وتضم شجرة رقة العقد للتنبؤ متغير الإخراج (ص). يتم تنفيذ التنبؤ التي تعبر الشجرة، يتوقف عندما يصل إلى عقدة ورقة، وقيمة الانتاج من الطبقة عقدة ورقة.

شجرة القرارات التعلم بسرعة، سرعة التنبؤ سريع. بالنسبة للعديد من المشاكل في كثير من الأحيان التنبؤ بدقة، وأنت لست بحاجة إلى أن تفعل أي شيء خاص للتحضير للبيانات.

5. بايز ساذج

السذاجة بايز هو بسيطة ولكنها قوية للغاية التنبؤ خوارزمية النمذجة.

يتكون هذا النموذج من نوعين من التكوين احتمال يمكن أن تحسب مباشرة من البيانات من التدريب الخاص بك: احتمال كل فئة 1)؛ 2) لفئة معينة من كل قيمة العاشر من الاحتمال الشرطي. مرة واحدة محسوبة، ونموذج احتمال يمكن أن تستخدم لنظرية استخدام بايز لبيانات جديدة للتنبؤ. عندما تكون البيانات الخاصة بك هو رقم، يفترض عادة توزيع جاوس (منحنى الجرس)، بحيث يمكنك بسهولة تقدير هذه الاحتمالات.

مبرهنة بايز

يشار السذاجة بايز بسيطة سبب ل، فمن المفترض أن كل من متغيرات المدخلات مستقلة. هذا هو افتراض قوي، غير عملي لبيانات حقيقية، ولكن هذه التكنولوجيا لا تزال فعالة جدا لمجموعة واسعة من القضايا المعقدة.

6. الجيران K

KNN خوارزمية بسيطة جدا وفعالة جدا. ويمثل نموذج KNN من قبل مجموعة التدريب البيانات بالكامل. بسيطة، أليس كذلك؟

، والمتغيرات الانتاج K يتم تجميع هذه الحالات من قبل K الحالات الأكثر مماثلة (الجيران) ضمن بحث مجموعة التدريب بأكمله للتنبؤ نقطة بيانات جديدة. لمشاكل الانحدار، وهذه نقطة جديدة قد تكون المتغيرات متوسط الانتاج، للتصنيف، قد تكون نقطة جديدة عدة فئات من القيمة العامة.

وصفة للنجاح هو كيفية تحديد التشابه بين الحالات البيانات. إذا الممتلكات الخاصة بك هي نفس النسبة، وأسهل طريقة هي استخدام المسافة الإقليدية، فإنه يمكن أن تحسب مباشرة من الفرق بين كل متغير الإدخال.

K-أقرب الجيران

KNN قد تتطلب الكثير من الذاكرة أو مساحة لتخزين كافة البيانات، ولكن سوف تؤدي فقط العمليات الحسابية (أو التعلم) الحاجة إلى التنبؤ متى. يمكنك أيضا في أي وقت لتحديث وإدارة مجموعة التدريب الخاص بك، من أجل الحفاظ على دقة التوقعات.

مفهوم المسافة أو التقارب قد يحدث عطل في بيئة ذات الأبعاد (عدد كبير من المتغيرات المدخلات)، وهذا سيكون له تأثير سلبي على الخوارزمية. وتسمى مثل هذه الأحداث أبعاد عنة. فإنه يعني أيضا أنك يجب أن تستخدم فقط تلك المتغيرات الإدخال الأكثر ارتباطا مع المتغيرات الانتاج المتوقعة.

7. التعلم ناقلات تكميم

العيب هو أن تحتاج إلى ك- الجيران للحفاظ على مجموعة التدريب البيانات بالكامل. تعلم خوارزمية ناقلات تكميم (أو ببساطة LVQ) هو خوارزمية الشبكة العصبية الاصطناعية التي تسمح لك لتعليق أي عدد من الأمثلة التدريبية وبدقة نتعلم منها.

التعلم الموجه تكميم

ويمثل LVQ codebook من قبل مجموعة من ناقلات. تم اختيارها عشوائيا في بداية الموجه، ثم التكرار متعددة، والتكيف مع مجموعة التدريب البيانات. بعد التعلم، وناقلات codebook التي يمكن استخدامها للتنبؤ كما K- الجيران. العثور على الجيران الأكثر مماثلة (أفضل مباراة) والمسافة بين كل ناقلات codebook وحساب مثيل جديد من البيانات، وعوائد أفضل وحدة قيمة فئة مطابقة أو القيمة الفعلية للتنبؤ في الحالة التي يكون فيها الانحدار. إذا كنت تحديد البيانات في نفس النطاق (على سبيل المثال، بين 0-1)، على أفضل النتائج يمكن الحصول عليها.

إذا وجدت KNN يعطي نتائج جيدة على مجموعة البيانات الخاصة بك، حاول استخدام LVQ للحد من تخزين مجموعة كاملة من متطلبات الذاكرة بيانات التدريب.

8. دعم آلة المتجهات

SVM ربما يكون واحدا من أكثر خوارزميات تعلم الآلة الشعبية والمناقشة.

متغير الفائق هو الخط الفاصل بين الفضاء الإدخال. في SVM سيتم اختيار، لإدخال نقطة الفائق متغير في الفضاء وفقا لفئتها (اكتب 0 أو اكتب 1) تم عزل. في ويمكن الاطلاع فضاء ثنائي الأبعاد كخط، كل المدخلات يمكن فصلها تماما عن هذا الخط. SVM خوارزمية التعلم تتمثل في العثور على أفضل جعل الفائق هناك معامل الفصل بين الفئات.

دعم آلة المتجهات

يشار المسافة بين الفائق وأقرب نقطة البيانات على أنها الحدود، في الفائق أقصى الحدود هو الخيار الافضل. في نفس الوقت، فقط تلك النقاط البيانات من قريبة جدا وشيد تعريف الفائق وتصنيف ذات الصلة، وتسمى هذه النقاط الدعم الموجه، أنها تدعم أو تحديد الفائق. في الممارسة العملية، سوف نستخدم خوارزمية الأمثل لإيجاد نظام لتعظيم قيمة من الحدود.

SVM هو على الارجح واحدة من أقوى من الذي يستخدم المصنف، فمن يستحق المحاولة في مجموعة البيانات الخاصة بك.

9. التعبئة والغابات عشوائية

غابة عشوائية هي واحدة من أكثر شعبية آلة خوارزميات التعلم وأقوى. وهو ما يسمى التمهيد تجميع أو تكييس متكاملة خوارزميات تعلم الآلة.

ألبس الحذاء هو أسلوب إحصائي قوي لتقدير عدد من عينات البيانات من، على سبيل المثال، متوسط قيمة. وسوف تجمع كمية كبيرة من بيانات العينة، وتحسب قيمة متوسط، ومتوسط جميع المتوسط، لتقدير أكثر دقة يعني صحيح.

في التعبئة المستخدمة في نفس الطريق، ولكن الأكثر شيوعا هي شجرة القرار، بدلا من كامل قدر نموذج إحصائي. وستكون هذه البيانات تدريبية لعينات متعددة، ومن ثم بناء نماذج لكل عينة البيانات. عندما كنت في حاجة للتنبؤ البيانات الجديدة، فإن كل نموذج التنبؤ، والتنبؤ وبلغ متوسط النتائج إلى أفضل تقدير القيمة الحقيقية للناتج.

غابة عشوائية

الغابات عشوائية القرار الشجرة تعديل فيما يتعلق باختيار أفضل نقطة الانقسام إلى تحقيق دون المستوى الأمثل تقسيم الغابات عشوائية عن طريق إدخال العشوائية.

ولذلك، فإن الفرق بين كل عينة البيانات لإنشاء نموذج يكون أكبر، ولكن من فهمهن لا يزال دقيقا. جنبا إلى جنب مع النتائج المتوقع يمكن أن يكون أفضل تقدير الناتج المحتمل القيمة الصحيحة.

إذا كنت تستخدم خوارزمية التباين العالية (مثل الأشجار قرار) للحصول على نتيجة جيدة، ثم يضاف التأثير سيكون أفضل بعد هذه الخوارزمية.

10. دعم وAdaBoost

تعزيز هو وسيلة لخلق المصنف قوي من عدة ضعيفة المصنفات تكنولوجيا الاندماج. أن تبدأ مع تدريب البيانات لبناء نموذج، ثم قم بإنشاء النموذج الثاني في محاولة لتصحيح أخطاء النموذج الأول. تواصل لإضافة نماذج للتنبؤ أو حتى تمت إضافة مجموعة التدريب المثالي لعدد أقصى.

AdaBoost هي الأولى ناجحة حقا تعزيز جهود تطوير خوارزميات لثنائية التفرع، ولكن أيضا أفضل نقطة انطلاق لفهم على تعزيز. حاليا تستند الخوارزمية على AdaBoost شيدت في الأكثر شهرة هو التدرج العشوائية تعزيز.

AdaBoost

وكثيرا ما يستخدم AdaBoost بالتزامن مع شجرة القرارات قصيرة. بعد إنشاء أول شجرة، وتحديد أداء كل حالة التدريب على الشجرة أن شجرة تحتاج لوضع الكثير من الاهتمام على هذه الحالة التدريب. وستعطى بيانات التدريب لا يمكن التنبؤ بها وزنا أكبر، ويتم إعطاء أمثلة أقل وزنا من السهل التنبؤ بها. اتباعها من أجل خلق نموذج، فإن كل نموذج التحديث يؤثر على تسلسل التعلم شجرة. بعد الانتهاء من كل خوارزمية شجرة البناء للتنبؤ البيانات الجديدة، وأداء المرجح لكل شجرة من دقة البيانات التدريب.

لأن خوارزمية تركز للغاية على تصحيح الخطأ، ولذلك فإن القيم المتطرفة البيانات لا النظيفة أمر مهم جدا.

كتب في الماضي

مشكلة مبتدئين النموذجية التي أثيرت في وجه طائفة واسعة من خوارزمية تعلم الآلة "أي خوارزمية التي يجب استخدامها؟" والجواب يعتمد على عوامل كثيرة، منها:

  • حجم البيانات، ونوعية وطبيعة.
  • الوقت المتاح الحوسبة.
  • إلحاح المهمة؛
  • ماذا تريد البيانات.

حتى العلماء بيانات من ذوي الخبرة، قبل أن يحاول خوارزميات مختلفة، ولا يمكن معرفة أي خوارزمية سيتم عرض أفضل. على الرغم من أن هناك أخرى كثيرة خوارزميات تعلم الآلة، ولكن هذه الخوارزميات هي معظم خوارزميات الشعبية. إذا كنت جديدا على تعلم الآلة، وهذا هو نقطة بداية جيدة للتعلم.

المصدر:

https://medium.com/@james_aka_yale

من السهل فهم التعلم الآلي! 3 حالات شرح مفصل للتجميع ، الانحدار ، خوارزمية التصنيف

كما يفعل الرومان! بعد أن تقدم اللاعب بودولسكي إلى اليابان سقطت فعلا في حب هذه الرياضة!

بدأت 15 عاما بتكلفة قدرها 80 مليار المشترين الانتحار: أكبر المشاريع التي لم تكتمل في العالم في دبي "جزيرة العالم"

دانيال يريد أن يكون البيانات العلمية؟ عليك أن تبدأ (وصلات) من بلوق

CCTV بث الليلة التركيز على الحرب المانيا VS هولندا، أن فان دايك كسر أربعة أهداف نوير التوالي؟

الغرب كأس السوبر: C + أحمر لوه كسر ريال مدريد 3-1 في مباراة الذهاب من برشلونة! يوفنتوس 2-3 بالاحباط كأس السوبر

العلوم الإنسانية تشيلو | لاو شه راكوغو "هاوى" وزارة Xiaofan من الجامعة الصينية تشيلو

مجموعة 15 مجموعة إجابات رئيسية من CNN ، يجب أن تكون مقابلة التوظيف في المدرسة لعام 2019!

التصفيات الأوروبية كسر تهز مفاجأة: أول لقطة في العالم 182 أول فوز له مساحة الارض هايديان هو أفضل!

أول عرض نيمار الكبير في باريس تقدم 1 هدف 1 مساعدة تألق! كبير 3-0 الفوز على باريس! Loukakou 2 أهداف مانشستر يونايتد 4-0

تسببت عمرها 8 سنوات في عداد المفقودين فتاة، معلومات التتبع المدينة إلى الأمام هانت، هل أنت قلق الجميع

المنتخب الوطني خمس مباريات متتالية اندلعت + الخدمة الفعلية أولا، هو الأكثر احتمالا ليسجل يعود قائد ريال مدريد!