ممارسة تعلم آلة المهارات العملية K-وسائل تجميع خوارزمية

ملاحظة المحرر: الكاتب المحلل بيانات أمريكية بلال محمود، وقال انه كان واحدا من مؤسسي بيانات المستخدم منصة تحليل بولت. هنا، وقال انه يدخل خوارزمية تسمى K-وسائل التجميع (وسائل ك التجميع)، بما في ذلك كيفية قياس تأثير الخوارزمية، وكيفية تحديد الرقم الذي في حاجة لإنشاء مجموعة من شرائح البيانات. شبكة لى فنغ جمعت تنظيم وتطوير مزيد من المواد التقنية AI، والاهتمام AI Yanxishe (مايكرو إشارة: okweiwu).

بلال محمود: واحد من أكثر تحليل مشترك نقوم به هو لاستخراج أنماط في البيانات. على سبيل المثال، يمكن تقسيم عملاء الشركة إلى قطاعات ما السوق؟ كيف نجد مجموعات من مجموعات محددة في شبكة العملاء؟

عن طريق التعلم الآلي، يمكننا الحصول على إجابات لهذه الأسئلة. حتى عندما كنا لا نعرف أي وجه الخصوص قطعة من البيانات التي تحتاج إلى العثور عليها، أو أن البيانات لدينا هو تنسيق البيانات غير المهيكلة، ولذا فإننا يمكن أن يكون لها الوسائل التقنية، في خوارزمية وتحليل البيانات في نموذج البيانات المنطقية، والجزء البيانات المناسبة والنتائج تصنيف.

في هذه المقالة، سوف نشرح بالتفصيل خوارزمية، K-وسائل التجميع (K-وسائل التجميع)، بما في ذلك كيفية قياس التأثير، وكيفية تحديد عدد القطع لتوليد مجموعة البيانات لدينا.

الإشراف VS بدون اشراف التعلم

في مجال تصنيف البيانات، وهناك نوعان آلة التعلم الفعال.

عن طريق التعلم تحت إشراف، إذا كنت معرفة أي المدخلات التي يمكن تعيينها إلى شريحة بيانات منفصلة، يمكنك جعل التوقعات حول نتائج التصنيف. ولكن في كثير من الحالات، في الواقع، وليس لديهم هذه المعرفة قبل التسمية، والبيانات غير المهيكلة فقط - لا تعرف مقطع البيانات. عند هذه النقطة، قد تحتاج مساعدة من التعلم غير خاضعة للرقابة، المنطق البيانات غير المسماة في شريحة المستهدفة.

لأكثر وضوحا، لدينا لتصنيف حجم تي شيرت، على سبيل المثال

اذا حصلنا على مجموعة البيانات هو مبين في الشكل 1A، لدينا عرض مجموعة (X1) وطول (X2) من المدخلات، وحجم تي شيرت (S (الأزرق) L (الأخضر)) المقابلة لها. في هذه الحالة، يمكننا، من خلال تقنيات التعلم تحت إشراف، مثل الانحدار اللوجستي، قرار لرسم حدود واضحة، والفصل بين أنواع مختلفة من القمصان.

ولكن إذا أردنا الحصول على مجموعة من البيانات كما هو مبين في الشكل. 1B، نحصل على عرض مجموعة (X1) وطول (X2) من المدخلات، ولكن لا يقابل حجم التسمية تي شيرت. في هذه الحالة، نحن بحاجة إلى استخدام K-وسائل التجميع وغيرها من تقنيات التعلم غير خاضعة للرقابة لايجاد مماثلة T شيرت، ومجاميع لهم في الفصول الصغيرة (الدوائر الزرقاء) والكبيرة (الدائرة الخضراء) في.

في العديد من التطبيقات في العالم الحقيقي، سوف تواجه الوضع هو مبين في الشكل 2A، وبالتالي فهم تماما كيفية استخراج البيانات من غير المهيكلة في هيكل، سوف تكون مفيدة جدا.

K-وسائل التجميع

K-وسائل تجميع لتعلم الآلة غير خاضعة للرقابة يوفر تطبيق بديهية جدا، لخصت في بنية البيانات غير المهيكلة،

K-وسائل التجميع، وكما يوحي اسمها، فإن البيانات الخاصة بك أن تكون ملاحظات مماثلة، المخصصة لنظام المجموعة نفسها. وهو يتألف من أربعة خطوات بسيطة المتكررة تكرارا مجموعات قمنا بتقييم مؤخرا (متوسط) القيم المسافة لكل الملاحظة. وهكذا، إذا كان مجموعة من الملاحظات أقرب إلى بعضها البعض، فإنها قد تنتمي إلى مجموعة من مجموعات.

دعونا خطوة بخطوة فهم بعناية الخوارزمية. الخطوة الأولى، مجموعة من مجموعة مراكز التهيئة العشوائي (X في FIG. 2A أعلاه)، أو، في وسط كل مجموعة من المجموعات. قبل أن تبدأ، يمكنك استخدام هذه المراكز مجموعة اقامة في أي مكان، ولكن من المستحسن أن عند تهيئة مع ملاحظاتك مجموعة يطابق نقطة عشوائية. سوف بدوره استخدام هذه المراكز الطبقات، إلى مجموعة الملاحظات الخاصة بك، ويبلغ متوسط المسافة إلى مركز الكتلة الأقرب إلى تلك الملاحظات (الدوائر الزرقاء والخضراء في الشكل 2B) لتحديد ملكية كتلة.

وستكون الخطوة التهيئة بيانات الكتلة إلى مجموعات، وتجميع البيانات ومركز الكتلة الأقرب الملاحظات معا. ولكن هذه المجموعات البيانات بعد تخصيص الأولى، قد لا يكون مناسبا تماما. لذلك فإن الخطوة القادمة، وكنت وضعت الخاص بك جيد تجميع البيانات الخطوة العنقودية أقرب إلى موقع أكثر ملاءمة. أي أن يجد لوحظ متوسط قيمتها في كل منهما كتلة القائمة الحالية، ثم تنتقل إلى موقف وسط الكتلة (FIG. 2C). ثم، مركز الكتلة الجديدة كمرجع للعثور على متوسط قيمة أقرب الملاحظة، وتعيين لكتلة جديدة (FIG 2D)

يمكنك تكرار هذه العملية: توزيع العنقودية - العثور على متوسط المسافة - نقل مراكز الكتلة حتى يتم التوصل إلى التقارب. عندما تجد مجموعة من المجموعات، والتي يمكن العثور على جميع الملاحظات في أقرب مركز العنقودية، ليست هناك حاجة لمواصلة تقييم آخرها وسافر متوسط المسافة. سيتم تجميع تلك القيمة مراقبة الحزمة معا، بحيث قد تشارك التشابه (انها مصنوعة من مراكز الكتلة نفسها التي أظهرتها هذا القرب) في الإدخال، يمكنك العثور على مجموعة من البيانات مناسبة لك طريقة التجميع.

وكم كنت تستخدم نظام المجموعة؟

K-وسائل التجميع هو وسيلة فعالة لايجاد وسيلة جيدة لتجميع البيانات الخاصة بك. ولكن لا تزال هناك مشكلة، كيف يمكنك أن تقرر كم لبدء مجموعة من مجموعات الاستخدام؟

عندما كنت لا تعرف التسمية أو تصنيف مجموعات البيانات غير المهيكلة، نحن بحاجة إلى أساليب التعلم غير خاضعة للرقابة (مثل K-وسائل تجميع) لمساعدة. ولذلك، فإن البيانات نفسها لا اقول لكم الرقم الصحيح (أو التسمية) هو عدد المجموعات.

لذا، كيف يمكنك قياس عدد مجموعات من مجموعات البيانات نفسها مع ذلك؟ أبسط طريقة لقياس كتل الخطأ استخدام، على النحو التالي:

المسافة بين هذه الوظيفة بمقارنة القيمة المرصودة (X) ومراكز كتلة معينة ([مو]) لتقييم الخطأ المجموعات. إذا أظهرت كل مراكز الكتلة المقابلة الحد الأدنى من المسافة، أو أدنى عموما أدنى خطأ، ثم نتائج تجميع هذه المجموعات ومراكز البيانات هي أفضل مباراة.

وبالعودة إلى مثال لدينا حجم تي شيرت، وكيف نستخدم وظيفة الخطأ لتحديد العدد الصحيح من مجموعات؟ أسلوب واحد هو "حكم الكوع"، كما هو موضح في الشكل (3). بالتآمر البيانات المتعلقة عدد من مجموعات يمكنك تهيئة الخطأ، قد تجد أن نسبة الخطأ تغير أشد نقطة. يبدو الشكل (3) أن يكون في مكان مجموعتين، مما يشير إلى أننا يجب أن تذهب على الأرجح إلى الصغيرة والكبيرة نوعين.

ليو الشبكة في حالة تأهب، والأسلوب يتطلب ملاحظة: خطأ عموما لا كبير في منحنى انعطاف الخاص بك. ولذلك، فمن المستحيل دائما استخدام المرفقين القانون لتحديد العدد المناسب من مجموعات.

في هذه الحالة، ينصح سياق الاعتماد على الحدس الخاص بك أو القضايا التي لم تحل. على سبيل المثال، في حالة حجم تي شيرت، قد كنت تريد أن تعرف كيف سيتم تقسيمها إلى 5 أحجام تي شيرت - الصغيرة جدا والصغيرة والمتوسطة والكبيرة والكبيرة جدا. هذا لا يطالبك بيانات واضحة، ولكن على أساس الحدس الخاص بك، يمكنك تهيئة عدد خمس مجموعات، والحصول على الكتلة الصحيحة.

وباختصار، لمشكلة المجموعات، K-وسائل التجميع ويوفر خوارزمية تكرارية فعالة لاكتشاف هيكل البيانات.

لى فنغ شبكة ملاحظة: ويستند هذا بلوق على أندرو نغ في كورسيرا دورات تعلم آلة مفهوم أستاذ.

kdnuggets عبر

بعد مرور ثلاث سنوات، لعبة الباركور معظم مغر هو العودة - ألتو أوديسي دائرة الرقابة الداخلية

"الوحش هنتر العالمية" المعرض البيئي: حان الوقت للذهاب الصيد!

"ماكروزس" VF الجمجمة 1/20 غرامة آلة طلاء

يشك نيوزيلندا اطلاق النار في السجن أو السجن مدى الحياة لا يمكن قراءة صحيفة مشاهدة التلفزيون

في متر واحد Aitameier سلبية يمكن ارتداؤها ايون لتنقية الهواء، وتلوث الهواء ذهب | حكمة كوكب

سوني لم إفلاس بعد، ولكن سوني الهاتف المحمول هو على الارجح "حبوب منع الحمل".

"تجول الشمس" العودة الى Dong

حفرة في الدماغ الميكانيكية المشهد الإبداعي "الرجل السمك"

"مغامرة تايم" التكيف اللعبة ستطلق في ربيع العام المقبل سوف يكون قادرا على اللعب

ستاربكس الأسرة دلو التجزئة مرحبا جديد التعادل لي، 30 دقيقة خدمة الوجبات الجاهزة! يمكنك استعادة افعل المكتب؟

"الشر المقيم: الثأر" هذا هو الشر المقيم الحقيقي 7!

تعال! أبل WWDC 2017 الساعة تحديد، ما لم التعليم في المنزل 15 عاما من مدرسة خاصة | لى فنغ الصباح