استخدام نموذج المزيج الغوسي لجعل التكتل أفضل وأكثر دقة (مع البيانات والتعليمات البرمجية والموارد التعليمية)

المؤلف: ايشواريا سينغ

ترجمة: تشانغ لينغ

التدقيق اللغوي: تشانغ Yihao

هذا المقال عن 3500 كلمة ، واقترح ريدينج 10+ دقائق.

تقدم هذه المقالة بإيجاز أساسيات التجميع ، بما في ذلك مراجعة سريعة لخوارزمية الوسائل K ، ثم تتعمق في مفهوم نموذج الخليط الغوسي وتنفذه في Python.

نظرة عامة

  • نموذج الخليط الغوسي هو خوارزمية تجميع قوية
  • فهم كيفية عمل نماذج المخلوط الغوسي وكيفية تنفيذها في Python
  • سنناقش أيضًا خوارزمية التجميع التي تعني K- ونرى كيف يحسنها نموذج الخليط الغوسي

  المقدمة

أحب حقًا دراسة مشكلات التعلم غير الخاضعة للرقابة لأنها توفر تحديًا مختلفًا تمامًا عن مشكلات التعلم الخاضعة للإشراف: توفير مساحة أكبر لتجربة بياناتي. ليس من الصعب أن نفهم أن معظم التطورات والاختراقات في مجال التعلم الآلي حدثت في مجال التعلم غير الخاضع للرقابة.

إن التكتل هو أحد الأساليب الأكثر شيوعًا في التعلم غير الخاضع للرقابة ، وهو عادة المفهوم الذي تعلمناه عند تعلم التعلم الآلي مبكرًا ، ومن السهل إتقانه. أعتقد أنك واجهت بالفعل ، بل وشاركت في تصنيف المستخدمين وتحليل سلة التسوق في السوق ومشاريع أخرى.

لكن المشكلة هي أن هناك العديد من أنواع التجميع ، وليس فقط الخوارزميات الأساسية التي تعلمناها من قبل. إنها تقنية تعلم قوية غير خاضعة للرقابة يمكننا استخدامها بدون أخطاء في العالم الحقيقي.

"نموذج الخليط الغوسي هو خوارزمية عنقودية سأناقشها في هذه المقالة." تريد التنبؤ بمبيعات المنتجات المفضلة لديك؟ أو تريد تحليل زناد العملاء من منظور مجموعات العملاء المختلفة. بغض النظر عن سيناريو التطبيق ، ستجد أن نموذج الخليط الغوسي مفيد للغاية.

ستستخدم هذه المقالة نهجًا من أسفل إلى أعلى. أولاً ، نتعلم أساسيات التجميع ، بما في ذلك مراجعة سريعة لخوارزمية K- الوسائل ، ثم سنتعمق في مفاهيم نماذج المخلوط الغوسي ونطبقها في Python.

إذا لم تكن على دراية بالمجموعات وعلوم البيانات ، أقترح عليك أن تأخذ الدورات الشاملة التالية أولاً:

روابط إلى الدورات التدريبية المتعلقة بالتعلم الآلي التطبيقي:

https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional؟utm_source=blog&utm_medium=gaussian-mixture-models-clustering

جدول المحتويات

1. مقدمة عن التكتل

2. مقدمة إلى K- يعني التجمع

3. مساوئ K- يعني التجمع

4. مقدمة لنموذج الخليط الغوسي

توزيع غاوس

6. ما هو تعظيم التوقعات؟

7. تعظيم التوقعات في نموذج المخلوط الغوسي

ثمانية ، استخدم نموذج التجمعات المختلطة الغوسية مع Python

  1. مقدمة عن التكتل

قبل أن نبدأ مناقشة طبيعة نموذج الخليط الغوسي ، دعنا نراجع بسرعة بعض المفاهيم الأساسية.

الحذر: إذا كنت بالفعل على دراية بالفكرة الكامنة وراء التجميع ومبدأ العمل من خوارزمية التجميع يعني K ، يمكنك الانتقال مباشرة إلى القسم 4 "مقدمة لنماذج المزيج الغوسي".

 لنبدأ بالتعريف الرسمي للفكرة الأساسية:

"يشير التجميع إلى تجميع نقاط بيانات متشابهة في مجموعة بناءً على سمات البيانات وخصائصها"

على سبيل المثال ، لدينا مجموعة من دخل وإنفاق الناس ، ويمكننا تقسيمها إلى الفئات التالية:

  • دخل مرتفع واستهلاك مرتفع
  • الدخل المرتفع والاستهلاك المنخفض
  • الدخل المنخفض والاستهلاك المنخفض
  • الدخل المنخفض والاستهلاك المرتفع

كل مجموعة من المجموعات المذكورة أعلاه عبارة عن مجموعة ذات خصائص متشابهة ، لذلك من الفعال جدًا استهداف هذه المجموعات بالحلول / المنتجات ذات الصلة. على غرار بطاقات الائتمان وقروض السيارات / العقارات ، إلخ. ببساطة:

"إن الفكرة الكامنة وراء التجميع هي تجميع نقاط البيانات معًا بحيث يكون لكل مجموعة فردية أكثر نقاط متشابهة."

هناك العديد من خوارزميات التجميع ، وأحد خوارزميات التجميع الأكثر شيوعًا هي الوسائل K. دعونا نفهم كيف تعمل الخوارزمية K- والوضع الذي قد لا تلبي الخوارزمية التوقعات.

2. مقدمة إلى K- يعني التجمع

"K- يعني التجمع هو خوارزمية تجميع عن بعد ، مما يعني أنه سيحاول تجميع أقرب النقاط لتشكيل مجموعة."

دعونا نلقي نظرة فاحصة على كيفية عمل هذه الخوارزمية ، والتي ستضع الأساس للفهم اللاحق لنموذج الخليط الغوسي.

أولاً ، نحدد أولاً عدد المجموعات المستهدفة ، وهي قيمة K ، ونقوم بتهيئة k centroids بشكل عشوائي وفقًا لعدد العائلات أو المجموعات التي سيتم تقسيمها.

ثم قم بتعيين نقاط البيانات إلى أقرب مركز مركزي لتشكيل مجموعة ، ثم قم بتحديث مركز مركزي وإعادة تعيين نقاط البيانات. تتكرر هذه العملية حتى يتغير موضع مركز الكتلة.

انظر إلى gif أدناه ، الذي يمثل العملية الكاملة لتهيئة المجموعات وتحديثها ، بافتراض أن عدد المجموعات هو 10:

الحذر: هذه نظرة عامة بسيطة على تجميع وسائل K ، وهو ما يكفي لهذه المقالة. إذا كنت تريد الخوض في كيفية عمل خوارزمية k-يعني ، فإليك دليل مفصل:

دليل K-mans الأكثر شمولاً ، ستحتاج دائمًا إلى:

https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/؟utm_source=blog&utm_medium=gaussian-mixture-models-clustering

3. مساوئ K- يعني التجمع

مفهوم التجمعات يعني حسنًا ، أليس كذلك؟ إنه سهل الفهم ، سهل التنفيذ نسبيًا ، ويمكن تطبيقه في العديد من السيناريوهات ، ولكن هناك بعض أوجه القصور والقيود التي تتطلب اهتمامنا.

لنأخذ بيانات الإيرادات والنفقات المذكورة أعلاه كمثال ، يبدو أن خوارزمية K-يعني تعمل بشكل جيد ، أليس كذلك؟ انتظر ، إذا نظرت عن كثب ، ستجد أن جميع المجموعات التي تم إنشاؤها هي دائرية ، لأنه يتم تحديث المراكز المركزية للتصنيف بشكل متكرر باستخدام متوسط القيمة.

الآن ، ضع في اعتبارك المثال التالي ، حيث لا يكون توزيع النقاط دائريًا ، إذا استخدمنا K- يعني تجميع هذه البيانات ، ما رأيك سيحدث؟ لا يزال يحاول تجميع نقاط البيانات بطريقة دائرية ، وهذا ليس جيدًا! لن تتعرف وسائل K على التكتل الصحيح:

لذلك ، نحن بحاجة إلى طريقة مختلفة لتعيين فئات لنقاط البيانات. بدلاً من استخدام النماذج القائمة على المسافة ، استخدم النماذج القائمة على التوزيع ، هذا هو معنى نموذج المخلوط الغوسي الذي يظهر في هذه المقالة!

4. مقدمة لنموذج الخليط الغوسي

"تفترض نماذج المزيج الغوسي (GMMs) أن هناك عددًا معينًا من التوزيعات الغوسية ، ويمثل كل توزيع مجموعة. وتميل نماذج المزيج الغوسي إلى تجميع نقاط البيانات التي تنتمي إلى نفس التوزيع معًا."

افترض أن لدينا ثلاثة توزيعات غوسية (المزيد عن هذا في القسم التالي) -GD1 و GD2 و GD3 ، والتي لها المتوسط المعطى (1 ، 2 ، 3) والتباين (1 ، 2 ، 3). بالنسبة لمجموعة معينة من نقاط البيانات ، ستحسب GMMs الخاصة بنا احتمال امتثال نقاط البيانات هذه لهذه التوزيعات ، على التوالي.

الانتظار ، الاحتمال؟

هذا صحيح! نموذج الخليط الغوسي هو نموذج احتمالي يستخدم التجميع الناعم لتصنيف نقاط البيانات إلى مجموعات مختلفة.

هنا ، لدينا ثلاث مجموعات ، ممثلة بثلاثة ألوان - الأزرق والأخضر والأزرق السماوي. نبرز نقطة بيانات باللون الأحمر. احتمال تقسيم هذه النقطة إلى مجموعات زرقاء هو 1 ، في حين أن احتمال تقسيمها إلى مجموعات خضراء أو مجموعات سماوية هو 0.

الآن ، ضع في اعتبارك نقطة أخرى بين العناقيد الزرقاء والسماوية (الموضحة في الصورة أدناه). احتمال أن يتم تقسيم هذه النقطة إلى مجموعات خضراء هو 0 ، أليس كذلك؟ احتمال التقسيم إلى مجموعات زرقاء وسماوية هو 0.2 و 0.8 على التوالي.

يستخدم نموذج المزيج الغوسي تقنيات التصنيف المرن لتعيين نقاط البيانات للتوزيعات الغوسية المقابلة. أنا متأكد من أنك تريد معرفة ماهية هذه التوزيعات ، وسأشرحها في القسم التالي.

توزيع غاوس

أعتقد أنك على دراية بالتوزيع الغوسي (أو التوزيع الطبيعي) ، الذي يحتوي على منحنى على شكل جرس ويتم توزيع نقاط البيانات بشكل متناظر حول المتوسط.

يحتوي الشكل أدناه على بعض التوزيعات الغوسية بمتوسط مختلف () وتباين (2). تذكر أنه كلما كانت قيمة larger أكبر ، كان منحنى التوزيع أوسع.

في الفضاء أحادي البعد ، تُعطى دالة كثافة الاحتمال للتوزيع الغوسي بواسطة:

حيث هو الوسط و 2 هو التباين.

ولكن هذا ينطبق فقط على متغير واحد. في حالة متغيرين ، سنحصل على منحنى جرس ثلاثي الأبعاد كما هو موضح أدناه ، بدلاً من منحنى جرس ثنائي الأبعاد:

يتم إعطاء دالة كثافة الاحتمال بالصيغة التالية:

من بينها ، x هو متجه الإدخال ، متجه متوسط ثنائي الأبعاد ، هو مصفوفة التغاير 2 2. يمكن أن يحدد التغاير الآن شكل المنحنى. يمكن تمديد دالة كثافة الاحتمال d-dimensional بالمثل.

"لذلك ، يأخذ هذا النموذج الغوسي متعدد المتغيرات x و كمتجهات طول d ، و هي مصفوفة التغاير dxd."

بالنسبة لمجموعة بيانات تحتوي على ميزات d ، سنحصل على k من توزيعات Gaussian (حيث يكون k معادلاً لعدد المجموعات) ، ولكل توزيعة Gaussian مصفوفة متجهية ومتغيرة محددة ، ولكن - متوسط مجموع توزيعات Gaussian كيف تعطى قيمة التباين؟

يمكن تحديد هذه القيم باستخدام تقنية تسمى Expectation-Maximization (EM) ، قبل الخوض في نموذج الخليط الغوسي ، نحتاج إلى فهم هذه التقنية.

6. ما هو تعظيم التوقعات؟

سؤال جيد!

"تعظيم التوقعات هو خوارزمية إحصائية للعثور على معلمات النموذج الصحيحة. عندما تفتقد البيانات إلى قيم ، أو بعبارة أخرى ، عندما تكون البيانات غير مكتملة ، نستخدم EM عادةً."

تسمى المتغيرات ذات القيم المفقودة المتغيرات الكامنة. عندما ندرس مشكلة التعلم غير الخاضع للرقابة ، نعتقد أن الهدف (أو رقم الكتلة) غير معروف.

بسبب هذه المتغيرات الكامنة ، من الصعب تحديد معلمات النموذج الصحيحة. فكر في الأمر بهذه الطريقة: إذا كنت تعرف نقطة البيانات التي تنتمي إلى أي مجموعة ، فمن السهل تحديد مصفوفة متجه التغاير.

نظرًا لعدم وجود قيم هذه المتغيرات الكامنة ، تحاول EM استخدام البيانات الموجودة لتحديد القيم المثلى لهذه المتغيرات ثم البحث عن معلمات النموذج. استنادًا إلى معلمات النموذج هذه ، نعيد ونحدث قيم المتغيرات المحتملة وما إلى ذلك.

بشكل عام ، لدى EM خطوتين:

  • الخطوة الإلكترونية: في هذه الخطوة ، يتم استخدام البيانات المتاحة لتقدير (تخمين) قيمة المتغير الكامن.
  • الخطوة M: قم بتحديث المعلمات بالبيانات الكاملة بناءً على التقديرات التي تم إنشاؤها في الخطوة E.

EM هو أساس العديد من الخوارزميات ، بما في ذلك نماذج الخليط الغوسي. لذا ، كيف يستخدم GMM مفهوم EM وكيفية تطبيقه على مجموعة بيانات معينة؟ دعنا نرى!

7. تعظيم التوقعات في النموذج الغوسي

دعنا نستخدم مثالاً آخر لفهم هذا. عند القراءة ، تحتاج إلى استخدام خيالك لفهم بعض المفاهيم ، والتي يمكن أن تساعدك على فهم أفضل لما نتحدث عنه.

لنفترض أننا بحاجة إلى التجميع البُعد K ، مما يعني أن هناك توزيعات غوسية ، ومتوسط وقيم التباين هي 1 ، 2 ، ... ، andk و 1 ، 2 ، ... ، ،k ، بالإضافة إلى ذلك ، هناك أخرى المعلمة المستخدمة لتحديد عدد نقاط البيانات المستخدمة في التوزيع. بمعنى آخر ، يتم تمثيل كثافة التوزيع بـ i.

الآن ، نحن بحاجة إلى تحديد قيم هذه المعلمات لتحديد التوزيع الغوسي. لقد حددنا عدد العناقيد والقيم المعينة عشوائيًا للمتوسط والتغاير والكثافة. بعد ذلك ، سنقوم بتنفيذ الخطوتين E و M!

الخطوة هـ:

لكل نقطة Xi ، احسب احتمال أنها تنتمي إلى المجموعة / التوزيع C1 ، C2 ، ... ، CK. استخدم الصيغة التالية لتحقيق ذلك:

عندما تكون القيمة عالية ، فإنها تشير إلى أن النقطة معينة إلى الكتلة الصحيحة ، وإلا فهي منخفضة.

الخطوة م:

بعد الانتهاء من الخطوة E ، نعود إلى قيم و و update ونحدثها. طريقة التحديث كما يلي:

1. يتم تعريف كثافة التوزيع الجديدة من خلال نسبة عدد النقاط في المجموعة إلى إجمالي عدد النقاط:

2. يتم تحديث مصفوفة المتوسط والتوافق وفقًا للقيم المعينة للتوزيع ، بما يتناسب مع قيمة الاحتمال لنقطة البيانات. لذلك ، ستساهم نقاط البيانات ذات الاحتمال الأكبر في أن تكون جزءًا من التوزيع بنسبة أكبر:

بناءً على القيمة المحدثة التي تم إنشاؤها في هذه الخطوة ، نحسب قيمة الاحتمال الجديدة لكل نقطة بيانات ونقوم بتحديثها بشكل متكرر. لتكرار وظيفة احتمالية التسجيل ، يتم تكرار العملية. في الواقع يمكننا القول:

K- يعني التفكير فقط في تحديث متوسط السنتويد ، في حين أن GMMs تنظر في متوسط وتنوع البيانات المحدثة!

8. تنفيذ نموذج الخلط الغوسي مع بايثون

حان وقت الخوض في الكود! هذا هو أحد الأجزاء المفضلة لدي في أي مقال ، لذا فلنبدأ!

سنبدأ بتحميل البيانات. هذا ملف مؤقت قمت بإنشائه. يمكنك تنزيل البيانات من الرابط التالي:

روابط ذات علاقة:

https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2019/10/Clustering_gmm.csv

استيراد الباندا ك pddata = pd.read_csv ('Clustering_gmm.csv') plt.figure (figsize = (7،7)) plt.scatter (data، data) plt.xlabel ('Weight') plt.ylabel ('Height') ) plt.title ("توزيع البيانات") عرض plt.show ()

هذه هي بياناتنا ، والآن تم بناء نموذج K-يعني على هذه البيانات:

#training k-يعني modelfrom sklearn.cluster import KMeanskmeans = KMeans (n_clusters = 4) kmeans.fit (data) #predictions from kmeanspred = kmeans.predict (data) frame = pd.DataFrame frame (data) frame = predframe.columns = # نتائج الرسم البياني color = for k in range (0،4): data = frame plt.scatter (data، data، c = color) plt.show ()

هذا ليس صحيحًا ، لا يستطيع نموذج K-يعني تحديد الكتلة الصحيحة. انظر عن كثب إلى مركز الكتلة-K-يعني يحاول بناء كتلة دائرية ، على الرغم من أن توزيع البيانات بيضاوي الشكل (تذكر العيوب التي ناقشناها سابقًا؟).

الآن دعونا نبني نموذج خليط غوسي على نفس البيانات ونرى ما إذا كان بإمكاننا تحسين K-يعني:

استيراد الباندا كما pddata = pd.read_csv ('Clustering_gmm.csv') # تدريب خليط غاوسي modelfrom sklearn.mixture استيراد GaussianMixturegmm = GaussianMixture (n_components = 4) gmm.fit (بيانات) # توقعات من gmmlabels = gmm.predict = pd.DataFrame (data) frame = labelsframe.columns = color = for k in range (0،4): data = frame plt.scatter (data، data، c = color) plt.show ()

ذلك رائع! هذه هي بالضبط أقسام الكتلة التي نريدها! لقد هزم نموذج الخليط الغوسي وسائل K!

تعليق ختامي

هذا دليل تمهيدي لنموذج المزيج الغوسي ، وهو هنا ليقدم لك تقنية التجميع القوية هذه ويوضح مدى فعاليتها وكفاءتها مقارنة بالخوارزميات التقليدية.

أشجعك على المشاركة في مشروع التجميع ومحاولة استخدام GMMs. هذه هي أفضل طريقة لتعلم المفهوم وفهمه. ثق بي ، ستدرك مدى فائدة هذه الخوارزمية!

يمكن مناقشة أي أسئلة أو أفكار حول نموذج الخليط الغوسي معًا في قسم التعليقات أدناه.

العنوان الأصلي:

قم ببناء مجموعات أفضل ودقيقة باستخدام نماذج المزيج الغوسي

الرابط الأصلي:

https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/

المحرر: هوانغ جيان

التدقيق اللغوي: لين Yilin

مقدمة المترجم

تشانغ لينغ ، محلل بيانات أثناء العمل ، وتخرج بدرجة ماجستير في علوم الكمبيوتر. يتطلب الانخراط في عمل البيانات الشجاعة لإعادة اكتشاف نفسك والمثابرة في التعلم مدى الحياة. لكن ما زلت أحب صرامة وفن. محيط البيانات لا نهاية له ، وعمل البيانات مليء بالتحديات. بفضل THU لتوفير مثل هذه المنصة الاحترافية ، آمل أن تتمكن من التقدم مع أكثرها احترافية هنا!

- إنهاء -

اتبع منصة WeChat العامة التابعة لمعهد Tsinghua-Qingdao Data Science Research الرسمي " فطيرة البيانات THU "ورقم الأخت" فطيرة البيانات "احصل على المزيد من فوائد المحاضرات وجودة المحتوى.

جيثب 3K سوبر ستار! من التعليمات البرمجية بايثون إلى APP عليك سوى أداة صغيرة

معالجة الصرع لتعزيز تدويل الطبقات الصرع بين الصين والولايات المتحدة الذي عقد في بكين

النتائج الأولية الأولى من يوان مينغ يوان الحصان! وقد فقدت مساعدة كسر القدماء الصب "التكنولوجيا السوداء"

معهد بحوث السيارات سوتشو جامعة تسينغهوا لموجة: شبكة السيارة الذكية التي تربط بين ستة اتجاهات وخطة الصين

الخريف ناجحة! تهدئة قلق فوري، وقوانغدونغ أدنى درجة الحرارة إلى أصابع اليد الواحدة! تحت البرد على الطريق

8K الكاميرا لاول مرة قرار عادل 15 أضعاف 1080P الكاميرا

الدكتور جامعة تسينغهوا في بكين: العلمية النقاش التفكير "التعبير" و "المعرفي" تسبب

"لا ننسى القلب في وقت مبكر، ونتذكر مهمتنا" | التوجيهية: في بداية الموسم وزير الأشقاء القلب

شراء شراء شراء اندلاع كبير، 10،000 الشباب إجابة | الكريبتون العميق

تغيير خط رمز العالم

فكرة جيدة، في المناطق الريفية "على قيد الحياة"! ميتشو Meijiang تعزيز "أربعة الطرق الريفية جيد" البناء

جوجل "خطة العندليب" التعرض: جمع السري الملايين من خصوصية البيانات الطبية