"منظمة العفو الدولية الفصول الدراسية في نهاية الأسبوع" العديد من القضايا الهامة التجميع | تعلم آلة سوف تواجه "حفرة"

في "تجميع العديد من القضايا الهامة (نظرية جزئيا)،" ونحن أساسا على الأهمية العملية لتجميع خصائص المختلين طريقة قياس المسافة، ومدى إيجابيات وسلبيات عدة خوارزميات المجموعات، ولكن ليس لدي بولي الطبقة خوارزمية لتقديم شرح مفصل، ويرجع ذلك جزئيا خوارزمية التجميع عموما بسيطة نسبيا، والآخر هو عدد ومتنوعة من خوارزميات التجميع والكثير، واضطررت الى شرح واحدة من القضايا الكلية أكثر أهمية. في هذه المقالة، فإننا سوف تستخدم العديد من توزيع مختلفة من البيانات لجعل المقارنة بين الخوارزميات تجميع مختلفة، ونفس خوارزمية التجميع، وتأثير العوامل المختلفة على خوارزمية التجميع.

أولا، لأن معايير الأداء تجميع ليست موحدة، وذلك بمقارنة القيمة ليست بديهية، فمن الطبيعي أن نفكر ما في وسعنا، إذا كنا نتعامل مع بيانات التصنيف، إذا كانت هذه البيانات متسقة مع استخدام نتائج تجميع فئات، يمكن أن يكون وقال تجميع لتحقيق نتائج جيدة، من خلال الفضاء ميزة مقارنة البصرية، ويمكن لنا أن نقارن ما يقرب من مزايا خوارزميات تجميع مختلفة. هنا، لدينا الافتراض هو أن عينات مماثلة من نفس الفئة.

نحن نبني البيانات النموذجية:

من كتلة استيراد sklearn، قواعد البيانات

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

سيبورن استيراد كما SNS

N_SAMPLES = 1000

X، Y = datasets.make_blobs (N_SAMPLES = N_SAMPLES، random_state = 42، ومراكز = 5، cluster_std = 3)

sns.set ( 'darkgrid' = نمط)

إلى  ط، ت، ل في  ، ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

plt.legend ()

plt.show ()

كما هو مبين، وتوزيع عينة من ثلاث فئات متميزة، ولكن بعض من النقطة الزرقاء لإشابة الأحمر هذه النقطة، ونحن بحاجة إلى إيلاء اهتمام خاص لهذه النقاط.

نحن نستخدم K-وسائل الخوارزمية يحتاج إلى ضبط ناقلات متوسط الأولية، ولكن أيضا جيدة عدد المحددة مسبقا من الفئات، ثم التحديث تكرارية هذه يعني ناقلات، 3، تم اختيارها في ناقلات عشوائي نعني عدد محدد من فئات هي:

من قواعد البيانات استيراد sklearn

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

سيبورن استيراد كما SNS

من sklearn.cluster KMeans استيراد

N_SAMPLES = 1000

X، Y = datasets.make_blobs (N_SAMPLES = N_SAMPLES ومراكز = 3، random_state = 42، cluster_std = 3)

kmean = KMeans (n_clusters = 3، الحرف الأول = 'عشوائية')

y_pre = kmean.fit_predict (X)

sns.set ( 'darkgrid' = نمط)

إلى  ط، ت، ل في  ، ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

plt.legend ()

plt.title ( 'Kmeans لBolbs')

plt.show ()

كما هو مبين، نتائج تجميع كبير ثلاث فئات فقط من اللون يعاد تغليف، ولكن في نفس الموقف من الفضاء الميزة، نجد '' المنشطات "من نقطة الانطلاق يحدث، بعد أن أصبح خوارزمية فصل صارمة لاستخدام Kmeans أنها بسيطة جدا ويمكن التنبؤ بها.

إذا كان لنا أن زيادة عدد فئات محددة ما الذي سيحدث؟

.......

kmean = KMeans (n_clusters = 4، الحرف الأول = 'عشوائية')

.......

كما هو مبين، وعدد محدد من فئات Kmeans 4 انقسام وأجبر على نوع معين من فئتين، من وجهة نظر kmeans الأولي متوسط عدد ناقلات دينا عدة، ونحن مقسمة إلى عدة فئات، وهي kmeans خوارزمية وعيب واحد.

فكيف لاختيار متوسط ناقلات الأولي، لأن التهيئة سوف يسبب بعض التأثير على النتائج النهائية لدينا، لأن ناقلات متوسط الأولية عينة عشوائية قد تماما من اثنين قريبة جدا كناقل نفسه، ثم اثنين يعني متجه قد أجبر وسط مجموعة من عينات قد تنتمي إلى نفس الفئة إلى فئتين. في الواقع، نحن سيتم إدراج kmeans دعا kmeans ++ التكنولوجيا التي قد تغير طريقة اختيار متوسط ناقلات الأولي، وكلما بعدت المسافة من نقطة سيكون لها احتمال أكبر من اختياره لدخول kmeans خوارزمية النهائية.

لكن البيانات التي تستخدم حاليا هيكل محدب من البيانات إذا اخترنا لا هيكل محدب سيحدث بعد ذلك؟ ونحن نستخدم البيانات حلقة المذكورة في "المهارات الأساسية" في ل:

.......

X، Y = datasets.make_circles (N_SAMPLES = N_SAMPLES، عامل = 0.5، والضوضاء = 0.05)

......

نحن نستخدم kmeans الخوارزمية على التكيف مع هذه البيانات سيكون لها أي تأثير؟

......

kmean = KMeans (n_clusters = 2، = الحرف الأول "ك-وسائل ++ ')

y_pre = kmean.fit_predict (X)

sns.set ( 'darkgrid' = نمط)

إلى  ط، ت، ل في  ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

plt.legend ()

plt.title ( 'Kmeans للدوائر')

plt.show ()

كما هو مبين، يمكننا أن نرى لم يتم الحفاظ على الملامح الأصلية للالفراغ الحلقي، ولكن تنقسم إلى الطبقات العليا والسفلى، لأن خوارزمية سوف kmeans جميع البيانات كهيكل المحدب للتعامل معها.

ننتقل للتعامل مع مشكلة كثافة تجمع لDBSCAN على سبيل المثال، نحن لسنا بحاجة لتعيين عدد من الفئات في هذا الصدد هو أكثر مرونة من kmeans، ولكن نحن بحاجة إلى غيرها من المعالم الرئيسيين، ودعا المسافة القصوى، وهو مقياس لعينة كيف مقربة من حي يمكن عدها، والآخر يسمى الحد الأدنى للعينات، بل هو مقياس لمدى العديد النقطة الأساسية التي ينبغي إدراجها من أجل تحسب كتلة. وبالإضافة إلى ذلك، kmeans التقليدية هناك عيب، ما دمنا قد وضعت عددا من الفئات، وسيتم تقسيم العينات في طبقة، إذا يحتوي على البيانات المتوفرة لدينا الضوضاء، ثم، kmeans تأثير ستتأثر إلى حد كبير.

على السطح حيث الضوضاء هي القيم المتطرفة، ولكن في DBSCAN لا يمكن تعريفها بأنها نقطة الأساسية تصل العلاقة بين كثافة نقطة الواردة في، وهذه نقطة لا تنتمي إلى أي كتلة، ونحن نبني DBSCAN، على الالتزام به في الدوائر على بيانات الأداء:

من قواعد البيانات استيراد sklearn

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

سيبورن استيراد كما SNS

من sklearn.cluster KMeans استيراد

من sklearn.cluster DBSCAN استيراد

N_SAMPLES = 1000

X، Y = datasets.make_circles (N_SAMPLES = N_SAMPLES، عامل = 0.5، والضوضاء = 0.05)

dbscan = DBSCAN (EPS = 0.08)

y_pre = dbscan.fit_predict (X)

sns.set ( 'darkgrid' = نمط)

إلى  ط، ت، ل في  ، ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

plt.legend ()

plt.title ( 'DBSCAN للدوائر')

plt.show ()

كما هو مبين، يمكن للتكيف جيد DBSCAN البيانات الدوائر، وبعض الضوضاء المدى الممكن (البقعة الصفراء) تم وسمها.

ومع ذلك، DBSCAN حساسة جدا للمعلمات، ونحن هنا لتعيين المعلمات حي 0.08، هو الأمل حي صغير بما فيه الكفاية يمكن أن يكون لها تمييز الطبقة جيدة، ولكن صغير جدا، قد رسم عينة من نفس الفئة إلى فئة مختلفة أيضا، بعد ذلك، قد فئة مختلفة كطبقة. لو كان التعديلات الصغيرة، وسوف نرى تغيرات كبيرة تجميع النتائج:

......

الغاما =

sns.set ( 'darkgrid' = نمط)

إلى  ك، ي في  اعدد (الغاما):

 dbscan = DBSCAN (EPS = ي)

 y_pre = dbscan.fit_predict (X)

 plt.subplot (ليون (الغاما) / 2، ليون (الغاما) / 2، ك + 1)

  إلى  ط، ت، ل في  ، ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

 plt.title ( '$ \ جاما = $ ق' ي)

plt.show ()

كما هو مبين، يمكننا أن نرى أنه عندما حي صغير، بحيث كل فئة ليس لديها ما يكفي من كثافة متناول الهدف، مما أدى إلى كل من العينات تعتبر الضوضاء، وعندما حي حجم مناسب، عموما تشبه في الشكل، ولكن لن تعترف من الضوضاء، وعندما حي كبير جدا، ويتم التعامل مع كل نقطة من النقاط الأساسية، حتى يتسنى لجميع العينات سيتم التعامل معها على أنها فئة.

وبالإضافة إلى ذلك، يمكننا أيضا الاستفادة من المجموعات الهرمية وتجميع الشبكة وتجميع نموذج الاحتمالات، ولكن من أجل فهم أفضل للعلاقة تخفيض أبعاد والتكتلات، ونحن أساسا محاولة تجميع الطيفي، وسوف تجمع الأطياف جعل الحد من أبعاد البيانات ومن ثم استخدام الإطار الأساسي لاستكمال kmeans العنقودية، ثم بعد التخفيض الأبعاد يمكن أن تتعامل فعلا مع نوع بنية غير محدب البيانات؟

......

الطيفية = SpectralClustering (n_clusters = 2، تقارب = 'nearest_neighbors، eigen_solver =' arpack ')

y_pre = spectral.fit_predict (X)

sns.set ( 'darkgrid' = نمط)

إلى  ط، ت، ل في  ، >:

 plt.scatter (X ، X ، ج = ت، والتسمية = L، S = 15، edgecolor = 'ك')

plt.legend ()

plt.title ( 'الدوائر الطيفي Clusteringfor')

plt.show ()

كما هو مبين، قد تكون بيانات عملية تجميع الطيفي بنية غير محدب، حصلنا على نتائج مماثلة مع DBSCAN.

السبب في أنني تعمدت إظهار قوة تجمع الطيفي، فإنه ليس أفضل، لأنه "الأفضل" خوارزمية غير موجود، ولكن هناك يعكس ذكر لنا في المادة السابقة، "التقنيات النووية (نواة خدعة)" في للا يتجزأ خطيا (غير محدب) يصبح فصل خطيا (محدبة)، ومواصلة القيام تخفيض الأبعاد، تجمع الطيفي هو استخدام هذه الفكرة، وسوف نكون في مقال استخدامها لاحقا المتكررة من معرفة سابقة.

قراءة Xinjunkaiba الفصول الدراسية TIPS

استخدام طريقة تجميع الطيفي هو يسمى تعيين الحد الأبعاد ميزة Laplacian، غير الخطية في الطبيعة، فإنه سيكون لديها القدرة على التعامل مع التكوين غير محدب.

لا يذكر التمويه نموذج خليط هنا، ولكن تقدير أقصى الاحتمالات، وهناك حاجة لتقدير المتغيرات الكامنة، وسوف نستخدم الكلاسيكية معالجة EM الخوارزمية.

العديد من الخوارزميات تجمع لديها أنواع مختلفة إلى وسائل ك، على سبيل المثال، من أجل حل المشكلة التي تحتاج إلى تحديد عدد من الفئات، يمكننا وضع عدد من الطبقات K كما المعلمات جدا للتعامل معها، ثم تحت مختلف خيال وفقا معامل K تحديد K، وحل مراكز العنقودية مشكلة تهيئة، بالإضافة إلى وسائل ك ++، سوف نستخدم ذكية، وسائل ك، من أجل معالجة آثار الضوضاء نقطة، لدينا ك الوساطات.

الكاتب: الراهب دون هيد آند شولدرز للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

الأزرق سحر E2 رسميا! تصميم فلاش مشرق ......

Hanteng 2019 معرض شنغهاي للسيارات تعرض تشكيلة لقوة سيارة / سيارات الدفع الرباعي / MPV منتج كامل خط مصفوفة

اليوم صوت الأساسية | يكفي الشجاعة؟ رحلة إلى يأتون إلى هنا لأقول! الرعب الياباني ......

ممن لهم البحث X لا يمكن ارتداء أجهزة الهاتف الجوال؟ وقد تم حل الكنز العالمي!

"منظمة العفو الدولية الفصول الدراسية في نهاية الأسبوع" العديد من القضايا الهامة التجميع | تعلم آلة سوف تواجه "حفرة"

الشعب الصينى لديه الجزئي إلكتروني دردشة QQ، ما دردشة مع الأجانب؟

الحجز مفتوحة اليوم أمام السماء ME7 بورش المصممين تحده 4.9 ثانية Pobai

اليوم صوت الأساسية | في "على مجرد ذكر السرطان،" عصر الزوج جرعة القلب

AI رائدة يان ليكون: شبكة عمق أنيقة وتألق

الدخن شقة 4 بيع الأول اليوم، فإن أفضل خيار من باد؟

وقاشقاي جديد أكثر راحة بالمناسبة كما يلغي كل واحد منكم تشكو من النماذج القديمة!

اليوم صوت الأساسية | أزيلت الروبوتات من عالم الموضة، وليس عن طريق نموذج المنصة الرئيسية وكيف؟