"منظمة العفو الدولية الفصول الدراسية في نهاية الأسبوع" العديد من القضايا الهامة التجميع | تعلم آلة سوف تواجه "حفرة"

آلة تقنيات التعلم يمكن تقسيمها إلى التعلم تحت إشراف والتعلم غير خاضعة للرقابة، والحاجة السابقة إلى استخدام التسميات العينات، وهذا الأخير لا. إلى حد ما، والتعلم التسمية هو التعلم الموجهة نحو هدف معين، تعلم الآلة هي المهمة الأساسية للتنبؤ، التسمية يمكن الجمع بين نتائج عملية التعلم، وأن لدينا عملية التعلم الإنسان نفسه هو ثابت . ما يسمى التعلم غير خاضعة للرقابة، في الواقع نحن ليس غريبا على "الحد من البعد الخطي" و "الحد من البعد غير الخطية،" كان لدينا طريقة للحد من أبعاد مقسمة إلى تخفيض أبعاد إشراف والحد من أبعاد غير خاضعة للرقابة، ونحن نرى أيضا LDA أن يكون الإشراف على أداء أفضل من PCA غير خاضعة للرقابة، حيث لا أهمية في التعلم تحت إشراف؟

إعداد الرياضيات
  • خصائص النظام (ترتيبي): قيمة العقارات يمكن مقارنة، ودعا الملكية منظم، لا يمكن مقارنة الممتلكات، ودعا الممتلكات غير المنضبط. قيمة السمة أمر ليس بالضرورة، ولكنها قد تكون وفقا للقيمة النظام.

تجميع الحافز

تجمع هو على الارجح الاكثر شعبية طريقة التعلم غير خاضعة للرقابة، ببساطة، هو أن تجعل عينة مماثلة في فئة واحدة.

والسبب الأكثر أهمية هو أننا في كثير من الأحيان لا يمكن ولا تريد العلامات فئة البيانات، وكان علينا التعامل مع بعض الفئات من المشاكل. مثل نظام توصية الآن بشعبية والموسيقى والتسوق مواقع جمع المعلومات على موقعنا على الأغاني والبضائع، آمال موقع للتنبؤ خياراتنا، وبالتالي أوصى بالنسبة لنا مجهولا ولكنه يفضل شيء، ولكن لا يصنف الحشد ، في حين أن عدد من التوليفات الممكنة الأفضليات وفئة التصنيف سوف يكون هناك عدد كبير جدا، لذلك نحن لا يمكن أن تكون في أيدي التعلم تحت إشراف، ولكن فقط للقيام تجميع للمستخدمين استنادا إلى سلوك المستخدم، والتشابه هو أعلى مجموعة (الكتلة)، ولذا فإننا سوف غالبا ما تجد خط يظهر بحروف صغيرة على التسوق والموسيقى مواقع: المستخدم الذين قاموا بشراء هذا المنتج يكفي لشراء XXX.

إلا إذا كان من وجهة النظر هذه، يبدو أن تجميع البيانات لم يتم وضع علامة مستاء جدا، في الواقع، تجمع يكشف عن البنية الداخلية للبيانات غير المسماة، لأن لدينا افتراض طبيعي جدا: عينات مماثلة لها مشابهة الانتاج. في الواقع غالبا ما يحدث هو أن لدينا سوى كمية صغيرة من العينة المسمى، سنكون قادرين على تحديد طبيعة العينة لم يتم وضع علامة وفقا لنتائج الكتلة، وهو التعلم شبه إشراف (التعلم شبه أشرف) هو النموذج.

تقنيات التعلم غير خاضعة للرقابة الرئيسية لا تقتصر على تجميع والحد من البعد، وكذلك توليد المواجهة شبكة (GAN) وخريطة التنظيم الذاتي (SOM). لأن التجميع هي منطقة كبيرة، وبعض التفاصيل لا يفسر في التفاصيل، سوف نشرح أساسا تقنية التجميع أكثر صعوبة لفهم نقاط في هذه المقالة.

تفاصيل مهمة من التجميع

سوف ينطوي على أي خوارزمية التجميع ثلاثة أسئلة أساسية:

  • وتقدر التشابه، والذي يحدد الغرف العادية في نفس المجموعة ومجموعات مختلفة
  • تنظيم البيانات، والذي يحدد هيكل خوارزمية
  • تقييم الأداء، والذي يحدد مستوى مزايا الخوارزمية

تقييم التشابه: المسافة

ونحن عموما استخدام المسافة بمثابة مؤشر التشابه، وأقرب، وارتفاع التشابه، إلا أن نفس العينات عادة ما تكون مجاورة لبعضها البعض. KNN خوارزمية كما ذكرنا في "نموذج غير حدودي (نظرية جزئيا)"، فإن الافتراض هو أنه يعتمد على المسافة عينة مماثلة ستكون القريب، بحيث يكون الاعتماد على عينات غير معروفة في جميع أنحاء بالقرب من عينات الانتاج K. ونحن في "نموذج غير حدودي (قانون المقالة)" يصف المسافة الإقليدية، بعد مينكوفسكي، وبعد المسافة مانهاتن، والمسافة تشيبيشيف، ولكن هذه لا تنطبق إلا على صفقة مع خصائص منظم بسبب الحاجة لحساب المسافة باستخدام الفرق بين القيم السمة، والفرق لا يمكن تحديد سمات غير مرتبة.

بدلا من ذلك، ونحن نستخدم استخدام العام من VDM (القيمة الفرق متري) لقياس سمات غير مرتبة بعد:

من بينها،

القيمة هي عدد العينات على ممتلكات ش،

U هو قيمة في السمة هي، وعدد العينات التي تنتمي إلى المجموعة الأولى، عندما ص = 1، تؤثر على طبيعة VDM تحسب لمدة قيم مختلفة من الخصائص في نفس المجموعة، ضمن نفس المجموعة، واحد وكلما ارتفعت نسبة من القيمة، مشيرا إلى أن قيمة هاتين الخاصيتين لتقسيم مجموعة مفيدة، ثم قيمة VDM ستكون كبيرة، وإذا كانت نسبة من قيمة الممتلكات مماثلة، تشير إلى أن قيمة العقارات اثنين لتقسيم العنقودية هي من أي استخدام فإن قيمة VDM تصبح صغيرة جدا، كانت مخبأة وراء هذا الاجراء بعد نفس التشابه، لأن أقرب، وارتفاع التشابه، والأرجح المنسوبة إلى كتلة.

لكل عينة، قد يكون هناك ن سمات، ونحن بحاجة إلى مجموع عدد العقارات:

من بينها،

وهو يشير إلى تذوق القيم في خصائص ش، المقابلة ل.

النماذج التنظيمية

الأكثر شهرة هو على الارجح تجميع خوارزمية الوسائل K خوارزمية (K-سائل)، والكثير من المواد وشرح مرارا هذه الخوارزميات الكلاسيكية، ولذا فإنني لن شرح ذلك بالتفصيل هنا، على العكس من ذلك، علينا أن نستكشف ما خوارزميات التجميع الرئيسية عدة أشكال التنظيم:

  • النموذج القائم على المجموعات، فمن المفترض أن نتيجة تجميع يمكن التعبير عنها من نقاط البيانات الأصلية. إلى وسائل ك، على سبيل المثال، وهي تحدد عدد لا بأس به من الفئات، تم اختيارها عشوائيا نقاط العينة كما الكتلة الأولي يعني متجه، ومن ثم تحديث التكرار ناقلات يعني حتى يتم تقسيم جميع الكتل إلى الخير، وأداء متوسط متجه لم يعد تحديث.
  • هذه الأساليب هي فعالة جدا، ولكن تعتبر فقط عينات مستقلة، غير قادر على التعامل مع البيانات التوزيع غير محدبة، وخصوصا عندما سوف تكون مبعثرة البيانات حلقة التوزيع، ك وسيلة تجميع تأثير في أقسام الحلقي بأكملها.
  • على أساس كثافة المجموعات، ويفترض أن يكون نتيجة لتجميع يجب التعبير عنها من خلال الكثافة العالية والمنخفضة. في DBSCAN (القائم على كثافة ofApplications المكانية للمجموعات مع الضوضاء) كمثال على ذلك، فإنه ليس من الضروري تحديد عدد من الفئات، ولكن المطلوب من عدد لا يقل عن عينات لتحديد معايير قياس المجال وتحديد الكائنات الأساسية المطلوبة، ومن ثم يحدد عينة في البيانات لكل تتألف الحقل أكبر من الحد الأدنى من عدد من العينات، ثم إضافته إذا كان أكثر من الكائن الأساسي، ومن ثم ابحث عن جوهر كل الأشياء كثافة عينة قابلة للوصول وتقسيمها إلى كتلة، اجتاز حتى جميع العينات.
  • وكثافة تجمع لا حاجة لعدد من الطبقات، إلى بعض يحل مدى شكل تجمع غير محدب، في حين يفصل أيضا الضوضاء نقطة معزولة، لا تنصهر أنهم قسرا إلى المجموعات الأخرى، ولكن المعلمات لمدة دقيقة والتغيير يؤدي إلى نتائج المجموعات المختلفة، غير مستقرة للغاية.
  • استنادا إلى مجموعة من الكتل، فمن المفترض أن نتيجة تجميع وأعرب من قبل مجموعة. المجموعات الهرمية (المجموعات الهرمية)، على سبيل المثال، حساب المسافة ومختلف العامة، ويحدد المسافة بين جمع وقال العملية هي من أعلى إلى أسفل، واعتبرت جميع العينات في البداية كفئة، ومن ثم عن طريق جمع بعد فصلها تدريجيا إلى عدد من الفئات المحددة؛ لقول من الأدنى هو بداية كل عينة هي كطبقة، وعدد من الطبقات إلى أن تنصهر ثم تطورت تدريجيا من خلال المسافة المجموعة.
  • لأنه لا يمكن حل المشاكل المذكورة أعلاه، ولكن أثبتت الدراسات أن تأخذ مجموعة مختلفة من مسافات يمكن تكييفها لالبيانات المعقدة، ولكن عالية التعقيد حساب، وذلك لأن لديها لحساب المسافة من كل عينة.

وبالإضافة إلى ذلك، لدينا التجميع القائم على الشبكة، التي تتعلق شبكة نموذجية ومستمر وسائل تفريد الفضاء، نحدد عدد العينات التي كثيفة ويتألف حدة متفرق الوسائل على الشبكة الحاسوبية التي كتبها تحديد ما إذا كان أو لا تكون مجاورة لهذه الفئة. وفي الوقت نفسه، هناك مجموعات احتمال استنادا إلى نموذج ولدت، عادة ما يكون نموذج خليط جاوس، وتسليط الضوء لم يعد تقسيم حدود واضحة، وإنما تنتمي لحساب التوزيع الاحتمالي الخلفي لكل عينة.

مقاييس الأداء

تجميع وليس هناك معيار موحد لمقارنة دقة، لأن أي كتلة من المرجح أن تكون معقولة. على سبيل المثال، مجموعة من التفاح والموز والمانجو، ونحن يمكن أن تكون إما مقسمة حسب اللون، أو من خلال تقسيم محتوى عنصر يمكن أيضا أن تقسم من حيث الحجم، حتى لو كان تقسيم نتائج مختلفة، ولكن أي انقسام له ما يبرره.

يمكننا أن ندرك تقريبا يجب أن تكون النتائج تجميع نفس مماثلة كما العينات العنقودية الممكنة، وعينات من مجموعات مختلفة تختلف بقدر الإمكان. مقاييس مشتركة لها DBI (ديفيس-بولدين فهرس) وDI (مؤشر دان)، ولكن إذا كنا نريد أن نفعل مقارنة مع النموذج القياسي، يمكننا أيضا الحصول على قياسات أكثر موثوقية، مثل JACCARD معامل ومؤشر راند.

قراءة Xinjunkaiba الفصول الدراسية TIPS

أشار إلى مسافة يمكننا أن نذهب لتعلم معظم البيانات المناسبة من خلال المسافة Mahalanobis، في نفس المجموعة، يمكننا تضمين هذا التعلم في خوارزمية التجميع خاصة في "نموذج غير حدودي الأولي" في.

لحل بالوسائل ك لا يمكن التعامل مع بنية غير محدب، يمكننا تقديم-وسائل ك خدعة النواة، بحيث الفضاء ميزة الأصلي تم تعيينه في الفضاء عالية الأبعاد، ويصبح التوزيع غير محدب محدب التوزيع.

تجميع ويمكن أيضا أن تكون متكاملة، إضافة إلى أساس بيانات اضطرابات التعلم، اضطرابات مميزة اضطراب المعلمة، والشيء نفسه يمكن أن تتكيف مع توزيع البيانات المعقدة.

يمكن أن يكون تجميع وتحت إشراف الفرعية للحد من أبعاد عموما قريبة جدا من بعضها، لأن المشكلة من كارثة بعد، سيجعل حساب المسافة يصبح من الصعب جدا، وذلك في تجمع الأطياف الشهير (الطيفي للمجموعات)، سوف البيانات للحد من البعد، ومن ثم استخدام المجموعات.

الكاتب: الراهب دون هيد آند شولدرز للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

الحجز مفتوحة اليوم أمام السماء ME7 بورش المصممين تحده 4.9 ثانية Pobai

اليوم صوت الأساسية | في "على مجرد ذكر السرطان،" عصر الزوج جرعة القلب

AI رائدة يان ليكون: شبكة عمق أنيقة وتألق

الدخن شقة 4 بيع الأول اليوم، فإن أفضل خيار من باد؟

وقاشقاي جديد أكثر راحة بالمناسبة كما يلغي كل واحد منكم تشكو من النماذج القديمة!

اليوم صوت الأساسية | أزيلت الروبوتات من عالم الموضة، وليس عن طريق نموذج المنصة الرئيسية وكيف؟

الدخن تمويل الجماعي وسائل جديدة للنقل --ACTON لوح التزلج الكهربائية الذكية

السوبر التربة عمالقة تحية السنة الجديدة! Carius، يلماز الخط

مراجعة بالطبع: ويقال أن هذا هو أصعب مسابقة منظمة العفو الدولية "درسا قاسيا"، ما نتحدث عنه؟

التمتع الحرب! AMD تأكيد رسميا بطاقة الرسومات الرائد جديدة فيغا نشرت!

اليوم صوت الأساسية | وضع آلية خروج على "غزاة يان شى"، فإنها يمكن أن ترقى إلى مستوى الحلقات الأولى؟

خط أسود على العلوم والتكنولوجيا! إنتل Aoteng فلاش القرص تسارع رسميا للبيع!