تحسين خوارزمية على أساس متعدد المثال متعددة العلامة التعلم شبه إشراف

للتعلم تحت إشراف، من خلال التدريب تركز على التعلم لبناء عينة من المعروف أن حدود قرار الفصل وتعيين عتبة مؤقتة لتحقيق التنبؤ عينات غير معروفة . عادة وصف كائن واحد فئات المثالية المرتبطة بها. ولكن، في الواقع، قد يكون كل كائن أكثر من الدلالي، مثل خريطة تحتوي على الأسد، الفيل، والمراعي، ويمكن أن تصنف على أنها فئة "الفيل"، يمكن أن تصنف على أنها فئة "الأسد"، حتى بسبب وجود الحيوانات والمراعي وأن تصنف على أنها فئة "أفريقيا". وهكذا، عندما يتم تمثيل كائن مثال واحد فقط، وأنه من الصعب الحصول على النتيجة المرجوة. لمعالجة هذه المشكلة، والعلماء ذات الصلة متعددة نموذجية متعددة تسمية (متعدد مثيل متعدد التسمية، MIML) تعلم آلة النماذج، أهم ميزة: مع مجموعة من جمع عينة لتمثيل كائن في الإطار، في حين تعدد الأشياء المرتبطة العلامة. لتمثيل العالم الحقيقي كائنات أقوى، وغيرها من إطار التعلم آلة يمكن اعتبار مثال مبسط متعددة التسمية متعددة الإطار التمثيل.

ويستند (دعم ناقل آلة، SVM) على النظرية الإحصائية التعلم على طريقة التعلم الآلي، وتعميم درجة عالية من الدقة والكفاءة الحاسوبية عالية، والنتيجة هي سهلة لشرح . وSVM التقليدي أشرف معظمهم من التعلم، ولكن في الواقع، هناك تسمية البيانات عينة نادرة، من السهل نسبيا للحصول على بيانات عينة غير المسماة. عن طريق التعلم الذي هو نموذج البيانات غير المسماة تضاف إلى مجموعة التدريب، نموذج التعلم لتعزيز النموذج. ولذلك، لم يكن هناك طريقة التعلم شبه إشراف وظيفة تصنيف SVM ملزمة الدراسات إلى القطار.

العمل ذات الصلة

أشرف التقليدية التعلم هو مثال واحد من إطار التعلم وحيدة التسمية. مهمة التعلم هو أن نتعلم وظيفة رسم الخرائط: و: X Y.

في مشاكل التعلم متعدد المثال ، وذلك باستخدام مجموعة سبيل المثال يحتوي على مجموعة من كل كائن الممثلة في مجموعة التدريب، في حين يتم تعيين الكائن إلى تسمية فئة واحدة. A المصنف (أي تعيين وظيفة fMIL: 2X Y) هذا المثال نموذج التسمية التعلم للاحتفال الحزم مجهولة. الأمثلة النموذجية على كيفية متعدد المثال تعلم خوارزمية أقرب جار خوارزمية استشهاد-KNN، متعددة خوارزمية الشبكة العصبية المثالية BP-MIP آخرون .

في مشاكل التعلم متعددة تسمية ، يتم تمثيل الكائن فقط مثالا واحدا، والانتماء إلى مجموعة من العلامات. نموذج إطار مهمة التعلم fMIL: س 2Y ظيفة رسم الخرائط، ومن ثم استخدام الخريطة لالتنبؤ المجهول مجموعة فئة التسمية. تمثيلية تعلم متعددة تسمية الارتباطات خوارزمية ذات المتغيرين (BR) خوارزمية وسلسلة المصنف (CC) خوارزمية وما شابه ذلك.

في إطار MIML، هناك طريقتان لحل المشكلة، واحد هو وضع المتدهورة تطبيقه على سبيل المثال من دراسة متعددة التسمية أو تعلم كجسر للمشاكل تدهور MIML، مثل MIMLSVM وMIMLSVM + وما شابه ذلك. ولكن عندما تدهورت، سيتم تجاهل المعلومات ذات الصلة أحيانا بين العلامات، مما يؤثر على النتائج تصنيف الفعلية. لمنع فقدان المعلومات، فكرة أخرى تتمثل في العثور على آلة تحول خوارزمية تعلم الخوارزميات للتكيف الإطار MIML. تمثيلية الخوارزمية أساسا D-MIMLSVM الخوارزمية، الخوارزمية M3MIML وما شابه ذلك.

2 تحسين خوارزمية

2.1 E-MIMLSVM + خوارزمية

2.2 E-MIMLSVM + خوارزمية شبه أشرف قدم

شبه إشراف التعلم الذي هو الهيكل المكاني للبيانات من عدد كبير من البيانات لازال وكمية صغيرة من البيانات وضع علامة للتدريب وبناء أداء تعميم قوي من المصنف، والتسمية وتوزيع التسمية خالية مماثل لتطبيق نموذج بدون تسميات التدريب للمساعدة في تحسين أداء نماذج المدربين.

خوارزمية التعلم شبه تحت إشراف لSVM شبه أشرف بالانتماء إلى الميدان، يفترض أن المجموعة تقوم على SVM والتعلم شبه إشراف، يمكن محاولة العثور على التسمية فصل عينتين ومقسوما hyperplanes تمر عبر منطقة منخفض الكثافة، ونتيجة لذلك وفي الوقت نفسه لن يكون هناك قادرة على استخدام البيانات والتسمية غير المسماة. SVM شبه إشراف الأكثر كلاسيكية هو TSVM وS3VM . الأدب تحليل فعالية المركز ويمكن الحصول على أساس مركز المقدرة للطبقة شبه أشرف SVM meanS3VM. فإنه يحتاج فقط لتحقيق أقصى قدر متوسط فئتين من فئات، علامة للكل عينة غير المسماة قبل بدلا من ذلك. وهذا ما يعزز إلى حد كبير سرعة حل SVM شبه إشراف.

لنفترض أن هناك مجموعة عينة من المسمى دل = {(X1، Y1)، (X2، Y2)، ...، (الحادي عشر، يي)}، مجموعة عينة الخالي من الملصقات دو = {الحادي عشر + 1، الحادي عشر + 2، ...، xl + ش}، meanS3VM خوارزمية ويمكن تعريف رسميا على النحو التالي:

تحليل يمكن الحصول على صيغة (7) تحتاج فقط لتقدير متوسط العينة لازال إلى الفئة. مقارنة مع S3VM، meanS3VM تجنب تقدير من جميع تسميات الفئات عينات غير المسماة. في الواقع، meanS3VM خوارزمية يزيد من معدل فئة من الفئتين. منذ انخفاضا كبيرا في عدد meanS3VM شروط القيد الخوارزمية، وبالتالي حل سرعة SVM شبه إشراف أسرع، بحيث الوقت شبه إشراف SVM النفقات العامة تصبح صغيرة. فإنه قد يثبت ، عندما مجموعة معينة من عينات قد يكون تقسيم الوقت، meanS3VM وظيفة فقدان تتفق مع SVM القياسية، وعندما مجموعة معينة من عينات بعدم مشاركة، سوف meanS3VM فقدان وظيفة لا يتجاوز خسارة SVM المفصلي المزدوج القياسية.

من أجل الاستفادة الكاملة من عينات الفضاء تحمل اسما معلومات التوزيع، لمواصلة تحسين تعميم أداء المصنف، هنا، خوارزمية SVM شبه أشرف تستخدم ل-MIMLSVM E + --meanS3VM الخوارزمية وتحسينها. منذ meanS3VM خوارزمية مناسبة لمشكلة التعلم شبه أشرف التقليدية، قمنا بتحسين meanS3VM خوارزمية حساب وظائف النواة، والاستعاضة عنها مثالا من وظائف متعددة النوى. MeanS3VM هذه الخوارزمية المثالية للدراسة متعددة متعددة تسمية للحصول على تحسين خوارزمية SE-MIMLSVM +. بحيث تعطى تسمية عينة مجموعة S = {(شي يي) | 1il}، علامة عليه مجموعة عينة U = {(شي يي) | ل 1il + +}، مجموعة من عينة الاختبار T = {(شي يي) | 1iM}، يصبح تحسين خوارزمية SE-MIMLSVM +:

حيث، iy و تمثيل البيانات هو المسمى والبيانات الخالي من الملصقات الركود متغير، W0 يعكس الخصائص المشتركة بين مهام مختلفة، تعكس VY الخلافات بين المهام المختلفة، و المعلمة لتنسيق التشابه بين المهام المختلفة . نموذج من المعادلة (4) يمكن أن يرى، كل نموذج التصنيف المالي لديها W0 المعلمة المشترك، وهذا يعني نموذج التصنيف يفترض أن كل علامة لديه أي علاقة مع بعضها البعض هي. ولكن الوضع الفعلي ليس كل التسميات هي العلاقة الحالية. وهكذا فإن تسمية الكتلة يمكن الفضاء الأول، بحيث يتم تقسيم المساحة إلى عدد وافر من علامات وجود سمة مرتبطة فرعية، أشارت علامات تشير إلى مجموعة بين كل حزمة عينة والتسمية كما Y. من أجل قياس معلومات الاتصال بين العلامات المستخدمة في عملية التجميع هو العمود Y معامل ارتباط بيرسون.

2.3 خطوات الخوارزمية تحسين

لأن المترابط القيد د و، بحيث صيغة (7) هو النموذج الأمثل وغير محدب. يمكن استخدام خوارزميات محدب الاسترخاء بالتناوب أو تحسين خوارزمية غير المسماة العينات ومركز يقدر في فئة جيدة من صيغة (7) لتحويله الى إيجاد الحل الأمثل لمحدبة حلها باستخدام حزمة الأمثل محدبة. هنا اخترت استخدام أسرع بديل لحل خوارزمية الأمثل للتعامل مع القضايا ذات الصلة.

عملية SE-MIMLSVM + الخوارزميات هي على النحو التالي:

استخدام ديه عينة الموسومة التدريب كورونا SVM المصنف.

استخدام SVM عينة المصنف غير المسماة تدريب مجموعة U التنبؤ، وتهيئة القيمة المتوقعة بقيمة د.

التكرار في الجولة الحالية، ويحدد قيمة d للمتغيرات الأمثل [ألفا]، [ألفا] هو قيمة ثابتة ومن ثم لتحسين قيمة د.

كرر الخطوة عملية تكرارية حتى يصل عدد التكرارات التدريب المعينة، والعينات غير المسماة للحصول على الفئة مجموعة U متوسط تقديرات.

مجموعة عينة المسمى متوسط وحل المعادلة (8) لإعطاء SVM المصنف وتقدير فئة الحصول عليها.

وظيفة التنبؤ النهائية (5) من مجموعة العينة غير معروف تسميات X، وذلك باستخدام T-الفرقان معايير هي:

تجربة 3

3.1 الإعداد التجريبية

هنا، مع خوارزمية شبه تحت إشراف لتحسين meanS3VM E-MIMLSVM + خوارزميات تحسين، ومقارنة MIMLSVM +، MIMLSVM، E-MIMLSVM + MIML ثلاثة خوارزميات، من أجل تحسين أداء تصنيف التحقق الخوارزمية. 3 حيث خوارزميات المواءمة المعلمة، على التوالي، وفقا لأدبيات - التجريبية مجموعة غير الأمثل. وفقا لمرجعية meanS3VM خوارزمية تعديل المعلمة الأمثل. وينطبق الشيء نفسه عشرة أضعاف الطريقة التجريبية الصليب، مجموعة البيانات في التدريب واختبار مجموعات من اثنين، كل البيانات 1000. خلال التجربة، واختيار عشوائي لمجموعة تدريب 100 العينات وتدريب تعيين ملحوظ، والباقي إنفراد 900 كمجموعة التدريب. منذ أكثر من ثلاثة سبيل المثال تجريبي مقارن للمتعددة الوسم الحالية خوارزميات تستطيع عينات التدريب لا غير المسماة، لذلك كل عينة من 000 تم اختيارها عشوائيا على أنها مجموعة التدريب والعينات المتبقية كمجموعة الاختبار. التجربة تتكرر 10 مرات لحساب المتوسط والتباين.

تجارب متعددة التسمية باستخدام بيانات العينة متعددة المقرر أن تقدم تشى هوا، وتنقسم مجموعة المشهد في النص ومجموعات ، لكي نكون منصفين، خوارزميات باستخدام نفس العينة واختبار مجموعات. والجزء الأول من مجموعة عينة من المشهد، صورة 2، وصفت ما مجموعه 000 العينات في عينات مجموعة البيانات مع مجموعة من التسميات الصف. بلغت عدد العينات من كل ما يمكن من الصحارى تسمية الطبقة والجبال والبحر، غروب الشمس، والأشجار، والتي تنتمي إلى أكثر من فئة واحدة (مثل البحر + غروب الشمس) حوالي 22 من مجموعة البيانات، وعدد من مجموعات (مثل الجبل + غروب الشمس + شجرة ) عن 0.75، وعدد العينات حوالي 77 من تسمية واحدة. في المتوسط، مع 1.24 ويرتبط التسمية يستند كل سبيل المثال. كل حزمة عينة الصورة تحتوي على 9 مع مثال على الطريقة التي يمثلها SBN، كل المثال هو 15 الأبعاد ناقلات الميزة.

المجموعة الثانية من العينات النص عينة، هذه المجموعة من عينات مستمدة من وكالة رويترز-21578 وقد درس على نطاق واسع. تنقسم مجموعة عينة إلى سبع فئات التبويب، أي ما مجموعه الوثائق 2000 العينات. مجموعة البيانات الأصلية محفوظة 8866 الوثائق بعد مستند فارغ مجموعة علامات التبويب حذف أو النص الرئيسي، بعد حذف عشوائيا إلا بعد الوثيقة تسمية الطبقة للحصول على مجموعة البيانات النصية التي تحتوي على 2000 عينات من الوثيقة المستخدمة في التجربة. في هذه المجموعة البيانات، والمتوسط من كل وثيقة الانتماء إلى 1.15 0.37 الملصقات والوثائق العائدة إلى وافر من علامات تتقاسم حوالي 15. باستخدام نافذة انزلاق يمثل وثيقة الفن كمجموعة من الأمثلة. تتضمن كل علبة مجموعة من 243 البعد ناقلات ميزة، يمثل كل ناقلات قسم معين من هذه الوثيقة. تحتوي كل علبة على الحد الأدنى من عينة 2، تحتوي على ما يصل إلى 26 متوسط عينة من 3.56 2.71 مثال عشر تحتوي كل حزمة. جمع عينة ونموذج السيناريو مجموعة النص المستخدمة في هذه التجربة، والسمات الهيكلية كما هو مبين في الجدول رقم 1.

3.2 النتائج التجريبية

هذه التجربة حدد سبيل المثال أكثر من واحد من متعدد منطقة الكود 5 التقييم : فقدان المبالغة، للخطأ واحد، والتغطية، وفقدان الترتيب ومتوسط الدقة. قيمة تقييم أربعة السابق لل، وأفضل تأثير أصغر من خوارزمية تصنيف، وأخيرا تقييم لقيمة أكبر للمؤشر، ونتائج تصنيف أفضل. وتبين الجداول 2 و 3 أداء التجريبية من الخوارزمية على كل من المجموعتين. بعد الجدول السابق "" هو عشرة أضعاف التجربة عبر التحقق من صحة، وحساب القيم تقييم 5 "" يتم حساب قيم التباين الظهر.

وكما يتبين من الجدول، SE-MIMLSVM + أربع قيم التقييم قبل الخوارزمية هو أصغر، ومتوسط قيمة الدقة هو أكبر، مشيرا إلى أن تحسين خوارزمية يحقق أفضل على خشبة المسرح، ومجموعات مجموعة عينة عينة النص أمثلة أخرى للتأثير خوارزمية متعددة تصنيف لمتعددة العلامة.

4 خاتمة

تتناول هذه المقالة استراتيجيات تقوم على تدهور واستخدام متعدد المثال متعددة تسمية خوارزمية تصنيف E-MIMLSVM SVM +. بواسطة E-MIMLSVM قدم + الخوارزمية باستخدام عينات غير المسماة وحل أسرع التعلم شبه يشرف SVM meanS3VM، يتم تحسين خوارزمية الأصلية. بالمقارنة مع غيرها من متعدد المثال متعددة الوسم الخوارزمية، وتحسين خوارزمية يحسن دقة التصنيف، وتعزيز القدرة تعميم المصنف.

مراجع

بن لاو غير معروف خوارزمية التعرف تطبيق ويب يستند إلى تحسن TSVM التكنولوجيا الالكترونية، 2016،42 (9): 95-98.

زو Z H، زانغ M L، هوانغ S J، وآخرون al.Multi مثيل التعلم متعددة التسمية .Artificial الاستخبارات، 2012،176 (1): 2291-2320.

تشانغ لى يين Mengjie شياو Chaoen، الخ دعم آلة ناقلات خوارزمية تقوم على الأجهزة الأمثل مراقبة طروادة التكنولوجيا الالكترونية، 2018،44 (11): 17-20.

أوراق الشتلات. صورة استرجاع حسابي لموضوع التعلم المثال خفى: جامعة الصين للعلوم والتكنولوجيا، 2017.

READ J، PFAHRINGER B، G هولمز، وآخرون سلاسل al.Classifier لتصنيف متعددة تسمية .Machine التعلم، 2011،85 (3): 333.

زو Z H، زانغ M L.Multi مثيل التعلم متعددة التسمية مع التطبيق لتصنيف المشهد .Advances في العصبية نظم المعلومات تجهيز 19 .MIT الصحافة 2007: 1609-1616.

LI Y X، JI S W، S كومار، وآخرون al.Drosophila التعبير الجيني نمط الشرح من خلال عدة مثيل التعلم متعددة التسمية المعاملات .IEEE / ACM على الحاسوبية الأحياء وBionformatics، 2012،9 (1): 98-112.

زانغ M L، زو Z H.M3MIML: طريقة أقصى هامش متعددة المثال التعلم متعددة تسمية مؤتمر .Eighth IEEE الدولية على Mining.IEEE البيانات، 2008: 688-697.

تشو تشى هوا. آلة التعلم بكين: مطبعة جامعة تسينغهوا، 2016.

EVGENIOU T، M.Regularized PONTIL التعلم متعددة المهام مؤتمر .Tenth ACM Sigkdd الدولية على اكتشاف المعرفة والتنقيب عن البيانات .ACM، 2004: 109-117.

زانغ J، قهرماني Z، يانغ Y.Flexible نماذج متغير الكامنة للتعلم متعددة المهام .Machine التعلم، 2008،73 (3): 221-242.

EVGENIOU T، C MICCHELLI A، PONTIL M.Learning مهام متعددة مع طرق النواة .Machine التعلم أبحاث، 2005،6 (4): 615-637.

LI Y F، كوك J T، زو Z H.Semi تحت إشراف التعلم باستخدام متوسط التسمية مؤتمر .International على آلة التعلم .ACM، 2009: 633-640.

دراسة لي يوفينغ. شبه أشرف أساليب التعلم آلة الدعم الموجه نانجينغ: جامعة نانجينغ، 2013.

BOUTELL M R، J لوه، BROWN C.M.Learning multilabel تصنيف المشهد الاعتراف .Pattern، 2004،37 (9): 1757-1771.

MARON O، راتان وتعلم L.Multiple مثيل لتصنيف المشهد الطبيعي .Proceedings المؤتمر الدولي ال15 على آلة التعلم .Morgan كوفمان الناشرون شركة، 1998: 341-349.

SEBASTIANI F.Machine التعلم في تصنيف النص الآلي .Computer العلوم، 2015،34 (1): 1-47.

ANDREWS S، TSOCHANTARIDIS I، آلات ناقلات HOFMANN T.Support للتعلم متعددة مثيل .Advances في العصبية أنظمة معالجة المعلومات .ResearchGate، 2003: 561-568.

الكاتب المعلومات:

LI-1، Zhangzhen كاي 1، 2 بو تشو

كلية الحاسوب وهندسة الاتصالات (جامعة الصين للبترول (شرق الصين)، وتشينغداو 266580.

2. بيل شنغهاي شركة، قسم FN المحدودة تشينغداو فرع نوكيا، وتشينغداو 266100)

وموثوق بها للغاية عالية السرعة للبرمجة غير متزامن تصميم FIFO

بحث مكبر للصوت التقدم متكامل على رقاقة THz لل

لوبيز الكلام، أغلقت في برودواي، قبل 42 عاما، في نفس اليوم! نيويورك تعتيم كابوس تساى شى

الأشجار لمكافحة الحشرات كما حشو، بحث، الحفر، والطب، وختم خطوة أقل

مسار تطوير شركة نفط الجنوب "الأحداث القادمة" توطين يستند إلى RISC-V

"أطروحة التصميم الجيد" إن الرادار المقطع العرضي فائقة الاتساع منخفضة للبحث الهوائي وتصميم

"AET الأصل" من "الأساسية" للتكنولوجيا "سحابة" على أساس الجدارة استراتيجية إعادة بدء جديد

بعد حجرة شديدة الحساسية 95 وهذا لا يمكن العمل تعال مساعدة له؟

"التصميم الجيد أطروحة" لمكافحة التشويش نظام تحديد المواقع الهوائي تصميم RF الأمامية

الولايات المتحدة F-22 مقاتلا للعودة إلى استكمال التدريبات العسكرية بين الولايات المتحدة واستراليا في قاعدة ألاسكا

"AET الأصلي" CAN FD لم يعد من الممكن ترقية إلى ورطة، TI رقاقة للحصول على

قوية الين قراءة المنتج: وصلت فرق الدوري الممتاز في الدور نصف النهائي من شرق آسيا، يمكن توقع المستقبل