معهد سيدني الأخ الاتحاد AI هو شي يوي: تعزيز دورات متعددة تسمية خوارزمية تصنيف الصور استنادا | ملخص حصة

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو : بالمقارنة مع تسمية واحدة تصنيف الصور، تصنيف الصور هو وسيلة متعددة التسمية هو أكثر انسجاما مع القوانين الموضوعية للعالم الحقيقي، وخاصة في وضع علامات دلالية الصور والفيديو، وقد استخدمت على نطاق واسع استرجاع الصور الميدانية وهلم جرا.

قناة الأكاديمية مشروع لى فنغ الشبكة AI تقنية مراجعة قاعدة بيانات "AI عامل تأثير"، معهد الاتحاد الأخ سيدني AI مع أربع ورقات CVPR المقبولة، 820 مليون $ من سلسلة C جولة من التمويل، AI كبير العلماء تاو، كبيرة انتخاب الأكاديمية الأسترالية للعلوم وجاء أداء مثير للإعجاب في "عامل تأثير AI" في الصدارة.

في الآونة الأخيرة، على GAIR قاعة، تقاسمت جامعة بكين، ودرجة الماجستير في رؤية الكمبيوتر هو شي يوي، تجربتها مع طريقة وتعزيز التعلم من أجل حل مشكلة متعددة تسمية تصنيف الصور. الطبقة فتح مقطع الفيديو عنوان القراءة: HTTP: //www.mooc.ai/open/course/499

هو شي يوي، جامعة بكين ماجستير في رؤية الحاسوب والطلاب الأخ معهد سيدني AI الاتحاد، واتجاهات رئيسية للبحث عن تعزيز التعلم، والتعلم العميق.

حصة الموضوع : متعدد تسمية خوارزمية تصنيف الصور بناء على التعزيز دورات التعلم

حصة الخطوط العريضة

  • بناء على آلية سير الدراسة، فإننا نقترح طريقة لتعزيز تصنيف متعددة التسمية لمحاكاة عملية صعبة الإنسان على التنبؤ من السهل أن التسمية.

  • يسمح هذا النهج دراسة تسمية وكيل تعزيز وتوقع وفقا لخصائص الصورة والتسميات وتوقع بالتتابع. وعلاوة على ذلك، فإنه يجعل الجائزة الكلية التي تسعى للحصول على طريقة للحصول على أقصى الاستراتيجية الأمثل، لذلك أن أعلى دقة تصنيف صورة متعددة التسمية.

  • في مهمة متعدد التبويب الحقيقية، وتعزيز ضرورة وفعالية هذه متعددة تسمية طريقة تصنيف الصور.

ما يلي هو شبكة لى فنغ AI تقنية مراجعة حصة التوحيد:

أنشئ الاتحاد الأخ في عام 2012، هي الشركة الرائدة عالميا في شركة الاستخبارات والروبوتات الروبوت الاصطناعية، أطلقنا المستهلك الروبوت الروبوت ألفا سلسلة، برمجة التعليم STEM روبوت ذكي Jimu، والروبوتات الذكية الخدمة Cruzr منصة سحابة التجارية وغيرها من البضائع، واستقر بنجاح في العالم متجر أبل.

وبالإضافة إلى ذلك، وأيضا مع جامعة تسينغهوا وضع الاتحاد الأخ بإنشاء مختبر مشترك من روبوتات الخدمة الذكية، التي أنشئت مع معهد جامعة سيدني للذكاء الاصطناعي، جامعة هواتشونغ للعلوم واقامة الروبوتات مختبر مشترك، محركات المؤازرة في الروبوت الروبوت خوارزمية التحكم مشية ، رؤية الجهاز، والكلام / التفاهم الدلالي، والتعرف على العاطفة، U-SLAM (توطين في وقت واحد ورسم الخرائط) تخطيط الحقل عمق وما شابه ذلك. عام 2018، أكمل الاتحاد الأخ جولة C تمويل تقييم 5.0 مليار $.

قبل شرح، وأود أن أشكر زملائي في العمل، والدراسة والعمل وأعطاني الكثير من المساعدة، بدءا من الدكتور قوه تيانيو الدكتور شو تشانغ، البروفيسور شو تشاو، أستاذ تشنغ تاو كبير.

بدأت المحتويات الرئيسية ليعرض اليوم سهم، أول عرض متعددة تسمية تصنيف الصور (موضوع التسمية تصنيف صورة)، متعددة تسمية تصنيف الصور، بحكم التعريف، يشير إلى صورة لها تسميات متعددة.

التقليدية واحد وسائل تصنيف الصور التسمية التي وجهة نظر ليس لديها سوى التسمية، مثل بخط اليد الاعتراف أرقام بيانات Mnist: تسمية واحدة فقط الخريطة، عدد 0-9. ImagineNet، 1000 لديها مجموعة من تسميات البيانات، كل FIG يتوافق مع العلامة فقط. ولكن في واقع الحياة، صورة وغالبا ما تنتمي إلى تسميات متعددة، مثل صورة مع الجداول، ومن المرجح أن يكون زجاجات والجداول والعلامات زجاجة وهذه الصورة، يتم إعطاء أسطورة التالية العديد من العلامات :

FIG (A)، علامة: النمر والثلج والنمور السيبيرية؛ (ب) من التسمية: النمر والثلج، والأشجار والنمور السيبيرية

هذه الرسوم التوضيحية هما كل صورة متعددة التسمية، عدد وافر من الكائنات الرسومية، التي تتألف من عدد وافر من علامات الكائن لتسمية الصورة كاملة، في السنوات الأخيرة، وهذه الأساليب تصنيف متعددة التسمية بوجود مجموعة متنوعة من التطبيقات، الشرح الدلالي مثل صورة، فيديو الشرح الدلالي، وكذلك على المحتوى استرجاع الصور وما شابه ذلك.

مقارنة حيد التسمية تصنيف الصور وتصنيف صورة متعددة تسمية لديه بعض الصعوبات:

  • وثمة صعوبة، وهناك علاقة تكافلية بين مجموعة متنوعة من العلامات، مثل السماء والغيوم، وهناك صورة في السماء، قد يكون لها أيضا سحب كبيرة

  • الصعوبات الثانية، والعلاقة بين أبعاد هذه العلامة عالية، مع نموذج يصعب قياس

  • صعوبات الثالث، العديد من العلامات الدلالية تتداخل، مثل القط والقط اشارة كل القطط، لذلك تسميات اثنين تتداخل غويا

  • في السنوات الأخيرة، فإن الصورة على تصنيف متعددة تسمية ديها تشكيلة واسعة من البحوث، لتقديم الأعمال ذات الصلة التالية.

صورة تصنيف متعددة تسمية من ممارسة نموذجية في إصدار العديد من علامات التبويب إلى مشاكل تسمية واحدة، والأكثر تمثيلا هو طريقة ثنائي الصلة، وهذا هو، ونحن غالبا ما نقول إن طريقة BR، على افتراض أن هناك ثلاث علامات، ثم هنا وهناك 3 المصنفات، كل المصنف المصنف يتوافق مع اثنين من المدخلات X، بعد ثلاثة المصنفين على التوالي Y1، Y2 وY3، قيمها هي 0 أو 1، إذا كانت القيمة 0، فهذا يعني أن التسمية ليست جزءا من الصورة، إذا كان 1، فهذا يعني أن الصورة تنتمي إلى التسمية.

حول تباينت BR اختيار المصنف، كان استخدام CNN، كان يستخدم أيضا شجرة القرار. في السنوات الأخيرة، ونحن نستخدم CNN كتصنيف الأساسي، ومن ثم لتدريب مع فقدان الترتيب وفقدان الكون عبر، ولكن هذه الأساليب لديها مشكلة شائعة، فإنها تجاهل العلاقة بين التسميات. ولكن في مشاكل تصنيف صورة متعددة التسمية، العلاقة بين العلامة واسعة النطاق.

كيفية قياس العلاقة بين التسمية؟

وهناك طريقة بسيطة لاستخدام علامة للاستدلال على مدى توقع التسمية الحالية، أي أسلوب في ترتيب متوقع، ترتيب طريقة التنبؤ هو مثال نموذجي من سلسلة طريقة المصنف، والحق هو التخطيطي سلسلة الرسم المصنف، التي هي أكثر من مجرد طريقة ثنائي الصلة لأكثر من بضعة أسطر، وهذا هو، من Y2 خط لY1، Y2 إلى Y3 من الخط، وكذلك من Y1 إلى Y3، بداية، وX مساهمة في المصنف، والحصول على Y1، Y1 وX كإدخال، من خلال المصنف الحصول Y2، ثم X، Y1، Y2 ثم استخدام المدخلات، من خلال المصنف للحصول Y3، وهذا هو، التسمية توقع وراء الجبهة وتوقع التسمية المعتمدة، وطريقة سلسلة المصنف يتطلب نظام ثابت، وهذا النظام هو مقدما قرر على، طريقة المصنف سلسلة حساسة جدا للنظام، وذلك للحد من تأثير النظام، سلسلة المصنف ومجموعة متنوعة من المتغيرات، مثل ECC (فرقة Cassifier سلسلة)، هو استخدام طرق الفرقة لتحسين الأداء سلسلة مصنف، بالإضافة إلى ذلك، هناك C طريقة NN-RNN.

طريقة CNN-RNN لاستخراج المعلومات الدلالية للصورة مع CNN، ثم إلى العلاقة RNN بين الصورة والنموذج التسمية، ولكن يتطلب هذا الأسلوب أيضا تسلسل جيد نظرا مقدما.

وبالإضافة إلى ذلك، هناك بعض النماذج من FIG، كما هو مبين أدناه.

الشكل (يسار) هي الآلية التكافلية بين التسمية؛ (يمين) آلية التكافلية بين التسمية تحولت إلى نموذج الرسم البياني، من أجل حل المشاكل من خلال متعددة تسمية خريطة الحل صورة نموذج التصنيف، ولكن هذه المعلمة طريقة أكثر، من أجل حل أكثر تعقيدا.

الطرق الحالية لا يتوقع من المتوقع صورة تسمية بالتتابع، ولكنها تتطلب أجل الخير مسبقا، ومجموعة البيانات بالكامل وتعطى عادة التسلسل، وهو الإنسان، وتعلم الحيوان طرق العكس. نوع واحد من البشر والحيوانات اتبع عموما من البسيط الى المعقد نوع من النظام، وهذا هو، ونحن كثيرا ما يقول أن من الصعب السهل أولا. في علم الأحياء، ويسمى هذا النوع من آلية آلية بطبيعة الحال، ICML 2009 الآلية المقترحة لهذه الدورة من الدراسة، ويمكن التحقق من تغيير ترتيب تعلم (علم تنظيم بسيطة)، لتحسين كفاءة التعلم الآلي .

ما سبق هو مثال بسيط، الشكل (أعلى صف) هي بعض من أكثر التعرف عليها بسهولة الصور الكلب، خريطة (الصف السفلي) أكثر صعوبة في التعرف على الصورة الكلب.

استخدام مناهج التعليم لحل مشكلة التعلم عميقة وسهلة نسبيا لدراسة هذه العينات (أعلى صف)، الذهاب تعلم هذه عينات من الصعب نسبيا أدناه، وبالتالي تعزيز الأداء وأكثر ملاءمة لCONVERGES خوارزمية هنا سوف نقوم بتمديد آلية من هذه الدورة هو إصدار تصنيف متعددة تسمية من الصور.

الشكل (من اليسار)، وقارب هو واضح جدا، لذلك أن هذه الصورة هي في قارب من السهل نسبيا ينتمون إلى التسمية، ولكن الشخص على القارب كان منعت جزئيا، وذلك الشخص هو أكثر صعوبة التنبؤ التسمية. ثم ومن المتوقع تسلسل تنبأ صورة الإنسان على التنبؤ شخص قارب، والذي يتبع مسار آلية من الناس من البسيط الى المعقد. (يمين)، ونحن نرى أولا هو أكثر بروزا "القط"، و "القط" هو نسبيا سهلة في التسمية، رؤية الانسداد الجزئي لل"أريكة" وراء، وبالتالي فإن "أريكة" هي التسمية معقدة نسبيا، و ويترتب أيضا على دورة دراسية آلية من السهل على الناس صعبة.

الكائن في الواقع، للإنسان والحيوانات، ليست ثابتة نفس تسلسل الرسم، ترتيبها وفقا لحجم الكائن في الصورة، بعض الروابط بين دلالات هذه العوامل، مجموعة البيانات بالكامل لتسلسل محدد سلفا لا يلبي آلية بالطبع الشعب، لذلك، نقترح طريقة تقوم على تعزيز مسار متعددة تسمية الدراسة، بحيث كلاء تعزيز التعلم القائم على العلاقة بين المحتوى والصورة التسمية، لمعرفة ترتيب كيفية التنبؤ والتوقع.

ثانيا، النظام شرح الصورة الحقيقية، وعادة المستخدم لتحميل صورة، ثم سيقوم النظام يوصي عدة علامات للمستخدمين، وسوف تعطي بعض ردود الفعل، وبالنظر إلى وجه التسمية، سيتم إعطاء المستخدم بعض ردود الفعل. هذه ردود الفعل نادرا ما درست، فإن المعلومات في هذه المقالة سوف يتم دمج التغذية المرتدة في عملية التعلم متعددة التسمية.

ذكرنا أعلاه هي تعزيز التعلم المستخدمة في تسمية متعددة التعلم مشكلة تصنيف، وهنا نأتي إلى التعلم وجيزة التعزيز.

تعزيز التعلم هو فرع مهم من آلة التعلم، وتعزيز التعلم ويختلف عن تعلم الآلة الآخر هو أن، أولا وقبل كل شيء هناك إشارة المعلم تعزيز التعلم، مثل أنه لا يوجد لديه التسمية، مكافأة عادلة. تعزيز ردود الفعل التعلم تأخير، لا يمكن أن يكون ردود فعل فورية. تعزيز يعادل تعلم سلسلة إدخال البيانات، وهو من ولاية إلى أخرى. سوف البيانات المعززة بعد عملية التعلم بين وكيل يؤثر.

الشكل (من اليسار) هو التعلم وكيل التعزيز، (الحق) هو البيئة. تعزيز كيل التعلم من خلال التجربة والتعلم الخطأ من خلال التفاعل المستمر مع البيئة، لتحقيق هدف الاستراتيجية المثلى.

تعزيز التعلم على ثلاثة عناصر، العنصر الأول هو حالة الدولة، والعنصر الثاني هو العمل العمل، والعنصر الثالث هو مكافأة. عندما ر الوقت، حالة الوكيل هو شارع، من خلال مراقبة البيئة، إلى اتخاذ إجراءات على، غ في حين بيئة ردود الفعل، في حالة المقبلة سانت + 1، كرر العملية حتى نهاية التفاعل. هذا هو عملية أساسية للتعلم تعزيزها.

وبالإضافة إلى ذلك، هناك العديد من التطبيقات لتعزيز التعلم، كما هو الحال في معظم فترات المباراة أتاري، وسجل تعزيز وكيل لمعرفة المزيد من البشر، AlphaGo (تعزيز التعلم وهو مونتي كارلو شجرة البحث (UCT) معا )، وتعزيز وكيل قيد الدراسة قادر على الفوز ببطولة العالم، في حقل النص، يمكنك استخدام التعزيز خوارزمية التعلم لتوليد النص استنادا إلى الصورة؛ في مجال الصورة، الرسم البياني (أسفل اليمين) هو مثال على استخدام تعزيز الكشف الهدف من التعلم للعمل.

وهنا بعض الصور عززت متعددة التسمية التعلم تصنيف.

أولا، دعونا لفترة وجيزة شرح التي تستخدم الرموز، X (الأحرف الكبيرة) هو لغة الإدخال، Y (الأحرف الكبيرة) هي مجموعة التسمية، إذا كان هناك تسمية م، ثم تم تعيينه في تسمية من 1 إلى m. س (صغيرة) هو مثال على المدخلات، حيث نشير عموما إلى صورة، ص (صغيرة) تابعة لعلامة هذا المثال، إذا كان هناك سبيل المثال علامات K، ثم = ذ {Y1، يك}، يي المقابلة لط عشر العلامة ينتمي إلى x.

وسوف نعزز هذا الأسلوب من التعلم وأشرف الطرق الشائعة لمقارنتها في طريقة التعلم تحت إشراف التقليدي والتعلم، في تدريب، خ، ذ يعرف، وهذا هو، وX المدخلات والمخرجات Y عند التدريب معروف، دراستنا هي تعيين من X إلى Y، ولكن ليس في تعزيز مشاكل في التعلم التسمية، Y الذي هو غير معروف، وردود الفعل فقط نحصل عليه هو ص، في لحظة، وإدخال هو العاشر، واتخاذ إجراءات تسي، تصل ردود الفعل تسى: بي. عموما، بي ينتمي إلى ردود فعل طيبة {-1، + 1} هاتين القيمتين، وهو ما يعكس جودة العلامات الموصى بها، قيمة -1 أوصى التسمية التي تم الحصول عليها، وأوصت هذه الملاحظات + 1 يعني علامة جيدة الحصول عليها أ.

في هذه المهمة، ونحن على غرار هذه العملية لإقامة سلسلة من الصور في عملية ماركوف من عملية ماركوف خمسة عناصر، S، A، R، T، .

  • S: مساحة الدولة (مساحة الدولة)

  • A: مجموعة من الإجراءات، ومجموعة العمل تقتصر عادة

  • R: تم الحصول عليها بعد تنفيذ الدولة S، لتنفيذ إجراءات سلسلة من R سوف تكون مصنوعة من الفضاء، الفضاء يشار إلى R، R عموما {-1، + 1}، وأداء هذا العمل الذي يعكس الجودة من ردود الفعل ألف

  • T: A لإعطاء أداء الدولة القادمة في ولاية S، والدولة هي الانتقال بين

  • : الانتماء إلى

  • : يشير هنا إلى استراتيجية نريد أن نجد غير تعيين من S إلى A

أولا اسمحوا لنا أن نقدم ميزة الأولى، A، وهي العمل.

وكيل الذي هو عملية لتحديد تسمية لرسم، والذي متعددة تسمية مشكلة تصنيف الصور، وتشغيل مجموعة A ومجموعة من التسمية، إذا مجموعة بيانات من التسميات م، فقد عمل م، (من اليسار) يتوافق مع مجموعة من التسميات من مجموعة البيانات هذه، أن لديها شخص، القط، والدراجة وأريكة العلامات وبعد ذلك يتوافق مع تعيين الإجراء، على التوالي، المقابلة لشخص مثلا 1، القط الموافق 2، أحد عشر المراسلات.

الدولة S، الدولة

يتم تعيين S الدولة إلى تمثيل ثنائي، العنصر الأول هو عنصر و الصفوف (tuple) (سمة) للصورة، والعنصر الثاني هو العمل التاريخ ساعة، لذلك ق = (و، ح)، كل ولاية كل تنتمي إلى مساحة الدولة بأكمله.

أولا وقبل كل شيء، هو ميزة و مرتبطة ارتباطا كاملا من طبقة من VGG16، متجه 4096 الأبعاد المستخرج، وVGG16 كانت جيدة في تدريب ImageNet أعلاه، ولكن أيضا بحاجة إلى أن نكون مرة أخرى في التدريب على مجموعات البيانات متعددة التسمية، وذلك لأن imageNet ومتعددة تسمية مجموعة البيانات التسمية قد لا يكون بالضبط نفس الشيء، مقارنة إلى واحدة تسمية imageNet هذه البيانات مجموعة من حيث العلاقات الدلالية والمكانية سيتم مجموعات البيانات متعددة تسمية أكثر تعقيدا، لذلك يعود إلى التدريب على المعطي تسمية مجموعات البيانات جدا لزم الأمر.

ثاني ح عنصر الصفوف (tuple)، h غير متجه الحقيقي، ممثل متوقعا من قبل التسمية، أي الحلقة من هذا، في الوقت الحالي حتى يتم تسمى توقع جميع العلامات تاريخ العمل، كل عمل يناظر عدد M، لذلك نحن المشفرة في كل من ناقل الحركة، وهذا العمل إلا إذا كان تشغيل M، ثم يتم ترميز كل عمل في ناقلات قليلا M-1، هو (القاع) من الصيغة ، ه كل عملية تمثيل الترميز.

الشكل على سبيل المثال محددة، وهي المرة الأولي، وهذا الرقم لا يتوقع أي تسمية على الصفحة التسمية فارغة، ومن ثم نقوم بتنفيذ أول عمل لها هو التنبؤ تسميته هو شخص، وجدت في هذا المخطط داخل شخص تسميته، ثم إضافته إلى داخل العمل التاريخ. في الوقت الذي ر = 3، والتسمية توقع سيارة، ثم السيارة تضاف إلى داخل عمل التاريخ، في الوقت t = 4، وتوقع الشجرة العلامة، وبالتالي فإن شجرة ثم تضاف إلى داخل عمل التاريخ، حتى يمكننا أن نرى من وإلى الحالة الأولية حتى نهاية هذه الحلقة، انها تاريخ العمل فارغ من البداية الى أساسا ملء بعض التسميات، نظرة على الرسم البياني (من اليسار)، ذكرناه للتو، وعلى غرار كل عمل باعتباره M -1 ناقلات الموقف، إذا ما أخذنا ن الإجراءات كتاريخ العمل، ثم بعد ساعة هي ن * (M-1).

ثم التحولات T، في عملية MDP لدينا (ماركوف عملية اتخاذ القرار)، هو ثابت T، وهذا هو القول للدولة والعمل على، يتم إصلاح الدولة الجديدة التي يمكن الوصول إليها، وهذا هو القول ق الإجراءات المتخذة في الدولة، فقط يمكن أن تصل إلى س القيمة دولة المقبل، أي الصورة أعلاه الصيغة: T (ق، أ) = T ((و، ح)) = (و، ح). لحلقة هذه الميزة لأنه، صورة ميزة لم تتغير، وترتبط VGG16 تماما، والتغيير هو تاريخ الإجراء الوحيد.

FIG الهوى (الجزء السفلي)، والصورة هي مدخلات لVGG16 استخراج ميزة 4096 البعد طبقات مرتبطة ارتباطا كاملا، وتكوين هذه الميزة و. هنا، ونحن نفترض أن يتنبأ الشخص التسمية، لذلك هذا هو تاريخ العمل بها، والتي تشكل معا دولة ق. في الوقت الحاضر، ونحن التنبؤ = سيارة، والحصول على الدولة القادمة، وتغير الدولة هو إضافة واحدة في تاريخ العمل، إضافة هذه السيارة إلى قائمة إجراءات التاريخ للحصول على ولاية الصورة، لكل بعد المعنية الدولة، استغرق كل عملية إصلاح، فإنه يحصل على الحالة التالية الصورة "هي فريدة من نوعها.

في سيناريو حقيقي، وهذه هي ردود الفعل منفصلة (مكافأة منفصلة)، ولكن هنا من أجل تبسيط المشكلة، ونحن سوف مكافأة المحددة لحظة واحدة: إذا كانت ردود الفعل جيدة، بعد ذلك سوف يتم تعيين إلى 1 مكافأة إذا لم تكن ردود فعل جيدة، سيتم تعيين مكافأة ل-1، لتقييم مدى الخير والشر؟

في هذه المشكلة، والتسمية إذا تم تحديد ذلك هو الصحيح، ثم نعتقد أنه أمر جيد، إذا كان لا تنتمي إلى صورة التصنيفات المحددة، ويعتبر سيئا. (القاع) هو مثال محددة، في نفس الحالة، علينا أن نختار العملية، إذا كانت سيارة أو الإجراء المحدد شجرة، فهذا يعني أن اثنين من العلامات تنتمي إلى الصورة، التي التقطت ل ص = + 1 ستكون التسمية. إذا كان كلب أو علامة اختيار الناقل، فإنه يدل على اثنين من التسميات لا تنتمي على الصورة، مشيرا إلى أن ذلك الخطأ، تصل ص = -1.

وهذا مثال من سلسلة المتوقع، مثال يظهر أكثر وضوحا كيفية ص مجموعة، في بداية الصورة نوعان من بطاقات الحصان والأشخاص، وإذا أعطي هذه الصورة تسمية "الكلب"، وهذا "الكلب" ليست تنتمي إلى هذه الصورة، وسوف تحصل على مكافأة = -1. إذا كانت علامة على الحصان أو شخص، هذه التسميات ينتميان إلى هذه الصورة، وسوف تحصل على مكافأة = + 1، وبطبيعة الحال، والتنبؤ الآخر إلى وصفت والمكافأة التي يحصلون عليها من -1. بعد اختيار الكلب التسمية، نتوقع فإنه سيتم اختيار التسمية التالية، إذا كان لها أن توقع التسمية التالية هي الحصان، وهو ما يعني أنها التقطت الحق، وإعطاء مكافأة = + 1. إذا كانت محددة شخص التسمية التالية، كما أننا نعتقد أنه اختار الحق. وبطبيعة الحال، إذا كان الحصان التسمية خاطئة المقبل، وإعطائها -1 اذا كان انتخاب التسمية التالية، وإعطاء +1، على الجانب الآخر كذلك.

ثم نحسب المكافأة الشاملة هاتين الخطوتين، ويمكن أن ينظر إليه على أنه مكافأة للانتخابات، مكافأة عند الخطأ، والثواب بشكل عام هو 0 فقط عندما يتم اختيار اثنين من التسميات، مثل الحصان أو شخص أو شخص، والحصان، وسوف تعطي مكافأة = + 2، فإن حالات أخرى تكون 0 أو -2. لدينا مشكلة تصنيف متعددة التسمية إلى مشكلة علامة صورة تسلسل توقع، والهدف هو العثور على التنبؤ، يمكنك الحصول على الثواب وأعظم، فإنه يتوافق مع معدل دقتها هو الأعلى.

الأساليب المذكورة أعلاه تم مقدمات، دعونا أعرض عن حل متعددة التسمية تصنيف تعزيز صورة خوارزمية للتعلم Q عميقة.

تعزيز التعلم استراتيجية الأمثل هو فقط لشرح استراتيجية مكافأة المتراكمة والحد الأقصى. في مهمة تصنيف صورة متعددة التسمية، الحد الأقصى للمكافأة التراكمية والمقابلة أقصى دقة التنبؤ بها. نحن نستخدم العميق لإيجاد حل لمشكلة إيجاد استراتيجية الأمثل للتعلم Q، عميق Q-التعلم هو استخدام الشبكات العصبية للتنبؤ بحركة كل دولة المقابلة لقيمة Q، واستخدام مدربين بالفعل بمثابة CNN مستخرج ميزة في التدريب عندما يكون ذلك لم يعد جزءا من التدريب، أن هذا الجزء من حجة لم يعد يتم تحديثه، وفقط تحتاج إلى تحديث معلمات الشبكة Q، التي من شأنها أن تسمح أسرع تقارب الخوارزمية، وأكثر استقرارا.

FIG هو الرسم التخطيطي هيكل الشبكة تحت عميق Q-تعلم:

يعطي صورة، تم تدريبهم مساهمة في هذه الشبكة CNN VGG في، وتحصل على ميزة

، وصورة ميزة والعمل معا التاريخ كدولة، والتي هي شبكة المدخلات ديب Q، Q انتاج شبكة ديب هو عبارة عن شبكة المقابلة لكل من قيمة Q، حيث مثل هذه الشخص، القط، الدراجة ... أريكة وسوف تملك قيمة Q المقابلة، وفي كل مرة الاختيار، وسوف نقوم بتحديد قيمة العمل أقصى Q كما عمل الأمثل لتحديث تكرار.

Q فقدان وظيفة شبكة المدربين، يتم كتابة عميقة خوارزمية الكلاسيكية التعلم Q في مثل هذا النموذج (انظر أعلاه المعادلة الصف الأول)، في حين اختيار في كل خطوة من العملية، عن تحديد حد أقصى Q-القيمة المقابلة لهذه العملية، ولكن هنا نحن فقا هذه المسألة صورة متعددة التسمية، تغييرا في لحظة، لم يعد تحديد الحد الأقصى لقيمة Q عمل المقابلة، ولكن العمل القادم مباشرة انقاذ ما يصل، وهناك تجربة اعادتها، والتحديث عند الاستخدام المباشر لهذا الجزء (دائرة حمراء ملحوظ جزء تكرارية) من قيمة Q المعلمة هو شكل من هذا القبيل.

ما يلي هو محدد خوارزمية عمق Q-التعلم من:

في البداية، نحن تهيئة الذاكرة اعادتها D، ومجموعة العمل بأكمله A، B وضعناها على أنها مجموعة من الإجراءات التي توقع، ثم يتم توفير C كمجموعة من العمل لم توقع مجموعة من الإجراءات. لأنه في تعزيز نموذجي مشاكل في التعلم، لكل حلقة، وكيل كل خطوة لتحديد إجراء، حلقة من العمل قد تتداخل، ولكن تصنيف متعددة التسمية من حيث الصورة، فإن كل مخطط غير مكرر التسمية، حتى تعلم من أجل حل المشكلة عن طريق تعزيز تصنيف متعددة تسمية من الصور، كل واحد من الأرقام، كل لحظة لم يعد اختيار هذه وتوقع التسمية، وهذا هو السبب الذي تريد مجموعة وتوقع مجموعة من الإجراءات، وليس B وتوقع مجموعة الإجراءات C، ومن ر = 1، T ذلك الوقت، في كل لحظة هي أول حساب C، C لا توقع مجموعة التسمية من الإجراءات، C = A \ B، أي من B إلى في العنصر إزالة، ثم تليها -الجشع، حدد إجراء من C، لتنفيذ هذا الإجراء، ثم الحصول على مكافأة ص، في حين أن الدولة القادمة، بحيث تم الانتهاء من التفاعل، ثم أعدم فقط وضعت حيز التنفيذ وتوقع تصرفات مجموعة B، ثم حساب C = A \ B، ثم اتبع -الجشع استراتيجية، واختيار دولة العملية التالية على + 1، ثم القديس ، في، غ، خلال سانت + 1، في + 1 D معا في بيئة تفاعلية وغير كاملة (كما هو موضح أعلاه).

الرقم (الجزء السفلي الأحمر) هو عملية التدريب، والتدريب، ونحن اختيارها عشوائيا من D، دفعة صغيرة بها، ثم استخدام الرسم البياني صيغة (جزء الخط السفلي الأحمر) لحساب قيمة شبكة الهدف Q، ثم تحديث التدرج المعلمات Q ومعلمات الشبكة من Q هدف الشبكة، مرات تنفيذ M، وأخيرا الحصول على عمل الأمثل والاستراتيجية الأمثل من قبل عملية من هذه السلسلة من الخوارزميات، والتي هي عميقة خوارزمية للتعلم Q لصورة تصنيف متعددة تسمية العملية.

وفيما يلي بعض التفاصيل عن التنفيذ:

نحن نستخدم مجموعة البيانات PASCAL VOC2007 وPASCAL VOC2012، وضعنا عميقة طبقة Q شبكة 512 هي العقدة الأولى، طبقة ثانية من 128 العقد. لأن مجموعة البيانات تسمية 20، والطبقة الأخيرة هي 20 عقدة. العلامة 20 مجموعات البيانات، يتم تمثيل كل عملية يمكن استخدام ناقلات 19 الأبعاد، يتم ترميز كل عمل التاريخ ساعة من الإجراءات السابقتين، ما مجموعه 38 ساعة. ندرب هذه الشبكة من ثلاثة الحقبة، وقال كل عصر مجموعة البيانات بالكامل عند وضع علامة الانتهاء من الصورة، ووقت التدريب، -الجشع متابعة هذه الاستراتيجية، أول حقبة اثنين من 0-1،2، والعصر الماضي ثابتة عند 0.1.

تخبرنا عن نتائج التجربة:

أولا، PASCAL VOC2007 التجربة وPASCAL VOC2012، PASCAL VOC2007 ما مجموعه 9963 خريطة، وهي عينة trainval 5011، و4952 هو عينة الاختبار. عدد بيانات الصورة يضع PASCAL VOC2012 حول VOC2007 مرتين هو 22531 FIG، التي لديها FIG trainval 11540، 10991 هناك FIG اختبار كل مجموعة البيانات التي العلامة 20 فقط.

قياس، ونحن نستخدم متوسط percision ويعني من averge percison لقياس.

أولا، قمنا بتصميم تجارب لاستكشاف والتعلم من التسمية لا يتفق مع سياق آلية الدراسة، أنظمتنا القياسية تسمى RMIC، ومن ثم قمنا بتصميم خوارزمية الثابتة RMIC، RMIC الثابتة هو البديل من الخوارزمية RMIC، التي تم تصميم مثل ما يلي:

على افتراض أن عدد التسميات تبدو أكثر تركيزا على تدريب عدد أصغر بالمقارنة مع التسمية يركز تدريب يظهر التنبؤ متى يجب أن يكون عدد أقرب إلى الأعلى، لذلك نحن حساب عدد المرات كل العلامة التي تظهر، ثم عدد من التسميات من أكثر لمتابعة أقل مصممة أمر ثابت، الذي صمم لأجل الثابتة لدينا RMIC، ولكن المعيار هو نسبة إلى مكافأة ثابتة RMIC-RMIC، يتم توفيرها مع عدد من مختلفة، إعطاء المثال، إذا عرفنا هذا النظام هو شخص جيد والكلب، ثم نتوقع أن النظام هو الكلب والشخص، ثم الحصول على مكافأة ثابتة RMIC-هي 1 و -1، RMIC حصول على مكافأة غير +1 و+ 1، RMIC ثابتة وعند التنبؤ تسلسل و عندما يكون النظام يعرف بالضبط نفس الشيء، وسوف تكون جميع مكافأة +1. علينا أن نتعلم أن نحكم على ترتيب الجدولة من خلال مقارنة بين النهجين لا تستند على وتيرة وقوع أجل التسمية من أكثر إلى أقل من ذلك.

ثم نستخدم المؤشرات التالية لقياس:

  • المؤشر الأول، ومتوسط الدرجة ومتوسط دقة من العينة، أي على مستوى سبيل المثال على مستوى الدرجة من الدقة، و

  • المؤشر الثاني، ومؤشر هو متوسط معدل متوسط استدعاء القائم على العينة، أي قيمة من الدرجة مستوى التذكر وعلى مستوى سبيل المثال

  • المؤشر الثالث، ومتوسط عينة من قيمة المؤشر على أساس متوسط، أي قيمة F وعلى مستوى فئة من المستوى سبيل المثال

هنا هو نتيجة للتجربة:

إذا كانت الطبقة المتوسطة (C-P)، أو متوسط العينة (E-P) على، وأداء أفضل بكثير من RMIC RMIC ثابتة، وبالتالي فإن تسلسل التعلم الطريقة القياسية RMIC تعرف على تسلسل بسيط.

العلاقة بين النظام والترتيب المتوقع أن يعرض تظهر تسميات، الرسم الهوى، ويمثل العمود الأرجواني توزيع مجموعة الاختبار هو عدد تواجدات التسمية، ويمثل العمود الأزرق أول تسمية خطوة توزيع توقع، العمود الأخضر وتمثل الخطوة الثانية العلامة توزيع توقع، خطوة الثالثة الصفراء تسميات توزيع المتوقعة.

ويمكن الاطلاع من خلال النظر في مجموعة الاختبار والخطوة الأولى في توزيع التسمية المتوقعة للتوزيع الحقيقي هو توزيع موحد كبير التوزيع الأزرق والأرجواني، وأكثر أن تظهر عدد من الملصقات وتوقع في وقت سابق. في الأخضر والأصفر للتوزيع، يمكنك أن تجد هذا الاتجاه أصبحت أقل وضوحا، وتم توقع وكيل بمساعدة تسمية بسيطة، يمكن أن يكون من الصعب التنبؤ بعض التسميات، على سبيل المثال شخص، والسيارات والكلب بعض من التسمية أكثر بساطة، وغالبا ما توقع ذلك أنهم في الخطوة الأولى، ثم، مثل الجزء الخلفي من القمقم، كرسي والنبات هذه التسميات، فهي بعض من أصعب التسمية، وعادة في أول خطوة من الصعب جدا وكان من المتوقع، ومن المتوقع فقط في الخطوات الثانية والثالثة، فإن الخطوة الأولى التي هي بسيطة للتنبؤ التسمية للمساعدة على التنبؤ التأثير على صعوبة التسمية الظهر.

وبالإضافة إلى ذلك، كما توقعنا العلاقة بين خريطة يتوهم الجسم وحجم النظام، والأزرق هو أول خطوة توقع توزيع حجم الجسم، والأخضر هو خطوة تنبأ الثاني الكائن حجم التوزيع، والأصفر هو الخطوة الثالثة توزيع التنبؤ حجم الكائن. تستطيع أن ترى الأجسام الكبيرة نسبيا، في حين يمكن توقعها الخطوة الأولى تنبأ، وإعطاء مثال، هذا الشخص سوف تكون كبيرة نسبيا، وكرسي، عادة يمكن التنبؤ بها في الخطوة الأولى والآلات وزجاجة صغيرة نسبيا، وعادة في الخطوة الثانية المتوقعة. هذا هو الخطوة الأولى تنبأ شخص، مع مساعدة من شخص، مصنع عادة توقع بسهولة وزجاجة في الثانية والثالثة. بعد ويمكن استخلاص هذا الرقم وهذا الرقم في الجبهة، وتعزيز عامل التعلم هو قادر، وفقا للتنبؤ من البسيط إلى المعقد أجل لمحتويات كل شخصية.

تتم مقارنة خوارزميات الاختبار والخوارزميات يشرف تماما:

أنظمتنا في تدريب مكافأة، ليس هناك مكافأة في وقت الاختبار، ونحن مساهمة مباشرة مع قيمة Q يمكن مقارنة، فوق هذه الخوارزميات هي كل خوارزمية تحت إشراف ككسر من الثقة، وهذا الخط هو لدينا آخر الخوارزمية. تستطيع أن ترى، خوارزمية لدينا والخوارزمية هو تماما الرقابة واسعة، وحتى أفضل من الإشراف الكامل من الخوارزمية، والنتائج على خريطة على VOC2007، والرسم البياني التالي هو نتيجة VOC2012 الجبلية، ومزايا الخوارزمية لدينا وسوف يكون أكثر وضوحا في بعض، يظهر النتيجة أن أنظمتنا مقارنة مع الخوارزمية الرقابة واسعة جدا، أو أن هناك بعض المزايا.

قمنا بتحليل أيضا على التنبؤ بنتائج هذه الخوارزمية في عصر مختلف RMIC، حيث سرد ما مجموعه ثلاثة الحقبة (الرأسي)، هذه الأرقام يمكن العثور عليها من أول حقبة الثالث إلى عصر، وتوقع تسمية المتزايد وأكثر وضوحا، وخصوصا عندما عدد كبير نسبيا من التسميات، عندما الاتجاه سيكون أكثر وضوحا. ثم نقوم بتحليل عدد من الشخصيات واحدا تلو الآخر، ابتداء من درجة الحصان ليست عالية جدا، كما يتوقع الشخص، وعشرات من شخص أعلى وأعلى، وسوف توقع عشرات الحصان.

  • مراقبة الرسم البياني (العمودي) يمكن العثور عليه، الشخص سهلة نسبيا للتنبؤ، مع انسداد جزئي الحصان وأكثر صعوبة التنبؤ بها، وعلامة تشير إلى التنبؤ يمكن بسيطة يساعد على التنبؤ العلامة صعوبة.

  • المؤامرة الثانية، السيارة أكثر وضوحا، في الأساس يتم حظر أو ليست واضحة جدا، يمكننا أن نرى عندما عشرات السيارات أعلى وأعلى، وعشرات شخص أعلى وأعلى، وهو ما يعني أن هناك توقعات سيارة مساعدة يتوقع الشخص.

  • الرقم الرابع، مجرد بداية، وزجاجة وجدول النتيجة ليست عالية جدا، ولكن النتيجة الشخص أعلى من تسميات أخرى، جنبا إلى جنب مع لشخص يسجل أعلى وأعلى (وأكثر وضوحا)، ثم زجاجة والجدول النتيجة هو أيضا الحصول على أعلى وأعلى، مشيرا إلى أن الشخص للتنبؤ ومساعدة يتوقع زجاجة من الجدول.

  • أرقام الخامسة، يمكننا أن نرى أن التوقعات كرسي ساهمت بشكل مباشر في الجدول التنبؤ وأريكة.

استنتاج

  • وتقترح هذه الورقة لتعزيز متعددة تسمية خوارزمية تصنيف الصور، هذه الخوارزمية تحاكي آلية دورات تعلم الإنسان، من البسيط الى المعقد توقعات التسمية.

  • في هذه الخوارزمية، وتعزيز عامل التعلم، واستخدام الصور وميزات توقع سابقا التسمية كدولة، ومن ثم السماح للالعلامة كما في العمل، ونظرة لجعل معدل دقة التنبؤ للحصول على أعلى الاستراتيجية.

  • علينا أن نبرهن فعالية تجاربنا على VOC2007 وVOC2012.

المراجع:

هذه هي الضيوف الحالي جميعا. أكثر انفتاحا الذهاب فئة فيديو لشبكة لى فنغ (عدد الجمهور: لى فنغ شبكة) مدرسة من الدرجة AI مو لمشاهدة. التركيز على عدد جمهور قناة الصغرى: AI تكنولوجيا مراجعة، أحدث متاح الحية الفئة المفتوحة إشعار آخر.

مسحوق كابل غاضب! توقف سوني 3 التحديثات دفعة لسمارت ووتش

"السم القادمة" MV صاروخ إطلاق سراح الفتيات 101 شبكة إعادة التدوير الكوميديا الإلهية

ايمينيم قصر الذكرى 15 من ألبوم "إيمينيم شو"، للاحتفال سلسلة رسميا للبيع!

مرة واحدة الكمبيوتر عالية نهاية المهيمن على الهاتف؟ منحني أيضا الشاشة؟ الرد الرسمي: وهمية!

يوان وانغ تشنغ هاو كابيتال: القانون الحديدي في السابعة، لفهم أرباح شركة تكنولوجيا الذكاء الاصطناعي

وضع المخزون LOL الإناث مرساة: أيي أسوأ، تيمو الأكثر حظا، لحظة مثيرة لتصبح شقيقة

الأمير الصغير فيديو حدثت أخيرا: MEIZU بلوتوث المتكلم مصغرة تجربة الخفيفة

"المحقق كونان: منفذ الصفر" لتأكيد الصين، كونان النقاب عن تشكيلة جديدة كاملة

لم كود F ليس الاستيلاء على الذهب الأسود لا يهم، الدخن صدر في الشهر المقبل، ومعظم الهواتف مكلفة، ويأتي مع سوبر بطاقة الذهب الأسود!

لمجموعة القراصنة العليا، أرسلت سيمانتيك "المخبر AI"

جامعة أساطير، LOL اللاعبين القدامى القديم يعرف الجذعية، كل ما يمكنك أن تعرف ذلك؟

"الظلام متاهة" 10.31 هالوين ذكر نيه يوان "زرع وجه" نوع يتصرف مذهلة للجمهور