علي IDST ICCV 2017 أوراق المقبولة تفصيلية: استنادا إلى LSTM المتعدد الوسائط الهرمي الجمعيات الدلالات البصرية تضمين

لى فنغ شبكة AI تقنية مراجعة من قبل: ICCV ،، واحدا من مجالات الرؤية الحاسوبية اجتماع أعلى مستوى المعروفة باسم واحد من المؤتمر رؤية الكمبيوتر المراكز الثلاثة، والتي تمثل أحدث وقائع في اتجاه ومستوى الرؤية الحاسوبية. علي بابا في ICCV هذا العام 2017 عددا من ورقات مختارة.

هذه المادة هي ICCV 2017 اطروحة التعاون علي IDST مع شيان الالكترونية للعلوم والتكنولوجيا، جامعة شيان جياوتونغ وتفسير آخر "على أساس LSTM المتعدد الوسائط الجمعيات الدلالات البصرية الهرمية جزءا لا يتجزأ" (الهرمي متعدد الوسائط LSTM لالكثيفة البصرية والدلالية التضمين)، هل لى فنغ شبكة AI تقنية مراجعة محرر لا يغير القصد.

ورقة تحميل الرابط: http: //openaccess.thecvf.com/ICCV2.py

وصف دقيق للالسلع: الرؤية الحاسوبية المشتركة ومعالجة اللغة الطبيعية

في السنوات الأخيرة، مع التطور السريع لتكنولوجيا التعلم العميق، بدأ الناس في محاولة لتوحيد البحوث في رؤية الكمبيوتر (الرؤية) ومعالجة اللغة الطبيعية (اللغة) مجالين مستقلة، لتحقيق بعض من الماضي يبدو مهمة صعبة للغاية، مثل "البصرية - تضمين جمعيات الدلالية (التضمين والبصرية الدلالي)." هذه المهمة تتطلب الصورة والجملة ممثلة كناقل للطول ثابت، وكذلك إدراجها في الفضاء ناقلات نفسه. وبهذه الطريقة، فإن الصورة لا يمكن أن يتحقق والبيانات مباراة واسترجاعها عن طريق البحث في الفضاء المجاورة.

جمعيات البصرية الدلالي تضمين تطبيق نموذجي هو لتوليد صورة عنوان (صورة السفلية): للحصول على صورة مدخلات التعسفية، والعثور على أقرب تطابق كلمة في الفضاء، لتحقيق محتوى الصورة وصفها. في الساحة التجارية الكهرباء والباعة تاوباو للسلعة في وقت النشر، يمكن للخوارزمية تحميل الصور وفقا للبائع أيضا، تلقائيا توليد بعض نص وصفي وتحريرها للنشر باستخدام البائع. وكمثال آخر، يمكن أن تطبق أيضا جزءا لا يتجزأ من الجمعيات الدلالات البصرية إلى "استرجاع عبر الوسائط (استرجاع عبر وسائل الاعلام)": عندما يقوم المستخدمون بإدخال نص وصفي في محركات المورد الكهرباء البحث (مثل "بوهيمية الشاطئ الصيف اللباس تحول كبير فضفاض "" الأدبي الطازجة الصغيرة دمية طوق Feifei الأكمام تنورة الزهور ألف خط "، وما إلى ذلك)، من خلال النص - تحليل الصور مشترك، للعثور على صورة المنتج صورة المنتج الأكثر صلة من قاعدة البيانات إلى المستخدم.

قبل أوجه القصور: فقط بيان قصير يصف ببساطة صورة مضمنة

للطريقة التقليدية من تضمين جمعيات الدلالات البصرية في كثير من الأحيان جمل قصيرة فقط جزءا لا يتجزأ من المقارنة، وبالتالي يمكن أن تجعل من الخام صورة ووصف بسيط، ولكن في التطبيقات العملية، بل هو أكثر من المرغوب فيه أن يعطي (كبير أو صورة) إلى صورة أخرى وصف دقيق ومفصل. كما هو مبين في الشكل 1، ونحن لا نريد فقط أن نعرف من يفعل ماذا، نريد أن نعرف مظهر من الشخصيات، والأشياء، الخلفية، في وقت ومكان وهلم جرا.

الأساليب القائمة: "فتاة يلعب الغيتار."

لدينا الطريقة المقترحة: "فتاة يجلس على مقاعد البدلاء يلعب الغيتار مع كلب أبيض وأسود في مكان قريب".

مشاكل الطريقة التقليدية 1 من FIG.

ولتحقيق هذا الهدف، نقترح الإطار: الخطوة الأولى لإيجاد بعض المنطقة الهامة من الصورة، وهذه العبارة لها صفي يصف كل المنطقة؛ الخطوة الثانية في مزيج من هذه العبارات مع وصفي طويل جدا الجمل، كما هو مبين في الشكل.

الشكل 2 الإطار نقترح

تحقيقا لهذه الغاية، ونحن بحاجة ليس فقط الجملة جزءا لا يتجزأ من كامل المساحة عند تضمين التدريب المشترك نموذج الدلالي البصرية، ويجب أن يتم تضمين الجملة مختلف صفية العبارة أيضا الفضاء. ومع ذلك، الأساليب التقليدية عادة جزءا لا يتجزأ من الجمعيات الدلالات البصرية دوري نموذج الشبكة العصبية (مثل LSTM طويل الذاكرة قصيرة الأجل) نموذج () يمثله البيان. نموذج LSTM قياسي لديها بنية سلسلة (هيكل سلسلة): كل يتوافق الخلية إلى كلمة واحدة، تلك الكلمات في الترتيب من حيث المظهر في صف واحد، وتنتقل المعلومات السابقة من الكلمة الأولى إلى الأخيرة في السلسلة، والعقدة الأخيرة على كافة وغالبا ما تستخدم هذه المعلومات لتمثيل الجملة بأكملها. ومن الواضح أن النموذج هو معيار يمثل LSTM مناسبة فقط الجملة بأكملها، لا يمكن تضمين كلمة في وتشير هذه العبارة، كما هو مبين في الشكل.

مشاكل هيكل سلسلة من FIG 3

أساليب مبتكرة الرسالة: وLSTM نموذج هرمي المقترحة

هذه الورقة يعرض على المتعدد الوسائط، LSTM نموذج هرمي (الهرمي متعدد الوسائط LSTM). قد تكون طريقة جمل كاملة، والعبارات الجملة، الصورة بأكملها، وصورة من المنطقة البارزة بينما جزءا لا يتجزأ من الفضاء الدلالي، وتلقائيا تعلم "الجملة - صورة" و "العبارة - منطقة الصورة" المراسلات بين. وبالتالي، فإننا توليد الفضاء الدلالي أكثر كثافة والذي يحتوي على كمية كبيرة من عبارات وصفية قد يزيد من وصفها في مزيد من التفاصيل وصور حية أو المناطق صورة، كما هو مبين في الشكل.

FIG 4 التسلسل الهرمي المقترح المتعدد الوسائط

أساليب مبتكرة الموصوفة هنا هي اقتراح نموذج LSTM الهرمي، عقدة الجذر الموافق الجملة بأكملها أو الصورة كاملة، ورقة العقد المقابلة لكلمة أو عبارة أو عقدة متوسطة صورة المنطقة المقابلة. نموذج يمكن أن تكون جزءا لا يتجزأ مشترك (التضمين المشترك) للصورة، الجملة، ومناطق الصورة والعبارات، ويمكن استغلال كامل العلاقات (العلاقات بين الوالدين والطفل عبارة) عن طريق شجرة بين العبارات. هيكل شبكة محددة كما هو مبين أدناه:

الشكل هيكل 5 الشبكة

حيث لكل منطقة صورة الموافق العبارات والذي يدخل في وظيفة الخسارة، لتقليل المسافة بين البلدين، من خلال المعلمات شبكة العودة نشر على أساس هيكل خوارزمية التعلم.

مجموعة البيانات بيان المقارنة - في الصورة

مجموعة البيانات FIG 6 المقارن على Flickr30K

مقارنة الشكل 7 على قواعد البيانات MS-COCO

مرئية على عدة طرق الكشف عنها هنا، مجموعة البيانات الحصول على نتائج جيدة جدا.

مقارنة مجموعة العبارة البيانات - في منطقة الصورة

قدمنا منطقة صورة مع ملحوظ - عبارة مجموعة البيانات MS-COCO-المنطقة، حيث عدد من الاصطناعي كائن كبير المعايرة، وإثبات وجود علاقة بين هذه الكائنات والعبارات.

8 وعلى النقيض من FIG. MS-COCO-المنطقة مجموعات البيانات

هذا الرقم هو البصرية نتيجة لعمليتنا، وجدنا عبارات وصفية قوية.

وبالإضافة إلى ذلك، يمكننا أن نتعلم المراسلات بين منطقة صورة والعبارات، على النحو التالي:

ترقبوا شبكة مزيد من المعلومات لى فنغ AI تكنولوجي ريفيو.

تسعى المطرقة مطرقة؟ التعرض العضو هونغ قوانغ S3 سعر بيع يطير ذلك؟

طول السيارة أكثر من 5 م 3 م بقاعدة عجلات كامل 1.8T قسم بيع 105800 فقط منذ بالإضافة إلى الجمهور التايلاندية الذين ليس لديهم Z700H

"العمل البحر الأحمر" يحتمل أن تكون قوية جدا! CP الغاز المسيل للدموع في السكر، وفيلم الدم أيضا الدفء!

مقابلة حصرية: 5 مجموعات، وفقط القراصنة امرأة واحدة، وأنها فعلا تريد تقليد داجي؟ | رائع الهجوم الصوت والدفاعية AI لعبة التقليد

تشونغتشينغ العام الماضي، أي بمعدل 20.9 الناس يتنافسون على وظيفة في هذه الصناعة الأكثر قدرة على المنافسة

لم مؤتمر مطوري Ardupilot لا تذهب للطلاب أكثر من هنا، والكامل لليجف تماما!

"الحب في الذاكرة تتلاشى أمام" الافراج عالية اليومي رش السكر الحلو الشفق الحب قفزة كبيرة نظام غدا دي

ويفضل أن يكون سلاح مقنعة، ناسفة الكراك نعمة جلد الهواء الاردن الحادي والثلاثون

"مجموعة اللون طائرة 2" في العالم "مهرجان" ضرب: لا خدعة أو علاج!

فقط خمس سنوات، فإن دوران الصيني سوق التجزئة تصل إلى ما لا يزيد عن تريليون دولار، نحو 250 مليون مشترك

سندات دين الأشياء انتزاع المد؟ OG يمكن أن تساعدك على تحقيق هذا الحلم حقيقة وجود شيء جيد

الياباني الأسبوع مبيعات لعبة / الأجهزة 20189،24-9،30