يقترح العلماء الحوار أفضل البصرية لإيجاد حل لمشكلة جيل مزدوجة القناة متعددة الخطوات نموذج المنطق

لمعالجة الحوار الجاري بين النظام البصري في اللغة البصرية من وضعي الرجوع جولات، والمنطق والمعلومات حول قضايا مثل المحاذاة، معهد الدكتور رئيس مجلس الإدارة أتمتة ألفريد تشن، أستاذ مساعد وباحث شو جيا مينغ شو بو، الذين كانوا جنبا إلى جنب مع تينسنت بناء اثنين من قناة متعددة الخطوات المنطق نموذج الجيل الحوار البصري، وتقديم نموذج للاللغة البصرية من جانبين من جوانب مشكلة التمثيل الدلالي الغنية، والقضايا المستهدفة أفضل تولد استجابات عالية الجودة.

نظرا للتطور السريع في معالجة اللغة الطبيعية والتكنولوجيا رؤية الكمبيوتر، قد جذبت قضية متعددة الوسائط المزيد والمزيد من الاهتمام. الحوار البصري هو البصرية المهام اللغة التفاعلية التي تتطلب ذكاء AI والإنسان التواصل حول نفس الصورة المدخلة. هذه هي مهمة صعبة، وتتطلب نماذج لفهم تماما الجولة الأسئلة البشرية الحالية للحوار، في حين أن التكامل الفعال لطريقة اللغة البصرية والوسائط صورة مدخلات التاريخ الحوار من أجل التركيز على المعلومات الدلالات المرتبطة القضايا الراهنة و المنطق، ويعطي إجابة ذات جودة عالية. ويقترح فريق البحث مزدوجة القناة متعددة الخطوات نموذج المنطق (ويشار إلى DMRM) الحوار حول المهام البصرية.

القبض على DMRM من خلال استخدام مزدوجة القناة الاستدلال متزامن من التاريخ الحديث ومعلومات الصورة المدخلات التي أعرب عنها في مشكلة الدلالات الغنية. على وجه التحديد، DMRM الحفاظ على ثنائي القناة عبر طريقة التفاعل (FIG 1، وحدة المسار هي المسؤولة عن الجوانب البصرية للمشكلة التمثيل الدلالي الغنية، حدد موقع الوحدة هي المسؤولة عن الجوانب التاريخية للمشكلة التمثيل الدلالي غنية للحوار)، من خلال كل قناة متعددة الخطوات العملية المنطق (FIG 2) للحصول على القضايا الراهنة ذات الصلة الخصائص البصرية والتاريخ الحديث، والصورة المدخلات الحالية وسمة من سمات اللغة ذات الصلة. وبالإضافة إلى ذلك، صمم فريق أيضا آلية اهتمام متعددة الوسائط لتعزيز وحدة فك الترميز لتوليد استجابات أكثر دقة.

فريق في البصرية مهمة الحوار فك إدخال آلية الاهتمام المتعدد الوسائط، يخفف فعليا القيود المفروضة على استخدام فقط إخراج التشفير الانصهار المعلومات المتعدد الوسائط، أكثر قدرة على جعل بعض الأخطاء لتصحيح وغنية غويا في عملية فك التشفير.

قام فريق من التجارب على VisDial v0.9 لوVisDial V1.0 مجموعتين البيانات العامة. VisDial مجموعة التدريب v0.9 ليحتوي 83K، 40K اختبار مجموعة، كل صورة المقابلة لصورة (10) ووصف الدورة. ويشمل VisDial V1.0 مجموعة 123K التدريب، 2K و8K اختبار مجموعة مجموعة التحقق من الصحة.

الجدول 1 والجدول 2 يبين النتائج التجريبية على اثنين من نماذج مختلفة من مجموعات البيانات. كما يمكن أن يرى، فإن معظم التقييم على قناة مزدوجة متعددة خطوة البصرية الحوار الاستدلال توليد نموذج DMRM هي أفضل من غيرها (حيث، MRR، R @ K أعلى كلما كان ذلك أفضل، وخفض أفضل في المتوسط). ويبين الجدول 3 قناة مزدوجة متعددة الخطوات الاستدلال البصرية الحوار DMRM توليد الاجتثاث في النموذج، وتأثير كل وحدة لتأثيرات بصرية مهمة الحوار، يمكن أن ينظر إليه قناة مزدوجة متعددة خطوة ومتعدد الوسائط فك المنطق تلعب دورا هاما.

يبين الشكل 4 نتائج توليد نموذج إجابات DMRM، ودمج متعددة الوسائط ينفذ فك نموذج DMRM أفضل في دقة وثراء الدلالي.

وقد تم التعاقد النتائج ارتباط AAAI2020.

FIG نموذج الإطار (1) DMRM

الشكل 2 تخطيطيا من المنطق متعددة الخطوات

FIG 3 على أساس فك أشار المتعدد الوسائط

الجدول 1 النتائج التجريبية من نماذج مختلفة في مجموعة البيانات VisDial v0.9 ل

النتائج في الجدول رقم 2 نموذج بيانات VisDial V1.0

جدول تذرية 3 DMRM

ولدت النتائج الشكل 4 عينة الحوار البصري

المصدر: معهد التشغيل الآلي، والأكاديمية الصينية للعلوم

إلى الأدنى الفضاء

نينغشيا متعددة الأبعاد الدوائية 5 عدد شركة من أجل "شراء وبيع المخدرات دون المستوى المطلوب" يعاقب

تايلاند صرخة! الفيلة التي تحمل السياح الصينيين الاندفاع جميع أفراد الأسرة وأصيب ستة أشخاص

قسم التحرير "البحث عن الحقيقة": النظام الصيني يحقق الحكم الصيني

في النضال العام الجديد لاغتنام اليوم

AAAI 2020 | تشياو تونغ الجامعة الوطنية ونموذج سحابة اقترحت DCMN + من العلم والتكنولوجيا، للقضاء "القراءة والفهم" مشاكل فازت أداء الرائدة في العالم

AAAI 2020 | النص من الحدود ل- وسيلة لكشف نص الشكل التعسفي

لماذا هو وظيفة الشبكة العصبية نشطة غير موجود؟

القدرة مزيج تعميم سيئة؟ في محاولة لمعرفة عمق التكامل جنبا إلى جنب حلالا

AAAI2020 | المقبل وباء فيروس كورونا الرواية، وذهب أيضا إلى هذا الاجتماع؟

لقد حان الوقت للتخلي عن الشبكة العصبية المتكررة

مشاريع الجمهور WuHan.support المعينين رسميا أصدقاء