DeepMind رفعت الإجابة على الأسئلة نموذج بصرية جديدة، CLEVR معدل دقة 98.8

الأنفس جي تقرير جديد

المصدر: أرخايف

المحرر: شياو تشين، سلالة مينغ

[مقدمة من جديد تشى يوان ] DeepMind الأسئلة البصرية أجاب اقترح آلية جديدة من الاهتمام الجاد، فإنه يحتفظ سوى كمية صغيرة من الميزات البصرية اللازمة لالإجابة على الأسئلة. مما يقلل من الحاجة إلى ميزة مقبض يجعل من الممكن ممارسة قدر أكبر من النموذج العلائقي، وحقق معدل دقة 98.8 على CLEVR.

أوراق العنوان:

https://arxiv.org/pdf/1808.00300.pdf

تسهم الانتباه البصري في العديد من الطرق لتعقيد المنطق البصري الإنسان. على سبيل المثال، إذا كنت ترغب في تحديد مجموعة من الناس في صاحب الكلب، فإن النظام البصري البشري بتخصيص المزيد من الموارد الحاسوبية بتكيف لمعالجة المعلومات البصرية مع الكلب وقد تترافق المالك، وليس في الساحة معلومات أخرى. تصور تأثير واضح جدا، ومع ذلك، وآلية اهتمام ليست القوة التحويلية للرؤية الكمبيوتر، وهذا قد يكون بسبب العديد من المهام رؤية الكمبيوتر القياسية، مثل الكشف، وتجزئة والتصنيف، لا تشارك في المساهمة في تعزيز آليات للاهتمام التفكير المعقد.

للإجابة على الأسئلة حول تفاصيل صورة معينة، فإن هذه المهمة تتطلب وضع المنطق أكثر تعقيدا. شهدت طرق الرؤية الحاسوبية الأخيرة لحل البصرية مسابقة (البصرية QA) مهام التنمية السريعة. يجب أن تكون ناجحة العمارة QA البصرية قادرة على التعامل مع العلاقة المعقدة بين لهم أهداف متعددة، ولكن أيضا دمج ثروة من المعرفة الخلفية، أصبح الاهتمام سياسة واعدة الجانب المرئي من جهاز كمبيوتر إلى تحقيق أداء ممتاز.

لقد وجدنا أن وجود رؤية الكمبيوتر وآلة التعلم آليات انتباه الكثير من الفرق، وهي لينة التركيز (انتباه لينة) الاهتمام والصلب (الاهتمام الثابت). اهتمام ونماذج من الاهتمام موجودة بشكل رئيسي، وإعادة ترجيح-جميع المعلومات قبل أن يتم بلمرة في لينة نحو التكيف القائمة. وهذا فصل المعلومات المهمة، ولتفادي أي تشويش هذه المعلومات ليست معلومات هامة لتحسين دقة. مع تقليل تعقيد التفاعلات بين المعلومات المختلفة، والتعلم يصبح أكثر فعالية.

الشكل 1: نحن نستخدم الصور الطبيعية معين والقضايا النص كما المدخلات والمخرجات من خلال إجابات البصرية العمارة QA. تستخدم الهندسة المعمارية الاهتمام الثابت (من الصعب الانتباه) آلية، فقط حدد المهمة الهامة من الميزات البصرية، لمزيد من المعالجة. المرتبطة يستند مواصفات ذات الصلة للهندسة المعمارية لدينا على أساس من الخصائص البصرية، وتلك التي لها السعة العالية بالمتجه الذاتي المقابلة لصورة المنطقة التي تحتوي على المحتوى الدلالي كبير.

في المقابل، والاهتمام الجاد لتحديد الجزء الوحيد من المعلومات، يمكن مواصلة تجهيزها، وكانت هذه الطريقة الآن أكثر وأكثر استخداما. وآليات الانتباه لينة، مثل، يمكن أيضا أن تحسب الاهتمام الثابت عن طريق التركيز على أجزاء مهمة من صورة لتحسين دقة وكفاءة التعلم. ولكن بالإضافة إلى ذلك، أعلى كفاءة الحسابية الاهتمام الجاد، فقط لأن معظم المعلومات ذات الصلة لجعل هذا الجزء من عملية التفكير تماما.

ومع ذلك، هناك وضع غير مؤات حاسما في إطار التعلم القائم على التدرج (على سبيل المثال، وعمق التعلم) هو: لأن عملية اختيار المعلومات التي سيتم تجهيزها وdiscretized، وبالتالي فهي ليست للتفاضل، والتدرج لا يفعل انتشار العكسي لآلية الاختيار لدعم الأمثل القائم على التدرج. الآن تحاول الباحثون إلى حل الانتباه البصري، والانتباه إلى النص، وهذا عيب وحتى في مجال أوسع للتعلم الآلة، والبحث في هذا المجال لا تزال نشطة جدا.

في هذه الورقة، ونحن نناقش طريقة بسيطة من الاهتمام الجاد، فإنه يثير ظاهرة مثيرة للاهتمام في التلافيف الشبكة العصبية (CNN) تمثيل ميزة: ميزات للاهتمام الجاد من حيث الاختيار، وقد درست عادة في متناول . على وجه الخصوص، الذين تم اختيارهم بالمتجه الذاتي وجود أكبر مساعدة قيمة القاعدة L2 لتحقيق طريقة الاهتمام الجاد، وتعكس الأداء والكفاءة المزايا (انظر الشكل 1). لا يتطلب هذا الاهتمام غير مباشر من إشارة القياسية مراقبة فقدان البعثة، ورصد واضحة والكائن موجودا، كبير أو كبير البعض قد تكون المؤشرات ذات الصلة.

اهتمام شبكة بجد وشبكة التكيف الاهتمام الجاد

نحن نستخدم تطبيع خط أنابيب QA البصرية، وذلك باستخدام ميزة ناقلات L2-قواعد مختارة فرعية من المعلومات، لمزيد من المعالجة. ويطلق على النسخة الأولى شبكة الاهتمام الصلبة (هارد الاهتمام الشبكة، HAN)، فإنه يمكن تحديد أعلى المعايير بالمتجه الذاتي من عدد محدد من المعلومات ذات الصلة لمزيد من المعالجة الخاصة بهم.

ويطلق النسخة الثانية التكيف شبكة الاهتمام الصلبة (هارد التكيف الاهتمام الشبكة، AdaHAN)، فإنه سيتم اختيار عدد متغير من ناقلات ميزة الإدخال. وتشير النتائج التي توصلنا إليها في Visual QA تحدي مهمة في خوارزمية لدينا يمكن أن يتفوق في الواقع بنية الاهتمام الناعمة مماثلة. يولد الأسلوب أيضا التأويل أقنعة الاهتمام الصعبة، حيث الصفة المختارة المتعلقة بالمنطقة الصورة عادة ما تحتوي على معلومات ذات معنى دلالي. نموذجنا عندما جنبا إلى جنب مع نموذج غير المحليين مع الزوج أظهر أيضا أداء قويا. أنظمتنا من خلال حساب زوج من المدخلات ملامح وحجم وبالتالي تتناسب مع مربع عدد من ناقلات في خريطة الميزة، والذي يسلط الضوء أيضا على أهمية اختيار الميزة.

طريقة

الإجابة على الأسئلة حول الصورة وعادة ما تكون على أساس النماذج التنبؤية. سيتم هذه الهياكل إلى أقصى حد نسبيا الجواب توزيع مشروط من معين المشكلة وف س الصورة:

حيث A هو عدد كل مجموعة من الأجوبة المحتملة يمكن أن يكون. مثل مشكلة شائعة - الجواب نفسه، والمشكلة هي سلسلة من الكلمات ف = ويتم تقليل الإخراج إلى مجموعة من مشكلة تصنيف بين الجواب المشتركة. كنا نتعلم من مشكلة الصورة والعمارة ورسم الخرائط هو مبين في الشكل 2.

FIG 2: الاهتمام الصعب استبداله يشيع استخدامها آليات الانتباه لينة.

نحن CNN (في هذا المثال تم قبل المدربين ResNet-101، أو التدريب خدش صغير CNN) لتشفير صورة، ومن ثم ترميز مشكلة LSTM إلى التمثيل طول ناقلات ثابتة. نسخها إلى المشكلة التي يمثلها كل موقف المكاني الممثلة CNN حساب تكوينها، وخصائص بصرية مرتبطة معا.

بعد عدة طبقات من الجمع بين العلاج، سنركز على الموقع المكاني، ومجرد استخدام الانتباه لينة كآلية من الأعمال السابقة. وأخيرا، ونحن نستخدم-تجميع مبلغ وحدة البلمرة أو الخصائص ذات العلاقة. نحن نستخدم فئة منطق معيار المقابلة إلى الإجابة على نهاية الشبكة بالكامل لإنهاء تدريب خسارة العودة.

نتيجة

لتوضيح ل Visual QA، أهمية الاهتمام الصعبة، علينا أولا مقارنة V2 VQA-CP على العمارة التقليدية HAN الانتباه لينة (SAN)، واستكشاف عدد من السيطرة المباشرة من قبل وحدة الإلتواء رسم مساحة من الاهتمام درجة من الاهتمام الجاد متفاوتة.

ثم أجرينا تجارب على AdaHAN، AdaHAN يختار بتكيف عدد من الخلايا حضر. نحن أيضا درس لفترة وجيزة تأثير الشبكة والتدريب ما قبل العمق. وأخيرا، فإننا نقدم نتائج النوعية وتقدم النتائج على مجموعة البيانات CLEVR، لتوضيح براعة الأسلوب.

تأثير الاهتمام الجاد

الجدول 1: عدد الخلايا حضر مختلفة (نسبة مئوية من مجموع المدخلات) ومقارنة عملية البلمرة

وأظهرت النتائج أن الاهتمام الصعب مقارنة أي اهتمام الصعب، وقد تصاعدت نموذج الأداء.

الجدول 2: تقنية التكيف مختلفة ومتوسط مشاركة الانتباه الجاد، ومقارنة عملية البلمرة

وتظهر النتائج، والانتباه لينة ليس بشكل كبير أفضل من طريقة مبلغ الاقتراع. على الرغم من أن لدينا نتائج أحدث أسوأ دولة قليلا من ذلك، ولكن قد يكون بعض القرارات المعمارية منذ لا يتم تضمين هذه التجربة في أنواع من المشاكل مثل الفصل بين مسارات مختلفة، واستخدام المشاكل الخاصة جزءا لا يتجزأ من مستخرج (السؤال مستخرج).

الاهتمام الصعب التكيف

الجدول 3: عدد مئوية مختلفة من المدخلات مجموعه حضر خلايا

وأظهرت النتائج أنه حتى في طريقة بسيطة جدا للتكيف والمشاكل الصورة، يمكن أن يؤدي أيضا إلى حساب وتحسين الأداء، مما يشير إلى أن أساليب أكثر تطورا سيكون توجها هاما للعمل مستقبلا.

جمع بيانات الأداء على CLEVR

المقارنة النوعية بين مختلف المتغيرات آليات الاهتمام الصلبة وطرق البلمرة المختلفة: 3 FIG. يشير اللون الأخضر الإجابة الصحيحة، حمراء تشير إلى غير صحيحة، والبرتقالي يشير إلى أن هناك بعض التوافق بين الإجابات الإنسان. هذا الرقم يوضح مزايا أساليب مختلفة.

الشكل 4: I AdaHAN + إلى النتائج الأخرى زوجيا. الرسم يلاحظ منطقة الضوء، لوحظ أن المنطقة لا يمثله داكنة اللون. الأخضر يشير الصحيحة، إجابات غير صحيحة باللون الأحمر. البرتقالي يشير إلى أن هناك بعض الآراء.

الجدول 4: دقة على CLEVR

كما الانتباه الصعب، تمكنا من تدريب أكبر نموذج، والتي نسميها HAN + sum، HAN + RN، وHAN + RN. هذه النماذج تستخدم CNN أكبر وLSTM، وHAN + RN أيضا استخدام دقة أعلى الإدخال. بلغت دقة النموذج على CLEVR 94.7، 96.9 و 98.8 .

ملخص

في مجال الرؤية الحاسوبية ونحن نقدم طريقة جديدة التي يمكن تحديد مجموعة فرعية من ناقلات ميزة، لمزيد من المعالجة وفقا لحجمها. درسنا نموذجين، حيث نموذجا (HAN) يختار مجموعة فرعية من عدد محدد مسبقا من ناقلات، يتم تحديد نموذج آخر (AdaHAN) بتكيف بوصفها وظيفة من حجم فرعية من المدخلات. كثيرا ما يذكر في الأدب لتجنب لفت انتباه الصعب، لأنه غير قابل للللاختلاف، طريقة القائم على التدرج من التحديات. ومع ذلك، وجدنا أن حجم ميزة ناقلات المعلومات ذات الصلة، وآلية الاهتمام الصعبة يمكن استخدام هذه الخاصية لجعل الاختيار.

وأظهرت النتائج، HAN والأداء طريقة AdaHAN في البيانات QA البصرية مجموعة من التحدي مع ميزة تنافسية قوية. نهجنا في طريقة أقل وأكثر شيوعا من أداء الانتباه لينة بأنها جيدة، مع تحسين حساب الكفاءة. طريقة الاهتمام الجاد أهمية خاصة لأساليب غير المحلية أكثر شيوعا، مثل هذه الأساليب يتناسب عموما لكمية حساب مربع، وكمية الذاكرة المطلوبة لناقلات المدخلات. وأخيرا، يقدم نهجنا أيضا تمثيل للتفسير، لأن موقف المكاني للصورة الميزة المحددة لهذا الأسلوب هو الأكثر جزءا هاما تشكل أقوى الارتباط.

فاز جي الجديد AI WORLD 2018 تذكرة في وقت مبكر الطيور الجمعية []

للبيع!

سيتم عقد جديد جي وون 20 سبتمبر AI WORLD 2018 مؤتمر في مركز المؤتمرات الوطني ببكين، دعا تعلم الآلة العراب، مع التركيز على أستاذ آلة الاستخبارات في جامعة كارنيجي ميلون توم ميتشل، Maike سي نمر مرقس، تشو تشى هوا، وتشنغ تاو كبير، تشن Yiran منظمة العفو الدولية وقادة آخرين ومصير البشرية.

موقع الجمعية العامة الرسمي:

الآن وحتى 19 أغسطس، جي الأنفس الجديد رقم طبعة محدودة من تذاكر وقت مبكر الطيور التواصل الوثيق مع الشركة الرائدة عالميا في منظمة العفو الدولية، والذكاء الاصطناعي، شاهد الصناعة العالمية على قدم وساق.

  • النشطة تذاكر الصف تصل:

  • تذكرة خط نشط رمز ثنائي الأبعاد:

86 بيع نعمة مقنعة: القديم إلى الجديد سيأتي

لماذا فشلت "المصادر المفتوحة": الفقراء يزدادون فقرا، والأغنياء يزدادون غنى!

أنا أعترف، في مواجهة النبيذ الفرنسي، وكنت سكير ولا كرامة!

من الزواج من الطلاق 3 دقائق فقط! اشتعلت الناس على حين غرة في تاريخ أقصر الزواج

4008 انخفاض نصف السنة عشرين ألف، بيجو 5008 كيف كسر حدة؟

هانتشونان خريطة كاملة أكثر من خطوط الحافلات، وجمع الفراغ

العودة إلى الأرض! شبكة الأحمر باتو وفتح مهارة جديدة، وأشار المهرة الفطائر الفاكهة الثناء العملاء

قصة الربيع | الشرطة في الخطوط الأمامية في الخدمة مهرجان الربيع مذكرات

استكشاف المحلات التجارية X-تريل / قطاع التنقيب و/ CR-V، سيارات الدفع الرباعي شعبية مكافأة نهاية الخدمة سماش بروس؟

باريس، أسطول من الوقت ...

نضجا وإنتاج كامل من شركات السيارات ما يعني ذلك؟

تم إنشاء "الفطيرة"، والتركيز على AI: إطلاق كثيف جوجل الروبوت 9