مذكرة لى فنغ شبكة AI تقنية مراجعة: هذه المقالة هي ECCV ميتو سحابة تكنولوجيا الرؤية التوظيف في القطاع 2018 أوراق القراءة.
علما بأن يحسب النموذج التقليدي عن طريق ترجيح آلية كافة الميزات المحلية واستخراج ميزة حاسمة، وتجاهل ارتباط قوي بين ميزة المحلية المعنية، وهناك ميزة قوية بين التكرار. نموذج لحل هذه المشكلة، والباحثين من قطاع تكنولوجيا الرؤية ميتو سحابة والأكاديمية الصينية للعلوم في معهد التشغيل الآلي PCA المرجعية (الرئيسية تحليل مكون) فكرة اقترحت آلية الاهتمام الذاتي المحلي عرض الميزات التفاعلية التصور، وجزءا لا يتجزأ من نموذج في شبكة CNN الهيكل المقترح لنهاية الشبكة لهذه الغاية. سلوك خوارزمية تصنيف عبر مجموعات بيانات الأداء الأكاديمي متعددة وصناعة ميتو مجموعات بيانات الفيديو الداخلي جيدة جدا. وقد أدرج ECCV2018 أدناه من الخلفية، والفكرة الأساسية، والآثار وآفاق بناء على عدة جوانب تتعلق يدخل الورقة فكرة الخوارزمية "المكانية والزمانية شبكات الاهتمام الهرم التفاعل علم لتصنيف العمل".
I. الخلفية
عمق الشبكة العصبية التلافيف، حيث القنوات الفضائية المحلية في FIG مواقع مجاورة من هذه الميزة، في كثير من الأحيان بسبب تداخلهما حقول تقبلا وجود ارتباط وثيق. من مجموع مرجح (أو وظيفة أخرى) لاحظ أن آلية داخلية من كل نماذج العناصر عادة ما تستخدم عشرات ميزة المحلية للحصول على وزنه، وهذا الوزن المرجح مجموع كافة الميزات المحلية للوصول إلى الملامح الرئيسية. وعلى الرغم من ارتباط وثيق بين السمات المحلية، ولكن حساب الوزن لا تعتبر التفاعل بينهما.
يمكن استخراج PCA المعلومات المكونات الرئيسية البعد الأساسي مميزة العالمي، والذي يمكن اعتباره المعلومات الأساسية المكونة لاستخراج ميزة المحلي، وميزة الحد من أبعاد العالمي أخيرا أن مجموعة من الميزات المحلية من المفتاح. علما بأن الغرض من استخراج جزء أساسي من آلية من مجموعة ميزة المحلي، أي ميزات المحلية PCA. ويحدد وزن الاهتمام آليات مختلفة المقابلة لكل ميزة المحلية احتساب النتيجة النهائية من الميزات العالمية. يتم الحصول PCA باستخدام الحد مصفوفة تغاير الأبعاد (أو الوزن المرجح) ناقلات الأساس، والحد من التكرار المعلومات بين خصائص الضوضاء. وبناء على الخلفية المذكورة أعلاه، استخدم فريق PCA لتوجيه انتباه النموذج المقترح، وتحويل تصميم PCA خوارزمية وتنفيذ إلى خسائر. وعلاوة على ذلك، نظرا لعمق مختلف شبكات طبقة قد التقاط خصائص FIG مستويات مختلفة، حيث يستخدم خوارزمية FIG هذه الهرم الفضاء هي التي شيدت، إلى كل من ميزة المحلية عشرات الاهتمام قناة أكثر دقة معلومات متعددة المستويات، وعشرات لهذه الأوزان ترجيح ميزة المحلية في جميع المناصب المكانية.
ثانيا، إن الفكرة الأساسية
وتعرف هذه الورقة مفهوم جديد للالزمكان الاهتمام طبقة التفاعل الهرم، من أجل تحقيق مدخلات وظيفة التفاعل الإدراك والخصائص المكانية والزمانية من الميزات المحلية على مختلف المستويات من كل طبقة على عمق التفاف العصبي شبكة التكامل. هندسته المعمارية هو مبين أعلاه، الخوارزمية أولا تعريف R ظيفة أخذ العينات في طبقات مختلفة من ميزة FIG لجدول موحد. يتم احتساب القنوات المحلية المقبلة باستخدام مستويات مختلفة من ملامح آليات استخراج ميزة FIG مفتاح اهتمام، والانصهار من مستويات مختلفة باستخدام وظيفة الانصهار، والاهتمام لكل نقطة ميزة المحلية، لترجيح الخصائص.
ناقلات الإسقاط المحسوبة في مصفوفة التغاير باستخدام PCA وهكذا لحد من البعد، أي مفتاح ميزة المحلية المستخرجة، يتم إضافة ورقة تصميم وظيفة خسارة للنموذج تحولت النهائي:
ميزة خريطة الهرم مساحة الانتباه مرة أخرى إلى القيود النموذج المقترح، وذلك في محاولة للتركيز على مستويات مختلفة لطبقات مختلفة من المعلومات، أضيف في موقعنا التسويقي التوصل إلى الخسارة النهائية من فقدان وظيفة:
بغض النظر عن عدد من ميزة إدخال المعلمات خريطة نموذج الأوراق المقدمة، وبالتالي، فإنه سيتم توسيع إلى طبيعيا نهاية وقت التدريب شبكة مستوى الفيديو والفضاء، يتم تعريف بنية الشبكة النهائي أدناه:
الثالث، وتأثير
طبقت أفراد R & D للشركات ذات الصلة الفيديو ميتو كانوا من السلوك الزمكان سرية من الشخصيات الهرم آليات الإنتباه تصور التفاعل خوارزمية الشبكة العصبية بناء على نتائج الأداء الممتاز. بالإضافة إلى مجموعة البيانات في UCF101 مفتوحة، HMDB51 أي سلوك لقطة والحزورات قاعدة بيانات تعليقات، تؤدي النتائج التي تحققت أيضا، والنتائج هو مبين أدناه:
وبالإضافة إلى ذلك، فإن ورقة التقييم الزمني إدخال الفيديو، تظهر نتائج التقييم أن هذا النموذج هو قادر على معالجة في وقت واحد في أي عدد من إطارات الفيديو المدخلات، والحصول على نتائج أفضل.
يوضح الشكل نتائج الإخراج البصري خلال خوارزمية تصنيف العمل، يمكن أن ينظر إلى خوارزمية أن الموقع الدقيق للسلوك بالغ الأهمية من الفيديو.
الرابع، والنظرة
التطبيقات العملية، وسيناريوهات الأعمال التي تشغل وقت متطلبات خوارزمية أكثر صرامة. تؤخذ نتائج الكشف عنها في هذه الورقة على مجموعة البيانات عن طريق عدد وافر من الإطارات التي تم الحصول عليها في الفيديو، وهي المرة التعقيد هو أعلى، وسوف يقلل من تعقيد الحساب اللاحق لهدف لتحسين الوحدة الأساسية. ومن الجدير بالذكر أن هذا النموذج اهتمام الهرم مساحة المقترحة في هذه الورقة ليس هو إدخال ميزة خريطة عدد من القيود، لذلك يمكن أن تمتد بسهولة إلى إصدار متوافق مع أي عدد من الأطر الزمنية المدخلات والفضاء، في تطبيق يمكن أن يكون معدل دقة سرية فرضية يتأثر بالكاد عن طريق الحد من عدد الإطارات لتعزيز سرعة تجهيز قطع.