PRCV2018 ميتو فيديو قصير في الوقت الحقيقي تصنيف التحدي يدخل الحل الأول

فريق مقدمة

اسم الفريق: CASIA-AIRIA.

اللاعبين: شى لى (دكتوراه في القراءة)، فرع تشنغ (الدكتور القراءة).

المدرب: أستاذ تشانغ يى.

الوحدة: معهد التشغيل الآلي، والأكاديمية الصينية للعلوم، ومعهد نانجينغ للمعهد مبتكرة رقاقة الذكاء الاصطناعي من التنفيذ.

مسابقة مقدمة

في مايو من هذا العام، الصين ميتو شارك التعرف على الأنماط ومؤتمر فيجن الحاسوب (PRCV2018) نظمت بالاشتراك PRCV2018 "ميتو فيديو قصير في الوقت الحقيقي تصنيف التحدي" تبدأ رسميا. من الأكاديمية الصينية للعلوم في معهد التشغيل الآلي، والأكاديمية الصينية للعلوم في معهد معهد أتمتة شى لى نانجينغ بحوث الاصطناعي سجل رقاقة الاستخبارات، وفاز تشنغ فرع PRCV2018 "ميتو فيديو قصير في الوقت الحقيقي تصنيف التحدي" بطولة تحت إشراف أستاذ تشانغ يى. وخلافا للسابقة المعنية فقط مع دقة التصنيف من اللعبة، وهذه المسابقة شاملة مسح "دقة خوارزمية" و "التصنيف في الوقت الحقيقي من" اثنين من جوانب إدارة الوقت مؤشرا هاما في التقييم، وتعزيز تطبيق خوارزميات تصنيف الفيديو في هذه الصناعة. وفيما يلي ملخص للفريق الفائز لحصة في تحدي التكنولوجيا:

  • بيانات مقدمة

استخدمت المنافسة مجموعة فيديو قصير البيانات (مجموعات البيانات MTSVRC)، أي ما مجموعه 100000 الفيديو، والتي لديها مجموعة التدريب 50،000 فيديو، مجموعة التحقق من صحة ومجموعة اختبار على التوالي 25000 أشرطة الفيديو. الفيديو الرئيسي على الفيديو القصير، يبلغ طوله حوالي 5 - 15S. يحتوي على بيانات 50 تصنيف، فئات الفيديو بما في ذلك الرقص، والغناء، والحرف، واللياقة البدنية وأنواع شعبية أخرى من أشرطة الفيديو القصيرة، بالإضافة إلى تحتوي على عدد من الأعمال المتعلقة فئات من الناس، وبعض المناظر الطبيعية، الحيوانات الأليفة والفئات الأخرى. يظهر في الصورة 1 بعض بيانات العينة:

صورة العينة 1 البيانات

منذ المصدر الرئيسي لهذه البيانات والفيديو اليومية القبض على شبكة للهواتف الجوالة، وحجم الفيديو، والشكل، وشروط التسجيل (مثل الإضاءة، وعمق الميدان)، وما هي ليست موحدة، مما أدى إلى خلافات داخل الفرق الطبقي بين فئة كبيرة. في الوقت نفسه، ويرجع ذلك إلى مرحلة ما بعد المعالجة، والآثار الفيديو، وغالبا ما يكون هناك بعض النص له علاقة مع فئة لا شيء، ولكن أيضا يزيد من صعوبة لتحديد الفيديو. 2 يظهر في الصورة بعض الصعوبات العينة، وهذه أمثلة على نموذج التصميم هو تحد كبير.

الصورة 2 صعوبة عينة

  • طرق التقييم

منذ ذلك الوقت أخذ المنافسة ودقة، والخطأ تصنيف تقييم أداء النموذج التقليدي ليست كافية. صورة 3 عروض لطريقة التقييم المستخدمة في المسابقة.

الصورة طريقة 3 تقييم

حيث المثلث البرتقالي هو الوقت المناسب الإشارة الرسمي والأخطاء، ويتفوق فقط نتائج الأسلوب القياسي لاعتبار نتائج صحيحة، وإنجازات أخرى (مثلثات سوداء) تعتبر نتائج غير صحيحة. الوقت والخطأ على أساس معايير أداء تطبيع إلى ما بين 0-1. نتائج فعالة، فإن النتائج تحديد اثنين (مثلثات حمراء وخضراء والمثلث) والحد الأدنى من الوقت الخطأ الحد الأدنى والخطأ الحد الأدنى والحد الأدنى للوقت ستشكل نقطة مرجعية (الدائرة الزرقاء). فإن النتائج النهائية ستكون صالحة لجميع النقاط المرجعية وحساب المسافة، تعتبر أقصر طريقة مسافة متفوقة. من طريقة تقييم التحليل والوقت ودقة من العوامل الهامة جدا. الوقت ودقة وغالبا ما تكون متناقضة، لا بد أن يكون بعض المقايضات.

فك تشفير الفيديو

لأن الوقت هو عامل مهم جدا، في حين أن الفيديو فك التشفير هو عملية تستغرق وقتا طويلا جدا، لذلك كيفية تصميم وحدة فك هو المفتاح في هذه المسابقة. نحن نستخدم حل البرمجيات متعددة الخيوط لاستخراج الأطر الرئيسية.

فيديو التيار الترميز، كل إطار صورة تضم ثلاثة الفيديو الرئيسي، وتسمى: إطار مشفرة البينية (I-الإطار)، والإطار التنبؤي (إطارات P)، والإطار ثنائي التنبؤية (B-الإطار). وأنا الإطار هو صورة كاملة. تسجيل الخلافات مع الإطار السابق، وذلك قبل عندما فك إطارات P يجب الرجوع إطار الصورة P-الإطار. الإطار B يتطلب ليس فقط في إطار الصورة مرجع سابق، تحتاج أيضا إلى كامل من أجل فك إطار الصورة بعد الإشارة. صور 4 يوضح ثلاثة مفاهيم .

صورة 4 I الإطارات، إطارات P و B-إطارات

فك واضحة، P والأطر B هي بطيئة نسبيا، فك الشفرة مباشرة I-الإطار يمكن الحصول عليها بشكل أسرع. وبالإضافة إلى ذلك، نحن بحاجة إلى فك أكثر من واحد، لذلك اعتمدنا نهجا متعدد الخيوط، كل موضوع هو المسؤول عن فك الإطار الرئيسية. تستخدم عملية فك بأكملها تنفيذ FFMPEG.

تصميم الموديل

حل مشكلة فك التشفير، فإن السؤال التالي هو كيفية تصنيف الناتج متعددة الإطار.

  • نهج التيار

الطريقة الحالية تصنيف التيار الفيديو ثلاث فئات: طريقة تستند LSTM، طريقة تستند إلى التفاف و3D تيار مزدوج النهج القائم. يظهر صور 5 الهيكل العام للإطار ثلاثة .

  • طريقة تقوم LSTM كل إطار من الفيديو مع شبكة التلافيف استخراج ملامح كل إطار، وحيث كل من كنقطة في الوقت مدخلات بالتتابع إلى LSTM. منذ LSTM لا طول سلسلة محدودة، وهذه الطريقة يمكن التعامل مع أي فيديو طول. ولكن في نفس الوقت، لأن LSTM نفسه قد اختفى والمشاكل انفجار التدرج والتدريب غالبا ما يكون صعبا إلى نتائج مرضية. وعلاوة على ذلك، لأن الحاجة إلى LSTM لها مدخلا، وبالتالي فإن سرعة أصغر من الأساليب الأخرى.

  • واستنادا إلى التفاف 3D من 2D ملحقات الإلتواء النواة الأصلية ل3D. 2D التفاف في طريقة عمل مشابه لأبعاد مكانية، وتتميز في أنها يمكن استخراجها بالزيادة من أسفل في البعد الزمني. غالبا ما يمكنك الحصول على طريقة القائمة على التفاف دقة تصنيف جيد 3D. ومع ذلك، يتم زيادة كمية منذ 2D التفاف نواة امتداد ل3D، المعلمات تضاعفت، وسرعة الشبكة سيتم تخفيض تبعا لذلك.

  • واستنادا إلى نهج انقسم سيضاعف من الشبكة الشبكة. حيث التفاف 2D باستخدام شبكة لتصنيف عينات قليلة من إطار الصورة، والآخر سوف استخراج تدفق المعلومات البصرية أخذ العينات نقاط حول الإطار، ومن ثم استخدام شبكة تدفق الخفيفة لتصنيف. سيتم تنصهر نتائج الشبكتين من أجل الحصول على مستوى الدرجة النهائية. يمكننا الاستفادة من الأسلوب على أساس مزدوجة 2D شبكة التلافيف الموجودة لمرحلة ما قبل التدريب، في حين أن حركة تدفق البصرية يمكن أن تكون على غرار والمعلومات، وغالبا بدقة عالية. ومع ذلك، لأن عملية استخراج تدفق البصرية بطيئة للغاية، فإنه يحد من سرعة هذه الطريقة ككل.

صور طريقة السائدة لتصنيف الفيديو 5

وباختصار، فإن الأساليب السائدة ليست مناسبة للمهمة تصنيف في الوقت الحقيقي فيديو قصيرة، لذلك نحن المصممة خصيصا إطارا في الوقت الحقيقي للتصنيف فيديو قصيرة.

  • نهجنا

يظهر صور 4 الإطار العام لحلولنا: نظرا فيديو، ونحن سوف الصور الأولى من متفرق أخذ عينات من عدد محدد من الإطارات، ثم هذه الأطر دفعة، تغذي BaseNet في. هذا التحسين هو BaseNet التقليدية 2D الإلتواء في الشبكة بالاعتماد على تحسين الحصول عليها مع قدرة قوية استخراج الميزة. تميل رفيع المستوى خصائص الانتاج BaseNet لديها معلومات الدلالات القوية، ولكن لا يوجد مزيج من الوقت. لذلك لدينا نموذج الانصهار المصممة خصيصا بناء على آليات الاهتمام المشترك، وسيضم مختلف الأطر BaseNet المستخلصة كمدخل إلى نموذج التكامل، وتوقع النتائج النهائية التي حصلت عليها نموذج الانصهار. لأن نموذج الانصهار هو صغير نسبيا، والمنطق سريع، وكمية صغيرة من المعلمات، ولكن أيضا من السهل نسبيا لتدريب. نموذج كامل بني وتدريبهم على mxnet. ويستند هذا التصميم على نموذجنا يمكن أن يكون بسرعة المنطق سرعة، في حين لا يخسر الكثير من الدقة.

صور 6 الإطار العام

ضغط نموذج

عندما تم تدريبهم النموذج، من أجل زيادة تحسين السرعة، ضغط نموذج أمر ضروري. لأن منصة الحوسبة GPU، لذلك استخدمنا طريقتين هو أكثر ملاءمة للGPU: تشذيب وكميا.

  • نموذج التقليم

منذ بدء العملية المطلوبة على GPU، وهنا ننظر في تقليم أبعاد القناة. حدودي الافتراضات الالتواء هو تبعثر، نقطع الدقة قبل بعض المعالم الهامة، لا يزال من الممكن التوصل إلى الشبكة.

صور 7 التقليم

وتنقسم عملية التقليم إلى خطوتين: الأولى، وسوف نأتي لتجد كل طبقة على أساس معظم قناة تمثيلية لاسو الانحدار، ثم إزالة قناة عديمة الفائدة، ومن ثم استخدام الفرق التربيعية شبكة تقليم لتقليل الخسائر من صقل الخطأ إعادة الإعمار. سيتم تنفيذ هذه العملية بشكل منفصل لكل طبقة، وبعد عدة جولات من التكرار يمكن أن يحقق ضغط جيدة، ولكن أيضا لا يمكن أن تضمن دقة تفقد كثيرا.

  • نموذج لقياس

منذ اللعبة تقدم الحوسبة GPU هو دعم int8، ولذا فإننا سوف تنظر يستنتج نوع float32 الأصلي التحول نموذج البيانات استنادا للبيانات في شكل int8 التدريب، وهذا هو، عملية تكميم. هنا نستخدم يتم استخدام كميات الخطي البسيط نسبيا في طريقة TensorRt .

صور 8 تكميم الخطي

وإذا افترضنا أن كل خط البيانات مع توزيع زي موتر، أي بعد ذلك كل عنصر يمكن أن تكون ممثلة كعامل حجم وعدد int8 float32 النتائج المضاعفة. ويشارك عامل مقياس للمجموعة بأكملها. وبهذه الطريقة يمكن أن يتم لأول مرة الضرب بين int8 الموترة، وموحد أخيرا ضرب عامل التحجيم، وبالتالي تسريع العمليات. والسؤال هو كيفية تحديد عامل التحجيم، وعامل التحجيم للتأثير على رسم الخرائط للمجموعة العددي الأصلي لموتر (مجموعة قيمة int8) هو -127 إلى 127. وبما أن معظم الحالات البيانات ليست تماما توزيع موحد، لذلك تعيين المباشر يمكن أن يسبب فقدان الدقة.

صورة 9 استنادا على عتبة رسم الخرائط الخطية

لحل هذه المشكلة، فإن البيانات TensorRt في كل طبقة لديها إحصاءات التوزيع، ومن ثم تحديد قيمة العتبة (مثل الصور 9) وفقا للتوزيع التي تم الحصول عليها. خلال رسم الخرائط، والرقم هو يتم تعيين من خارج العتبة إلى ما بين -127 و 127، سيتم افتراض البيانات ضمن قيمة العتبة ليتم توزيعها بشكل موحد وخريطة. هذا يضمن أنه في حين أن تسريع سرعة هذا لا يعني أن هناك خسارة أكبر من الدقة.

ملخص

لدينا الحل ويمكن تلخيص في ثلاثة أجزاء: فيديو فك جزء، اعتمدنا متعدد موضوع وضع إطار استخراج I. نموذج لجزء تصميم، اعتمدنا أساليب أخذ العينات متفرق وأمور التكامل الاهتمام. قسم ضغط نموذجي، ونحن نستخدم القنوات طريقة التقليم وكميا. لدينا الحل النهائي للسرعة على مجموعة اختبار للمتوسط 58.9ms الفيديو، ودقة 87.9.

مراجع

"تحدي AI | مقدمة". . المتوفر https://challenge.ai.meitu.com/mtsvrc2018/introduction.html. .

"أنواع الصورة ضغط الفيديو،" موسوعة ويكيبيديا، مجانا. 08 يوليو 2018.

J. كاريرا وA. Zisserman "vadis الامر الواقع والاعتراف العمل؟ نموذج جديد وحركية الإدراجات،" في مؤتمر IEEE على رؤية الحاسوب والتعرف على نمط (CVPR)، عام 2017.

S. Migacz "الاستدلال 8-بت مع TensorRT". . المتوفرة :. Http://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

يجب أن يفهم المعرفة شبكة الحاسوب - (TCP)

سبعة فاميليا بريميوم الطبعة المدرجة للبيع 7،98-9،68 عشرة آلاف يوان

"الرعاية عنك" قبل التعيين فتح نقطة الاستعراضات الهذيان "مختلفة" النساء يعتقدون أن صدى فيلم تؤدي

ربيع ربيع الشعر القراءة الكلاسيكية إلى الأبد! ما هي الأغنية هل تذكرين؟

ضوء كومة لا يمكن إصلاحه! ASUS Zenbook برو 15 الأساسية I9 + GTX 1050

الجماعية الصينية برمجة مسابقة CCPC العضوية، تسينغهوا فوز! التزام كوانغ باتخاذ السنوات الخمس المقبلة، والأحداث الراعي

لديك زوج من الأحذية الذهبية الهواء Foamposite برو "معدني الذهب" لم يطالب بها أحد

أفضل وقت لبدء اي فون الأسرة XS! ميزات لمساعدتك على بذل المزيد من الجهد مع أقل

مبدأ DNS فائقة الوضوح الشروع في العمل

"البوهيمي رابسودي" التعرض الإبداعية "SOUL" اطلاق النار خبرة من ألف مجموعة كورال تلعب لعبة

كيف سيكون وقت تحميل الصفحة من 6S أسفل 2S؟

صورة لجيل جديد من فولكس واجن بولو كشفت أو أطلقت خلال العام.