"Kaggle الحصة الفعلية" جوجل يوتيوب-8M فهم من مسابقة الفيديو على نطاق واسع التحليل الفني

1 جديد الأصلي جي وون

  • عنوان ورقة: الشبكي: //arxiv.org/abs/1706.05150

  • عنوان الرمز: الشبكي: //github.com/wangheda/youtube-8m

فهم والتعرف على محتوى الفيديو يمثل تحديا كبيرا لرؤية الكمبيوتر. فهم الفيديو هناك الكثير من التطبيقات، بما في ذلك المراقبة الأمنية، والمنزل الذكي، الطيار الآلي، فضلا عن البحث لقطات الفيديو الرياضية والتحليل. في فبراير، وجوجل بتحديث مجموعات البيانات الضخمة فيديو يوتيوب-8M المفتوحة سابقا مصدر، ومجموعات البيانات الجديدة بالإضافة إلى التسمية ترقية أيضا يتضمن ميزات الصوت المحسوبة مسبقا، ميزات الصوت والبصرية المتزامنة للتحبب وقت 1 ثانية، لمساعدة للعرض المشترك (الوقت) النمذجة.

أعلنت جوجل أيضا نموذج تصنيف بالاشتراك مع فهم Kaggle مسابقة منصة الفيديو المشاركين المدعوين لاستخدام يوتيوب 8M عن بيانات التدريب، وذلك باستخدام آلة جوجل سحابة تعلم بناء المحتوى السمعي البصري. وأفضل الفرق أداء يتلقى 100،000 $ من أموال الجائزة.

خريطة شجرة تحديث يوتيوب-8M التصور من مجموعة البيانات، 24 متقدمة في فئات العمودية، بما في ذلك أول 200 كيان الأكثر شيوعا، وأول الكيانات الخمسة لكل فئة.

أول 18 فئة العليا من الأمثلة الفيديو من مجموعة البيانات يوتيوب-8M.

30 يونيو، أعلنت نتائج المباراة. في CVPR اختتمت لتوها 2017 يوتيوب-8M فهم الفيديو على نطاق واسع في ورشة التحدي، كان المنظمين والفرق المشاركة على كل من الطرق المستخدمة لمناقشة تبادل.

ما يلي هو ثاني فريق بعد مكان لخص اللعبة حتى monkeytyping القيام به. كفريق واحد مع تشانغ تينغ وانغ انه يأتي من قسم الإلكترونيات، جامعة تسينغهوا الإشارة الوسائط المتعددة ومختبر معالجة المعلومات، مدرس للأستاذ وو جى فو. تشانغ تينغ يحضر حاليا لشهادة الدكتوراه والتوجيه الأبحاث للكشف الحدث وسائط متعددة، وانغ تخرج ماجستير في يوليو من هذا العام، مصالحه بحوث النظم التوصية، معالجة اللغات الطبيعية ورؤية الكمبيوتر.

نتائج المسابقة: فرنسا أولا، اكتسح الفريق الصيني الثانية، ثلاثة أو أربعة

يوتيوب-8M فهم على نطاق واسع فيديو تحدي برعاية جوجل الغيمة مع موقع المنافسة علم البيانات Kaggle من فبراير من هذا العام، أن تنتهي في أوائل شهر يونيو، وجذبت شارك أكثر من 600 فريقا في البطولة في أربعة أشهر. في النهاية، فاز فريق WILLOW من معهد بحوث أتمتة الوطنية الكمبيوتر الفرنسية و(INRIA) المركز الأول، المركز الثاني فريق monkeytyping من قسم الإلكترونيات، جامعة تسينغهوا، ثالث فريق في الفترة من بايدو حاليا عمق مختبر التعلم وجامعة تسينغهوا، FDT فريق المركز الرابع من جامعة فودان، وجامعة تشونغشان وجامعة ووهان.

جوجل يوتيوب-8M فهم على نطاق واسع نتائج مسابقة الفيديو: فاز فريق WILLOW من معهد بحوث أتمتة (INRIA) الوطنية الكمبيوتر والفرنسية المقام الأول، المركز الثاني فريق monkeytyping من قسم الإلكترونيات، جامعة تسينغهوا، المركز الثالث فريق متواجد حاليا من بايدو مختبر التعلم عمق وجامعة تسينغهوا، FDT الرابع فريق في الفترة من جامعة فودان، وجامعة تشونغشان وجامعة ووهان.

المنافسة في مجموعة البيانات المستخدمة من قبل جوجل العام الماضي أصدرت شريط فيديو يوتيوب 8M متعددة تسمية مجموعات البيانات التصنيف. مجموعة البيانات عينة ديه سبعة ملايين، هو إلى حد بعيد أكبر الفيديو جمع بيانات مصنفة، ActivityNet وUCF101 مجموعات البيانات قبل أكثر بكثير في الاستعمال الشائع. وبالإضافة إلى ذلك، هذا المجال الجديد هو أيضا مجموعات بيانات أكثر تنوعا، ما مجموعه 4716 تسميات تصنيف مختلفة، ومتوسط عدد العلامات لكل فيديو 3-4. هذه العلامات من الكيانات الرسم البياني للمعرفة، وصفت من قبل الإجراء وضع العلامات وفقا للنصوص والمعلومات البصرية من الفيديو، وما ينجم عنها من التفتيش اصطناعية وتصفيتها.

وعلى الرغم من ميزة في تنوع وحجم البيانات، لديها مجموعة البيانات يوتيوب 8M أيضا بعض القيود. أولا، من أجل الحد من حساب على عتبة، وجوجل لأخذ عينات من إطارات الفيديو البيانات في الثانية الواحدة، وتستخدم في شبكة ImageNet المدربين قبل استخراج سمة من سمات كل زوج الإطار. منذ مجموعة بيانات تضم فقط ملامح ما قبل الاستخراج، الأمر الذي يجعل وسائل العدائين التي يمكن استخدامها يصبح محدودا. ثانيا، يتضمن مجموعة من البيانات فقط فئة مستوى الفيديو المسمى، لا يوجد أي نوع آخر من الشروح الحبيبات غرامة، مما يحد من تطبيق مجموعة البيانات المشهد. ثالثا، يتم إنشاء مجموعة بيانات التسمية من قبل الجهاز، ولها عيوب من حيث التذكير.

يتكون النتيجة النهائية للتقديم لدينا من 74 نماذج من فرقة، جعلت متوسط معدل دقة العالمي من 0.8459 في مجموعة الاختبار النهائي. هدفنا الرئيسي الفيديو نماذج من ثلاثة جوانب: تسمية صلة، معلومات متعددة المستويات من الفيديو، فضلا عن نموذج الاهتمام في الوقت المحدد. في نمذجة التسمية ذات الصلة، ونحن نواصل تبني تخفيض أبعاد ونتائج تصنيف لهيكل الشبكة التنبؤ لاحقة، التي يمكن أن تحسن أداء تصنيف نماذج مختلفة على نحو فعال. نحن نستخدم هيكل دورة العميق للشبكة العصبية التلافيف الشبكة العصبية، سلسلة من إطارات الفيديو تتميز النمذجة على عدد وافر من النطاق الزمني. وبالإضافة إلى ذلك، ونحن نأخذ الانتباه إلى إخراج نموذج تسلسل نموذج لتجميع الاهتمام والنتائج الجيدة التي تحققت.

نهجنا: تسمية + الوقت ارتباط نموذج المعلومات + متعددة النطاق من الاهتمام

1، العلامة ارتباط

نقترح الكلمات أهمية عندما الشبكة العصبية سلسلة لنموذج تصنيف متعددة تسمية . كما هو موضح أدناه، حيث عندما يتم الجمع بين مستوى الفيديو الإدخال عند توقع إخراج بنية شبكة واحدة للحد من البعد، والنتائج تخفيض البعد في تمثيل فيديو يظهر طبقات ومن ثم من خلال شبكة للتنبؤ. وأخيرا، التنبؤ نتيجة نتيجة تصنيف شبكة النهائية، عدة مراحل وسيطة للتنبؤ أيضا كجزء من وظيفة الخسارة. هيكل سلسلة يمكن ان تتكرر في عدد من المراحل، ومستوى الاختلاط في ميزات الفيديو على الشبكة وتجارب الخبراء تشير إلى أن عدد من المعلمات السيطرة في ظل نفس الظروف، والمزيد من هيكل سلسلة هرمية، وأفضل أداء التصنيف.

ميزات مستوى يمكن استخدامها ليس فقط بنية سلسلة الفيديو، مثل ممثلة LSTM الشبكة، CNN وشبكات الفيديو الانتباه، من الممكن أيضا استخدام هيكل سلسلة شبكة من الميزات على مستوى الإطار. عندما التجربة شبكة، وجدنا أن الفيديو الذي تمثل مستويات مختلفة من استخدام الشبكة غير مشترك الأوزان، ويمكنك الحصول على أفضل أداء.

2، واستخدام المعلومات في الوقت متعددة النطاق

نظرا لطول مختلفة من المعلومات في الوقت الدلالات المختلفة في الفيديو المحتلة، قد يكون النمذجة أقل إيجابية في بعض التصنيفات على نطاق الوقت. ولنأخذ على شكل تجميع التدريجي في الوقت المناسب للاستفادة من المعلومات الدلالي على نطاق ووقت أكبر. نحن نستخدم تسلسل المستخرج من الإطارات حيث 1D-CNN، للحد من طول تسلسل يتميز تجميع الوقت، استخراج إعادة مرة واحدة تتميز مرة أخرى عن طريق 1D-CNN، وهكذا دواليك إلى الحصول على عدد وافر من تسلسل توقيع أطوال مختلفة، حيث لكل تسلسل، كنا LSTM نموذج لنموذج، للتنبؤ النتائج النهائية التي تم الحصول عليها ودمجها. وبهذه الطريقة، ونحن نستخدم وافر من المعلومات المختلفة على مقياس الوقت، وأداء هذا النموذج هو لدينا أفضل نموذج واحد.

3، نموذج الاهتمام

وبلمرة نحن نموذج آخر يتمثل باستخدام سلسلة من الإطارات باستخدام طريقة الاهتمام تجميع، لأن كل إطار التسلسل الأصلي يعكس المعلومات المحلية فقط، ونحن نريد أن يكون لها بعض البوليمر تسلسل المعلومات الدلالي، نحن نموذج مخرجات LSTM تسلسل الاهتمام تجميع. تبين التجارب أن تجميع الاهتمام من الطرق لتحسين نتائج نموذج التنبؤ. وعلاوة على ذلك، في استخدام موقف تضمين أداء نموذج الشبكة الانتباه يمكن تحسينها.

ونحن نركز على شبكة الصحيحة هي تصور الأوزان الإخراج، نجد أن الاهتمام الشبكة يميل إلى تقديم صورة بصرية أعلى كاملة من وزن الجسم، وليس لآفاق واضحة تظهر أغمق أو ترجمات شاشة أوزان أقل.

خاطرة: دراسة واسعة النطاق في بنية الأجهزة العمق، وكذلك فيديو كفاءة تحليل خوارزمية مهمة جدا

في هذه اللعبة ونحن نشعر نقطة عميقة جدا هي أهمية دراسة واسعة النطاق في عمق بنية الأجهزة. كما توصيل إيثرنت جيجابت فقط إلى خادمنا، لا نستطيع أن نفعل التدرج تزامن كفاءة، وبالتالي لا يمكن الاستفادة من مجموعات متعددة آلة لتسريع العمليات. يتم تشغيل جميع لدينا خوارزميات على بطاقة واحدة، والنتيجة هي التحقق من صحة دورة تكرارية التجارب هي لفترة أطول، والكثير من الغرض من ذلك هو ليس الاستكشاف واضح. في دراسة متعمقة لمجموعات الصناعة، أكثر مما كانت عليه في غرفة شبكة التيار جيجابت، وراء العمارة جلبت لنا الكثير من الصعوبات.

وبالإضافة إلى ذلك، فإننا ندرك أيضا أهمية فيديو كفاءة تحليل الخوارزمية. في يوتيوب-8M بيانات المرحلة تجهيزها يتطلب آلاف الساعات من الوقت GPU، والخطة المقدمة والفريق يحتاج 1000 $ لكل GPU آلاف الساعات من الوقت للتدريب. في التطبيقات العملية، مثل كفاءة التشغيل غالبا ما يكون غير مقبول، والذي هو السبب في أننا الاهتمام تجمع الأساليب المتعلقة سيكون أكثر شعبية لأن التفكير.

الفرق الأخرى المشاركة في موجز يبرز

1. فريق WILLOW: يمكنك تعلم تجميع + السياق المحاصرة

فرق WILLOW من INRIA يستخدم التجميع القائم على شبكة NetVLAD ملامح تجميع. كما أنها تحولت شبكة NetVLAD وفي الخصائص الإحصائية الدرجة الثانية من هذا النموذج، يمكن للشبكة وقال فيشر ناقل تعلم، ودعا NetFV. الاستفادة من الشبكتين هو أن كمية صغيرة من الحساب، ويمكن استخدام إطار المعاينة، موازية بسهولة. أنها مبسط بوابات خطية عناصر GLU، مبسطة وحدة تسمى السياق المحاصرة، من خلال النابضة حدة يلتقط العلاقة بين الميزات. عن طريق بوابة NetVLAD هذه البطولة هي أفضل أداء في نموذج واحد من شبكة تصنيف على مستوى الإطار.

  • تقرير: الشبكي: //arxiv.org/abs/1706.06905

  • الرمز: الشبكي: //github.com/antoine77340/Youtube-8M-WILLOW

2. حاليا الفريق: تسلسل نموذج سريع إلى الأمام

حاليا بايدو فريق من جامعة تسينغهوا IDL والسلاسل الزمنية نموذج الفيديو تم استكشاف، فإنها تستخدم طبقة تصل إلى 7 LSTM / GRU النمذجة شبكة ميزة الفيديو وتداولها عميق جدا وغالبا ما يكون من الصعب تدريب الشبكة العصبية، أنها أدخلت سرعة الاتصال إلى الأمام، يخفف بشكل فعال الصعوبات التدريب. هذا النموذج هو أفضل مباراة لهذا الوقت نموذج سلسلة أداء وضع واحد.

  • تقرير: الشبكي: //arxiv.org/abs/1707.04555

  • الرمز: الشبكي: //github.com/baidu/Youtube-8M

انقر هنا لقراءة المقال الأصلي لمعرفة التفاصيل، ونأمل أن تتمكن من الانضمام ~

A يترددون القديمة ملعب كرة خرافية، يمكن نشطة حتى الهدف الدولي عدد قليل من الناس تفعل؟

"الشائعات الفنية" على أساس اللغة الفيسبوك قراءة خاطئة اختراع الروبوت، ومقابلات مع خبراء لاستعادة الحقيقة

يأخذك إلى أواخر الخريف من الحرم الجامعي شاندونغ، وقائمة من تلك المناظر الطبيعية الخلابة

مفتوحة على هذه النماذج نظام مساعدة السائق قوية الأربعة، سطرين من الدموع بعيدا عن ذويهم

الدفع بواسطة الهاتف النقال من السهل جدا، لماذا لم مقصف الجامعة حظرت؟

الإنجازات جعل، هو أكبر مسؤول

هناك دولة جزرية، Bimei الحصان نيابة عن بي هاينان تذاكر الطيران الرخيصة من 500!

"تعلم الآلة التلقائي" ML مهندس مساعدة Comments لي، وهو مفتاح لتلقي نموذج تدريب

بداية التدريب، والشمال والجنوب الضرب على طبول الحرب، دخان المنبعث من ساحات التدريب على

خزانات وقود السيارات على اليسار وعلى اليمين هناك ما هو الفرق؟ كثير من الناس ليست واضحة

ضعف خطير في دور اللاعبين المحليين، والسوبر الموسم تراجع المساعدات الخارجية إلى الوراء لا يمكن السماح فقط وعاء!

وداعا! اخترع "حبة سكر"، والقضاء على شلل الأطفال في الصين!