CVPR 2019 | بدأت الرياح الخفيفة تايوان أكبر بيانات تتبع هدف واحد في العالم LaSOT

"

يحتوي على أكثر من 3520000 صور عالية المشروح اليد و 1400 أشرطة الفيديو، هو حتى الآن أكبر مالك واحد من بيانات تتبع الهدف المسمى المكتظة.

"

AI تقنية مراجعة الأخبار ، الحاسوب رؤية واجتماع رئيس الوزراء التعرف على الأنماط CVPR 2019 وصل الى نهايته الاسبوع الماضي في الولايات المتحدة، وأصدرت الشركات الكبرى والمؤسسات البحثية أحدث النتائج الخاصة بهم، والتي كثير منها العديد من النتائج البحثية من الصين. بعد ذلك، سوف AI تقنية مراجعة إدخال نطاق واسع الهدف الواحد الرياح الخفيفة محطة المعرض على CVPR 2019 مجموعات البيانات نوعية المسار LaSOT، هذه البينات يحتوي على أكثر من 3520000 صور عالية المشروح اليد و 1400 أشرطة الفيديو، والتي هي إلى حد بعيد أكبر مالك واحد من المسمى المكتظة بيانات تتبع الهدف. وفيما يلي شرح مفصل من محطة الرياح الخفيفة المقدمة:

أطروحة "LaSOT: عالية الجودة معيارا لتتبع كائن واحد على نطاق واسع" من التفصيل على المبادئ وطريقة تقييم لبناء قواعد البيانات LaSOT، من الرياح الخفيفة تايوان، جامعة جنوب الصين للتكنولوجيا، ميتو - الرياح الخفيفة مختبرات مشتركة تايوان وغيرها من الوحدات معا لإكمال، المدرجة في CVPR 2019.

مساهمة LaSOT

تتبع البصري هو واحد من أكثر مشكلة هامة في رؤية الكمبيوتر، وتشمل تطبيقاتها المراقبة بالفيديو، الروبوتات، والتفاعل بين الإنسان والحاسوب. مع التقدم الهائل في مجال تتبع، تم اقتراح العديد من الخوارزميات. في هذه العملية، وتتبع معيارا لتقييم موضوعي يلعب دورا حاسما. إطلاق LaSOT، ولكن نريد أيضا أن توفر على نطاق واسع، المتخصصة، معيارا ذات جودة عالية لهذه الصناعة، لتتبع تقييم عمق حقيقي من التدريب وتتبع الخوارزميات.

الشكل 1: الرسم التخطيطي للإحصاءات بيانات تتبع التقليدية. بما في ذلك وتب عام 2013، وتب-2015، TC-128، NUS-PRO، UAV123، UAV20L، VOT-2014، VOT-2017 و LaSOT. العدد الإجمالي للإطارات بقطر يتناسب مع عدد من مجموعات البيانات. اقترح LaSOT أكبر من كل المعايير الأخرى، والتركيز على تتبع على المدى الطويل.

مراقبة ومقارنة وجدت الخوارزميات المختلفة تتبع لها مزيد من التطوير وتقييم الموجودة مجموعة من تقييم محدودة، وتشمل المشاكل الرئيسية:

1. على نطاق صغير. مجموعات البيانات الموجودة مع أكثر قليلا من 400 سلسلة، نظرا لعدم وجود بيانات تتبع على نطاق واسع، فإنه من الصعب تتبع استخدام محددة عمق التدريب الفيديو تعقب.

2. المسار القصير. تعقب المثالي يمكن تحديد موقع الهدف في فترة طويلة نسبيا من الزمن، فإن الهدف قد تختفي وإعادة إدخال طريقة العرض. ومع ذلك، فإن معظم مرجع موجود تركز على المسار القصير، حيث يكاد يظهر متوسط طول سلسلة من أقل من 600 (أي حوالي 20 ثانية)، والهدف دائما في إطار الفيديو.

3. الفئة التحيز. من المفروض أن يظهر نظام تتبع قوي لا حساسية إلى الهدف ينتمي إلى هذه الفئة، مما يعني أنه في التدريب وتقييم خوارزمية تتبع يجب قمع فئة الانحراف (أو فئات غير متوازنة). ومع ذلك، فإن المعايير الحالية يحتوي عادة إلا فئات قليلة، وعدد من الفيديو غير متوازن.

واقترح العديد من مجموعات البيانات لمعالجة هذه القضايا، ومع ذلك، لا يحل جميع المشاكل.

وبناء على دوافع المذكورة أعلاه، توفر محطة الرياح كبيرة جديدة تتبع هدف واحد (LaSOT) المؤشر مشرق للمجتمع، ويوفر مجموعة واسعة من المساهمات:

1. LaSOT 1400 يحتوي على شريط فيديو، أي بمعدل 2512 لكل التسلسل. يتم فحص كل إطار بعناية وعلامة يدويا، والنتائج التي يتم فحص البصر وتصحيح إذا لزم الأمر. وبهذه الطريقة، يمكن ان تولد حوالي 3520000 جودة عالية من أبعاد المربع المحيط.

وعلاوة على ذلك، LaSOT يحتوي على 70 فئات، لكل منها 20 متواليات. ومن المفهوم، LaSOT هو إلى حد بعيد أكبر مجموعات البيانات تتبع الكائن ذات جودة عالية الشرح اليدوي المكثف.

2. مجموعة بيانات مختلفة السابق، LaSOT توفير المربع المحيط البصري من الملاحظات والمواصفات الغنية اللغة الطبيعية، والتي ثبت مؤخرا أن يكون مفيدا في مجموعة متنوعة من المهام البصرية، بما في ذلك تتبع البصرية. والهدف هو تشجيع وتيسير دمج ميزات استكشاف واللغة البصرية لتحقيق أداء حافل.

3. من أجل تقييم بتتبع التقليدية، ويوفر مرجعا مستقبل واسعة نسبيا على LaSOT وتقييمها فريق 35 تعقب تمثيلي تحت بروتوكولات مختلفة، ومؤشر على استخدام خصائص مختلفة.

LaSOT تنويع نطاق واسع لجمع البيانات

مجموعات بناء البيانات LaSOT لمتابعة واسعة النطاق، وتلاحظ مكثفة ذات جودة عالية، وعلى المدى الطويل تتبع، متوازنة ومتكاملة وصفها فئة خمسة مبادئ.

LaSOT جمع البيانات المرجعية التي تغطي مجموعة متنوعة من الفئات من كائنات مختلفة في سياقات مختلفة، ويحتوي على 70 كائنات الفئات. ويتم اختيار معظم فئات من فئات ImageNet في 1000، ولكن تم تحديد وجود استثناءات قليلة (مثل طائرات بدون طيار) بعناية لتطبيق تتبع شعبية. التقليدية فئات مجموعة البيانات عادة ما تحتوي على أقل من 30، وعموما التوزيع غير المتكافئ. في المقابل، LaSOT تقديم نفس العدد من تسلسل لكل فئة، فئة للتخفيف من التحيز المحتمل.

بعد تحديد LaSOT في 70 فئات من الكائنات، فتش الباحثون كل فيديو الدرجة من يوتيوب. في البداية، ومجموعة من أكثر من 5000 أشرطة الفيديو. النظر في مبادئ تصميم المسار وLaSOT جودة الفيديو، واختيار الفيديو 1400. ولكن نظرا لوجود عدد كبير من المحتوى غير، هذا التسلسل 1400 لا يمكن استخدامها على الفور لتعقب المهام. على سبيل المثال، بالنسبة للفئات الفردية من الفيديو (على سبيل المثال، والرياضيين)، فإنه عادة ما تحتوي على بعض المحتويات التمهيدي لكل لاعب في بداية، وهذا ليس لتتبع. لذا فإن الباحثين تصفية بعناية محتويات كل فيديو غير ذي صلة، وتحتفظ مقطع يمكن استخدامها لتتبع. وبالإضافة إلى ذلك، LaSOT من كل فئة تحتوي على 20 هدفا، مما يعكس تصنيف التوازن والتنوع في مشهد طبيعي.

في نهاية المطاف، جمع الباحثون 1400 يوتيوب تسلسل الفيديو و3520000، وتحت رخصة المشاع الإبداعي، بتجميع مجموعات البيانات الكبيرة. متوسط طول الفيديو LaSOT 2512 (أي 84 ثواني 30 لقطة في الثانية الواحدة). وهي تتألف من 1000 أقصر الفيديو (أي 33 ثانية)، والحد الأقصى الفيديو يحتوي على 11397 (أي 378 ثانية).

LaSOT مربع إحاطة تقدم تسمية البصرية

من أجل توفير متسقة تسمية المربع المحيط، ويحدد الفريق أيضا استراتيجية التسمية حتمية. لتتبع الفيديو مع هدف محدد لكل إطار، إذا كان الكائن الهدف موجود في الإطار، التسمية الذي من شأنه رسم / تحرير في المربع المحيط، يدويا مما يجعلها أكثر إحكاما من الجانب الأيمن من المربع المحيط لتتناسب مع الهدف من أي الجزء المرئي وإلا، سيتم توفير علامة لأولئك الذين تأطير تسمية "الهدف غير موجود"، سواء كان مرئيا أو لا سدت تماما. يرجى ملاحظة أنه إذا لوحظ أي بيانات أخرى أن هذه الاستراتيجية لا يضمن المنطقة الخلفية للحد من منطقة الجزاء. ومع ذلك، فإن هذه الاستراتيجية يفعل توفير علامة متسقة، والتي لدراسة الأجسام المتحركة مستقرة نسبيا.

على الرغم من أن الاستراتيجيات المذكورة أعلاه هي فعالة في معظم الحالات، ولكن هناك استثناءات. قد يكون بعض الأشياء، مثل الفئران، وهو جزء ممدود ومشوهة للغاية، على سبيل المثال الذيل، والتي سوف تنتج ليس فقط ضجيج شديد على مظهر وشكل الجسم، ولكنها توفر القليل من المعلومات عن المواقع الكائن الهدف. هذه وما يتصل بها من الأشياء التي تم تحديدها بعناية في LaSOT الفيديو، وتصميم قواعد محددة للتعليق عليها (على سبيل المثال، لا يتضمن الفئران الذيل عند رسم لهم).

FIG 2: LaSOT سبيل المثال تسلسل ووضع العلامات

ويمثل مواصفات اللغة الطبيعية عن طريق سلسلة من وصف اللون الهدف والسلوك والحكم البيئة. لLaSOT 1400 ينص على كل بيان وصف الفيديو. يرجى ملاحظة أن المقصود من وصف لتقديم المساعدة اللغوية للمساعدة في تتبع. على سبيل المثال، إذا تعقب توليد اقتراحات لمزيد من المعالجة، فإنه يمكن أن تستخدم مواصفات لغة التوجيه الدلالي العالمي للمساعدة في تقليل الغموض بينهما.

يتم وضع علامة البناء عالية الجودة مجموعات بيانات تتبع مكثف أقصى جهد واضح يدويا، والتحقق المزدوج وتصحيح الخطأ. لإنجاز هذه المهمة، تعيين تايوان حتى الخفيفة مجموعة الشرح الرياح، بما في ذلك طلاب الدكتوراه وحوالي 10 متطوع يعملون في العديد من المجالات ذات الصلة.

الممثل تقييم تعقب 35

أي قيود على كيفية استخدام LaSOT، بروتوكولين لتقييم خوارزمية تتبع المقترحة، وتقييم المطابقة.

برنامج: 1400 تسلسل تقييمها باستخدام أداء تتبع. يمكن للباحثين استخدام أي تسلسل إلا LaSOT في تسلسل لتطوير تتبع الخوارزميات. برنامج يهدف إلى تتبع جهاز لتقييم نطاق واسع.

الخيار الثاني: تقسيم LaSOT في التدريب ومجموعات فرعية اختبار. قاعدة 80/20 (أي مبدأ باريتو)، و 16 يتم اختيارهم من كل نوع من أنواع التدريب فيديو 20، والباقي من الاختبار. على وجه التحديد، وتضم مجموعة فرعية التدريب فيديو 1120، 2.83 إطارات 280 يتألف مجموعة فرعية من سلسلة الاختبار، 690K الإطار. تقييم تنفيذ برنامج المسار على فرعية الاختبار. الهدف الخيار الثاني هو أيضا لتوفير مجموعة كبيرة من أشرطة الفيديو للتدريب وتعقب التقييم.

البروتوكولات شعبية (على سبيل المثال OTB-2015 )، ومكتب مستشار رئيس الوزراء باعتباره معايير التقييم الكمي، ودقة القياس اثنين من بروتوكولات مختلفة تتبع الخوارزميات، ودقة ونجاح التوحيد. 35 خوارزميات التقييم على LaSOT، لتوفير مجموعة واسعة من المعايير الموضوعية، تبويب 3 ملخص الزمني لهذه البرامج واستراتيجيتها البحث تمثيل تعقب.

الجدول 3: تم تقييم برنامج المسار موجز

A نتائج تقييم البرامج

أهداف البرنامج في شريط فيديو 1400 LaSot التقييم على نطاق واسع. وكما يستخدم كل تعقب لتقييم ودون أية تعديلات. استخدام الدقة والدقة والنجاح نتائج التقييم موحدة ذكرت في OPE.

الشكل 3: استخدام الدقة، وطريقة التقييم الكمي تجسيد واحدة من الدقة والزوج نسبة نجاح تطبيع.

FIG 4: في البروتوكول الأول، ومعظم النتائج ممثلة للتعقب على خصائص التحديات الثلاثة.

الشكل 5: التحدي نموذجي ستة نتائج التقييم النوعي للتسلسل.

برامج التقييم اثنين

الشكل (6): الدقة والدقة ونسبة نجاح تطبيع تتبع خوارزمية في تقييم نظام II.

وفقا لخيار الثاني، LaSOT إلى مجموعات التدريب والاختبار. يمكن للباحثين الاستفادة من مجموعة التدريب تسلسل لتطوير تعقب بهم، وتقييم أدائها في مجموعة الاختبار. من أجل توفير قاعدة ومقارنة مجموعة اختبار لتقييم 35 نوعا من تتبع الخوارزمية. وسوف تستخدم كل تعقب لتقييم ودون أي تعديل أو إعادة التدريب. استخدام الدقة والدقة ونتائج طبيعية لتقييم نسبة النجاح هو مبين في الشكل.

بالإضافة إلى تقييم كل خوارزمية تتبع، ولكن أيضا ممثل اثنين من عميق تتبع خوارزمية MDNET وSIAMFC تدريبها، وتقييمها لهم. وأظهر التقييم أن تعقب ديه أداء مماثلا في القضية دون إعادة تدريب. أحد الأسباب المحتملة هو أن المؤلف الأصلي وإعادة التدريب قد تستخدم تكوينات مختلفة.

هذه الورقة ولكن أيضا على SiamFC من مجموعة التدريب LaSOT لإعادة تدريب، لشرح كيفية استخدام المزيد من البيانات لتحسين تعلم ترتكز على عمق تعقب. علامة التبويب. 4 تقارير نتائج وتب عام 2013 وOTB عام 2015، ووبالمقارنة مع أداء التدريب SIAMFC الأصلي على الفيديو ImageNet. يرجى ملاحظة أن ورقة تستخدم في صورة ملونة للتدريب، وتطبيق الهرم 3 نسبة المسار الذي SIAMFC-3S (لون). وتتبع تظل جميع المعلمات التدريب دون تغيير في كلا التجربتين. وقد لوحظ التقييم الأخير في كلتا المجموعتين لأداء ثابت، فإنه يدل على أهمية مجموعة التدريب على نطاق واسع لعمق معين من تعقب.

الجدول 4: SiamFC إعادة تدريب على LaSOT

LaSOT الصفحة الرئيسية: الشبكي: //cis.temple.edu/lasot/

تحميل مجموعة البيانات: الشبكي: //cis.temple.edu/lasot/download.html

أدوات تقييم خوارزمية و: الشبكي: //cis.temple.edu/lasot/results.html

الرسالة: الشبكي: //arxiv.org/abs/1809.07845

نهاية

2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات

2019 نيان 12-14 يوليو ، ينظمه اتحاد عموم الصين للكمبيوتر (CCF)، شبكة لى فنغ وجامعة هونغ كونغ الصينية في رعاية (شنتشن)، وشنتشن، الذكاء الاصطناعي، ومعهد بحوث الروبوتات لشركة 2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات (يشار إلى أن CCF-GAIR 2019) وشنتشن يكون الستار رسميا.

بحلول ذلك الوقت، الحائز على جائزة نوبل JamesJ. هيكمان، أكاديمي أجنبي، رئيس القمة العالمية، المعروفة زميل، وعدد من الضيوف في الوزن الثقيل سوف شخصيا Zuozhen ، لمناقشة الذكاء الاصطناعي والمجال المعقد من الوضع الروبوتات البقاء على قيد الحياة والإنتاج والاستثمار وهلم جرا.

عرض محدود اليوم خمس 1000 تذاكر رمز الخصم يوان، وتذاكر للسعر الأصلي من 1999 يوان، فتح أي من الروابط التالية يمكن استخدامها، إلا بعد 999 كوبونات يوان، والحد من خمس، يخدم أولا أساس، في حين أن الأسهم الماضي.

https://gair.leiphone.com/gair/coupon/s/5d11f29598b17

https://gair.leiphone.com/gair/coupon/s/5d11f295988af

https://gair.leiphone.com/gair/coupon/s/5d11f2959856e

https://gair.leiphone.com/gair/coupon/s/5d11f29598301

https://gair.leiphone.com/gair/coupon/s/5d11f2959807d

انقر على قراءة النص الأصلي عرض: لقياس عمق تعزيز التعلم خوارزمية التعميم

التبديل لايت نينتندو أعلن رسميا: 20 سبتمبر بيع

هذا هو طعم الحب يا، الذكية محاكمة متر تجربة الرقبة والكتف تدليك

دوائر | قدم معهد AI بيركلي جديدة الخوارزميات تعزيز البيانات، أقوى من AutoAugment الدماغ جوجل! | ICML 2019

اتبع 618، مهلا تصل معنا

هونغ كونغ: العثور على لحظة استرخاء في كل مكان بين | يوم واحد

أن الرؤية الحاسوبية يكون مثل بعد خمس سنوات؟ تخيل رواد وCV معا (على) | CVPR2019

سيتشوان هايدونج: مهرجان الثقافة والسياحة جينشا دخل السياحة من 57860000 يوان

ساعتين ونصف / ثلاثين ألف صورة / شيء

حافظ الاقتصاد الصناعي توسعا طفيفا في الربع الأول، فإن التحدي الأكبر هو لا يزال المفرطة

ديناميكية | من قبل منظمة العفو الدولية إلى الهدف مجلس كشف رقاقة "جامعة شيان جياوتونغ،" هو كيف يمكن تحقيق مكاسب DAC FPGA المسار عداء؟

وانغ Zixuan قميص طباعة الخروج من المطار على طول الطريق إلى نكتة حول تفسير خلايا الشارع من نوع

لا الأسلاك، وعمر البطارية الطويل: أبيض الذكية نسخة بطارية الكاميرا (التقييم)