ICLR2019 | على تتبع، هربت: لعبة المواجهة لآلية تتبع بصرية ل

AI تقنية الصحافة هذه المادة هي ICLR2019 ورقات مختارة "AD-VAT: آلية وهو غير المتماثلة التبارز للتعلم النشط تتبع البصرية" تفسير معمق. ورقة فك التكنولوجيا من قبل مختبر الهندسة الوطني لترميز الفيديو الرقمي جامعة بكين الدكتوراه Zhongfang وى، بالتعاون يان تينغ يون وانغ ييتشو تحت إشراف أساتذة وتينسنت AI مختبر الباحث صن بنغ، روان البرد. كما عين الدراسة إلى برنامج بحثي خاص 2018 تينسنت AI مختبر وحيد القرن الطيور. يؤذن لى فنغ شبكة AI تقنية مراجعة لطبع.

ما هو تتبع رؤية النشط؟

تتبع رؤية النشطة (تتبع أحدث البصرية) فإنه يشير إلى عامل نشط لمراقبة حركة الكاميرا بناء على معلومات الملاحظة البصرية، مما يتيح تتبع الكائن الهدف (هدف والحفاظ على مسافة محددة). تتبع رؤية نشط في مهام الروبوت حقيقية لديها العديد من الاحتياجات مثل تصوير الفيديو والأهداف تبادل لاطلاق النار مع UAV ذكي لمتابعة الحقيبة. لتحقيق رؤية تتبع نشط، يحتاج وكيل لإجراء سلسلة من المهام الفرعية، مثل تحديد الهدف والمكان وتقدير الحركة وكاميرا مراقبة.

ومع ذلك، فإن دراسة طريقة تتبع البصرية التقليدية تركز فقط على استخراج المربع المحيط 2D على الهدف من إطارات متتالية، دون النظر في كيفية تنشط حركة الكاميرا السيطرة. لذلك، مقارنة هذا التتبع "سلبية"، والرؤية النشطة تتبع قيمة أكثر واقعية، لكنه يجلب أيضا العديد من التحديات.

اليسار: روبوت تتبع بنشاط الهاتف النقال الهدف (الصورة من الشبكة)

الحق: مقارنة على أساس نهاية تعزيز التعلم وتتبع نشط من طريقة تتبع التقليدية من

عمق طريقة تعزيز التعلم واعدة، ولكن لا تزال هناك قيود

في الأعمال التمهيدية ، يقترح المؤلفون طريقة لتعزيز عمق التعلم والتدريب شبكة لاستكمال رؤية نهاية نشطة تتبع ليس فقط يوفر طاقة إضافية التحكم ضبط اليدوي، وحققت جيدة تأثير، أو حتى يكون قادرا على ترحيل مباشرة إلى بسيط عمل مشهد حقيقي.

ومع ذلك، هذه التعزيزات المعتمدة على الأداء والتعلم إلى حد ما، والتدريب عمق على تعقب لا تزال محدودة بسبب طريقة التدريب. لأن عمق الحاجة تعزيز التعلم لتعلم الكثير من خلال التجربة والخطأ، التجربة والخطأ ومباشرة للروبوت في العالم الحقيقي في تكلفة عالية. وثمة حل مشترك هو استخدام بيئة افتراضية للتدريب، ولكن أكبر مشكلة مع هذا النهج هو كيفية التغلب على الخلافات بين الظاهري واقع ذلك أن النموذج يمكن نشرهم إلى تطبيقات في العالم الحقيقي. على الرغم من أن هناك طرق لمحاولة حل هذه المشكلة، مثل بناء بيئة التدريب الافتراضية عالية الدقة على نطاق واسع للملاحة البصرية، والعوامل المختلفة (نسيج السطح / ظروف الإضاءة، وما إلى ذلك) عشوائية تضخيم التنوع البيئي.

لمشكلة التدريب تتبع رؤية النشطة، وليس مجرد تعقيد التنوع، فإن مسار الهدف قبل ظهور الكائن خلفية تؤثر تأثيرا مباشرا على القدرة على تعميم تعقب. ويمكن اعتباره حالة متطرفة: إذا كان الهدف يتحرك إلى الأمام فقط عندما التدريب، لذلك سوف تعقب لا تعلم على التكيف مع مسار الطبيعية الأخرى، مثل المنعطفات الحادة. ولكن العمل على مسار الهدف وعوامل أخرى أيضا النمذجة على ما يرام سيكون مكلفا، ولا يمكن محاكاة تماما عن الوضع الحقيقي.

السماح تعقب الهدف "نقاتل معا"

لذلك، يقترح الكتاب التدريب على أساس إطار تعزيز التعلم عن المباراة ضد المبادرة تتبع البصرية، والمعروفة باسم AD-ضريبة القيمة المضافة (آلية غير المتماثلة التبارز للتعلم النشط تتبع البصرية).

في هذه الآلية والتدريب، ويعتبر تعقب والكائن الهدف كما زوج واحد هي "مبارزة" الخصم (انظر أدناه)، وهي تعقب في محاولة لمتابعة هذا الهدف، والهدف لايجاد وسيلة عن مسارها. هذه الآلية المنافسة، مما يجعلها في نفس الوقت يتحدون بعضهم البعض لتعزيز التعاون المتبادل الترويج.

عندما يكون الهدف استكشاف استراتيجية الهروب، فإنه سيتم إنتاج مجموعة كبيرة ومتنوعة من المسارات، وهذه تميل إلى أن تكون مسار تعقب الحالي لا تزال جيدة.

وانطلاقا من هذه الأهداف المواجهة، وسوف تعقب كشف بسرعة الضعف جنبا إلى جنب مع دراسة مكثفة، مما يجعل في نهاية المطاف قوة لها قد تحسنت بشكل كبير.

خلال التدريب، وذلك لأن القدرة على تتبع والهدف متزامنة النمو من الصفر، بحيث تكون قادرة على تلبية تماما قدرة المنافسة على المنافسة في كل مرحلة التدريب، التي تشكل ذلك بطبيعة الحال من السهل بالطبع من الصعب، مما يجعل عملية التعلم أكثر كفاءة.

ومع ذلك، فإن هيكل مباشرة في محصلتها صفر تدريب لعبة قتالية غير مستقر للغاية ويصعب تتقارب.

AD-VAT نظرة عامة

كيفية جعل الحرب أكثر فعالية واستقرارا؟

لحل المشكلة من التدريب، ويقترح المؤلفون طريقتين تحسين: وظيفة كاملة، ومكافأة الصفر (الجزئية مكافأة محصلتها صفر) و نموذج معروف لتتبع الهدف (نموذج المقتفي علم).

صفر ناقصة والثواب مكافأة هي بنية هجينة، إلا أن المسار والهدف وتشجع محصلتها صفر في مجموعة نسبي معين، لإعطاء عقوبة إضافية عندما يصل إلى مسافة معينة من الهدف، فإن القضية لم تعد عبة محصلتها صفر، ووصف ذلك غير مكتملة والثواب الصفر.

هذه وظيفة جائزة التصميم لتجنب ظاهرة، عندما يكون الهدف بسرعة بعيدا عن تعقب، وسوف تعقب تكون قادرة على مراقبة الهدف، بحيث تصبح عملية التدريب غير فعالة أو غير مستقرة.

وظيفة مكافأة صيغة تعقب، يتبع تصميم ، يتم تحديد المدى الجزاء من قبل المسافة بين الموضع المطلوب والهدف.

وظيفة مكافأة الموضوعية للصيغة، في منطقة المراقبة، والهدف تعقب عبة محصلتها صفر، أي مباشرة يأخذ وظيفة مكافأة مكافأة تعقب السلبي. خارج نطاق المراقبة، وسوف تحصل على المدى عقوبة إضافية في النص الأصلي، استنادا إلى قيمة على المدى عقوبة يعتمد على المسافة من مراقبة الحدود المستهدفة وتعقب.

تتبع النموذج المعروف هو السماح لتتبع الهدف يمكن معرفة أفضل استراتيجية ضد استراتيجية، ما يسمى ب "اعرف نفسك، تعرف نفسك." على وجه التحديد، بالإضافة إلى ملاحظتها البصرية، والمراقبة يتم الحصول على مخرجات العملية بالإضافة إلى تعقب كنموذج الإدخال.

من أجل معرفة أفضل حول ميزة تعقب، قال المؤلف يقدم أيضا مهمة الثانوية: فوري قيمة مكافأة توقعات تعقب.

واستنادا إلى التحسينات المذكورة أعلاه، "المبارزة (التبارز)" كلا الجانبين في المعلومات مراقبة مكافأة وظيفة والأهداف والمهام سوف يكون التماثل (غير المتماثلة)، لذلك هذه الآلية المواجهة يسمى "مبارزة غير متكافئة (غير المتماثلة التبارز)".

البيئة التجريبية

في مجموعة متنوعة من مختلف البيئات 2D و 3D لإجراء تجارب لمزيد من التحقق من فعالية هذه الطريقة. 2D البيئة مصفوفة هو عبارة عن خريطة بسيطة تشير العقبات، والأهداف، وتتبع وغيرها من العناصر مع قيم مختلفة، على التوالي.

اثنين من تصميم القواعد لتوليد توزيع عقبة (بلوك، المتاهة) خريطة. لقد قمنا بتصميم نموذجين حركة الهدف رواية كقاعدة القياسية: كروزر (قائمة Rambler) والمستكشف (المستكشف).

A عشوائي ووكر من مدة محددة من العمل، وغالبا ما يؤدي التحركات مساره ضمن نطاق المحلية (انظر موضع كتلة الرام باللون الأصفر).

المستكشف هو عينة عشوائية من نقطة الهدف من الخريطة، ومن ثم على طول أقصر الطرق للوصول إلى الهدف، وبالتالي فإن التنقل واستكشاف مجموعة واسعة (انظر موضع رصف التنقل باللون الأصفر).

هذه أنواع مختلفة من الخرائط والأهداف مجتمعة في المقابل، يشكل بيئات مختلفة التدريب والاختبار. خريطة (بلوك) التي الكاتب فقط باعتباره تدريب واختبار كل ما يمكن من بيئة تركيبات لإثبات القدرة تعميم هذا النموذج.

ويستند بيئة 3D على UE4 وUnrealCV لبناء بيئة افتراضية. على مجال واحد فقط لاتخاذ التكنولوجيا غرفة العشوائي (نسيج السطح من الكائنات في البيئة، والإضاءة الظروف يمكن تعيين عشوائيا) من (DR الغرفة، غرفة العشوائية المجال) للتدريب، وبعد ذلك مشهد حقيقي في ثلاثة سيناريوهات مختلفة الماضية في نموذج الاختبار الأداء.

النتائج التجريبية

في بيئة 2D، والكتاب أولا التحقق من أن ضريبة القيمة المضافة AD مقارنة منهجية خط الأساس يمكن أن يحقق الترويج الفعال، في نفس الوقت فعالية من التجارب الاجتثاث لإثبات طريقتين للتحسين.

من اليسار إلى AD-ضريبة القيمة المضافة (الخط الأزرق) وأسلوب التدريب مرجعية في ملف تعريف البيئة 2D، وينظر AD-VAT تتيح تعقب لمعرفة أسرع وأفضل. الحق النتائج الصورة الاجتثاث من التجربة، ويقارن بين منحنى التعلم بعد حذف وحدات مختلفة، وهما تحسين الطريقة المقترحة من قبل المؤلفين يمكن جعل التدريب أكثر كفاءة التعلم المعركة التعزيز.

تجربة المؤلف في بيئة 3D لزيادة تثبت فعالية والتطبيق العملي لهذه الطريقة.

خلال التدريب، لاحظ واضعو ظاهرة مثيرة للاهتمام، وسوف هدف أكثر ميلا للذهاب مع نفسه على مقربة خلفية قوامه إلى المنطقة لتحقيق نوع من "غير مرئية" للتشويش على تعقب. تعقب بعد أن باستمرار "الحيرة" وعلم في نهاية الأمر على التكيف مع هذه الظروف.

على المقارنة بين متوسط إشارة AD-ضريبة القيمة المضافة ونوعين من أساليب تدريب تعقب جائزة المتراكمة (من اليسار) في سيناريوهات مختلفة، ومتوسط طول المسار (يمين).

من بينها، قرية الثلج (سنو قرية) وموقف سيارات تحت الأرض (موقف للسيارات) هما بيئة صعبة للغاية، وأداء كل نموذج له درجة مختلفة من التراجع، ولكن نموذج ورقة اقترح وتحقيق نتائج أفضل ووصف التكيف AD-VAT تعقب أكثر المشاهد المعقدة.

يكمن التحدي الرئيسي في قرية الثلج الأرض وعرة، والكاميرا سوف تتساقط الثلوج، الخلفية توهج تدخل وعوامل أخرى تؤدي إلى كائن مغطى:

غادر لتتبع منظور الشخص الأول، والحق هو منظور الشخص الثالث

وقوف السيارات في التوزيع غير المتكافئ للضوء (تغير الضوء الظلام بشكل كبير)، والهدف قد يكون المغطي العمود:

غادر لتتبع منظور الشخص الأول، والحق هو منظور الشخص الثالث

المراجع:

Wenhan لوه *، بنغ الشمس *، Fangwei تشونغ وى ليو تونغ تشانغ، وييتشو وانغ. تتبع الكائن النشط نهاية إلى نهاية عبر تعزيز التعلم، وفي ICML عام 2018.

Wenhan لوه *، بنغ الشمس *، Fangwei تشونغ * وى ليو تونغ تشانغ، وييتشو وانغ. نهاية إلى نهاية تتبع الكائن النشط وفي العالم الحقيقي للانتشار عبر تعزيز التعلم، وفي TPAMI 2019 (تحت الطبع) .

Weichao تشيو، Fangwei تشونغ تشانغ يي، Siyuan تشياو، Zihao شياو تاي سو كيم، ييتشو وانغ، وألان Yuille Unrealcv: .. عوالم افتراضية لرؤية الكمبيوتر في ACM-MM عام 2017.

انقر على قراءة النص الأصلي، رأي جوجل AI أحدث بلوق: نموذج محاكاة الفيديو من استراتيجيات التعلم