دانيال قاعة | بوكس هيل العالمية-: نظام الطيار الآلي من تكنولوجيا الكشف عن الهدف

شبكة لى فنغ: د. الجبلية عالم النور، معهد الحوسبة الباحثين، دكتوراه، تعمل بشكل رئيسي في العمل البحثي في رؤية الكمبيوتر، والتعرف على الأنماط وتعلم الآلة. CCF فئة نشرت حتى الآن أكثر من 50 ورقة، كل ورقة الباحث العلمي من Google استشهد أكثر من 9000 مرة. وIEEE TIP الحالي، TIPNeurocomputing PRL والمجلات الأكاديمية الدولية الأخرى هيئة التحرير (AE). فاز أبحاث العلوم والتكنولوجيا جائزة التقدم الوطنية لعام 2005 والجائزة الثانية جائزة العلوم الطبيعية الوطنية 2015.

في هذه الورقة، والدكتور الجبل العالم للمشاركة معنا ضوء الرئيسي تمشيط الأخيرة تكنولوجيا الكشف عن وجوه التقدم.

1. فيولا جونز وجه كاشف

الكشف عن وجوه في مجال الكمبيوتر بالكامل، مثالا على أكثر نجاحا، وهذا هو، بعد حوالي 2000 سنة، وقد أصبح فيولا جونز وجه كاشف، والتي تمكن الكشف عن وجوه واحدة من أكثر نضجا من حيث التكنولوجيا مقارنة.

الفكرة الأساسية لهذه الطريقة هو انزلاق نوع النافذة، ويتم تغذية ناحية الشريحة في الصورة المدخلة مع نافذة حجم ثابت، وستعطى إطار نافذة على المصنف، للحكم على الوجه أو عدم وجها نافذة نافذة. هو ثابت انزلاق حجم النافذة، ولكن تباينت حجم الوجه، من أجل الكشف عن أحجام مختلفة من الوجه، وأيضا بحاجة إلى صورة مدخلات تدرج إلى أحجام مختلفة، حتى أن الوجه يمكن أن تكون بأحجام مختلفة على نطاق و لتتناسب مع حجم النافذة. هذا النوع من انزلاق نهج نافذة لديه مشكلة واضحة هي أن هناك الكثير للذهاب تحقق من موقع، للحكم على الوجه الإنساني أو عدم وجها.

الحكم ليس وجها إنسانيا، وهو مشكلتين التصنيف. في عام 2000 عندما، وذلك باستخدام المصنف AdaBoost. عند تصنيف مدخلات المصنف باستخدام يتميز هار، هذا هو ملامح بسيطة جدا، في FIG يمكن أن نرى الكثير من البلاط الأبيض والأسود، ويتميز الشعر هو مجموع كل القيم بكسل والمنطقة السوداء حفظ جميع القيم بكسل إلى منطقة البيضاء و، مع هذا الاختلاف كسمة، كتل سوداء وبيضاء من أحجام مختلفة كتلة والعلاقة الموضعية النسبية، الذي يتكون من عدد من مختلف الميزات هار. AdaBoost المصنف هو مزيج من عدد وافر من المصنفات ضعيفة من المصنف قوي، وتتكون فيولا جونز للكشف عن عدد وافر من AdaBoost المصنف سلسلة، وتسارعت دورا هاما في هذا الهيكل تتالي.

بعد عام 2000، بدأت تكنولوجيا الكشف وجها لتنضج، هناك يكون تم المتعلقة بالتطبيقات العملية، مثل الكاميرا الرقمية وظيفة وجه التركيز، عندما تكون الكاميرا، وكاميرا بالكشف عن وجوه بشرية تلقائيا، ثم الموقف من وجه التكيف التركيز على نحو أفضل.

2. نموذج عضوا تشوه (DPM)

فيولا جونز وجه كاشف بعد الناس، فقد كان هناك طريقة هامة أخرى في عام 2009: نموذج جزء تشوه (DPM)، لنموذج عضو تشوه.

على كشف الوجه، والوجه يمكن أن ينظر إليه على نطاق واسع باعتبارها هيئة جامدة، وسوف يكون هناك تشوه كبير جدا في ظل الظروف العادية، ويقول الفم لتغيير الموقف من الأنف حتى. ولكن لأشياء أخرى، مثل الإنسان، الذراع البشري يمكن رفع وأن مشوه حتى الساقين، والتي قد تجعل الجسم لديه الكثير من تحول كبير جدا غير جامدة، وعن طريق النمذجة DPM يمكن التعامل مع هذا أفضل نوع من التحول.

في البداية علينا جميعا محاولة لمحاولة هذا النهج مشابهة لميزة هار + AdaBoost المصنف للكشف عن المشاة، ولكن وجدت أن النتيجة ليست جيدة جدا، بعد عام 2009، مع DPM لنموذج مكونات مختلفة، مثل الناس يملك رئيس الذراع مع الركبة، وتقوم بعد ذلك على كل من المكونات المحلية والعالمية القيام تصنيف، وهذا أثر مثل الكثير. DPM غير معقدة نسبيا، وبطء سرعة الكشف، ولكن على كشف الوجه وكذلك المشاة والمركبات الاختبار وغيرها من المهام لا يزال حققت بعض النتائج. وفي وقت لاحق، وهناك بعض الطرق لتسريع DPM في محاولة لتحسين معدل الكشف عنها. قدم DPM إلى أجزاء نموذج في حد ذاته هو وسيلة جيدة، ولكنها خفيفة دراسة متعمقة لتغطية وقت لاحق، والتعلم العميق أدى إلى زيادة كبيرة جدا في دقة الكشف، وDPM أيضا بعض البحوث تذهب بسرعة التعلم العميق ترتفع.

3. سلسلة R-CNN

للكشف عن وجوه طريقة تستند إلى عمق التعلم، حيث الأخيرة سنتين أو ثلاث سنوات ظهرت هناك عمل أكثر تمثيلا لجعل مقدمة عامة. هو عبارة عن سلسلة R-CNN، والأسلوب الآخر هو مزيج من عمق التقليدي والتعلم. بعد تقديم أداء الكشف عن هذه الأساليب يبدو تحسنت كثيرا، متى سوف طبيبي شرح ظروف محددة للأداء، يمكننا أن نرى أن دقة الكشف ويزرع تقريبا أضعافا مضاعفة. بالطبع، لا تزال هناك بعض المشاكل هو للكشف عن السرعة، وأنا أعرف الكثير من الأصدقاء في صناعة يسعون طرق الكشف على أساس تتسارع عمق التعلم.

ما يسمى R-CNN، تقوم على فكرة بسيطة جدا ، صورة المدخلات، من خلال طرق البحث انتقائية مثل، على سبيل المثال، 2000 لتحديد الأكثر احتمالا لاحتواء إطار الكائن، نافذة عام 2000 لهذا، ونحن نأمل أنه يمكن تحقيق الكائن إلى أن يتم الكشف على معدل سحب عالية جدا. فهذا 2000 كل لاستخراج ميزة CNN والتصنيف. 2000 من هذه المناطق لديك لتشغيل مرة واحدة CNN، لذلك سرعته بطيئة جدا، على الرغم من 0.5 ثانية، نافذة زمنية من عام 2000 إذا كان في حاجة ضرورية أيضا إلى 1000 ثانية، من أجل الإسراع في عام 2014، عندما اقترح وKaiming SPP صافي ، نهجها هو تشغيل تقرير CNN على الخريطة بأكملها، دون الحاجة إلى القيام كل نافذة واحدة، ولكن هذا لديه صعوبة تذكر ، هل هذا 2000 كل مرشح نافذة حجم مختلفة، من أجل حل هذه المشكلة، SPP-صافي تصميم هرم تجميع المكاني، بحيث مختلفة كبيرة ميزات نافذة صغيرة لها نفس أبعاد. هذا النهج يلغي الحاجة لحساب نافذة الكشف عن كل التفاف مرشح، ولكن ليس بالسرعة الكافية، والكشف عن صورة أو يأخذ بضع ثوان.

توجه بسرعة R-CNN نهج SPP-الصافي، convolving في FIG كاملة، وبعد ذلك باستخدام ناقلات ميزة الحصول على طول تجميع ROI الثابتة. على سبيل المثال، بغض النظر عن مدى حجم الإطار يتم تحويلها إلى مثل هذه 7X7 كبير.

تقدم سريع R-CNN أيضا استراتيجية هامة، في حين أن تصنيف النافذة، ولكن أيضا على الحدود من الانحدار كائن، مما يجعل الكشف عن إطار أكثر دقة. ولكن قلنا سوف نافذة مرشح لديهم معدل سحب عالية جدا، ولكن قد لا يكون موقف دقيق جدا من الإطار، مثل مربع جسم الإنسان قد يكون في عداد المفقودين ذراع الساقين في عداد المفقودين، ومن ثم يمكن معايرة للكشف عن إطار عن طريق الانحدار، وتسعى في الموقف المبدئي غرامة. R-CNN سريع على تصنيف والانحدار إلى القيام به معا، وذلك باستخدام التعلم التعاوني تعدد المهام.

أسرع R-CNN مقارنة سريعة R-CNN جلبت تغييرا كبيرا، الأمر الذي سيؤدي في إطار الترشيح هذه الخطوة أيضا أن تفعل مع عمق الشبكة، ويسمح للشبكة وسريعة شبكة تصنيف R-CNN حدة التخزين المشتركة مغلفة، لإنتاج ما يسمى النافذة مرشح شبكة RPN، جوهر أسرع R-CNN.

بدلا من ذلك RPN قبل بطيئة جدا الانتقائية البحث، وعدد من النوافذ مرشح شيوعا هو صغير نسبيا، وهو ما يكفي 300 فقط، مما يجعل سرعة تصنيف أسرع وقت لاحق. من أجل الكشف عن مجموعة متنوعة من الكائنات، وقدم RPN ذلك يسمى تصميم مربع مرساة، تحديدا، RPN في FIG تتميز التفاف الأخير من طبقة الانتاج، للحصول على ناقلات سمة من سمات كل موقف من التفاف 3X3، و بناء على هذا ناقلات ميزة الانحدار إلى 9 حجم وجوانب مختلفة نسبة من النافذة، إذا كان حجم 40x60 ميزة FIG، ثم سيكون هناك ما مجموعه أكثر من حوالي 20،000 النوافذ، ويتم فرز هذه النوافذ وفقا لالثقة، ثم أخذ أول 300 كنافذة مرشح، أرسلت للتصنيف النهائي. استبدال RPN الانتقائية البحث، ويستخدم طبقة بطريقة التفاف المشتركة، في حين خفض عدد من النوافذ مرشح، أسرع R-CNN قد تحسنت بشكل ملحوظ في سرعة، والتي يمكن أن تصل إلى سرعات 5FPS على GPU من خلال.

موقف 4. الانحدار --YOLO وSSD

في عام 2015 كان هناك طريقة تسمى YOLO، التي نشرت في نهاية المطاف في CVPR عام 2016. هذا هو وسيلة من المستغرب جدا، للحصول على صورة مدخلات معينة، في نهاية المطاف YOLO مقسمة مجرد الشبكة 7X7، أي، للحصول على نافذة 49، ومن ثم التنبؤ إطارين مستطيلة في كل نافذة . ويتم إنجاز هذا التوقع من قبل طبقات مرتبطة ارتباطا كاملا، YOLO يتوقع المعلمات الأربعة لكل قناة من الإطار المستطيل وتضم كائن، وكل كائن ينتمون إلى فئة الاحتمالات. YOLO بسرعة، على GPU يمكن أن تصل إلى 45fps.

بعد YOLO، في عام 2015، اقترح ليو وي طريقة تسمى SSD. ذكر YOLO في وقت سابق وجود عيب واضح هو أن الحد الأقصى فقط من 7X7 = 49 بالكشف عن كائنين، إذا كان هناك أكثر من 49 صورة الكائن، ثم سيكون هناك بالتأكيد لا يمكن الكشف عنها، الكشف عن YOLO فقط داخل كل شبكة كائن، إذا كان شبكة في أي كائنين في وقت واحد، ثم واحدة سيتم تفويتها.

في المقابل، وذلك باستخدام SSD RPN في مرساة مربع مثل آلية، حيث FIG YOLO استنادا إلى المعلومات كلها جنبا إلى جنب مع الإطار كشف الانحدار العالمي لجميع المواقع، وSSD هو التفاف على أساس الخصائص المحلية لكل موقف إطار الكشف عن الانحدار وأيضا يستخدم SSD خصائص طبقات مختلفة، قبل YOLO يتميز فقط على طبقة الماضي التفاف على القيام بذلك العيب من الصعب للكشف عن الأجسام الصغيرة الحجم وأخيرا، فإن التلافيف عناصر الطبقة العصبية في هذا المجال تقبل أن تكون كبيرة جدا، ويتميز نطاق صغير كائن في أنه من الواضح جدا . من المعدل، في بعض الحالات، SSD أسرع، والوصول بسرعة 58fps على GPU من YOLO .

5. تتالي CNN

في مجال الكشف عن وجوه، في الماضي هناك مثل هذه الظاهرة، وهذا هو، كل كائن نحن جميعا بحاجة لتعلم التصميم وكشف منفصل، مثل الكشف عن وجه الرجل والكشف عن سيارة، واثنين من أجهزة الكشف عن ميزة ستكون مختلفة، المصنف ليس مثل، لكل فئة من الكائنات، فمن الضروري لمحاولة مجموعات مختلفة من المزايا والمصنفات. ولكن الآن، ما إذا كان R-CNN أن مجموعة من الأساليب، أو YOLO وSDD، ليس لدينا أي قيود على نوع الكائن، يمكنك الكشف عن وجه الإنسان، ويمكن أيضا الكشف عن الكائنات في فئات أخرى في نفس الوقت، وهذا هو ميزة مهمة جدا . ولكن في الكشف عن فئة معينة من الكائنات، الآن هناك بعض بطريقة خاصة، ويقول تتالي CNN الكشف عن وجه الرجل، الذي يحل محل المصنف AdaBoost مع CNN، من أجل ضمان سريع بما فيه الكفاية، والذي يستخدم CNN بسيطة جدا، على سبيل المثال وقال عدد من نواة الالتواء السيطرة قليلا جدا. في الجزء الأمامي من شلال، الأمر الذي يتطلب عملية سريعة جدا باستخدام نافذة انزلاق، وبالتالي مع CNN أنها سوف تكون بسيطة جدا، ليصبح نافذة مرحلة لاحقة صغير، تصنيف كبير الصعب، قد تتطلب CNN قليلا أكثر تعقيدا. الكشف عن سلسلة CNN حاليا على مجموعة جهه تقييم كشف FDDB، يتم إنشاء 100 عندما كشف خاطئ من معدل استدعاء يمكن أن تصل إلى 85.

6. ملخص

يصف فوق طريقة الكشف عن وجوه على أساس عمق التعلم، تلخص بإيجاز بعض ممثل:

أولا، على عمق تعلم دقة الكشف لا تجلب زيادة كبيرة جدا.

إلى مهام الكشف عن وجوه على ImageNet، على سبيل المثال، خريطة من عام 2013 لترقية 0،23-0،62 في عام 2015، وهذا التغيير مهم جدا.

بعد ذلك، تحدث طريقة الكشف عن وجوه في وأدخلت تغييرا هاما في الانحدار المربع المحيط. وبالعودة إلى بداية الارتفاع، وهو ليس مفيدا فقط لتحديد مكان ولكن أيضا يساعد على الحصول على مربع كشف أكثر دقة.
وأخيرا، هناك الكثير من التغييرات في الطريقة التي النافذة من نافذة على غرار اجتياز انزلاق الأصلي، تحولت إلى الأكثر احتمالا لإيجاد إطار الكائن، سوى عدد قليل من النوافذ لتصنيفها.

لى فنغ شبكة ملاحظة: هذا الترخيص المادة الصادرة عن دانيال القاعة، على سبيل الرجاء الاتصال ب طبع المؤلف، وتشير إلى المصدر والمؤلف، وليس اختصارها. الجمهور المهتم يمكن أن تركز على الروبوتات رقم [أفق]، وآخر الأخبار.

طريق الحرير

دانيال قاعة | بوكس هيل العالمية-: نظام الطيار الآلي من تكنولوجيا الكشف عن الهدف

1. فيولا جونز وجه كاشف

2. نموذج عضوا تشوه (DPM)

3. سلسلة R-CNN

موقف 4. الانحدار --YOLO وSSD

5. تتالي CNN

6. ملخص

متعة التكنولوجيا AI السوداء، وقوة لمحاربة السرعة للفوز هدية

في الوقت الحقيقي تتبع تقنية الإضاءة، صدر NVIDIA RTX20 سلسلة من بطاقات الرسومات، وبأسعار من 799 $

الشرق لتغيير عند أمين قائد البحرية وو سونغ دا هو لماذا لمدة عامين زوجة القديمة أبدا خيانة

الزجاج الأمامي ثواني تغيير العرض! كوريا فتة لتتفاعل مع السيارات المستقبل

تلعب وحدة التحكم: مراهق يرتدي سترة قاطرة 78؟

لعب مراقبة الوضع: المقالات القصيرة، الضمائر الثمانية يصل الجسم قاذفة

لتوضيح السرية جينغ لا تساعده مؤتمر مفتوح في العصابات هونغ كونغ القادمة حياة أسطورية

المحلية والشركات الأجنبية (VIE) عندما حافز الأسهم لتفادي إدراج راي داس على ماذا؟

ليتل كأس الأزرق، ومن جميع النواحي السنوي "سوف يكون المدى الملك" نظرة؟

الموجه له علاقة، ما أثر سيكون هناك وقتا طويلا؟

تلعب وضع التحكم: RE العندليب تغيير الوضع MG1: 100 العندليب

وقد تم تخفيض "الصورة الرمزية" الممثل للعودة "الدموي المنشار ريدج" رجل فائدة

لعب مراقبة الوضع: تغيير الوضع انبعاث الأرجواني طلاء شين تشاو

وقال سيجا لمتاجر التجزئة أو إدخال "شينمو 1 + 2 المجموعة"

مكاسب سيارة سينا "2018 الصين جائزة الابتكار التسويق" خمس جوائز

"باسم الشعب" وانتهى حزمة يدا كانغ وو تشاو المدورة ليكون ولي الأمر من الناتج المحلي الإجمالي الأفريقي

وحدة التحكم اللعب: هذا المخزون هو زام العظيم؟ العبادة!

Ninagawa ميكا أنتجت! ملصقات الدخن 6X المفرج عنهم، قبل وبعد كاميرا 20 ميجابيكسل على حد سواء

عمق | اصطناعية لعبة رحلة الاستخبارات: سوبر ماريو هو مجرد قطعة من الكعكة، ستار كرافت، LOL هو مدرب كبير

"التكنولوجيا يحركها، ويرجع ذلك إلى الحكمة والطاقة،" 2018 قمة الصين لجعل التسويق أكثر ابتكارا التسويق الذكية

تلعب وحدة التحكم: إعادة تثبيت جيم، كل مسلحين

خدع 250،000 شخص الرياضية، كيف منصة O2O القطط السليمة لتصبح "المنتجات المالية"؟

1. فيولا جونز وجه كاشف

2. نموذج عضوا تشوه (DPM)

3. سلسلة R-CNN

موقف 4. الانحدار --YOLO وSSD

5. تتالي CNN

6. ملخص

الأحكام ذات الصلة