التعرف على الصور المستقبل: الفرص والتحديات

في مجال الرؤية الكمبيوتر، والتعرف على الصور على قدم وساق في السنوات الأخيرة، ولكن قبل مواصلة استخدامها على نطاق واسع، لا تزال هناك العديد من التحديات التي نحن بحاجة إلى حل. في هذه الورقة، ومجموعة الحوسبة البصرية في الباحثون مايكروسوفت للبحوث آسيا وبتمشيط تحديات التعلم العميق لدينا تواجهها حاليا في التعرف على الصور واتجاهات البحوث المستقبلية لها قيمة.

التعرف على الصور للبشر هو شيء من السهل جدا، ولكن من حيث الآلة، التي شهدت أيضا سنوات طويلة.

في مجال الرؤية الكمبيوتر، والتعرف على الصور في السنوات الأخيرة من تطور على قدم وساق. على سبيل المثال، في كائن كشف باسكال القياسي VOC، وأداء للكشف عن متوسط دقة موجة من 30 إلى أكثر من 90 اليوم. لتصنيف الصور، في تحدي مجموعة البيانات ImageNet، الأداء الحالي للخوارزميات متقدمة أكثر من البشر.

تطبيق القيمة العالية للتكنولوجيا التعرف على الصور سوف يحدث لك بجانبي، مثل المراقبة بالفيديو، الطيار الآلي الذكي والرعاية الطبية، والقوة الدافعة وراء أحدث التطورات في التعرف على الصور وهذه هي التعلم العميق. دراسة متعمقة من النجاح يرجع ذلك أساسا إلى ثلاثة جوانب: توليد مجموعات كبيرة من البيانات، وهذا نموذج تنمية قوية وعدد كبير من موارد الحوسبة المتوفرة. لمجموعة متنوعة من المهام التعرف على الصور، قد ذهب أعماق تصميم الشبكة العصبية أبعد من تلك التي تقوم في السابق على خصائص صورة مصممة بشكل مصطنع.

على الرغم من أن حتى الآن تعلم عميقا في التعرف على الصور أنها حققت بالفعل نجاحا كبيرا، ولكن أبعد قبل استخدامها على نطاق واسع، لا تزال هناك العديد من التحديات التي تحتاج لوجه. في الوقت نفسه، ونحن نرى أيضا الكثير من البحث له قيمة المستقبل.

والتحدي: كيفية تحسين القدرة تعميم نموذج

تكنولوجيا التعرف على الصور قبل أنها يمكن أن تستخدم على نطاق واسع، تحديا هاما هو، كيف يمكننا أن نعرف أن نموذج لم يظهر في المشهد لا يزال لديه القدرة تعميم جيدة.

في الممارسة الحالية، وتنقسم مجموعة البيانات بشكل عشوائي في مجموعة التدريب ومجموعة الاختبار، ويمكن تدريب النموذج وتقييمها في المقابل على مجموعة البيانات هذه. لاحظ أنه في هذا النهج، كما هو الحال في مجموعة التدريب واختبار مجموعة لديها توزيع البيانات، لأنها تواجه كل مشهد مماثل من المحتوى وحالة التصوير من بيانات العينة.

ومع ذلك، في التطبيقات العملية، قد صور اختبار يأتي من عند توزيع البيانات يختلف عن التدريب. لم نر هذه البيانات من قبل مع بيانات التدريب قد تختلف في وجهات النظر، وحجم النطاق، وتكوين المشهد، سمات الكاميرا.

وأظهرت إحدى الدراسات أن هذا الاختلاف في دقة توزيع البيانات يمكن أن يؤدي إلى أعماق مختلفة نموذج الشبكة يولد انخفاضا كبيرا. حساسية للتغيرات الطبيعية في النموذج الحالي لتوزيع البيانات قد تصبح مشكلة خطيرة بالنسبة للتطبيقات الحرجة مثل القيادة الأوتوماتيكية.

التحدي: كيفية الاستفادة من الصغيرة وبيانات واسعة النطاق

تحديا هاما آخر نحتاج لوجه هو كيفية الاستفادة بشكل أفضل من بيانات التدريب على نطاق صغير. على الرغم من أن التعلم العميق من خلال استخدام عدد كبير من البيانات المسمى في مجموعة متنوعة من المهام التي حققت نجاحا كبيرا، ولكن الأمثلة على التكنولوجيات الموجودة في كثير من الأحيان بسبب قليلة فقط من التسميات المتاحة في صغير سيناريو تحطم البيانات. ويشار إلى هذا السيناريو عادة باسم "نموذج التعلم صغير (التعلم قليل شوت)"، والحاجة إلى النظر بعناية في التطبيقات العملية. على سبيل المثال، من المتوقع الروبوت المنزلية أن تكتمل هذه المهمة: لإظهار أن وجوه جديدة وعرض مرة واحدة فقط، وبعد ذلك سوف تكون قادرة على التعرف على وجوه. يمكن للمرء أن إنجاز هذه المهمة بشكل طبيعي، حتى بعد أن تم تشغيلها الكائن، وعلى سبيل المثال، يتم طي السجاد يصل. كيف تقدم القضايا البحثية الشبكة العصبية مثل تعميم البشري هو مفتوح.

وعلى الطرف الآخر هو كيفية استخدام البيانات فائقة على نطاق واسع وتحسين فعالية أداء خوارزميات الاعتراف. لالطيار الآلي مثل التطبيقات الهامة، والتكلفة أخطاء التعرف على الصور هي عالية جدا. لذلك، قد الباحثين خلق مجموعات البيانات الكبيرة جدا، ومجموعة البيانات التي تحتوي على مئات الملايين من الصور مع الشرح الغنية، وأنهم يأملون في استخدام البيانات إلى دقة النموذج قد تحسنت بشكل ملحوظ.

ومع ذلك، الخوارزمية لا يجعل من حسن استخدام هذه البيانات فائقة على نطاق واسع. على علامة 300 مليون انها تحتوي على صور من مجموعة البيانات JFT، الخصائص المختلفة لعمق يزيد الشبكة وكمية من تدريب البيانات، والتي تبين سوى تحسن حجم وغاريتمي (الشكل 1). في حالة البيانات على نطاق واسع، وتدريب البيانات في تزايد مستمر الإيرادات الناجمة عن سيصبح واضحا بشكل متزايد أن هذه قضية مهمة يجب حلها.

الكشف عن FIG على مجموعة البيانات الهدف الأداء JFT-300M على زيدت الأمثلة التدريب عدة مرات لتحسين الزوج. المحور x هو حجم البيانات من مقياس لوغاريتمي. المحور الصادي هو أداء الكشف عن الهدف. تركت على خريطة استخدام @ مجموعة اختبار COCO minival المؤشر، والحق في استخدام مؤشرات mAP@0.5 على باسكال مجموعة اختبار VOC 2007. تمثل اثنين من المنحنيات الحمراء والزرقاء نموذجين مختلفين.

ثلاثة تحديات: فهم شامل للمشهد

وبالإضافة إلى تلك التي ترتبط مع بيانات التدريب وتعميم هذه المسألة، كان هناك موضوع البحث المهم هو فهم شامل للمشهد. وبالإضافة إلى تحديد وتحديد الكائنات في المشهد، يمكن للانسان أيضا أن تكون العلاقة بين الاستدلال الكائن والكائن، وهي جزء من المستوى العام، ومشهد ثلاثي الأبعاد وسمات الكائنات التخطيط.

للحصول على فهم أوسع للمشهد ستساعد هذه التطبيقات مثل الروبوت التفاعلي، لأن هذه التطبيقات غالبا ما تتطلب معلومات أخرى من تحديد الكائن والمكان. وتنطوي هذه المهمة ليس فقط تصور المشهد، ولكن أيضا على الحاجة إلى فهم النظرة إلى العالم الحقيقي. ولتحقيق هذا الهدف، لدينا طريق طويل لنقطعه. مثال على فهم شامل للتجزئة بانورامية المشهد، كما هو موضح في الشكل.

الشكل الثاني (أ) الصورة؛ (ب) تقسيم الدلالي: تحديد السماء، والعشب، والمواد الطريق الأخرى لا يحصى شكل أي الثابتة (مادة خام)، طريقة وضع العلامات المسمى عادة إلى كل بكسل؛ (ج) تقسيم على سبيل المثال: وعدد من التقسيم قد يكون بشكل مستقل وآخرون، حيوان أو كائن الحالات أداة (مثيل كائن)، وعادة مع المربع المحيط أو بمناسبة أقنعة تجزئة الهدف؛ (د) تقسيم بانوراما: توليد موحدة، وتجزئة الصورة العالمية، والتعرف على المواد فقط، ولكن أيضا تحديد الكائن.

التحدي الرابع: شبكة أتمتة التصميم

التحدي يذكر الماضي هو جعل أتمتة التصميم الشبكة. في السنوات الأخيرة، والتعرف على الصور في هذا التركيز على العمل الميداني لتصميم تحديث تصميم هندسة الشبكات خصائص أفضل. ومع ذلك، فإن تصميم بنية الشبكة هو عملية شاقة، فإنه يحتاج إلى التعامل مع عدد كبير من المعلمات فائقة وخيارات التصميم. ضبط هذه العناصر تتطلب مهندسين من ذوي الخبرة تنفق الكثير من الوقت والجهد.

الأهم من ذلك أن العمارة الأمثل الأمثل الهندسة المعمارية ومهمة إلى مهمة أخرى قد تكون مختلفة تماما. وعلى الرغم من دراستنا للبحث التلقائي العمارة العصبية قد بدأت بالفعل، لكنها لا تزال في المراحل المبكرة، ويعمل فقط على مهمة تصنيف الصور. الطريقة الحالية لفضاء البحث ضيقة جدا، لأنها تبحث عن تركيبة الأمثل من وحدة الشبكة المحلية القائمة (مثل التفاف عمق ومتصلة detachably إلى هوية)، ولا يمكن اكتشاف وحدة جديدة. ومن غير الواضح ما إذا كانت هذه الأساليب القائمة المختصة لمهام أكثر تعقيدا.

مجردة العمارة الرسم الشكل الثالث بحث العصبية الخوارزمية. أولا، استراتيجية بحثا عن المعرفة مسبقا فضاء البحث وحدد الإطار، ثم هذه الاستراتيجيات تقييم إطار لتقييم وتمرير تقييم الأداء من ألف لاستراتيجية البحث.

وعلى الرغم من هذه التحديات في مجال التعرف على الصور، ولكن ما زلنا نؤمن كبيرة في دراسة متعمقة المحتملة في مجال التعرف على الصور. فرص كثيرة لحل هذه المشاكل، دعونا ننظر إلى بعض الاتجاهات البحثية ومنها:

وثمة اتجاه: التكامل من الحس السليم

هناك حقل من التعرف على الصور بحث المهم هو دراسة متعمقة الحس السليم. حاليا، والتعلم العميق أساسا تستخدم تقنيات بحتة تعتمد على البيانات. في التعلم العميق، فإن الشبكة العصبية باستخدام مجموعة تدريب عينات المسمى وظيفة غير الخطية للتعلم، وتعلم وظيفة بعد هذا الدور إلى بكسل الصورة في الاختبار. خارج الاعلام التابع لمجموعة التدريب التي لم يتم استخدامها.

في المقابل، هو الاعتراف الكائن البشري لا يقوم إلا على عينة شهدت، ولكن أيضا على أساس معرفتهم عن العالم الحقيقي. الناس قادرون على السبب حول ما يرونه، وذلك لتجنب نتائج التعرف على غير منطقي. وبالإضافة إلى ذلك، عندما تواجه مع شيء توقعات جديدة أو تجاوزها، يمكن للانسان ضبط بسرعة معرفتهم لشرح هذه التجربة الجديدة. كيفية الحصول على شبكة العمق، لأنها تمثل الحس السليم واستخدام المنطق والحس السليم هو التحدي.

الاتجاه الثاني: التفكير الهندسي

التعرف على الصور جي والتفكير الهندسي هو الاتجاه المحتمل آخر. نموذج التعرف على الصور الرئيسي يعتبر فقط مظهر ثنائية الأبعاد، ولكن يمكن للانسان ان يرى تخطيط المشهد ثلاثي الأبعاد، ويستنتج فئاته الدلالات الجوهرية. ويمكن الحصول على تخطيط ثلاثي الأبعاد فقط من رؤية مجهر، يمكنك أيضا الحصول على مدخلات من التفكير الهندسي ثنائي الأبعاد، تماما كما فعلت عند مشاهدة الصور. تحديد الفوتوغرافي المشترك والتفكير الهندسي يوفر فوائد لكلا الطرفين.

تحديد من تخطيط التفكير الهندسي ثلاثي الأبعاد قد تساعد في حالة منظور غير مرئية، وظهور تشوه دليل والاعتراف بها. ويمكن أيضا القضاء على دلالات تخطيط غير معقول، وتساعد في تحديد وظيفة أو شكل ثلاثي الأبعاد المحددة حسب الفئات. على سبيل المثال، هناك فرق أريكة ضخمة في المظهر في الصف. ومع ذلك، إلا أنهما يشتركان السمات المشتركة التي يمكن أن تساعد في التعرف عليها. على سبيل المثال، لديهم مقعد الأفقي، لدعم السطح الخلفي. من ناحية أخرى، فإنه يمكن تحديد الفضاء الدلالي حل تطبيع التفكير الهندسي. على سبيل المثال، إذا تم تحديد الكلب في مكان الحادث، وأنه ينبغي أن يكون متسقا مع هيكل ثلاثي الأبعاد المقابلة للنموذج شكل ثلاثي الأبعاد للكلب.

إعادة بنائها FIG أربعة إطارات من منظورين مختلفين من التعقيد ديناميكية الفيديو سحابة نقطة المشهد

الاتجاه الثالث: نمذجة العلاقة

لديها علاقة النمذجة أيضا إمكانية البحث عظيمة. تريد فهم شامل للمشهد، على العلاقة بين الكيانات المستهدفة موجودة في مكان الحادث ونمذجة التفاعل مهم جدا (الشكل الرابع). النظر في صورتين، تحتوي كل صورة رجل وحصان. إذا كان العرض هو ركوب الخيل شخص، وتظهر آخر وداس على الخيول الناس، صورتين أعرب يبدو معنى مختلف تماما. وبالإضافة إلى ذلك، فإن العلاقة بين المشهد النمذجة لاستخراج بنية الأساسية يمكن أن تساعد في تعويض عن عدم اليقين غامضة الحالي من عمق التعلم بسبب محدودية البيانات والقضايا المستجدة. على الرغم من أن الناس قد تحاول حل هذه النمذجة علاقة المشكلة، ولكن هذه الأبحاث ما زالت أولية، وهناك ما زال هناك الكثير لاستكشاف الفضاء.

شبكات FIG خمسة الكشف عن الهدف. حيث يتم تمثيل كائن نظرة، تبين أن ملامح هندسية من وجوه

الاتجاه الرابع: تعلم كيفية التعلم

وهناك أيضا اتجاه الجدير بالذكر هو التعلم الفوقية، الهدف منه هو معرفة عملية التعلم. وقد جذبت هذه المسألة مؤخرا اهتماما كبيرا، ويمكن أيضا أن الهندسة المعمارية بحث العصبية تعتبر واحدة من تطبيقاتها.

ومع ذلك، ويرجع ذلك إلى الآلية الحالية لتعلم عملية النمذجة والتمثيل وخوارزمية لا تزال شابة نسبيا، والبحوث التعلم ميتا لا يزال في مراحله المبكرة. البحث الهندسة المعمارية العصبي، على سبيل المثال، فإنه يقتصر فقط على مزيج بسيط من وحدات الشبكة الحالية. المتعلمين يوان لا يمكن القبض على الحدس والبصيرة خفية اللازمة لإنشاء وحدة شبكة جديدة. مع تقدم تعلم يوان، وإمكانات للهندسة المعمارية التلقائي قد يتم الافراج تماما، ثم الحصول على أكثر بكثير من اليدوي تصميم هندسة الشبكات.

تقدم الشكل السادس مؤخرا الفوقية التعلم. من اليسار إلى اليمين يتعلمون يوان الأمثل فائقة المعلمة، بحث العمارة العصبي، أقل عينة تصنيف الصور.

هذه لحظة رائعة أن تشارك في التعرف على الصور، حقل كامل لتعزيز التنمية، فرصة للتأثير في عصر مستقبل التطبيق. ونحن نتطلع بشغف إلى التقدم المقبلة، ونتطلع إلى هذه التكنولوجيات الجديدة لطريقة عميقة وسحرية لتغيير حياتنا.

المصدر: عناوين مايكروسوفت للبحوث AI

الكاتب: الجيل موسم الذروة، ولين الجانب، وقوه Baining

- [THE END] -

وحدث الملك أو انعطاف النقطة، لقد حان الأموال النقدية الصينية إلى أسفل من الثمن؟

الشجعان! لا يعرف الخوف! تبدأ!

في حالة سكر القيادة أذى للآخرين، وذلك للحد من قسم شرطة المرور، وحتى هذه التحذيرات يريد أن يخرج!

يذكر الجارديان "الجميع" يتحمل المسؤولية!

أكتوبر التسعة الأكثر بلدة فرار مناسبة، قلة من الناس مجموعة جينغمى، واختيار بضعة أيام لقضاء بعض الوقت على مهل

الحصول على أدنى إلى 150،000، الرجل القوي SUV ضروري! التي تبدو غير الطبق الخاص بك

باندا تعيش من خط التجميع، Sicong غير موثوق بها للغاية!

الصين AI رقاقة الحرب بداية صعبة

اثنان في الصباح، والدي في محطة القطار في انتظار اختيار الفتاة يراقب الدموع ركض ......

لماذا الكثير من الناس مثل ناقل الحركة اليدوي؟ العضو: لا أحد لاستعارة سيارة، لا حقا واحدة إلى الاقتراض!

عذرا، أنت لا تستحق دائرة الأصدقاء تجفيف الجمال

تريد أن تكون الأولى في العالم يمكن أن يكون هناك من السهل جدا! نيمار هو نظرة على كيفية خالف فيه غير محدود!