كيفية التعامل مع ضخمة، نادرة، الفئة المفتوحة التعرف البصري؟ اقترح معهد بيركلي AI مفتوحة طريقة تحديد ذيل طويل

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: في مجال الرؤية الكمبيوتر، وتصنيف الصور هو في الواقع سؤالا جوهريا، ثم مرة واحدة واجه ذيل طويل للغاية، وفتح مجموعة البيانات، وحتى معظم المهام التعرف على الصور الأساسية، فإنه من الصعب أيضا إلى تحقيقه. معهد بيركلي للتفكير AI بعض الخبرات ذات الصلة على أساس المقترح "فتح تحديد ذيل طويل" (OLTR) الأسلوب، وفقا لتقارير، وهذه الطريقة يمكن التعامل كبيرة، نادرة، الفئة المفتوحة التعرف البصري، يتم تقييم نظام التعرف البصري أكثر شمولا النوع، أكثر واقعية من الاختبار، ويمكن تمديده إلى كشف، وتجزئة وتعزيز التعلم. هذا الإنجاز كما تم نشرها على معهد بيركلي لمنظمة العفو الدولية، والشبكة AI تقنية مراجعة لى فنغ جمعت على النحو التالي.

الكمبيوتر الرؤية VS البيئة الحالية في المشهد العالم الحقيقي

يوم واحد، عالم البيئة يأتون إلينا. لأنه أخذ الكثير من الصور للحيوانات البرية مع كاميرا الفيديو، أملا في استخدام تكنولوجيا الرؤية الكمبيوتر الحديثة، وقواعد البيانات التعرف الآلي على أساس هذه الصور التي تأخذ الحيوان. هذا يبدو وكأنه تصنيف الصور الأساسية، لذلك نحن واثقون جدا، وهذا بالتأكيد لا توجد مشكلة. ومع ذلك، فإن النتائج التي فشلت. عالم البيئة الذين قدموا قاعدة البيانات للغاية ذيل طويل ومفتوح العضوية. بشكل عام، طالما أن التدريب لا يستطيعون الحصول على ما يكفي من البيانات، سنطلب بعضها البعض، هل من الممكن أن تقدم بيانات الفئة أكثر الذيل، في حين تجاهل بعض مجموعة مفتوحة لفئات قد تظهر في بيانات الاختبار. للأسف، علماء البيئة الذين يرغبون في حل المشكلة، ونحن لا يمكن أن تعتمد ممارسة لجمع المزيد من البيانات. وبما أن هذه علماء البيئة يمكن أن يستغرق وقتا طويلا، وسوف يتم تصويرها في البرية انهم يخططون لاطلاق النار الحيوانات النادرة. من أجل اتخاذ بعض الحيوانات المهددة بالانقراض، لديهم حتى الانتظار لسنوات لالتقاط صورة. وذلك في نفس الوقت، الناشئة الأنواع الحيوانية الجديدة، والأنواع القديمة تختفي في نفس الوقت. في مثل هذا النظام ديناميكية، لا يمكن أبدا أن تكون ثابتة العدد الإجمالي للفئات. وعلاوة على ذلك، وقال الحماية إحساس الحيوان وتعريف الحيوانات النادرة المكتشفة حديثا لا يزال هناك الكثير من الحيوانات هي أكثر قيمة من العدد الذي تم تحديده. اذا كنا نستطيع تحديد جيدا الحيوانات في عدد كبير من الفئات، التي من شأنها أن النهج الذي نتبعه أبدا أن يكون أي قيمة عملية. حاولنا بكل الطرق الممكنة، ويمكن التفكير في حوكموا، مثل تعزيز البيانات، وتقنيات أخذ العينات، ودراسة عينة صغيرة، تصنيف غير متوازن، ولكن أيا من الأساليب القائمة يمكن أيضا التعامل مع الصفوف الكبيرة، وفئة نادرة الفئة وفتح (FIG 1).

الشكل 1: ثغرات المشهد في رؤية الكمبيوتر الموجودة والبيئة في العالم الحقيقي لا بأس بها.

ومنذ ذلك الحين، كنا التفكير، هناك مثل هذا مشاهد فجوة كبيرة طرق رؤية الكمبيوتر والعالم الحقيقي موجود، ما هو السبب الرئيسي؟ ليس فقط وجود الحياة البرية بيانات التصوير الفوتوغرافي مثل هذه المشاكل، في واقع الحياة، وهذا تكرار المشكلة والصناعة والأوساط الأكاديمية لها. إذا كانت الشبكة التفاف العصبية يمكن أن تركز على نحو سلس جدا الصور تصنيفها في بيانات الصورة ImageNet ضخمة، ثم لماذا كان لا يزال لا يحل المشكلة لتصنيف الصور في عالم مفتوح؟ في مجال التعرف البصري، وكلها تقريبا من المشاكل لها حلول ناجحة، مثل التعلم عينة صغيرة وتحديد-مجموعة مفتوحة. يبدو هؤلاء الناس إلى أن تكون هناك مشكلة ككل للنظر. في التطبيقات في العالم الحقيقي، سواء في الرأس أو الذيل فئة تصنيف الفئة من اجهت في بعض الأحيان مع هذه المشكلة وحدها. ولذلك، فإننا نعتقد أن الفجوة بين النظرية والممارسة قد تنجم عن تحديد الهوية البصرية الخاصة بها.

ذيل طويل لتحديد مفتوحة (فتح طويل الذيل الاعتراف، OLTR)

في البيئة الحالية، ومتوازنة الهوية البصرية، وتدريب واختبار مجموعة بيانات في العالم مغلقة (مثل مجموعة البيانات ImageNet). ولكن هذا لا يضع محاكاة جيدة من سيناريوهات في العالم الحقيقي. على سبيل المثال، فإن علماء البيئة لن تكون قادرة على جمع البيانات الحياة البرية جمع متوازنة، لأنه لم يتم متوازنة في توزيع الحيوانات. وبالمثل، من علامات الطريق، والعلامات التجارية الأزياء والوجه والأحوال الجوية، وهلم جرا للبيئة الشارع، والتوزيع غير المتكافئ للأنواع مختلفة من مجموعات البيانات المفتوحة تتداخل مع الناس. لكي تعكس بأمانة هذه الجوانب، بدأنا مجموعة بيانات دراسة رسمية مستمدة من "فتح تحديد ذيل طويل" الطبيعي (OLTR). وينبغي أن يكون نظام عملي قادرة على تصنيف فئات قليلة مشتركة وأكثر نادرة بين الفئات، لخصت من بين عدد قليل جدا من الأمثلة المعروفة تلخيصها في مفهوم فئة واحدة، وهناك بعض في الماضي كنت لم أر أبدا فئة القائم مثلا، لفهم الطابع الفريد لهذه الفئة. وسوف OLTR يعرف بأنه التعلم من ذيل طويل والبيانات الموزعة المفتوحة، واستنادا إلى مجموعة متوازنة من بيانات الاختبار لتقييم دقة تصنيف، وبيانات الاختبار المقرر أن يتم تضمينها في الطيف المستمر في الرأس والذيل ومفتوحة فئة تعيين (FIG 2).

الشكل 2: ونحن ندرك أن ذيل طويل من القضايا المفتوحة يجب أن تكون مفتوحة للتعلم من بيانات التدريب ذيل طويل العالم توزيعها، وتجهيز الخلل تصنيف كامل الطيف، والتعلم عينة صغيرة وتحديد مفتوح مجموعة.

OLTR لا تقتصر على تعريف حرفيا، وهناك ثلاثة أسئلة ويرتبط بها ارتباطا وثيقا، هي تصنيف غير متوازن، والتعلم عينة صغيرة ومفتوحة تحديد مجموعة، كانت دراسة مستقلة وعادة ما ينظر الناس في العزلة. يلخص الشكل (3) الخلافات بينهما. في تقييم أنظمة التعرف البصري، يمكن OLTR المقترحة حديثا تصبح أوسع، واختبار أكثر واقعية.

FIG 3: شجرة غير المتوازنة، ودراسة عينة صغيرة، والفرق بين فتح ومجموعة مفتوحة معرف تحديد ذيل طويل (OLTR).

أهمية الانتباه والذاكرة

نقترح تعيين الصور إلى مساحة الميزة، بحيث يمكن ربطها مقياس أساس التعلم بين المفهوم البصري، وهذا الإجراء ليس فقط الاعتراف تصنيف العالم المغلق والاعتراف حداثة الانفتاح على العالم. التعريف الديناميكي جزءا لا يتجزأ من طبقة ملزمة لنا المقترحة ميزة الذاكرة مباشرة وميزة الصورة المرتبطة الوقت نفسه، فإن القاعدة مميزة أعرب الألفة مع فئات معروفة، كما هو مبين في الشكل.

أولا، نحصل على الذاكرة البصرية عن طريق جمع المعرفة من الفئات الرأس والذيل فئات، ثم مفهوم البصرية المخزنة في الذاكرة وخصائص الذاكرة المرتبطة إعادة الحقن لتعزيز الميزات الأصلية مباشرة. يمكننا أن تفهم على أنها استخدام المعرفة التي يسببها (أي ميزة الذاكرة) للمساعدة في تحقيق الملاحظة المباشرة (سمة أي مباشرة). وعلمنا أيضا على السيطرة على مجموعة من المفاهيم في ميزة الذاكرة ليتم حقنه في عدد ونوع. كما ارتفع رأس فئة ثروة من المعرفة لوحظ مباشرة، بحيث يتم حقن كمية صغيرة فقط من خصائص الذاكرة. بدلا من ذلك، نلاحظ الطبقات الذيل الحصول على القليل جدا، سمة ذلك في الذاكرة المرتبطة بالمفاهيم المرئية مفيد جدا. وأخيرا، فإننا الحصول على ما يصل إلى الذاكرة البصرية عن طريق حساب، وتعديل مصداقية الفئة المفتوحة.

الشكل 4: تفسير بديهية للطريقة المقترحة. التعريف الديناميكي جزءا لا يتجزأ من طبقة نقترح الجمع بين الذاكرة المباشرة والنقابي حيث ميزة صورة، يمثل درجة من الألفة مع خصائص نوع القاعدة المعروفة.

لتعزيز

كما هو مبين في الشكل (5)، والطريقة المقترحة لمدة طويلة / متوسطة / صغيرة فئة حجم العينة والفئة المفتوحة عملية شاملة، حققت في كل الاحترام تحسنا كبيرا.

الشكل (5): وصفت طريقة هنا فيما يتعلق المطلق نموذج جزء F1 المشترك. جعلت الطريقة المقترحة تقدم شامل في موضوع / العلوي / منخفضة الفئة والفئة المفتوحة.

تعلم التصور الدينامي

هنا، نحن سيتم تنشيط الخلايا العصبية في الرأس عن طريق التفتيش البصري من الخصائص حقن مفهوم البصري للذاكرة، كما هو مبين في الشكل. على وجه التحديد، لكل صورة المدخلات، وحددنا هجرة الخلايا العصبية في أعلى 3 في ميزة الذاكرة. وتصور جميع الخلايا العصبية من خلال مجموعة التدريب بأكمله حتى مجموعة من تفعيل التصحيح. على سبيل المثال، إلى الزاوية اليسرى العليا من الصورة في ذيل فئة "الديك"، ونحن تعلمنا أن الهجرة نهج بدوره يمثل "رئيس الطائر" مفهوم البصرية "جولة" و "نقطة مثل الملمس" من. بعد ميزة الحقن، والمعلومات جزءا لا يتجزأ من التعريف الديناميكي ثراء طبقة ودرجة الاعتراف يصبح أعلى.

الشكل 6: خصائص الذاكرة في الصفوف الثلاثة الأولى من هذا المفهوم البصري للحالة الحقن. بالإضافة إلى اليمين السفلي من الفشل (باللون الأحمر)، وبشكل سيئ والآخر ثلاث صور إدخال نموذج مشترك، نموذجنا تصنف بشكل صحيح. على سبيل المثال، إلى الزاوية اليسرى العليا من الصورة التي تنتمي إلى ذيل "الديك" فئة لتصنيف الطريقة المقترحة كنا تعلمنا تمثل الهجرة "رئيس الطائر" مفهوم البصرية "جولة" و "نقطة مثل الملمس" من.

العودة إلى واقع

الآن دعونا نعود إلى الغابة الحقيقية، وطريقة نقترح في هذه المقالة تنطبق على البيانات عالم البيئة والحياة البرية المذكورة في القسم الأول. لحسن الحظ، لدينا إطار جديد من دون التضحية الطبقة الغنية، في حين أن الحصول تقدما كبيرا في فئة نادرة. على وجه التحديد، وعدد من الصور في أقل من 40 فئة، تركنا النتائج تحسنت حوالي 40 (من 25 إلى 66). وفي الكشف عن فئة مفتوحة، ونحن دعونا نتائج تحسنت بنسبة أكثر من 15.

ونحن نعتقد أن طريقة الحساب وضعت في بيئة مفتوحة وتخدم في نهاية المطاف إلى تحديد طبيعة طويلة الذيل من توزيع مجموعة البيانات المطلوبة. وباختصار، مفتوحة تحديد ذيل طويل (OLTR) هو تقييم نظام التعرف البصري أكثر شمولا واختبارا حقيقيا، فإنه يمكن زيادة تمتد إلى كشف، وتجزئة وعلى تعزيز التعلم.

شكر وتقدير: شكرا للصحيفة "ذيل طويل التعرف عالم مفتوح واسعة النطاق" من كل مؤلفي كتب في المناقشة، وقدمت مساهمات في هذا بلوق. الآراء الواردة في هذه الوثيقة هي ملك للمؤلف.

وبناء على هذا بلوق وظيفة وتقديم عرض شفوي في مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط (CVPR 2019) ورقة، على النحو التالي:

  • "فتح العالم على نطاق واسع الاعتراف الذيل طويل" (واسع النطاق الاعتراف طويل الذيل في عالم مفتوح)

    الكاتب: زيواي ليو *، تشونغ مياو *، Xiaohang زان، Jiayun وانغ، Boqing غونغ، ستيلا X. يو

  • ورقة: الشبكي: //arxiv.org/abs/1904.05160

  • مشروع ل: الشبكي: //liuziwei7.github.io/projects/LongTail.html

  • مجموعة البيانات: الشبكي: //drive.google.com/drive/folders/1j7Nkfe6ZhzKFXePHdsseeeGI877Xu1yf

  • كود و الموديل: الشبكي: //github.com/zhmiao/OpenLongTailRecognition-OLTR

شبكة لى فنغ عبر https://bair.berkeley.edu/blog/2019/05/13/oltr/ تقارير منظمة العفو الدولية تقنية مراجعة

هونغ كونغ الملياردير لي شاو كي أعلن الثانية تقاعده، الممثلة كاثي وزوجها حصة صافي قيمتها المليارات

اصطياد الأمن القومي Hengda

على قدم وساق، وسط الصين الدولي للسيارات جميلة الجيل دبوس مجموعة شاملة من على الخط!

وسجل 888 سهم مرتين، ومكان اجتماع المساهمين ولكن التوسع غير ماوتاي مدينة أوماها

في بحيرة دا مينغ، مشاعر رومانسية أوائل الصيف سبرينغز

واعترف لجامعة تسينغهوا بعد فشل 676 دقيقة على الرسائل الصغيرة، ونحن نرى أن هاتفه الصمت

تسنغ يو تونغ واحد جديد "الحاضر" في المحاولة الأولى خط MV مجردة

ذوي الدخل غالبا ما يعبر عن اهتمام! لا أرى هذا إدارة المعلومات، والحرص على الإفلاس!

عيد ميلاد تشانغ شين يي الأول مع صورة له كتلة ابن الشمس، وجه طفل يتعرض كما نسخة طبق الأصل من هونغ يوان

الثلوج ل "لعبة العروش" نهاية ضرب أكثر من اللازم، وقبول علاج الأمراض النفسية

الحوار الفني عبر الزمان والمكان: تفسير الجمالي للحياة الفن Junshan

حصاد ابتسامة