جوجل تحديثات أكبر مجموعة بيانات الصورة المشروح، إضافة السرد المحلية

مؤخرا، أعلنت شركة جوجل AI الافراج عن الصور المفتوحة V6، والإصدار V5 مقارنة مع توسع كبير الشرح فتح الصور مجموعات البيانات الخاصة به، ويضيف عددا من علاقة بصرية جديدة (على سبيل المثال، "كلب الصيد الفريسبي")، شرح عمل الإنسان (على سبيل المثال "القفز امرأة") وعلامة صورة أفقية (على سبيل المثال، "بيزلي").

والجدير بالذكر أن هذا الإصدار أيضا يضيف المترجمة وصف، وهذا هو شكل جديد من الشرح متعدد الوسائط، صوت الهدف التزامن، والنص، والفأرة تتبع تكوين وصفها. في OpenImagesV6 يمكن استخدام هذه 500K المحلية لوصف الصورة. وبالإضافة إلى ذلك، من أجل تسهيل المقارنة مع الأعمال السابقة، وجوجل أيضا عن مجموعات بيانات الصورة 123K COCO أفرجت تعليقات السردية المترجمة.

صور مفتوحة V6 URL: الشبكي: //g.co/dataset/openimages

COCO بيانات URL: HTTP: //cocodataset.org/

فتح V5 الصور في وضع التعليق أفقية علامة صورة، مربع وثاب، وقطاع أمثلة العلاقات البصرية. المصدر: 1969 D.Miller من RS كامارو / SS، أنيتا kluska من المنزل، القط مقهى شينجوكو كاليكو آري Helminen، وأندريا Sartorati من Radiofiera فيلا Cordellina لومباردي، مونتيشيو ماجوري (VI) -agosto 2010.

في نواح كثيرة، وفتح الصور هي أكبر مجموعة بيانات الصورة المشروح تستخدم لتدريب العصبي عمق شبكة الالتواء للحصول على أحدث المهام رؤية الكمبيوتر.

عنوان الفيديو: الشبكي: //youtu.be/mZqHVUstmIQ

ووصفت الأمثلة الترجمة. المصدر: الربيع كاسيا هو هنا

توطين السرد

أحد الدوافع وراء الدراسات توطين السرد، واستخدام الرابط بين الرؤية واللغة، ويتم عادة بوصف الناس نص تعليق صورة زائد. ومع ذلك، الحد واحد هو عدم وجود أساس شرح الصورة البصرية التي لا نعرف أي واحد هو صورة وصف النص. للتخفيف من حدة هذه المشكلة، وجه بعض من مجموعة البيانات السابقة من المصطلحات التي تظهر في وصف النص مربع اللاحق. في المقابل، في وصف المحلية، وكلها وصفت كل كلمة من النص في موقف المقابلة.

المراسلات بين مستويات مختلفة من محتوى الصورة وترجمات. من اليسار إلى اليمين: العنوان الكامل للصورة (COCO)؛ الأسماء المستطيل (كيان Flickr30k)؛ كل كلمة (مترجم السرد) القسم تتبع الماوس. المصدر: COCO، الكيانات Flickr30k، وسابا راما.

وصف المترجمة الناتجة عن الحواشي، لأنها توفر الوصف اللفظي للصورة، في حين تحوم فوق المنطقة كما هو موضح. الشرح الصوتي هو جوهر الأسلوب، الذي يربط مباشرة منطقة الصورة وصف مع إشارته. من أجل جعل صفا أكثر يسرا، والكلام التلقائي النسخ الشرح النتيجة التي تتماشى مع النتائج النسخ اليدوي. هذا يعيد الطابع الزمني وصفها، لضمان أن الصوت والنصوص وتتبع الفأرة الأيمن وتزامن هذه الأوضاع الثلاثة.

محاذاة اليدوي والآلي من النسخ، ويستند الصورة على عمل التصميم الأصلي Freepik.

يشار إلى أنه في نفس الوقت كان المتكلم هو بديهية جدا، وخلق المزيد من الطرق للدراسة من الناس وصف الصورة. على سبيل المثال، لاحظنا أن هناك أنماط مختلفة من خط في تمثيل مدى المكاني للكائن - تحيط رسم خطوط الكامل، تسطير، وهلم جرا - دراسة هذه الأنماط يمكن أن تجلب أفكارا قيمة إلى التصميم الجديد واجهة المستخدم.

الماوس تتبع المنطقة المقابلة لصورة الكلمة التالية. المصدر: عن طريق ماركوني، إليوت براون بوسيتانو-فندق لو Agavi قارب، فيفيك جينا إطار الهواء، وحديقة CL P1050512 ولاية فرجينيا.

مبلغ إضافي قدره البيانات هذه الرواية المحلية ممثلة في النهاية كم؟ ومن المعلوم أن طول إجمالي يبلغ حوالي 6400 كم مسارات الماوس، إن لم يكن التوقف عن القراءة، جميع السرد سوف يستغرق حوالي 1.5 سنة لقراءة!

العلاقات بصرية جديدة، والسلوك البشري ومستوى الشرح صورة

بالإضافة إلى توطين السرد، في OpenImagesV6 في، جوجل سوف اكتب البصرية العلاقة الشرح يضيف أمر من حجم (حتى 1.4k)، مثل إضافة "رجل لوح التزلج"، "رجل وامرأة تشابكت ايديهما" و "كلب الصيد الفريسبي "وهلم جرا.

المصدر: IMG مؤلف جيمس باك، DSC المؤلف كوينتن Meulepas، dsc06464 الكاتب sally9258.

منذ ولادة رؤية الكمبيوتر، صورة الشعب فقد كان واحدا من المجالات الأساسية للبحث، لفهم ما هو ضروري للعديد من التطبيقات، وهؤلاء الناس يفعلون. ولذلك، يتضمن فتح الصور V6 أيضا تعليقات 2.5 مليون ينفذ الطبقة الفردية إجراءات مستقلة، مثل القفز، وابتسامة أو الاستلقاء.

المصدر: بو فتاه من DSCs1341 (2)، يوهانس غاردنر من ريتشارد فاغنر سدادة 2015.

وأخيرا، كما أضافت جوجل 23.5 مليون التحقق اليدوي الجديد للمستوى علامة صورة، مع ما يقرب من 20000 الفئة، وحجم أكثر من 59.9M.

صور مفتوحة التحدي

وشملت مايو الماضي صدر الإصدار 5 صور المفتوحة V5 في صورة 9M، والأفقي علامة صورة من 36M، 15.8M المربع المحيط، مجزأة أمثلة 2.8M والعلاقة البصرية من 391k.

مجموعة البيانات نفسها، 2019، الذي عقد جوجل صور المفتوحة التحدي، وتنقسم اللعبة إلى الكشف عن الهدف، وتجزئة وأمثلة البصرية للعلاقة بين مسار اختبار ثلاثة، هذه آخر التطورات في ثلاثة التكنولوجيا الاتجاهات قد لعبت دورا إيجابيا في تعزيز.

مسابقة مقدمة

  • حلبة كشف الهدف

الكشف عن مسار الهدف في المربع المحيط التنبؤ مطالبة حول مثيل الكائن.

تدريب مجموعة يحتوي على المربع المحيط 12.2M في 500 فئات، تشمل 1.7 مليون الصور. لضمان الدقة والاتساق، وهذه الصناديق المحيط معظمهم من المفسرين المهنية رسمت باليد. مجموعة بيانات الصورة هي متنوعة جدا، ومشاهد معقدة عادة يتكون عدد وافر من الأشياء - كل صورة متوسط الأجسام السبعة.

صور عينة: مارك ريس وعمل بول Gosselaar الغيتار

موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-object-detection

  • المسار تقسيم الأمثلة

أمثلة على تقسيم المسار المطلوب قناع كائن تجزئة.

مجموعة تدريب يحتوي على 3002.1M فئات قطاع أمثلة قناع، ويضم مجموعة 23K التحقق من صحة قناع إضافية. تدريب مجموعة من القناع هو تنتج معظم عملية تجزئة التفاعلية المتقدمة، في عملية والمعلقين المهنية الإنسان تصحيح تكرارا الناتج تقسيم الشبكة العصبية. لضمان جودة والتحقق منها واختبار للقناع يتم تعيين المشروح يدويا.

مجموعة التدريب ملاحظات مثال. اليسار: غاري ستيفنز في عام 1995، وأصيب وشى احة العلوم والتكنولوجيا، الصحيح: آري Helminen القط مقهى اطلاق النار

موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-instance-segmentation

  • الدائرة الكشف البصرية العلاقة

البصرية العلاقة الدوائر الكشف المطلوبة للكشف عن الأشياء وعلاقة اتصال بهم.

تدريب مجموعة تضم 329 العلاقة (ثلاثة على ثلاثة) و375K عينات التدريب. وتشمل هذه العلاقات سواء على العلاقة بين الأشخاص والأشياء (على سبيل المثال، "الغيتار امرأة اللعب"، "الرجال لاتخاذ ميكروفون")، وكذلك العلاقة بين الأشياء والكائنات (مثل "البيرة على الطاولة"، "الكلب سيارة")، ويشمل أيضا أشياء العلاقة سمة والكائنات (مثل "يتم حقيبة يد من الجلد" و "مصنوع من الخشب مقاعد البدلاء").

الغيتار رجل

موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-visual-relationship

جوائز المسابقة

قيمة الجائزة النقدية هو $ 75،000 التحدي، مقسمة بالتساوي بين المسارات الثلاثة. حيث:

  • المركز الأول: $ 7000

  • المركز الثاني: $ 6000

  • المركز الثالث: $ 5000

  • المركز الرابع: $ 4000

  • 5 مكان -: $ 3000

صور مفتوحة V6 تحسين تصنيف الصور وموحدة الكشف عن وجوه، ويكتشف الحالات العلاقة البصرية، مقسومة وضع علامة على نوعية مهمة وخطوة الكمية، والذي يستخدم طريقة جديدة للغة المحلية ويوصف صلة البصرية. آمال جوجل للصور المفتوحة V6 التقدم المشهد فهم سيتواصل تعزيزها.

عن طريق: الشبكي: //ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

https://www.kaggle.com/c/open-images-2019-object-detection

https://storage.googleapis.com/openimages/web/challenge2019.html#instance_segmentation

https://www.kaggle.com/c/open-images-2019-visual-relationship

شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

Ambarella الحوار أشباه الموصلات إيطاليا المدير العام، IEEE زميل البرتو أستاذ Broggi: مجهر خط الرؤية ستيريو مع الطيار الآلي مستقبل أوسع

مجموعة الوسطى لهجة، "البنية التحتية الجديدة" النار شامل! علم السبعة والتكنولوجيا لاندلاع

الاتصالات الكم الضوئية قياسيا عالميا جديدا! بان جيان وى، وانغ Xiangbin فريق الكم توزيع مفتاح 509 كم الأساس

ضبط أسعار السيارات قبالة "طفرة صحية"، SAIC مع "عميق UV" مكافحة الفيروسات التكنولوجيا سواء ذبابة؟

ورقة اليوم | الاجتماعية التى STGCNN، الكلام وجه جيل الفيديو؛ المكونات توليف الصورة؛ فائقة الدقة زاوية الحقل البصري، الخ

منزل الوالدين امتحان بروكتور! جينينغ تايباى بحيرة حرم كلية مدرسة العليا الاسبوع الثامن اختبار على الانترنت

هناك عيون البقعي كيف؟ تنمو لويحات خرف لمواجهة العينين حتى الآن؟

التماس طائرة ورقية يشعر الربيع - يفانغ طائرة ورقية تحلق المتحمسين لمحة النشاط

4 ثوان، و 80 كيلو وات ساعة، و 600 كيلومترا، وBMW I4 مفهوم السيارة أفرجت

الفيروس الجديد قد تحور زارة تاج قراءة خاطئة، S هو في الواقع نوع فرعي من L النوع الفرعي "سلف"؟

قناع العالمي "مجنون": مسابقة إنتاج قناع خاص

جوجل التالي، I / O، تغيير GTC كل حي، لا تذهب مطاردة للمطورين لمواصلة العرض