مؤخرا، أعلنت شركة جوجل AI الافراج عن الصور المفتوحة V6، والإصدار V5 مقارنة مع توسع كبير الشرح فتح الصور مجموعات البيانات الخاصة به، ويضيف عددا من علاقة بصرية جديدة (على سبيل المثال، "كلب الصيد الفريسبي")، شرح عمل الإنسان (على سبيل المثال "القفز امرأة") وعلامة صورة أفقية (على سبيل المثال، "بيزلي").
والجدير بالذكر أن هذا الإصدار أيضا يضيف المترجمة وصف، وهذا هو شكل جديد من الشرح متعدد الوسائط، صوت الهدف التزامن، والنص، والفأرة تتبع تكوين وصفها. في OpenImagesV6 يمكن استخدام هذه 500K المحلية لوصف الصورة. وبالإضافة إلى ذلك، من أجل تسهيل المقارنة مع الأعمال السابقة، وجوجل أيضا عن مجموعات بيانات الصورة 123K COCO أفرجت تعليقات السردية المترجمة.
صور مفتوحة V6 URL: الشبكي: //g.co/dataset/openimages
COCO بيانات URL: HTTP: //cocodataset.org/
فتح V5 الصور في وضع التعليق أفقية علامة صورة، مربع وثاب، وقطاع أمثلة العلاقات البصرية. المصدر: 1969 D.Miller من RS كامارو / SS، أنيتا kluska من المنزل، القط مقهى شينجوكو كاليكو آري Helminen، وأندريا Sartorati من Radiofiera فيلا Cordellina لومباردي، مونتيشيو ماجوري (VI) -agosto 2010.
في نواح كثيرة، وفتح الصور هي أكبر مجموعة بيانات الصورة المشروح تستخدم لتدريب العصبي عمق شبكة الالتواء للحصول على أحدث المهام رؤية الكمبيوتر.
عنوان الفيديو: الشبكي: //youtu.be/mZqHVUstmIQ
ووصفت الأمثلة الترجمة. المصدر: الربيع كاسيا هو هنا
توطين السرد
أحد الدوافع وراء الدراسات توطين السرد، واستخدام الرابط بين الرؤية واللغة، ويتم عادة بوصف الناس نص تعليق صورة زائد. ومع ذلك، الحد واحد هو عدم وجود أساس شرح الصورة البصرية التي لا نعرف أي واحد هو صورة وصف النص. للتخفيف من حدة هذه المشكلة، وجه بعض من مجموعة البيانات السابقة من المصطلحات التي تظهر في وصف النص مربع اللاحق. في المقابل، في وصف المحلية، وكلها وصفت كل كلمة من النص في موقف المقابلة.
المراسلات بين مستويات مختلفة من محتوى الصورة وترجمات. من اليسار إلى اليمين: العنوان الكامل للصورة (COCO)؛ الأسماء المستطيل (كيان Flickr30k)؛ كل كلمة (مترجم السرد) القسم تتبع الماوس. المصدر: COCO، الكيانات Flickr30k، وسابا راما.
وصف المترجمة الناتجة عن الحواشي، لأنها توفر الوصف اللفظي للصورة، في حين تحوم فوق المنطقة كما هو موضح. الشرح الصوتي هو جوهر الأسلوب، الذي يربط مباشرة منطقة الصورة وصف مع إشارته. من أجل جعل صفا أكثر يسرا، والكلام التلقائي النسخ الشرح النتيجة التي تتماشى مع النتائج النسخ اليدوي. هذا يعيد الطابع الزمني وصفها، لضمان أن الصوت والنصوص وتتبع الفأرة الأيمن وتزامن هذه الأوضاع الثلاثة.
محاذاة اليدوي والآلي من النسخ، ويستند الصورة على عمل التصميم الأصلي Freepik.
يشار إلى أنه في نفس الوقت كان المتكلم هو بديهية جدا، وخلق المزيد من الطرق للدراسة من الناس وصف الصورة. على سبيل المثال، لاحظنا أن هناك أنماط مختلفة من خط في تمثيل مدى المكاني للكائن - تحيط رسم خطوط الكامل، تسطير، وهلم جرا - دراسة هذه الأنماط يمكن أن تجلب أفكارا قيمة إلى التصميم الجديد واجهة المستخدم.
الماوس تتبع المنطقة المقابلة لصورة الكلمة التالية. المصدر: عن طريق ماركوني، إليوت براون بوسيتانو-فندق لو Agavi قارب، فيفيك جينا إطار الهواء، وحديقة CL P1050512 ولاية فرجينيا.
مبلغ إضافي قدره البيانات هذه الرواية المحلية ممثلة في النهاية كم؟ ومن المعلوم أن طول إجمالي يبلغ حوالي 6400 كم مسارات الماوس، إن لم يكن التوقف عن القراءة، جميع السرد سوف يستغرق حوالي 1.5 سنة لقراءة!
العلاقات بصرية جديدة، والسلوك البشري ومستوى الشرح صورة
بالإضافة إلى توطين السرد، في OpenImagesV6 في، جوجل سوف اكتب البصرية العلاقة الشرح يضيف أمر من حجم (حتى 1.4k)، مثل إضافة "رجل لوح التزلج"، "رجل وامرأة تشابكت ايديهما" و "كلب الصيد الفريسبي "وهلم جرا.
المصدر: IMG مؤلف جيمس باك، DSC المؤلف كوينتن Meulepas، dsc06464 الكاتب sally9258.
منذ ولادة رؤية الكمبيوتر، صورة الشعب فقد كان واحدا من المجالات الأساسية للبحث، لفهم ما هو ضروري للعديد من التطبيقات، وهؤلاء الناس يفعلون. ولذلك، يتضمن فتح الصور V6 أيضا تعليقات 2.5 مليون ينفذ الطبقة الفردية إجراءات مستقلة، مثل القفز، وابتسامة أو الاستلقاء.
المصدر: بو فتاه من DSCs1341 (2)، يوهانس غاردنر من ريتشارد فاغنر سدادة 2015.
وأخيرا، كما أضافت جوجل 23.5 مليون التحقق اليدوي الجديد للمستوى علامة صورة، مع ما يقرب من 20000 الفئة، وحجم أكثر من 59.9M.
صور مفتوحة التحدي
وشملت مايو الماضي صدر الإصدار 5 صور المفتوحة V5 في صورة 9M، والأفقي علامة صورة من 36M، 15.8M المربع المحيط، مجزأة أمثلة 2.8M والعلاقة البصرية من 391k.
مجموعة البيانات نفسها، 2019، الذي عقد جوجل صور المفتوحة التحدي، وتنقسم اللعبة إلى الكشف عن الهدف، وتجزئة وأمثلة البصرية للعلاقة بين مسار اختبار ثلاثة، هذه آخر التطورات في ثلاثة التكنولوجيا الاتجاهات قد لعبت دورا إيجابيا في تعزيز.
مسابقة مقدمة
-
حلبة كشف الهدف
الكشف عن مسار الهدف في المربع المحيط التنبؤ مطالبة حول مثيل الكائن.
تدريب مجموعة يحتوي على المربع المحيط 12.2M في 500 فئات، تشمل 1.7 مليون الصور. لضمان الدقة والاتساق، وهذه الصناديق المحيط معظمهم من المفسرين المهنية رسمت باليد. مجموعة بيانات الصورة هي متنوعة جدا، ومشاهد معقدة عادة يتكون عدد وافر من الأشياء - كل صورة متوسط الأجسام السبعة.
صور عينة: مارك ريس وعمل بول Gosselaar الغيتار
موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-object-detection
-
المسار تقسيم الأمثلة
أمثلة على تقسيم المسار المطلوب قناع كائن تجزئة.
مجموعة تدريب يحتوي على 3002.1M فئات قطاع أمثلة قناع، ويضم مجموعة 23K التحقق من صحة قناع إضافية. تدريب مجموعة من القناع هو تنتج معظم عملية تجزئة التفاعلية المتقدمة، في عملية والمعلقين المهنية الإنسان تصحيح تكرارا الناتج تقسيم الشبكة العصبية. لضمان جودة والتحقق منها واختبار للقناع يتم تعيين المشروح يدويا.
مجموعة التدريب ملاحظات مثال. اليسار: غاري ستيفنز في عام 1995، وأصيب وشى احة العلوم والتكنولوجيا، الصحيح: آري Helminen القط مقهى اطلاق النار
موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-instance-segmentation
-
الدائرة الكشف البصرية العلاقة
البصرية العلاقة الدوائر الكشف المطلوبة للكشف عن الأشياء وعلاقة اتصال بهم.
تدريب مجموعة تضم 329 العلاقة (ثلاثة على ثلاثة) و375K عينات التدريب. وتشمل هذه العلاقات سواء على العلاقة بين الأشخاص والأشياء (على سبيل المثال، "الغيتار امرأة اللعب"، "الرجال لاتخاذ ميكروفون")، وكذلك العلاقة بين الأشياء والكائنات (مثل "البيرة على الطاولة"، "الكلب سيارة")، ويشمل أيضا أشياء العلاقة سمة والكائنات (مثل "يتم حقيبة يد من الجلد" و "مصنوع من الخشب مقاعد البدلاء").
الغيتار رجل
موقع البطولة: الشبكي: //www.kaggle.com/c/open-images-2019-visual-relationship
جوائز المسابقة
قيمة الجائزة النقدية هو $ 75،000 التحدي، مقسمة بالتساوي بين المسارات الثلاثة. حيث:
-
المركز الأول: $ 7000
-
المركز الثاني: $ 6000
-
المركز الثالث: $ 5000
-
المركز الرابع: $ 4000
-
5 مكان -: $ 3000
صور مفتوحة V6 تحسين تصنيف الصور وموحدة الكشف عن وجوه، ويكتشف الحالات العلاقة البصرية، مقسومة وضع علامة على نوعية مهمة وخطوة الكمية، والذي يستخدم طريقة جديدة للغة المحلية ويوصف صلة البصرية. آمال جوجل للصور المفتوحة V6 التقدم المشهد فهم سيتواصل تعزيزها.
عن طريق: الشبكي: //ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
https://www.kaggle.com/c/open-images-2019-object-detection
https://storage.googleapis.com/openimages/web/challenge2019.html#instance_segmentation
https://www.kaggle.com/c/open-images-2019-visual-relationship
شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ