"جوجل ترقية ImageNet" فهم البصرية على نطاق واسع من سباق البطولة WebVision حصة | جي الأنفس موضوع جديد CVPR-17

1 جي وون تقرير جديد - CVPR 2017 المواضيع

26 يوليو 2017، CVPR 2017 ندوة "ما وراء ILSVRC" سيتم الإعلان رسميا نهاية المنافسة ImageNet. ومع ذلك، هذا لا يعني أن مجال التعرف على الصور تراجعت الفائدة. في الواقع، يرتبط القلق إلى ارتفاع.

وقد لعبت مسابقة ImageNet لرؤية الكمبيوتر، وخصوصا في تطوير تكنولوجيا التعرف على صورة مساهمة كبيرة، والتي، مع مجموعات البيانات على نطاق واسع أن العلامات اليدوية أمر بالغ الأهمية. ومع ذلك، تم جمعها بعناية البيانات المسمى يدويا للتدريب مكلفة. العديد من المجالات العملية مثل الأعمال، والتمويل، والرعاية الصحية وغيرها من القضايا التي تواجه ليست في نقص البيانات، ولكن عدم وجود الشرح البيانات الخبراء ووضع العلامات ليست موحدة. لذلك، بدأ المزيد والمزيد من الباحثين إلى التركيز على استخدام بيانات التكاليف المنخفضة لل(مثل البيانات دون الشرح اليدوي) إلى نظام التعرف على صورة القطار.

في حلول مختلفة، من الإنترنت إلى جلب البيانات واستخدام الشبكة كمصدر لليشرف تعلم عمق توصيف أظهرت أداة قوية في مجموعة متنوعة من التطبيقات رؤية الكمبيوتر.

في النصف الأول من هذا العام، أطلقت جوجل المعهد الاتحادي يشارك في زيوريخ من معهد زيوريخ التكنولوجيا وغيرها من الوكالات على نطاق واسع صورة الويب بيانات اسمه WebVision لتحديد البصرية. واستنادا إلى مجموعة البيانات هذه، كما أنها نظمت فهم البصرية التحديات "التحدي على Visual التفاهم عن طريق التعلم من بيانات ويب"، أي WebVision المنافسة.

ImageNet WebVision الاستيلاء على المنافسة: درجة عالية من الصعوبة، أقرب إلى عملي

المنافسة WebVision من قبل المعهد التقني الفدرالي العالي في زيورخ (ETH)، والبحث جوجل، وجامعة كارنيجي ميلون (CMU) وغيرها تنظيما، والمعروفة باسم سباق خليفة ImageNet. ImageNet WebVision وتركز على التعرف على الأشياء، وذلك باستخدام فئة الكائن نفسه الاعتراف 1000 المنافسة؛ ولكن توازن كل من البيانات ونقاء مختلفة جذريا.

والزحف مجموعات البيانات WebVision مباشرة من الإنترنت، دون المسمى يدويا، والبيانات التي تحتوي على الكثير من الضجيج، وهناك خلل كبير في عدد من فئات البيانات، مقارنة ImageNet بيانات اللعبة هي من بيانات نظيفة (اليدوي الكامل الشرح)، WebVision الصعب تحسين الكثير، ولكن أيضا أقرب إلى تطبيق سيناريوهات الفعلية .

ويذكر أن قاعدة بيانات WebVision تغطي 2.4 مليون الصور التي تم جمعها مباشرة من الشبكة، بينهم مليون و 1.4 مليون الصور من فليكر من البحث جوجل.

قاعدة بيانات WebVision من خلل كبير

ويوجد في العالم أكثر من 100 فريق المسجلين للمشاركة في المنافسة WebVision، وذلك لأن الكثير من الفرق المشاركة مرة سيتم تأجيل المباراة الموعد المحدد. بعض الفرق تختار عدم الكشف عن هويته بعد أن يتم الكشف عن المباراة نتيجة لذلك، قدم الفريق نتائج الجمهور، سناب شات، جامعة تسينغهوا، جامعة شنغهاي للعلوم والتكنولوجيا، UCF وغيره من كبار المؤسسات الأكاديمية والبحثية من جميع أنحاء العالم هي على القائمة.

في جميع أنحاء العالم هناك سجلت أكثر من 100 فريق للمشاركة في مسابقة WebVision

وهناك عدد متزايد من وجهة نظر، وآخر اثنين من مسابقة تحدي ImageNet هو أكثر قوة مشغل آلة البشرية وبدلا من الخوارزمية نفسها. وكانت قاعدة بيانات ImageNet أنشئت صعبة الاختراق ولدت تكنولوجيا التعلم عميقة. ولعل هذا هو أحد الأسباب التي تجعل هناك العديد من WebVision مشاركة فريق سباق. WebVision قاعدة بيانات أكثر تعقيدا وغير متوازنة وأكثر تحديا خوارزمية أيضا خوارزمية ذات توجه نحو الابتكار.

الفريق الفائز على التكنولوجيا حصة

ومن الجدير بالذكر، وتبدأ فرق من علوم والتكنولوجيا في الصين جعلت الأول لمدة ساحة WebVision هذه المسابقة، وخمس مرات من دقة التعرف على نتيجة التي تقدمها، وهو ما يمثل كل النتائج اعتراف هي المعدل الصحيح المرتبة الخمسة الاوائل، وأفضل نتائج (94.78) أعلى بنسبة 2.5 من الثانية، والتي هي ميزة كبيرة (في العام الماضي لعبة ImageNet التعرف على الصور الأولى فقط 0.04 أعلى من الثانية) في مجال سباق تكنولوجيا الرؤية الكمبيوتر.

وقال خوارزمية المهندس ساحات العلم طويل والتكنولوجيا في وقت قبول الجديد تشى يوان ان بالمقارنة مع WebVision وImageNet، فإن التحدي الرئيسي هو البيانات دون الشرح اليدوي، يحتوي على الكثير من الضجيج، لذلك اعتمدوا طريقة التعلم شبه إشراف.

أولا وقبل كل الباحثين استخدام نموذج التدريب الفوقية الخام، والنموذج باستخدام هذه استخراج النفط الخام سمة من سمات كل تمثيل الفوقية. ثم، وإدخال دورات (تعلم المناهج الدراسية)، تصميم خوارزمية التجميع، كل فئات الفوقية معا في مستويات مختلفة من الطبقات، والذي ينتمي إلى فئة من فئة نظيفة نسبيا. ثم، وذلك باستخدام هذه المجموعة من البيانات النظيفة التي قطار نموذج غرامة. تدريجيا عن طريق زيادة عدد من البيانات الضوضاء لتحسين تعقيد النموذج والتعميم.

لأقصى قدر من فوز الحصول على مصدر إلهام، رمز فريق خوارزمية طويل، وقال:

"إن أكبر الغرض من المسابقة هو كيفية الاستفادة من الشرح غير اليدوي للبيانات لتدريب نموذج عمق أفضل. في المباراة الأولى، نعبر منظمي البيانات بعناية جدت المراجعة أن البيانات التي لديها نسبة كبيرة جدا من البيانات علامات خاطئة لذلك، نحن نستكشف استراتيجية تدريب لاحتواء البيانات الضوضاء، واستراتيجية التدريب للمرة الأولى في التعلم شبه إشراف (التعلم شبه إشراف) ودورات (تعلم المنهج (2009 تم طرحها من قبل Y. Bengio، وما إلى ذلك) أدخلت بيانات التدريب الضوضاء على نطاق واسع في التعلم.

"إن التصميم الجديد للاستراتيجيات حسابي لقمع فعال آثار سلبية من تسميتها، والشيء الأكثر أهمية هو أن هذه الخوارزمية يمكن استخدامها بشكل فعال هذه التسميات ليعزز كثيرا من قوة خطأ للنموذج، بينما يسمح للنموذج تدريب من مع الشرح اليدوي ImageNet نموذج التدريب البيانات لديها قدرة أفضل التعميم، مع مزيد من التنوع، أكثر قدرة على الهجرة إلى المهام الأخرى ذات الصلة ".

تظهر نتائج مسابقة WebVision أن عمق تعلم التكنولوجيا الحديثة لا يمكن تسمية يدويا تماما البيانات كأساس لمستقبل الأبحاث المشتركة التعلم شبه إشراف وغير خاضعة للرقابة يفتح الباب، ولكن أيضا لتطوير ضعف الذكاء الاصطناعي AI قوي لاتخاذ مهم خطوة.

ما وراء ILSVRC: تركز مسابقة WebVision على التعلم وفهم صورة

ملخص

نقترح WebVision 2017 المنافسة، وهو التعرف على الصور العام التحدي، وتهدف إلى صورة عمق التعلم القائم على الويب، دون وضع علامات اليدوي الإنسان على سبيل المثال. قبل التحدي المتمثل في رؤية الكمبيوتر، مثل ILSVRC، Places2 وPASCAL VOC، من خلال توفير عدد كبير من البيانات الشرح لتصميم نموذج وتوحيد المعايير، أنها لعبت دورا رئيسيا في تطوير رؤية الكمبيوتر. من أجل توسيع روح، ونحن تنظيم حلقات دراسية في هذا CVPR عام 2017، لإجراء شبكة واسعة النطاق على أساس المنافسة المفتوحة مجموعة بيانات الصورة. WebVision بيانات تحتوي على أكثر من 240 مليون صورة شبكة التي تم جمعها من الإنترنت الزواحف وطريقة لاستخدام استعلام (الاستعلام) التي تم إنشاؤها من المفهوم الدلالي ILSVRC 20121000 خط الأساس. كما يتم تضمين ميتا المعلومات (معلومات ميتا).

وعلاوة على ذلك، يتم توفير WebVision مجموعة البيانات أيضا مجموعة بيانات الاختبار ومجموعة بيانات الاختبار، مجموعة البيانات البيانات الشرح مع يد العلامة رجل، وبالتالي تسهيل تطوير الخوارزمية. ينقسم 2017 WebVision التحدي إلى فئتين، واحدة للتصنيف الصور على مجموعات بيانات الاختبار WebVision، وكذلك التعلم نقل على باسكال VOC 2012 مجموعة البيانات. في هذه المقالة، نحن تصف تفاصيل جمع البيانات والشروح، وتسليط الضوء على ميزات مجموعات البيانات WebVision، ويصف مؤشرات التقييم ذات الصلة.

انقر هنا لقراءة المقال الأصلي لمعرفة التفاصيل، ونأمل أن تتمكن من الانضمام ~

في سعيهم للحصول على Nikkatsu، وهي صيغة للحصول على

ستجد هنا لالمحطة الاولى في رحلة إلى أوروبا لا ينبغي تفويتها، ومشرق جميل ابيناين!

300000 المتشددين SUV! وصولا، وتربية الحيوانات، الحارس، RX8 مهيب كيف الانتخابات؟

العالم كبير مي تفجير لينيكر الغضب الثناء C لو! العضو فوجئ، وقال: I تفجير C لو!

"تانغ الكامل" في "مدع"، بعض أكثر شهرة من الشعر!

أي أجزاء التجمع على أغلى سيارة؟ ليس المحرك ولا انتقال؟

تراجع الدولار الاسترالي، بانخفاض خام الحديد، مكان الذهب في شك، والاقتصاد الأسترالي أو ألوانها

مخفيا في 2018 الصين أسعد المدن! ما وراء تشنغدو وهونغ كونغ كان أفضل من!

بعد الصين وروسيا ودول أخرى إلى الولايات المتحدة 19 $ من 20 دولة الأولى أن نقول لا للدولار، اتخذت خطوة كبيرة؟

"يانغ جينغ الانجراف" ماغي: جينغدتشن مثل مسقط رأسي، مثل

النفوس ميسي! كانت المساعدات الخارجية تيانجين أربعة التعادل، قد أعرب حارس مرمى قادر خطيرة!

SUV اختيار خمسة أو سبعة؟ لا تجادل الأحمق، مزايا وعيوب كل شيء في هذا