صناعة | 3 أوراق + فزنا حدثين، ECCV 2018 شهد تقدما جديدا في AI التكنولوجيا Jingdong

AI أخبار تقنية مراجعة، 8 سبتمبر إلى 14، عقد المؤتمر الأوروبي سنتين من رؤية الكمبيوتر (ECCV 2018) في ميونيخ، ألمانيا. كما هو الحال مع CVPR، تم استدعاء ICCV أعلى ثلاثة مؤتمرات رؤية الكمبيوتر، ECCV مستوى شعبية هذا العام هو مدهش. وتفيد التقارير أنه ECCV عام 2018، حضر ما يقرب من 3200 شخص، وتلقي ورقة 776 (2016415)؛ و11 مباراة أخرى في 43 مباراة ورش العمل والبرامج التعليمية. معهد بحوث AI Jingdong تحت قيادة نائب الرئيس، رؤية الحاسوب ومختبر الوسائط المتعددة، والدكتور سيد رينماي تاو لحضور الاجتماع، وقدم أداء المبهر في هذه ECCV 2018 المؤتمر.

منظمة العفو الدولية معهد Jingdong ليس فقط الورقات الثلاث هي ECCV 2018 وشملت، مجال الرؤية لا تزال نظمت الجمعية ECCV نقل التعلم فاز التحدي لقبين، المجال البصري أوسع الوجه والمشاة التحدي (مهمة الكشف عن المشاة) في المركز الثاني . مع النتائج المذكورة أعلاه، قناة شبكة Jingdong AI معهد بحوث لى فنغ AI تقنية الاستعراضي منتجات قواعد البيانات الأكاديمية "AI عامل تأثير" (https://www.leiphone.com/AiWeights) في نقاط المقابلة.

3 مجموعة من الأبحاث عن وصف الصورة، وكشف الحركة الفيديو، مسابقة البصرية ثلاثة خوارزميات مبتكرة

يتم تضمين معهد AI Jingdong ECCV 20183 ورقات، كل خوارزمية هو أهم الابتكارات الواردة في وصف صورة، فيديو كشف الحركة، والموضوعات مسابقة البصرية.

"استكشاف العلاقة بين وصف الصورة البصري" (استكشاف العلاقة البصرية لالسفلية صورة)

بالنسبة للبشر، عندما رأى صورة ليس فقط لمعرفة الأشياء في المشهد الواردة في الصورة، وما إلى ذلك، أثناء التقاط أيضا الروابط بين الأشياء، فإن المهمة الأساسية هي لدراسة وصف صورة هو السماح للنظرة الكمبيوتر مثل الناس الرقم الكلام، وهذا الفهم محتوى الصورة متعمقة وتلقائيا توليد وصف البيانات والصور ذات الصلة لصناعة المحتوى، ولكن ليس هناك عمل المقابلة لاستكشاف دور الاتصال بين وصف صورة الكائن.

وبناء على هذا، مصممة معهد AI jingdong FIG القائمة على الشبكة التلافيف (الرسم البياني التلافيف الشبكات) وطول الفترة الزمنية الذاكرة الشبكة (LongShort الأجل الذاكرة) المبرمج - نظام فك العلاقات المكانية والعلاقات الدلالية بين الكائنات في ووصفت عملية توليد الصور، التي هيكل هو كما يلي:

وصف FIG 1. FIG إطار الصورة استنادا إلى نموذج شامل الاتصال بين مجموعة وجوه عليها فيه

ويمكن وصف نظام فك مع صورة مقسمة إلى ثلاث خطوات - المبرمج:

(1) لإدخال الصور، وحدة الكشف عن وجوه لأول مرة الكشف عن كائن المدرجة في صورة، ويحصل على مستوى المنطقة ملامح المقابلة لكل كائن. ثم، لعدد وافر من الأجسام المكتشفة، وفريق يبني jingdong AI معهد الرسم البياني الدلالي والعلاقات المكانية بين الأشياء في FIG.

(2)، يليه استنادا إلى صورة من FIG شبكة وحدات التشفير التلافيف في شبكة التلافيف FIG على التوالي ستعمل على العلاقات الدلالية وFIG العلاقة المكانية بين الأشياء في FIG، في العلاقات الدلالية والعلاقة المكانية بين مستويين من الكائنين إلى منطقة المقابلة لملامح وجوه، لتحقيق مستوى كائن يتميز المنطقة مزيد من الترميز.

(3) يتم الحصول عليها من الرسم البياني الدلالي أو مخطط العلاقة المكانية يحتوي على المنطقة حيث العلاقة المستوى بين الكائنات، منطقة الكائن ستكون سمة من سمات مستوى المدخلات من مجموعة المشفرة وبناء على طول ذكريات وحدة فك الترميز ، حيث عندما يكون مستوى المنطقة صورة باستخدام طول اثنين من شبكة الذاكرة الرئيسية يترجم المدخلات وصف النص المطابق.

يتم التحقق من النظام على مجموعات البيانات القياسي صورة دور وصف COCO في تعزيز التواصل بين الأشياء كما هو مبين على الصورة، والوصول إلى نموذج للصناعة واحد من أجل تحقيق النتائج المثلى.

"حلقة عملية لتحديد موقع وتحديد شبكة الكشف عن" (المتكررة Tubelet اقتراح وشبكات الاعتراف لActionDetection)

فيديو مهمة كشف الحركة يتطلب التعرف على الأحرف في تشغيل الفيديو وتحديد موقعها الزمني في الفيديو. معظم الطرق الحالية هي لكل إطار فردي أو شريحة لتوليد طول ثابت بشكل مستقل عن عملية تحديد المواقع، وغالبا ما تهمل السياق بين الإطار والإطار أو شريحة جزء. ومع ذلك، فإن العملية نفسها هي حركة مستمرة من قبل سلسلة التكوين، وهذا السياق هو مهم جدا لكشف الحركة الفيديو.

ويقترح معهد AI jingdong نموذج عمق استنادا إلى المعلومات وقت في سياق كشف الحركة الفيديو يتم تنفيذ. وينقسم هذا النموذج عمق إلى قسمين:

موقع العملية دورة الشبكة: لأول مرة بإنشاء شبكة التقليدية في منطقة من إطار الفيديو لتحديد المواقع في العملية الأولى، ثم الإطار التالي للحصول على عملية وضع تشريد الإطار التالي عن طريق تقدير الحركة من الإطار الحالي. ثم يتم استخدام خوارزمية فيتربي لتحديد موقع كل تسلسل العملية من الإجراءات معا في الإطارات.

تحديد عملية دورة الشبكة: العمارة متعدد القنوات من الشبكة لتحديد سلسلة من الإجراءات. واستخدم فريق في كل قناة لآخر هيكل LSTM المعلومات أنظمة الفيديو الشبكية القبض، وصلاحية نموذج الإفصاح عنها في قواعد البيانات الأربعة وتنفيذها حتى الآن أفضل أداء الكشف (UCF-الرياضة، وقدمت J-HMDB، AVA وUCF-101 بنسبة 2.9، 4.3، 0.7 و 3.9 تحسن).

FIG 2. FIG الإطار كله حركة الفيديو نموذج الكشف المقترح. ويتكون هذا النموذج أساسا من دورة دورة عملية تحديد شبكة المواقع وتشغيل الشبكة. يتم الحصول على دورة تشغيل شبكة موقع موقف النزوح من الإطار التالي من خلال عملية الإطار المقبل لعملية إطار الحالية. ثم ترتبط عملية تحديد المواقع من كافة الإطارات إلى سلسلة من الإجراءات. تحديد عملية دورة الشبكة باستخدام بنية متعددة لتحديد سلسلة من الإجراءات.

"Q & A البصرية عمق الاهتمام موتر الشبكة العصبية" (ديب الاهتمام الشبكات العصبية التنسور عن سؤال الرد البصرية)

البصري Q & A بعد مهمة معينة تتطلب صورة مع الأسئلة التي طرحت على التنبؤ الجواب المطابق. في السنوات الأخيرة، ركزت البحوث على المهمة في ملامح البصرية والنص يتميز التكامل المتعدد الوسائط للتعلم. الغالبية العظمى من الأعمال البحثية هي الميزات المرئية يمثل مباشرة تمثل ميزة النص المصنف التدريب بعد انصهار الطريقة البصرية لإنجاز الأسئلة والأجوبة، ولكن هذه الأساليب هي صورة مشوشة - الأسئلة - الإجابات ضمنية بين ثالوث بعضها البعض العلاقات تجاهلها.

هذا ويعرض الورقة العصبي صورة شبكة موتر - العلاقة بين طريقة يتضاعف ثلاث مرات إجابات نماذج - أسئلة. مع الأخذ بعين الاعتبار، في معظم الحالات، ترتبط نوع العلاقة بين الأسئلة ويتضاعف ثلاث مرات عن كثب، وهذا يعرض ورقة نموذج للاهتمام نوع من الأسئلة والأجوبة للمساعدة في توجيه يتضاعف ثلاث مرات نوع تختار العلاقات المتبادلة الصحيحة والمنطق التكيفي، وتعتمد في النهاية على أساليب التدريب القائم على حل العودة مفتوح Q & مهمة بصرية.

وأخيرا، أثبتت النتائج التجريبية أن الطريقة المقترحة لا يمكن فعالة إلا للصور - الأسئلة - الإجابات ضمنا العلاقة بين النمذجة (صنع في VQA-1.0 و VQA 2.0 تستند البيانات على MUTAN وMLB أسئلة نموذجية البصرية وأجوبة من 1.70 و 1.98 الأداء النسبي)، ولكن أيضا لأنواع مختلفة من المشاكل، يمكنك اختيار بتكيف المنطق المقابلة، في حين أن المعلومات البصرية على أساس المهام الجواب مسابقة التعلم تحت إشراف يمكن أن يميز بصريا ميزة القدرة على التمثيل .

الشكل 3. Q الإطار العام البصري للنظام المقترح FIG. يستخدم الأحمر إطار جزء لتوليد صورة، وتميزت في السؤال - الخصائص الأساسية الانصهار أسئلة نموذجية. صندوقين الزرقاء هي عنصرين من موتر على أساس نموذج الشبكة العصبية من الاهتمام في هذه الورقة، التي تواجهها صورة - الأسئلة - العلاقة موتر الشبكة العصبية إجابات يتضاعف ثلاث مرات ونموذج المنطق التكيفي للاهتمام.

ECCV 2018 المجال البصري للهجرة تعلم التحدي قبالة التاج المزدوج

وECCV المجال البصري عقدت الجمعية العامة 2018 في نقل التعلم التحدي، مشهد مهام محددة إلى تصنيف الصور المفتوحة (تصنيف openset) والكشف عن وجوه (كشف) نوعان من معهد بحوث AI Jingdong مهمتين في هذا الحدث هي ميزة درجة كبيرة من التاج .

التحدي، معهد Jingdong AI رؤية الحاسوب وتوزيع بيانات الوسائط المتعددة الفريق للاختلافات كبيرة في المجالات المصدر والهدف، صممت مجموعة من تصنيف الصور للأغراض العامة والكشف عن وجوه تعلم الهجرة النظام، والفكرة الرئيسية هي لإعطاء صورة المجال الهدف التسمية الزائفة المقابلة، ومن ثم فرزهم على أساس الكتلة مجتمعة مع المجال الهدف يضاف إلى التعلم المصنف صورة كاشف أو التسمية الزائفة، وبالتالي زيادة ضبط النموذج. ويمكن العثور عليها تجريبيا، فإن مثل هذا الأسلوب على أساس التسمية الزائفة يمكن أن تهاجر بشكل فعال في مجال المعرفة مصدر المجال الهدف.

في حدث آخر من قبل ECCV الجمعية العامة 2018 نظمت - البصرية مجال أوسع الوجه والمشاة التحدي، معهد AI Jingdong رؤية الحاسوب وفريق الوسائط المتعددة فاز بالمركز الثاني في مهمة الكشف عن المشاة، ودعيت لتقديم في مواجهة أوسع والمشاة ورشة تحدي آخر التطورات البحثية للفريق من حيث الكشف البشري.

في هذه اللعبة، وذلك باستخدام كشف معهد jingdong أساس R-CNN-AI أسرع من الإطار، وتتميز في الهرم وأضيف، مجموعة التوحيد، وR-CNN تتالي خصائص متعددة القنوات من نماذج الاهتمام، والتصميم في مختلف مراحل سلسلة وظيفة جديدة للتكيف التي يمكن تحقيق التوازن بين فقدان التصنيف والانحدار الخطأ. تبين التجارب أن الطريقة المقترحة من قبل فريق البحث يمكن التعامل صغيرة مشاة هدف مشكلة كشف تحت مشاهد معقدة بكفاءة.

ومن الجدير بالذكر أنه في الماضي فقط الصينية الوسائط المتعددة الجمعية ChinaMM، استضافت Jingdong AI أيضا JD AI التحدي الأزياء المنافسة التكنولوجيا، والذي استقطب 212 جامعة من الداخل والخارج، وفريق الشركة للحضور. أيضا السماح الحدث معهد Jingdong AI في "عامل تأثير AI" للحصول على نقاط اضافية . وتفيد التقارير أن Jingdong مطلع العام المقبل ستطلق جولة جديدة من مسابقة الموضة العالمية.

الصين ببناء أول جسر في العالم، يمكن أن تقاوم 8 زلزال 11 الاعاصير استثمار ما مجموعه أكثر من 100 مليار

خط سر كا يشارك تماما من الداخل: أرباح صافية بلغت مليارات دولار العام الماضي، تهدف إلى عشرة مليارات تقييم شركة التلفزيون

الطائرات الكبيرة محلية الصين برمائية، الجهاز كله 50000 الهياكل، يتم إجراء 98 في الصين

إنهاء يوان شانشان، رونغ يانغ Huanjiao، ما هي الحقيقة وراء هذه؟

لقد وضع اثنين من الأرقام القياسية العالمية، تينسنت ممتازة خريطة كشف الوجه خوارزمية DSFD رسميا مفتوحة

وترتبط هذه والزلابية قسم ارتباطا وثيقا الدراما، شاهد تكسب!

تسبب WEICHAI بريطانيا ثلاثة طرازات جديدة المدرجة للبيع 4،98-7،58 وان

نماذج انفجار ماكينة! بالإضافة إلى "جيدة جدا"، وسنوات من الدراما المحلية هي خيره النار

لم يكن يتوقع بايدو

نحن بحاجة الى ان نرى موسيقى دينية الكلاسيكية، يرجى التحدث عن اختيارك!

مقابلة | الإيجابية: في الماضي كنت "الترفيه"، والآن أريد أن تصبح "ايجابية" ل

مكفول إطلاق كينزو من قيمة جديدة اللون أحذية بيضاء! YEEZY أفضل لإعطاء المال لشرائه؟