الصيف B من الجزء السفلي من راحة غير معبد،
إنتاج و qubit | عدد ملفه QbitAI
الأمن والأمان! أمسك Zabo لى رجل!
للأمن الإنساني، وفهم هذا التوجيه هو شيء طبيعي دون صعوبة. ولكن الجهاز ليست هي نفسها: فهي تعترف كل من الشاشة كل الناس، ولكن بالضبط واحد الذي هو "الشعب زا بولي" يعني؟
قاد لي Feifei ستانفورد ورقة مختبر البصرية لينشر في CVPR 2018 مشيرا العلاقات ، وهذه الدراسة هي المشكلة.
وتعرض هذه الورقة "المزعومة العلاقة" مهمة، هو إعطاء الكمبيوتر "سيد - أن - كائن" العلاقة "صفا" لهيكل و(موضوع المقابلة لهذا الشيء) والكائن من الخريطة، مما يجعل من الممكن لموضوع (المراسلات وجوه هذا الشيء) موقعه.
على سبيل المثال:
سمحوا الكمبيوتر في سيناريو من هذا القبيل، وفقا ل "شخص - الركل - الكرة (في مسرحية رجل)" هذا الوصف، حدد موقع "مسرحية" و "الكرة"، وفقا ل "شخص - في المرمى (رجل - حراسة حراس المرمى) "هذا الوصف، حدد موقع" البوابين "و" الهدف ".
إلى دائرة حول الموضوع الصحيح وجوه قلب الكمبيوتر من خلال الذهاب الى العملية هذه:
كما هو مبين أعلاه، فإن الخطوة الأولى في العملية هي ل صورة استخراج الميزة مع CNN الخوارزمية المستخدمة لتحديد التمهيدية على الذات والموضوع، على التوالي.
ومع ذلك، ليس كل المواد والكائنات هي من السهل جدا لمعرفة، على سبيل المثال، هو اعتراف لطيف جدا، ولكن ليس بالضرورة الهدف. استخدم العديد من الباحثين أساليب، هو أن تجد العلاقة بين الذات والموضوع، واحدة منها يتم وضع مثل وقتا طويلا، فمن السهل العثور على آخر.
في هذه الاحتياجات العملية للنموذج الأصلي، وهذا هو وصف واضح للعلاقة بين الذات والموضوع. المسند ينظر إليها على أنها انتقلت من الاهتمام بين الذات والموضوع، وبالتالي معرفة العلاقة بين الذات والموضوع.
يمكننا أن نرى من مخطط أعلاه، وفقا للعلاقة موضح في الجسم وبناء وأن تكون يستدل الانتباه إلى المنطقة البحث يجب أن يكون الكائن في الموقف، وفقا لتعديل ملامح الصورة. ويمكن الاستدلال على ذلك الاهتمام من موضع الكائن الموضوع. وتسمى هذه العملية تحول المسند.
عن طريق تكرار عملية التحول الأصلية تمرير رسائل بين الذات والموضوع، في نهاية المطاف سوف تكون قادرة على هذه الكيانات اثنين من المواقع .
"في اليسار شخص لشخص آخر"، في هذا الوصف من شخصين، قد وضعه في هذا السبيل.
"خذ كوب" و "الوقوف على لوح التزلج الشعب" وذلك أيضا لا توجد مشكلة.
تقييم فريق لي Feifei نموذجهم على CLEVR، VRD والجينوم ثلاثة البصرية مجموعات البيانات Visual العلائقية، والنتائج على النحو التالي:
لمزيد من التفاصيل، يرجى إدخال خط رمز وحلقة القراءة شخصيا ورقة -
الرسالة: الشبكي: //arxiv.org/abs/1803.10362
Keras + TensorFlow تحقيق ما يلي: الشبكي: //github.com/StanfordVL/ReferringRelationships
ووفقا للتقارير مختبر ستانفورد الرئيسية الرؤية، ونشر ما مجموعه ثلاث ورقات على CVPR عام 2018، بالإضافة إلى هذا واحد من و qubit قدم اليوم، هي:
-
ما الذي يجعل الفيديو فيديو: تحليل معلومات الزمني في الفيديو نماذج فهم ومجموعات البيانات
دي-إن هوانغ، on على راماناثان، الثمن في سعي ماهاجان، لورينزو Torresani، مانوهار Paluri، لي في في، وخوان كارلوس Niebles
CVPR 2018 (دائرة الضوء)
-
العثور على "و": الأرضية البصرية ضعيفة تحت إشراف المرجعي، وإدراكا في فيديو تعليمي
دي-إن هوانغ، شيامال بوخ، لوسيو ديري، Animesh جارج، لي في في، وخوان كارلوس Niebles
CVPR 2018 (عن طريق الفم)
لم يتم الافراج عن نسخة PDF من الورقتين، وسوف نستمر في التركيز على المكدسة قعقعة.
- انتهى -
التوظيف الصادق
المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.
و qubit QbitAI عناوين على التوقيع
' " تتبع تقنيات AI دينامية جديدة والمنتجات