لي Feifei: بعد التعرف على الأشياء، رؤية الكمبيوتر، كم من الوقت لفهم هذا العالم

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: 26 سبتمبر، مؤتمر أكاديمي كبير في مجال الروبوتات IROS 2017 في اليوم الثاني. الصباح، والصينية خبير رؤية الكمبيوتر الشهير، ستانفورد أستاذ مشارك لى Feifei، والتقارير الخاصة للخبراء والعلماء المشاركين جعل كل ما يصل إلى ساعة واحدة في مركز المؤتمرات فانكوفر.

لى فنغ شبكة أمس الإفراج عن مقال نشر في: "لي Feifei:؟ لماذا من المهم جدا أن الروبوتات رؤية الكمبيوتر | IROS 2017"، لى Feifei عن أهمية المخلوقات المرئية، والتطور السريع من رؤية الكمبيوتر ومهمة التعرف على الأشياء. في اليوم التالي، لى Feifei مواصلة مناقشة معكم الخطوة التالية في رؤية الهدف الكمبيوتر: غني فهم المشهد، والتقدم وآفاق الرؤية الحاسوبية ورؤية الكمبيوتر والجمع بين لغة يحركها المهمة. فهم المشهد والرؤية الحاسوبية جنبا إلى جنب مع مزيد من الجسور لغة التخاطب بين البشر وأجهزة الكمبيوتر، والرؤية الحاسوبية يكون تألق يحركها مهمة في مجال الروبوتات. لي Feifei تقديم عمل فريقهم هو أيضا متنوعة ومثيرة.

(2015، لي Feifei تواجه أيضا البحر والجمهور أجرى نفس المكان محاضرة TED)

بعد التعرف على الأشياء: المشهد الاعتراف الغني

(أوراق المستمر) بعد أن تم حل المشكلة التعرف على الأشياء إلى حد كبير، وهدفنا التالي هو للخروج من الكائن نفسه، والقلق العلاقة بين الأوسع نطاقا الموضوع واللغة وهلم جرا.

بعد مجموعات البيانات Visual الجينوم، دراسة أخرى قمنا به هو إعادة الاعتراف-الاعتراف المشهد.

المشهد الاعتراف وحده نظر مهمة بسيطة، بحث جوجل في "رجال يرتدون سترات" أو "جرو لطيف"، ويمكن الحصول مباشرة على النتائج المرجوة. ولكن عند البحث عن "رجل يرتدي بدلة عقد جرو لطيف،" أنك لن تحصل على نتيجة جيدة. أدائها هنا يصبح سيئا، والعلاقة بين هذه الأشياء هو علاج الشيء صعبة للغاية.

على سبيل المثال، مجرد "مقعد" و "الناس" التعرف على الأشياء، لن تحصل على "رجل يجلس على مقاعد البدلاء" علاقة، وحتى شبكة التدريب لتحديد "الجلوس" ولا يمكن أن تضمن لرؤية الصورة الكبيرة. لدينا فكرة أن السطح الخارجي للجسم، كل من العلاقات داخل المشهد إدراجه، ومن ثم التفكير في كيفية استخراج العلاقة الدقيقة.

إذا كان لدينا الرسم البياني المشهد (الرسم البياني)، والذي يحتوي على مجموعة متنوعة من المعلومات دلالية معقدة داخل المشهد، فإننا سوف تكون قادرة على العمل المشهد الاعتراف أفضل بكثير. بعد كل التفاصيل التي قد يكون من الصعب وصف بجملة طويلة، ولكن لعقوبة طويلة في الرسم البياني المشهد، يمكننا استخدام طريقة FIG المتعلقة بها والقيام صورة المقارنة، ويمكن المشفرة مشاهد FIG كجزء من قاعدة البيانات، من زاوية الاستعلام قاعدة البيانات.

لدينا مشهد تقنيات مطابقة الرسم البياني يحتوي على العديد من المشاهد من المعلومات الدلالي في حصلت على الكثير من النتائج الكمية جيدة، ولكن كل واحد منكم قد تشعر أثناء الاستماع إلى الجانب، وعرض هذه المشاهد لتعريف من هو؟ في مجموعة البيانات البصرية الجينوم، يعرف الرسم البياني المشهد العلاقة بين العمل والتي بنية الكيان والكيان ولمطابقة يتم صورتنا يدويا، عملية مؤلمة للغاية، ونحن لا حتى الأمل في كل مشهد يقومون بهذا العمل. حتى بعد هذا، فإننا على الأرجح توجيه انتباههم إلى الرسم البياني المشهد يتم إنشاؤها تلقائيا.

على سبيل المثال، قد أكملت أنا وطلابي ورقة CVPR2017 هو الرسم البياني المشهد برنامج تم إنشاؤه تلقائيا، لإدخال الصور، علينا أولا الحصول على اعتراف الكائن نتيجة بديل، وبين الهيئات والكيانات مع إطلالة على خوارزمية الاستدلال العلاقات وهلم جرا، ويتم هذه العملية تلقائيا.

وهذا ينطوي على نقل المعلومات إلى عدد من خوارزمية تكرارية، وأنا لن شرح بالتفصيل. ومع ذلك، تعكس هذه النتيجة أن عمل لدينا نموذج والناس لديهم الكثير من أوجه التشابه بين الممارسات.

الحصول على هذه النتيجة ونحن سعداء جدا، وهذا يمثل مجموعة جديدة كاملة من الاحتمالات جاء أمامنا. مع الرسم البياني المشهد، يمكننا أن نفعل استخراج المعلومات يمكن القيام به للتنبؤ العلاقة يمكن فهم العلاقات المراسلات.

وبطبيعة الحال، قبل أن تنشر ورقة قمنا به بيانات حسن المظهر بها.

ونحن نعتقد أن مجموعات البيانات Visual الجينوم يمكن أن يساعد أيضا تم نشر الكثير من الباحثين في خوارزمية ونموذج التجارب والدراسات العلاقة بين المعلومات المستخرجة.

بعد الاعتراف المشهد، ما هي؟

وقال عادل التعرف على الأشياء، والعلاقة بين هذين السيناريوهين توقع بعد فهم المشكلة، والشيء الأخير ذكر جيرمي أن "جوهر أساسي من المشهد الفضاء ثلاثي الأبعاد في شكل انتشار بين بعض الأشياء والأسطح، تكرار العناصر البصرية ". ومع ذلك، لأنني أشعر بالقلق حول المشهد ثلاثي الأبعاد لا يفهم، وسأكتفي شرح لفترة وجيزة الزملاء ستانفورد دراسة نتائج الأخيرة.

ويقدر اليسار من صورة واحدة للتخطيط المشهد ثلاثي الأبعاد، حيث يسلك كائن هندسي ثلاثي الأبعاد المميزة؛ الجانب الأيمن هو هيكل ثلاثي الأبعاد من تقسيم الفضاء الدلالي. وبالإضافة إلى هذه ستانفورد اثنين، مشهد ثلاثي الأبعاد لفهم هناك الكثير من البحوث، بما في ذلك استخدام الصور والغيوم نقطة. أشعر بسعادة بالغة، وسوف لا تزال لدينا أشياء جديدة تأتي قبل لنا، وسوف تكون مفيدة بشكل خاص في مجال الروبوتات.

وبالتالي، فإننا تغطي أساسا كل من جوهر المشهد، هو أن نرى ما حدث قبل المشهد في 150 ميلي ثانية. حكمة رؤية البحوث، وبطبيعة الحال، لا تقتصر على هذا 150 ميلي ثانية، ثم لديهم للنظر، ونحن نتطلع هناك نوعان من المهام.

اهتماماتي البحثية هي بالإضافة إلى علوم الحاسوب والذكاء الاصطناعي، وشكلت علم الأعصاب الإدراكي أيضا لمنصب كبير. لذلك أريد أن أعود ونظرة على التجربة عندما الدكتوراه في معهد كاليفورنيا للتكنولوجيا للقيام، ونحن دعونا يلاحظ الناس صورة، ثم السماح لهم قول ما يرون في الصور قدر الإمكان. ثم القيام التجارب، سرعان ما لمع صورة على الشاشة أمام هذا الموضوع، ومن ثم استخدام صورة أخرى، نفس الصورة خلفية لتغطية ذلك، فإنه هو دور المعلومات التي الشبكية استمرار مسح .

ثم تركنا لهم كتابة بقدر ما يقرأون. من وجهة نظر النتائج للعرض، بعض الصور تبدو سهلة، ولكن في الواقع، لمجرد أننا اخترنا أن تظهر طول مختلفة من الزمن، أقصر يظهر صورة فقط 27 ميلي ثانية، التي وصلت إلى الحد الأعلى من الشاشة عندما تكون سرعة العرض؛ بعض الصور التي تبين 0.5 ثانية، لفهم رؤية الإنسان، فإنه يمكن اعتبار أكثر من كافية.

نتائج نحصل على شيء من هذا القبيل، على هذه الصورة، والوقت هو وقت قصير جدا لرؤية المحتوى هو أيضا محدودة للغاية، و 500 ميلي ثانية عندما سيكون قادرا على الكتابة لفترة طويلة. أعطانا تطور القدرة على رؤية سوى صورة يمكن أن تحكي قصة طويلة.

لغة الكمبيوتر الرؤية +

أريد أن أقوله هو هذا المعرض تجربة أنه في السنوات الثلاث الماضية، والموظفين الميدانيين CV بحث في كيفية تصبح المعلومات في صورة قصة.

لأول مرة درس وصف الصورة، مثل محتويات هذه المساعدات تمثل CNN الصورة لمساحة الميزة وتولد سلسلة من النص مع هذا RNN LSTM. هناك العديد من نتائج هذا العمل في حوالي عام 2015، منذ ذلك الحين ونحن يمكن السماح للعطاء الكمبيوتر أي شيء تقريبا إلى جانب وجود الحكم.

على سبيل المثال، هذين المثالين، "عامل يرتدي سترة برتقالية تمهد" و "رجل يرتدي قميصا أزرق يلعب الغيتار." يجعلني أفكر في ذلك في عام 2015 عندما كنت حاضر في هذه القاعة نفسها. بعد ذلك بعامين، أنظمتنا هي أيضا ليست الأكثر تقدما، ولكن عندما ندرس حقا هو صورة توضح واحدة من العمل الرائد في هذا المجال.

نستمر في إجراء البحوث في هذا الاتجاه، إلى الدخول في النتيجة التالية وصفا كثيفة، لأن هناك العديد من مجالات الاهتمام ستخصص في الصورة، لذلك لدينا يمكن أن يكون لها الكثير من الجمل مختلفة في مناطق مختلفة، و فقط جملة واحدة تصف المشهد بأكمله. نحن هنا على CNN استخدام مزيج من نموذج وكشف المنطقة النموذج المنطقي، بالإضافة إلى نموذج اللغة، حتى نتمكن من جعل وضع العلامات كثيفة على الساحة.

على سبيل المثال، هذه الصورة يمكن أن تتولد، وقال "هناك نوعان من الناس يجلسون على كرسي"، "الفيل"، "شجرة" وهلم جرا، وآخر من طلابي وتتميز الصور في الأماكن المغلقة الغنية المحتوى.

تم إجراء نظامنا وضع العلامات كثيفة أيضا أفضل بكثير من غيرها على أساس أسلوب نافذة انزلاق.

في CVPR2017 الدراسة الأخيرة، ونحن دعونا أداء ترقيتها إلى مستوى جديد، وليس مجرد جمل توضيحية، الفقرات حتى من النص ولدت، ربطها بما لديهم شعور من الفضاء.

حتى نتمكن من إرسال "زرافة يقف بجانب شجرة، أليس كذلك توجد مجموعة من أوراق القطب، هناك مبنى من الطوب الأبيض والأسود، مكدسة في الجدار الخلفي"، وهلم جرا. وإن كانت هناك أخطاء، ولكن أيضا أصغر بكثير من شكسبير، ولكننا قد اتخذت أول خطوة الجمع البصرية واللغوية.

وعلاوة على ذلك، فإن الجمع بين المرئي واللغة لا تبقى على صورة ثابتة، ولكن مجرد واحدة من أحدث إنجازاتنا. وفي دراسة أخرى، ونحن الجمع بين الفيديو واللغة، مثل هذا CVPR2017 الدراسة، ونحن يمكن توضيحية فيديو المحرز في أجزاء مختلفة من التفكير المشترك والفرز بنية النص. وتكمن الصعوبة هنا هي تحليل الكيانات النص، مثل الخطوة الأولى هي "أثار الخضار"، و "من الخليط." إذا خوارزمية قادرة على حل "خليط" يشير إلى مزيج من الخضروات في الخطوة السابقة، ثم كبيرة. طلابي ومن حملة الدكتوراه الذين شعروا أيضا إلى الحصول على الروبوت لتعلم خطوة مهمة جدا.

الفرصة هنا لا تزال مشاكل اللغة والرؤية معا، إلا إذا كان الأسلوب البصري، سيؤدي إلى غموض البصرية، وإذا النهج اللغوي فقط، سوف يؤدي إلى غموض في اللغة؛ البصرية واللغة معا، ونحن يمكن أن تحل هذه المشاكل.

أو لا نقول الكثير من التفاصيل، ونحن تستخدم أساسا طريقة لحل هذه الأمثل الشكل الغموض جزءا لا يتجزأ من الكيان. وتشير النتائج التي توصلنا إليها، بالإضافة إلى حل الغموض، يمكننا أن نجعل المنطق الصوت أكثر شمولا للمحتوى الفيديو.

يحركها المهمة الرؤية الحاسوبية

بعد اللغة، والاتجاه الأخير أريد أن أقوله هو مشاكل في الرؤية يحركها البعثة، وأنه هو أيضا أكثر ارتباطا عدد الروبوت. أبحاث الذكاء الاصطناعى لجميع أفراد الأسرة، ومنظمة العفو الدولية يحركها المهمة هو حلم مشترك على المدى الطويل، من البداية للأمل البشرية الصادر عن لغة محددة لالروبوت، الروبوت ثم مراقبة العالم مع الوسائل المرئية، وفهم وإكمال المهمة.

مثل الإنسان، وقال: "أنا مثل الهرم الأزرق الجيد ليس مكعب أحمر، ولكن أنا لا أحب أي شيء لخففت 5 من طرف وأنني مثل المربع الرمادي بعد .." ثم آلة أو روبوت أو وكيل يجيب: "لا، لأنها خففت من جانب و5". ومن يحركها المهمة، وأفهم منطق هذا العالم المعقد.

ونحن مؤخرا الفيسبوك والتعاون لإعادة النظر في هذه القضايا، وخلق مشهد مع مجموعة متنوعة من الأشكال الهندسية، والذكاء الاصطناعي لطرح الأسئلة ونرى كيف سيكون فهم المنطق، من أجل حل هذه المشاكل. والذي ينطوي على التمييز السمة، العد، مقارنة، والعلاقات المكانية.

لدينا أول ورقة في هذا الصدد مع CNN + LSTM + نموذج الاهتمام، فإن النتائج لا يمكن اعتبار الفقراء، ويمكن للانسان ان يحقق المعدل الصحيح لأكثر من 90، على الرغم من أن الجهاز يمكن أن تفعل ما يقرب من 70، ولكن لا تزال هناك فجوة كبيرة . هناك هذه الفجوة لأن البشر يمكن الجمع بين المنطق، والجهاز لا يمكن القيام به.

في الشهر ICCV في وقت لاحق سنقدم نتائج ورقة جديدة، ونحن كسر مشكلة في كتلة مع وظيفة، ثم القطار إلى الإجابة على الأسئلة على أساس محرك التنفيذ على الكتلة. البرنامج في مشاكل العالم الحقيقي عند محاولة الاستدلال سيكون له القدرة على الجمع بين أعلى من ذلك بكثير.

الأداء الفعلي للنموذج صحيح بالتأكيد، وبالتالي فإن أوراق وICCV صلتني. على سبيل المثال، في هذا المثال، فإننا نتساءل بعض الاشياء اللون هو ما تشكله سيجيب "مكعب" وهكذا، أظهرت تعليلها هو الصحيح. ويمكن أيضا الاعتماد على عدد من الأمور. وهذا يعكس خوارزمية المنطق يمكن أن تفعل مشهد.

ونحن نحاول أيضا لمحاكاة البيئة، فإننا نخلق بيئة لأداء المهام مع جعل المحرك 3D، بحيث الروبوت استراتيجيات التعلم في الإجراءات التي تعلم، مثل كرة السلة في الميكروويف، فإنه يحتاج أيضا إلى وضع هذه المهمة إلى عدد من الخطوات ومن ثم تنفيذها.

استخدمنا توصيف عمق اللغة الإيطالية، ومن ثم يمكن أن يكون مهمة صعبة نسبيا من المطبخ مع مهام متعددة من صعوبة اختبار أماكن مختلفة لالتقاط عدد من كائنات مختلفة، ومن ثم وضعها في الأماكن المخصصة متفاوتة، من الصعب مهمة يمكن أن تكون الاستراتيجية التي تحتاج إلى العثور على أشياء جديدة لم يسبق له مثيل من قبل.

المهام المتعلقة الرؤية وقد قلت ذلك، أريد أن تنظيمها في هذه الفئات الثلاث.

هي العلاقة بين الكائن تحديد بالإضافة إلى تحديد وتوصيف مجمع الدلالي، مشهد الرسم البياني.
بالإضافة إلى جوهر المشهد، نحن بحاجة إلى التعامل مع جملة واحدة ملحوظ مع + اللغة البصرية، وتوليد الفقرات، فهم الفيديو، والمنطق المشترك.
وأخيرا، مشاكل في الرؤية يحركها البعثة، كان لا يزال حقل الوليدة، وأعتقد أن الجمع بين إرادة البصرية والمنطقية الانضمام فعلا يد في هذا المجال.

وقد وضعت رؤية الإنسان لفترة طويلة، ورؤية الكمبيوتر على الرغم من إحراز تقدم كبير في 60 عاما بعد ظهور سنوات، لكنه لا يزال مجرد الانضباط الناشئة. وأرجو أن يكون ذكر من قبل لي أثناء العمل مع الأطفال، وهي صورة كبيرة لابنتي اثنين الساعة أشهر.

وقالت إنها في عملية يوم المتزايدة بعد يوم، حقا جعلني أشعر أن هناك أشياء كثيرة في انتظارنا للدراسة. أهداف البحث المستقبل القدرة البصرية هي حياتها اليومية جزءا هاما، والقراءة، والرسم، ومراقبة العاطفة وهلم جرا، وهذه هي إنجازات هامة في هذا المجال.

شكرا لك!

(النهاية)

تقارير لى فنغ شبكة AI تقنية الاستعراض.

طريق الحرير

لي Feifei: بعد التعرف على الأشياء، رؤية الكمبيوتر، كم من الوقت لفهم هذا العالم