من الرؤية إلى اللغة ومن ثم إلى العمل، والمعلومات عبر المجال لمدة ثلاث سنوات نقاش فيوجن مليون كلمة

مذكرة لى فنغ شبكة AI تقنية الاستعراضي: المؤلف هو أستاذ مساعد في جامعة أديلايد وو تشى، فذكر أبحاثه المتعلقة التعرف على الصور الشاملة لشبكة الرؤية إلى اللغة لى فنغ في المواد حصرية لتقديم AI تكنولوجي ريفيو فكرة، والآن يجري تمديد في مجال البحوث المتعلقة العمل. لم شبكة لى فنغ محرر AI تقنية استعراض المادة لم يتغير القصد.

مرحبا بالجميع، أنا جياو وو تشى، يشغل حاليا منصب محاضر (أستاذ مساعد) في جامعة أديلايد. بعد تخرجه في عام 2014، والدكتور حسن الحظ للانضمام إلى جامعة أديلايد، بدأت أستراليا (جامعة أديلايد) لمدة ثلاث سنوات عمل بعد الدكتوراه. منذ فترة الدراسة الرئيسية، والمحتوى هو الدكتور التعرف على الصور المتداخلة، حتى فترة ما بعد الدكتوراه، كان يأمل أن تكون قادرة على الاستمرار في إجراء البحوث والجوانب الشاملة ذات الصلة. ومع ذلك، وبعد فترة ما بعد الدكتوراه معلمه انطون فان دن Hengel، أستاذ شين تشون هوا المناقشة، قررت القفز من البحوث الشاملة الداخلي على أساس الصور والصورة وغيرها من مجالات البحوث الشاملة الخارجية بدأت. CVPR 2015 تزامنت مع العديد من أوراق العمل صورة السفلية، وكان الأكثر شهرة بلا شك أندريه Karpathy من NeuralTak وجوجل مشاهدة وأخبر، بينما في عام 2015 MS COCO صورة السفلية التحدي أيضا الحصول على الكثير من الاهتمام. لذلك تقرر أن تبدأ البحث على القضايا المتشعبة المتعلقة الرؤية إلى اللغة. في وقت لاحق بشأن هذه المسألة نحن أقرب وعميقة، ما يقرب من ثلاث سنوات على CVPR، AAAI، IJCAI والاجتماعات TPAMI مع كبار مجلات أخرى، نشرت 15 ورقة ذات الصلة رؤية اللغة، وتمديد الأخير لمشكلة ننتقل إلى المجالات ذات الصلة العمل، وفتح اتجاه جديد كليا. المقبل، وسوف أعرض بعض من أفكاري البحوث، والعمل، وبعض من أفكاري في هذا المجال.

1. صورة السفلية مع سمات

السؤال الأول لدينا 15 عاما من الأبحاث حول الصورة السفلية تكشفت، يستند النموذج السائد في هذا الاتجاه في إطار CNN-RNN، وهي صورة المدخلات، أولا مع CNN في مرحلة ما قبل المدربين لميزات استخراج صورة، ثم ، CNN هذه الخصائص هي مدخلات لRNN، الشبكة العصبية المتكررة والتي هي لتوليد كلمة متواليات. على سطح هذا يبدو نموذجا جذابا جدا، وهذا يتوقف على عمق الشبكة العصبية قوية يمكن أن تتعلم المراسلات المباشرة من صورة إلى لغة (vision2language) مع نهاية إلى نهاية الموضة، ولكن يتجاهل حقيقة هامة ومن بين الصورة واللغة، في الواقع، وجود الفجوة. على الرغم من أننا سوف تستخدم الفضاء الفضاء صورة شبكة واللغة العصبية تضمينها في نفس المكان، ولكن الحدس يقول لي أن مساحة اثنين يجب أن تكون الحاجة إلى فرعي الفضاء المشترك كجسر للتواصل. لذلك نحن نعتقد من سمات الميزة، صورة ولغة لها. لذلك، على أساس هيكل CNN-RNN المذكورة أعلاه، أضفنا طبقة سمات التنبؤ إضافية. عندما صورة معينة قبل، ونحن نذهب إلى الصورة توقع من بين الصفات المختلفة (سمات تعريفنا هو واسع، بما في ذلك اسم كائن، والصفات والأفعال والصفات والأحوال، والمزاج، وما إلى ذلك)، فإن هذه الصفات بدلا من الصورة ميزة CNN (FIG 1)، هو مساهمة في RNN الذي يولد البيانات.

الشكل 1: صورة نموذج السفلية من الصورة إلى الكلمات ثم إلى بيان

وجدنا أن عملية بسيطة تجعل تم نموذجنا الصورة السفلية تحسنت كثيرا (انظر الشكل 2)، ويسمح لنا المرتبة الأولى في عدد من التقييم في 15 ديسمبر MS COCO صورة السفلية مجلس زعيم التحدي ( انظر الشكل 3). وفي وقت لاحق، ورقة كما تلقى CVPR 2016، ونحن نرى ورقة .

الشكل 2: صورة السفلية مع سمات تنبأ

FIG 3: نتائجنا (Q.Wu) على MS COCO صورة مجلس السفلية زعيم التحدي، ديسمبر / 2015

2. البصرية سؤال الإجابة مع قاعدة المعارف

بعد الاطلاع على دور السمات في السفلية صورة، بدأنا في النظر فيما إذا كانت الفكرة نفسها يمكن أن تمتد إلى قضية أكثر من رؤية واللغة؟ بعد كل شيء، الفجوة بين الرؤية واللغة هي واقع موضوعي، وسمات يمكن أن يكون تضييق الفجوة على نحو فعال. لذلك نحن في محاولة لاستخدام نفس الإطار في سؤال البصرية الإجابة على (VQA) (انظر الشكل 4)، كما حققت نتائج جيدة جدا. وقد تم نشر النتائج ذات الصلة في TPAMI، راجع ورقة .

الشكل 4: إضافة سمات المتوسطة طبقة في VQA

ومع ذلك، VQA و، عندما يحتاج الجهاز للرد على سؤال حول مضمون الصورة، وآلة لا تحتاج فقط الأخرى اختلاف الرؤية إلى لغة لتكون قادرة على فهم المعلومات اللغة والصورة، ولكن أيضا لتكون قادرة على بعض الحس السليم، على سبيل المثال، كما هو مبين، يتم ترك مشكلة في الشكل 5 هناك عدد قليل من الثدييات. ثم الإجابة على هذا السؤال، نحتاج إلى آلة ليس فقط على "رؤية" في الشكل، وهناك الكلاب والقطط والطيور، وأيضا بحاجة إلى آلة ل"معرفة" الكلاب والقطط هي الثدييات، والطيور ليس كذلك "يقول" لنا الجواب الصحيح هو 2 .

FIG 5: البديهية يتطلب الأسئلة

لذلك نحن نعتقد بشكل طبيعي من خريطة المعرفة (المعرفة القاعدة) في VQA لهم، والمساعدة لنا الإجابة على سؤال مماثل. فكيف للاتصال من محتوى الصورة والقاعدة المعرفية لذلك؟ سمات لدينا هذه المرة لعبت أيضا دورا في ذلك. نحن أول صورة بين سمات المستخرج، ومن ثم استخدام هذه الصفات إلى قاعدة المعرفة الاستعلام (DBpedia)، للعثور على المعرفة ذات الصلة، ومن ثم استخدام هذه المعرفة المعلومات Doc2Vec تحديدها، ومن ثم جنبا إلى جنب مع غيرها من المعلومات، لدخول lstm لهم، للإجابة على الأسئلة. إطار لدينا (انظر الشكل 6) المحرز في مجموعة البيانات VQA الأداء الجيد جدا، وقد تم نشر النتائج من الأوراق ذات الصلة في CVPR 2016، ونحن نرى ورقة .

الشكل 6: نموذج VQA مع قاعدة المعرفة

3. البصرية سؤال الإجابة مع الاستدلال

على الرغم من أن الإطار المقترح نحل والإجابة على الأسئلة المذكورة أعلاه عن "الحس السليم" للتحدي، ولكن وجدنا VQA التي يوجد نوعان من القيود الهامة:

  • CV لا يساعد كثيرا

    وتستخدم ميزات -فقط CNN

    يتم تدريب -CNN ببساطة على تصنيف الكائن

    -VQA يتطلب مهام متعددة CV

  • يتم إعطاء أي أسباب

    ، صورة + سؤال - >  رسم الخرائط الجواب

    -Providing أسباب مهمة، مثل الخدمات الطبية والدفاع.

يشير الأول إلى VQA حقيقة الحد، رؤية الكمبيوتر، ودور التي هي صغيرة جدا، ونحن فقط استخدام الصورة لCNN بين الأشياء والآخرين فهم المحتوى. وبناء على صورة للمشكلة، قد تسأل العلاقة بين الكائنات، كائنات النص، وما إلى ذلك، ولكن هذا هو في الواقع مجموعة متنوعة من خوارزميات الرؤية الحاسوبية تحتاج إلى معالجة.

A الثانية وسائل الحد الذي، في عملية الإجابة على الأسئلة، ونحن لا يمكن أن تعطي تفسيرا معقولا. و"تفسيرها" هو بالضبط السؤال نشعر بالقلق حول في السنوات الأخيرة. إذا نحن بصدد الإجابة على الأسئلة، ولكن أيضا لتوفير أسباب مفهومة، وسوف يكون من المفيد جدا.

مستندا في ذلك على ما ورد أعلاه نقطتين، نقترح بنية VQA الجديد، فإننا ندعو آلة VQA. هذا النموذج يمكن أن يحصل عدد وافر من رؤية الكمبيوتر خوارزميات نتائج الإخراج، بما في ذلك الكشف عن وجوه وسمات التنبؤ والكشف العلاقة، وما إلى ذلك ثم تنصهر هذه المعلومات، فإن الجواب. وفي الوقت نفسه، لدينا انتاج آلة VQA بالإضافة إلى الإجابة، يمكنك أيضا أسباب الانتاج. في هذا النموذج، سوف نصدر ثلاثة مستويات الأول لترميز. حيث في كل مستوى، فقط، وكذلك مشاكل مع الحقائق صورة معا مرة أخرى تضمين معا في الفضاء الذي، من خلال نموذج التعاون الاهتمام. هنا هو عبارة عن سلسلة من الحقائق، واستخدام نموذج الرؤية الحاسوبية معلومات الصورة المذكورة التقليدية استخراج. وأخيرا، استخدمنا MLP التنبؤ الجواب، استنادا إلى إخراج كل طبقة من نموذج التعاون الاهتمام. ثم أجبت على السؤال بسبب الحقائق المرجحة فرز وإعادة صياغة، التي تم الحصول عليها (انظر الشكل 7).

الرقم 7: VQA الإطار آلة

جعلت لدينا مجموعة بيانات نموذج على VQA دولة من فن الأداء (انظر الجدول 1)، والأهم من ذلك، إلى الإجابة على الأسئلة في نفس الوقت يمكن أن يعطى التفسير المقابلة التي نماذج أخرى من VQA لا أستطيع أن أفعل. 8 يبين الشكل بعض النتائج التي تنتجها نموذجنا. وقد نشرت الصحف في CVPR 2017، ونحن نرى ورقة .

الجدول 1: الأداء نموذج واحد على مجموعة الاختبار الحقيقي VQA

FIG 8: VQA آلة ونتيجة لذلك، كلمة في السؤال الملونة أعلى 3 يشير الوزن الثقيل. وهو يمثل مدى أهمية هذه الكلمة في الإجابة على هذا السؤال. الذي يمثل منطقة صورة صورة سلط الضوء بين الأوزان الاهتمام. وأكثر عمقا ومساحة اللون الوصف هذه المنطقة هي أكثر أهمية بالنسبة لالإجابة على الأسئلة. وأخيرا، والسبب ولدت لنا نماذج للإجابة على الأسئلة.

4. البصرية سؤال الرد مع المنطق الصريح على قاعدة المعارف

وبما أننا نعلم أن المعرفة والمنطق مهمة لVQA، ثم كيف أن اثنين من الجمع بين بعضهم البعض، في حين التمكن من تنفيذ المنطق الصريح (عرض المنطق) أن تفعل؟ ما يسمى المنطق واضح، هو في عملية الإجابة على السؤال يمكن أن تعطى سلسلة التعقب منطقي. لذلك اقترحنا آخاب، وهذا نموذج جديد قادر على VQA المنطق واضح. في هذا النموذج، والتي، في الصور إضافة الماضية مباشرة على الأسئلة تعيينها مباشرة إلى إجابة مختلفة، وأهاب العدد الأول وصورة خرائط للاستعلام KB، الذي طلب المعرفة ورسم الخرائط، مما يتيح الوصول إلى الآلاف من المعرفة منهم. وبالإضافة إلى ذلك، لدينا نموذج لهم، فإن الجواب هو يمكن تتبعها، والتي يمكن عزوها لأننا لا نستطيع الحصول على سلسلة منطقية واضحة من خلال الاستعلام في مسار البحث من المعرفة بين الخريطة.

الرقم 9 يبين لنا هذا الأسلوب. نهجنا يمكن تقسيمها إلى قسمين.

  • أولا، في الجزء الأول، ونحن سيتم الكشف عن صورة بين المفاهيم، ومن ثم ربطها خريطة المعرفة التي تشكل الرسم البياني كبير، فإننا ندعو عملية البناء الرسم البياني هذه العملية RDF.

  • في الخطوة الثانية، وهو نوع من مشكلة اللغة الطبيعية ومعالجتها لأول مرة في استعلام المناسب، سوف الاستعلام الذهاب إلى تأسيس رؤية جيدة للطلب الذي الخطوة. قد تحتاج الاستعلام إلى عملية متعددة الخطوات من التفكير، وهذا استجابة استعلام المقابلة تتوافق مع شكل الجواب.

FIG 9: نموذج لدينا أهاب VQA

في الآونة الأخيرة، أنشأنا VQA جديد مجموعة البيانات يسمى VQA الواقع القائم، واستنادا إلى حقيقة أن VQA. لدينا مجموعة البيانات السابقة على أساس المنطق واضح للمشكلة تقبل سوى أسلوب قالب ثابت، ويوفر مجموعة البيانات FVQA جديد أسئلة مفتوحة. وبالإضافة إلى ذلك، لكل سؤال - الجواب، ونحن يوفر بالإضافة إلى ذلك حقيقة الداعمة. لذا، عند الإجابة على الأسئلة، ونحن بحاجة ليس فقط آلة للإجابة على هذا السؤال، ولكنها تحتاج أيضا لتكون قادرة على تقديم دعم حقيقة عن الجواب. 10 يبين الشكل بعض الأمثلة لنموذج آخاب وFVQA والبيانات. ونشرت البيانات ذات الصلة والنتائج في IJCAI 2017 وTPAMI، راجع ورقة

FIG 10: آخاب وFVQA مجموعات البيانات والنتائج

5. البصرية الحوار مع GAN

يمكن اشتقاق VQA من العديد من المشاكل الجديدة، فيجوال الحوار (الحوار البصري) هو واحد منهم. VQA فقط مع مختلف المحافل، والاحتياجات الحوار البصرية لتكون قادرة على استخدام الجهاز الطبيعية، واللغة المشتركة والحفاظ على صورة الإنسان في حوار هادف. وVQA وثمة فرق آخر هو أن، بشكل عام هي قصيرة الجواب VQA، ويقول كان الجواب نعم / لا، رقمي أو اسما، الخ، هي الميكنة الجزئية. ونأمل أن تكون قادرة على توليد البيانات سهل الاستعمال الجزئي الحوار البصري قدر الإمكان. على سبيل المثال، كما هو مبين في الشكل 11، تواجه نفس المشكلة، جزئية البشرية الجواب الأكثر ثراء المعلومات، ولكن أيضا أكثر طبيعية، في حين يجري قادرة على التركيز على المحادثة حدث، ويؤدي إلى الحوار المقبل لتأخذ مكان. والاستجابات الجزئية آلة قديمة الطراز جدا، لا يؤدي إلى حوار الأساسية التالية.

الشكل 11: الإنسان مثل مباراة، آلة مثل

لذلك اقترحنا على أساس GAN (ولدت ضد شبكة) طريقة (الشكل 12) للمساعدة في الإجابة أكثر انسجاما مع تطلعات الجيل نموذج الإنسان. نحن شبكات الجيل اليسرى هو استخدام أحد المشاركين في الاهتمام، وهو نموذج للاهتمام مشترك لاستخدام مشترك للصورة، والتاريخ الحديث لتوليد حوار جديد، فإننا سوف تولد الحوار ولفت الانتباه من طراز الجيل معا، تغذي نموذجا الفرق التي، إلى الفرق بين الحوار أو مصطنع إنشاؤه تلقائيا، وبعد ذلك في شكل مكافأة وتشجيع نموذج الجيل أكثر انسجاما مع محادثة الإنسان.

الشكل 12: جيل عبر الحوار GAN

FIG 13: الرئيسان اهتماما نموذج

في هذا العمل، وكنا نموذجا للالمشارك الانتباه إلى دمج المعلومات من مختلف الطرائق، وتستخدم أيضا في نفس النموذج VQA آلة التي ذكرنا أعلاه. فيه نموذج التعاون الانتباه، ونحن نستخدم اثنين من الميزات لحضور ميزة أخرى، وبالتالي تمكين مجموعة مختارة ميزة فعالة. هذا يحضر كما وضع متتابعة من المرات العملية حتى كل ميزة المدخلات، واثنين من الميزات الإضافية ويحضر أيضا. ورقة قبلت CVPR2018 والجمعية العامة عن طريق الفم.

FIG 14: البصرية نتائج الحوار المقارن

6. من الرؤية واللغة إلى العمل

نبذة مقدمة لبعض من أعمالنا في وقت سابق على الاتجاه رؤية اللغة، يمكننا أن نرى أن الجمع بين كلا من حيث التكنولوجيا أو التطبيق، هو مفيد للغاية. ومع ذلك، فإن الذكاء الاصطناعي (AI)، وهذا هو مجرد خطوة صغيرة. صحيح الذكاء الاصطناعي، بالإضافة إلى تعلم لفهم مجموعة متنوعة من وسائط الإعلام، ولكن أيضا يجب أن تكون قادرة على القيام ببعض درجة من التفاعل مع البيئة الحقيقية، باللغة، من خلال العمل، والتي يمكن أن تغير البيئة، ومساعدة الناس على حل المشاكل العملية. حتى بداية هذا العام، سنبدأ العمل انضم أيضا في وإجراء البحوث ذات الصلة.

لهذا السبب اقترحت مفهوم V3A، والرؤية، اسأل، الإجابة وقانون (الشكل 15)، الذي هذا النظام الجديد، لدينا رؤية و(الرؤية) والمركز، الأمل للبدء في طرح الأسئلة (اسأل)، والإجابة ( الجواب)، والعمل (القانون) وغيرها من العمليات. وبهذه الطريقة، ونحن قادرون على الحصول على حلقة مغلقة قابلة للتدريب، وأيضا رؤية الناطقة قبل اندماج العديد من المهام جاء أيضا ليست فقط. على سبيل المثال، في طرح هذه الغاية، فإننا يمكن أن يكون مهمة كهذه مشروع Visual سؤال الجيل، الصورة السفلية، لأنها ولدت من الصورة إلى اللغة. في الإجابة على هذه الغاية، لدينا VQA، فيجوال الحوار وهذا يتطلب آلة قادرة على إنتاج الإجابات النموذجية. في نهاية القانون، لدينا أيضا بعض المهام مثيرة جدا للاهتمام، مثل اشارة التعبير والتنقل والبصرية. لذلك نحن في CVPR2018 هذا العام، في هذين الجانبين والمتعلقة بالعمل.

FIG 15: إطار V3A

أول الكلام عن اشارة التعبير، وتسمى أيضا أسس البصري، فإنه يأخذ الجهاز بعد حصوله على صورة والاستعلام (الأمر)، "يشير إلى" صورة للكائن التي هي ذات الصلة لهذا الاستعلام. لحل هذه المشكلة، نقترح وضع إطار موحد، شبكة موازية الاهتمام (PLAN)، وتستخدم للعثور على الأشياء في الصورة من الوصف الطبيعي لطول متغير. وصف الطبيعي من العبارة يمكن الحديث معه. شبكة PLAN اثنين من الآليات من الاهتمام، الجزء لغة المرشحين المحتوى والهدف البصري العالمي يرتبط مباشرة مع. وبالإضافة إلى ذلك، يتم تكرار آليات الانتباه بشكل متكرر، مما يجعل عملية الاستدلال يصبح البصرية والتأويل. يتم دمج المعلومات من اهتمام اثنين معا تعترض على الاستدلال تتم الإشارة. علما بأن هاتين الآليتين قد تدرب في موازاة ذلك، وجدنا أن هذا الأداء نظام الجمع على عدة أطوال مختلفة القياسية مجموعة البيانات لغة الإدخال على حالة التقنية الصناعية السابقة، مثل RefCOCO، RefCOCO + وGuessWhat البيانات. أوراق ترى . نحن أيضا اقتراح نموذج يقوم المشارك الانتباه، انظر ورقة .

FIG 16: الاهتمام الموازي (PLAN) شبكة

بعد ذلك، نقدم لكم حول مقال على Visual التنقل ، ورقة أيضا قبلت CVPR2018، لأن الموضوع هو جديد نسبيا، فإنها تشعر بالقلق أيضا إزاء الجميع. ويطلق على مادة "الرؤية واللغة الملاحة: تفسير تعليمات الملاحة الارض بصريا في بيئات حقيقية." مشكلة واحدة نريد أن نحل هذا المقال كيفية استخدام بعض الأوامر المعقدة لغة الإنسان لتوجيه الروبوت في بيئة حقيقية محاكاة، لإكمال المهمة، وعمل المقابلة.

حتى في هذه المادة ونحن أول من اقترح محاكي Matterport3D. جهاز محاكاة هي على نطاق واسع قد تكون مبنية على بيئة تفاعلية تعزيز التعلم. في هذه المحاكاة للبيئة، ونحن نستخدم 10800 عينات كثيفة صور بانورامية بزاوية 360 درجة بالإضافة إلى العمق، والتي يمكن أن توفر مستوى سحابة نقطة. ثم لدينا ما مجموعه من المشاهد الداخلية 90 في العالم الحقيقي. وذلك مع محاكاة قبل بعض من بيئة افتراضية، ونحن وهذه المحاكاة الجديدة أكثر تحديا، ولكن أقرب إلى الواقع. الرقم 17 يظهر مشهد حقيقي ولدينا الروبوت (وكيل) يمكن ان تتحرك الطريق.

FIG 17 :. مثال الرسم البياني الملاحة لأرضية الجزئي للمشهد واحد بناء على نطاق وفي مسارات Matterport3D محاكي الملاحية بين وجهات النظر بانورامية موضحة في السلالم الزرقاء يمكن أيضا أن أبحر للتنقل بين الطوابق ..

وبناء على محاكي Matterport3D لدينا، قمنا بجمع مجموعة من البيانات غرفة إلى غرفة (R2R)، وهو في هذه مجموعة البيانات، جمعنا 21567 تعليمات الملاحة (تعليمات الملاحة)، ومتوسط مدة 29 الكلمات. يتم وصف كل التعليمات مع أمر واحد عبر عدد وافر من الغرف. 18. ويبين الشكل 19 شروط التوزيع من التعليمات لدينا الملاحة.

بالإضافة إلى محاكاة وثم البيانات، يقدم نحن المقالة أيضا على نماذج تسلسل إلى تسلسل، وتغيير النموذج وVQA نموذج مشابه جدا، إلا أن الناتج يعمل على أن يكون تسلسل، مع LSTM التنبؤ بها. واضاف نحن أيضا مثل إجبار المعلمين، وأصناف أخرى، مما اضطر الطلاب، حققت نتائج أفضل. بعد ذلك، سوف نستمر في توسيع جمع البيانات واختبار الاحتفاظ، ومنصة اختبار لتقديم المعرض، الذي يقام كل عام المتعلقة اللعبة. الرجاء انتباه الجميع!

الشكل 18: تصفح مهمة غرفة إلى غرفة (R2R) ونحن نركز على تنفيذ تعليمات الملاحة اللغة الطبيعية في المباني في العالم الحقيقي لم تعرض من قبل الكاميرا وكيل يمكن أن تكون استدارة بحرية أقراص زرقاء تشير قريب الخيارات (discretized) الملاحة ...

وقراءة الرقم 19 :. توزيع إرشادات الملاحة القائمة على هم أول أربع كلمات تعليمات من أطوال قوس المركز إلى الخارج ليتناسب مع عدد من التعليمات التي تحتوي على كل كلمة المناطق الأبيض تمثل الكلمات مع المساهمات الفردية صغيرة جدا لإظهار ...

7. ملخص والمستقبل

الذكاء الاصطناعي هو نظام معقد جدا ككل، تتعلق الرؤية، واللغة، والمنطق، والتعلم، والحركة، وما إلى ذلك، ثم رؤية الكمبيوتر واتجاه في مجال الذكاء الاصطناعي، بالإضافة إلى الاهتمام الكلاسيكية البصرية بحتة (مثل التعرف على الصور وتصنيف كائن، وما إلى ذلك)، وينبغي أيضا التركيز على كيفية الجمع بين مهام وتحديات أكثر صعوبة لتحقيق مع المناطق الأخرى. جنبا إلى جنب مع اللغة البصرية (رؤية اللغة) هو اتجاه جيد جدا، وهذا يثير ليس فقط الأسئلة المثيرة للاهتمام مثل السفلية صورة وVQA، كما قدمت الكثير من التحديات التقنية، مثل كيفية دمج المعلومات متعددة الأبعاد في مختلف المجالات. ونحن، من المتوقع آلات إدخال مزيد رؤية لغة لعمل الميدان لأن تسأل (اسأل)، A (الجواب) وجعل (القانون) القدرة على أساسا يريد الجهاز ليكون قادرا على فهم ومعالجة المعلومات البصرية، معلومات اللغة، والإخراج معلومات عملية المقابلة لدرجة أعلى من المعلومات عبر المجال هو الانصهار الكامل.

FIG 20: خطط إضافية

بعد ذلك، سوف نستمر في بذل المزيد من التنقيب في اتجاه رؤية لغة عمل، مجموعة البيانات الملاحة الحالي غرفة الى غرفة فقط الخطوة الأولى، وسوف نكون على موقعنا Matterport3D محاكي المقبل، اقترح أيضا توطين الكائنات المرئية ، كانت مخبأة توطين الكائن واسأل لايجاد المهام (FIG 20)، استنادا إلى وكيل المرجوة من خلال لغة الأوامر، المشهد المرئي للملاحة (المرئي) كائنات خفية (مخفية) الكائن، وعندما التعليمات عندما يكون هناك غموض، تكون قادرة على طرح الأسئلة، وإزالة الغموض، لمواصلة إكمال المهمة.

مراجع

تشى وو، تشون هوا شين، انطون فان دن Hengel، Lingqiao ليو، أنتوني ديك. ما قيمة هل اضحة المفاهيم رفيع المستوى في الرؤية إلى مشاكل؟. مؤتمر IEEE اللغة على رؤية الحاسوب والتعرف على الأنماط (CVPR'16)، ولاس فيجاس، نيفادا، الولايات المتحدة، يونيو، 2016.

تشى وو، تشون هوا شين بينغ وانغ، أنتوني ديك، انطون فان دن Hengel، صورة السفلية والسؤال البصرية الإجابة بناء على سمات وتلك ذات الخارجية المعرفة IEEE عملية على تحليل نمط والاستخبارات آلة (TPAMI)، المجلد :. 40 قضية :. 62018.

تشى وو بنغ وانغ تشون هوا شين، انطون فان دن Hengel، أنتوني ديك تسألوني عن شيء ما: .. الحرة نموذج Visual سؤال الإجابة بناء على المعرفة من مؤتمر IEEE المصادر الخارجية على رؤية الحاسوب والتعرف على الأنماط (CVPR'16) ، لاس فيغاس، نيفادا، الولايات المتحدة، يونيو، 2016.

بينغ وانغ *، تشى وو *، تشون هوا شين، انطون فان دن Hengel وVQA-آلة: .. تعلم كيفية استخدام القائمة الرؤية الخوارزميات للرد على أسئلة جديدة مؤتمر IEEE على رؤية الحاسوب والتعرف على نمط (CVPR'17)، هونولولو، هاواي، الولايات المتحدة، يوليو 2017.

المنطق، أنتوني ديك. المعرفي-الصريح بينغ وانغ *، تشى وو *، تشون هوا شين، انطون فان دن Hengel ل Visual سؤال الرد. المؤتمر الدولي المشترك المعني الذكاء الاصطناعي (IJCAI'17)، ملبورن، أستراليا، أغسطس، عام 2017.

بينغ وانغ *، تشى وو *، تشون هوا شين، انطون فان دن Hengel، أنتوني ديك FVQA: .. القائم على الحقائق البصرية سؤال الإجابة IEEE عملية على تحليل نمط والاستخبارات آلة (TPAMI)، وفي الصحافة، عام 2018.

تشى وو بنغ وانغ تشون هوا شين، إيان ريد، انطون فان دن Hengel. أنت تتحدث لي؟ مسبب الجيل الحوار البصرية من خلال التعلم. مؤتمر IEEE الخصومة على رؤية الحاسوب والتعرف على نمط (CVPR'18)، سولت لايك سيتي، يوتا، الولايات المتحدة، يونيو، 2018. (مقبول 19/2/18).

بوهان الحكم لقومية تشوانغ *، تشى وو *، تشون هوا شين، إيان ريد، انطون فان دن Hengel الاهتمام الموازي :. A الموحدة إطار كائن مرئي ديسكفري من خلال الحوارات ومؤتمر IEEE استعلامات على رؤية الحاسوب والتعرف على الأنماط (CVPR'18). ، سولت لايك سيتي، يوتا، الولايات المتحدة، يونيو 2018.

Chaorui دنغ *، تشى وو *، فويوان هو جين تاو، فان الوقف، Mingkui تان، وو. البصرية الأرضية عبر تشينغ ياو المتراكمة الاهتمام. مؤتمر IEEE على رؤية الحاسوب والتعرف على نمط (CVPR'18)، سولت لايك سيتي، يوتا، الولايات المتحدة ، يونيو 2018.

بيتر أندرسون، تشى وو، داميان Teney، جيك بروس، مارك جونسون، نيكو Snderhauf، إيان ريد، ستيفن غولد، انطون فان دن Hengel الرؤية واللغة الإنتقال :. تفسير تعليمات الملاحة الارض بصريا في بيئات حقيقية IEEE. مؤتمر حول رؤية الحاسوب والتعرف على الأنماط (CVPR'18)، سولت لايك سيتي، يوتا، الولايات المتحدة، يونيو 2018.

تشى وو، داميان Teney، بنغ وانغ تشون هوا شين، أنتوني ديك، انطون فان دن Hengel الرد على السؤال البصرية: .. دراسة أساليب وقواعد البيانات الحاسوب رؤية وفهم صورة (CVIU)، والخامس 163، ص 21 .. -40 و 2017.

داميان Teney، تشى وو، انطون فان دن Hengel البصرية سؤال الرد: .. هناك دروس IEEE الإشارة مجلة المعالجة، والخامس 34، ن 6، ص 63-75، 2017 ...

هوانغ يان تشى وو ليانغ وانغ. مفاهيم التعلم الدلالي والنظام لصورة والجملة مطابقة. مؤتمر IEEE على رؤية الحاسوب والتعرف على نمط (CVPR'18)، سولت لايك سيتي، يوتا، الولايات المتحدة، يونيو 2018.

تشاو ما، تشون هوا شين، أنتوني ديك، تشى وو بنغ وانغ، انطون فان دن Hengel، ايان ريد. البصرية سؤال الرد مع شبكات الذاكرة-المعقم. مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط (CVPR'18)، ملح لايك سيتي، يوتا، الولايات المتحدة، يونيو 2018.

بوهان الحكم لقومية تشوانغ *، تشى وو *، ايان ريد تشون هوا شين، انطون فان دن Hengel HCVRD: .. A معيارا لمؤتمر محورها الإنسان، largescale كشف العلاقة البصرية AAAI على الذكاء الاصطناعي (AAAI'18)، نيو أورليانز، لويزيانا والولايات المتحدة، فبراير 2018.

نبذة عن الكاتب

وو تشى هو حاليا في جامعة أديلايد، أستراليا (جامعة أديلايد) محاضر (أستاذ مساعد)، ومركز آلة الرؤية أستراليا (مركز أستراليا لالروبوتية الرؤية) أي مساعد باحث (نائب رئيس لهذا الموضوع). وقبل انضمامه إلى جامعة أديلايد، استراليا مركز تكنولوجيا الرؤية (مركز أستراليا ل Visual تكنولوجيز) الباحث مرحلة ما بعد الدكتوراه. على التوالي، في عام 2015، وحصل على درجة الدكتوراه في عام 2011 ودرجة الماجستير من جامعة باث، المملكة المتحدة (جامعة باث). وتشمل اهتماماته البحثية الرئيسية رؤية الكمبيوتر، تعلم الآلة، والبحثي الرئيسي حول المواضيع ذات الصلة رؤية لغة، بما في ذلك السفلية صورة، والإجابة على السؤال البصرية، الحوار البصري وهلم جرا. وقد نشرت له عشرات الصحف على CVPR، ICCV، ECCV، IJCAI، AAAI، TPAMI، TMM وغيرها من الاجتماعات والمنشورات. كما CVPR، ECCV، TPAMI، IJCV، TIP، TNN، TMM وغيرهم من المراجعين لقاءات دورية.

يتوهم السنة الجديدة الرمزية: كاميرا النوبي الثياب طرق جديدة!

LOL، وتظهر الرجال والتعليق حاسبة التأهل سامسونج، في جنون 6! التوقيع مع مكشطة 666 ~

القشر حقا جعل المال تحوم H62017 الأحمر تسمية الرياضة

"بريداتور" المسارح غزو تسعى لقاءات، أقوى صياد يأخذ كل رجل الخير والنساء جذابة للمشاهدين

وسجلت 20 الأساسية GPU وحدة المعالجة المركزية في 835 شياو القمع: سامسونج إكسينوس 8895 أول تعرض

تجد ذلك؟ تحتوي هذه الأخطاء الناس على شراء سيارة

"سوبر تيتان" يتعرض "خارج السيطرة" نسخة من مقطورة "أقوى من تطور الأنواع" صراع الحياة والموت

الضغط السفلي الجفاف القادم! هذا هو جيد ستة هواتف شعبية في ديسمبر كانون الاول قد صدر للتو!

وقوانغتشو للسيارات تشي تشوان GS8 الرئيسي SUV تكون متاحة مع فائق 200000

كان الصبي البالغ من العمر 9 سنوات مدرب بمرض خطير بدأت اليوم لجمع الأموال أو اثنين من جمع الأموال من 500000 يوان

الوشق العفريت AI-تمكين عين القط الذكية، في الوقت الحقيقي حارس أمن عائلتك

كوالكوم شياو 835 الكشف عن مزيد من التفاصيل في CES 2017: الدخن أو 6 العرض الأول في العالم!