اسرة شانغ تقنية 20 ورقة تحديد ICCV عام 2017، كشفت أحدث خط البحثي الرئيسي

مصادر من شانغ سلالة تقنية

إنتاج و qubit | عدد ملفه QbitAI

22-29 مايو من هذا الشهر، هو يوم من أيام المؤتمر كل سنتين الدولية للرؤية الحاسوب (ICCV) عقد.

مقارنة ICCV السابق، وهذا ICCV دعوت الساخنة. ووفقا للجنة المنظمة للاحصاءات، تلقيت ICCV 2017 ما مجموعه 2143 ورقة التقديم، الذي اختير 621 أوراق المؤتمر، والتعاقد مع نسبة 29. الذي يحتوي على 45 تقريرا عن طريق الفم (عن طريق الفم) و 56 يسلط التقرير الضوء (الضوء)، ومن المتوقع أن يتجاوز 3000 شخص عدد المشاركين.

ICCV هذا العام، والعلوم والتكنولوجيا شانغ هونغ كونغ وجامعة تشونغشان - علوم وتكنولوجيا المختبرات شانغ المشتركة مجموعه 20 ورقة، بما في ذلك 3 عن طريق الفم (معدل القبول فقط 2.09)، وأضواء، متقدما على الفيسبوك (15 ورقة) والبحث جوجل (10 ورقة) وغيرها من عمالقة التكنولوجيا.

الحقل ICCV من رؤية الكمبيوتر هو أعلى مستوى من المؤتمرات الأكاديمية الدولية، التي كمية ونوعية الأبحاث المنشورة يمكن قياس مستوى شركة أو المؤسسات البحثية الأكاديمية، فضلا عن متناول أيديهم للعلوم والتكنولوجيا اتجاه التنمية في المستقبل. من 20 ورقة التكنولوجيا شانغ، يمكنك ان ترى الخط الرئيسي من جهود التنمية التي تركز على دراستهم -

عبر مشروط تحليل: اسمحوا الرؤية واللغة الطبيعية معا

في السنوات القليلة الماضية، مع تطبيق واسع من التعلم العميق، جعلت الرؤية الحاسوبية تطور اختراق، العديد من المهام التقليدية (مثل تصنيف الصور، الكشف عن وجوه، المشهد تجزئة، الخ) الأداء وتحسنت كثيرا. ولكن على مستوى أعلى، وبدأت الرؤية الحاسوبية لتجربة عنق الزجاجة الجديد. للحصول على التطورات التكنولوجية الجديدة، توجها هاما هو كسر الحواجز التقليدية من المهام البصرية، وغيرها من وسائط التصور البيانات واللغة الطبيعية فهم معا.

في هذا الاتجاه، وشانغ سلالة تقنية لديها أربع ورقات تم توظيف ICCV عام 2017، بما في ذلك عن طريق الفم.

النواب: "نحو المتنوعة والطبيعية وصف صورة عبر شرطي GAN (عن طريق الفم)"

الكاتب: بو داي، سانيا فيدلر، راكيل Urtasun، داهوا لين.

الكلمات الشكل، يتم إنشاء صورة وفقا لعنوان وصفي، هذا العام هو منطقة نشطة جدا من البحوث. وهناك مشكلة مشتركة الطرق القائمة، والعنوان هو لإنتاج وأعرب الكثير من مجموعة التدريب في تكرار بسيط، وقراءة مشوق. جذر المشكلة هو أن الكثير من التركيز على أهداف التعلم تشابه إلى مجموعة التدريب.

وتقترح هذه الورقة طريقة جديدة لتدريب شرطي GAN استنادا إلى نموذج وصف وتقييم يولد التدريب العقد النموذجي. وبهذه الطريقة، ومعايير التقييم من "الكثير مثل مجموعة التدريب" إلى "الكثير مثل التحدث إلى الناس،" لقيادة نموذج الجيل تنتج أكثر طبيعية، حية، والتفصيل غنية أدناه. هذا العمل هو مهمة من المكونات الكلام يوفر طريقة جديدة في التفكير. في العضو الدراسة، وهذا النهج الجديد إلى 6: 4 الانتصار على الفوز الطرق التقليدية.

اثنين من التفكير ورقة أخرى من الاتجاه المعاكس، في محاولة للاستفادة من المعلومات النصية ذات الصلة للمساعدة في تحسين القدرة على فهم بصريا.

النواب: "الرسم البياني الجيل المشهد من كائنات، عبارات والمناطق توضيحية"

الكاتب: يى كانغ لي، Bolei تشو، وانلى اويانغ، شياو قانغ وانغ كون وانغ.

ويرتبط هذا ارتباطا وثيقا ورقة المهام الثلاث - الكشف عن وجوه، وتوليد الرسم البياني المشهد، ووصف المنطقة صورة انضم معا، وإنشاء وصفا نموذج مشهد متعدد المستويات باستخدام العلاقة بينهما - متعدد المستويات المشهد الوصف شبكة (MSDN).

من خلال هذا النموذج المشترك، فصل تقليديا من المهام الثلاث قد انضمت معا نهاية لنهاية التدريب، بحيث يكون لكل مهمة للحصول على أداء أفضل. وخاصة في المشهد المهام الجيل الرسم البياني نيابة عن فهم شامل للصورة، وتحسين أداء أكثر من 3.

النواب: "التعلم لإزالة الغموض عن طريق طرح أسئلة التمييزية"

الكاتب: يينينغ لى تشن هوانغ، Xiaoou تانغ تشن تغيير لوي.

تستكشف هذه الورقة اتجاه جديد، وهذا هو، للتمييز بين كيان مختلف البصرية من خلال القضايا التي أثيرت كما تميز. على سبيل المثال، عندما كنت في حاجة للتمييز بين كلب أبيض وكلب أسود، يمكنك أن تسأل أسئلة حول اللون.

لدعم التنقيب في هذا الاتجاه، في هذا العمل المؤلف يبني مجموعة جديدة من البيانات، والذي يحتوي على مجموعة من عينة تحتوي على أكثر من عشرة آلاف أزواج من الصور وعدد من القضايا ذات الصلة؛ واقترح نوع جديد من ضعف الرقابة والتدريب طريقة، في غياب الشروط المفصلة تميزت بانخفاض حين تعلم أن يكون مولد مشكلة التمييز، فضلا عن تقديم تعريف دقيق للالإجابات النموذجية.

باسم: "الهوية وإدراكا منها النصية والبصرية مطابقة مع الكامنة المشارك الانتباه"

الكاتب: شوانغ لى تونغ شياو شنغ لى وى يانغ شياو قانغ وانغ.

ميزة المطابقة هو جوهر التعلم بين مشروط. تقدم هذه الورقة إطارا لالنص الجديد والميزات المرئية للمباراة. يتكون الإطار من مرحلتين.

المرحلة الأولى يمكن أن يستبعد بسرعة الاقتران الخطأ الواضح، وتقديم عينات التدريب أكثر كفاءة من المرحلة الثانية من التدريب. المرحلة الثانية من قبل جمعية جديدة نموذج الاهتمام (نموذج التعاون الانتباه)، والنص المصاحب في كلمة واحدة إلى منطقة محددة في الصورة.

وكشف في مجموعات البيانات الثلاث (CUHK-سيسبيديس، كوبا، الزهور)، يتجاوز الطريقة المقترحة كبير في طريقة التيار الحالي.

تحليل الفيديو: السماح للفيديو للكمبيوتر قراءة

على الرغم من أن التعلم العميق حققت نجاحا كبيرا في تحليل الصور، واستخدامه في فهم وتحليل يزال هناك طريق الفيديو طويل لنقطعه. مقارنة الصور والبيانات والفيديو يحتوي على كمية أكبر من البيانات وهيكل أكثر ثراء، والذي يشكل أيضا تحديا لمستوى أعلى من تقنيات التحليل البصري.

شانغ تكنولوجيا قبل بضع سنوات بدأت تعلم إطار تحليل الفيديو لاستكشاف التحليل المتعمق الفيديو وفهم، اقترح بما في ذلك شبكات القطاعي الزمني (TSN) لها تأثير كبير ومجموعة متنوعة من نطاق واسع المستخدمة، و في ActivityNet 2016 جعلت من البطولة.

في عام 2017، والتكنولوجيا شانغ ومختبر ذي صلة تواصل بحث متعمق في هذا الاتجاه، ونشرت يعملان في الوزن الثقيل ICCV عام 2017، بما في ذلك عن طريق الفم.

النواب: "RPAN: نهاية إلى نهاية المتكررة بوز-الاهتمام شبكة الاعتراف العمل في الفيديو (عن طريق الفم)."

الكاتب: ون بين دو دو، زعلت وانغ، يو تشياو.

ويستند معظم نموذج تحليل الفيديو المعتادة على فئات على مستوى الفيديو التعلم تحت إشراف، والقيود المفروضة على هذه الطريقة من الصعب معرفة بنية حركة معقدة. هذه الورقة طريقة أخرى للتركيز على النمذجة ديناميكية جسم الإنسان، واقترح نوع جديد من التدريب يمكن أن يكون نهاية إلى عمق بنية الشبكة بوز المتكررة الاهتمام شبكة (RPAN).

هذه العمارة لا يمكن إلا أن تدمج ميزة التكيف من فتات حركة الإنسان، ولكن أيضا جيدة التعلم تطور المكانية والزمانية للهيكل. العمل من جهة يوفر طريقة جديدة لفهم تشغيل الفيديو، من ناحية أخرى كمنتج ثانوي تلقى أيضا لطيفة تقدير نموذج تشكل الحبيبات الخشنة.

النواب: "كشف العمل الزمني مع شبكات القطاع المهيكل"

الكاتب: يو تشاو، Yuanjun شيونغ، تشى رونغ وو، Xiaoou تانغ، داهوا لين.

كشف الحركة في المجال الزمني هو تحليل شريط فيديو جديدا ارتفاع مهام العامين الماضيين. بالمقارنة مع عمل تصنيف التقليدي، هذه المهمة أكثر تحديا، ليس فقط حاجة لتحديد نوع الرياضة أو الحدث، ونحن بحاجة أيضا للحصول على انطلاق لها الدقيق ونهاية الوقت. هذه المهمة لها قيمة محتملة كبيرة في المشهد الفعلي، مثل يمكن وضعه تلقائيا من وقت طويل فيديو حركة أو فيلم لأبرز ذات الصلة.

يعرض هذه الورقة رواية الحركة فيديو نموذج الكشف، فإنه يقدم نموذجا هيكل من ثلاث مراحل على أساس TSN من الميزات للقبض على نحو أكثر فعالية قسم حركة بداية ونهاية المقطع. واستنادا إلى هذا الإطار، المصنف العمل ووقت محدد يمكن أن ينتهي التدريب المشترك. جعل زادت هذه الطريقة على عدد وافر كبيرة من مجموعات البيانات والفيديو (وبما في ذلك THOMOS ActivityNet) بأكثر من 10 نقطة مئوية عن الطريقة التقليدية.

ولدت ضد شبكة: لندع الخلق تعلم الكمبيوتر

خلال العامين الماضيين، مقابل شبكة الجيل المقترحة (المولدة الخصومة الشبكات) نموذج ولدت (نموذج توليدي) هو التعلم ليصبح اتجاه جديد من الأبحاث.

وخلافا للنموذج التوثيق التقليدي (نموذج التمييزية) يركز استخراج المعلومات، وتوليد نموذج من الصفر، أو بناء على كمية محدودة جدا من الشروط المعلومات المعطاة، صورة كاملة، وخاصة التحدي.

هذا البحث له قيمة كبيرة في مجال المستهلك، ولكن يمكن أيضا دراسة المجالات التقليدية للتغذية عن طريق توليد نماذج التدريب. شانغ أيضا القيام بنشاط البحث العلمي والتكنولوجي في هذا المجال الناشئ، قدمنا العديد من النتائج الجديدة، ونشرت اثنين من الأعمال ذات الصلة في ICCV عام 2017، بما في ذلك عن طريق الفم.

النواب: StackGAN: النص إلى صورة واقعية صورة التجميعي مع مرصوف المولدة الخصومة Networks.n (عن طريق الفم)

الكاتب: هان تشانغ، Ttao شو، شنغ لي، Shaoting تشانغ شياو قانغ وانغ شياو لي هوانغ، ديمتريس ميتاكساس.

يتم إنشاء توليد صور عالية الجودة نموذج سؤال البحث الأساسي. تقدم هذه المقالة إطار الجيل الجديد، StackGAN، فإنه يمكن وصف توليد قرار من 256 256 صور بجودة عالية بناء على نص قصير. يولد هذا مستوى الدقة صورة مشكلة صعبة للغاية، ونماذج الجيل السابق عادة تنتج فقط من حجم الصورة 64 64.

الطريقة المقترحة لهذه المهمة الصعبة إلى مرحلتين. في المرحلة الأولى، استنادا إلى الرسومات الطابع تنتج كما هو موضح خشن الحبيبات لإدخال نتيجة المرحلة الأولى، المرحلة الثانية لإنتاج عالية الدقة صورة، واستكمال الغنية في التفاصيل. يقدم هذا المقال أيضا تقنية جديدة شرط تعزيز لتحسين استقرار العملية التدريبية.

وبالمقارنة مع شبكة الجيل الحالي، تلقى StackGAN على نوعية القرار الصورة الناتجة تقدما كبيرا جدا.

باسم: "كن بنفسك برادا: أزياء التجميعي مع الهيكلية التماسك"

الكاتب: Shizhan تشو، داهوا لين، راكيل Urtasun، سانيا فيدلر، تشن تغيير لوي.

يستكشف هذا المقال التوجه قيمة كبيرة، ونموذج ولدت في مجال الأزياء: يعرض ورقة طريقة جديدة لتوليد صور الوجه. على وجه التحديد، نظرا صورة الشخص وصفا من اللباس، وطريقة وفقا لوصف النص المقترح من اللباس، مثل "فستان قصير الأكمام السوداء"، التي تنتج بعد صور الوجه.

والمهام جيل العامة مقارنة تجميل المهمة أكثر تحديا، ليس عليك سوى الامتثال لباس وفقا لوصف النص، ولكن أيضا الصور والموقف الأصلي للتتزامن جسم الإنسان. وتقترح هذه المقالة إطارا للحل على مرحلتين لهذه المشكلة: المرحلة الأولى لإنتاج خريطة التقسيم وضعية الجسم ثابت، والمرحلة الثانية من أجل توليد صورة مع تفاصيل غرامة الملابس القائمة.

بالإضافة إلى استكشاف بنشاط في اتجاه جديد، التكنولوجيا الأساسية شانغ في عدد من المجالات الهامة، بما في ذلك كشف الوجه، والكشف عن وجوه والبشري تقدير الجسم تشكل، الهوية الفعلية للاعتراف مشهد آخر، لكنها واصلت أيضا الاستثمار في التميز، التي نشرت في ICCV التيار العديد من المقالات الأوراق ذات الصلة.

شانغ سلالة تقنية ICCV 2017 قائمة الأوراق

  • "StackGAN: نص إلى صورة تجميع صور واقعية مع شبكات الخصومة المولدة مرصوف" هان تشانغ، Ttao شو، شنغ لي، Shaoting تشانغ شياو قانغ وانغ شياو لي هوانغ، ديمتريس ميتاكساس ..

  • "المشهد الرسم البياني الجيل من كائنات، عبارات والمناطق توضيحية". يى كانغ لي، Bolei تشو، وانلى اويانغ، شياو قانغ وانغ كون وانغ.

  • "أون لاين متعدد كائن تتبع عن طريق تعقب كائن واحد مع المكانية والزمانية الاهتمام". تشى تشو، وانلى اويانغ، شنغ لي، وانغ شياو قانغ، Nenghai يو.

  • "التعلم ميزة الأهرامات لحقوق بوز تقدير". يانغ وى، وانلى اويانغ، شوانغ لى شياو قانغ وانغ.

  • "التعلم بالسلاسل ديب ميزات والمصنفات لتتالي في كشف كائن". انلى اويانغ، شياو قانغ وانغ كون وانغ شين تشو.

  • "الهوية وإدراكا منها مطابقة النصية والبصرية مع الكامنة المشارك الانتباه". شوانغ لى تونغ شياو شنغ لى وى يانغ شياو قانغ وانغ.

  • "نحو أوصاف صورة متنوعة والطبيعية عن طريق GAN شرطي". بو داي، سانيا فيدلر، راكيل Urtasun، داهوا لين.

  • "كشف الزمني العمل مع شبكات القطاع المنظم". يويه تشاو، Yuanjun شيونغ، تشى رونغ وو، داهوا لين.

  • "تعلم إزالة الغموض عن طريق طرح أسئلة التمييزية". يينينغ لى تشن هوانغ، Xiaoou تانغ تشن تغيير لوي.

  • "كن بنفسك برادا: أزياء التجميعي مع الهيكلية التماسك" Shizhan تشو، راكيل Urtasun، سانيا فيدلر، داهوا لين، وتشن تغيير لوي.

  • "المتكررة مقياس تقريب لكشف كائن في CNN". يو LIU، هونغ يانغ لى جيون جيه يان شياو قانغ وانغ، Xiaoou تانغ.

  • "التوجيه ثابتة ميزة التضمين والمكانية الزمانية إعادة ترتيب للسيارات إعادة الهوية". Zhongdao وانغ مينغ تانغ، Xihui ليو، Zhuliang ياو، شواي يي جينغ شاو، جونجي يان، Shengjin وانغ شنغ لى شياو قانغ وانغ.

  • "متعدد تسمية صورة اعتراف متكرر اكتشاف المناطق سيكلوجية الإنتباه". Zhouxia وانغ تشن تيانشوي، Guanbin لي، Ruijia شو ليانغ لين.

  • "HydraPlus نت: منتبهة ديب ميزات تحليل للمشي" Xihui ليو تشاو Haiyu، Maoqing تيان، لو شنغ، جينغ شاو، شواي يي، جونجي يان شياو قانغ وانغ ..

  • "التعلم العميق الشبكات العصبية للسيارات إعادة ID مع مقترحات مسار البصرية والمكانية والزمانية". Yantao شين تونغ شياو شنغ لي، شواي يى شياو قانغ وانغ.

  • "ديب المزدوج التعلم عن صورة الدلالي الإنقسام". بينغ لوه، Guangrun وانغ يانغ لين، شياو قانغ وانغ.

  • "الكشف عن وجوه طريق داخل متعاقب السياقية CNN". Kaipeng زان، Zhanpeng تشانغ هاو وانغ، تشى فنغ لى يو تشياو وى ليو.

  • "واحد أطلق عليه الرصاص النص الكاشف مع الاهتمام الإقليمي" بان و؛. وي لين هوانغ تونغ و، Qile تشو يو تشياو، شياو لين لي.

  • "RPAN: نهاية إلى نهاية المتكررة بوز-الاهتمام شبكة الاعتراف العمل في فيديو" ون بين دو يالي وانغ يو تشياو ..

  • "فقدان المدى للالتعرف على الوجه العميق مع بيانات التدريب طويل الذيل". شياو تشانغ، تشى يوان فانغ، يان دونغ ون تشى فنغ لى يو تشياو.

  • نظرة عامة ICCV 2017

    وأخيرا، ترفق قائمة جميع الأوراق المقبولة ICCV 2017 العنوان:

    أوراق يمكن تحميل عرض ~

    - كامل  -

    التوظيف الصادق

    المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

    و qubit QbitAI

    ' " تتبع تقنيات AI دينامية جديدة والمنتجات

    بوروسيا مطلق النار الأول ليحل محل "تعزيز مو Xiekui"؟ ليكيب: مؤسس مطاردة جبهة الدوري الالماني الله

    الكثير من الاجانب هاجس فنون الدفاع عن النفس الصينية؟ الصينية تذكير الذات كل يوم أكثر! المصنعين المحليين جعلت بسرعة اللعبة!

    وراء سيارات الطاقة الجديدة الموفرة للطاقة تفضيلية التمتع ضريبة السفر هو صغير السيارات النزوح التحول إلى الطاقة الجديدة

    جيوجيانغ Hengda باريوس حقا حياة بطل! فهو يقع في حوالي "الكذب كسب" بلقب الدوري البرازيلي

    فنغ سياوتينغ حتى اخطاء قاتلة، على بعد 3 فرق كبير؟ في الصينية غاب سوبر Hengda أكثر مهني

    اليابان واقع منزل الموت ولعبة الحروف الزواج، اللاعبين الصينيين: إذا كان صحيحا، والحبوب اليابان

    العلم الاحمر سيارة قديمة من العمر 60 عاما لا تزال شابة وحيوية، وصعود الصين كسيارة سرعة الثانوية

    A تشي جيانغ في دوري ابطال اوروبا "اللعب المزدوج" بعد دفاع ريال مدريد مرة أخرى الليلة الماضية ومزق دورتموند

    البالغ من العمر 20 عاما لاعب خط الوسط تجريب الحزب! بدأ تشن تشاو في الخوف من طرده، والمراوح: هل داليان في عداد المفقودين في سن المراهقة؟

    الصين صنع العاب اون لاين المنشئ! غاية الصور حتى الخام لا في الواقع يعيش 20 عاما!

    أخذني قائد اسمحوا لي أن يطير إلى وعاء ساخن وجبة DM الأول أصحاب شيدي الأحمر دون الجنوب الغربي

    يوفنتوس "بعد 00" موسى كين دعم؟ المستقبل أو خارج بالوتيلي