"CV با تعلم محاضرة" ضغط التفاف الشبكة العصبية، التحليل الدلالي من متعدد الوسائل

[استعراض فاز جي الجديدة 2017 السنوي بايدو المنح الدراسية 10 مرشحين، وتشن شي زهي والكونغرس جامعة بكين وانغ يون خه الشعبية المهنة بشكل رئيسي في رؤية الكمبيوتر، فإنه سيقدم تجربة مفصل الدراسة والأفكار البحثية CV الطلاب، وحصة الخالصة والأكاديمي دانيال المعلم الحصول على جنبا إلى جنب مع الحكايات.

الطلاب تشن شي زهي في "الاعتراف المشاعر المتعدد الوسائط" و "لغة وصف الطبيعي لمحتوى الفيديو" الأبحاث حققت نتائج البحثية المتميزة، الأبحاث المنشورة في المجلات العليا والمناطق مؤتمر، وحققت تميزا في عدد من المسابقات الأكاديمية رفيعة المستوى النتائج، والتي تبين قدرة بحثية قوية، والقدرة العملية والإمكانات العلمية.

تسارع وانغ يون خه ضغط في الشبكة العصبية قد فعلت دراسة وافية. وهو يقترح استخدام تحويل جيب التمام المتقطع يتم احتساب التنبؤ التلافيف العصبية عملية التفاف شبكة من مجال التردد إلى المجال المكاني، في إطار فرضية دقة وينخفض إلا قليلا، ويعزز إلى حد كبير التنبؤ سرعة استهلاك تخزين نموذج تقلص إلى حد كبير. هذا الأسلوب هو مبتكر وعملي.

تشن شي زهي: جامعة الشعب

معلومات مجلس الشعب التوالي مدرسة بو طلاب الصف الثالث، والمعلمون من ذهب المعلم القيثارة. بحثي هو الوسائط المتعددة الحوسبة لتحقيق طبيعة أكثر انسجاما من التفاعل بين الإنسان والحاسوب من خلال التحليل الدلالي من متعدد الوسائل، وتنقسم إلى مجالين رئيسيين:

1) الهدف التحليل الدلالي: توليد لغة وصف الطبيعي لمحتوى الفيديو (الفيديو السفلية) وفقا لفهم موضوعي المتعدد الوسائط الكائن الفيديو / العمل / العلاقات ومثل.

2) التحليل الدلالي من العاطفة: العاطفة الاعتراف المتعدد الوسائط وفهم (الحوسبة الوجدانية المتعدد الوسائط)، والحالة العاطفية من خلال تحليل طبيعة طرائق مختلفة لتفاعل أفضل مع الإنسان.

النتائج مقدمة مراحل:

1) وصف اللغة الطبيعية للجيل محتوى الفيديو (السفلية فيديو)

وصف اللغة الطبيعية لهدف البحث الجيل محتوى الفيديو (السفلية الفيديو) هو توليد الوصف اللغة الطبيعية من محتوى الفيديو، التي تعد واحدة من الهدف الأسمى لفهم المحتوى الدلالي للفيديو. الدراسة لديها مجموعة واسعة جدا من التطبيق، على سبيل المثال، لمساعدة فاقدي البصر على فهم العالم من حوله فهم، أفضل للفهرسة شريط فيديو على الانترنت وتخزين وتحليل وتوصيات، مما يمكن المستخدم من تصفح أفضل، اختيار، بحث عن الفيديو محتوى وهلم جرا.

وفي الوقت الحاضر يتم إنشاء محتوى الصورة تلقائيا كما هو موضح (صورة السفلية) قد أحرزت تقدما كبيرا جدا، ولكن بالمقارنة وimagecaptioning، السفلية الفيديو من هذه الدراسة هو أكثر تحديا، وتشمل الصعوبات الرئيسية:

A. المتعدد الوسائط: معلومات الفيديو تضم عدد وافر من الطرائق، على سبيل المثال، البصرية / الصوت / النص، وما شابه ذلك. وفهم شامل ودقيق لمحتوى الفيديو، ونحن استخراج خصائص متعددة الوسائط، اقترح نموذج التكامل المتعدد الوسائط الاستخدام الفعال التكامل المتعدد الوسائط.

B. التوقيت: الوقت من أجل من الأجسام تطوير أو الأحداث التي تؤثر على فهم محتوى الفيديو. ولذلك، فقد اعتمدنا نموذج توقيت والاهتمام آليات توقيت لخصائص توقيت النمذجة الفيديو.

المواضيع C. كوونغ: موضوع تمتد مجموعة واسعة جدا من الفيديو، مع مواضيع مختلفة ومتعددة الوسائط استراتيجية الانصهار لغة وصف ومساحة مختلفة تماما. لذلك، نقترح توجيه ضمنية نموذج موضوع، التلقائي التعدين موضوع الضمني للفيديو، استخدم هذه المواضيع لتوجيه توليد صفا أكثر دقة وتفصيلا.

يوصف لدينا شريط فيديو محتوى وصف نموذج في 2016--2017 في 2 سنوات متتالية في قمة مؤتمر وسائل الإعلام الدولية وACM الوسائط المتعددة من محتوى الفيديو من قبل بطل مايكروسوفت التحدي MSR-VTT المنظمة، ومحتوى الفيديو الدولي في عام 2017 من قبل وصف NISTTRECVID المنظمة بطل.

2) المتعدد الوسائط الاعتراف الانفعال (العاطفة الاعتراف المتعدد الوسائط)

 فهم من المشاعر الإنسانية من الطبيعي التفاعل بين الإنسان والحاسوب لبناء خطوة هامة جدا. دراسات في صناعات الخدمات الصناعة / التعليم / الترفيه / الصحية المختلفة لديها مجموعة واسعة جدا من التطبيقات، مثل التعرف على الانفعال التلقائي من قبل المستخدم تلقائيا تحسين الخدمة للمستخدم التفاعل وهلم جرا.

 ركزت دراستنا على اثنين من النموذج الأساسي للاعتراف العاطفة: العاطفة الاعتراف منفصلة والبعد الاعتراف العاطفة. وتشمل الصعوبات التقنية الرئيسية:

A. البناء من العاطفة الميزات: المشاعر الإنسانية التي تعكس المعلومات طرائق مختلفة، بما في ذلك حركات الجسم / الوجه / نبرة الصوت / محتوى خطاب / الإشارات الفيزيولوجية وما شابه ذلك. وهكذا، والعاطفة ميزة كبيرة التمييزية من عواطفنا المستخرجة من الطرائق المختلفة معالجة الإشارات ومثل تستند إلى عمق التعلم.

B. فيوجن ميزة عاطفة المتعدد الوسائط: حيث طرائق مختلفة في حالات مختلفة حيث الموثوقية والتعبير العاطفي مختلفة. لذلك، نقترح نموذجا للظروف دينامية، والانتباه إلى ميزات العاطفية التكامل المتعدد الوسائط.

C. التوقيت: الحالة العاطفية للشخص هو دينامية وتوقيت جدا تعتمد. لذلك، نقترح نموذجا ديناميكية الزمن المتواصل الاعتراف سلسلة البعد العاطفة.

جنبا إلى جنب مع المرشدين حكاية:

1) منحة دراسية صارمة: من المعلم الذي أشعر هو صارمة باحث وموقف عملي. على سبيل المثال، أثناء كتابتي أطروحة الأولية، وقالت لي مرارا وتكرارا عند الاقتضاء ورقة الإطار المنطقي، وسيتم احتساب كل صيغة صارمة، فإن كل كلمة يكون فحص دقيق. في ذلك الوقت ورقة من الموعد النهائي هو قريب جدا، لدينا أكثر من عشر ساعات متتالية من النقاش والمراجعة في المكتب، والتي تبين في النهاية على وظيفة مرضية.

2) العمل المشاركة: موقف المعلم تجاه الحماس العمل أعطاني تشجيعا عظيما. عادة، وكثيرا ما تلقي البريد الإلكتروني المعلم الذي عمل في الصباح 3،4 نقطة، تذهب إلى الاجتماع، نختار عموما للراحة القيل والقال، والمعلم الذي ظلت نشطة في حالة صالحة للعمل، وقراءة مقدمة من الأوراق البحثية؛ عطلة حتى حتى عندما يكون مهرجان الربيع والمهرجانات الرئيسية الأخرى والذهب ومدرسينا سوف لا تزال تحافظ على اتصال وثيق لضمان تقدم البحث العلمي.

3) يهتمون الطلاب: المعلم الذي هو ليس فقط مرشدي في البحوث الأكاديمية، هو مرشدي الحياة المهنية. مرة واحدة في الوقت الميت قبل الضغط رقة خط للتخلي، وقالت انها لم يوجه اللوم لي، ولكن جدا حذر بلطف لي أن التخلي جدا شيء بسيط، لا يكون له عواقب خطيرة للغاية، ولكن الكثير من الأشياء فرصة مرة واحدة فقط، لا يمكن أن تفوت مرة أخرى، لماذا لا تلتزم لتحفيز نفسك للانتهاء من ذلك دون أسف.

معلم في الحياة هو أيضا قلقة جدا عني. بعد السفر إلى الخارج، هناك أوقات والدردشة المذكورة عرضا شيئا وهو مدرس في بلد أجنبي ليست جيدة للشراء، جنبا إلى جنب مع النتائج بعد حضور المؤتمرات الأكاديمية عندما أحضر ما يزيد من أعطى الصين لي. ما مسني هو أنه حتى بين البحوث في الخطوط الأمامية، مشغول، وهو المعلم الذي سيتم إرسال بعيد ميلاده كل عام لطلاب بركاته.

وانغ يون خه: جامعة بكين

2013 قامت وزارة العلوم الاستخبارات، جامعة بكين طالب دراسات عليا بو مستقيم، I تسارع ضغط في الشبكة العصبية بحوث معمقة، اقترح استخدام جيب التمام منفصلة تحويل التفاف العصبية عملية التنبؤ شبكة التفاف حساب من المجال المكاني لمجال التردد، في دقة فقط في إطار فرضية انخفاض طفيف في معدل توقع تحسنت بشكل ملحوظ، وانخفاض كبير نموذج استهلاك الذاكرة. هذا الأسلوب هو مبتكر وعملي.

الإلتواء العصبي ضغط شبكة عمق هذه المسألة احتمال للغاية، لأن دقة نموذج التعلم العميق على معظم المهام (مثل التعرف على الصور، صورة فائقة الدقة، وما إلى ذلك) قد وصل إلى متطلبات الهبوط، ولكن سرعة الخط واستهلاك الذاكرة لم يصل الطلب على الأرض.

وقد استخدمت عمق التفاف الشبكة العصبية على نطاق واسع في رؤية الكمبيوتر، وتصنيف الصور، على سبيل المثال، والتحقق من الوجه. ومع ذلك، فإن معظم الشبكة العصبية التلافيف من الصعب تطبيقها على الجهاز المحمول نهاية. على سبيل المثال، استخدام AlexNet أو VGGNet إلى صورة معالجة يستهلك أكثر من 232MB من الذاكرة، والمليارات من الضرب الفاصلة العائمة. لذلك، وكيفية ضغط وتسريع هذه معقدة شبكة التفاف العصبية هي موضوع البحث مهم جدا.

لحل هذه المشكلة، أقترح لضغط وتسريع البحث على التفاف الشبكة العصبية في مجال التردد باستخدام تحويل جيب التمام المتقطع (DCT). وينظر الى صورة التفاف نواة ككتلة صغيرة الحجم على نحو سلس، تمثل كل نواة الالتواء في مجال التردد تتحلل إلى جزء مشترك والجزء الخاص و، وتستخدم للإشارة إلى الأجزاء المشتركة مع بعضها البعض التفاف التفاف النواة تشبه النووية، في حين يتم استخدام الجزء الخاص إلى الرجوع إلى المعلومات فريدة من نوعها.

يتم ضغط كل من أجزاء وجوه لا يمكن أن يتحقق من خلال إسقاط عدد كبير من ضعف معامل التسارع. تجارب على مجموعات البيانات القياسية تؤكد الخوارزمية المقترحة في هذه الدراسة متفوقة على خوارزميات أخرى.

الشكل 1: CNNpack خوارزمية تدفق الرسم البياني

الشكل 2: نتائج خوارزمية ضغط CNNpack

الإلتواء العصبي ضغط شبكة عمق هذه المسألة احتمال للغاية، لأن دقة نموذج التعلم العميق على معظم المهام (مثل التعرف على الصور، صورة فائقة الدقة، وما إلى ذلك) قد وصل إلى متطلبات الهبوط، ولكن سرعة الخط واستهلاك الذاكرة لم يصل الطلب على الأرض. ومع ذلك، فإن عددا متزايدا من التطبيقات العملية تحتاج إلى استخدام هذه النماذج التعلم عميقة، مثل الهواتف المحمولة والكاميرات الذكية والمركبات غير المأهولة. فكيف لتصميم أخف وزنا وأكثر دقة شبكة عمق العصبية لا تزال الحاجة إلى حل المشكلة.

لحسن الحظ خلال دراسة الدكتوراه لاثنين من المدربين، وأول واحد هو مدرس في جامعة بكين شو تشاو، والأكثر إثارة للإعجاب كلمة هو "قد تسريع العمال"، مرة واحدة على مجموعة صغيرة من البيانات المدى استرجاع تجارب نصف ساعة بعد التعليمة البرمجية الأمثل يستغرق سوى دقيقتين للذهاب من الترميز الطريق طبيعة الهوس قليلا. شو تشاو المعلم يشعر هادئة جدا، والتوقيع له إشارات صغيرة، مثل "الصدقة"، قبل هناك أوقات DDL المرضى، ويقول العديد من المعلمين "المرضى لديهم بقية جيدة، وتلبية الكثير، نذهب إلى يلقي" رأس الدموع.

معلم كبير آخر تشنغ تاو في جامعة سيدني، المعلم الفخار دائما أعطاني تشجيعا عظيما، والأكثر إثارة للإعجاب هو كلمة "على أي حال، يون خه، وأعتقد أن هذه الفكرة، ذكية جدا" هههه. المعلم الفخار هو أكاديمي صارمة جدا، عدد كبير جدا من الإنجازات، وصناعة المعروفة العلماء الصينيين. أكثر جودة للاعجاب أو المهنية تقف الى العقل، إلى حد الشهرة الشخص، وتعديل محمل الجد كل ورقة لكل طالب. في بعض الأحيان نفسه قراءة عدة مرات لم تجد الأخطاء المطبعية وسيتم العثور على الأخطاء النحوية وإجراء تغييرات المعلم الفخار. والمعلم الفخار ساعات العمل اليومية وراء كل طلابه.

وتقدم دو بو أعظم إنجاز CNNpack الخوارزمية التي نشرت في NIPS2016، وبالتعاون هاس، للمرة الاولى ادرك خوارزمية الأكاديمية صناعة قلق مايو. أكبر صعوبة خلال هذه الدراسة نموذج عمق يحتاج إلى كمية كبيرة جدا من حساب وموارد الحوسبة، المعلم شو تشاو لشراء الخادم الجديد وموارد الحوسبة ضمن المجموعة هي الأولوية الأولى بالنسبة لي للاستخدام، موثوق جدا واعترفت لي العمل. وفي الوقت نفسه، جنبا إلى جنب مع ضغط الصور التقليدية وخوارزمية ضغط الفيديو، وأنه يعطي المشورة بشأن الخوارزميات الهامة.

وبالإضافة إلى ذلك، فإن معظم الطرق التقليدية للتحقق تجريبيا تصنيف الصور، على سبيل المثال VGGNet، ResNet مثل. في التطبيقات العملية، واحتياجات الشبكة العصبية متنوعة، مثل التعرف على الصوت تجزئة الكائن الدلالي. هذه النماذج لديها شبكة العصبية تصنيف والصورة ليست هي نفسها وظيفة وهيكل، لذلك يحتاج خوارزمية أكثر تحديدا أيضا إلى أن تثار.

"وقال الجاسوس" ملك وكلاء الأحمر من الحياة الأسطورية التي كتبها LI

30 دولة غريبة شرب القهوة، ما كنت تريد أن تجرب؟

ما الكلام: تقرر إنجازات حياتك، هو شيئين

الشتاء بحيرة بايكال، والناس لا يمكن أن يرفض!

"الإنتشار" لمكافحة الجريمة الحملة إشعار! ترى هؤلاء الناس! الرجاء تقديم أدلة على الفور!

أعلن تشن تقاعده، اولمبياد بكين كان واحدا كوبي براينت، ياو مينغ، والمعروف أن يمر

الناس "معنى" حساسة يتم الانتهاء من فلورنسا، بعض حصرا لقضاء عطلة خاصة بك

البيانات الكبيرة ومنظمة العفو الدولية: مسابقة بين الصين والولايات المتحدة في الجيل المقبل من تكنولوجيا المعلومات

"بعيدا عن المنزل، بالحنين إلى الوطن، home العودة"، في اليوم الأول من فصل الربيع 2019، في الطريق إلى البيت كنت حتى الآن؟

لا تذهب إلى تركيا أعرف فقط أن منطاد الهواء الساخن ذلك!

3 أيام عن طريق هز صوت امتصاص مسحوق 30W، توقيع 249 الامتياز، يمكن قراءة البخت والشاي، ومتى يمكن للأحمر؟

كسب الحرب، الداعمة للنمو، وليس بهذه البساطة! | 6 تشونغ الحكمة العملية