فوجئت AI أن تكون المفسدين؟ يمكنك مشاهدة الفيديو من آلة القص التعلم نماذج تأتي

لردم الفجوة بين اللغة الطبيعية والبصرية والوسائط المتعددة الرؤية الحاسوبية كان هدف ميداني . هذه المهمة الحقل هو الحصول على ما يصل في وقت مبكر لاستكشاف وصف الصورة، وهذا هو، لتوليد جملة واحدة لوصف محتوى الصورة. في السنوات الأخيرة، مزيدا من الاهتمام لعمل الصور ومحتوى الفيديو القصير أكثر وصف مفصل توليد عدد وافر من المقاطع التي تتألف الجمل. وفي الوقت نفسه، فإن الباحثين استكشاف أيضا صورة لنقول للتدفق القصة.

ومع ذلك، عندما كان الناس تسجيل الأحداث الهامة في الحياة، بالمقارنة مع لقطات فيديو قصيرة، غالبا ما تفضل استخدام الفيديو طويل مثل حفلات أعياد الميلاد وحفلات الزفاف. وتحقيقا لهذه الغاية، طرح الباحثون من جامعة سنغافورة الوطنية وجامعة مينيسوتا إلى الأمام مهام جديدة في هذا المجال: مقدمة لتوليد الفيديو لفترة طويلة، وصف متماسك من القصة. ولهذه الغاية، أسسوا مجموعة جديدة من البيانات، واقترح نموذجا جديدا . في مجموعة البيانات، وأنها ستكون أفضل نموذج للطراز الجديد وتمت مقارنة نتائج الأعمال السابقة، حقق الطراز الجديد نتائج أفضل .

يظهر في الصورة قصة الإنسان مكتوبة | FIG، أدناه يبين نموذج توليد قصص جديدة، ويتم اختيار سوى جبهة وخمسة طوابق الفيديو في كل منها الإطار الرئيسي نانومتر عينات الخاصة بهم.

لفترة طويلة قصة جيل فيديو لهذه المهمة الجديدة مع المهام السابقة هناك اختلافات كبيرة. مقارنة مع شريط فيديو قصير واصفا المهمة في التفاصيل، المهمة هي الآن أكثر قلقا حول الفيديو الطويلة التي تحتوي على أحداث دينامية معقدة لاستخراج واحدة من قصة جيل المشهد الهامة، دون الحاجة يحتوي على كل التفاصيل في الفيديو، . ووفقا لهذه القصة بالمقارنة مع تيار الصور ولدت، والمهمة أكثر على أساس المحتوى المرئي . بسبب تدفق المهمة الناتجة عن قصة الصورة، المادة البصرية يتكون من تكوين الصور وفقيرة نسبيا، وبالتالي فإن مهمة المفتاح هو لملء الفجوة المعلوماتية في وسط الصورة . وهذا يعني أن القصة تدور حول عملية تتطلب الخيال ومعرفة مسبقة، قصة قد تحصل على وضع علامة على خلفيات مختلفة الذين ينتجون مختلفة جدا . مهمة المعلومات البصرية هي كافية كافية لتوليد قصص على أساس المعلومات البصرية، لن تتأثر الكثير من العوامل الذاتية.

وبناء على هذه الخصائص، وهذه المهمة الجديدة تواجه أيضا تحديين رئيسيين. لأول مرة، بالمقارنة مع جملة واحدة وصفها، يحتوي على قصة طويلة عددا أكبر والجمل أكثر تنوعا . لالمحتوى المرئي نفسه، قد يكون لديك مجموعة متنوعة من الوصف. ولهذه الغاية، للتأكد من أن القصة من البساطة والاستمرارية هي أكثر صعوبة . ثانيا، فيديو طويل عادة ما تحتوي على الأدوار المتعددة ومواقع والأنشطة، من الصعب فهم القصة .

لمواجهة هذه التحديات والباحثين لديهم مهمة إلى قسمين المهام الفرعية. أولا، اضغط لفترة طويلة الشريحة المهمة من الفيديو، ثم حدد الجمل القصة المناسبة التي تولدها استرداد . ووفقا لهذه المهام الفرعية اثنين، اقترحوا نموذج يتكون من جزأين.

تم تضمين الجزء الأول من هذا النموذج في إطار التعلم السياق علم المتعدد الوسائط ، من خلال خطوتين، إنشاء الفضاء الدلالي المتعدد الوسائط من المحلية إلى العالمية، يتم تعيين محتوى الفيديو إلى نفس اللغة الطبيعية والفضاء الدلالي ، وهو مرتبط. ومن شرائح الفيديو الاولى - لنموذج الحكم، ثم طول الفيديو إلى سلسلة من مقاطع الفيديو . معالجتها من خلال اتجاهين RNN المتبقية (ثنائي الاتجاه المتبقية RNN). هذا الهيكل لا يمكن إلا أن المعلومات السياق إلى الفضاء الدلالي المتعدد الوسائط، ويمكن أن تضمن استمرارية توقيت تضمين والتنوع الدلالي .

خريطة | المحلية متعددة الوسائط على الصعيد العالمي جزءا لا يتجزأ من نموذج التعلم. الجزء الأيسر مضمن جزئيا التعلم. لكل إدخال الفيديو كليب - أزواج الجملة باستخدام الفيديو كليب CNN + RNN يتم ترميز باستخدام الجملة المشفرة RNN.

وجزءا لا يتجزأ من الجانب الأيمن في التعلم العالمي، يجب أن يتم تعيين مقاطع الفيديو والحكم إلى الفضاء الدلالي نفسه .

الجزء الثاني من نموذج يسمى "رواية". وبالنظر إلى الفيديو، ويتم استخراج الهيكل لأول مرة من سلسلة من مقطع مهم، ثم استرداد كليب الذي يطابق الجملة في الفضاء الدلالي لتوليد القصة كلها. فيديو ما هو مهم لقصة جيدة؟ وبعبارة أخرى، ما هو نوع من جزء مهم؟ ومن الواضح أن هذا ليس تعريفا واضحا. لذلك، تم تصميم هذه الوحدة بمثابة وكيل لتعزيز التعلم، واستراتيجيات التعلم عن طريق مراقبة سلسلة من إدخال الفيديو، أكبر كليب عن طريق تحديد سياسة مكافأة . ويتم إنشاء هذه الجائزة من قبل هذه المقاطع التشابه بين قصة وقصة الإنسانية كتب مرجعية لاتخاذ قرار.

يظهر في الصورة رواية شبكة استخراج شرائح الفيديو هامة من إدخال الفيديو | FIG. أدناه يبين جنبا إلى جنب في الجمل عملية استردادها وفقا لهذا الجزء قصة المستخرج.

وقد تم جمع البيانات عاملا مهما في دفع عجلة التقدم من البحوث في هذا المجال . تحقيقا لهذه الغاية، أنشأ الباحثون في هذه المهمة الجديدة خاص قصة الفيديو البيانات. هذه مجموعة من البيانات يحتوي على أربعة شيوعا والحدث المعقد (عيد ميلاد، والتخييم، وعيد الميلاد، وحفلات الزفاف) استرجاع تحميلها من يوتيوب عن طريق البحث عن الكلمات الرئيسية، وأخيرا 105 اختيار يدويا بين مختلف المناسبات والأحداث الداخلية ديك ما يكفي من الفرق الفيديو . قصة هذه الحزم الفيديو منصة أمازون الميكانيكية الترك جمعت من خلال خدمات الجمهور الأمازون. قصة المختارة يجب أن تستوفي الشروط الثلاثة التالية: (1) تتكون الجمل ثمانية على الأقل؛ (2) يتألف على الأقل ستة في الجملة كلمة، (3) يجب أن تكون القصة متماسكة ، دمج الفيديو محتوى صالح . وأخيرا، فإن الباحثين يطلب من الموظفين لكل قصة في كل جملة، تميزت وقت البدء ووقت الانتهاء في الفيديو. في نهاية المطاف، جمع الباحثون 529 القصص.

قصة الفيديو مقارنة مع قواعد البيانات الأخرى القائمة | الشكل.

تم تقييم الباحثون في البيانات الجديدة التي لنماذج جديدة وأفضل نتائج النموذج ومقارنتها. حققت نماذج جديدة نتيجة أفضل .

FIG | جزءا لا يتجزأ متعددة الوسائط التقييم: سلسلة من الفيديو كليب حسب استعلام الجملة استرجاع التسلسل. R @ K أعلى قيمة، تمثل أفضل وانخفاض القيمة العددية تأثير Medr

FIG | قصة الفيديو مجموعة البيانات، وتحديد نموذج تحت مختلف نتائج التقييم مقطع الفيديو توليد حالة القصة. ResBRNN-KNN مزايا واضحة.

خريطة | قصة على قصة الفيديو مجموعات البيانات التقييم (بالنسبة للجزء الثاني من نموذج) التي تم إنشاؤها. في التجربة، مقطع الفيديو نفسه المستخرجة من كل نموذج، وفقا لحكم استرداد وضع مقطع الفيديو الثابتة. الراوي (نموذج الدبلجة) المؤشرات بشكل أفضل.

ومع ذلك، فإن النموذج لا يزال لديه قيود كبيرة. على سبيل المثال، قصة ولدت الجملة لا يمكن إلا أن تركز البيانات بحثك . وقال الباحثون أنه في العمل المقبل، وسوف تستخدم مزيد من العقوبات لتوسيع تنوع قصص البرية، في حين تستخدم بعض الأساليب واجهة معالجة اللغة الطبيعية بين الجمل من أكثر طبيعية .

خريطة | جيل نموذجا مختلفا من القصة، على سبيل المثال. النموذج الجديد المقترح المقترح من قبل الباحثين، GT هو الجواب القياسية كمرجع. مهمة مقاطع الفيديو GT المربع الأخضر اختيار، اختيار المربع الأصفر النموذج الجديد من لقطات الفيديو الهامة. المربع الأحمر لمدة مقاطع الفيديو المختارة معا.

طريق الحرير

فوجئت AI أن تكون المفسدين؟ يمكنك مشاهدة الفيديو من آلة القص التعلم نماذج تأتي

مطوري أبل يرى ARKit: موجة ثانية من أرباح المشاريع، قد يكون الآن مجرد نقطة انطلاق

التبويض صانع النجوم مكتب ثقافة حاضنة لفترة طويلة، والسنة الجديدة أريد أن أذهب لكمة

مدرس في مدرسة أخرى، مكتوبة حتى الكتابة على السبورة جميلة جدا!

تشنغدو الغذاء والدواء أخذ العينات 966 دفعات دفعات 41 عينات الأغذية فشل

علماء يابانيون كسب النصر آخر: بدء أول تجارب بشرية في العالم لعلاج الخلايا الجذعية لمرض باركينسون

DOTA2 ضد "وسائل" الإنسانية AI الفوز في أي مباراة! منظمة العفو الدولية إلى 2: فوز 1 على أعلى اللاعبين DOTA2 الفريق

اختراقات جديدة الصينية في مجال تشخيص أمراض القلب التاجية: تقييم جديدة إدارة الغذاء والدواء عن طريق أداة الدقة

قراءة بعض | تريد انقاص وزنه إلى 150 جنيه هو السخرية مجموعة؟ في الواقع، والعنف رقيقة والثروات والأساطير

البضائع المصور وهان شو Hanzhengjie هو الوقت المناسب للعب نهاية

الحائز على جائزة نوبل محاضرة الصعب أن نفهم لطلابها لخلق "لعبة الكم"

مبدأ السرية AI وراء الاعتراف أخبار كاذبة

2019 أو في العام الأول من فيلم الخيال العلمي المصنوعة في الصين، خمسة أعمال الجديدة التي اخترت؟

KVM تقنية المحاكاة الافتراضية ملخص وحدة المعالجة المركزية

ثلاثة مجلس إدارة جديد لائحة التمويل: شاندونغ الشركة اسبوع واحد أكثر من 200 مليون يوان على نطاق والتمويل

تعزيز | الزنك المالية الذكرى: القهوة كبيرة تجمع ليشهد موجة من "اقتصاد صناعي جديد."

لتسلا "سبيس اكس من"، وقال المسك دعم المساهمين الخصخصة أو الشطب ضربت أسطورة

لماذا الجهاز الظاهري WIN7 يمكن أن يرى سوى اثنين من وحدة المعالجة المركزية

وكانت 3 نقاط لا أي! R & F 2 + غريب الأحمر بطاقة الجدل الماضي العوز جولة "انتحار" للقائد السريلانكي كيف يفكر؟

خدمات البريد السريع عشرة مسح: أعلى معدل من البضائع التالفة تمر أكثر من 2 في المئة "جرح"

الخدمات البريدية عشرة مسح: SF أعلى تصنيفا قافية، ديلي اكسبريس أسفل

"MIT تقنية مراجعة" يدا بيد مرسيدس بنز عقدت "منتدى الشباب العالمية للتكنولوجيا"

Zhuihe شاحنة لفة زوجين النار الشرطة المحاصرين فقاعات في الماء لإنقاذ ناقص 7 درجات

الأحكام ذات الصلة