CVPR 2019 ورقة كما يلي: مجموعة دراسة ML مجلس الشعب اقتراح خوارزمية جديدة لكشف الكذب فيديو | CVPR 2019

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو : أعلى الحاسوب الرؤية قريبا CVPR 2019 في لونغ بيتش الذي عقد في يونيو من هذا العام، تلقت الجمعية العامة ما مجموعه أكثر من 5165 ورقة التقديم، وجمع النهائي للأوراق 1299. مع اقتراب الاجتماع، إما الأكاديمي أو الصناعة قد بشرت في CVPR موجة 2019 ورقات مختارة تفسير الازدهار.

الدكتور CVPR هذا العام 2019، والقيادة لو زيوو من جامعة الشعب مدرسة الصين تعلم آلة (ML) فريق يتألف من ثلاثة يتم تعيينهم الأوراق، الأوراق التي تغطي مواضيع القضايا الساخنة الاعتراف الفيديو، تعلم عينة صغيرة والحوار البصري، ونحن نريد لتفسير الأوراق سوف هي مادة واحدة حول الاعتراف فيديو: "التركيز لكشف الكذب الفيديو عبر شبكة مزدوجة إطار الوجه"، "وجها ركز عبر تيار شبكة لكشف الخداع في أشرطة الفيديو."

وتقترح هذه الورقة رواية الكذب خوارزمية الفيديو التي يتطلب سوى كمية صغيرة من البيانات والفيديو للتدريب واختبار للفيديو قصير بعد التدريب. وقد اظهرت النتائج أن دقة الخوارزمية كشف الكذب أكثر من 90، في حين صوت مجتمعة والمعلومات word2vec، ودقة ويمكن زيادة أخرى إلى 95.

الأول، مشكلة الوصف

جهاز كشف الكذب الفيديو، وهذا هو، ما إذا كان الشخص في كائن الفيديو كشف الكذب. حاليا، يواجه المشكلات الفيديو كشف الكذب أيضا تحديين رئيسيين: (1) كيفية الاندماج بشكل فعال المعلومات في الوجه وحركة الفيديو لتحديد ما إذا كان الكائن ملقاة في الطابع، (2) مجموعة بيانات الفيديو الحقيقي هو على نطاق صغير، وعمق تعلم كيفية تطبيق على عدد محدود من بيانات التدريب. من أجل حل هاتين المشكلتين، نقترح جها تركز الشبكة عبر تيار (FFCSN) نموذج (الشكل 1).

الثاني، ونهج نموذج

الشكل 1: فيديو كشف الكذب عمق نموذج التعلم FFCSN

على عكس الشائع نموذج الشبكة المزدوجة تدفق (شبكة تيار اثنين) باستخدام يلتقط الفضاء الخصائص المكانية ثابتة عموما من إطار الفيديو والاستفادة من ديناميات وقت دفق الفيديو القبض على نهج تدفق البصرية، FFCSN نموذج النظر فيها لكشف الوجه تيار المكاني جزء التقاط يتميز، ودمج الخصائص المكانية والزمانية وإجراء التدريبات المشتركة المتعلقة باستخدام التعلم عبر الشبكة بأكملها.

وفي الوقت نفسه، والكتاب الجمع بين المعرفة في علم النفس (أي كذابون العصبية، وتعابير الوجه ولغة الجسد وغالبا ما تكون غير متناسقة)، والعثور على ملامح الصورة والتدفق الضوئي يتميز أسلوب مزدوج الإطار ليس هو الحل الأمثل لمباراة المناظرة فيديو للكشف الكذب . لذلك، يقترح المؤلفون شبكة تيار المزدوجة (شبكة عبر تيار) عبر الإطار - هذه الشبكة غير متناسقة يمكن التقاط تعابير الوجه والجسم علاقة الموقف. مع الشبكة هذه، يتم فصل كل إطار من تعبيرات الوجه الفيديو على مسافة معينة التدفق البصري مطابقة خمسة إطارات، بحيث النموذج وتلقائيا تعلم الأوزان الثقيلة التي العلاقة بين الخمسة. وعلاوة على ذلك، والكتاب أيضا تيارات الوقت ResNet باستخدام طبقة تجمع block3 العالمية لتحويلها إلى ناقل، مثل أن اثنين من الربط الكامل من خلال نموذج وطبقة softmax، فمن الممكن لمعرفة العملية وزنها بين خمسة إطارات علاقة الوزن. من خلال دراسة هذه الوحدة، والقدرة على تصميم نموذج إطار عمل مختلفة تعطى أوزان مختلفة.

يفصل عبر إطار شبكة مطابقة نموذج هيكل هو كما يلي:

FIG 2: الشبكة عبر تيار

على وجه الخصوص، وتنقسم طريقة في كل من K شرائح الفيديو

لكل قطاع، وإطار التعبير أخذ العينات العشوائية

والإطار خمسة العمل

(الشكل 1 في كتلة البرتقال). وهكذا، على كل قطعة، ويمكن الحصول على البيانات:

بين

هذا العمل نيابة عن خمسة أوزان ثقيلة بين الإطارات،

مجموع 1. جعل

نموذج النواب

احتمال تصنيف و

يمثل متوسط احتمال وجود تصنيف جميع مقاطع الفيديو، ثم يتم تعريف وظيفة الخسارة على النحو التالي:

وبالإضافة إلى ذلك، يقدم النموذج FFCSN أيضا التعلم الفوقية (الفوقية التعلم) وضد التعلم (التعلم الخصومة) على حل مشكلة كمية صغيرة من بيانات التدريب. يوان تعلم استخدام علاقة الأفكار لتحسين قدرة تعميم نموذج للعلاقة بين البيانات التعلم، ومكافحة ناقلات ميزة "كاذبة" تهاجم التعلم المصنف النموذجي في التدريب لتحقيق الغرض من استخدام ولدت توسيع كمية البيانات.

FIG 3: علاقة هيكل هو موضح

عنصر وحدة التعلم هيكل شبكة محددة هو مبين في الشكل (3). يرى بسهولة، وهما من نموذج المحدد من كل سداسية مصغرة دفعة، مع كل-الصفوف (tuple) اثنين من عينات السادس من نفس الفئة، وأربع عينات من فئات مختلفة. حيث عينة أخذت اثنين من نفس الفئة مرساة، وتكوين مع خمسة أزواج خمسة أزواج من البيانات، وبالتالي هناك التكوين من هذا القبيل التي تم الحصول عليها لنفس نوع العينة وأربعة أزواج من عينات من فئات مختلفة، ثم بعد التدريب ، ثم يتم تصنيف هذه البيانات من قبل خمس التفاف كامل وطبقة الصدد، ذلك أن النموذج يمكن تحديدها في نفس الفئة لبعضهم البعض. أثبتت النتائج أن هذا الإجراء مكاسب على أفكار التعلم لمجموعات صغيرة من البيانات واضح جدا.

الجزء 1 ضد الأرجواني انظر إطار وحدة التعلم FIG، حيث يتم إنشاء ناقلات الميزة بواسطة G الظاهري (مولد)، يليه تقرير كتبها D (الممي) لتعزيز متانة نموذج، وبالتالي حل مشكلة عينة صغيرة. GAN فقدان وظيفة وما شابه ذلك، كما هو مبين في الصيغة التالية:

منذ يتكون هذا النموذج من ثلاث وحدات فرعية سبق وصفها، مع فقدان تام للوظيفة هو مجموع من ثلاثة أجزاء. واضعو هذه الأجزاء الثلاثة من التدريب المشترك، حققت نتائج جيدة.

والنتائج التجريبية الثالثة

نموذج FFCSN المحرز في جلسة علنية مجموعة بيانات الفيديو الحقيقي هو حاليا أفضل النتائج، يتم التحقق من نموذج كشف الكذب فعال جدا في الفيديو، فإن النتائج أيضا يظهر أن الكذاب هو عرضة للتناقضات في تعابير الوجه والإيماءات. 4، وتعبيرات الوجه الكذاب التدفق الضوئي ومباراة الإطار الثاني انخفضت بشكل ملحوظ، ويتحدد هذا التذبذب لنموذج كذبة يوفر أساسا.

كذاب FIG. 4 لا مزامنة على تعبيرات والإجراءات

من أجل التحقق من وحدات مختلفة من طراز فعالة، نفذت من الكتاب من عدة مجموعات من التجارب الاجتثاث. كما يتضح من الجدول رقم 1، مقارنة مع الوجه فقط أو الحركة فقط، في حين أن تأثير باستخدام اثنين من حركة الوجه والمعلومات نموذج المكتسبة قد تحسنت كثيرا. بعد إضافة المباراة عبر تيار (CL)، تم تحسين دقة نموذج أبعد من ذلك. وبالإضافة إلى ذلك، فإن كمية البيانات صغير جدا للتغلب على مشكلة ،، المؤلف انضم (AL) وحدة (ML) وضد تعلم التعلم الفوقية في النموذج، والتي هي مساعدة كبيرة لتحسين متانة نموذج.

الجدول 1: تأثير وحدات مختلفة نموذج

للتحقق من أن تمديد هذا النموذج، كما فعل الكتاب تجارب على مجموعات البيانات الاعتراف تعبير الوجه ،، وحقق أعلى دقة على يوتيوب-8 مجموعات البيانات. يوتيوب-8 بيانات تضم 1101 الفيديو، وتنقسم الى ثمانية أنواع من التعبيرات. ويمكن ملاحظة النتائج من الجدول رقم 2، على الرغم من أن الكتاب تستخدم إلا البصرية واحد واسطة، ولكن لا يزال حققت معدل دقة عالية من 5 أكثر من الطرق الأخرى التي تستخدم الوسائط (صوت والصفات) من نتائج جيدة.

الجدول 2: التعبير الجزئي نتيجة الاعتراف

رابعا، فريق

جامعة رنمين مدرسة الصين من معلومات الجهاز التعلم (ML) مجموعة الدكتور لو زيوو، فضلا عن 20 الدكتوراه وتكوين الماجستير، أستاذ تابعة لفريق تحليلات البيانات الكبيرة النص جى رونغ. حاليا، وقد نشرت مجموعة الكونغرس ML الشعبي الوطني أكثر من 40 ورقة في TPAMI، IJCV، خطط التنفيذ الوطنية، CVPR أخرى أعلى الدولي مجلة / مؤتمرات، واستضافت عددا من مشاريع البحوث الوطنية NSFC، KJW، وما إلى ذلك، كما فاز الذكاء الاصطناعي الدولي تقييم موثوق ImageNet 2015 فيديو مهام التفتيش الوصيف.

المراجع:

M. دينغ، A. تشاو، Z. لو، T. شيانغ، وJ.-R. ون جيا باو، وركزت وجها عبر تيار شبكة كشف الخداع في الفيديو، CVPR 2019

مقالات URL: الشبكي: //arxiv.org/abs/1812.04429

شكر خاص للدكتور لو زيوو توفر المعلومات ذات الصلة لشبكة لى فنغ AI تكنولوجي ريفيو.

وأخيرا، فإننا نرحب في لى فنغ شبكة AI Yanxishe مجموعة CVPR (https://ai.yanxishe.com/page/meeting/44) لمناقشة المزيد من المواضيع.

شون مظاهرة شخصيا! أن نجم جنون المال منتج واحد N-3B السترة قريبا!

تشانغ تسي يي يجلس، دعم تشانغ قوه لى أينما ذهب، "ولادة الفاعل"، وكان لماذا مجنون Tucao؟

تلبية احتياجاتك تلعب اختبار قيادة السكتة الدماغية فورد 2.0L جديدة

كيندال جينر كليبرز في المنزل لدعم "صديقها" غريفين! تظهر بالمناسبة 70،000 الأحذية!

ومن المتوقع أن تكون متاحة في أكتوبر من هذا العام الافراج عن مسؤول تيجو 5X

وانغ كاي ما تيانيو وانغ البر الرئيسى محفورة "A غد أفضل"؟ العضو: لا تدمر أخي مارك!

نجمة حركة المرور، ومرساة يجلب يستحق؟ المنعكس إعلان لبيع 20 مليون

قلبك قليلا حسنا؟ الوحيدة في العالم لا يملكون المال للانضمام الى القوة الجوية 1 الجوية الاردن 4 المشارك يحدث!

تشانغ CS15 EV أو مدرجة رسميا في نوفمبر تشرين الثاني في معرض قوانغتشو للسيارات

جيت لي كمخرج؟ الفيلم تحتضن 15 مليون في شباك التذاكر في عام 1988، بدأ مسيرته هو "الفشل"!

جاء باتا آسيا المنبثقة جولة المنزل! العلامات التجارية المحلية الحصرية التي تم اطلاقها سلسلة محدودة!

سبعة الأبعاد تقنية صحفية المحمولة كاميرا بانورامية المهنية، فإنه يمكن إعادة تعريف VR الفيديو؟