لا يمكن للبشر فهم الشفاه؟ عند التسليم إلى التعلم العميق ، يمكن أن تصل الدقة إلى 84.41

إن فهم لغة الشفة مشكلة صعبة أمامنا ، فمعظم الناس يمكنهم قراءة عُشر جملة شفة فقط في المتوسط. فهل تستطيع منظمة العفو الدولية أن تفعل ذلك؟

في وقت مبكر من عام 2016 ، قام مختبر الذكاء الاصطناعي بجامعة أكسفورد و Google DeepMind والمعهد الكندي للأبحاث المتقدمة (CIFAR) بتطوير برنامج LipNet الذي يجمع بين تكنولوجيا التعلم العميق. وبالتالي ، أصبح تحسين دقة قراءة الشفاه بالكمبيوتر تحديًا كبيرًا في هذا المجال.

في الآونة الأخيرة ، اقترح فريق البحث من جامعة تشجيانغ للتكنولوجيا ، ومعهد تكنولوجيا الحوسبة ، والمختبر الرئيسي للأكاديمية الصينية للعلوم لمعالجة المعلومات الذكية ، وجامعة الأكاديمية الصينية للعلوم ، إدخال قيود المعلومات المتبادلة على طبقة المعالم المحلية وطبقة التسلسل العالمي لتعزيز ملامح الشفاه والكلام تمت زيادة العلاقة بين المحتوى ودقة قراءة الشفاه بالكمبيوتر إلى 84.41.

في 13 مارس 2020 بالتوقيت المحلي ، تم نشر الورقة ذات الصلة تعظيم المعلومات المتبادلة من أجل القراءة الفعالة للشفاه على موقع الويب قبل الطباعة arXiv.

حل المشكلة "المتأصلة" في قراءة الشفاه على مستوى المفردات

قراءة الشفاه (قراءة الكلام) ، بعبارات بسيطة ، هي مراقبة تغير فم المتحدث و "قراءة" محتوى تعبيره. في الواقع ، فإن عملية قراءة الشفاه هي استكمال معلومات القناة السمعية بمعلومات القناة المرئية ، والتي لها أهمية عملية التطبيق للمجموعة ذات السمع الضعيف ، والعاملين في البيئات الصاخبة ووكالات إنفاذ القانون.

في سياق رؤية الكمبيوتر ، تعد قراءة الشفاه ، كنموذج قائم على التعلم العميق ، أكثر استخدامًا لاستنتاج المحتوى الصوتي في الفيديو ، والذي يمكن أن يساعد التعرف الصوتي القائم على الصوت والمصادقة البيومترية.

في الورقة ، ذكر فريق البحث مفهوم "قراءة الشفاه على مستوى الكلمة". في الواقع ، قراءة الشفاه على مستوى المفردات هي فرع من قراءة الشفاه والتركيز الرئيسي لأبحاث فريق البحث هذه المرة ، ولديها بعض المشاكل "المتأصلة".

أولاً ، حتى في حالة وجود كلمات أخرى في نفس الفيديو ، يتم وضع علامة توضيحية لكل كلمة إدخال. على سبيل المثال ، يتم وضع علامة على نموذج فيديو يحتوي على 29 إطارًا في الشكل أدناه على أنه "ABOUT" ، ولكن الإطار الفعلي للكلمة "ABOUT" يتضمن فقط الإطار في الخطوة الزمنية T = 12 ~ 19 ، أي الجزء في الإطار الأحمر ، و الكلمات المقابلة للإطارات قبل وبعد الإطار الأحمر هي "JUST" و "TEN" على التوالي.

يعكس المثال أعلاه مشكلة في قراءة الشفاه على مستوى المفردات لا يمكن للنموذج التركيز بشكل كامل على الإطارات الرئيسية الفعالة ، وبالتالي فإن حدود المفردات ليست دقيقة .

ثانيا، غالبًا ما تتغير صور عينة الفيديو تحت نفس علامة المفردات . على سبيل المثال ، تنتمي جميع الصور في الشكل أدناه إلى الفيديو المسمى "ABOUT".

تتطلب خصائص قراءة الشفاه على مستوى المفردات المذكورة أعلاه أن يكون نموذج قراءة الشفاه قادرًا على مقاومة الضوضاء في التسلسل ، وبالتالي التقاط أنماط كامنة متسقة في بيئات الكلام المختلفة.

بالاضافة، ليس من السهل التقاط التغييرات بدقة في شكل الفم إن مفردات المفردات المتشابهة متشابهة ، كما أن التعرف على الهوموفون يجعل الصعوبة أعلى.

في الواقع ، للتأكد من أن أداء قراءة الشفاه للكمبيوتر جيد يعتمد إلى حد كبير على نقطتين:

  • ما إذا كان يمكنه التقاط تغييرات الفم بفعالية ؛

  • ما إذا كان يمكن أن يقاوم بشكل فعال الضوضاء الناجمة عن التغييرات في الوضع والضوء ومظهر السماعة ، إلخ.

إدخال مستويات مختلفة من "أقصى قدر من المعلومات المتبادلة"

يدرك موقع Lei Feng.com أن المعلومات المتبادلة (MI) هي كمية أساسية تستخدم لقياس العلاقة بين متغيرين عشوائيين ، فعندما يتم إعطاء متغير عشوائي ، فإنه يستخدم دائمًا لحساب ما يحتوي عليه المتغير العشوائي الآخر. كمية المعلومات. بناءً على ذلك ، يتم دائمًا استخدام المعلومات المتبادلة بين متغيرين عشوائيين لقياس الترابط بين المتغيرين.

من أجل حل المشاكل المذكورة أعلاه ، بدأ فريق البحث بشكل رئيسي من جانبين وأدخل مستويات مختلفة من "تعظيم المعلومات المتبادلة" (MIM) ، والتي تهدف إلى جعل النموذج يتمتع بقدرة وقوة تمييزية أفضل. تأكد من أن قراءة الشفاه أكثر فعالية.

[ملاحظة لى فنغ نت: العمارة الأساسية]

على يدا واحدة ، فرض فريق البحث قيودًا على "تعظيم المعلومات المتبادلة محليًا" (LMIM) للحد من الميزات التي يتم إنشاؤها في كل خطوة زمنية بحيث يمكن أن يكون لديهم علاقة قوية مع المحتوى الصوتي ، وبالتالي تحسين النموذج لاكتشاف تغييرات الشفاه الدقيقة والقدرة على نطق الاختلافات بين الكلمات بنطق مماثلة (مثل "الإنفاق" و "الإنفاق").

[Lei Feng Net Note: LMIM Training Basic Network]

من ناحية أخرى قدم فريق البحث قيد "تعظيم المعلومات المتبادلة العالمية" (تعظيم المعلومات المتبادلة العالمية ، GMIM) ، بحيث يولي النموذج مزيدًا من الاهتمام لتحديد الإطارات الرئيسية المتعلقة بمحتوى الكلام ، مع إيلاء اهتمام أقل للضوضاء المختلفة المحتملة.

الشبكة الأساسية للتدريب GMIM

التقييم باستخدام LRW و LRW-1000

للتحقق من هذه الطريقة ، قام فريق البحث بتقييمها باستخدام مجموعتين كبيرتين من البيانات على مستوى المفردات ، وتحليلها ومقارنتها مع طرق نموذج التعرف على الشفاه السائدة الأخرى في العديد من الجوانب ، بما في ذلك LMIM و GMIM وخط الأساس مقارنة ، تصور التعلم العميق ، إلخ.

فيما يلي المعلومات المحددة لمجموعتي البيانات:

  • LRW: تم إصداره في عام 2016 ، ويبلغ إجمالي حجم العينة 488766 ، بما في ذلك 500 مستوى من المفردات ، يشمل أكثر من 1000 متحدث ، وتتغير بيئة الكلام بشكل كبير. يتم استخدام مجموعة البيانات هذه على نطاق واسع من خلال طرق قراءة الشفاه الشائعة ، وهي مجموعة بيانات صعبة ؛

  • LRW-1000: يبلغ حجم العينة الإجمالي 70،000 ، والمدة الإجمالية حوالي 57 ساعة ، بما في ذلك 1000 مستوى من المفردات. تهدف مجموعة البيانات إلى تغطية أوضاع الصوت المختلفة وظروف الصورة ، وذلك للجمع بين التحديات التي تواجهها التطبيقات العملية.

بعد التقييم ، وجد فريق البحث أن GMIM يمكن زيادة الدقة إلى 84.41 ، هذا يرجع بشكل رئيسي إلى تركيزه على الخصائص المختلفة للإطارات المختلفة. بالمقارنة مع طرق قراءة الشفاه الأخرى التي تتطلب إدخالًا إضافيًا بالإضافة إلى المعلومات المرئية ، حقق فريق البحث أفضل أداء حتى الآن في مجموعة بيانات LRW (انظر الشكل أدناه).

بالإضافة إلى ذلك ، من خلال إدخال LMIM ، أظهر اعتراف النموذج بالكلمات ذات النطق المتماثل دقة أعلى وتحسينات واضحة ، مثل صنع / صنع وسياسة / سياسة (كما هو موضح أدناه).

في الوقت نفسه ، استخدم فريق البحث التصور لمواصلة استكشاف آثار GMIM. كما هو موضح في الشكل أدناه ، فقد اتسع الفرق بين الكلمات التالية من -20 إلى 20 إلى -40 إلى 60 - مما يعني أنه مع إدخال GMIM ، يصبح من السهل تمييز الكلمات.

يمكن ملاحظة أنه بدون استخدام بيانات إضافية أو نماذج إضافية تم تدريبها مسبقًا ، فإن الطريقة المذكورة أعلاه لفريق البحث هي في الواقع أكثر بروزًا من نماذج قراءة الشفاه السائدة الأخرى. آمل أن توفر هذه الطريقة مرجعًا لنماذج أخرى.

المواد المرجعية:

https://arxiv.org/abs/2003.06439

https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html

دقيقتين الحصول على المعرفة والذكاء الاصطناعي، وسهلة القراءة ومفهومة على الانترنت مجانا قصيرة سلسلة فيديو

2019 جائزة تورينج، تمنح للتراث الرسومات

أصدر القانون الأعلى رأيين لتعزيز تنفيذ النوايا الحسنة والإنفاذ المتحضر وتعزيز مشاركة المحامين (مع النص الكامل)

نشرت "البحث عن الحقيقة" مجلة مقال مهم الأمين العام شي جين بينغ

2019 الشعب الصيني المخاوف معيشة سيادة القانون

كان أحمر الماء مع قضية المحكمة دعاوى المصلحة العامة!

وبعد أن قضى ثلاثة أشهر 550 مليون $ في بلومبرغ الانسحاب من الانتخابات لصالح بايدن

لندن الوباء مذكرات : جونسون على عقد، خطيبته والطفل الذي لم يولد بعد هو في انتظاركم

الزهور جولة، جولة نزهة، المرح العائلي، وتسلق جولة ...... الجذب السياحي ليني لان لينغ مقاطعة فتحت ل

منطقة سياتل في وباء "اندلاع"! ارتفع حصيلة جديدة وفاة ولي العهد الالتهاب الرئوي إلى تسعة أشخاص

الانهاك يخاف من العار

كيفية كتابة جيدة مبتدئين نقطة الأكاديمية الدولية للنظر؟