CIF: تحديد الخلايا العصبية آلية جديدة تدمج دفع على الصوت

الكاتب | أكاديمية الصينية للعلوم معهد التشغيل الآلي

تحرير | جيا وى

من أجل حل سطر الانتباه نموذج التعرف على الكلام الكلاسيكية لا يدعم قضايا الهوية، وتحديد المواقع والحدود الأخرى، والأكاديمية الصينية للعلوم في معهد التشغيل الآلي الدكتور Donglin هاو شو بو، فإن الباحثين دمج نبض الشبكة العصبية الأفكار الصادرة مستمرة، يقترح تعقيد منخفض ورتيب الاتساق آلية تسلسل تحويل - مستمر منحة التكامل (مستمر دمج والنار، CIF). CIF القائم على نموذج ليس فقط على نحو فعال خط الدعم تحديد والموقع والحدود لاستخراج تضمين الصوتية، ولكن أيضا في اثنين من الصينيين مجموعة التعرف على الكلام القياسي (HKUST، AISHELL-2) لإنشاء أداء SOTA. كان يعمل ICASSP 2020 النتائج ذات الصلة ورقات عن طريق الفم.

الموضوع: CIF: مستمر دمج والنار لنهاية إلى نهاية التعرف على الكلام

عنوان ورقة: الشبكي: //arxiv.org/pdf/1905.11235.pdf

نموذج نهاية على أساس آلية الانتباه هو وجود تأثير عميق على تطوير تكنولوجيا التعرف على الكلام. ولكن النموذج الكلاسيكي للاعتراف اليقظة ل "لوضع الاهتمام على الجملة خطاب الترميز" ملامح مواجهة لا يدعم الانترنت (تدفق) الاعتراف، صوت لا يمكن أن توفر الحدود الوقت الطوابع وغيرها من القضايا.

الدكتور دونغ Linhao CASIA والباحثين شو موجة النبض في الشبكة العصبية دمج الأفكار إصدار المستمر، لتوفير منخفضة التعقيد وجود تسلسل الهوية آلية تحويل رتيبة - أصدر التكامل المستمر (مستمر دمج والنار، CIF). سوف CIF المعلومات الصوتية الواردة دمج تباعا بالتتابع، عندما تصل المعلومات عتبة تحديد التكامل، ومعلومات عن تكامل إصدار لاحق لتحديد الهوية. مورفولوجيا المقارنة التي تتماشى مع طراز الانتباه 1 هو مبين أدناه.

FIG. آلية شكل التوافق والاهتمام آليات 1. CIF المقارن

يتم تطبيق أصدرت التكامل المستمر (CIF) إلى الإطار الترميز. في كل مرة من الترميز، وCIF الصوتية المشفرة الحصول على تمثيل المشفرة والأوزان المقابلة (تتميز المعلومات الكامنة). بعد، ما زالت الأوزان CIF لتجميع ودمج التمثيل المشفرة الصوتية (في شكل مبلغ موزون).

عندما يصل وزن المتراكمة قيمة عتبة الوزن، ويتم وضع وسيلة من الحدود الصوتية. في هذا الوقت، أصدر CIF محاكاة نموذج الفكر عملية التكامل، يتم تقسيم المعلومات إلى قسمين (كما هو موضح الحق في FIG 1) من الوقت الترميز الحالي:

جزء من المعلومات الصوتية المستخدمة لاستكمال التكامل التسمية الحالية (الأوزان قد يبني التوزيع الكامل).

تكامل المعلومات الصوتية كما جزء آخر من التسمية التالية.

بعد دمج التيار بعد CIF المعلومات الصوتية (التضمين الصوتية) الصادرة إلى فك التنبؤ التسمية المقابلة فورا. يتم تنفيذ العملية المذكورة أعلاه حتى بعد نهاية تسلسل الترميز. وعلاوة على ذلك، فإن الورقة أيضا عددا من دعم السياسات لزيادة تحسين أداء نموذج CIF، مثل استراتيجية منظم، وعدد من الخسائر.

تم التحقق من صحة العمل على عدد وافر من أداء التعرف على الكلام من مجموعة البيانات المرجعية نموذج CIF مجموعة البيانات التي تشمل لغات مختلفة، وأنواع مختلفة من الكلام.

كما هو مبين في الشكل 2، باللغتين الإنجليزية وقراءة مجموعة البيانات Librispeech، على الرغم من أن التسمية الناتج يستخدم أي وحدات فرعية كلمة الصوتية حدود واضحة، ولكن النماذج القائمة على CIF لا يزال الحصول على 2.86 أداء الكلمة نسبة الخطأ تنافسية.

3، ومجموعة البيانات في الصينية AISHELL-2 القراءة، لأن الحدود بين الانتاج السمعي تسميات أكثر وضوحا، CIF تستند النماذج للحصول على الأداء المتميز يتجاوز إلى حد كبير سلسلة أداء نموذج خلق تابعة للدولة من أحدث كلمة النتائج نسبة الخطأ.

كما هو مبين، والهاتف على البيانات الصينية تعيين HKUST، على الرغم من 4 على الكثير من الظاهرة الصوتية المنطوقة غير رسمية، ومجموعة البيانات هي صغيرة نسبيا، ولكن النموذج لا يزال يستند CIF يسلك تعميم جيد، وخلق 23.09 من كلمة النتائج نسبة الخطأ للدولة من بين الفن.

يمكن CIF نموذج ليس فقط توفير مستوى عال من تسلسل دقة في النتيجة، ولكن كان معظم الحدود النطق التعرف على الصوت المهم تحديد المواقع بدقة، يوفر أدوات والتكامل بين مختلف نموذج المعرفة الطريق للتعرف على الصوت الجديدة. وسيتم توزيع CIF مستمرة فكرة التكامل يمكن تعميمها على المهام تسلسل التحويل الأخرى.

وتفيد التقارير أن ورقة العمل في فريق البحث عشرة آلاف ساعة من تدريب البيانات التعرف على الكلام على نطاق واسع، ولكن أيضا على المنتخب النتائج المعروفة حاليا CTC، محول وغيرها من النموذج السائد، وصل على أفضل أداء، يعني أن الأسلوب لديه قطاع صناعي كبير إمكانات كبيرة لتطبيقات النطاق.

الشكل 2. الانجليزية قراءة قواعد البيانات المقارنة نموذج Librispeech، CIF مع نسبة الخطأ كلمة نموذج المنشورة

قراءة 3. FIG على AISHELL-2، نموذج CIF مع النماذج المنشورة من البيانات مقارنة كلمة نسبة الخطأ المنصوص عليها في الصينية

الرقم 4. على بيانات الهاتف الصينية تعيين HKUST، نموذج CIF مع مقارنة نموذج معدل خطأ كلمة المنشورة

ومشاهد العمل لا يجب أن تربط بإحكام، والحد من الانحراف من مكان الحادث، وسوف تكون قادرة على التعرف بسهولة على الرقص والغناء مول ملعب

فريق تسينغهوا إعادة كسر! وضعت أول ذاكرة متعددة مجموعة المقاومات متكاملة تخزين مشغل النظام في العالم

سمع! والتطبيق تكون قادرة على مراقبة المكالمات الهاتفية غير مصرح بها، فإن نسبة النجاح تصل إلى 90

إعادة قراءة كلاسيكيات تورينج ، تسع عمليات إعادة نظر تثير التفكير

ورقة اليوم | التنبؤ دولة المرض، شبكة تشذيب تقنية، للحصول على اللقب إنتاج الأخبار، الخ

مشاهدة مشهد | متعدد مطار خروج قياس درجة حرارة الجسم الداخلية والدولية، وجميع ارتداء الأقنعة على متن الطائرة

من الكتب التي تتحدث عن الفيروس والمرض: تاريخ الحضارة البشرية وغيرت النضال

20 سندات دين أكثر من ذلك، لديه ثماني سنوات

وطاردت الباعة غير الشرعيين خطوة في أول رد فعل رسمي: هو إجراءات جذرية حقا

كما قدم وهمية "القوات الخاصة" الغش ما يقرب من 200،000 امرأة ولادة ولده

الجميع، والسنة القمرية الجديدة القادمة من الفئران لأكثر من الطبقات الشهر ......

لى شياو: لطيف جدا! بداية جيدة سهم Tiaokonggaokai، ارتفعت نصف القيمة السوقية ترتفع 860000000000، وأكثر من 3300 الأسهم