الكشف قطرات التقدم التعرف على الكلام: بناء على الاهتمام تحسن ملحوظ في معدل الاعتراف الصيني

 تحرير | ناتالي

AI استعراض الأمامي: مؤخرا، قدمت ورقة من منصة منخفضة رئيسيا قليلا إلى أوراق ورقة أرخايف. في هذه الورقة بعنوان "دراسة مقارنة وحدات للالماندرين التعرف على الكلام نهاية إلى نهاية النمذجة"، وقطرات أفرجت حققت نتائج آخر الأبحاث التي تقوم على نهاية الانتباه تكنولوجيا التعرف على الكلام الصيني. ورقة، قطرات من الاهتمام الصيني نظام التعرف على الكلام مباشرة إلى أكثر من 5000 الحروف الصينية التي يشيع استخدامها كوحدة نموذج لتحقيق المعلومات لغة النمذجة المشتركة والمعلومات الصوتية. AI أمام 33 أوراق المراجعة، سوف تجلب لك تفسير رائع من هذه الورقة.

المزيد من المحتوى المميزين يرجى الالتفات إلى رقم القناة الصغرى العام "خط AI الجبهة"، (ID: منظمة العفو الدولية-الجبهة)

الأصلي عنوان الورقة:

https://arxiv.org/pdf/1805.03832.pdf

ووفقا قطرة قطرة خطاب الفريق، كان نموذج على الانترنت المنتجات ذات الصلة صوت في القطع، بدلا من نظام التعرف على الكلام بناء على طول خلية الذاكرة (LSTM) هو الساعة متصلة وتصنيف (CTC)، وحققت 15 إلى 25 الأداء النسبي. قطرات صوت الفريق أشار أيضا إلى أنه على الرغم من التطبيقات العملية، جعلت اهتمام على أساس الاعتراف كلام تعزيز الأداء كبير، ولكن لا تزال هناك العديد من القضايا التي تحتاج إلى مزيد من الاستكشاف. على سبيل المثال، يستند إلى أكثر من 5000 الحروف الصينية التي يشيع استخدامها في النظام، فإنه يمكن تعيين وحدة معالجة النصوص الخارجية من أجل حل مشكلة إلى حد ما بعد التبني، ولكن بالمقارنة مع شروط نظام CTC على أساس صوت، لا تزال هناك فجوة في مجموعة الخارجي لأجزاء الكلمة. أيضا لحالة مختلطة الصينية والانجليزية، وكيفية تنفيذ الموحدة على نحو فعال نمذجة الصينية والانجليزية أجزاء من نظام اهتمام لا تزال هناك حاجة لمزيد من الدراسة.

ما يلي هو تفسير مفصل للنهاية قليلا من الاهتمام نظام التعرف على الكلام.

 التعرف على الكلام من التاريخ، من التعرف على الصوت CD-DNN-HMM إلى نهاية

في السنوات الأخيرة، مع تطوير تكنولوجيا التعلم العميق، تقنية التعرف على الكلام لديه تغيير ثوري مرت، والتي يمكن تلخيصها على النحو المراحل الثلاث التالية:

  • التعرف على الكلام - DNN-HMM (ماركوف المخفية نموذج عمق الشبكات العصبية) على
  • CTC (اتصال تصنيف تسلسل) على أساس الاعتراف نهاية إلى كلام
  • واستنادا إلى التعرف على الكلام في نهاية الاهتمام

وابتداء من عام 2010، دونغ يو ولي دنغ وغيرهم من العلماء، وجعل النجاح استنادا CD-DNN-هم-المحاولة الأولى نموذج الصوتية في مهام التعرف على الكلام مستمرة المفردات الكبيرة، مقارنة مع نظام GMM-HMM التقليدي ويمكن الحصول على الأداء النسبي أكثر من 20 . ومنذ ذلك الحين عدد كبير من الباحثين في النمذجة الصوتية التعبير على أساس عمق الشبكات العصبية، جعلت التعرف على الكلام التقدم اختراق. وفي الوقت نفسه، يحاول الباحثون أيضا لكسر إطار التعرف على الكلام على أساس HMM السائدة.

مع LSTM وغيرها من التكنولوجيات الشبكة العصبية المتكررة (RNN) هذا النجاح، استنادا إلى دراسة النهاية إلى عمق نمذجة تقنيات حظيت باهتمام تدريجيا في الأوساط الأكاديمية والصناعة، حيث خوارزمية الكلاسيكية هي CTC الخوارزمية. القائم LSTM-CTC نمذجة الإطار، استبدال CTCs هيكل HMM والتقنيات لتحقيق عمق خطاب النمذجة تسلسل كامل، والتعلم بدلا من مجرد تصنيف الدولة ثابتة. منذ عام 2015، وقد استخدمت جوجل، بايدو وغيرها من الشركات CTC نموذج حققت أداء أفضل من نظام التعرف على الهجين التقليدية . حاليا، فإن نظام تحديد أساس CTC-استخدمت على نطاق واسع في العديد من منتجات الشركة صوت، فقد أصبحت صناعة التيار نظام التعرف على الكلام. في صوت قطرات الفريق، ونظام التعرف على الصوت في تكنولوجيا CTC، كان يبحث عن اختراق المقبل في تكنولوجيا التعرف على الكلام.

وقد تكنولوجيا التعلم عميقة تتطور بسرعة، وامتصاص العناصر الغذائية من تطوير عمق تكنولوجيا التعلم، وقد تم أيضا وسيلة لاختراق الصوت تقنية التعرف. في السنوات الأخيرة، في مجال الترجمة الآلية وتكنولوجيا الترجمة القائمة على التكنولوجيا في نهاية الاهتمام وقد اقترح عليه، وسيتم قريبا تطبيق في الأنظمة الصناعية على نطاق واسع. في عام 2017، وجوجل على GNMT خط (جوجل آلة العصبية الترجمة) نظم ، ويقوم هذا النظام على الاهتمام العصبية تكنولوجيا النمذجة الشبكة لتحقيق نهاية إلى نهاية عميق، ويحسن الأداء بشكل كبير من الترجمة الآلية. خلال العامين الماضيين ندرس خطاب seq2seq الاعتراف آلية الانتباه نموذج حققت تقدما كبيرا في ICASSP 2018 المؤتمر الدولي اختتمت لتوها، وجوجل لديها على seq2seq خطاب الانجليزية المهام الاعتراف على أساس آلية الاهتمام، أدلى أكثر من غيرها خصائص الأداء لنموذج التعرف على الكلام .

وبالنسبة للآليات القائمة على الاهتمام seq2seq في الإطار، يتم تعريف مهمة التعرف على الكلام باعتباره طول متغير تسلسل خطاب seq2seq تحويلها إلى تسلسل طول متغير من النص، والاهتمام جنبا إلى جنب آلية، وهذا نموذج واحد يمكن استخلاصها مباشرة خطاب إلى تسلسل النص تسلسل عملية التحويل، الذي ينفذ وظائف المعلومات الصوتية والمعلومات تعلم اللغة المشتركة. لذلك، فإنه بالمقارنة مع النموذج CTC، والاعتماد على نموذج اللغة أصغر، أو حتى لا تحتاج إلى نموذج لغة. ومع ذلك، فإن الحاجة نموذج seq2seq الكلاسيكية لإكمال صوت كمدخل، وانتاجها تكون أكبر بكثير من نموذج تأخير CTC؛ النظام لتلبية الاعتراف في الوقت الحقيقي، العصبية محول يمكن توظيف الحلول، مقسوما على قطع كلمة نحو قطاع طول الصوتية الثابتة، فعالا في الحد من تأخير الاعتراف.

في الواقع، فإن مهمة التعرف على الكلام، أو ما يسمى نهاية لهذه الغاية هو مفهوم نسبي. كما هو مبين أدناه، إلى التعرف على الكلام الصيني كمثال:

نظام CTC الذي هو نسبيا HMM النظم، لمزيد من اقصاه الى اقصاه. والنظام القائم على كلمة من الاهتمام فيما يتعلق بنظام CTC، لا يمكن أن يتحقق بدون إضافة N-غرام من الممكن أيضا أن يكون الأداء جيد جدا.

 قطرة قطرة الصيني LAS: 5000 الحروف الصينية المشتركة حدة النمذجة

نظام ديدي نهاية على أساس آلية اهتمام على أساس الإطار نهاية جامعة الدول العربية، واقترح إطار هذا النموذج لأول مرة من قبل ويليام تشان وآخرون . تتكون LAS العمارة من ثلاثة أجزاء رئيسية، وهي المستمع (التشفير)، Attender، سبيلر (فك).

وظيفة التشفير مشابهة لنموذج الصوتية التقليدية، وتلقي تسلسل ميزة الصوت المدخلات X = {X_1، x_2، ...، x_t}، والمدخلات تعيينها إلى المزيد من المزايا المتقدمة تمثل ح ^ ENC، التشفير دورة عادة متعدد الطبقات العصبية هيكل الشبكة من الشبكة. التشفير Attender تلقي مستوى ح مرت ^ ENC، المدخلات والمخرجات يتميز التعلم ونموذج التسلسل الأخير Y = {y_1، y_2، ...، y_n} بين المعلومات المحاذاة. وأخيرا، فإن وحدة الانتاج Attender إلى فك. فك وفقا لقاعدة السلسلة، قبل ربط توقع فك الإخراج، شبكة المعلومات Attender والناتج من فك نفسه، وإنتاج توزيع تسلسل احتمال كلمة الانتاج.

LAS النموذج هو نظام كامل الشبكة العصبية التي يمكن أن تحقق سلسلة كاملة خطاب المقابلة لتسلسل عملية تحويل النص، وبالتالي، والتدريب، واستخدام بالمقارنة مع النموذج التقليدي هو أبسط من ذلك بكثير. التدريب، لا مثل النموذج التقليدي للنظام حيث يتم تقسيم وحدات منفصلة في التدريب. وفي الوقت نفسه، لأنه لا معلومات المحاذاة، ويمكن استخدام التسلسل من الميزات خطاب الجملة وما يقابلها من سلسلة شرح النص لاستكمال نموذج التدريب بأكمله. من أجل تدريب أفضل نموذج جامعة الدول العربية، قطرات الصوت عندما حاول فريق مجموعة متنوعة من تقنيات التدريب، بما في ذلك أخذ العينات الجدول الزمني، وتجانس التسمية، والاهتمام متعدد الرأس وهلم جرا.

اهتمام ويأخذ في الاعتبار سيناريوهات وقطع الصوت، صوت قطرات فريق التركيز على النمذجة التعرف على الكلام الصينية أجرت أبحاثا، وخاصة على حدة ووضع نماذج لها. التعرف على الكلام الصيني للاهتمام، يمكن اعتبار الوحدة نمذجة تشمل المقاطع والحروف الصينية. للحصول على النتائج الأكثر اكتمالا، استنادا إلى قاعدة بيانات ضخمة ويسقط الخاصة العنقودية في GPU القوية، من خلال عدد كبير من عمل تعديل المعلمة النموذج، وجدت في نهاية المطاف على أساس حوالي أكثر من 5000 الحروف الصينية التي يشيع استخدامها كنموذج أساسي للنظام LAS يمكن أن يكون أفضل بكثير من CTC أداء الاعتراف النظام.

عندما فك رموز، والاستخدام المباشر للشعاع البحث إلى فك. مع الأخذ بعين الاعتبار أن أكثر سهولة الحصول على الكثير من جسم النص، ولكن عادة ما تكون هذه هي أي جسم صوت المقابلة في قطرات نظام جامعة الدول العربية، وقطرات لا يزال يجمع بين التدريب القائم N-غرام النص كتلة الجسم. في نظام السطر الأخير، تم العثور على اثنين من قطرات.

أولا، في نموذج النص جامعة الدول العربية، يمكن أن حجم شعاع يكون أصغر بكثير من نموذج التعرف على الكلام التقليدي. في HMM أساس الاعتراف التقليدي الكلام في الإطار، ويرجع ذلك إلى عدم التيقن من نموذجها، وذلك لمنع قطع من السابق لأوانه التسلسل الأمثل، في عملية فك يجوز في كثير من الأحيان الآلاف من مسارات المحجوزة. في خطاب إطار CTC الاعتراف القائم، لأن هناك عددا كبيرا من انتاج نموذج CTC فارغة، والقيود مسار يمكن فك وفقا للخصائص فارغة، حتى أن سرعة فك إلى حد ما، ولكن لا يزال يحتفظ آلاف العامة للمسارات المحتملة. في القطع إطار جامعة الدول العربية، للحفاظ على رقم واحد فقط (على سبيل المثال، 4 أو 8) من المسارات الممكنة، ويمكن الحصول على نتيجة الاعتراف المثلى. وربما يتم تخفيض مسار مرشح من آلاف إلى أصابع اليد الواحدة، الذي يبسط إلى حد كبير من ناحية إطار فك جلبت، كما أنه يجلب زيادة فك بشكل كبير سرعة النظام على الانترنت الفعلي.

ثانيا، عملية فك، قطرات جدت الوزن الأمثل N-غرام نموذج اللغة الوزن منخفضة جدا، وعادة ما بين 0.1 و 0.3. في المقابل، في إطار HMM، وزن N-غرام الوزن نموذج اللغة عموما بين 10-20، في إطار مكافحة الإرهاب، الوزن N-غرام عموما بين 1.0 و 2.0. يمكنك ان ترى وجامعة الدول العربية أقل بكثير من الاعتماد على نموذج اللغة بالمقارنة مع النموذج التقليدي، وحتى بعض المنتجات في مهمة قد لا يكون من الضروري استخدام نموذج لغة.

من منظور آخر، والبحث التعرف على الكلام، من HMM لجنة مكافحة الإرهاب، ثم الاهتمام، وقد رافق تطورها من خلال عملية التفكير هي الطريقة لتحقيق مستويات أعلى تصوير من طراز اللغة عن طريق نموذج الشبكة العصبية. وبعبارة أخرى، فإنه يحاول باستمرار لتحسين إطار النمذجة النمذجة هذا استنادا النقي استبداله N-غرام طريقة إحصائية.

في قطرة قطرة نموذج جامعة الدول العربية الصينية، والحروف الصينية التي تستخدم عادة باستخدام ما يقرب من 5000 وحدة من نموذج. ويرجع ذلك إلى الحروف الصينية التقليدية الكبيرة التي يشيع استخدامها النمذجة صوت وحدة الحجم، فإن الطلب على كمية البيانات التدريب تكون أكبر. الاعتماد على البيانات قليلا وقوية تدريب مجموعة GPU، وهناك آلية اهتمام على أساس نموذج دفعة أداء كبير على أجزاء متعددة من المنتجات صوت.

ووفقا المنتجات صوت لمتطلبات الوقت الحقيقي من التعرف على الكلام مختلفة، والمهام التعرف على الكلام يمكن تقسيمها إلى الوقت الحقيقي وغير الوقت الحقيقي الاعتراف الاعتراف: متطلبات الاعتراف في الوقت الحقيقي نظام التعرف على الكلام يمكن إكمال نص نص خطاب في التدفق بسرعة وبدقة، والتطبيقات النموذجية إدخال الكلام، مثل الوقت الحقيقي النسخ صوت، وتحديد هذه المهام لتلبية الاحتياجات في الوقت الحقيقي وأعلى يمكن العودة بسرعة نتيجة الاعتراف، في حالة غير الوقت الحقيقي تحديد لا يمكن أن يتحقق لاستكمال خطاب تخزين، عند الاعتراف الأساسي على أية متطلبات الوقت الحقيقي صارمة ومراقبة الجودة والخدمات الصوتية الأخرى هي فترة غير الحقيقي نموذجية المهام الاعتراف. من أجل تلبية الاحتياجات في الوقت الحقيقي والوقت غير الحقيقي خدمتين، نموذج seq2seq على أساس آليات الاهتمام من قبل بت باستخدام خيارين. لنظام التعرف على غير الوقت الحقيقي، لأن الصوت يمكن أن يكون كاملا، يمكن أن تستخدم كنموذج الاهتمام آلية جامعة الدول العربية، في نهاية كل إدخال الكلام كاملة، LAS كل كلمة يمكن أن يكون الإخراج مباشرة إلى نص المقابلة.

لنظام التعرف في الوقت الحقيقي، وذلك باستخدام بعض الشيء من نموذج الانتباه آلية العصبية محول، وفقا لطول ثابت من الوقت الذي يستغرقه حركة الاتصالات الصوتية (على سبيل المثال 300mS و) باعتبارها (قطاع الوقت) بلوك، العصبية محول بلوك قبول المعلومات الصوتية الحالية، وملزم كتلة المعلومات النص الإخراج والعصبية مركز معلومات الشبكة، وخطاب تيار فك الشفرة الحالي المقابلة لقطاع النص. فك تأخير تسيطر على نحو فعال من خلال طريقة من هذا القبيل.

الفريق الذي صوت قطرات، قطرات على غير الوقت الحقيقي مهمة التعرف على الكلام، LAS نموذج يقوم على آلية الاهتمام، ويمكن الحصول على 25 من الأداء النسبي، يسقط على أساس الوقت الحقيقي نظام تحديد العصبية محول في المهام الاعتراف في الوقت الحقيقي، الحصول على 15 الأداء النسبي. من ناحية أخرى، فإن نموذج حجم الاهتمام قليلا 1/5 حجم التقليدي CTC نموذج فقط، وعلى الجانب فك حتى من ضعف الأداء في الوقت الحقيقي للغة نموذج يعتمد، للحصول على فك تحسنت بشكل ملحوظ، وفي أجزاء من تدفق كبير من السلع، يتم تقليل وقت فك إلى 1/4 من الأصل، ومن المتوقع أن ترتفع بنسبة 4 مرات QPS، وحساب على الانترنت من عدد من الخوادم سوف يقلل كثيرا من تكاليف الميزانية المباشرة بنسبة 75 خدمة.

 مراجع

G. دال، D. يو، L. دنغ، A. اسيرو. للسياق التابعة الشبكات العصبية العميقة تدريب تمهيدي للمعاملات الاعتراف كبير المفردات الكلام. IEEE في الصوت والكلام والمعالجة الآلية للغات 2012

H. ساك، A. كبير، F. Beaufays لونغ قصيرة الأجل الذاكرة المتكررة الشبكات العصبية البنى لنطاق واسع الصوتية النمذجة. INTERSPEECH 2014

Y. وو، M. شوستر، Z. تشن، QV لو، M. نوروزي، W. Macherey، M. Krikun، Y. تساو، Q. غاو، K. Macherey، العصبية آلة نظام الترجمة وآخرون جوجل : سد الفجوة بين الإنسان والترجمة الآلية أرخايف :. +1609.08144، 2016.

C. تشيو، T. Sainath، Y. وو، R. Prabhavalkar، P. نجوين، Z. تشن، A. كنان، R. فايس، K. راو، E. Gonina، N. Jaitly، B. لي ، J. Chorowski، M. Bacchiani. دولة من بين الفن التعرف على الكلام مع نماذج تسلسل إلى تسلسل. ICASSP عام 2018.

T. Sainath، C. تشيو، R. Prabhavalkar، A. كنان، Y. وو، P. نجوين، Z. تشن تحسين أداء الانترنت العصبية محول نماذج أرخايف: .. +1712.018072017.

W. تشان، N. Jaitly، Q. لو، O. Vinyals الاستماع، وحضور والإملائي: .. الشبكة العصبية لكبيرة المفردات المحادثة التعرف على الكلام ICASSP عام 2016.

.. W. زو، D. جيانغ، S. تشاو، X. لي دراسة المقارنة من وحدات بناء نموذج لالماندرين التعرف على الكلام أرخايف نهاية إلى نهاية: +1805.038322018

الولايات المتحدة تشغيل مجموعة متنوعة من نوع مختلف مثيرة، ولكن "المخبر الحقيقي" والذي هو بالتأكيد نوع مختلف جدا من

"GTA أون لاين" توسيع حزمة "استيراد وتصدير التاجر" على خط لتوسيع إمبراطورية الجريمة الخاص بك

"اسم المجموعة" نهائيات كأس العالم، تشاو لين مع ارتفاع لاول مرة المنتج تذكرة، كما تساى شو كون الثانية؟

ثلاث ساعات من الدردشة المتعمقة مع Li Xiang وآخرين ، لاستعادة الإبداع الفكري المثالي الكامل

Angelita لا يتكلم الصينية إلى أن وبخ، ولكن كان تعليم اللغة هوانغ لى الكثير من الثناء جنون

الممارسة وتحقيق مثالا للحديث عن تينسنت سحابة تقنيات عمليات جناح حافة الحوسبة في إنترنت الأشياء

ونفس الشيء لشراء سيارة، ويمكن للأصدقاء دائما تنفق المزيد من المال القليل مما كنت iPhoneX

أناليسيس الدولة فكرية، أصدرت "" على طول الطريق "استراتيجية مشروع ميناء الخارج الصينية تقرير التحليل"

"مريحة، وحسن المظهر" مع الأخذ بعين الاعتبار، HyperX Pulsefire FPS خبرة برو للبدء

البالغة من العمر 40 عاما رون نغ المعركة الكروية مع اندي ني ني التصوير، صديقته السابقة متزوج بسعادة زوج تظهر في كثير من الأحيان

190327 حتى أن الجماهير يجب أن الحب "الدروع البشرية" قصص الدفء فتيان بانقتان تشي مين

مجرد شعور، زينيث G واحدة عالية الطاقة الصغيرة