سوف الأعلى با الدراسة الجامعية جامعة تشجيانغ! بعد 20 دقيقة من الصوت، AI سوف تكون قادرة على تقليد واقعي صوتك

تونغلينغ غير معبد من الجزء السفلي من العطلة

إنتاج و qubit | عدد ملفه QbitAI

AI تقليد بدقة صوتك، كنت بحاجة الى مزيد من التدريب على نطاق واسع؟

جامعة تشجيانغ وأظهرت دراسة جديدة أن مايكروسوفت من 0 إلى بدء بتعلم صوتك واقعية تماما، يحتاج فقط AI 200 الصوت مقاطع وتميز وفقا لذلك، 20 دقيقة والمواد غير كافية.

وهذا هو أسلوب التعلم غير خاضعة للرقابة تقريبا، سوى كمية صغيرة من العلامات والفرز، والمواد المغذية مباشرة، وهناك عشرة ملايين من التوليف الصوتي الخاص بك.

عرض الصوت:

إذا التغذية هي لين تشي لينغ، غوو ديغانغ، صوت يوي يوي ......

في الوقت الحاضر، وصلت هذه الكلمة نظام AI يمكن تحديد معدل دقة 99.84 في المئة، وقد علمت ماكينة الورق سوف ICML 2019 يتلقى أعلى.

واحد واحد مشترك للورق أو أجزاء من المدرسة الجامعية جامعة تشجيانغ الفتوة حاليا القراءة العليا . وخلال مرحلة الدراسة الجامعية من شخص منزل هنا!

انظر في هذه الدراسة.

أربع خطوات التوليف

دراسة ينطوي أساسا مهمتين، النص إلى كلام (TTS، وهذا هو، تركيب الكلام)، والتعرف على الكلام التلقائي (ASR)، تفتقر إلى محاذاة البيانات الكافية (بيانات الانحياز) هو مشكلة رئيسية في كلا المجالين.

ولكن في هذه الدراسة، قام الباحثون اقتراح نوع جديد من TTS غير خاضعة للرقابة تقريبا، وASR دافا والصوت والبيانات النصية من خلال استخدام مجموعة من الاقتران وأونبايريد جزء من بيانات إضافية لتحقيق توليفة عينة صغيرة.

مخطط الاصطناعية كما هو مبين أدناه:

طوال فترة الدراسة تنقسم إلى أربعة أقسام.

أولا والباحثين من التعلم تحت إشراف، واستخدام البيانات الصوتية والنصية، وإنشاء فهم اللغة والنمذجة قدرات مجالات الصوت والنص.

على وجه التحديد، فإنها تستخدم لإزالة الضوضاء من التشفير، تشفير - إعادة بناء إطار فك اللغة والنص.

ثانيا، الباحثين تحويل مزدوجة (التحول المزدوج)، وتدريب على التوالي النص النموذج في التعبير والكلام في النص:

نموذج X TTS تحويل النص إلى كلام Y، نموذج ASR باستخدام البيانات النص المحولة إلى خطاب للتدريب، ونموذج ASR من الكلام إلى نص Y X، وتحويل النص إلى كلام نموذج تحويل النص إلى كلام باستخدام بيانات التدريب.

تحويل مزدوج تكرار التكرار بين TTS ونموذج ASR، وتحسين تدريجيا دقة المهمتين.

لأن تسلسل الكلام هو عادة أطول من تسلسل المهام التعليمية الأخرى، لذلك خطأ في تسلسل يؤدي إلى آثار أكثر خطورة.

ولذلك، فإن الباحثين استخدام مزيد من اتجاهين النص والصوت تسلسل النمذجة (ثنائي الاتجاه تسلسل النمذجة) قضية تخفيف أسطورة خاطئة خاطئة.

وأخيرا، فإنها مصممة على طراز العمارة محول موحدة على أساس أن الصوت والنص المدخلات والمخرجات، وقادر على الوحدات المذكورة أعلاه معا لتحقيق وظائف TTS وASR.

أعلى بكثير من خط الأساس

الباحثون هذه الطريقة مقارنة مع النظم الأخرى على المهمة TTS وASR، ولقياس تشابه تركيب الصوت، وصوت الإنسان الحقيقي مع (متوسط نقاط الرأي الرأي) MOS.

ولقياس أداء التعرف على الكلام التلقائي مع PER (نسبة الخطأ صوت).

وأظهرت النتائج، على مهمة هذه النقاط طريقة صلت MOS TTS 2.68، وصلت PER على المهمة ASR 11.7.

ولكن نظرة على هاتين النتيجتين، وهذه الطريقة قد يحرز أعلى بكثير من النموذج الأساسي 200 عينة يقترن البيانات.

وبالإضافة إلى ذلك، أضاف الباحثون أيضا مختلفة على النظام، وتظهر النتائج، عندما أضيفت تقليل الضوضاء من التشفير (لدبي لصناعات الطيران)، والتحول المزدوج (DT)، وكتلة النمذجة سلسلة ثنائي الاتجاه (BSM)، وزادت العشرات.

واحدة للطلاب الجامعيين

وتأتي هذه الورقة من فريقا من الصيني، يي رن ( اعتباطيا ) وشو تان هو واحد مشترك لهذه الورقة.

يتم عرض أي تابعني على الصفحة الرئيسية، في عام 2015 بعد المدرسة جامعة تشجيانغ للعلوم الحاسب الآلي والتكنولوجيا، لديها في أي Dashbase، قسم الذكاء الاصطناعي نيتياس، الصين مايكروسوفت والتدريب ذكي يعرف.

وبعبارة أخرى، عندما الكلية قبل التخرج، في حين ان الجميع هو أطروحة مشغول في هذه المناسبة، أحرز تعلم با اجتماع دولي كبير.

شو تان هو إجراء تعسفي كبار، في عام 2015 تخرج من برنامج الماجستير في جامعة تشجيانغ، ويعمل حاليا باحثا مشاركا في معهد أبحاث آسيا فريق التعلم آلة مايكروسوفت.

شو تان اتجاهات رئيسية للبحث في التعلم عمق والتعلم الآلي الموزعة، فضلا عن ترجمتها في البرمجة اللغوية العصبية، وآلة، بحث تطبيق والترتيب التوصية.

وبالإضافة إلى ذلك، مايكروسوفت تاو تشين شنغ تشاو، تعادل يان ليو تشو تشاو من جامعة تشجيانغ هو واحد من واضعي هذه الورقة.

بوابة

وقال الباحثون في الوقت الراهن، وقد تم الافراج عن عناوين المشاريع وأوراق ورمز يكون أيضا قليل تشو كايوان في وقت لاحق.

مشروع العنوان:

https://speechresearch.github.io/unsuper/

أوراق العنوان:

https://speechresearch.github.io/papers/almost_unsup_tts_asr_2019.pdf

- انتهى -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI عناوين على التوقيع

' " تتبع تقنيات AI دينامية جديدة والمنتجات

يي شي فاحت ألف الأحلام قد تغيرت، طغت طيف قوات صديقها في سن المراهقة!

فاحت شي يي ألف التعرض صور ماكياج، هو الأخ الأكبر الأخ الأكبر، وهو ما يكفي الاستبداد!

فنون الدفاع عن النفس جولة جنبا إلى العمل الرائع! التقاط القمامة حتى على المزيد من المال من الوزن الثقيل الذهب الكريبتون في اللعبة؟

من السهل العصابات منامة، يقود شاحنة طائشة! العصابات الذين تم اختيارهم بعناية آلة!

ماذا يمكن أن تتنافس نيتياس تينسنت؟ وتمثل نصف الائتمان! 2 العالم، رحلة غربا الاعتماد عليه!

Ren Zhengfei: Huawei لن "يموت" ، يعارض عقوبة Apple | التابعة لمقابلات CCTV

ألف اسم عشيرة شي ليتم استدعاؤها عبوة حارقة، الفكرة الأصلية هي مضحك جدا!

اليوم فضول: غولدن ستايت، بمتوسط عشرة الجياع وجبة رجل

وكان وانغ يوان الدخان الأسود بائسة، كان من الواضح أن من الصعب جدا، لأن الناس بالأسى ليس الحب عيد ميلاد!

14 عاما من الرئيس التنفيذي الشعبية هجوما مضادا! الحياة مجرد لعبة، وهو ما يمثل نصف فنون الدفاع عن النفس لعبة على الانترنت!

جينغ كون، نائب رئيس بايدو القادمة: لم دعم رئيس لم يتوقف الجدول الزمني، وهذا العام المحلي أولا

وتلعب هذه اللعبة إلى أقصى الحدود! الملك من اللاعبين المجد استعادة بحزم النظم الرائدة تغضب، تابع الجميع صعق