معالم النموذج قد تصل مليارات الدولارات؟ MIT شقيق كمية صغيرة من بيانات كاملة ذات جودة عالية النص إلى كلام!

[استعراض] جديد السوق جي وون أدوات النص إلى كلام بالفعل الكثير، كما توفر بعض المصنعين المحليين API على الانترنت، ولكن إذا كنا بحاجة إلى نبرة الصوت محددة أو نموذج التدريب الخاصة بهم، ولكن الطريقة التقليدية تتطلب الكثير من التعلم العميق الإحضار، وتدريبهم وجدا استهلاك الموارد، لا يوجد بديل لذلك؟ اليوم نحن ننظر إلى أداة خفيفة الوزن النص إلى كلام. "الكاتب تشي يوان عاجل جديد، محرر، مدير العمليات، مدير حسابات، HR إضافة قناة الدقيقة (الدكتور-wly) أو نهاية النص مسح رمز ثنائي الأبعاد لمزيد من المعلومات."

في الآونة الأخيرة على بلوجم التطبيق النص إلى كلام من النار، بل هو الشركة أطلقت دعا شركة fifteen.ai، مع النموذج التقليدي عمق الشبكة العصبية النص إلى كلام يختلف، أنها لا تتطلب كمية كبيرة من البيانات الصوتية الأصلية.

وهناك كمية صغيرة من تدريب البيانات لتوليد الصوت عالية الدقة

النص إلى أداة تحويل الكلام، ويمكن استخدامها لتوليد مجموعة متنوعة من النصوص 44.1 خطاب كيلو هرتز. صوت غير باستخدام مجموعة متنوعة من تخصيص الخوارزميات توليف الصوت والشبكات العصبية توليد عمق في الوقت الحقيقي ويتم تدريب هذه الشبكات العصبية على عدد قليل من البيانات المتاحة (لكل الصوت النقي دور بين 30 و 120 دقيقة). يظهر المشروع أن عدد من الصوت الصوت المنشودة خفض استنساخ بشكل كبير مع الحفاظ على دور العاطفي.

توفر الكتاب على موقع على الانترنت، يمكنك بسهولة تحويل النص على هذا الموقع فقط لأغراض غير تجارية. إذا كنت ترغب في استخدام لأغراض تجارية، طالما أن الارتباط الوصف الذي على ما يرام.

معدل أخذ العينات من الملفات الصوتية التي تم إنشاؤها بواسطة أداة هرتز 44100 في حين أن معظم خطاب النص إلى القائم على إعمال عمق التعلم، ومعدل أخذ العينات المستخدمة 16000 هرتز . ولذلك، فإنه يولد الصوت طيف الصوت أكثر تفصيلا (أعلى جودة الصوت)، في حين أن العيوب هي أكثر وضوحا. يمكنك استخدام أدوات تحرير الصوت الأخرى (مثل جرأة) التي تم إنشاؤها الاختزال الصوت إلى معدل أخذ العينات أقل، حتى أن الصوت يبدو أكثر مثل البشر، على الرغم من ذلك سيجعل صوت الصوت غامضة نسبيا.

كيفية استخدام هذه الأداة لخلق الصوت الخاص بك

في المستقبل سوف تحسين هذه الأداة، هناك مفاضلة من أساليب محسنة من قبل، فإنك يمكن أن تولد أكثر من بضع مرات، بسبب عدم التيقن من الشبكة العصبية، فإن الصوت يكون هناك بعض الاختلافات في كل جيل، يمكنك اختيار أكثر إرضاء.

بالطبع على معيب مثل هذا نموذج صغير تدريب الإحضار، بعض الكلمات قد لا تكون دقيقة النطق في الواقع، وهذا ما فهمه جيدا، وحتى الناس، يجب أن تكون قادرة تنطق بدقة الكلمات لا في وجهه، والتقليدية نموذج عمق عادة ما يكون 40 ساعة أو أكثر المجاميع ، ونسبة الخطأ سيكون أقل. ولكن هذه الأداة لأولئك الذين يفتقرون إلى المثول كافية، فإنه لا يزال من المفيد جدا.

يذكر مؤلفين آخرين بعض الحيل، ويمكنك المساعدة في تحسين القدرة تعميم هذا النموذج. مثل عمد إضافة بعض الأخطاء الإملائية وعلامات الترقيم، والنطق ومشوهة أو عمدا، من أجل تحسين تطبيق النموذج .

"لا نتوقع أول محاولة للحصول على الصوت المثالي. لتوليد تجعلك راضية عن النطق والتجويد، قد تحتاج إلى الاستمرار في المحاولة."

يمكننا استخدام نسخة الويب من هذه الأداة، وتوليد الصوت الخاص بك، عشوائيا الفترة المختارة من تلقاء نفسها أو إدخال النص، انتظر لحظة النقر على زر التشغيل للعب، وسرعان ما ذهب إلى محاولة ذلك!

الروابط المرجعي:

https://fifteen.ai

طريق الحرير

معالم النموذج قد تصل مليارات الدولارات؟ MIT شقيق كمية صغيرة من بيانات كاملة ذات جودة عالية النص إلى كلام!

وهناك كمية صغيرة من تدريب البيانات لتوليد الصوت عالية الدقة

كيفية استخدام هذه الأداة لخلق الصوت الخاص بك

الثقيلة | بيركلي "التعلم غير خاضعة للرقابة عميقة" دورات جديدة في الربيع 2020 الضربات!

ملحمة Arm الرائعة

فقط، أصدرت جوجل 24 نماذج من بيرت الصغير، قبل التدريب مباشرة من خلال فقدان الامتيازات

عمل AutoML-Zero المنشئ الجديد لـ Google AutoML: إنشاء خوارزميات تعلم الآلة من البداية

في اليوم التالي الأكبر في تاريخ ICLR 2020 إلغاء الخط، بحيث فقدت أفريقيا واندلاع AI الأول أعلى المنزل

السحر قفزة حرق 2.6 مليار دولار لعبودية؟ وقال الفيسبوك أنها لم ترغب في الوصول إلى القرص مان

كيف بعيدا عن الإجراء القرد العملاق مليون سنويا راتب AI خوارزمية مهندس؟

معظم التاريخ الكامل من "خريطة المعرفة" ورقة المراجعة عام 2020، 18 من الكتاب، 130 قوات الدفاع الشعبي

البالغ من العمر 17 عاما طالب في مدرسة ثانوية تطويرها بشكل مستقل معظم تتبع الموقع اندلاع النار في العالم! معبوده هو ستيف جوبز

الكم الحوسبة جهاز AI إلى الدماغ! جوجل المصدر المفتوح TensorFlow الكم الكم الحاسبات قاعدة

بابي وتو القائمة؟ قدم DeepMind MEMO النموذج الجديد محول، تحاكي المنطق الدماغ البشري

نصح الرئيس التنفيذي لشركة أبل كوك الموظفين زارة الداخلية في جميع أنحاء العالم، ستانفورد ومدارس النخبة أخرى مغلقة الاغلاق مدرسة

المهيمنة أطلب منكم السماح لهذه المجموعة

فابو لي كاذبة "، وصعود الأول من تايمز سكوير" يمكن أن تصبح المنازل باسم؟

5499 يوان! نظرة على كيفية تقييم وسائل الإعلام الأجنبية ممن لهم بحث X2 سلسلة منتجات أعلى

أن تخرج إلى المدرسة! فإن تنفيذ الانترنت الجامعة التعلم 5G يكون من الممكن تغيير أساليب التدريس

اي فون 11، الدخن 10، ممن لهم البحث عن الصور X2 تتناقض أقوى منها؟

"مدينة مغلقة" في إيطاليا: المقاهي في الهواء الطلق مليئة بالناس أكثر من أعمال الشغب في السجون

حدق زميل واحد، عروض ...... تجد الرعاية سون لي مقابلة: وكان هذا في الواقع لا غرفة مشرقة يرجى كتابة الحروف

استدعاء آلهة الذكاء الاصطناعي لمكافحة الفيروسات! Kaggle تطلق مسابقة تعدين نص مجموعة بيانات CORD-19

أعلن GitHub عن الاستحواذ على npm ، وتؤثر المنافسة الوحشية لشركة Microsoft في عالم المصدر المفتوح على 12 مليون مطور

أبل قد أعلنت للتو الحية WWDC تغير على الانترنت، وهي المرة الأولى دعم أبل دفع Alipay

وهناك كمية صغيرة من تدريب البيانات لتوليد الصوت عالية الدقة

كيفية استخدام هذه الأداة لخلق الصوت الخاص بك

الأحكام ذات الصلة