[استعراض] جديد السوق جي وون أدوات النص إلى كلام بالفعل الكثير، كما توفر بعض المصنعين المحليين API على الانترنت، ولكن إذا كنا بحاجة إلى نبرة الصوت محددة أو نموذج التدريب الخاصة بهم، ولكن الطريقة التقليدية تتطلب الكثير من التعلم العميق الإحضار، وتدريبهم وجدا استهلاك الموارد، لا يوجد بديل لذلك؟ اليوم نحن ننظر إلى أداة خفيفة الوزن النص إلى كلام. "الكاتب تشي يوان عاجل جديد، محرر، مدير العمليات، مدير حسابات، HR إضافة قناة الدقيقة (الدكتور-wly) أو نهاية النص مسح رمز ثنائي الأبعاد لمزيد من المعلومات."
في الآونة الأخيرة على بلوجم التطبيق النص إلى كلام من النار، بل هو الشركة أطلقت دعا شركة fifteen.ai، مع النموذج التقليدي عمق الشبكة العصبية النص إلى كلام يختلف، أنها لا تتطلب كمية كبيرة من البيانات الصوتية الأصلية.
وهناك كمية صغيرة من تدريب البيانات لتوليد الصوت عالية الدقة
النص إلى أداة تحويل الكلام، ويمكن استخدامها لتوليد مجموعة متنوعة من النصوص 44.1 خطاب كيلو هرتز. صوت غير باستخدام مجموعة متنوعة من تخصيص الخوارزميات توليف الصوت والشبكات العصبية توليد عمق في الوقت الحقيقي ويتم تدريب هذه الشبكات العصبية على عدد قليل من البيانات المتاحة (لكل الصوت النقي دور بين 30 و 120 دقيقة). يظهر المشروع أن عدد من الصوت الصوت المنشودة خفض استنساخ بشكل كبير مع الحفاظ على دور العاطفي.
توفر الكتاب على موقع على الانترنت، يمكنك بسهولة تحويل النص على هذا الموقع فقط لأغراض غير تجارية. إذا كنت ترغب في استخدام لأغراض تجارية، طالما أن الارتباط الوصف الذي على ما يرام.
معدل أخذ العينات من الملفات الصوتية التي تم إنشاؤها بواسطة أداة هرتز 44100 في حين أن معظم خطاب النص إلى القائم على إعمال عمق التعلم، ومعدل أخذ العينات المستخدمة 16000 هرتز . ولذلك، فإنه يولد الصوت طيف الصوت أكثر تفصيلا (أعلى جودة الصوت)، في حين أن العيوب هي أكثر وضوحا. يمكنك استخدام أدوات تحرير الصوت الأخرى (مثل جرأة) التي تم إنشاؤها الاختزال الصوت إلى معدل أخذ العينات أقل، حتى أن الصوت يبدو أكثر مثل البشر، على الرغم من ذلك سيجعل صوت الصوت غامضة نسبيا.
كيفية استخدام هذه الأداة لخلق الصوت الخاص بك
في المستقبل سوف تحسين هذه الأداة، هناك مفاضلة من أساليب محسنة من قبل، فإنك يمكن أن تولد أكثر من بضع مرات، بسبب عدم التيقن من الشبكة العصبية، فإن الصوت يكون هناك بعض الاختلافات في كل جيل، يمكنك اختيار أكثر إرضاء.
بالطبع على معيب مثل هذا نموذج صغير تدريب الإحضار، بعض الكلمات قد لا تكون دقيقة النطق في الواقع، وهذا ما فهمه جيدا، وحتى الناس، يجب أن تكون قادرة تنطق بدقة الكلمات لا في وجهه، والتقليدية نموذج عمق عادة ما يكون 40 ساعة أو أكثر المجاميع ، ونسبة الخطأ سيكون أقل. ولكن هذه الأداة لأولئك الذين يفتقرون إلى المثول كافية، فإنه لا يزال من المفيد جدا.
يذكر مؤلفين آخرين بعض الحيل، ويمكنك المساعدة في تحسين القدرة تعميم هذا النموذج. مثل عمد إضافة بعض الأخطاء الإملائية وعلامات الترقيم، والنطق ومشوهة أو عمدا، من أجل تحسين تطبيق النموذج .
"لا نتوقع أول محاولة للحصول على الصوت المثالي. لتوليد تجعلك راضية عن النطق والتجويد، قد تحتاج إلى الاستمرار في المحاولة."
يمكننا استخدام نسخة الويب من هذه الأداة، وتوليد الصوت الخاص بك، عشوائيا الفترة المختارة من تلقاء نفسها أو إدخال النص، انتظر لحظة النقر على زر التشغيل للعب، وسرعان ما ذهب إلى محاولة ذلك!
الروابط المرجعي:
https://fifteen.ai