غوغل والحرس الذكاء الاصطناعي، مصممة خصيصا لالنصف الآخر الخاص

قبل عشر سنوات، بدأ الذكاء الاصطناعي لتظهر في حياتنا. الآن، ونحن نضحك سيري بمثابة متعة. تخيل مدى السنوات القليلة المقبلة، من المتكلم الهاتف الجليدية، إذا كنت قادما من لطيف ولكن أيضا من صوت صديق / صديقة، وكنت قد فكرت في الحب؟ الآن، مع تطور الساخن فريق AlphaGo جوجل DeepMind العالمي، مصممة خصيصا لالنصف الآخر الخاص بك لك مثل.

في الواقع، منذ الولادة وحتى هراء الثرثرة، الذين اعتادوا منذ فترة طويلة لهجة وأنماط الصوتية للغة البشرية، طالما كان هناك أي تلميح من ينحرف الصوت من وعينا "طبيعية" لغة سنكون التعرف على الفور. لهذا السبب كانت المطورين حقا خطاب الصوتية إلى نص هو مهمة صعبة للغاية. ولكن الآن، وفريق البحث DeepMind AI جوجل عن طريق تغيير نماذجها تعلم آلة، الحل الناجح لهذه المشكلة، وإظهار نتائج علمية مذهلة على "WaveNet" منصة.

في التفاعل بين الإنسان والحاسوب والتعرف على الكلام آلة، جعلت جوجل وغيرها من شركات التقنية تقدما هائلا. ومع ذلك، للتأكد من أن الجهاز كصوت الإنسان أن يتكلم بشكل طبيعي على نحو سلس، وآلة التعلم وقد تم حتى الآن مشكلة كبيرة.

حتى الآن، أكثر من نص القراءة (النص إلى كلام، TTS) تستند النظم على ما يسمى تقنيات الصوت الربط، التي تعتمد بشكل كبير على مجموعات الكلمات من قاعدة البيانات شريحة الكلام. وذلك لأن قاعدة البيانات سوف ينتج الكمال، التي تسببها طفرات في الكلام أو علامات الترقيم أخطاء وغيرها من القضايا، ليبدو غير طبيعي.

DeepMind هو الموجي الأصلي النمذجة المباشر للغة البشرية في تغيير طريقة الخطاب التوليف. على منصة WaveNet، وهذا يمكن أن يكون وسيلة متقدمة أي نوع من تركيب الكلام، والموسيقى حتى.

في الواقع، فإن الموجي الأصلي الموجي خطاب الإنسان إلى نموذج المباشر هو مهمة صعبة للغاية، والتي لتعلم الآلة، ولا شك، يشكل تحديا كبيرا.

في عملية النمذجة، كل احتياجات الثانية الذي يتعين القيام به الآلاف التنبؤ لفي المرة القادمة، وتستند معظم التوقعات بشأن نتائج في وقت مبكر. DeepMind باستخدام تقنية الشبكة العصبية، وتدريبهم مع الموجي صوت الإنسان، GIF المتحركة أدناه، يمكنك رؤية متعددة المستويات الشبكة الحاسوبية لتقدير التوزيع الاحتمالي للصوت، ثم يأتي إلى الصوت الناتج النهائي.

متعدد المستويات الشبكة الحاسوبية لتقدير التوزيع الاحتمالي للصوت

وبمقارنة الصوت الناتج، وجد فريق DeepMind أن خطاب الاصطناعية ولدت الصوت WaveNet الحصول على أكثر واقعية من الأساليب الأخرى. حتى لWaveNet، حتى إذا كان هناك أي إدخال النص، والشبكة العصبية يمكن الحصول على إخراج الصوت المطابق.

ولكن بعد ذلك تسمع الهذيان آلة، يبدو وكأنه شخص ما قائلا كنت قد سمعت أبدا لغة. ثم إذا كنت تستخدم البيانو الكلاسيكي بدلا من صوت الإنسان إلى القطار، "نخر" صوت مثل هذا الجهاز سوف تصبح محمومة ولكن متعة قطعة من الموسيقى.

كل احتياجات إخراج الصوت الثاني الذي يتعين القيام به الآلاف من توقعات مرات

في الموقع الرسمي DeepMind: الشبكي: على //deepmind.com/blog/wavenet-generative-model-raw-audio/، يمكن أن تسمع أكثر من الكلام والموسيقى عينات الاصطناعية. المقبل سنوات قليلة، وهذه سوف تكون أساس لغة الآلة تجاه الإنسانية.

حصري | مقال واحد لفهم خوارزمية التحسين

تسريع تغيير جيل، المستعملة النقالة الروابط التجارية الهاتف تحليل | 36 البحوث الكريبتون

الدوري الاسباني مشهد غريب! وكان هدف المعارضين الحقيقي 5 دقائق في مهب مرتين، VAR فارغة فعلا الغرفة

حصريا | مايكل I. الأردن أحدث المحاضرات تسينغهوا!

الدوري الالماني مشهد مثير للاهتمام! المهاجم الياباني ضرب المرمى الخالي، والكرة هي في الواقع سدت الثلوج خطوط الباب

حصريا | تطبيقات بيئة البيانات الكبيرة والآفاق

الفقراء والضعفاء والبائسين! حضانة فقط كسل الطفل عند الولادة تم رفض الأم الحقيقية

حصريا | انغ هاى فنغ، والحديث بايدو الأول حول التخطيط الاستراتيجي لمنظمة العفو الدولية (PPT تنزيل)

نسخ إلى الموقع على دراية! 4 الدوري الممتاز عمالقة فقط فازوا، 1 نقطة فقط من أول ثلاث

وتركز الاتصالات بث وكالة أنباء شينخوا وهان: نمط الشعبية الريفية التقاليد العائلية تعزز تنشيط الريف

92 دقيقة لادراك التعادل تقاليد موجة العالم! سانه قبضة للاحتفال الدوري الممتاز عمالقة تجنب الحرج من 1

سوفت بانك استثمرت 1000000000 $ الشركات المبتدئة الأقمار الصناعية، ظهرت المنافس النهائي المسك