استخدام الصوت لإنشاء "صورة"، كيف صوت ذكي يسرع تطبيقات الأعمال عبر الكلمة؟

صيد الشبكة السحابية [بكين] 31 أكتوبر التقرير (نص / لو حلم)

بالنسبة لمعظم الناس، وغالبا ما تأتي في اتصال مع استخدام تكنولوجيا تركيب الكلام (TTS، تحويل النص إلى كلام) هو خريطة أخلاقية عالية في حركة المرور تشى لينغ شقيقة البث الصوتي. بعد بيان ثابت الأساسية الصوت آلة تسجيل للناس على محاكاة فهم عملية اللغة الطبيعية، ومن ثم التخطيط للالكلام المركب ميزة المجزأ، يمكن أن الكلام المركب التعبير الصحيح، والناتج الدلالي صوت الماضي، والعملية برمتها هي مماثلة ل" الرمز، مطابقة المعلومات، فك ".

بالإضافة إلى الملاحة الصوتية على متن، وقراءة مثل هذا الصوت معبرة جدا يحتاج لتعكس مشاهد الآن أن تطبق أيضا على تقنية تركيب الكلام.

وفي يناير كانون الثاني سوف CCTV بث فيلم وثائقي باستخدام تقنية تحويل النص إلى كلام لمحاكاة صوت الإنسان يطلق عليها اسم أول "الابتكار الصين". ومن هو صاحب صوت المذيع الشهير الراحل، صوت الممثل، فنان لغة لى يى. وقدم "إعادة اكتشاف نهر اليانغتسى"، "قصر الشوق"، "الصين الجميلة"، "كوكب الإنسان"، "الطيور المهاجرة" والعديد من الأفلام الوثائقية الأخرى يصفه. عن طريق التكنولوجيا خطاب التوليف، AI محاكاة بنجاح صوت لى يى، أنجزت الفيلم الوثائقي الدوبلاج التعليق.

وهكذا، للتخلص من آلة ميكانيكية الخطاب الأصلي، وكأنه شخص حقيقي له عظيم التعبير العاطفي، والصوت الواثق، ليس فقط اتجاه تطوير التكنولوجيا خطاب التوليف، ولكن أيضا واحدة من الصعوبات - نفسه، ولكن أيضا اختبارا لتكنولوجيا خطاب مختلف التوليف مزودي خدمة البيانات.

للتفاعل صوت ذكي، وأهمية المشهد أمر بديهي. الذي يمكن أن تعطي أكثر شخصية ومعبرة صوت، الذي سيكون قادرا على التكيف مع المشهد تكنولوجيا غير موحدة، للفوز في المستقبل سوق صوت ذكي. في السنوات الأخيرة، وشنت عمالقة تكنولوجيا الصوت الخاصة بهم تكوين البرنامج "حسب الطلب".

أبريل 2017، وجوجل في مختبر الذكاء الاصطناعي (MILA) التي وضعتها جامعة مونتريال، كندا، أنشئت الشركة Lyerbird، التي أنشئت في بداية Lyerbird لإطلاق مجموعة من "مجرد عينات دقيقة الصوت، ونحن يمكن أن يقلد أي شخص يتحدث" النظام؛ مايو من هذا العام مؤتمر بناء 2018 ومايكروسوفت على منصة سحابة العامة لإطلاق تركيب الكلام المنتجات خدمة مخصصة صوت العرف، والصوت يمكن محاكاتها، واختبار محاكاة على الانترنت.

في الصين، IFLYTEK أيضا في نوفمبر تشرين الثاني أطلق العام الماضي نسخة تجريبية تسمى "iFly البقاء سليمة". وتفيد التقارير أن IFLYTEK الصوت يحتاج فقط 10 جمع الصوت لاستكمال صوت الشخصية محفورة، جمع مبلغ واحد في المئة فقط من متوسط الصناعة (أقل بكثير من ألف وخمسمائة والصناعة مايكروسوفت).

ما يقرب من ألف ساعة من التراث البيانات الصوتية، لخلق تنوعا "يعرب عن سوبر ماركت"

بدء الشركات هي أيضا جزء من حقل كما تم تخطيط TTS، على سبيل المثال، تأسست في فبراير 2016 مثلت تقنية بوى.

على امتداد سلسلة صناعة الكلام بين التكنولوجيا قذيفة قياسية لتوفير بيانات تركيب الكلام والصوت ، حيث تشمل مكبرات الصوت ذات التقنية العالية تركيب الكلام واختيار وتصميم جسم، واقتناء الكلام، ومعالجة البيانات والصوت وتجهيز خطوة العمق.

وقال معيار بوى تقنية CTO والمؤسس المشارك لي Xiulin في مقابلة مع صيد الشبكة السحابية في مقابلة "عمالقة التكنولوجيا لديها القدرة على استكشاف التكنولوجيا المتقدمة، ونحن نكن احتراما كبيرا لإنجازاتهم، ولكن أيضا تتفق إلى حد كبير مع الانتاج الأكاديمي، ولكن من الأكاديمية إلى الصناعية أيضا هناك مسافات طويلة، وبعض الأشياء سوف تبقى دائما على الورق، وبدء الشركات ميزة هي أن صلاحية المنتجات المهندسة، من خلال الابتكار التكنولوجي لدينا مستمرة في التحسن ولا سيما على مستوى التطبيق ".

دعونا نستمع إلى بعض خدمة العملاء الذكية والحوار المستخدم:

وكان مايو 2018 تقنية قياسية توني لحلول تقنية ذكية لخدمة العملاء خطاب إطلاق التوليف . لي Xiulin نعتقد أن مناطق خدمة العملاء مع نقاط الضعف واضحة، "مثل العديد من الشركات الكبرى تميل إلى أن عشرات الآلاف من خدمة العملاء الاصطناعية، وبضع مئات حتى تلقى المكالمات الهاتفية من جميع أنحاء البلاد تونغ كل يوم. فمن جهة لا تزال تكاليف الشركة لزيادة، من ناحية أخرى ، ويرجع ذلك إلى طبيعة العمل نفسه، وموظفي خدمة العملاء في كثير من الأحيان تحت الضغط النفسي الكبير ".

كما أنه يجعل خدمة العملاء وغالبا ما يتطلب فترة تدريب طويلة، وضعف التسويق حدثت قضايا التنقل مثل الموظفين.

ووفقا للبيانات الإحصائية التي أبلغ عنها الشركات الصينية، والصين في السنوات الأخيرة عدد من أصحاب المشاريع الصغيرة والمتوسطة لتنمو بمعدل شهري بلغ 300،000. ومن المتوقع أن 2019، فإن عدد الشركات الصغيرة والمتوسطة في البلاد تصل إلى 39400000. مع التطور السريع لعدد من رجال الأعمال الصغيرة والمتوسطة المحلية، والسوق المحلية لا تزال خدمة العملاء وزخم النمو التنمية، الذي مراكز الاتصال حجم السوق وخدمة العملاء عبر الإنترنت في 2019 سوف تصل إلى 132700000000 و78800000000 التوالي.

وفي مواجهة هذا حجم سوق ضخمة، لي Xiulin على ما يبدو، إلى المؤسسة، وذلك باستخدام خدمة العملاء الذكية بدلا من القيام بذلك، والعائد الاقتصادي واضحة للعيان - إذا كانت التكنولوجيا التوليف الصوتي العناصر الأساسية "المختصة" لهذا العمل، لذلك يمكن القيام به الكثير من المحادثات الصوتية موحدة المتكررة من خلال خدمة العملاء الذكية، والحد بشكل كبير من تكاليف العمالة من الشركات .

وبالإضافة إلى ذلك، ومجتمع المعلومات اليوم كشركة خدمة العملاء وجزءا هاما من المستخدم للاتصال مباشرة يؤثر على صورة الشركة بشكل عام. في هذا الصدد، ورجال الأعمال المزيد والمزيد من الاهتمام لبناء وتطوير مركز خدمة العملاء.

"على وجه الخصوص، ونوع المحتوى الإخطار، أو تعزيز الأعمال التجارية من خلال خدمة العملاء عبر الإنترنت لترويج المنتجات من هذا المشهد واضح نسبيا، وهذا هو، 'يقول'، 'الاستماع'، 'الجواب'، كلمة التكنولوجيا التوليف لتوفير الهبوط جيدة فرصة، "لي Xiulin اقول صيد الشبكة السحابية.

في حالة التكنولوجيا هي نفسها تقريبا، ونوعية النتائج النهائية للTTS هو جزء لا يتجزأ من بيانات دقيقة وغنية ذات جودة عالية التدريب الصوتي. بشكل عام، من قبل إعداد، والعثور على شخص ما، والعثور على موقع التسجيل، تسجيل، وتصفية البيانات، ووضع العلامات وتصبح في نهاية المطاف "يمكن استخدام البيانات"، قد يستغرق ثلاثة أشهر على الأقل.

من أجل خلق صوت عالي الجودة، مما يسمح للمستخدمين لتشكيل الصوت مثل "لزجة"، قبل تميزت-بوى تقنية لتصميم جسم الغنية، والاتصال مع الكثير من الجهات الفاعلة صوت، يرشدهم من خلال صوت جمع، ثم بعد معالجة الصوت متعمقة.

معالجة البيانات الإحضار التقليدي اليدوي معيار غرامة ويتطلب الكثير من القوى العاملة، والتكنولوجيا هو استخدام تقنيات التعلم قذيفة عمق القياسية، قبل معالجتها باستخدام برنامج كمبيوتر، ومن ثم تصحيحها في وقت لاحق من جهة، وتحسين كبير في كفاءة العمل، وحماية ومعالجة البيانات دقة.

وفي الوقت تعيين ما يقرب من عامين، التي تراكمت لديها التكنولوجيا قذيفة القياسية، بما في ذلك أنواع كثيرة من النص والصوت وغيرها من المثول البيانات، ويوفر عددا كبيرا من خدمات البيانات لأكثر من شبكة الإنترنت المنتجات AI العملاقة.

في عرض قدم مرة أخرى بعد تكوين البرنامج هذا الخطاب التوليف، تنقيبها فريق قذيفة القياسية الخاصة لموارد الجهات الفاعلة جودة الصوت، وتحسين، "ما يعادل نظام خدمة العملاء لدينا مخصصة لمجموعة قاء على غرار العملاء من الحلول الكلام المركب "قال لى Xiulin، يمكن للعملاء اختيار احتياجاتهم الخاصة والمنتجات موحدة أو تخصيصها وفقا لمكان الحادث، وسيتم وضع علامة توني عن طريق خدمة العملاء المهنية لجعل توليفها المكتبات خطاب الإحضار، لتوفير تقنيات واجهة API مثل وضع لرسو السفن، ونظام لرسو السفن يمكن المستخدمين من رجال الأعمال الصادرة تلقائيا من مصادر متعددة .

وفقا لسيناريوهات الاستخدام المختلفة، نظام ذكي لخدمة العملاء في مجال تكنولوجيا قذيفة القياسية، بما في ذلك خدمات الأعمال، والتمويل، والتأمين، التعليم والتدريب، ومقدمي الخدمات اللوجستية والكهرباء، والاتصالات عبر الإنترنت، بيع العقارات وغيرها من الصناعات، Q & A، تسجيل، المكالمات الصادرة استباقية، والتذكير، والتسويق تعزيز وغيرها من الخدمات على الخط الثابت والأجهزة النقالة، وكانت الحلول المستهدفة.

وقال "لقد أكدنا دائما التكنولوجيا تركيب الكلام هو التعبيرية وجانبية إنسانية، ولكل منها صوت صورة خاصة بهم، والذي يسمح للمستخدمين لإنشاء لزجة" قال لى Xiulin. "وهكذا، أدخلنا أيضا 'صوت AI سوبر ماركت "، من خلال الإحضار واسعة لتلبية احتياجات مختلفة من مختلف حلول المشاريع المخصصة".

ووفقا للبيانات التي حصلت عليها شبكة سحابة الصيد، في شروط مكتبة الصوت حسب الطلب، فإن S & بوى التكنولوجيا توفر بنجاح المستخدمين مع 150 ساعة من مكتبة الصوت مشاعر الإناث الصينية، و 350 ساعة من مكتبة الصوت الصينية الإناث، و 100 ساعة من مكتبة الأولاد الصوت، 80 ساعة في مكتبة صوت الكانتونية، 50 ساعة الإنجليزية الأمريكية الإناث صوت مكتبة الصوت و40 ساعة قاعدة بيانات خطاب توبي، 40 ساعة تقليد الأطفال قاعدة بيانات الكلام، 30 ساعة قاعدة خطاب الأطفال، 20 ساعة قاعدة بيانات خطاب البرتغال، 20 ساعة مكتبة تايوان الماندرين و 10 ساعة اليابانية، 10 ساعات الكورية و 20 ساعة مكتبات نجوم صوت غير المخصب والبنك باستمرار وتتراكم في .

وفي الوقت نفسه، S & بوى تقنية كما يقدم مكتبته الصوتية الخاصة، أصوات الذكور والإناث الصينية، الإنجليزية الأمريكية أصوات الذكور والإناث، والأطفال، والكانتونية والتايوانية وبورز واليابانية والكورية وغيرها من صوت ومكتبة شخصية، يمكن لعملائنا الآن استخدام مباشرة الحل الشامل.

2015، لي Xiulin في بايدو خلال فترة ولايته، وقال انه قاد الفريق لتنفيذ المشروع على توليف من العاطفة، وتخصصت في قناة الخيال بايدو، ستة أشهر فقط أو نحو ذلك، انها حققت انجازا كبيرا في خطاب التوليف كفاءة التصنيع، والنتائج التوليف. بحلول عام 2016، وانضم إليه بعض الشيء، صوت الحالي قطرات قائد فريق معهد والخوارزميات مهندس كبير للمساعدة في فتح السفر في قطرات المجالات ذات الصلة الخدمات الصوتية.

جنبا إلى جنب مع أكثر الخاصة بهم من السنوات العشر من الخبرة في مجال تكنولوجيا خطاب التوليف، اعترف العاملين في الصناعة أيضا أن خدمة العملاء الذكية الحالية، "اشتكى" هذا الجزء هو أكثر صعوبة لتحل محلها الذكاء الاصطناعي. "بشكل عام، وشكاوى العملاء هي مع العاطفة، ومجزأة الارتباك لغة، فإنه لا يزال يعاني بعض الصعوبات في تحديد الجهاز،" ولكن لي Xiulin نعتقد أن "TTS الأساسية ليست محدودة، ولكن القيود التي تفرضها NLP".

NLP أي NLP (اللغة الطبيعية عملية، NLP)، يشير إلى تشكيل اللغة الطبيعية، والصوت والمعنى المعلومات التي تتم معالجتها بواسطة جهاز كمبيوتر، أي إلى كلمة، والكلمات والجمل وإدخال النص والإخراج، وتحديد وتحليل وفهم تجهيز توليد وغيرها من العمليات.

A التفاعل الصوتي الكامل ينطوي على سلسلة تكنولوجيا معقدة للغاية، بما في ذلك تجهيز الصوتية، التعرف على الكلام، تركيب الكلام والدلالي التكنولوجيا الأساسية فهم. أساس الصوتية والكلام الكمبيوتر حل الاعتراف ب "سماع" المشكلة، NLP هي حل الكمبيوتر "فهم" المشكلة.

واشار لى Xiulin خدمة العملاء "الشكاوى" في اللغة من المشاكل الفوضى المنتشرة، ولكن أيضا لا يمكن فصله عن NLP التكنولوجيا "WSD."

آلة كلمة تجزئة، POS العلامات، وبعد تحديد الهوية، والحاجة لفهم الكلمات المختلفة. لأن اللغة هي في كثير من الأحيان تعدد المعاني، متى يفهم الناس على أساس المخزون الحالي من المعرفة والسياق، ولكن الجهاز يصعب تحقيقه. على الرغم من أن نظام من شأنه أن يجعل التحليل النحوي الجملة، يمكن للآلة أن تساعد إلى حد ما على فهم معنى ودلالات، ولكن الوضع الفعلي ليست مثالية. هذا هو السبب في أن الحاجة إلى جولات متعددة من التفاعل من المشاكل المعقدة والجوانب العاطفية استرضاء، وخدمة العملاء الذكية هي أيضا ليست بديلا لأسباب مصطنعة لخدمة العملاء الحالية.

وبالإضافة إلى ذلك، المنتجات الذكية هي واحدة من المتحدثين المشاركين في اتجاه الأعمال من التكنولوجيا قذيفة القياسية. في أغسطس، ذيل الثعلب الذكي تقنية أطلقت الذكية رئيس HE العنبر الحياة الافتراضية على أساس محرك الذكاء الاصطناعي Gowild (أعطى) وتكنولوجيا العرض الضوئي الثلاثية الأبعاد، التي يمكن أن تغني وتكون قادرة على الحديث عن "العنبر أخت صغيرة،" تم وضع علامة على صوت بقذيفة TTS التكنولوجيا المقدمة.

واضاف "اعتقد صوت شخصية هو اتجاه قيمة للغاية، كل صوت هو سمة من مختلف الماركات، وشركات الخدمات وغرفة التجارة يستخدم أصوات مختلفة تبعا للحالة وخصائص المنتج، وهذا الصوت قادر على ' إنشاء "صورة فريدة من نوعها"، من أجل خلق صوت عالي الجودة، مما يسمح للمستخدمين لتشكيل الصوت مثل "لزجة" والتكنولوجيا توني القياسية للبيانات ملحوظ في كل خطوة من عملية تخضع للرقابة الصارمة، لي Xiulin أن "يمكن الذكاء الاصطناعي ليس فقط الصفقة التسمية بسيطة، ولكن أيضا لتركيب في وقت متأخر، من خلال الوسائل التقنية لتعزيز دقة النهج النهائي إلى الصوت الحقيقي للدولة ".

أطلقت "سريع اليوم للاستماع إلى" استخدام "الصوت" لاستكشاف متعددة المشهد صوت تجربة تفاعلية

مع ارتفاع الأجور المعرفة والتنمية الكاسيت في الخط السريع، يمكن للمستخدم الاستماع إلى جميع أنواع الموقع الجغرافي الأخبار غير مقيد من خلال الهواتف المحمولة ومكبرات الصوت الذكية في أي مكان، والمحتوى الصوتي. لذلك، بالإضافة إلى خدمة تركيب الكلام، وذلك لجعل تجربة المستخدم في أقرب وقت ممكن لكلمة التكنولوجيا التوليف، وضعت معيار بوى تقنية أيضا البرنامج القائمة على التكنولوجيا خطاب صغير التوليف - للعلوم والتكنولوجيا بث الأخبار، "الاستماع سريع اليوم" .

في الوقت الحاضر، واليوم هو الاستماع بسرعة كانت تطبيقات عدد من وسائل الاعلام تكنولوجيا الالتحام المحلية في الوقت الحقيقي. من الساعة 6:30 صباح كل يوم، في اليوم في الوقت الحقيقي تحديثات طليعة العلوم والتكنولوجيا، والتمويل، والنقاط الساخنة الاجتماعية مثل الأخبار. الانتقال الوقت، يمكن للمستخدمين الاستفادة الكاملة من شظايا من الوقت الاستماع إلى أخبار ساخنة.

هذه الواجهة الصغير أساسا الأسود والأرجواني لون الديكور التدرج، دائرة كبيرة ودائرة صغيرة في أسفل الواجهة الرئيسية التدرج الأرجواني محور مرتبة عموديا في أسفل 5 أزرار متناظرة، مدمجة وخفيفة الوزن، SCIENCE الرياح الكامل في نفس الوقت، ولكن أيضا أنه يجمع بين العناصر الجمالية الصينية.

الجزء السفلي من واجهة رئيسية لديها التعليقات، تقاسم ثلاثة زر الصوت المحدد، جنبا رتبت إلى جنب لقاء عملية بيد واحدة.

من بينها، "تعليقات" زر لجعل تعليقات أو اقتراحات وفقا للجوانب نعومة التطبيق الصغير والصوت، والمحتوى، واجهة وهلم جرا؛ عن طريق "مشاركة"، فإنه يمكن أن يوصي برنامج صغير للأصدقاء إلكتروني الجزئي أو حفظها كما انتشار الصورة؛ " اختيار صوت زر "لقاء عادات المستخدم الذكور، بث صوت الأنثى.

"لقد كانت صناعة صوت نموذجي حقل التكنولوجيا AI، ونحن نعمل أكثر من 10 عاما، ونحن لا يزال يدعي أنه" تكنولوجيا الصوت للقيام "تحتاج الشركات إلى القيام به لجعل الصلبة مجالات خبراتهم، لا مطاردة ساخنة، لأن البقع الساخنة أصبح جيدا خاصة بهم، ثم، يمكن أن تحفز الكثير من النقاط الساخنة الجديدة "، لي Xiulin أقول شبكة سحابة الصيد، وسيقوم فريق استكشاف أيضا في أكثر المشاهد جوانب تقنية تركيب الكلام،" التكنولوجيا المبتدئة الشركات التكرارات بسرعة، ربما وقت قليل أشهر نضع حلول الصناعة بعمل جيد. ثم أنت بحاجة الى فتح مبيعات السوق التجارية، وسيقوم فريق فني الذهاب إلى الرابط التالي، مثل صناعة المحتوى والقيام ببعض إعداد ".

رد أبل ARKit الآن وقد تم مخيم جوجل الروبوت أيضا ARCORE

أبل وجوجل ARKit تهديد الهجوم المضاد هو هذا!

"الحلقة" القوة AI الدقة تسويق وسائل الإعلام الجديدة، وفاز بعشرات الملايين ممتازة مسحوق جولة من التمويل

كنس مهرجان قبر تقترب، ومئات من الطلاب والمعلمين في قوانغهان لشهداء حفظ السلام خطير

لا تدع الحب الانتظار أكثر من ذلك! تكساس مسرح لمرافقة آبائهم لرؤية أوبرا، والحق

لماذا الله مهب المحلي والأجنبي التقييمات القاع؟ لا معيبة هدف وو لي

دخل 76 شخصا على الساحة قبل المباراة الكتب عقد هاريس

أودي A8 سبب الوقوع في الحب؟ هذا نظام الصوت في السيارة

الفريق المضيف الدماغ حفرة الموجات فوق الصوتية جولة فرحة "داش موسى"

اختار 5 أمتار من الأرض إلى السقف من الشرطة تصل امرأة تبلغ من العمر 92 عاما على عقد هذه الأميرة، نعطيه!

فيلم الرجعية: كاميرا 8 ملم

رجل بهدوء إلى رجال الاطفاء الهدايا، ما هو الوضع؟