كيف التعرف على الكلام التكنولوجيا لاختراق؟ Sogou تمضي في طريقك من مزيج من الصوت البصري

الجانب: متعدد الوسائط تقدم إعادة تحديد الهوية، سوف Sogou جامعة تسينغهوا مشتركة سليمة التكامل البصرية، وتحسين نتائج التعرف على الكلام، وقد تم قبول ورقة ICASSP2019.

هناك فيلم الخيال العلمي مثل "لها" مساعد الظاهري (صديقته)، وربما هو رؤية أفضل من الذكاء الاصطناعي، على الرغم من أن ذلك اليوم قد يكون بعيد المنال.

ولتحقيق هذا الاختراق التكنولوجي منذ بضع سنوات في صناعة أكثر تركيزا التفاعل الصوتي من كل مشكلة، وخلال العامين الماضيين، بدأت في محاولة بعض رواد التقنية الطريقة الصوتية، المرئية والمعلومات النصية تركيبة من هذا القبيل (أي متعددة الوسائط) لتعزيز البشرية التفاعلية ترقية التكنولوجيا، وأصبح التفاعل المتعدد الوسائط الأوساط الأكاديمية والصناعة موضوعا ساخنا.

Sogou هو أيضا رائدة في مجال تكنولوجيا التفاعل متعدد الوسائط، في عام 2017 بدأت لاستكشاف تكنولوجيا التعرف على الشفاه، وعرض في 2018 يجمع مرساة الظاهري، مؤخرا معهد بحوث جامعة Sogou السماوية تسينغهوا نشرت بشكل مشترك "نهاية انتباه أساس مشروط ل إنهاء الصوتية والمرئية التعرف على الكلام "أطروحة في مجال تحديد متعدد الوسائط خطوة أخرى نحو التكامل التعرف على الكلام والصوت البصرية إلى العمل معا لتعزيز تأثير، وتضمن أعلى الصوتيات في العالم، والكلام ومعالجة الإشارات الجمعية ICASSP2019.

التفاعل من الخطاب الأولي للاعتراف الشفاه، الترجمة الآلية، والبحث الكلب استنساخ (مرساة الاصطناعية)، إلى الهوية البصرية الصوت، Sogou يمكن وصف هذا التقدم التكنولوجي في كل خطوة، وهذا ما تدعمه الكلب البحث في "التفاعل الطبيعي + علم الحوسبة" تحت هذا المفهوم، مشاكل تقنية سيكه، تفاعل الناس والحاسوب أكثر طبيعية وفعالة.

طريقة أخرى للالتعرف على الكلام في البيئات الصاخبة

مع تعزيز تنمية منظمة العفو الدولية ورئيس ذكاء، وأصبح التفاعل الصوتي تدريجيا ذكي مستوى الأجهزة. كحلقة رئيسية أمام التفاعل الصوتي، وكان التعرف على الكلام أيضا التطور السريع في السنوات الأخيرة، يمكن أن العديد من الشركات تحقيق معدل الاعتراف من 98 أو أكثر في بيئة هادئة. ومع ذلك، مرة واحدة داخل المشهد الضوضاء، ودقة التعرف على الكلام ستقل كثيرا.

على الأجهزة الذكية، وسيلة السائدة في هذه الصناعة هو من خلال معالجة الإشارات ميكروفون مجموعة، بالطريقة الصعبة للقضاء على الضوضاء، ولكن عندما بيئة معقدة الكثير من الضوضاء، والتعرف على الكلام، هناك اختناق كبير.

منظمة العفو الدولية لا يمكن ان تمر سيلة بصرية لحل هذه المشكلة، وخاصة في البيئات الصاخبة، ستصبح البصري المعدل الفعلي دقة التعرف على الكلام التعويض؟ لأنه لم يؤثر على طريقة تحديد البصرية من الضوضاء المحيطة في بيئة صاخبة، حتى لو كان الناس لا يمكن أن تسمع كل الكلام الآخر، ويمكن الاعتماد على شفة عموما فهم معنى المتكلم.

ولهذا الاعتبار، شركة Sogou ومعهد جامعة تسينغهوا السماوية الصوت وسيلة بصرية للبدء في محاولة الجمع بين العام الماضي، وهي لهجة البصرية تحديد متعدد الوسائط لتحسين التعرف على الكلام.

قدم وفقا Sogou، والأوراق البحثية التكنولوجيا من المشروع ليلقي في مجرد 4-5 أشهر الماضية، وسبب التقدم السريع، وترتبط ارتباطا وثيقا مع كلاب البحث في التعرف على الكلام والتعرف البصري في مجال التراث.

في عام 2016، بدأ البحث الكلب القيام صوت تركز على التفاعل بين الإنسان والحاسوب، والتعرف على الكلام المتراكمة، فهم الدلالات، الترجمة الآلية، تركيب الكلام والصوت تكنولوجيا صلة كاملة.

في نهاية عام 2017، لإطلاق عملية بحث الكلب "التكنولوجيا السوداء" تقنية التعرف على الشفاه، الذي كان يقود هذه الصناعة. في ذلك الوقت الشفة الاعتراف اللغة اليومية يمكن تحقيق 50 إلى معدل دقة 60 للتعرف على كلمة القيادة يمكن أن تصل إلى 85 إلى 90، وقدمتها في وقت سابق اعتراف الشفاه من الاحتياطيات الفنية.

هذه المرة، حقق Sogou النتائج الأولية للمتعددة الوسائط السمعية تكنولوجيا التعرف البصري، يحدد اثنين الرئيسي القائم على تقنية التعرف على الكلام والشفة. "من خلال الجمع الفعال على حد سواء، قد تكون في بيئة صاخبة، و 30 أو أكثر من دقة التعرف على الكلام"، يقول المدير الفني تشن Sogou مركز صوت التفاعلية.

تعزيز مشروط الاهتمام تأثير الاعتراف

ولتحقيق صوت التعرف بصريا طرائق مختلفة من التكامل السهل، وذلك لأن الفرق كبير بين خصائص الصوت والرؤية. ولصق بسيط وطرائق اثنين يسبب فقدان المعلومات، يقتصر المعلومات البصرية إلى تحسين المعلومات السمعية. اقترح Sogou اهتماما طريقة مشروط، حيوي المعدل على أساس أهمية دمج المعلومات من طرائق مختلفة للحصول على التكامل أكثر قوة من المعلومات.

معهد بحوث السماوية من جامعة تسينغهوا، ويوضح تشو الأمل، في عملية دمج المعلومات السمعية والبصرية اللازمة لحل مشكلتين، الأولى هي صوت مشكلة المعلومات البصرية من عدم المساواة في طول، والثاني هو عدم مساهمة أي ما يعادل المشكلة.

على وجه التحديد، والأصوات المختلفة، وتردد البصري أخذ العينات في السلسلة الزمنية، بشكل عام، إلى عينات صوتية 100 في الثانية و 24 لقطة في الفيديو الثاني. الصوت وهوية بصرية تحتاج أولا هذه 100 و 24 تتماشى، هذه الانصهار المعلومات للاثنين معا لاتخاذ قرار. للإشارة مسموعة ومرئية متزامنة، على الرغم من أن كلا يمكن أداؤها وفقا لنسبة معدل الإطار تتماشى إلى حد كبير مع، أو upsampling، فإن طريقة الاختزال أصبح كل من نفس الانصهار معدل الإطار، ولكن هناك بعض فقدان المعلومات. للا تتم مزامنة الإشارات الصوتية والمرئية، يصبح محاذاة أكثر صعوبة.

مشكلة أخرى هي أن مساهمة لا يعادلها. للتعرف على الكلام السمعية والبصرية، في بيئة هادئة يجب أن يكون الصوت المهيمن في البيئات الصاخبة مقارنة بمساهمة معلومات الفيديو في بيئة هادئة يجب ترقية دليل. ومن الضروري وفقا لنسبة مساهمة البيئة لضبط حيوي الصوت والفيديو.

إنهاء الصوت نموذج الانتباه البصري مشروط بحث الكلاب المقترحة المعلومات الصوتية والفيديو يمكن أن تكون فعالة الانصهار، ثم اعتمادا على البيئة، وضبط حيوي اختيار كهدف الفيديو أو الصوت الاعتراف الرئيسي، وبالتالي الحصول على نتائج التعرف على أفضل. على وجه التحديد، والسياق السمعية والبصرية من ناقلات الحصول في الوقت المقابلة لكل فك كتبها الاهتمام التقليدي (المعروف باسم محتوى الانتباه) من الطبقة الأولى. في كلا السياقين يتم محاذاة محتوى ناقلات مع بعضها البعض، والذي يحل أيضا مشكلة محاذاة المعلومات طول غير المتكافئة المذكورة أعلاه. تتألف يتم تحديد مساهمة مشاكل مختلفة، فوق، وذلك باستخدام انتباه الطبقة الثانية، أي، إلى وضع التركيز وفقا لصوت ديناميكي وتحديد البصري للمساهمة الأوزان الانصهار الثقيلة من وضعي، والمعلومات البصرية الصوت والحصول على سياق ناقلات التكامل.

في تجريبي، والكلب البحث لمحاكاة الهدوء ومترو الانفاق، وغيرها من اللوبي البيئي ويتيح التعرف على الكلام، والشفتين الاعتراف اللغة، يعترف ثلاثة نماذج مختلطة.

يمكن أن يلاحظ في بيئة هادئة ودقة التعرف على الكلام التعرف على الكلام أعلى من الشفة، في البيئات الصاخبة (مترو)، الشفاه أعلى بكثير دقة التعرف على التعرف على الكلام. في وضع الاعتراف الهجين، فمن الممكن لتحقيق أقصى قدر من الأداء الاعتراف.

على سبيل المثال، Sogou الباحث يانغ وينوين نمط مختلط الاعتراف في المشهد صاخبة للقيام العرض، ويقول "نداء أبي"، يمكنك معرفة ما إذا كان التعرف على الصوت أو الشفتين تحديد كافة الأخطاء، والانصهار العضوي بين الاثنين، والتي تبين نتائج تحديد دقيقة.

تسويق المستقبل يمكن أن يكون

من حيث الكلمة التجاري، وقال تشن وي أن Sogou قد يؤدي إلى البصرية تكنولوجيا التعرف على الصوت لمحاولة القيام على طريقة إدخال Sogou، هذا العام قد يشهد بعض النتائج. كما بحث الكلاب هي أيضا عدة مستودعات والتعاون، والقيام بنشاط الصوت الهبوط تكنولوجيا التعرف البصري.

النظر في السيناريو الحالي، سواء كانت الأجهزة الذكية، أو تقنيات عمليات ميدانية المنزل الذكي، وتأثير صوت بسيط هو في الواقع ليست مثالية، لمجرد الاعتماد على الأجهزة لتعزيز تأثير التعرف على الكلام في بيئة معقدة من الطريق أيضا واجهت بعض العقبات. في هذا الوقت، وذلك باستخدام الصوت البصرية تكنولوجيا التعرف المتعدد الوسائط قد تكون قادرة على التأثير مع AI التقليدية إلى مستوى جديد، وذلك لخلق مزيد من القيمة التجارية.

NIKE بالقرب جولات لون قوس قزح، وهذه أربعة أزواج من التحديثات لا يمكن تفويتها!

وقال "حصة أبي" بريمج الاتحاد الاوروبي لارسال المنزل على خط المحامين الانتهاكات المزعومة للقانون الإعلان

أسعار السيارات المذكورة 18.1 مليار وون في العام الماضي، ودعم الحكومة، وبعض الشركات الغش حتى كانت العاصفة المحاصرين

تضيف ما يصل الى سبع لغات الكلام وي شين V الثلاثي لأول مرة لمشاهدة العرض قبل تحدثنا مع ماذا؟

الأظافر يمكن أن نفكر فقط من "كم هيون آه الرياح" ذلك؟ النجوم الثلاثة الملكة مانيكير تعطيك إلهام جديد!

"يوهو LITTLE!" الصيف | نرى حفنة من "الأطفال القوات الجديدة" كيف يؤثر على العالم

صور علي فقدان ضاقت ما يقرب من 10 مليار يوان في محتويات تعديل السياسات

وظائف إيماك "جنح الظلام"! ؟ القصر الصيفي تي شيرت وكذلك المال خفية

الأحذية 4D؟ ! PUMA أحدث RS-X "البعد الرابع" الابتكار كله!

حلم xBABY-G! الطفولة مشتركة آلة بدوره الكلاسيكية!

ما تنتظرون؟ FEAR OF GOD 19SS منتج واحد جديد أدعوكم إلى "الحصول على متن القطار"!

في نهاية هذا الاسبوع ينتمي إلى متحف، وكيفية قضاء؟