بديل الاتجاه مدخلات لوحة المفاتيح: التحليل الفني وراء إدخال صوتها

الكاتب شو وانغ يان فنغ

تحرير شو تينا، حلقة خشبية

من مؤتمر Smartisan إلى خطاب Sogou الرئيس التنفيذي السيدة يو وتشن الجمعية العامة، أصبح التعرف على الكلام والترجمة الآلية تكنولوجيا دائرة الضوء. بين عشية وضحاها، ويبدو أن طريقة إدخال لوحة المفاتيح التقليدية ليكون على وشك أن تخريب والتكنولوجيا مدخلات الصوت حقا أن الماشية ذلك؟

ملاحظة المحرر

كما أظهر مؤتمر المطرقة ومؤتمر IFLYTEK المنتجات إدخال الصوت للجمهور، مؤتمر وتشن، الرئيس التنفيذي لشركة Sogou السيدة يو مع اول ظهور له آلة الكلام التعرف على الكلام والتكنولوجيا الترجمة الآلية مع وظيفة نقل. هذه العروض الحية، وإدخال الصوت مباشرة للجمهور من قبل. نشعر الطازجة في نفس الوقت، إلى حد كبير فاجأ أيضا في دقة إدخال الكلام، بل لعله وراء خيالنا.

Sogou، IFLYTEK، بايدو عمالقة المحلية وغيرها من الشركات في إدخال الصوت من المنتجات التقنية لتطبيقات الصناعية، قد فعلت الكثير من الاستكشاف. كيف، إذن، يمكن تبريره من إدخال التكنولوجيا صوت؟ صوت ذكي للحياة اليومية من أي نوع من التأثير؟

InfoQ في أكتوبر، عندما اتصلت، كبير مديري كلاب البحث شعبة سطح المكتب، ومركز البحوث والتكنولوجيا سطح المكتب للتفاعل الصوتي، وانغ يان فنغ. وهو مسؤول أيضا عن خدمات صوت ذكي Sogou والصوت والتكنولوجيا الدلالية لقيادة الفريق لتحقيق صوت قدرات التفاعل الرائدة في القطاع، وتعمل حاليا على المنتج المبتكر لتقنيات الصوت الذكية. أتى هذا المقال من توحيد البيانات المقابلة.

مقدمة

نحن نعرف كل طريقة إدخال Sogou هو المنتج الأساسي في عام 2011، عندما لم يكن صوت في هذه الصناعة كما هو عليه الآن حتى النار، لكنهم يعتقدون إدخال الصوت يجب أن يكون مدخلا هاما للغاية المستقبل. ولذلك، Sogou بدأت توزيع تكنولوجيا الصوت الخاصة بها، وسرعان ما وضعت التكنولوجيا لتحقيق ذلك في غضون عام، في يناير 2012 أول نسخة على الانترنت. الآن ليوم واحد طلب صوت Sogou طريقة إدخال اختراق 190 مليون مرة، هو أولى كبيرة التطبيقات إدخال الصوت.

التنمية حتى الآن، من خلال تقييم يدويا في بيئة حقيقية، وصلت صوت المدخلات معدل دقة 97. وحالة تقييم تواجه عددا من الهواتف النقالة، والنظر في لهجة الشخص والضوضاء المحيطة، في بيئة حقيقية، مثل ماكدونالدز والمقاصف، على جانب الطريق لعمل الفحوصات المقابلة. نتائج اختبار في هذه البيئة، والشركات المحلية القيام إدخال الصوت، IFLYTEK معدل دقة هو أيضا 97

Sogou ظيفة صوت بكفاءة على الخط، والسبب هو أول طريقة إدخال Sogou عن طريق وضع الاحتكار في السوق. Sogou قادرة على جمع البيانات الصوتية المستخدم الحقيقي في كل يوم هناك مئات الآلاف من ساعة، والذي يحتوي على مجموعة متنوعة من المستخدمين تحت ضجيج المشهد الحقيقي، لهجات وهلم جرا، والثاني هو دولة رعت خدمات البحث، وهذا هو السبب في السنوات الأولى، يستطيع أن بسرعة مساعد صوت إطلاق الأسباب.

Sogou ديه مختلف البحث العمودي والمقابلة خريطة المعرفة، مما يساعد على فهم الدلالات كثيرا والحوار. Sogou طريقة إدخال الصوت كل يوم العشرات من مليون PV، وهناك مئات الملايين من عمليات البحث كل يوم، لديه كتلة من البيانات الحقيقية هي الثروة الحقيقية.

كيف صوت إلى نص

التعرف على الكلام Sogou البنية الكلية:

Sogou المستخدمة في عملية التعرف على الكلام السائد. ويمكن تقسيم الاعتراف الكلي الكلام إلى قسمين رئيسيين، وهو الجزء الأول من التدريب، وجمع عدد كبير من صوت، ونماذج صوتية واللغة تدريبهم من قبل أداة التدريب. تدريب النماذج الصوتية تحتاج إلى جمع الكثير من الشرح الصوتي، وتدريب نموذج لغة تتطلب الكثير من النص.

النموذج الثاني هو بتوجيه من المدربين، وذلك باستخدام فك لتحديد إشارة إدخال الكلام، للعثور على التسلسل الأمثل من الكلمات الانتاج نتيجة لذلك. انظر الشكل 3 لمجمل العملية. المعادلة 4 لتحديد نموذج الصوتية مرئية يصف خصائص النطق احتمال احتمال نموذجية؛ احتمال اتصال بين نموذج اللغة كلمة يوصف أساسا، أساسا النطق قاموس الترجمة بين الكلمات والصوت، حيث النمذجة الصوتية اختيار وحدة عموما ثلاثة نماذج الهاتف إلى "بحث صوت الكلب، على سبيل المثال":

FIG عمليات النظام التعرف على الكلام

خطاب مبدأ الاعتراف 2

لاحظ أن X يمثل سمة من ناقلات إدخال الكلام الميزة.

"في الوقت الحاضر لا يهم IFLYTEK أو غيرها من شركات الإنترنت الكبيرة، لدينا التكنولوجيا أساسا الفرق لا نوعي."

نموذج الصوتية، بدأت 1H12 القيام التعرف على الصوت عند استخدام توزيع خليط جاوس التقليدي. 12 نهاية العام، بعد نتائج التعلم العميق مايكروسوفت من التعرف على الكلام، وبدأ البحث الكلب لمتابعة النتائج. في Q213 عاما على نموذج التعلم خط العمق. بدأت مع DNN، ونسبة الخطأ بنسبة 30. ثم هذا النموذج هو الجمع بين أكثر تعقيدا من CNN، انخفضت نسبة الخطأ بنسبة 20 مرة أخرى. LTSM شكل مختلط في وقت لاحق بنية الشبكة المختلفة، ومرة أخرى بنسبة 10.

وقال وانغ يان فنغ كلاب البحث في بعض الوقت قبل بدأ CTC، الاستخدام النهائي طريقة النمذجة الصوتية. في الوقت الحاضر، والقطاع الصناعي، في أكتوبر من العام الماضي، والمطالبات بايدو أن تنخفض بنسبة 20. جوجل هو أقل بنحو 10، تليها كلاب البحث، وانخفاض بنسبة 10. "الآن سوف التعرف على الكلام كله واثنين من المدارس الكبيرة، ويستند على نوع كبير مثل LTSM-RNN بهذه الطريقة، وهناك جزء كبير من هذا النوع هو تعزيز CNN وأكثر من ذلك إذا كان لها أن تصبح عدد طبقات أعمق CNN ".

LTSM + CTC غير مناسبة للقطاع الصناعي، وسوف تكون أعلى نسبة الأخيرة، كما تم تحقيقها جوجل صوت من حيث الكفاءة وعلى الخط، في كلاب البحث المحلية مع بايدو تنتمي إلى السابق؛ HKUST يطير بعيدا يجب ان يكون وراء هذا المسار، ذبابة السمع استكشاف التكنولوجيا والوقت العلامة التجارية أكثر من ذلك.

التدفق الإجمالي العملية هو الأكثر استهلاكا للوقت جزءا من الصوتيات. ركزت شبكة معقدة الحالية من جانب الصوتية، ولكن هذا لا يعني أن النموذج لغة لا يعمل، ولكن الآن تستند إلى نموذج لغة نموذج ماركوف التقليدي، إذا كان نموذج الشبكة العصبية الاستخدام العام، سيتم تخفيض كبير في التكاليف. والسؤال الآن هو إذا كان استخدام نموذج التعلم العميق سمعيا، القدرة الحاسوبية لا يمكن أن يتحقق.

قبل استخدام هذه الكلاب البحث CPU بحساب جزء الصوتية لاحتلال 60 -70 من حساب النفقات العامة. بعد استخدام التكنولوجيا LTSM، لتحديد تأثير يصبح جيدة جدا. وبما أن كمية البيانات يزيد مرة أخرى، والنموذج يصبح أكثر تعقيدا، من أجل تحقيق نتائج أفضل، مع وحدة المعالجة المركزية لا تنهي المهمة. ومع ذلك، إذا كان CPU تحويلها بالكامل GPU، القدرة الحاسوبية سوف تتحسن إلى حد كبير. بدأت Sogou مؤخرا ليتم تحويلها بالكامل إلى GPU، بعد تغيير GPU، أو ما إذا كان قد تحسن من تأثير الأداء بشكل ملحوظ.

صوت نقاط الألم المدخلات وحلول

إدخال الصوت وهناك العديد من نقاط الضعف، مثل لهجة، لهجة، والناس يتحدثون، والضوضاء، افتراء، بعيدة الميدان، وهلم جرا. الآن هذه الصناعة ليحل افتراء الفقراء عموما، مثل مرة واحدة وافتراء، سمعيا صعبة للغاية لالتقاط التفاصيل الصغيرة. لكن إذا قمت بذلك نموذج لغة قوية جدا سيكون من نتائج عكسية، بما في ذلك قوة أيضا أن تتأثر. نحن نتحدث عن معدل دقة 97، ويستند على بيئة مثالية نسبيا.

نقاط الضعف الحالية: والأول هو ضرورة أن تكون قادرة، من صوت البلع بما في ذلك أفضل من سرعة readthrough الكلام الطبيعي المستخدم، وثانيا، هناك حاجة في الحالة التي يكون فيها متانة أفضل الضوضاء. بجانب شخص يتكلم، أو بجانب خلفية موسيقية قوية، ونحن قادرون على القيام التحديد الدقيق. النقطة الثالثة هي بعيدة الميدان. على سبيل المثال، يمكنك وضع أحد المتحدثين في الفترة من 5 أمتار، وهذه المرة إلى الكلام، فإنه سيكون من الصعب التعرف عليها.

لاجتثاث الإشاعة، وهناك نوعان من المدارس في حد ذاته. النوع الأول هو لإضافة الكثير من الضوضاء بين البيانات، أي ما يعادل مضيفا الضوضاء إلى بيانات التدريب لجميع المناسبات. في عملية التدريب، لتناسب أكثر من هذا السيناريو، رؤية المزيد من المناسبات، للم موحد من قبل نموذج الصوتية. وهناك أيضا شعبية في العامين الماضيين الطريق. وكان هناك أيضا بالطبع، ولكن لمدة سنتين في هذا المجال إنجازات أكثر الأكاديمية، وتعزيز الخطاب، وهو كيف يمكن للضجيج، الضغط على الضوضاء بنسبة أول ما قبل المعالجة، والصوت المتميز، والحد من المتابعة.

ولكن تعزيز الخطاب سيكون لها مشاكل إذا لم تفعل ما يكفي غرامة، النتيجة ليست جيدة بما فيه الكفاية، ويمكن أن يكون أسوأ من ذلك، والآن هناك العديد من الطرق لوضعها في تعزيز خطاب DNN، ولكنه يتطلب في الواقع الكثير من القدرة الحاسوبية. هذا التعقيد حساب أحيانا حتى لا تضيع على الخلفية. ولقد حان هذا الإنجاز الدراسي الحالي خارج.

الكلاب لديها طريقة بحث أفضل في تجهيزها البيانات. في نتائج التعرف على الكلام الذي، للحكم من قبل بعض المستخدمين تصميم المنتج هو حاليا باستخدام نتائج النص، مثل وجاءت نتائج تحديد من يتم حذف المستخدمين، فإنه يدل على نتيجة الاعتراف لا يكفي دقيقة. هذا الصوت، من المهم أن استخدام التدريب النموذجي.

كيف كلمة التكنولوجيا الذكية تؤثر عليك

بعد مؤتمر المختلفة، وأعتقد أن الكثيرين من أصدقائي سوف تذهب إلى تحميل إدخال الصوت APP، والبحث في وظائف والأداء. ولكن بعد ذلك ماذا سوف تستخدم التحميل عند إدخال الصوت؟ عند الحديث مع الأصدقاء، فإن الغالبية العظمى لا تزال اعتاد على كتابتها. حتى صوت ذكي عندما يمكن أن تؤثر عليك؟ وقد كسر السوق صوت ذكي بها حتى الآن؟

الجانب الهاتف صوت التفاعلية بالمقارنة مع النص الحالي لا تزال هناك فجوة كبيرة من حيث التفاعل. حاليا استخدام المدخلات صوت حساب المستخدمين يوميا لمدة 8-10، وهذا هو فقط نسبة الأشعة فوق البنفسجية، وإذا كانت نسبة أقل من PV. جعل لوه في مؤتمر صحفي يوم المطرقة أن يطير الدعاية بعد جلسة الاستماع، والاستماع إلى إدخال صوت يطير حقا النار لفترة من الوقت، وهذا أيضا يدل على أن للمستخدم العادي من أجل وظيفة التعرف على الصوت ليست كافية.

حاليا ينقسم المشهد على إدخال الكلام الهاتف إلى فئتين: واحدة غير مريح حقا أن المستخدم هو كتابة حاليا، سوف نختار لاستخدام الصوت. من ناحية أخرى نرى أن المزيد من الشباب سوف يفضلون استخدام الصوت طريقة الإدخال، أن هذا السلوك أكثر من أسلوب، أفضل اللعب.

"ما السيناريوهات التفاعل الصوتي مع معظم إمكانات النمو، ويمكن توسيع نطاق التطبيقات بسرعة؟ ثلاثة مشهد قيمة، والسيارات، وغرفة المعيشة، ويمكن ارتداؤها."

وقالت الملكة في تقرير لها، الطلبة الأميركيين إلى استخدام الصوت ومشاهد من الأسباب الرئيسية لأقتبس من الإنترنت هذا العام:

واضاف "لكن هذا النظام له عدة مشاهد اندلعت هناك، وأعتقد، السيارة الأولى، ثم المنزل الذكي ويمكن ارتداؤها."

"سيارة المشهد ونطالب أوضح أن معظم المواقع والمنتجات واضح، لذلك أوضح صوت من الأهداف، من وتيرة نقطة الصناعية نظر، والملاحة معدل تغلغل صوت التيار في السيارة هو الأعلى."

الأكثر الملاحة بديهية وهذا هو سيارة ذكية، فضلا عن بعض الاستفسارات المحيطة المركبات والمشاكل. لأنه في السيارة مع اليدين وعينيك المحتلة، عندما يكون لديك الطلب مؤقت والصوت هو أفضل وسيلة للقاء. والآخر هو المشاكل المشتركة التي تم إنشاؤها من قبل المستخدم على الطريق، مثل وسيلة للتزود بالوقود، والاستماع إلى FM، والعودة إلى رسائل بريد إلكتروني الصغيرة.

"سمارت هوم حاليا حول التلفزيون وستيريو ومحددة يحتاج القطع والأغاني وجدت أساسا (وكذلك FM، وما إلى ذلك)، وهذا الطلب هو واضح نسبيا، ولكن بعض الأسواق محموما، مثل المتكلم إلى الاستماع إلى الموسيقى والمنتجات الرئيسية من المشهد، تم وضعه في المنزل الذكي مدخل المستقبل ".

يمكن ارتداؤها، مثل الساعات الذكية. "أعتقد أنه هو الاحدث يمكن ارتداؤها، وذلك لأن المنتجات في السوق لم تصبح بعد قيمة الحاجة فقط، مثل الساعات الذكية، للمستخدم، في الواقع، قلوبنا هي أقل بكثير مما كان متوقعا."

ليس هذا هو صوت الإيكولوجية مباشرة للمستهلكين، ولكن وجهه لعملاء B، هو عملية B2B2C. يجب أن يكون للمستهلكين محطة ذكي من خلال عدد من المنتجات الوسيطة، مثل المعدات والسيارات، والأجهزة المنزلية الذكية، وأجهزة يمكن ارتداؤها، من أجل تحرير اليدين والعينين لتجربة الراحة التي رفعتها إدخال الصوت.

مستقبل تطبيقات إدخال الصوت حيث نقطة الانهيار

"التكنولوجيا سواء أو منتج أو، إذا كان يجلب قيمة للمستخدمين، يجب أن يكون المستخدم عادل وقت الحاجة".

ويرافق الطلب العديد من المستخدمين من قبل ظهور المشهد، تماما كما نحن الآن في استخدام المحمول إدخال صوت الهاتف من أقل من 10، مشيرا إلى ماذا؟ في العديد من المشاهد غير مطلوب المستخدم لهذا المنتج. "نحن لم نقل الواقع أنه، من هذا التطور، أو من مثل هذا السيناريو، مئة في المئة يريدون المستخدمين لتكون قادرة على استخدام الإدخال الصوتي، وهذا ليس الواقع نفسه ليس صحيحا."

ولكن أي نوع من الحاجة مجموعة؟ كبار السن والأطفال، أو ما شابه ذلك بارد الشباب. المستخدمين تحت أي نوع من المشهد حقا تحتاج هذا المنتج؟ في المكتب لا تحتاج شيء من هذا القبيل، وتوليد المزيد من الطلب في الهواء الطلق، وعندما في المنزل.

لذلك من تطوير مدخلات الصوت، والحديث يمكن تقسيمها إلى بعدين، الأول هو رجل، والثاني هو الآلة.

IME على الشعب. وضعت بما في ذلك الكلاب بحث ترجمة كلمة جديدة، ترجمة الكلام للأجنبي، إدخال الصوت هو للشعب الصيني، والبحث، وتوجه مساعد سحابة إلى الجهاز. والطلب على آلات مختلفة. أكثر الناس حاجة للنظر هو له مكان الحادث والألم نقطة واستخدام الحالات المعدات. على سبيل المثال، الكتابة ليست مريحة أو عند الكتابة منخفضة جدا، تحتاج إلى إدخال الصوت.

إذا وضعت على المتكلم التالي ميزة الدردشة، ولكن الجميع حقا ذهبت للدردشة مع مكبرات الصوت، لذلك المتحدث بالتأكيد لا يمكن إدخالها من خلال لوحة المفاتيح، إلا من خلال إدخال الصوت. لذلك يجب أن تكون مصحوبة المدخلات خطاب احتياجات المستخدمين والمستخدمين مع مشاهد يتميز أن أتكلم، لا أن المستقبل سوف تحل تماما محل النص.

الآن البحث الموسع البحث الكلب أو مساعد صوت، وأكثر هو كيفية تقديم خدمة أفضل لبعض من الطلب الحالي. على سبيل المثال، المذكورة أعلاه أثناء القيادة أمر مستحيل أثناء القيادة بكلتا يديه لمفاتيح، والعيون تحتاج إلى رؤية الطريق، لذلك في هذا الوقت كيف يمكن السماح للآلة في حل بعض محطات الوقود أن نسأل عن الاتجاهات أو العثور على الأشياء؟ هذه المرة يمكنك استخدام الإدخال الصوتي للتفاعل. مواكبة قيمة المنتج واحتياجات المستخدمين إلى نقاش حول المشهد مجتمعة.

ولكن بالنسبة للآلة، والمستقبل سوف يكون لها مساحة أوسع في السوق، لأن مستقبل الأجهزة التي تزرع في الجسم، وخاصة لتلبية سوف مجال الرأسي للأجهزة الذكية أن يكون أكثر وأكثر TV في التلفزيون الذكية، أصبح مكبرات الصوت الذكي، والساعات تصبح الساعات الذكية، والكثير من الأشياء أذكياء. لأن العملية الاستخباراتية، طالما أنها يمكن أن توفر محتوى، ثم يجب أن يكون احتياجات بحث المستخدم، طالما احتياجات بحث المستخدم، هناك قيمة صوت، هي قيمة التيار.

حاليا Sogou تخطيط تطبيق صوت ذكي وقال وانغ يان فنغ هناك نقطتين أساسيتين:

التركيز الأول هو سوق المستخدم العادي PC، لأن الكلب هو شركة البحث على الإنترنت، تحتاج أولا لإنجاز الأمور على شبكة الإنترنت الخط الرئيسي. ونحن نعرف كل ذلك، مثل الصورة الحالية في مجال الأمن والتطبيقات الطيار الآلي سخونة. ولكن في المستخدمين العاديين من السلع الاستهلاكية والمنتجات الصور تساهم قليلا، والناس العاديين يعانون من الصعب قدرات معالجة الصور، وهذه الصورة لم تصبح بعد الطريقة الرئيسية للتفاعل بين الإنسان والكمبيوتر.

والآن معلومات تفاعلية بشكل رئيسي من خلال خطوط العرض العليا إلى التفاعل، وهذا العرض عالية هي اللغة المعلومات: النص والصوت. "لذلك في المستقبل، في المنتجات الاستهلاكية، وأنا شخصيا أعتقد أن صوت في غضون 10 سنوات إلى أكثر من صورة أقرب لاحتياجات المستخدم، وتكون قادرة على انتاج حقل من قيمة المستخدم، وهذا هو واحد من الكلاب وجدت الأساسية من المسار الحالي."

حاليا Sogou طريقة الإدخال ومسار البحث الأساسية هي تفاعل المدخلات. وحول مستقبل الاستراتيجية الذكاء الاصطناعي، الاستراتيجية الأساسية هي كلاب البحث: التفاعل الطبيعي + الحوسبة المعرفة. صوت على تفاعلية يحمل مهمة هامة للغاية، وبالتالي فإن أول ما ينبغي أن يكون حول كيفية تحسين الخدمة للمستخدمين المنتجات، بما في ذلك القدرة على إنتاج المزيد من المنتجات الجيدة في المستخدم التقني.

الأولوية الثانية في الواقع، سواء كان هو مستقبل السوق الذكاء الاصطناعي أو مجرد سوق الأجهزة، كل ذلك هو الطريق نحو تطوير التمايز. على سبيل المثال، وشركات الأجهزة المحلية في هذا المجال جيدة بشكل خاص، من الدرجة الأولى هي إنتاج شركات المحتوى، مثل جبال الهيمالايا. والفئة الثانية هي منتصف الجهاز ومحتوى الشركات المرتبطة، هذه الشركات القيام به هو ربط الشركة الذكاء الاصطناعي.

وهذا المتحدثين، والملاحة، ومدخلات الصوت لا يمكن أن تكون الشركات نفسها به، ولكن للمستخدمين القيام به ويتم التفاعل الصوتي خارجا على المنتج مثل هذا، الحصول على الخدمة للحصول على نتائج. العهد السابق PC، عصر الهواتف النقالة حاليا، ولكن مستقبل الأجهزة الذكية، سواء كانت جيدة، يمكن ارتداؤها يي هاو، وهذه الأسواق سوف ببطء. حتى الآن في السوق ليست مجرد 2B، هو سوق B2B2C، المنتجات هي في نهاية المطاف إلى أن تكون موجهة إلى المستخدمين.

"بالإضافة إلى القيام منتجاتها خارج، بل النظر أيضا، وكيفية من صوت للبحث، لتوفير نظام متكامل من المحتوى التفاعلي تقديمها لعدد من البائعين نعتبرها قيمة، مع منتج جيد مع أبحاثهم والتطوير المشتركة، وأفضل تعزيز تجربة المستخدم، وهذا هو طريقتنا في التفكير ".

معلومات عن R & D مدخلات الصوت العملية، وقال وانغ يان فنغ أعظم المشاعر له هو: نحن بحاجة إلى منتج جيد لتعزيز وتطوير التكنولوجيا، ويمكن أن منتجات بدوره تعزيز التقدم التكنولوجي، وبالتالي تشكيل حلقة مغلقة. إذا كان لتحديد موقع خبير فني، لذلك فهو لا يحتاج الى الخبرة الفنية لفهم منطق منطق المنتج أو السوق، وبشكل تدريجي لتعزيز تطوير هذه التكنولوجيا.

ولكن إذا للقيام الادارة الفنية، واتجاه هذه التكنولوجيا باعتبارها اتجاها رئيسيا للشركة المستقبل، فإنه يجب أن تذهب إلى منتج جيد وشكل المستعمل حلقة مغلقة. وهذا أيضا هو صوت العقل قادر على التطور السريع. "

وباختصار، فإن تكنولوجيا الصوت عند للخروج، أو أن يعتمد على:

أول لتنضج، والشبكات السيارات والصناعات المنزلية الذكية، لإعطاء المستخدمين القيمة الحقيقية، مما يتيح للمستخدمين الحصول على المستهلك الحقيقي على هذه المنتجات، وليس الخبرة فقط. ومثل هذه الصناعات والمنتجات الطلب بدوره يعزز تقدم التكنولوجيا.

ثانيا، إن قوة من القضايا خطاب تحتاج إلى معالجة، مثل بعيدة مجال الضوضاء، ومتعددة اللغة وقضايا أخرى أبعد من ذلك. وبطبيعة الحال، وهذا هو عملية تدريجية.

ثالثا، القدرة على فهم اللغة الطبيعية يتطلب أيضا زيادة أكبر، وآلة يعرف أيضا نية المستخدم، يمكن أن يحقق تجربة أكثر استقرارا للمستخدم، والمنتج هو متاح حقا.

ولذلك، فإن اندلاع ليس فقط على المستوى الفني حتى بسيطة، ولكن من تصميم المنتج والقدرات التقنية، ليكون أفضل مما هو عليه الآن هناك رفع.

نبذة عن الكاتب

وانغ يان فنغ ، Sogou، كبار مدير شعبة سطح المكتب، ومركز البحوث والتكنولوجيا سطح المكتب للتفاعل الصوتي. فريق البحث من سطح المكتب بقيادة يفترض أسلوب الإدخال، عدد تمريرة، والأخبار الشخصية وغيرها من المنتجات سطح المكتب Sogou العمل في البيانات الكبيرة وخوارزمية البحث، وتحسين نوعية المنتجات وابتكار المنتجات بالسيارة من خلال القدرة البحثية الأساسية.

Sogou هو مسؤول أيضا عن خدمات الصوت الذكية والصوت والتكنولوجيا الدلالية لقيادة الفريق لتحقيق صوت قدرات التفاعل الرائدة في القطاع، وتعمل حاليا على المنتج المبتكر لتقنيات الصوت الذكية.

نص اليوم الموصى بها

انقر أدناه لقراءة الصورة

أي نوع من زعيم تكنولوجيا مختصة؟

ونود أن الثناء النقطة، ونحن نحب أن حصة!

طريق الحرير

بديل الاتجاه مدخلات لوحة المفاتيح: التحليل الفني وراء إدخال صوتها

أي نوع من زعيم تكنولوجيا مختصة؟

ذهب GTA5 تسوى الأصلي إلى "العالم الغربي" للقيام رعاة البقر

"خادمة" كارمان تناول العشاء مع الأصدقاء، وقالت انها عانت من الاكتئاب يعيشون الآن مثيرة للغاية

8 التكنولوجيا الكبيرة علي V، 11 فك التشفير المزدوج علي خلف وأسود

Dilly ريبا نسخة من تحديد "سنسي III"، بعد أن ترك يانغ مي أنها يمكن أن تلعب دورا قياديا ذلك؟

"بوكيمون الشمس / القمر" عدد كبير من تسرب البيانات كنز يمكن أن تحلم

ساندرا نغ إلى رئيس الوقف شقة Duzui الصورة الحلوة مع زوجها، كان محاطا ابنته البالغة من العمر 12 عاما من قبل والدي سعيدا جدا

يبدو لماذا تشانغ ني دائما وحيدا؟ بعد رؤية زوجته صورة جماعية، يبدو أن هذه القضية إلى فهم

"تسعة بالمائة" "الأخبار" لؤلؤة السكر 190322 مبروك يذكر شقراء الأمير الصغير مرحبا! وقال تشو Zhengting الاشقر أسلوب الجمال الحرجة!

البالغ من العمر 36 عاما اللبلاب تشن تينغ يوليو بطن الحامل في عرض كبير من مستخدمي المياه كلمة الحصان يسمى شجاع جدا

ياو تشن على تقاسم زوجها، والعمل، وغير مطيع يسمى ب "القطط تأتي وتذهب،" حلوة العلاقة الحميمة وقف قيصر الكلب الغذاء

هانوانغ الالكترونية ورقة كتاب جديد إطلاق الشعر: تصميم الزجاج المسطح، ودعم OCR المسح الضوئي

صدر Q الصحافة شو مايكروسوفت البصرية ستوديو ماك المعاينة، والتغيرات في الرادار ThoughtWorks جديد؛ Blisk: المتصفح للمطورين

وينشتاين فضح الحديث لوه سيماي مكجوان حول اسيا ارجنتو قال كان الفاعل الاعتداء الجنسي صور عارية لنفسها على

شكرا لكم، وانتقل الى الصين!

"هجوم العمالقة نجا من الموت،" الهبوط 3DS نوع ADV

"الوطنية وأمريكا المراهقين" يجمع هنري هو لي تشانغ يون جينغ يي جو، تشى تفسير "الشباب والبلد الجميل بسبب الرياح."

"الظروف" رثاء النهائية، مكرسة لمحبة الشعب لأول مرة

التصوير المعماري فقط أو الجنسية؟ هنا 10 يعطي المصورين إجابة جديدة

الفهد المعركة، ورشقات نارية يلة خمس الروبوتات | التيتانيوم الأخبار

يي شي فاحت ألف المشجعين يرتدون ملابس بيضاء رغبة لرغبة قريب، صبي يبلغ من العمر 18 عاما عيد ميلاد بهذه البساطة؟

"بيت من ورق" النهائية الموسم الحلقة اللقطات 2 نوفمبر عودة

رئيس النوافذ MR خلفاء واضحة، والتعرض سامسونج الجديدة أوديسي +

أي نوع من زعيم تكنولوجيا مختصة؟

الأحكام ذات الصلة