حلول A-رقاقة لجميع التفاعل الصوتي، وقد فعلت بايدو صناعة المتغيرة للابتكار التكنولوجي

الكاتب | جيا وى

تحرير | نهاية كونغ

إلى نهاية دمج التكنولوجيا، ومرة أخرى تظهر قوة.

20 أبريل، أصدرت منظمة العفو الدولية بايدو نوع جديد من الشاشة الصغيرة المتكلم مجانا الذكية - نسخة صغيرة من الذكي 2 مكبرات الصوت الأشعة تحت الحمراء. وفقا لبايدو قدم رسميا تم تجهيز أول المتحدثين مع بايدو R التفاعل الصوتي بعيد الحقل & D بجعة رقاقة، وهناك ثلاثة رئيسية ترقية الأداء: 1) في معدلات الخطأ التعرف على الكلام انخفاض بمعدل 30؛ 2) عالية أيقظت الضوضاء أول زيادة معدل 10 أو أكثر، وانذار كاذب يتطلب مناسبات المنزل فائقة الانخفاض، و 3) متوسط استهلاك الطاقة التشغيلية ليست سوى حوالي 100MW، الاستعداد استهلاك الطاقة بنسبة 90.

هذا الأداء هو يعلي في هذه الصناعة، جديرة بالاستكشاف.

تكنولوجي ريفيو AI للتكنولوجيا وراء تحليلا مفصلا، أن هذا يرجع أساسا إلى "دمج نهاية لهذه الغاية" في المقترحين التفاعل الصوتي من حيث الابتكار:

1) على مستوى البرامج. حاليا الحقل شعبية من ذكاء برنامج اللغة التفاعل الصوتي: الأول تعزيز الكلام، التعرف على الكلام بعد. هذه العملية هي صوت تفاعل انقسام في عمليتين منفصلتين، وغالبا أهداف غير متناسقة في عملية التحسين. وبايدو الاستخدام المباشر ل"تعزيز التفاف معقدة النمذجة الشبكة العصبية على أساس صوت والصوتية تكنولوجيا النمذجة التكامل نهاية" (ممر طويل، كلمات: الالتواء معقدة، نهاية إلى نهاية، وتعزيز والنمذجة التكامل)، في دقة التعرف على الكلمة هو الهدف الوحيد من التحسين.

2) على مستوى الأجهزة. تقليديا، ذكي صوت تنبيه المتكلم هو عموما أعقاب مرحلتين، الأمر الذي يتطلب رقائق منخفضة الطاقة وعالية الأداء وإيقاظ الحوسبة مع الانتهاء من الشريحة الرئيسية. هذه النتائج في متوسط الطاقة القصوى الإطار (1W أو أكثر)، وعلى قوة رقاقة الرئيسي عد تطلبا. بايدو وضع إطار البرنامج النهائي والتكامل الأجهزة إلى الأمام، وتوضع جميع المهام التفاعل الصوتي في رقاقة بصوت منخفض قوة التفاعل (البجعة)، ورقاقة الرئيسي دون الحاجة إلى حمل قدرات الحوسبة المتطورة من التفاعل الصوتي، وفورات كبيرة في التفاعل الصوتي جزء الاحتلال للموارد النظام العام.

هذه لينة ومستويين من الصعب الابتكار، على كله (حقل بكثير) التفاعل الصوتي هو تخريبية.

1 مستوى البرامج: تعزيز خطاب والتكامل من نهاية إلى الصوتية تكنولوجيا النمذجة

أولا، علينا أن نحلل لماذا مستوى ذكاء صوت البرامج التفاعلية عملية اختيار رئيس البرلمان يجب أن يكون نهاية لنمذجة نهاية.

تقليديا، من أجل تحسين دقة الحقل الآخر من التعرف على الكلام، وعادة ما تستخدم مجموعة صغيرة ميكروفون، وذلك باستخدام متعدد القنوات تقنيات معالجة الإشارات خطاب لتعزيز إشارة الهدف لتعزيز دقة التعرف على الكلام.

في الوقت الحاضر، فإن معظم أنظمة التعرف على الكلام في متعدد القنوات المنتجات المتحدث باعت نظام ذكي المستخدمة، ويتعزز مع نهاية الجبهة ونهاية الجزء الخلفي من خطاب حدة الاعتراف وحدة النمذجة الصوتية في سلسلة من:

صور من نوفمبر 2019، بايدو الكلام المحرك المنتدى

ويضم وحدة تعزيز عموما اتجاه الواجهة الأمامية من تقدير وصوله (DOA) وتكوين الشعاع (BF). وهي تستخدم أساسا تقنيات DOA عن مصدر الصوت الاتجاه تقدير الهدف، تعتمد تقنية BF على المعلومات اتجاه مصدر الصوت الهدف، معززة إشارة الهدف، وقمع إشارات التداخل.

صور من الشبكة

الصوتية الخلفي النمذجة وحدة التعرف على الكلام، فإن إشارة الكلام تعزيز عمق الدراسة قناة النموذج.

ومع ذلك،

1) صوت جمع شعاع المناطق الطرق لها حدود. ما سبق خطاب تقنيات تعزيز هذا النوع تستخدم في الغالب على معايير MSE الأمثل، من الإدراك السمعي ذلك الصوت شعاع أكثر وضوحا، الخلفية الضوضاء شعاع الخارجي أصغر. ومع ذلك، الإدراك السمعي ومعدل الاعتراف لا يتسق تماما. وضوضاء النهج عندما يكون المحتوى هو المحتوى الصوتي (مثل التلفزيون والناس في نفس الاتجاه)، وأداء سينخفض بشكل كبير.

2) تعزيز والهدف الأمثل وحدة الهوية غير متناسقة. A خطاب نهاية وحدة تعزيز عملية التحسين الأمامية مستقلة عن نهاية الجزء الخلفي من وحدة الهوية. الهدف الأمثل ونهاية الجزء الخلفي من نظام التعرف على الهدف النهائي هو غير متناسقة. ليس الهدف من التوحيد ومن المرجح أن تؤدي إلى تعزيز الأمامية النتائج وحدة الأمثل ليست أفضل على الهدف النهائي.

3) بيئة المنتج الحقيقي معقدة، والطرق التقليدية تؤثر على تجربة المستخدم. طريقة شعاع منطقة بيك آب على أساس تعتمد بشكل كبير على دقة الترجمة مصدر الصوت، ولكن للمرة الأولى، بعد، ويرجع ذلك إلى موقع مصدر الصوت غير معروفة، وبالتالي فإن أول معدلات إيقاظ تميل إلى أن تكون منخفضة.

أفضل حل لهذه المشاكل هو تعزيز الصوت والتعرف على الكلام من اقصاه الى اقصاه النمذجة المتكاملة، تصميم نموذج التعلم العميق هو Duolumaike إشارة المدخلات، وإخراج النص في اللغة الهدف، ونموذج الهدف الأمثل هناك واحد فقط كلمة دقة.

صور من نوفمبر 2019، بايدو الكلام المحرك المنتدى

وكان فريق Google 2017 أول من اقترح استخدام الشبكات العصبية لحل الأمامية تحسين الكلام والتعبير عن المشاكل النمذجة النمذجة التكامل الصوتية.

ومع ذلك، اقترحت جوجل هيكل FCLP (يؤخذ مجمع الخطي الإسقاط) لا يزال إشارة تجهيز طريقة كنقطة انطلاق، مع شبكة التعلم العميق لمحاكاة والحزم إشارة تقريبي، وبالتالي ستقتصر على بعض بداهة افتراض أن طريقة معالجة الإشارات. ميكروفون مجموعة فيما يتعلق الإشارة الرقمية خوارزمية معالجة التقليدية القائمة على جوجل قد انخفض بنسبة 16 نسبة الخطأ النسبي.

بايدو تستخدم فكرة مماثلة أن تفعل "تعزيز الكلام والصوت التكامل النمذجة الصوتية" نهاية إلى نهاية النموذج، ولكنها تستخدم "شبكة العصبية على أساس التفاف الجمع."

صور من نوفمبر 2019، بايدو الكلام المحرك المنتدى

مقارنة مع جوجل، وطريقة التخلي تماما معرفة مسبقة من التخصصات معالجة الإشارات الرقمية، تصميم هيكل نموذج والتخصصات معالجة الإشارات الرقمية تنفصل تماما، واطلاق العنان لمزايا هيكل متعدد الطبقات ميزات شبكة CNN ومتعدد القنوات أذكر اتخاذها.

وتتميز في هذا الاحتفاظ بالمعلومات المرحلة الأصلية، في حين تحقيق البعيدة نموذج الصوت مصدر التعريب، شعاع التشكيل ويعزز استخراج الميزة. الجزء السفلي من CNN المستخرجة الخصائص النموذجية، وتدفق مباشرة في نهاية متعددة المراحل نموذج الاهتمام اقتطاع (SMLTA) من أجل تحقيق التكامل بين نماذج من نهاية من الإشارة الأصلية لشخصية الاعتراف الهدف Duolumaike .

المعيار الأمثل هو تعتمد اعتمادا كليا على المعايير الشاملة تحسين الشبكة للقيام شبكة التعرف على الكلام، أي إلى تعزيز تماما الهدف ضبط معدل الاعتراف المعلمات نموذج القيام به.

كان جيا لي في نوفمبر من العام الماضي على "محرك قدرة الدماغ كلام بايدو المنتدى"، وقال: "لدينا نموذج يمكن استخراج إشارة الخصائص الأساسية للكائنات الحية، وعلى سبيل المقارنة، يفترض نظام جوجل بأن المعلومات بين إشارات هيئة التصنيع العسكري اثنين المقابلة لنطاق التردد توليد العلاقات بين الفرقة التي لا التعدين المعلومات، والذي هو السبب جوجل على معدل الاعتراف منخفض ".

صور من نوفمبر 2019، بايدو الكلام المحرك المنتدى

كما ذكر في وقت سابق، فيما يتعلق التقليدية على "تعزيز الإشارات الرقمية تجهيز وحدة الواجهة الأمامية" المنتجات الذكية رئيس بايدو تستخدم من قبل + "التعرف على الكلام الخلفية الصوتية النمذجة" طريقة جنبا إلى جنب، والتي تقوم على عدد وافر من الشبكة العصبية التلافيف تعزيز خطاب والتكامل من نهاية إلى الصوتية تكنولوجيا النمذجة، والوصول للحد من نسبة الخطأ أكثر من 30.

30 تخفيض، وهو الأخيرة عميقة تقنية التعرف على التعلم بعيدة الميدان، ومعظم الأداء الهامة المنتج.

في الوقت نفسه، وبسبب هذا النهج النمذجة هو دمج نهاية لهذه الغاية، لا حاجة لتحديد مصدر الصوت، وبالتالي تجنب انخفاض حاد بسبب تحديد المواقع الأخطاء الناجمة عادة عن طريق دقة التعرف. وخاصة لأول استيقاظ (لا توجد معلومات الموقع)، أول أعقاب ضوضاء عالية من هذه التكنولوجيا يمكن أن يعزز كثيرا من معظم 10 أو أكثر، ويمكن أن تضمن دقة عالية تستيقظ في نفس الوقت، منخفضة للغاية معدل انذار كاذب. وهذه هي النقطة، هو تكنولوجيا الصناعة التقليدية لا تستطيع أن تفعل.

نجاح هذا النهج، ويوضح هذه النقطة: "نهاية لنموذج النهاية" سيصبح اتجاه التطور المهم من التطبيقات خطاب صناعة الاعتراف بعيدة المجال.

وقال استنادا إلى هذه الدراسة جيا لى للصحفيين في العام الماضي، وقال: "في غضون ثلاث سنوات، فإن معدل الاعتراف التكنولوجيا خطاب الميدان حتى تصل إلى معدل الاعتراف قرب الميدان، لأن هذه التكنولوجيا، والحقل البعيد لتحديد يمكن حل المشاكل الأساسية، فمن الابتكار متعدد التخصصات واسع. "

الحاجة إلى ذكر أن مشاركة شبكة الاتصال هذه في نهاية ذاكرة أقل من 200K، مما يجعلها مثالية للرقاقة جزءا لا يتجزأ من لهم.

2 مستوى الأجهزة: برنامج نهاية إلى الميدان حتى الآن التفاعل الصوتي والأجهزة حلول التكامل

بايدو في الثانية المتحدث ذكي الترقية الأجهزة وتكامل البرمجيات بفضل نهاية إلى الميدان حتى الآن برنامج التفاعل الصوتي اقترحوا.

صور من نوفمبر 2019، بايدو الكلام المحرك المنتدى

ونحن لا نزال نتحدث عن الطريقة التقليدية.

للمتحدثين الذكية، أعقاب قضية مهمة. حاليا الطاقة المنخفضة إيقاظ طريقة شائعة برنامج يستخدم في صناعة اثنين من اليقظة. هي صغيرة جدا، وتستخدم أساسا أول حساب مستوى إيقاظ للرصد، كل ذلك هو الطقس العملية. في أعقاب المرحلة الثانية مكثفة حسابيا، هو اتخاذ القرارات في حالة يشتبه قد يستيقظون. رقائق الطاقة المنخفضة في الحلول التفاعل الصوتي بعيد الحقول استخداما، هي الطاقة المنخفضة رقاقة جزء يحمل سوى المرحلة الأولى للاستيقاظ، وهذه العملية ليست الطقس مراقبة السلطة خاصة عالية. إذا كان للاستيقاظ يحدث المشتبه بهم، يعمل على قوة الحوسبة من شريحة رئيسية مرحلة أكثر الثاني وثم الثاني كاشف للاستيقاظ، لا يتم وضع اللمسات الأخيرة إيقاظ تحدث. هذه الآلية على مرحلتين، بحيث العد رقاقة والقوة الرئيسية الموارد للمرحلة الثانية يميل لإيقاظ.

وتجدر الإشارة إلى أنه وعلى أساس أن رئيس ذكي فوق اثنين من رقائق على رقائق ARM، والتي لا تستيقظ والتعرف على الصوت، من ناحية واحدة هي التكلفة العالية (لأنه حسابيا تطالب أعلى)، من جهة أخرى استهلاك الطاقة اليد عالية. بشكل عام، فإن متوسط قوة أكثر من 1 W.

لمثل هذه المشاكل، على ما يبدو تصميم رقاقة الصوت التفاعلي خاص، 1) من خلال مجموعة التعليمات المخصصة لتعزيز قوة المشغل؛ 2) والأهم من كل شوط الأصلي على التفاعل رقاقة الصوت الرئيسي كليا على الرقاقة، بحيث لم يعد سيد رقاقة الناقل التفاعل الصوتي معقدة من الحوسبة الوظائف، والتي يمكن أن توفر جزءا كبيرا من التفاعل الصوتي الاحتلال الموارد كله، في حين أن الشريحة الرئيسية يمكن أيضا اختيار شريحة غير مكلفة نسبيا.

بايدو أطلقت رقاقة بجعة، وفقا لتقارير رسمية، ثنائي النواة مجموعة التعليمات المخصصة Hifi4 الهندسة المعمارية، وذاكرة كبيرة، TSMC عملية 40nm (لعملية العالي ليست ضرورية)، بالإضافة إلى حوالي 100MW متوسط استهلاك الطاقة التشغيلية، يمكن أن تدعم كلا الآن معالجة الإشارات مجموعة الميدانية والتفاعل الصوتي يمكن استخدامها لتستيقظ في عمق النواة تحسب القدرة على التعلم. على رقاقة الهندسة المعمارية، والتكامل نهاية بجعة خوارزمية النمذجة جزءا لا يتجزأ من المذكورة أعلاه، في بنية الذاكرة الهرمي واستراتيجية تحميل الذاكرة، فضلا عن ذاكرة التخزين المؤقت، بنية الاتصالات ثنائي النواة لا عمل التخصيص يمكن أن يحقق التعلم العميق حساب وتحميل بيانات موازية للغاية.

وتجدر الإشارة إلى أنه نظرا لينفذ بجعة رقاقة عن التفاعل الكلام (حتى الميدان صغيرة، وتحديد المواقع للاستيقاظ) وظيفة، الأمر الذي يجعل، من قبل بجعة رقاقة ميزات المستخرج قد يتم تمريرها مباشرة إلى سحابة، سحابة الاعتراف عالية الدقة دون تناول أي مورد الحوسبة من الشريحة الرئيسية. هذا نهاية لبرنامج نهاية وإطار التكامل الأجهزة، لتحقيق الأداء العالي تجربة صوت موحد وتكلفة منخفضة جدا الأجهزة الذكية.

بايدو للبيانات الرسمية، فقط حوالي 100 ملي واط هذا الإصدار الجديد من سمارت رئيس استهلاك متوسط القوة الاحتياطية، التي تلبي تماما 0.5 واط منتجات 3C الاستعداد القياسية، وهو ما يعني أيضا أن أي إنقاذ والأجهزة الخضراء الصديقة للبيئة معتمدة الدولة المنتج، ويمكن أن تكون مجهزة مع رقاقة صوت بجعة. لذلك يمكننا القول، رقاقة البجعة هي الصناعة الأولى لتحقيق الاندماج الكامل للمعيار بعيدة مجال تكنولوجيا الصوت التفاعلي رقاقة صوت المنتج النهائي الجانب.

ويستند هذا الضغط من استهلاك الطاقة في مهمة التقليدية للبنية ARM رقاقة لا يمكن تحمله.

وبالإضافة إلى ذلك، البيت حيث بالإضافة إلى المتطلبات العالية للأعقاب دقة، ولكن أيضا الحاجة إلى وجود ايجابيات كاذبة منخفضة جدا، وإلا سيكون هناك ظاهرة غريبة "غرفة المعيشة في وقت متأخر من ليلة الغناء يبدو الى حد ما" في. في السيناريو إيقاظ المنخفضة للطاقة التقليدية، اعتمادا على قرار ما إذا كان للاستيقاظ نموذج رقاقة الرئيسي، حيث يستيقظ من ايجابيات كاذبة مستوى يعتمد أيضا على ذلك. ولكن إذا كان اختيار نهاية بجعة من هذا البرنامج، يمكنك تجنب الأخطاء قدمت للاستيقاظ متعددة المراحل، مما يقلل من معدل انذار كاذب.

3 صوت نطاق التفاعل ونهاية لهذه الغاية الابتكار

إذا نظرنا إلى الوراء، ونحن نرى معدلات الخطأ الاعتراف بايدو اقترحت أن التكنولوجيا كامل يجلب أقل، ومعدل ويك زيادة لأول مرة (في نفس الوقت ايجابيات كاذبة منخفضة للغاية) واستهلاك الطاقة الاحتياطية انخفض، ومن الواضح يمكن أن يكون هناك مجال للتحسين. هذا "ترقية" في الناعمة والصلبة مستويين من يجلب الابتكار.

هم أول من اقترح "نهاية إلى نهاية تكنولوجيا النمذجة" مباشرة في تعزيز خطاب واثنين من التكامل النمذجة الصوتية وعملية، لتجنب عملية التحسين في مواقفها الناجمة عن نسبة الخطأ الانخفاض في الأهداف الأمثل العالمية فقط لذلك، تلك الكلمة دقة. هذه الفكرة التخلي تماما عن أنواع المعرفة المسبقة (وكذلك الأخطاء الناجمة عن)، تصميم هيكل نموذج والتخصصات معالجة الإشارات الرقمية تنفصل تماما، وافساح المجال كاملا للمزايا هيكل متعدد الطبقات شبكة CNN ومتعدد القنوات ميزات تذكر تتخذ، هو فكرة هدامة، هناك بوضوح أكثر يمكن أن تفتح الفضاء.

من ناحية أخرى، تم تضمين نموذج رقاقة، التفاعل الصوتي على حل جميع المشاكل مع شريحة واحدة. لا يملك أعقاب دقة عالية فقط، وأيضا ايجابيات كاذبة منخفضة للغاية. الأجهزة وتكامل البرمجيات الهيكل الجديد، التحرير مباشر من الشريحة الرئيسية، والحد بشكل كبير من متطلبات الحوسبة أداء الشريحة الرئيسية، والتي يمكن أن يكون الأمثل إلى حد كبير من حيث السعر واستهلاك الطاقة. وهذا ابتكارات الهندسة المعمارية، وأصبحت أول المتحدثين لتغيير الابتكارات التقنية الذكية كلها (السيناريوهات التفاعل بعيدة الميدان) الصناعة.

رقاقة يمكن أن تحل في وقت واحد كل من الميزات التفاعلية للصوت واستهلاك الطاقة منخفضة جدا، بايدو سوان مما لا شك فيه خلق معايير جديدة للصناعة العالمية. وعودة إلى المتحدثين أنفسهم ذكي والأجهزة وتكامل البرمجيات للاستخدام على نطاق واسع، والباعة ربما غيرها في صناعة تجلب أي ضغط صغير.

طريق الحرير

حلول A-رقاقة لجميع التفاعل الصوتي، وقد فعلت بايدو صناعة المتغيرة للابتكار التكنولوجي

ورقة اليوم | تمثيل توزيعها، على أساس يوان التعلم؛ مجموعة البيانات على مستوى المحافظة، GPS-NET، الخ

لا المعايير ليست التعاوني، التعاون المتعدد الأطراف تغيير في علاقات الإنتاج | دراسة الاتحادية المقبل IEEE القياسية الدولية

يمكن أيضا أن تكون CVPR 2020 شو قيمة 8 بت نموذج التدريب؟ اقترح شانغ تانغ لتسريع تدريب خوارزميات جديدة

اليوم ورقة | اهتمام الانحياز النفس؛ الآلي التقييم؛ مهمة استخراج العلاقة، ونماذج LSTM

المتشددين! قامت الشرطة الكولومبية نعش لإقناع الناس أن يكون المنزل، والأصدقاء: دعوى ذلك؟ ربط ذلك؟

الهند، وهو رجل توصيل البيتزا تشخيص الالتهاب الرئوي العهد الجديد، الذي لديه تسليم 72 منزل

وقال الدكتور فوسي هذا الأصل الفيروسي أكثر من 100،000 حالة وفاة في أوروبا، تبرعت المملكة العربية السعودية نصف مليار دولار لمنظمة الصحة العالمية ......

تشاو ينغ مينغ وزوجته مرة أخرى! نار! فوق

اسمحوا لي أن أقول لك: إذا كان الثور القادمة، ما القطاع الأول انتفض الماضي ما القطاع؟ فهم أسهمها لا داعي للذعر

السوق الصينية الأسهم "Jianqian" عصر: 2-3 يوان A-حصة كأب، ومرحلة أقل مرارا وتكرارا، 200000 الصيادين تتخذ للاستثمار على المدى الطويل، عمليا؟

وأخيرا سهم أحدهم يقول لا يمكن أن يقال عن الحقيقة: وصول السوق الصاعدة سوق الأسهم الصيني القادم وكذلك إلى متى؟ ما هي الميزات التي سوف تظهر قبل السوق الصاعدة؟

سوق الأسهم الصينية: المستثمرون أفضل من الراحة، ومواقف يست قصيرة، ولكن "فقط حياة الأوراق المالية"، وهذا هو نصيحتي المخلصة للجميع

شو CVPR 2020 بالكشف عن إطار جديد على أساس 3D نقطة الكائن سحابة

صوت ثلاث ورقات مختارة ACL 2020 سحابة المعروفة، درسوا ماذا؟

CVPR 2020 | عبر طريقة للاعتراف المشاة من الهرمية VI-ريد

ICLR 2020 | زيادة الضوضاء، ويمكن تحسين تعميم وكيل القدرة RL

ICLR 2020 | المماس العصبي، 5 خطوط من التعليمات البرمجية لخلق واسعة نموذج الشبكة العصبية لانهائي

"لايف" CVPR 2020 | هيكل شبكة البحث الجشع خوارزمية تقوم على فكرة، في حين أن شبكة CNN دعم وGCN العمارة البحث

Bengio شارك في إنتاج العديد من العلماء الآخرين: كيفية تصميم نظام لضمان موثوقية AI؟

IJCAI تحذير! سوف الري كبار يصبح من الصعب على نحو متزايد، وAI أعلى معدل التوظيف العام قد انخفض بشكل مستمر لسنوات عديدة

ICLR 2020 | GAN باستخدام عالية الدقة تركيب الكلام

CVPR 2020 | MetaFuse: معلومات ما قبل التدريب لتشكل البشري نموذج تقدير الانصهار

الأحكام ذات الصلة