أبل تكنولوجيا صوتية جديدة سر! التأخير سيري بنسبة 60، ودعم متعدد اللغات "تحرش"

أشياء الفكرية (عدد الجمهور: zhidxcom) رمز | وي Shiwei

شيلي الاشياء 4 فبراير، وفقا لتقارير وسائل الاعلام الاجنبية VentureBeat في الأسبوع الماضي، نشرت شركة أبل في مجال التعرف على الكلام سلسلة من الأوراق البحثية، والأبحاث الرئيسي لتحسين صوت الزناد كشف والتحقق المتكلم، ومكبرات الصوت متعددة وتقنية التعرف على الهوية اللغوية.

في الواقع، كانت أبل المجال التقني جدا من الاهتمام الأبحاث التعرف على الكلام. حاليا، وقد غطت عبر منصة مساعد الظاهري لها سيري أكثر من 500 مليون مستخدم في جميع أنحاء العالم.

في ورقة حديثة، كما يقدم أبل الخاصة تكنولوجيا الصوت AI لمساعدة تحديد المزيد من الشعبية مساعد صوت الكلمة، ورئيس متعدد اللغات.

الأول، والتحقق، ومكبر الصوت صوت الزناد كشف

في "للتحقق من مكبر الصوت والكشف عن الزناد صوت تعدد المهام التعلم (MULTI-TASK التعلم لرئيس المجلس التحقق وVOICE TRIGGER DETECTION)" ورقة، اقترح الباحثون تفاحة بعد ويمكن إجراء العملية في حين التعرف على الكلام التلقائي، والكلام AI المهام الاعتراف النموذج.

وقال الباحثون في ورقتهم، مساعد شخصي الأوامر التعرف على الصوت لعبارات الزناد مسبوقة عموما، مثل "يا سيري"، والتي ينبغي الكشف عن عبارة الزناد يتطلب خطوتين.

الأول هو الكشف عن الزناد صوت، يجب نموذج AI تحديد مضمون الخطاب إدخال الصوت، ومضمون خطاب يطابق عبارة الزناد، وثانيا التحقق المتكلم، يجب أن نموذج AI تحديد صوت المتحدث، سواء مع واحد أو أكثر المستخدمين المسجلين صوت للمباراة.

كلا المهام التفكير عادة مستقل، ولكن يعتقد الباحثون، نموذج AI لفهم صوت المتحدث قد يساعد ذلك للاستدلال على مضمون إشارة الصوت، والعكس بالعكس، وبالتالي المساهمة في تقدير هذه السمات اثنين.

فرع الأيسر من النموذج الزناد صوت كاشف، فرع الأيمن من نموذج التحقق المتحدث؛ خط السهم الصلبة يشير إلى وجود طبقة أفقية مع وزن ثابت، سهام متقطع ربما طبقة قد لا يكون لها وزن ثابت

وبناء على هذا، صمم الباحثون نموذجا ثلاثة AI لمعرفة معلومات الكلام واللغة.

وتشمل مجموعة من مجموعات البيانات الصوتية عن 16،000 ساعة أو تم تدريب أكثر وعينة المشروح، منها 5000 ساعة من الصوت مع بصمة صوت، وتسمية رئيس الوحيدة المتبقية.

بعد الانتهاء من التدريب، وهناك أكثر من 100 موضوع في سلسلة من الإعدادات الصوتية باستخدام جهاز مكبر صوت ذكي لاختبار لإثراء الإحضار. من بينها، مجموعة الصوتية بما في ذلك غرفة هادئة، وغرفة الموسيقى أو أدوات المطبخ التلفزيون الضجيج الخارجي والشريط مسجل اللعب وهلم جرا.

وفي الوقت نفسه، أضاف الباحثون أيضا 2000 ساعة متتالية من التلفزيون والإذاعة الراديو والتسجيل الصوتي، واستبعاد العبارات الزناد لقياس "ايجابيات كاذبة" نماذج AI.

وأظهرت النتائج، AI نموذج القدرة على معرفة معلومات الكلام واللغة، في حين وجود نفس العدد من المعلمات (مراقبة متغير خصائص معينة من عملية التدريب)، ودقة كل مهمة على الأقل نفس النموذج الأساسي.

في الواقع، هذه النماذج AI الثلاث تعبير في إعدادات متعددة من التحقق المتحدث القياسية، وتحسين 7.6 "له علاقة مع النص شيئا" مهمة بالمقارنة مع خط الأساس.

"هذه النتائج لها ميزة مثيرة للاهتمام هو استخدام هذا النموذج ليس مجموعة التدريب البيانات ذات الصلة، وهذا هو، كل عينة الصوت إما أن يكون لها صوت العلامة أو تسمية الناس أن يتكلم، أبدا على حد سواء." البحوث وقال مسؤولون في ورقتهم.

وهذا يدل على أن نتائج الاختبار بالتحقق من تصميم صوت AI مرونة. في هذا التصميم، ويمكن للباحثين ربط البيانات من المهام التدريبية المختلفة، وتدريب نموذج من المهام المتعددة ذات الصلة، بدلا من الحصول على تسميات متعددة على سبيل المثال كل تدريب.

وقال الباحثون: "من وجهة النظر العملية، تقاسمت هذه المهمة بين البلدين حسابات تهدف إلى حفظ الذاكرة على الجهاز، والوقت الحوسبة، وقت الانتظار وعدد من السلطة أو بطارية الاستهلاك".

ثانيا، للحد من اثار كاذبة

ملحق آخر من عزم آبل للحد من اثار كاذبة المهمة، وهذا هو تجاهل صوت مساعد صوت سيري مثل مساعد صوتي.

وقال الباحثون انهم استخدموا نموذج منظمة العفو الدولية أن يعمل على هيكل الرسم البياني، وهذا هو، خريطة الشبكة العصبية (GNN). وترتبط كل عقدة في النموذج مع علامة، والتسمية ومن المتوقع العقدة الهدف في غياب الحقائق الأساسية للقضية.

"صوت الزناد مساعد ذكي قبل البدء في الاستماع إلى طلبات المستخدمين، تعتمد عادة على الكشف عن العبارات الزناد ...... مشغلات الخطأ غالبا ما ينتج عن الضوضاء الخلفية، صوت أو العبارات والزناد مماثلة سليمة". وقال الباحثون في ورقتهم، والحد من اثار كاذبة هو جانب هام من جوانب بناء مساعد ذكي غير الغازية إلى مركز الخصوصية.

في العمل مستقبلا، ويخطط الباحثون لتوسيع خريطة معالجة التفاح على أساس شبكة العصبية لمهام أخرى، مثل تصنيف نية المستخدم.

الثالث، والتعرف على اللغة متعدد اللغات

في "القدرة على تحسين التعرف على الكلام المستخدم متعددة اللغات (تحسين SPEAKERS اللغة IDENTIFICATION FOR بعدة لغات)" ورقة، فإن الباحثين استكشاف تفاحة لمتعدد اللغات نظام مستخدم مخصصة المتحدث التعرف على الكلام.

وقال الباحثون أن نظام التعرف على الكلام لمعظم لغات لديها درجة عالية من الدقة، ولكن في حالة من مجموعات متعددة اللغات، وأداء النظام لم يكن مثاليا.

في الواقع صحيح. "واشنطن بوست" يظهر في دراسة أجريت مؤخرا، وجوجل وأمازون في مكبرات الصوت المخابرات الولايات المتحدة فهم لهجة المستخدم، و 30 أعلى من احتمال لهجة غير أمريكية.

وبالإضافة إلى ذلك، مثل لوحة التبديل الإحضار كما ثبت أن هناك الميل للقياس مستخدميها من منطقة معينة من الولايات المتحدة والإحضار أو IBM ومايكروسوفت وغيرها من الشركات تستخدم لتقييم مجموعة البيانات من نسبة الخطأ نموذج صوت.

لحل هذه المشكلة، فإن الباحثين أبل دمج المعرفة حول أنماط الاستخدام لنظام الإملاء، وهذا النظام هو قادرا على التحدث إلى شخص في أكثر من 60 منطقة لصنع القرار.

الدقة نموذج الصوتية المشهد يوان

الصوتية التنبؤ طراز الفرعية استنادا إلى المعلومات التي نقلها إشارة الكلام، وسوف عنصر التنبؤ السياق علم أن تنظر في مجموعة متنوعة من العلامات السياقية التفاعلية. سواء من خلال التنبؤ النموذج، لتحديد أفضل نظام التعرف على الكلام التلقائي أحادي.

حيث تتضمن المعلومات حالة إشارة السياق إصدار الأوامر، تم تركيب بيئة لغة الأوامر، لغة الأمر المحدد حاليا، وإذا كانت القضايا المستخدم أمر لتبديل المعلومات المحلية قبل الأمر.

الأهم من ذلك، أنها يمكن أن تساعد في إشارة صوتية قصيرة جدا لإنتاج التنبؤات الموثوقة في القضية من طراز الصوتية. على سبيل المثال، إذا قمت بتثبيت اللغتين الإنجليزية والألمانية، مثل "نايين" هذا الغموض بيان مقتضب في الجدول الألمانية قد تكون سلبية "NEIN"، في اللغة الإنجليزية هي جدول الرقمية "تسعة".

من أجل تقييم النظام، والباحثين وضعت أيضا مخصص بمقياس يسمى "متوسط دقة المستخدم" (متوسط الدقة المستخدم، AUA)، يمكن للنموذج تعكس بشكل أفضل أنماط الاستخدام "مستوى السكان".

كل مزيج من اللغات في مكبر صوت داخلي تدريب المتعدد اللغات المحكية الكلام الإحضار 128000، والتفاعل مع المعلومات سياق المقابلة، ومتوسط معدل دقتها 87، بالمقارنة مع خط الأساس، في أسوأ حالته تم تحسين دقة أيضا بأكثر من 60.

وعلاوة على ذلك، المعلمات تعديل من أجل تحقيق التوازن فريق البحث بعد المبلغ المحسوب من يعمل على دقة طراز الجهاز وتأخير، مما يقلل من متوسط التأخير من 2 ثانية إلى 1.2 ثانية، وتأثير ليست أكثر من 0.05 AUA.

الاستنتاج: تقنية التعرف على الكلام إلى مزيد من تحسين وناضجة

اليوم، أصبح التعرف على الكلام تدريجيا الهواتف المحمولة وأجهزة الكمبيوتر، والمتكلمين الذكية، يمكن أن يكون تطبيق الهام "نافذة" الأجهزة القابلة للارتداء وغيرها من المنصات والأجهزة، ودقة الصوت والتعرف على الكلام في أكثر أهمية، مما يؤثر على المستخدم تجربة المنتج.

ومع ذلك، وتطوير التكنولوجيا الحالية، وتطبيق تكنولوجيا التعرف على الكلام، لا يزال هناك الكثير من القيود، مثل اثار كاذبة، متعددة اللغات معدل دقة التعرف على وهلم جرا. أبل كلاعبين مهمين في مجال التعرف على الكلام، التعرف على الكلام مختلف الدراسات التي تم الترويج أيضا لتحسين واتقان التكنولوجيا إلى حد ما.

المستقبل، والتكنولوجيا لا تزال حتى تنضج وسوف مبتكرة، ومساعد صوت ذكي من المحتمل أن يكون الحياة اليومية للشعب، وهو تطبيق مهم من مدبرة البشري والعمل المساعد للمقارنة.

المصدر: VentureBeat

وصلات ورقة: 1، "للتحقق من مكبر الصوت والكشف عن الزناد صوت تعدد المهام التعلم (MULTI-TASK التعلم لرئيس المجلس التحقق وVOICE TRIGGER DETECTION)" https://arxiv.org/pdf/2001.10816.pdf2، "رفع أكثر من التعرف على مستخدم اللغة ولغة (تحسين المتحدثين بلغة لتحديد هوية بعدة لغات) "https://arxiv.org/pdf/2001.11019.pdf

شكرا للقراءة. انقر المخاوف على متن معك موجة في طليعة التكنولوجيا -

طريق الحرير

أبل تكنولوجيا صوتية جديدة سر! التأخير سيري بنسبة 60، ودعم متعدد اللغات "تحرش"

الأول، والتحقق، ومكبر الصوت صوت الزناد كشف

ثانيا، للحد من اثار كاذبة

الثالث، والتعرف على اللغة متعدد اللغات

الاستنتاج: تقنية التعرف على الكلام إلى مزيد من تحسين وناضجة

وقال "الناس الكلب الحروب" بطل وراء! جعل ينظر جوجل TPU: رقاقة سحابة AI رائدة

الصينية النقالة سوق الهواتف 2019 بطاقة تقرير! وقد تم الترتيب هواوي با، لاعب صغير في طريق مسدود "تحميل المرفق"

الأكاديمية الصينية للعلوم 2019 العالمية تنمية الذكاء الاصطناعي ورقة بيضاء! ثماني تقنيات رئيسية في الصين ترتفع

على الطريقة الصينية اختراق: الأولى في العالم الروبوت المستهلك لمدة سنتين متتاليتين! منذ نهاية صناعة الروبوت دلتا نهر اليانغتسى

شي جين بينغ ذهب أواخر الربيع إلى تفسير تشجيانغ من "خطر" و "آلة"

اليوم الوطني، وقال انه صعد مائة متر جنوب غرب رفع العلم قويتشو Koho ...... هذا الحائز على جائزة فيديو العام الماضي، هذا العام الذي بدوره؟

أول ظهور الإيطالي وباء للحاكم، دعا محافظ الفيديو الصينية ترانس أوشن

من الفصول الدراسية إلى "عرض حي"، والتدريس على حد سواء في المنزل مع الطفل، وليو مشغول ......

السنة الجديدة للذهاب جذور العشب | وضع Minhang شنغهاي حتى 509 الكوماندوز أعضاء الوقاية من الاوبئة والسيطرة

البقاء في المنزل ومشاهدة الكتب الالكترونية المجانية يمكن أيضا أن تكون على الطبقات أولمبياد الرياضيات

بريطانيا إلى أوروبا، والدوري الممتاز، "أول دوري في العالم" عنوان فقدت؟

البالغ من العمر 73 عاما لي Lanjuan أكاديمي، قاد الفريق الطبي انطلقت في ووهان لعلاج مرضى مصابين بأمراض خطيرة

الطريقة الصحيحة لبذر ميكانيكية مفتوحة من فول الصويا في شمال شرق الصين

فتاة جيدة عقلية "الخاطبة" ما هاى بو 10 سنوات لسحب السلاسل مزرعة دونغفانغهونغ 3500 أزواج

سويسرا بوينس باخ (LISIBACH) MVA1250 حزب نوع الميثاق: بالة البرسيم مربع من حلول الجافة TMR

خلال وباء الربيع، كنت في حاجة الى نظام الطيار الآلي جرار

عندما يأتي موسم زراعة الأرز ، هل تفضل اختيار زراعة الأرز أو زرع الأرز عالي السرعة؟

UOB بورا سلسلة 2BMYFQ الهواء شفط البذارة، لتحقيق مجموعة متنوعة من المحاصيل المزروعة

الحرث جلب منافع؟ هذه الحراثة الميكانيكية لاختيار

ألمانيا تشو الغلة (دراغو) الذرة التقاط الوسائل والتقاط أجهزة مخصصة عالية ليانغ Youkui

فيلم الخيال العلمي إلى حقيقة! بوش النظارات الذكية الجيل القادم تأتي، يتم تقديم AR صورة مباشرة أمام

الملائكة الوصي! التطهير، والمخدرات الروبوت مساعدة في مكافحة هذا الوباء، ووهان، تم تجهيزها ونزهو

الأول، والتحقق، ومكبر الصوت صوت الزناد كشف

ثانيا، للحد من اثار كاذبة

الثالث، والتعرف على اللغة متعدد اللغات

الاستنتاج: تقنية التعرف على الكلام إلى مزيد من تحسين وناضجة

الأحكام ذات الصلة