وصل إعادة كسر التعرف على محادثة صوتية مايكروسوفت، لأول مرة على المستوى المهني البشرية

11 يوان Xinzhi

وقبل شهر، 14 سبتمبر 2016، التخاطب تكنولوجيا التعرف على الكلام مايكروسوفت لتحقيق معدل خطأ كلمة في معيار التعرف على الكلام القياسي لوحة التبديل الصناعة (نسبة الخطأ كلمة، ويشار إلى WER) ما يصل الى 6.3 اختراق إنشاء الوقت في نسبة الخطأ الحقل أدنى مستوى على الاطلاق.

وبعد شهر، يوم 18 أكتوبر، ومايكروسوفت يؤدي إلى تقليل نسبة الخطأ كلمة إلى 5.9 دون تغيير من المرة الأولى للوصول إلى مختزل المهنية وأفضل من أداء معظم الناس: خلال عطلة نهاية الأسبوع، قسم بحوث الذكاء الاصطناعي مايكروسوفت من الباحثين والمهندسين أفرجت ورقة "تحقيق المساواة بين البشر في التعرف على الكلام المحادثة"، ويبين نظام التعرف على الكلام من هذا السجل.

ما التخاطب التعرف على الكلام معدل خطأ كلمة من 5.9 يعني؟

لوحة مفاتيح في صناعة معيار اختبار مهمة التعرف على الكلام، والبشر المجموعة الضابطة (التي تتألف من قبل مختزل المهنية) إلى كتب خطاب التخاطب في النص، وهناك تسجيل حاليا أدنى معدل خطأ كلمة هو 5.9، وهو ما يعني أن نظام التعرف على الصوت صوت مايكروسوفت وقد تم الاعتراف أعلى من الغالبية العظمى من الناس في العالم من المهنية ومتوازن سيد البشرية، وخلق رقما قياسيا عالميا جديدا.

وكان أكثر إثارة هو من 6.3 إلى 5.9، وقسم بحوث الذكاء الاصطناعي من مايكروسوفت قضى أكثر من شهر، مما يعطينا سببا للاعتقاد بأن جهاز الكمبيوتر حقا وراء قدرات التعرف على الكلام البشري في ذلك اليوم ليس بعيدا .

الدكتور هوانغ Xuedong، قال الرئيس بصوت عالم مايكروسوفت، "في التعرف على الكلام التخاطب، وحققنا نفس المستوى والبشر، وهذا هو اختراق تاريخي، وهو ما يعني مرة الأولى على الإطلاق هناك جهاز كمبيوتر الاعتراف الحوار مثل البشر كل كلمة. و، لدينا فريق أمضى أقل من عام لتحقيق هذا الهدف، والتي فاقت توقعات الجميع. "حتى في تهمة الدكتور هاري شوم، ومايكروسوفت نائب الرئيس التنفيذي لقسم الأبحاث العالمية مايكروسوفت الذكاء الاصطناعي وضحك عبارة "إذا قبل خمس سنوات، وأنا على الاطلاق لا يمكن أن يعتقد نتمكن من تحقيق هذا الهدف."

للتعرف على الكلام يمكن ارجاعه الى DARPA (وكالة الدفاع مشاريع البحوث المتقدمة، وزارة الخارجية الامريكية من وكالة مشاريع أبحاث الدفاع المتقدمة، مكرسة للبحث والتطوير وتطبيق التكنولوجيا الفائقة وزارة الدفاع الامريكية) السبعينيات من القرن الماضي مشروعا ذات الصلة تمويل. بعد بضعة عقود، وقد انضم الشركات أكثر وأكثر الكبيرة والمؤسسات البحثية لهم. "هذا التقدم هو نتيجة لأكثر من عقدين من تكنولوجيا التعرف على الكلام مواصلة تتراكم"، وقال الباحث مايكروسوفت المسؤول عن اللغة والحوار الدراسات جيفري تسفايغ.

سوف المعلم اختراق التعرف على الكلام يكون لها تأثير عميق على المنتجات الاستهلاكية والتجارية، لأن تكنولوجيا التعرف على الصوت يمكن أن يعزز إلى حد كبير تجربة الناس الحوسبة اليومية. وتشمل هذه المنتجات مثل أجهزة الترفيه XBOX، والأدوات الإنتاجية مثل مايكروسوفت Huna (مايكروسوفت كورتانا)، وتمكن في الوقت الحقيقي الذكاء الاصطناعي صوت مساعد شخصي لنسخ النص. وأضاف شوم "وهذه التكنولوجيا أصبحت أكثر قوة Huna، خدمات Huna فعال لتشمل مساعد أكثر ذكاء".

"حلم لحصان."

جيفري تسفايغ أنهم سينجحون هذا النظام وذلك بفضل أحدث التقنيات التي يستخدمونها الشبكات العصبية، يسمح للباحثين لتحقيق نقلة نوعية في مفتاح هو أنها تستخدم نموذجا اللغوية العصبية، التي تم عرضها كناقل المستمر في الفضاء من خلال نموذج جهاز الكمبيوتر أن مثل هذه "سريع" و "سريعة" هي مرادفات وترتبط ارتباطا وثيقا. "وهذا يسمح للنموذج لوضع تصور كامل لكل المفردات." تسفايغ يفسر.

مع الشبكات العصبية العميقة لإظهار مواهبهم في التعرف على الكلام والتعرف على الصور وغيرها من المجالات، والتكنولوجيا أصبحت ساخنة.

DNN كمية كبيرة من البيانات (ويشار إلى أن مجموعة التدريب) لتدريب واسطة الاعتراف، نظام الكمبيوتر من الآخر الصورة أو الصوت الإدخال. لتحقيق نفس المستوى من الاعتراف ومعلما البشري، واستخدم فريق مايكروسوفت كانت حزمة Microsoft قبل عام على جيثب مفتوحة المصدر التوطين على أساس نظام التعلم العميق وضعتها سنوات من التكنولوجيا المتراكمة أدوات CNTK، CNTK، ويشمل الآن الذكاء الاصطناعي المساعد مايكروسوفت شخصي Huna والتعرف على الكلام واقع مختلط الثلاثية الأبعاد نظارات HoloLens هي التنفيذ استنادا CNTK.

الدكتور هوانغ Xuedong التمثيل، CNTK مع البرمجيات مفتوحة المصدر الآخر، أكبر الفرق هو أنه يمكن القيام به على نطاق واسع، وزعت تعلم الآلة، مع ضمان الأداء القوي، بل يمكن القول إن تكنولوجيا التعرف على الكلام مايكروسوفت يمكن تحديث السجل مرة أخرى ومرة أخرى، إلى حد كبير سوف CNTK يكون عائدا على أداة مفتوحة المصدر أن يحسن كثيرا من سرعة فريق البحث، وبلغت ذروتها في اليوم لتحقيق هدف المساواة الخبرات البشرية.

جاء العودة بسرعة، والبحوث التعرف على الكلام في أكثر من 30 عاما الدكتور ونغ يقول لنا، "هو نتيجة 5.9 التي تحققت في 03:30، استيقظت في وقت مبكر من الصباح وحتى بعد بضع ساعات قبل ذلك، في ذلك الوقت وكان أعضاء الفريق للمرة الأولى للمشاركة في فرحة النجاح الخاصة بهم في وسائل الإعلام الاجتماعي ...... بالنسبة لي هو مجرد حلم لسنوات عديدة، وبمجرد أن يتحقق ".

الصف الخلفي من اليسار: واين شيونغ، جيفري تسفايغ، فرانك Seide، الصف الأمامي من اليسار: هوانغ Xuedong، دونغ يو، مايك سيلتزر، Jasha Droppo، أندرياس Stolcke، تصوير: دان ديلونغ

وفي الوقت نفسه، حقق الباحثون من مجموعة الحوسبة البصرية مايكروسوفت للبحوث آسيا أيضا طفرة تاريخية أنفسهم في مجال عملك، وتنقسم التحدي في التعرف على الصور MS COCO (كائنات Microsoft العامة في السياق، وجوه التعرف على الصور مشترك) للحصول على أول صورة الاسم. موقف التقنية للأجسام معينة من هذه الدراسة لتحديد التحدي الرئيسي في الصورة. وقال الدكتور قوه Baining نائب الرئيس التنفيذي لمايكروسوفت للبحوث آسيا صعوبة تكنولوجيا تقطيع الصورة إلى ما هو أبعد من الخيال الناس، لأن الكمبيوتر يجب تحديد الحدود الدقيقة ليظهر الكائن في الصورة، "هذا يجب أن يكون الجزء الأكثر صعوبة في التعرف على الصور. "

في العام الماضي، وفريق تصميم نظام الشبكة العصبية العميق لذلك، دعا عمق الشبكة المتبقية العميقة (المشار إليها باسم ResNet والشبكات المتبقية عميقة ). النظام الحائز على جائزة يستند رصاصة واحدة، مثل الإنجازات اختراق على تجزئة الصورة أيضا على هذا النظام، وعشرات بنسبة 11 في المئة أعلى من الثانية، و، مقارنة بالعام الماضي صورة COCO تجزئة المقام الأول عشرات التحدي وهناك أيضا قفزة من التقدم. وفي هذا الصدد، قال الدكتور قوه Baining بفخر "لقد كانت مايكروسوفت دائما رائدة في مجال التعرف على الصور."

من تحديد لفهم حقا "، ونحن لن نتوقف عند 5.9."

رغم أنه في السنوات الأخيرة العلماء في رؤية الكمبيوتر والتعرف على الكلام قد حققوا اختراقا كبيرا، ولكنهم يعرفون ما زال هناك الكثير من العمل للقيام به.

الحوار لا يزال خطاب تكنولوجيا التعرف، على سبيل المثال، كلمة فريق من الدرجة خطأ Microsoft، على الرغم من أن تحقيق مختزل المهنية شقة الإنسان 5.9، ولكن هذا لا يعني أن الكمبيوتر يمكن التعرف على كل كلمة تماما. في الواقع، البشر حتى لا يمكن أن تكون مثالية، فهذا يعني أن الكمبيوتر نسبة الخطأ ستنهزم الكمبيوتر نفسه في مواجهة المحتوى الإنساني في كثير من الأحيان من الصعب أن نتبين بدقة: إما الكمبيوتر أو الإنسان، سوف تجد "الأزرق رقيقة"، " الفطر "(" حزين "،" صرخة ") من الصعب التعامل معها.

وقال تسفايغ "يجب أن نواصل العمل بجد!". واحدة من مساعيها المقبلة، هو التأكد من أن تكنولوجيا التعرف على الصوت يمكن أن تدفع على تجمعات مماثلة في صوت الإنسان أو الخلفية صديق ضوضاء الطريق السريع صاخبة حتى بعض من أكثر تعقيدا سيناريوهات الحياة الحقيقية يمكن تحديد بدقة، مع التركيز على كيفية تحسين طريقة تنفيذها لمساعدة اسم الكمبيوتر المخصصة لكل متكلم في حالة من الناس يتحدثون، وتأكد من علبة الكمبيوتر، بغض النظر عن العمر، لهجة ودرجة الصوت للسماعات وتحديد مجموعة متنوعة من صوت.

وعلى المدى الطويل، وسوف يركز الباحثون على كيفية تعليم الناس الكمبيوتر سوف لا إشارات الصوت فقط المنبعثة من الفم يصبح النص، ولكن أيضا لفهم معنى الخطاب الناس. ونتيجة لذلك، فإن مستخدمي الكمبيوتر أن يكون قادرا على الإجابة على الأسئلة بدقة أو اتخاذ الإجراءات المناسبة. وقال تسفايغ "آفاق جديدة هو من تكنولوجيا التعرف على فهم".

من منظور أوسع، وأشار الدكتور هاري شوم بها، يجب علينا أن نفهم أننا نتحرك بعيدا عن عالم الكمبيوتر وتدريجيا إغلاق الكمبيوتر يجب أن يفهم عالمنا، والذكاء الاصطناعي الحقيقي هو لا يزال في الأفق البعيد هذا الجانب، "الكمبيوتر يمكن أن نفهم حقا لغتنا قبل أو التخطيطي، لدينا طريق طويل لنقطعه ".

المشترين الصينيين لشراء أو مخاطر في لندن، بعد جرف انخفاض أسعار المساكن أو "مصادرة"؟

الكلام حقا! لماذا لا تشتري اي فون XS ماكس؟

فن العمليات تينسنت الحرب: كيف مستخدمين معرفة العمليات المنتج أفضل؟

بورش الرجل العودة إلى القرية، وكان يضحك القرويون: يمكن حتى خمس سيارات لا تحمل!

بعد روسيا والهند بالدولار الأمريكي أو تسعير السيف، الاقتصاد الهندي على مقربة من النفط الخام أو RMB

الثقيلة! أورورا في نصف الكرة الشمالي هذا قبل عام من اندلاع، غزاة الضوء يقبل بسرعة!

امرأة "صديقها" خدع أكثر من عشرة ملايين، ولكن الشرطة اعتقلت لها منذ فترة طويلة صديق ......

فاي ليو Qingfeng أخبار: AI لا اغتنام المبادرة، وستواصل الصين العمل في جميع أنحاء العالم

منتجات الأجهزة سريعة، منتجات نصف منتهية من بداية مثالية

مبيعات السيارات اليابانية في تحليل الصين تويوتا ركوب شو، والتقاط هوندا، مازدا تراجع!

الاقتصادي ميرفين كينج: بالإضافة إلى العناصر الستة ، يعتمد الابتكار البريطاني على هذا السحر

قتل أم وابنتها الجنازة والشرطة نشرت فيديو للمراقبة، وتقديم مكافأة قدرها 200،000 هايد!