أبل، وجوجل، ومايكروسوفت، والأمازون، التي مساعد صوت اللغة سوف أكثر؟

سبتمبر 2018، شركة تدعى Vocalize.ai الذكاء الاصطناعي شركة البدء للقيام اختبار، فإنه يقارن جوجل وأبل ومساعد صوت ذكي الأمازون، وجدت بعض الأمور المثيرة للاهتمام.

على سبيل المثال، يمكن أن ثلاثة مساعد صوت تكون جيدة الإنجليزية الأمريكية لهجات وتعترف لهجة الهندية، ولكن سيري واليكسا في تحديد لهجة الصينية، ودقة انخفاضا كبيرا.

مساعد صوت، وقد تم تحديد نفس اللغة لهجات مختلفة تحديا، ولكن "للتعلم" لغة جديدة هو أكثر صعوبة.

على سبيل المثال، حتى في خريف هذا العام، ستقوم سامسونج بيكسبي إضافة دعم الألمانية والفرنسية والإيطالية والإسبانية، وهذه إضافة إلى صوت أكثر من 600 مليون مستخدم، مايكروسوفت مايكروسوفت كورتانا استخدمت لسنوات عديدة لدعم الاسبانية والفرنسية والبرتغالية.

وقد تحقق نجاح كبير في مجال الذكاء الاصطناعي والتطور السريع من اليوم، والسبب في ذلك بطء تطور مساعد صوت؟ الإنسانية هي لإعادة بناء برج بابل، الذي هو مدى صعوبة ذلك؟

لماذا دعم صوتا جديدا مساعد صوت صعبة للغاية؟

مساعد صوت "للتعلم" لغة هناك نوعان من القضايا الكبرى: التعرف على الصوت والتوليف الصوتي.

التعرف على الصوت وينقسم إلى قسمين، فإن الخطوة الأولى هي المحولة إلى التعرف على الكلام نص صوت، والخطوة الثانية هي الفهم الدلالي، والتكنولوجيا المستخدمة هي معالجة اللغة أساسا الطبيعي.

دراسة متعمقة اختراق الذكاء الاصطناعي هو أحد الأسباب المهمة لالتطور السريع في السنوات الأخيرة. في الوقت الحاضر، ومجالات البحوث الكلام هي أساسا باستخدام الشبكة العصبية العميقة - مثل نفس وظائف حسابية الهرمية العصبية الإنسان، يمكن أن تستمر في التعلم الذاتي والتقدم.

صور: electronicsweekly

هذا هو بالفعل خطوة إلى الأمام ضخمة. تقنيات معالجة الصوت التلقائي الماضية (ASR) تعتمد أساسا على دليل التكيف من النماذج الإحصائية لحساب احتمال وجود مزيج من الكلمات في العبارة، وعمق الشبكة العصبية لا يقلل فقط من نسبة الخطأ، والابتعاد إلى حد كبير الحاجة إلى الإشراف البشري.

ولكن أساس فهم اللغة ليست كافية، لا يزال توطين تحديا كبيرا. كشف الجهاز الفني أنه في الوقت الحاضر، وفقا لنية أن يكون عن طريق لغة الاستعلام جديدة مغطاة لبناء وحدة فهم يتطلب 30-90 يوما. كما قال في البداية، حتى لو كانت لهجة هي تحديد لغة واحدة، هي تحد كبير.

الاختلافات الكبرى في لغات مختلفة. على سبيل المثال، في مستوى لغوي، وحدوث صفة الإنجليزية عادة قبل الأسماء، والظروف إما الجبهة، ويمكن أيضا أن تكون في هذا المنصب. هو مساعد صوت، والتي يمكن أن يؤدي بسهولة إلى الارتباك، مثل "النجوم" "نجم البحر" (نجم) كلمة، يمكن أن محرك صوت إلى نص يمكن بسهولة (نجمة) أن يفسر على أنه "الأسماك" (الأسماك) صفة.

بعد معالجة الكلام والنص على أن يكون مفهوما، ويجب أيضا تعبير مساعد الصوت البشري للرد.

وتشمل التكنولوجيات التقليدية محرك تركيب الكلام وقاعدة بيانات صوت الاصطناعية بشكل مسبق، ومحرك تركيب الكلام العثور على برنامج قواعد البيانات النطق مطابقة إلى نص الكمبيوتر في الكلام. ومع ذلك، فإن هذا "الصوت الاصطناعي" متناقضة للغاية، يبدو من الطبيعي جدا أيضا. من أجل تغطية أكثر من الكلمات، قاعدة بيانات الصوتية التقليدية هي عادة ما تكون كبيرة جدا.

الآن كلمة التكنولوجيا التوليف المعروفة باسم TTS (النص إلى الخطاب)، والذي يستخدم نموذج رياضي لإعادة الصوت، ومن ثم دمجها في الكلمات والجمل. TTS هو عرض أيضا على عمق جديد من التعلم، وأنه يمكن أن يكون أكثر قوة في عملية "التدريب" في.

في الوقت الحاضر، مقارنة مع التعرف على الكلام والفهم الدلالي والتكنولوجيا تركيب الكلام إلى أن تنضج كثيرا. شركات الإنترنت الكبرى في الصين وغالبا ما تستخدم تكنولوجيا تركيب الكلام في الأنشطة التشغيلية.

مساعد صوت عدة لغات والتي تدعم التوالي

مساعد جوجل

يدعم مساعد صوت غوغل معظم اللغات التي تدعم حاليا 30 لغة في 80 بلدا، بما في ذلك:

  • العربية (مصر والسعودية)
  • اللغة البنغالية
  • الصينية (التقليدية)
  • دانماركي
  • هولندي
  • الإنجليزية (أستراليا، كندا، الهند، اندونيسيا، ايرلندا، الفلبين، سنغافورة، تايلاند، المملكة المتحدة، الولايات المتحدة الأمريكية)
  • الفرنسية (كندا، فرنسا)
  • الألمانية (النمسا، ألمانيا)
  • الغوجاراتية
  • الهندية
  • الأندونيسية
  • الكانادا
  • اللغة الإيطالية
  • اليابانية
  • الكورية
  • لغة الملايو
  • المهاراتية
  • اللغة النرويجية
  • البولندية
  • البرتغالية (البرازيل)
  • الروسية
  • الإسبانية (الأرجنتين، تشيلي، كولومبيا، بيرو)
  • اللغة السويدية
  • لغة التاميل
  • التيلجو
  • التايلاندية
  • اللغة التركية
  • اللغة الأردية

سيري أبل

بعد 2018 تجاوزت مساعد جوجل، وعدد من اللغات التي تدعمها سيري تحتل حاليا المرتبة الثانية. بما في ذلك 21 لغة في 36 بلدا:

  • العربية
  • الصينية (الماندرين وشنغهاي لهجة والكانتونية)
  • دانماركي
  • هولندي
  • الإنجليزية
  • اللغة الفنلندية
  • اللغة الفرنسية
  • ألماني
  • اللغة العبرية
  • اللغة الإيطالية
  • اليابانية
  • الكورية
  • لغة الملايو
  • اللغة النرويجية
  • البرتغالية
  • الروسية
  • الأسبانية
  • اللغة السويدية
  • التايلاندية

مايكروسوفت Cornata

  • الصينية المبسطة
  • الإنجليزية (أستراليا، كندا، نيوزيلندا، الهند، المملكة المتحدة، الولايات المتحدة الأمريكية)
  • الفرنسية (كندا، فرنسا)
  • ألماني
  • اللغة الإيطالية
  • اليابانية
  • البرتغالية (البرازيل)
  • الإسبانية (المكسيك واسبانيا

اليكسا الأمازون

  • الإنجليزية (أستراليا، كندا، الهند، المملكة المتحدة والولايات المتحدة)
  • الفرنسية (كندا، فرنسا)
  • ألماني
  • اليابانية (اليابان)
  • الإسبانية (المكسيك، اسبانيا)

سامسونج بيكسبي

  • الإنجليزية
  • الصينية
  • ألماني
  • اللغة الفرنسية
  • اللغة الإيطالية
  • الكورية
  • الأسبانية

كيف تطور المستقبل؟

في التعرف على الكلام، تركيب الكلام والدلالي فهم الفن، وذلك أساسا بسبب تقدمهم وقدم التعلم العميق.

قد يكون الأبحاث مستقبل أكثر اعتمادا على صوت الجهاز في مجال التعلم مزيد من المساعدة.

"التعامل مع دعم متعدد اللغات جنبا إلى جنب مع قواعد مختلفة لقواعد اللغة، والذي يعد حاليا واحدا من التحديات الرئيسية، يجب التعبير نموذج معالجة تأخذ بعين الاعتبار والتكيف مع هذه القواعد النحوية،" هيمي خان، نائب رئيس شركة الذكاء الاصطناعي Clinc يفسر، "معظم اللغات الطبيعية معالجة مجموعة الجملة نموذج، تصنيف أقسام الكلام - الاعتراف النحوي في المعنى، وإنشاء قواعد لتحديد كيفية تفسير النحوي ".

برج الأسطوري بابل، لأنه سيتم تعطيل الله لغة الإنسان والصور من تعليق البناء :. Jonathanpark

في المستقبل، إذا كنت حصلت على كومة الحقيقي الشبكة العصبية - مكتبة، ولكن أكثر اعتمادا على اللغة، كلمات وقاموس للنظام، يمكننا التركيز على اللغة لدراسة تضمين كلمة، ونموذج متصل المضمنة. لذلك، "ويمكن تطبيقه على التعرف على الكلام في اللغات تقريبا."

انها مجرد اتجاه البحوث. ولكن عموما، واستخدام كميات هائلة من حوار حقيقي كما المثول للتعلم الآلة، وعدم الاعتماد كثيرا على تعريف نماذج الاعتراف الاصطناعية، ومساعد صوت يمكن بفعالية مساعدة أكثر "ذكاء".

الشكل سؤال من: thewiredshopper

دانينغ شرب مكان جيد! النبيذ كيف عطرة، ومتى الساق رئيسه!

فقدت نصف 85 نقطة ووريورز ضرب "وعاء الأرز التدبير المنزلي"، الإصدار القديم من الموت أكثر متوازنة 5 صغيرة 01:00

"بوكيمون" كما التنين ينفث النار الأولي العصاة وXiaozhi؟ الرماد في وقت مبكر لأن الماء؟

وأضافت RNG الملعب وعضوين جديدين AD، وهذا هو التغيير عوزي وMLXG للضغط على؟

صدر PS4 النخبة مقبض C40 TR أول تصريح رسمي التعامل مع غير المتماثلة!

RTX 2060 الأسعار المحلية للنسخة غير العام أطلق سراحه! سوتر ثلاث بطاقات 2899 يوان ليوان 3299

3 عقوبة هاردن وصواريخ الطيران، لا Pengci الملتحي "جنح الظلام"؟

حجر الموقد أسطورة حكاية: أنت تعرف أن تلك البطاقات تغيير المهارات بطل ذلك؟

"المرأة فقط 0 مرات ومرات عديدة،" غير صحيح! المسرحية تبين أن هذه ابتسامة كبيرة؟

"بنديكت السادس عشر" لحل أزمة الصواريخ؟ جاسوس لعبة فيلم "الخشب الحديد" استوديو الصور

بعد فوزه على صديقته أثناء حصن الحية كانت مغلقة ليلا مرساة إعادة البث الاحتجاج ومنعت مرة أخرى المستخدمين

بول لا يزال صاروخ حد ضرب قتل، ورق الكرافت السير؟ CP هو "خلفية سكين"