الذكاء الاصطناعي جوجل التقنية للإساءة نهاية البشرية، مجرد 5000 ساعة من TV-قراءة الشفاه!

ملاحظة المحرر: يتم AI توجهات سوق العمل انتزاع الإنسان أصبح واضحا، ومؤخرا، والتي تهدف إلى صناعة جديدة، ولكن تسديدة للقيام بعمل أفضل من خبراء الصناعة.

AI بطل الرواية أو القهوة كبيرة جوجل DeepMind، وهذه المرة أنها تتعاون مع جامعة أكسفورد، ودراسة عدد كبير من برامج بي بي سي من خلال آلة لتعلم مهارة جديدة: القراءة الشفة التقنية. إثارة للخوف هو أن الذكاء الاصطناعي علم فحسب، ولكن أيضا جعل خبراء قراءة الشفاه للعار.

قراءة الشفاه هي المهارات البشرية فريدة من نوعها، هو شيء صعب للغاية، والسياق اللغوي للمعرفة وفهم متطلبات وبقدر القرائن البصرية، ولكن لم AI مرة أخرى.

AI نظام الكائن تعلم ما يقرب من 5000 ساعة من أنواع بي بي سي من البرامج، بما في ذلك بي بي سي، بي بي سي الإفطار، مسألة وقت، الخ، وكلها تضيف ما يصل إلى حوالي 118،000 الجملة أشرطة الفيديو.

جوجل DeepMind وجامعة أكسفورد واستخدم فريق بحث مشترك مادة البرنامج التلفزيوني خلال الفترة من يناير 2010 وحتى ديسمبر 2015 لأنظمة منظمة العفو الدولية للتدريب، ثم مارس 2016 - كان البث سبتمبر من برنامج AI اختبار الأداء.

قاعدة بيانات برنامج بي بي سي. من اليسار إلى اليمين: قناة، اسم البرنامج، وعدد من ساعات، وعدد من الجمل

من خلال مراقبة برامج الشفة المتكلم، يمكن نظام AI تفسر بدقة النص، مثل المقارنة التالية من هذه "الفم" في الجملة: "نحن نعلم أنه سيكون هناك حضر مئات مؤتمر صحفي" (ونحن نعرف أنه سيكون هناك المئات من الصحفيين هنا أيضا)، و "وفقا لأحدث إحصاءات المكتب الوطني للإحصاءات" (وفقا لthelatest الأرقام الصادرة عن مكتب الإحصاءات الوطنية).

DT يونيو الاختبار أكثر من بيان الإنجليزية، وجدت في الواقع أن التغيير شفة ليست واضحة، والبرامج التلفزيونية سرعة سريع جدا، من الصعب أن نتخيل.

قاعدة بيانات برنامج بي بي سي في الفيلم الأصلي دون ترجمات

ترجمات قراءة الشفاه متزامنة من قبل أنظمة جوجل DeepMind AI

AI القدرة على ترقية

بيانات محددة من نتائج الاختبار قد تكون أكثر القصص: مارس 2016 - مكتبة البرامج سبتمبر 200 تم اختيارها عشوائيا على الكلام المشهد اختبارات المقارنة القراءة الشفاه، خبراء البشري سعر دقيق تماما من 12.4، في حين أن منظمة العفو الدولية هو سعر دقيق تماما من 46.8 .

وهناك الكثير من الأخطاء AI لا يهم حقا، مثل وراء صيغة الجمع "ليالي" في عداد المفقودين، وما شابه ذلك. ولكن على الرغم من ذلك، AI أو الإساءة نهاية خبراء قراءة الشفاه البشري.

الذكاء الاصطناعي، ويقول خبراء الصناعة، "هذا هو بالتأكيد خطوة أولى في بناء مؤتمتة بالكامل نظام قراءة الشفاه! مختلفة قاعدة بيانات كبيرة الحالية يمكن أن تدعم تطوير تكنولوجيا التعلم عميقة."

عندما لون الشفاه برنامج قاعدة بيانات الصورة العليا لهيئة الاذاعة البريطانية الأصل الصور الثابتة والصور بالأبيض والأسود أدناه شخصين مختلفين ويقول "بعد ظهر اليوم" (بعد الظهر) كلمة

قبل أسبوعين، وجامعة أكسفورد وضعت عمق مماثل تعلم LipNet نظام، كان نظام 93.4 مقابل 52.3 كان فوزا كبيرا على خبراء قراءة الشفاه البشري، ولكن ليس تماما شرح المشكلة، بعد كل شيء، LipNet والبشرية ويستند المنافسة على جسم GRID، حيث تحتوي قاعدة بيانات هذا فقط 51 المفردات الخاصة .

DeepMind برنامج بي بي سي قاعدة البيانات المحدد ولكن يحتوي على مذهلة 17500 المفردات الخاصة والذكاء الاصطناعي، وهذا هو بلا شك تحديا هائلا.

الصوت والفيديو GRID البيانات الإحضار نسبيا أبسط من ذلك بكثير

وبالإضافة إلى ذلك، قاعدة بيانات برنامج بي بي سي تحتوي على مختلف استخدام البشري النحوية في الكلام العادي، والإحضار GRID الأحكام 33000 استخدام نفس التعبير، الأمر الذي يجعل الجملة يمكن بسهولة توقع، وصعوبة ونسبيا أقل من ذلك بكثير.

سوف DeepMind وفريق من الباحثين في جامعة أكسفورد فتح قاعدة بيانات برنامج بي بي سي للاستخدام الأقران. سوف يانيس أصايل من التمثيل LipNet تكون أول من استخدام قاعدة البيانات هذه لتدريب نظام AI-القراءة على الشفاه.

شفتيه اصطف

إذا كنت ترغب في تدريب نظام قراءة الشفاه التلقائي من خلال برنامج بي بي سي هذا النوع من قاعدة بيانات الفيديو، يجب أن ندع آلة التعلم في وقت مبكر من كل مقطع فيديو. والمشكلة هي أن وغالبا ما لا متزامنة برنامج دفق الفيديو ودفق الصوت تماما قد يكون هناك حتى تصل إلى حوالي 1 الفرق مرة الثانية.

ببساطة، فهو يجعل آلة تماما منغوليا دائرة، لأن الشفة في الفيديو والصوت تظهر في أي وسيلة مثالية تناسب، وآلة غير قادر على نطق شفة معينة وإدانتها . ويبدو، AI تعلم يبدو تقنية قراءة الشفاه أن يكون مستحيلا.

لحل هذه المشكلة هو السماح للكمبيوتر أن تعلم أن متزامنة تماما دفق الصوت والفيديو، وفهم العلاقة بين اللفظ والشفاه، ثم الصوت والفيديو تيارات أنفسهم يستنتج لا تتم مزامنة تلك الصور، ثم التصحيح التلقائي . هذا الأسلوب هو استخدام الصوت والفيديو DeepMind 5000 ساعة نظام AI إلى تيار العملية تلقائيا. إذا ما استخدمت لمزامنة عبء العمل معايرة يدويا ببساطة كبيرة أن نتخيل.

استخدام DeepMind من "نظرة، والاستماع، ومحاولة والهجاء" الهندسة المعمارية. حيث لأول مرة فك ويي متجهين، ومن ثم لتحديد تيار الصوت والفيديو المقابلة لتسلسل الإدخال بواسطة ناقل

حسنا، السؤال هو، AI شفة القراء شيئا حتى كبيرة، في النهاية سوف تستخدم لتفعل؟ يظهر يونيو شاشة العقل DT الأول هو: "سكاي نت" مراقبة بصمت المحادثة للبشرية جمعاء، مجرد إلقاء نظرة على الشفاه لمعرفة ما الذي نتحدث عنه ......

على الرغم من أن الخوف من الفكر غرامة للغاية، ولكن الخبراء يقولون، عندما يأتي لمراقبة هذا الشيء، بدلا من هذه الحملة الكبيرة، وليس الميكروفون المراقبة والسوبر البعيد هو أكثر وضوحا تأثير جيدة. لذلك، في الوقت الراهن، لا شيء للخوف.

في المقابل، الاتجاه AI تكنولوجيا قراءة الشفاه هو أكثر التطبيقات الممكنة الالكترونيات الاستهلاكية ، السماح الجهاز لمعرفة ما يريد المستخدم أن أقول، حتى لو لم الصوت. "كلمات لفظ" هذا الشيء لأنها قد تصبح هي القاعدة في المستقبل من التفاعل بين الإنسان والحاسوب.

يانيس أصايل LipNet من فريق البحث في جامعة أكسفورد، والتكنولوجيا، وعلق هو: "نحن نعتقد أن AI تكنولوجيا قراءة الشفاه هي التكنولوجيات المساعدة مفيدة جدا، مثل أجهزة السمع أكثر ذكاء، إزعاج بصوت عال في الأماكن العامة (سيري لم يعد أسمع صوتك)، ودقة التعرف على الكلام في بيئة صاخبة. "

وأخيرا، سلسلة صغيرة من البيض، واختبار لأغراض القراءة شفة.

تسينغهوا MOOC- علم البيانات الكبيرة وتطبيق على الخط سلسلة محاضرات جديدة

تشنغدو "السلطة 110" الكابتن ليو المصدر: من المجتمع إلى خط الانقاذ، والتمسك 13 عاما إلى "صغيرة جيدة"

قبل 15 عاما، وقال انه استحوذت على حصة 50 في تينسنت، تينسنت اليوم ما سوف نجد

فتح التلفريك قديم شارع القرية "قرية على سلم" الشهر اقامة "الطريق اليوم للخروج من الفقر".

اجتمع في تشنغدو، ييبين ثروة وطنية "مغسلة" يبدو بو

إدارة البيانات الصناعية الكبرى التكنولوجيا والفن

الطفلة كان عقد الاصبع حاوية تابعة حطم الشرطة هرعت الى المستشفى

! كفاءة لونينغ AFC وراء الشوط من المباراة، لقطات على الهدف، ولكن أكثر بكثير من منافسيه!

جرد وسائل الإعلام الأجنبية من 2016 العشرة الهندسة المدهشة والابتكار التقني لل

شقيق دعي الهيكل لحضور كأس القارات العودة النهائية من الكأس يصبح المفقودة ومارادونا الصورة

أعلنت شركة مايكروسوفت الثقيلة تصنيع الكمبيوتر الكم جديد، وعلى النقيض مع جوجل وIBM مسار

رائد التعلم الآلي مايكل I. جوردان تسينغهوا الكلام البضائع الجافة