جرو الكلب هو الكلب! DeepMind خطوة كبيرة إلى البصرية لوسائل الإعلام، أن تفعل غير خاضعة للرقابة الترجمة الآلية فعالة جدا

الكاتب | جيانغ شانغ باو

عندما حاجز اللغة عند التواصل شخصين، والإيماءات والعين وأصبح طبيعيا قطعة أثرية الاتصالات. في بعض الأحيان، والإيماءات والنظرات عندما معنى التعبير يمكن أن يكون تساوي ألف كلمة.

هذا لا يمكن أن يكون مزايا مماثلة مع الترجمة الآلية؟

في الآونة الأخيرة، من DeepMind، جامعة أكسفورد وجامعة كارنيجي ميلون الباحثين نشرت ورقة معا "البصرية الأرضية في الفيديو لكلمة بدون اشراف الترجمة"، اقترح رسم الخرائط كلمة غير خاضعة للرقابة لتحسين أساس البصرية.

وقد تم قبول أوراق (شبكة لى فنغ) Cipian لCVPR عام 2020. المواد عنوان: الشبكي: //arxiv.org/pdf/2003.05078.pdf

الفكرة الأساسية لهذه الورقة هو: الجنس البشري على وجه الأرض يمكن أن يقول الآلاف من لغات مختلفة، ولكن مع "العين" لرؤية العالم هو في الواقع واحد فقط، مع هذا الأساس البصرية، يمكننا ردم الهوة بين اللغات.

الفكرة العامة: استخدام أشرطة فيديو تعليمية الحصول على رؤية مشتركة

على الورق وطريقة بسيطة جدا في الاستخدام، هذا النموذج من قبل "مشاهدة" الفيديو، وإنشاء تمثيل مرئي المشترك بين اللغتين، وتحديدا في رؤية مشتركة بناء تعطى جزءا لا يتجزأ في حالة - النص المختلط رسم الخرائط الخوارزمية.

(ليو فنغ شبكة)، على الرغم من عدة لغات، ويصف الشيء نفسه

هنا مثال بسيط، عندما يتعلم الأطفال اللغة، وأكثر من ذلك هو لمراقبة البيئة والتفاعل مع الناس حولها، في هذه العملية، لا يتطلب أي توجيه وإشراف واضح. عندما تعلم العديد من اللغات، يمكنك الاستفادة من حالات مماثلة في ظل ظروف مختلفة: سمع "كلب يأكل" عند رؤية البصر، والسمع والبصر الجمعة عندما "لو شين الجرب" الجملة لمعرفة يوم الاثنين وهو مشابه.

المؤلفون عند بناء نظام الترجمة غير خاضعة للرقابة، يعتمد على الأفكار المذكورة أعلاه: الناس لا الأشياء في بلدان مختلفة لتوفير الفيديو للنظام، في حين أن استخدام لغتهم الأم لشرح ما يفعلون. اختيار محتوى مشابه تقريبا لأشرطة فيديو تعليمية، على سبيل المثال، على الرغم من لغات مختلفة، ولكن تعليم الناس كيف عصير البرتقال دروس تعليمية الفيديو.

هناك الكثير من أشرطة الفيديو التعليمية على موقع يوتيوب، وتشابه محتوى مرتفع جدا، وبالتالي فإن الكتاب كما استخدمت بيانات التدريب الفيديو التعليمية. قال أولا، مضمون تجميع التدريس الفيديو ليست سهلة، يعقبه أحيانا فيديو تعليمي في "محاضر": على الرغم من أن استخدام تقنية التعرف على الكلام التلقائي يمكن أن يكون هناك الكثير من الفيديو وشرح المقابلة، ولكن البيانات التي تم جمعها لديه العديد من العيوب خارج الموضوع حماقة.

على الرغم من أن هناك تحديات، ولكن هذه الرؤية المشتركة لتعزيز دقة الترجمة. كما هو مبين، قدمت ترجمة للأوراق في بريطانيا وفرنسا كما هو مبين أعلاه. ويقال أن من خلال النظر في شريط الفيديو، في ترجمة الكلمات التي يشيع استخدامها والكلمات البصرية يمكن أن يحقق معدل الصحيح من 28.0 و 45.3، مقارنة مع دقة استرجاع طريقة الترجمة على أساس 12.5 و 18.6 أعلى من الكثير.

الهندسة المعمارية النموذجية: متعدد اللغات التعلم غير خاضعة للرقابة

(شبكة لى فنغ)

كما هو مبين أعلاه، يتضمن نموذج كامل ثلاثة الترميز، واحدة للX لغة، واحدة لY و Z، واحد للفيديو. ويتكون هذا النموذج من ثلاثة الترميز، بعد التدريب، والهدف هو أن تكون قادرة على إنشاء الفيديو Z X Y اللغة وتعيين اللغة.

تشفير اللغة X يتكون من ثلاثة أجزاء: كلمة طبقة دفن؛ 2، طبقة الشبكة تغذية (موقف الحكيم مرتبطة ارتباطا كاملا طبقة التغذية إلى الأمام) قبل وضع متصلة تماما بسيطة؛ 3، طبقة الخطية. حيث تأثير كلمة طبقة جزءا لا يتجزأ من هو تحويل تسلسل لناقلات الأبعاد، طبقة الشبكة feedforward قبل إجراء الاقتران الكامل هو الآن أكبر تجمع للكلمة، ومن ثم يولد ناقل تسلسل البعد، تأثير الخطية طبقة هو خلق مساحة الإدراج المشترك والتمثيل وسيطة (المتوسط التمثيل) رسم الخرائط.

Y التشفير للغة، واستخدام النماذج عبر اللغات تقاسم الأوزان، وطبقة أي حقوق المشاركة feedforward والطبقة الأخيرة على وزن الخطي بين X اللغة ولغة الترميز Y. لإدخال لغة مختلفة لطبقة المشتركة للكلمة في اللغة Y هي طبقة خطية دعا AdaptLayer أضاف بعد دمج طبقة.

AdaptLayer التأثير لتغيير مساحة الإدراج كلمة لغة Y اللغة كلمة Y جزءا لا يتجزأ من تضمين مماثل كلمة لغة X هو ممكن.

حول تشفير الفيديو، واستخدام نموذج I3D القياسية، بالإضافة إلى تعيين خطيا إلى طبقة الناتج جزءا لا يتجزأ من الفضاء المشترك. ملاحظة المحرر: يمكن فهم نموذج I3D بأنها تقوم على نسخة محسنة من شبكة التفاف 2D، لتقف على اثنين من تيار تضخم 3D ConvNet، أدرج رقته في عام 2017 CVPR.

و، ز، ح المقابلة اللغة X، Y، والفيديو تضمين ظيفة Z، يتم تعريف L عن وظيفة الخسارة.

كما هو مبين، وفقا لإدخال المؤلفين، من خلال تحديد الصيغة أعلاه، يمكن أن تكون ممتدة الهدف الأمثل استراتيجية للتدريب على نموذج كامل كصيغة إلى الوضع متعدد اللغات.

يتم تعريف L الصيغة أعلاه (و، ح) على النحو التالي:

ويعرف NCE على النحو التالي:

عن طريق التقليل من وظيفة الخسارة فوق نموذج التدريب المشترك يمكن إنشاء الخرائط من اللغتين، وهذا هو، لxX معين، ويمكن الاطلاع على yY.

التجربة: "I" نموذج أكثر قوة

في الجزء التجريبي، مقارنة الحالي يمكن أن تصل إلى SOTA النص القائم على نموذج الترجمة، وجد الباحثون أن نموذجهم هو أكثر المعلقة في الترجمة.

خلال التجربة، والرمز المميز للمؤلف نسخة من شريط الفيديو، إلى 65،536 لكل لغة الأكثر شيوعا كلمة تتقارب إلى المفردات. بعد المعالجة، استخدمت الكتاب word2vec كلمة تدريب أحادي اللغة جزءا لا يتجزأ، و(الخوارزمية المقترحة من قبل المؤلفين في) في MUVE، MUSE وVecMap جزءا لا يتجزأ من هذه النماذج استخدام قبل المدربين.

في مجال التدريب، مقطع فيديو لمقتطفات المركزة في المبالغ المقابلة من البيانات المحددة. كل دفعة تضم تدريب جزء لغة من أي لغة، والخسارة في NCE سلبي كل عنصر هو عنصر من مجموعة أخرى من نفس اللغة.

وعلاوة على ذلك، لترميز الفيديو، ويتم ضبط I3D نموذج حركية-400 على مجموعة البيانات المدربين قبل ناعما لنموذج لغة المدربين قبل من الكلمات على طبقات كل منها جزءا لا يتجزأ من مجموعة البيانات HowToW نص.

واستخدم القائمون على الدراسة آدم محسن، يتم تعيين نسبة التعلم الأولي إلى 10 (-3)، والقدرة على دفعة من 128، واثنين من نموذج التدريب سحابة TPU 200K التكرار.

من حيث البحوث يمكن أن تحسن نوعية الترجمة كلمة، فإن المؤلف تملك نموذجين آخرين خط الأساس للمقارنة. يعمل خط الأساس الأول (عشوائية فرصة) من دون استخدام الفيديو التي تم استردادها الترجمة، تستخدم المجموعة الثانية استرجاع الفيديو (فيديو استرجاع)، وخلق جسم مواز باستخدام الفيديو بين لغتين.

كما هو مبين أعلاه في ترجمة من الإنجليزية إلى الفرنسية، صاحب الأداء نموذج على كل المقاييس أفضل بكثير من الأساس. وعلاوة على ذلك، كان MUVE (خط 4) من أي نموذج القاعدة (الخط 3) تحسن كبير (مع + 19.8 + 30.3 وتحسين المطلق في كلمة القاموس والإشارة بسيطة، على التوالي)

لذلك، لا يمكن للنموذج تحسين كلمة طريقة الترجمة النصية إلى أي مدى؟ ثلاثة من المنهج التجريبي وسيلة تحت إشراف غير خاضعة للرقابة، كل الأساليب المستخدمة في جزءا لا يتجزأ من كلمة HowToW نص على أساليب التدريب.

على النحو الوارد أعلاه، والكتاب مقارنة نتائج الترجمة بين اللغتين الانكليزية والفرنسية والكورية واليابانية بعد MUVE صاحب البلاغ الأمثل، والترجمة بين اللغة الإنجليزية واليابانية كوريا لديها تحسن كبير جدا على طريقة تستند إلى نص.

لكنه يظهر أيضا نهجا يستند إلى نص بسيط هو أكثر ملاءمة لل"يبدو" لغة مشابهة، مثل الإنجليزية والفرنسية.

كيف قوية غير خاضعة للرقابة ترجمة كلمة؟ كما هو مبين أعلاه، تظهر المؤلفين أداء MUVE، MUSE، تتركز VecMap نذكر @ EF في البيانات القاموس 10، والمسافة التي JS (جنسن-شانون، ممثلة في الجدول ~) قياس درجة التشابه والاختلاف.

وأظهرت النتائج أنه عندما Dangdang كوربوس مماثلة (مثل ويكي ويكي أون و-FR)، وكلها أساليب أداء جيدا. عندما كوربوس متباينة، MUVE متفوقة على غيرها من الأساليب، ولكن أيضا أكثر قوة.

عندما تختلف كمية البيانات التدريب، ونموذج لكيفية الأداء؟ ويبين الشكل 100 من المبلغ الأصلي من البيانات جماعي، 10، 1 من نتائج بيانات التدريب، عندما يقاس نذكر @ 10، ومن الواضح أن طريقة المؤلف في الموارد منخفضة (عدم وجود جسم التدريب) حالات أداء أفضل.

وعلاوة على ذلك، عندما مقدار التغير من المفردات، كما هو مبين أعلاه، ليس فقط يقلل من أداء طريقة MUSE. تعتمد طرق يستند إلى نص أخرى على حجم المفردات.

طريق الحرير

جرو الكلب هو الكلب! DeepMind خطوة كبيرة إلى البصرية لوسائل الإعلام، أن تفعل غير خاضعة للرقابة الترجمة الآلية فعالة جدا

الفكرة العامة: استخدام أشرطة فيديو تعليمية الحصول على رؤية مشتركة

الهندسة المعمارية النموذجية: متعدد اللغات التعلم غير خاضعة للرقابة

التجربة: "I" نموذج أكثر قوة

محكمة تيانجين الشعب العليا من نهج الإدارة الهرمية مدير الإعسار

الوقت شي جين بينغ من العدوى

ارتفاع الناشئة: 5G السيارة تحت البنية التحتية للشبكة الرقمية الجديدة، وتمكين الابتكار القيادة الآلي والنقل الذكية

متعددة تستهدف في سيناريوهات معقدة - ملخص خوارزمية التعلم عميقة

الإدراك البصري، وذكي معا قمرة القيادة، ويمكن ADI اغتنام الفرصة لتقود القيادة التلقائية؟

لماذا LSTM فعالة جدا؟ أسرار خمس تحتاج إلى معرفته

من الصعب النواة مكافحة التنصت! يتميز ماك محددة لباد: معظم آلية حماية صارمة في هذه الصناعة، على أساس رقاقة T2

أحدث كشف عن Linux Mint 20: الاسم الرمزي "Ulyana" ، التخلي عن أنظمة 32 بت

بقيمة 300 مليون $، "الأب الياباني للإنترنت" باعت 14 مليون عناوين IPv4

2019 الأكثر سخونة الذي الدراما؟ سوف 2020 التي الدراما اطلاق النار؟ واحد من المادة يأخذك من خلال الضباب

يناير المدينة الظل قليلا شرسة، وهذه الأفلام هي لا تستحق التذاكر الخاصة بك حتى الآن؟

"المحمولة جوا روز" تزدهر في وقت مبكر! العام الجديد لأول مرة لرؤية المظليين الإناث تدريب المظليين

الصين درجة الحرارة | لوحات لها شيئا

RenZhongPing: الأمطار أو أشعة الشمس إلى الأمام

تتبادر إلى وادي الأحمر، ولكن أيضا الزهور رحلة حلم

تايان على المساحات الخضراء السكنية إدارة التخطيط سيتغير لاستعادة الخطة الأصلية، زار تزال مراسل قيد الإنشاء

شارك فون 9 أشهر مطرقة حقيقية، ووهان، ويقول الخبراء، حوالي عشرين ألف إصابة أعراض؛ ورئيس الوزراء البريطاني حالة تدهور في وحدة العناية المركزة | لى فنغ الصباح

تشانغ النهضة رخصة الفني؟ ليست مجرد صورة، ويمكن أي صورة يصبحوا سادة ثواني

ببساطة السحرية! المستخدمين تكلف مليارات الدولارات لتطوير لقاحات جديدة التاج، كان يشتبه بيل غيتس

فقط 299 $، الفيسبوك للبيع تجديد النسخة المتصدع CV1

صدر الأمازون إطارا جديدا لشبكة الإنترنت فيديو الفئة: 1/100 كمية البيانات، والصيد دقة النموذج الأمثل

تسريح العمال وخفض الأجور، والتأخير المشروع، تحت تأثير هذا الوباء الذي صناعة النمو مناقضة؟

الفكرة العامة: استخدام أشرطة فيديو تعليمية الحصول على رؤية مشتركة

الهندسة المعمارية النموذجية: متعدد اللغات التعلم غير خاضعة للرقابة

التجربة: "I" نموذج أكثر قوة

الأحكام ذات الصلة