لا ننظر الى الصيغ الرياضية! التوضيح العصبية المكونات الأساسية الترجمة الآلية جوجل: آلية الاهتمام

تجف الانتهاء مترجم

إنتاج و qubit | عدد ملفه QbitAI

الانتباه (الانتباه) آلية، آلة العصبية نموذج الترجمة هو جزء مهم جدا، ويؤثر بشكل مباشر على دقة الترجمة أم لا.

ويمكن القول، لا توجد آلية الاهتمام، مستوى الترجمة الآلية دقائق فقط 60-70. مع آلية اهتمام، وسوف تكون قادرة على الوصول إلى مستوى الترجمة من 80-90 نقطة.

كيف تلعب دورا في ذلك؟ وهناك الكثير من الناس لشرح، والساحقة صيغة رياضية، لم يكن لها الناس الوقت للنظر، لفرض مزق مباشرة قبالة.

مؤخرا، مقالا عن طريق التوضيح، مقدمة كاملة من "آليات الإنتباه،" مبدأ المنطق، والترجمة العصبية لجوجل، على سبيل المثال، يوضح آلية عملها.

يقول المؤلفان أن الغرض من كتابة هذا المقال هو السماح للجميع رؤية دون الصيغ الرياضية، لفهم مفهوم الاهتمام. وسيتولى مترجم الإنسان، على سبيل المثال، لتصور المفاهيم ذات الصلة.

لماذا تحتاج آليات الترجمة الآلية العصبية الاهتمام؟

ولد العصبية طريقة الترجمة الآلية في عام 2013. في تلك السنة، نشر فريق البحث في جامعة أكسفورد مقالا بعنوان المتكررة نماذج الترجمة المستمر وتقدم هذه الورقة نموذجا جديدا للترجمة الآلية.

يستخدم هذا النموذج الجديد نظير المبرمج - فك الهيكل.

في التعامل مع أعمال الترجمة، أولا مع الشبكة العصبية التلافيف (CNN)، ترميز النص الأصلي في ناقلات المستمر، ومن ثم استخدام الشبكة العصبية المتكررة (RNN) تحويل ناقلات المستمر في اللغة الهدف.

ولكن نظرا لاختفاء التدرج انفجار موجود /، ولكن هذه الطريقة من الصعب الحصول على معلومات من وراء الجملة أطول، مما يؤدي إلى انخفاض كبير في أداء الترجمة.

في عام 2014، ثم في غوغل ايليا Sutskever آخرون المقترحة تسلسل طريقة (seq2seq) تعلم تسلسل إلى RNN لكل وفك التشفير.

RNN هو عادة أيضا المتغيرات الذاكرة (LSTM) عندما يكون طول الجهاز في ترجمة العصبية. بهذه الطريقة، وانفجار التدرج / اختفاء تخرج عن نطاق السيطرة، وقد خفف لمسافات طويلة إعادة ترتيب المشكلة.

كما يتم الضغط على قول قحافة القرع حتى ظهرت مشاكل جديدة. طريقة seq2seq، ومعلومات فريدة من فك التشفير من وردت، مخفيا الدولة الأخيرة من التشفير، وهو تمثيل ناقلات، وتسلسل الإدخال عدد ملخص النص.

الأحمر يلي عقدتين هو مبين في الشكل.

FIG مثل لإدخال النص طويلا، ونأمل أن هذه الدولة الخفية معينة، وهي عامة بما فيه الكفاية تسلسل المدخلات، وحدة فك الترميز يمكن وصفها وفقا لأحسنت هذا تحويل ناقلات.

ولكن هذا أمر صعب، كارثة المنسية يبدو. على سبيل المثال، ذكر أعلاه كلمة من هاتين الفقرتين، بعد رؤية هذا، كنت لا تزال تتذكر كم؟ ويمكن ترجمتها إلى اللغة الإنجليزية؟

وبالإضافة إلى ذلك، هناك مشكلة. نموذج RNN القائم، بغض النظر عن متى سيتم ضغط جمل النص الأصلي، إلى ناقلات طول ثابت.

عندما فك رموز، سيكون هناك كل أنواع المتاعب، لا توجد وسيلة لتحديد معلومات دقيقة. ولا سيما وقت طويل الجملة، أكثر المتاعب.

كيف نفعل؟ "آليات الإنتباه" لاول مرة

عام 2014، نشر فريق DeepMind نماذج متكررة من Visual الاهتمام الآلية المقترحة من الاهتمام، ومهمة تصنيف الصور.

مقارنة مع CNN، وذلك باستخدام آلية الاهتمام حقق RNN نتائج جيدة جدا، جلبت مباشرة تصل في موجة من الأبحاث آليات الاهتمام الازدهار.

قريبا، ظهر الاهتمام في الترجمة الآلية العصبية.

على ICLR عام 2015، نشرت جامعة فريق يوشوا بيجيو مونتريال ورقة إدخال آلية الاهتمام في الترجمة الآلية العصبية. (ورقة في سبتمبر 2014 تم تقديمه، إلى أرخايف)

انتباه، هو واجهة بين التشفير وحدة فك الترميز. مع ذلك، يتلقى فك الترميز، وتتميز ليس مجرد ناقل واحد، وكذلك ناقلات التي تميز كل خطوة الوقت من التشفير، مثل العقد الخضراء في FIG.

آليات الإنتباه، يمكن للنموذج أن يكون تسلسل المدخلات بشكل انتقائي من الجزء المفيد الفائدة، بحيث المواءمة بين التشفير وحدة فك الترميز.

بعد ذلك، المشاكل العصبية التي تواجه الترجمة الآلية، ولها حل في الأساس.

عام 2016، أطلقت غوغل أول القائمة على العصبية نظام الترجمة الترجمة الآلية.

الآن، أصبحت الترجمة الآلية العصبية الأساسية من الطرق الرئيسية من أدوات الترجمة.

وخلال هذه المسيرة التنموية، RNN وLSTM، لديها بالفعل عدد كبير من العرض. آليات الإنتباه في نهاية المطاف هو كيف يعمل؟ كيف يتم ذلك السحر في نهاية المطاف؟

ثم يمكنك مشاهدة -

آلية التشغيل الرسومية من الاهتمام

A الكلي التصنيف اهتمام البلدين. واحد هو الاهتمام العالمي، وجميع أجهزة تشفير مخفية. آخر هو الاهتمام الجزئي، وذلك باستخدام مجموعة فرعية من دولة التشفير المخفية. الاهتمام في هذه المادة، المذكورة أعلاه، هي الاهتمام العالمي.

قبل أن تبدأ، وكنت بحاجة الى ان نرى تغييرا في كيفية نموذج يستند فقط نهج seq2seq هو الترجمة.

إلى النص المترجم من اللغة الألمانية إلى الترجمة الإنجليزية على سبيل المثال.

استخدام نهج "seq2seq"، وقال انه قرأ نص كلمة الألمانية للكلمة من البداية، وبعد ذلك ترجمة النص كلمة كلمة إلى اللغة الإنكليزية. إذا كانت العقوبة هي خاصة لفترة طويلة، عندما تترجم، كنت قد نسيت محتويات النص من قبل.

إذا كنت تستخدم طريقة الاهتمام seq2seq +، قرأ نص كلمة الألمانية للكلمة في الوقت المناسب، وكتابة الكلمات الرئيسية. ثم، وذلك باستخدام هذه الكلمات الرئيسية، وسيتم ترجمة النص إلى اللغة الإنكليزية.

في هذا النموذج، والاهتمام يلعب دقيقة واحدة عن كل كلمة، وسوف نركز على كلمات مختلفة. ثم، استنادا إلى softmax النتيجة باستخدام التشفير وإخفاء المرجحة إلى ترميز مخبأة البلمرة للحصول على ناقلات السياق.

طبقة الانتباه يمكن أن يحقق ست خطوات.

الخطوة 1: إعداد مخفي

المخفية أولا، فك أول سرية (الحمراء)، وجميع أجهزة تشفير المتاحة (الخضراء). في هذا المثال، هناك المخفية مخبأة 4 التشفير وحدة فك الترميز الحالية.

الخطوة الثانية: احصل على علامات لكل دولة التشفير مخفي

للحصول على درجة لكل التشفير دولة سرية (العددية) من خلال وظيفة التهديف. في هذا المثال، وظيفة النتيجة هي نتاج نقطة بين وحدة فك الترميز والتشفير المخفية.

decoder_hidden =

النتيجة encoder_hidden

---------------------

  15 (= 10 0 + 5 1 + 10 1، ونقطة المنتج)

  60

  15

  35

في المثال أعلاه، والتشفير مخفية 60 جزء من الاهتمام مرتفع. وهذا يعني أن الكلمة التالية إلى أن تترجم سوف تتأثر بشدة من جراء هذه الدولة التشفير المخفية.

الخطوة 3: تشغيل من خلال طبقة عن عشرات softmax

نحن يسجل طبقة وظيفة softmax على عشرات softmax (سكالارس) المبلغ إلى الوحدة. وتمثل النتيجة توزيع الاهتمام.

درجة درجة encoder_hidden ^ ----------------------------- 150 601 150 350

وتجدر الإشارة إلى أنه بناء على درجة درجة softmaxed ^. الاهتمام المتوقع توزيعها في فقط على. في الواقع، فإن هذه الأرقام ليست ثنائية، ولكن رقم النقطة العائمة بين 0-1.

الخطوة 4: مخفي كل التشفير مضروبا softmax رصيده

الدولة الخفية للكل التشفير حساباتها softmaxed (سكالارس) تضاعفت ناقلات المحاذاة ويمكن الحصول على. هذا هو المكان الذي تحدث آليات المواءمة.

درجة درجة encoder_hidden ^ محاذاة ---------------------------------------- 150 601 150 350

منذ النتيجة التركيز منخفضة، بالإضافة إلى تتماشى مخبأة تخفيض جميع أجهزة تشفير إلى 0. وهذا يعني أننا يمكن أن نتوقع الكلمة الأولى إلى أن تترجم، ينبغي مع كلمة المدخلات جزءا لا يتجزأ من تطابق ما يصل.

خطوة 5: ناقل محاذاة تتجمع معا

محاذاة متجه جمع معا، لإعطاء ناقلات السياق.

درجة درجة encoder_hidden ^ محاذاة ---------------------------------------- 150 601 150 350 السياق =

الخطوة السادسة: A إدخال ناقلات السياق إلى وحدة فك الترميز

كيفية القيام بهذه الخطوة، اعتمادا على بنية النموذج. في المثال التالي، سترى العمارة النموذج، وفك كيفية استخدام ناقلات السياق.

آلية العملية الشاملة، كما هو مبين أدناه:

لذا، كيف الآليات في الانتباه تلعب دورا في ذلك؟

العودة نشر. وظهر انتشار تفعل كل شيء لضمان أن إغلاق الإخراج إلى الوضع الفعلي. ويتم ذلك عن طريق تغيير الأوزان RNN وظائف سجل (إن وجدت) لإكمال.

وهذه الأوزان يؤثر على الحالة خفية ومخفية فك التشفير الدولة، مما يؤثر على عشرات الاهتمام.

جوجل الترجمة الآلية كيفية تطبيق الآليات العصبية من الاهتمام؟

وقبل أن أعرض الترجمة الآلية جوجل النموذج العصبي، كما أننا بحاجة لتعويض الطبقات، أن ننظر في النموذجين الآخرين.

فريق البحث Bengio

هذا الاهتمام هو seq2seq + نموذج يحتوي على اتجاهين التشفير، ما يلي نموذج الاعتبارات العمارة:

1، والتشفير هو ثنائية الاتجاه (عكس الأمام +) المعزولة وحدة تداول (BiGRU). GRU هو فك، كانت مخبأة حالته الأولية، مخفيا من التشفير العكسي النهائي تعديلها من ناقلات GRU.

2، وظيفة تسجيل طبقة الاهتمام باستخدام المضافات / CONCAT.

3، وإدخال المقبل إلى الخطوة وقت فك من سلسلة السابقة بين ناقل السياق وقت الإخراج فك خطوة (الوردي) وخطوة من الوقت الحالي (الأخضر الداكن).

هذه العمارة نموذج، في WMT'14 الانجليزية - عشرات BLEU على مجموعة البيانات الفرنسي هو 26.75.

(لينك في نهاية الورقة)

تعادل النص الألماني سوف تترجم إلى اللغة الإنكليزية عندما، مع اثنين من المترجمين.

مترجم A، في كلمة نص الألمانية للمرة كلمة قراءة، وكتابة الكلمات الرئيسية. مترجم B، في النص الألماني لقراءة كلمة كلمة الى الوراء عندما الكتابة أسفل الكلمات الرئيسية.

المترجمين اثنين، سيناقش كل كلمة يقرأون قبل المناقشة على أساس منتظم.

بعد قراءة النص الألماني، وسوف يستند المترجم B على المناقشات بين اثنين منهم، واختيار الكلمات الرئيسية، النص ترجم إلى اللغة الإنكليزية.

هنا، المترجمون A، هو RNN إلى الأمام، والمترجمين B، عكس RNN.

فريق بحثي في جامعة ستانفورد

مقارنة مع Bengio آخرون النموذج، الفريق المقترح جامعة ستانفورد نموذج العمارة، أكثر عمومية، وأكثر بساطة. النقاط هي على النحو التالي:

1، والتشفير هو عبارة عن شبكة LSTM مزدوجة. وحدة فك الترميز لديه نفس العمارة، والذي هو آخر التشفير مخفي الأولي المخفية.

2، وظيفة التهديف لديهم أربعة نماذج، هي: مضافة / CONCAT، دوت المنتج، المستندة إلى الموقع و'العام'.

3 في سلسلة بين ناقلات الإخراج من سياق الخطوة الزمنية الحالية من الخطوة الزمنية الحالية، فإن فك تكون مدخلا إلى شبكة ال feedforward للحصول على خطوة الزمنية الحالية الناتج النهائي من وحدة فك الترميز (الوردي).

(لينك في نهاية الورقة)

هذه العمارة نموذج، في WMT'15 الانجليزية - عشرات BLEU على مجموعة البيانات الألمانية هي 25.9.

بعبارات بسيطة، وهذا هو طبقة ثنائية كومة seq2seq + التشفير نموذج انتباه العاملين.

عند ترجمة النص الألمانية إلى الإنجليزية والمترجمين نص الألمانية مع مرور الوقت والقراءة، والكتابة أسفل الكلمات الرئيسية. هنا، المترجم B لتكون أكثر مهنية من المترجمين A، أن قرأ النص نفسه الألمانية، وكتابة الكلمات الرئيسية.

الاهتمام الرئيسي هو أن كل كلمة الترجمة لقراءة A، B يجب أن يقدم تقريرا إلى مترجم. بعد الانتهاء من القراءة، وسوف يكون على أساس اختيارهم للكلمات، وسيتم ترجمة النص إلى اللغة الإنكليزية.

جوجل العصبية نموذج آلة الترجمة

يتأثر جوجل العصبية الترجمة الآلية، تتويجا لاثنين، ولكن هذا النموذج من قبل Bengio وغيرها أكثر من ذلك بقليل. وهذه النقطة هي:

1، وLSTM التشفير 8، الأولى منها هي في اتجاهين (توصيل المخرجات)، وهناك اتصال المتبقية (بدءا من الطبقة 3) بين مخرجات طبقات متعاقبة. فك LSTM ثمانية في اتجاه كومة مستقل.

2، وظيفة التسجيل باستخدام المضافات / CONCAT.

3، والخطوة التالية من وقت فك المدخلات هي الخطوة الزمنية الحالية (الأخضر الداكن) في سلسلة بين الناتج من خطوة زمنية ناقلات السياق السابق (وردي) هو.

هذه العمارة نموذج، في WMT'14 الانجليزية - عشرات BLEU على مجموعة البيانات الفرنسي هو 38.95. في WMT'14 الانجليزية - عشرات BLEU على مجموعة البيانات الألمانية هي 24.17.

(لينك في نهاية الورقة)

هذا هو كومة من ثمانية التشفير وجود seq2seq (+ + بقايا اتصال ثنائي الاتجاه) + نموذج الاهتمام.

تعادل النص الألماني سوف تترجم إلى اللغة الإنكليزية عندما، وثمانية مترجمين والمترجمين الفوريين وA، B، C ... H. وكل مترجم قراءة النص نفسه الألماني.

كل كلمة في النص، المترجمون ومترجم إعطاء حصة B سوف اكتشافه والمترجمين B تحسين على هذه النتائج، وحصة مع المترجمين C، يتم تكرار هذه العملية حتى نهاية المترجمين H.

وبالإضافة إلى ذلك، عند قراءة النص الألماني، سوف أكتب المترجمين H الكلمة بناء على علمه والمعلومات الواردة.

بعد الانتهاء الجميع قراءة النص الانكليزي، سوف يقال المترجمين مترجم أن الكلمة الأولى.

أولا، حاول أن تتذكر النص، وتعطى الترجمة، ثم سهم إجاباته مع المترجمين B، ويجيب المترجمين B ومشاركتها مع تحسين مترجم C، يتم تكرار هذه العملية حتى نهاية المترجمين H.

ثم والمترجمين ترجمة H سيعطي الكلمة الأولى وكتب على أساس الكلمات الرئيسية. ثم كرر العملية حتى نهاية الترجمة.

المعلومات ذات الصلة الموصى بها

ورقة يوشوا بيجيو، الذين درسوا

العصبية الترجمة الآلية التعلم عن طريق بالاشتراك في محاذاة وترجمة

https://arxiv.org/abs/1409.0473

ورقة ستانفورد الفريق

فعالية النهج المتبعة في القائمة على الاهتمام العصبية الترجمة الآلية

https://arxiv.org/abs/1508.04025

أوراق العصبية آلة نموذج الترجمة من Google

نظام الترجمة الآلية العصبية جوجل: سد الفجوة بين الإنسان والترجمة الآلية

https://arxiv.org/abs/1609.08144

أوصى غيرها من الأوراق ذات الصلة:

نماذج متكررة من Visual الاهتمام

https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf

المتكررة نماذج الترجمة المستمر

https://www.aclweb.org/anthology/D13-1176

الانتباه هو كل ما تحتاجه

https://arxiv.org/abs/1706.03762

تسلسل تسلسل التعلم مع الشبكات العصبية

https://arxiv.org/abs/1409.3215

موارد البرنامج التعليمي:

seq2seq TensorFlow من دروس مع الاهتمام (دروس في الاهتمام seq2seq +)

https://github.com/tensorflow/nmt

الحصول على بلوق وظيفة:

مدونة ليليان ونغ على الاهتمام (جيد جدا تبدأ في الاهتمام)

https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html#a-family-of-attention-mechanisms

مدونة جاي العمار على Seq2Seq مع الاهتمام (الرسوم التوضيحية العظمى والمثال عملت على seq2seq + الانتباه)

https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/

كتابة هذه السطور، وقال انه يدعى الريمي بن كريم السنغافوريين، AI الآن متدربة في منظمة العفو الدولية سنغافورة. AI سنغافورة، سنغافورة هو كالات الاستخبارات الاصطناعية الحاضنة والمتخصصين في هذا القطاع.

الرابط الأصلي:

https://towardsdatascience.com/attn-illustrated-attention-5ec4ad276ee3

- كامل  -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI عناوين على التوقيع

' " تتبع تقنيات AI دينامية جديدة والمنتجات

تسبب Outlook إلى اللوم والغضب شيري دفع جديدة عالية نهاية SUV، وسور الصين العظيم وغرام WEY طوق يجب أن نكون حذرين

بعد نهائيات كأس العالم مشرق "الدب" القلب! خمس بطولات الدوري في أوروبا، "خمسة" موقف أو السهل وجوه جديدة رئيسية

عالم سباق علب التحالف ليس على الخط لتبرد! قطع 2 السكاكين في الشهر، والآن خمسة أيام لوضع مرات المهارات

NVIDIA على القليل عضة القط! StyleGAN الجيل القط فيلم "الفاكهة ضحك" مذهلة

تشو تشى تدفق طالبة، أو عدم وجود إصابة في الكاحل قبل بداية الموسم، وفاز روكتس بتلر المفضل

اختلط جوركوف البالغ من العمر 32 عاما في مثل هذا الوضع، سن 20 بسبب اختيار خاطئ

"الاحتيال عبر الوطنية أوكار الفيديو" التعرض! مجموعات البيانات الكبيرة لمساعدة النمس من 99 AI زرع وجه الفيديو

عاصفة البريطانية بريوس هي صرخة الجشع! LOL ملاك الأخوات بشرت إعادة بنائه، وستة الجناح تمارس المزدوج سيم انفجار

المواطنين "تسلا" ليست Biyaditang، ولا وي لES8، ولكن ذلك؟

سوبر الاحتفال الغضب اليوم لكرة القدم Huobian أمريكا الجنوبية

جوجل مركبة غير مأهولة CTO: السنوات العشر منذ علينا جميعا يضحكون علينا، وأسرع مما كنت أتوقع التطور التكنولوجي

الأغاني الغناء ضحك مرارا وتكرارا، هاردن ماتسمى نجم الروك، قال روكتس لديهم هدف واحد فقط