محول في دينامية التوجيه شبكة الآليات وكبسولات انتباه: قد تكون لديهم مماثلة في طبيعتها

تقنية مراجعة AI حسب: شبكة كبسولة شعبية نموذج شبكة الكمبيوتر، والكثير من الاهتمام المتعلقة بمجال من الباحثين الذكاء الاصطناعي. المحول هو جوجل ورقة الشهيرة في عام 2017، وهيكل الشبكة (https://arxiv.org/abs/1706.03762) المقترحة "الانتباه هو كل ما تحتاجه" ويستند هذا بنية الشبكة على آلية الاهتمام التركيز الرئيسي في مجال الترجمة الآلية مشكلة NLP.

الدكتوراه في جامعة أمستردام سميرة يعتقدون أن العلاقة بين الكبسولة وشبكة المحولات، ونشر بلوق. في بلوق، وقالت انها يناقش العلاقة بين المكونات الرئيسية للمحول الشبكة وكبسولات وكذلك بينهما. المادة لى فنغ شبكة AI تقنية مراجعة انها جمعت تلخيصها على النحو التالي:

في هذه المقالة، فإننا سوف تصف المكونات الرئيسية لشبكات كبسولة والمحولات، ومحاولة تأسيس اتصال بين مختلف مكونات النموذجين. هدفنا الرئيسي هو دراسة ما إذا كانت هذه نماذج مختلفة في الطبيعة، إذا كان مختلفا، ما هي العلاقة بينهما نعم.

المحولات:

المحولات، والاهتمام، أو ما يسمى شبكة النفس، سلسلة من هندسة الشبكات العصبية العميقة، في كل طبقة كومة من الاهتمام منذ ذلك الحين، عن طريق تحويل التعلم متعددة كيفية تمثيل كلمة الإدخال في سياق معين. وكانت هذه النماذج قادرة على تحقيق رؤية وSOTA على العديد من المهام NLP. محول حول كيفية تنفيذ الكثير من تفاصيل، ولكن النقطة العامة للعرض، محول المبرمج - العمارة فك، حيث كل من وفك التشفير وحدة محول يتكون من مجموعة من الطبقات، في كل طبقة، ونحن نتعلم (إعادة) حساب كل كلمة يمثل نقطة الإدخال. ويتم احتساب هذا التمثيل من خلال كلمة في تمثيل جميع الفائدة قبل طبقة. على وجه التحديد كما هو مبين في الشكل.

لذلك، لحساب التمثيل طبقة من L + 1، يمثل L طبقة من أمامه مرت عليها من قبل وحدة التركيز الذاتي الذي التحديثات في كل كلمة وكلمة أخرى التمثيل المرتبطة بها. محمية كلمة وراء طبقة من الاهتمام كتلة فك. بالإضافة إلى ذلك، بالإضافة إلى اهتمام الذاتي ل، هناك التشفير فك - الاهتمام فك ( "التشفير فك الانتباه" لا تصف الشكل أعلاه). للحصول على معلومات أكثر تفصيلا حول المحولات، وتحقق من هذه المادة كبيرة: HTTP: //jalammar.github.io/illustrated-transformer.

المكون الرئيسي للمحول هو آلية التركيز على الذات، بل هو سمة مهمة هي استخدام آلية الاهتمام طويلة. في هذه المقالة، ونحن نركز على هذا الجزء، وخلال الكبسولة والمحولات مقارنة الشبكة، ودراسة متعمقة في بعض التفاصيل.

الدافع الرئيسي لاستخدام آلية متعددة التركيز هو فرصة لاستكشاف متعددة التمثيل فضاء جزئي، لأنه يشير إلى العرض ليس هو نفسه لكل رئيس للحصول على الاهتمام. في حالة مثالية، كل رئيس إرادة الاهتمام من خلال النظر في مختلف جوانب عملية التعلم لأجزاء مختلفة من المدخلات، والممارسة، وآليات التوزيع حساب تركيز مختلف الانتباه مختلفة. الاهتمام المحولات وافر من رؤساء وافر من المرشحات مماثلة CNN.

هنا، نجد تفسيرا لكيفية استخدام آلية التركيز الذاتي للتعددية رؤساء لدمج المعلومات من مواقع مختلفة في الطبقة السفلى L لحساب طبقة L العلوي + 1 FIG.

أولا وقبل كل شيء، ينبغي أن نلاحظ، يمثل كل موقف كل طبقة على حد سواء في صورة (مفتاح أو قيمة الاستعلام) يتضاعف ثلاث مرات. وهكذا، في كل طبقة، لدينا ثلاث مصفوفات (K، Q، V)، ولكل من هذه الصفوف في المصفوفة يتطابق إلى موقع.

الاهتمام هو إدخال الأولى التي K، Q و V هو تحويل خطي:

ثم، وإخراج أول الاهتمام الأول:

يمثل دي طول كي.

حدسي، ويمثل طبقة L + 1 في كل موقف من قبل مجموعة المرجح لجميع الطبقات التي يمثلها L. لحساب هذه الأوزان، وتوزيع الانتباه والاهتمام من كل رأس، وحساب التشابه بين الاستعلام وطبقة L + 1 L طبقات كل موقف في كل مواقف المفتاح، ثم تلك النتيجة التشابه وظيفة softmax حساب توزيع الاهتمام على جميع المواقع. وهكذا، في كل طبقة من الاهتمام لأن كل موقف، لدينا توزيع الوزن في بؤرة الاهتمام لكل منصب على الطبقة الأولى. وأخيرا، والانتباه لكل رئيس، والقيم احتمال الرأس الاهتمام لجميع مزيج من المواقف. في الخطوة الأخيرة، قيم كل تحويل رأس الاهتمام والاتصال الخطي، لحساب عدد وافر من أجزاء الناتج من التركيز:

وبالتالي، وفقا لمعايير المستفادة، ولكل طبقة، لدينا مصفوفة وو التحويل، وإخراج جميع رؤساء الاهتمام المشترك. وفي الوقت نفسه، على رأس كل من الاهتمام، لدينا ثلاثة مصفوفة التحويل، وهي

و

.

كبسولات مع EM التوجيه المصفوفة:

منذ البداية، وشبكة كبسولة يمكن استخدامها لطريقة أكثر طبيعية لمعالجة الصور. في عام 2000، هينتون وGharamani نعتقد أن هناك مثل هذا الواقع يعتمد على مرحلة ما قبل الانقسام نظام التعرف على الصور، هذا التقسيم لا يعرف معلومات عامة الكائن بحيث تتم معالجتها في نفس الوقت، فإنها تشير إلى التعرف على الصور وتجزئة قد تكون هي نفسها كامل داخل النظام. والفكرة هي لتحديد جزء من الكائن، لا بد أولا من كل ما هو مطلوب للكائن أن يكون هناك فهم عام. وبعبارة أخرى، نحن بحاجة إلى كل من أعلى إلى أسفل وتدفق أسفل إلى أعلى من المعلومات.

لمشكلة NLP هذا ينطبق أيضا. مثال على ذلك هو تحليل مسار حديقة (https://en.wikipedia.org/wiki/Garden-path_sentence) داخل الجمل. كبسولات يمكن رؤية الشبكة، CNN، وهناك بعض الانتاج بنية الأساسية، يتم استبدال تجمع دينامية التوجيه.

كبسولات هي وحدة واحدة، فمن لتعلم كيفية اكتشاف الكيان في المجال قصرنا عرض الشروط المحددة ضمنا. وهي عبارة عن مجموعة من الاحتمالات الانتاج وتعكس الخصائص الفيزيائية (مثل المعلومات الموقف) من "معلمة مثيل" الوجود المادي. جود الاحتمال هو وجهة النظر نفسها، على سبيل المثال، فإنه لا يتحرك مع الكيان أو تغيير التناوب، ولكن المعلمات مثيل من وجهة نظر يتم تغيير مثل، على سبيل المثال، إذا تحرك كيان أو بالتناوب، وهذه المعايير تتغير.

EM توجيه مصفوفة وجود كبسولة الذي كبسولة استخدام الشبكة، وشبكة تتألف من طبقة التفاف القياسية، وطبقة من كبسولة الأولية، تليها الإلتواء من طبقات الكبسولة. في هذا الإصدار من شبكة كبسولة، يتم تمثيل الأمثلة المعلمة في شكل مصفوفة الذي يسمى موقف المصفوفة.

كل طبقة لها عدد محدد من كبسولات نوع كبسولة (على غرار المرشحات CNN)، الذي اختير hyperparameters. كل كبسولة مثيل نوع من الكبسولة. كل نوع كبسولة يتوافق مع كيان واحد وجميع من نفس النوع من الكبسولات يتوافق مع نفس الموقف من أنواع مختلفة من الكيانات. في الطبقة السفلى، الكبسولة تعلم كيفية التعرف على نوع من الكيانات الأساسية، مثل العينين، في الطبقات العليا، وسوف تظهر كيانات طبقة أكثر العليا، مثل الوجه.

الإلتواء كبسولة طبقة الوزن مصفوفة لكل نوع من كبسولة convolving المدخلات، وتطبيق مشابه لما الأساسية في CNN. هذا يؤدي كل نوع من كبسولة وجود حالات مختلفة.

الشبكة في كبسولة، ومحددة مسبقا رقم نوع كبسولة كل طبقة. كل نوع كبسولة بين طبقتين المجاورة، هناك مصفوفة التحويل. وهكذا، وينظر كل من الكبسولة العليا في زوايا مختلفة من الكيان كبسولة أقل.

موقف مصفوفة

يظهر المعادلة العليا كيفية حساب الموقف من كبسولة وفقا للموقف من المصفوفة كبسولة الكامنة مصفوفة إم جي، أي ميس هي:

في هذه المعادلة، يتم تعيين RIJ إلى احتمال كبسولة كبسولة ط ي، وهذا هو، ودرجة مساهمة لمفهوم كبسولة ط إلى كبسولة ي القبض عليه. WijMi أقل نسبة إلى كبسولة كبسولة ط ي موقف الإسقاط المصفوفة، وتسمى أيضا "مصفوفة التصويت"، كما أعرب عن فيج. وفقا لذلك، وي كبسولة هو المتوسط المرجح لمصفوفة الموقف هو أقل بكثير كبسولة مصفوفة التصويت. لاحظ أنه كجزء من التوزيع الاحتمالي EM ديناميكية توجيه عملية الحساب، واحتمال وجود أو تفعيل احتمالات مختلفة كبسولات.

وهناك احتمال

والآن، دعونا ننظر في في كيفية حساب احتمال تفعيل الجزء العلوي من الكبسولة. لفترة وجيزة، واحتمال تفعيل الطبقة العليا من الكبسولة ومحسوبة على أساس التكلفة ولا تفعيل تفعيل موازنة التكاليف.

والسؤال هو: ما هي هذه التكاليف، كيف نحسب لهم؟

إذا كان مجموع الاحتمالات المسندة إلى الطبقة العليا من الكبسولة هو أكبر من الصفر، أي، يتم تعيين هناك إلى الطبقة السفلى من الكبسولة الكبسولة، لم يتم تنشيط الكبسولة هي التكاليف. ولكن تفعيل ليس فقط احتمال الكبسولة وفقا لقيمة التوزيع الاحتمالي المحسوبة. ينبغي لنا أن ننظر أيضا تخصيص الأدنى إلى الأعلى كبسولات كبسولة التصويت الاتساق المصفوفة بين بعضها البعض.

وبعبارة أخرى، يجب أن تكون الطبقة العليا المخصصة للكبسولة كبسولة أقل جزء من نفس الجهة التي يمثلها كبسولة العليا. وهكذا، فإن تفعيل تكلفة كبسولة يعكس درجة من التناقض بين الدنيا والعليا كبسولة كبسولة التصويت مصفوفة الموقف مصفوفة حساب. وعلاوة على ذلك، من أجل تجنب كبسولات تفعيل عشوائية، كل كبسولة لديها تفعيل عقوبة زمنية محددة.

دينامية التوجيه مع EM

ويتمثل التحدي الرئيسي هنا هو لحساب RIJ التوزيع الاحتمالي. هذه هي الطريقة التي الكبسولة الكامنة

متصلة كبسولة العليا

، أو بعبارة أخرى، وكيفية توجيه المعلومات بين طبقات الكبسولة. نأمل أن هذه الروابط لا يتوقف فقط على وجود كبسولة الكامنة، ولكن أيضا على العلاقة بين بعضها البعض، والعلاقة بينها وبين الكبسولة العليا الخاصة بهم. على سبيل المثال، وممثلين عن كبسولة العين (جزء من الوجه) وقد لا تكون ممثلة للجدول الكبسولة معا. ويمكن ملاحظة ذلك في حساب التركيز من الطبقة الدنيا إلى الطبقة العليا من الكبسولة الكبسولة. ولكن المشكلة هي أن تكون قادرة على حساب احتمال استنادا إلى التشابه في الدنيا وكبسولة العليا من الكبسولة، ونحن لم يشر كبسولة الأولية العلوي. وذلك لأن الكبسولة التي كبسولة يعتمد على التمثيل الكامنة سيتم المسندة إليها. هذا هو المكان دينامية التوجيه وظيفة، والذي يحل هذه المشكلة عن طريق استخدام EM.

مرتكز على

يمثل التوزيع الاحتمالي والطبقة العليا إلى الطبقة السفلى من الكبسولة الكبسولة، يمكننا حساب EM

FIG. وتعرف هذه العملية التكرارية كما التوجيه الديناميكي مع EM. يرجى ملاحظة، التوجيه الديناميكي مع EM كبسولة هي جزء من الشبكة في الممر إلى الأمام، وأثناء التدريب، والأخطاء ظهر إكثار من خلال توسيع نطاق الدينامية التكرارية التوجيه.

والجدير بالذكر أن يحسب عليه وطريقة حساب الطبقة الرئيسية كبسولة مختلفة بعض الشيء، لأنه من طبقة الكامنة ليس طبقة من كبسولات. كبسولات الأولية الموقف مصفوفة مجرد تحويل خطي من النواتج الأساسية الكامنة. وعلاوة على ذلك، فإن الطبقة الناتج النهائي لكل طبقة من الكبسولة لديها كبسولة. عند توصيل الطبقة الأخيرة إلى كبسولة التفاف الطبقة الأخيرة، ومصفوفة التحول في المواقف المختلفة على المشترك، فإنها تستخدم تقنية تسمى "تنسيق علامات" (تنسيق إضافة) لعقد معلومات الموقع كبسولة حول الإلتواء .

كبسولة شبكة محول:

وأخيرا، نأتي إلى الجزء الأكثر إثارة للاهتمام هذا المقال: المقارنة بين النموذجين. وعلى الرغم من وجهة نظر التنفيذ، ولم شبكة كبسولات والمحولات لا تبدو مشابهة جدا، ولكن هناك بعض أوجه التشابه بين عناصر وظيفية مختلفة من سلسلة النموذجين.

التوجيه الديناميكي وآلية الاهتمام

الشبكة في كبسولة، ونحن نستخدم يتم تحديد التوجيه الديناميكي من الطبقة السفلى للاتصال العلوي، في حالة المحولات، التي نستخدمها لتحديد كيفية التعامل مع الانتباه عن أجزاء مختلفة من إدخال المعلومات من وكيف لتسهيل استكمال أجزاء مختلفة من التمثيل. يمكننا التركيز وإعادة تعيين محول الصحيح لشبكة التوزيع الاحتمالي في كبسولة، ولكن شبكة كبسولة التوزيع الاحتمالي هو حسابات من أسفل إلى أعلى، في حين أن المحول هو في الاهتمام من أعلى إلى أسفل الحسابات. أي في الاهتمام محول توزيع الوزن على الحق في الطبقة السفلى من الكبسولة وقال في الشبكة، وتوزيع احتمال تعيينه على الطبقة العليا من الكبسولة. ملاحظة، في المحولات، والاهتمام بحساب احتمال التشابه استنادا إلى نفس الطبقة، ولكن يفترض أن الطبقة العليا المقابلة للطبقة السفلية يتم تهيئة أول من قال الأولي ثم تلك التي يمثلها مقارنة مع الطبقة السفلى، وتحسب الانتباه إلى تحديث احتمال تمثل الطبقة العليا.

مجردة آلية الشبكة مفهوم كبسولة والاهتمام من أسفل إلى أعلى وتفعيل يعاقب احتمال وجود سينتج كبسولات، وبشكل أكثر تحديدا للسماح النموذج لنشر في المعلومات الطبقة العليا. من ناحية أخرى، في المحولات، أعلى إلى أسفل آليات الإنتباه تسمح لا يركز العقدة العليا على العقد أقل، والمعلومات التي تم التقاطها في هذه العقد مرشح للخروج.

والسؤال الآن هو، لماذا نحن بحاجة إلى استخدام EM في شبكة كبسولات لتوجيه ديناميكية؟ لماذا لا نستطيع استخدامها لحساب شبكة التوزيع الاحتمالي في كبسولة آلية مماثلة من الاهتمام مع طريقة لحساب والمحولات في ذلك؟

فرضيتنا هي أن المنتج نقطة يمكن أن تستخدم لحساب تشابه التشابه الدنيا وكبسولة العليا من الكبسولة، لحساب التوزيع الاحتمالي.

وقال إن التحدي في الوقت الحاضر هو أن شبكة كبسولة، ليس لدينا أي الافتراضات المسبقة حول الطبقة العليا من الكبسولة مقدما لأننا لا نعرف ما الذي يمثلونه. من ناحية أخرى، في المحول، عدد العقد في كل الطبقات هو نفسه، ونفس العدد وعدد من كلمة المدخلات، وبالتالي فإننا يمكن أن يفسر المقابلة عقدة المدخلات من كل كلمة بالتزامن مع تمثيل السياق. هكذا، يمكننا تهيئة يمثل كل تمثيل الطبقة العليا، بحيث يمكنك استخدام درجة التشابه بين تمثيلات اثنين يتم احتساب باستخدام الأوزان المقابلة انتباه الطبقة السفلى ل.

كبسولات الرأس نوع وتركيز:

وقال كبسولات المحولات وبنى الشبكة لديها آلية تسمح نماذج مختلفة من وجهة نظر يعالج من الطبقة السفلى الطبقة العليا من أجل حساب FIG. الشبكة في كبسولة، من طبقتين المجاورة لها مصفوفة الانتقال مختلفة بين كل زوج من نوع كبسولة، كبسولة ذلك كبسولات من أنواع مختلفة من الحالات الأمامية من زوايا نظر مختلفة من كبسولة واحدة. ونفس الشيء، في المحولات، لدينا عدد وافر من اهتمام رؤساء، حيث تستخدم كل من التركيز الأول على مجموعة مختلفة من مفتاح تحويل المصفوفة، القيم الإسقاط والاستعلام. وهكذا، كل التشغيل على رأسه تركيز مختلف خفض التمثيل الإسقاط. كل من هذه الآليات والشبكات العصبية التفاف ديك الأساسية مختلفة مشابه.

الآن، شبكات كبسولات ويختلف محول في هذا الصدد يتميز في أن شبكة كبسولة، كبسولة من أنواع مختلفة وزوايا النظر المختلفة، النهاية، تطبيع على الطبقة العليا كل الكبسولات أكثر من احتمالات تعيين خفض كبسولة ، بغض النظر عن نوعها. وهكذا، في الطبقة السفلى، كل كبسولة لديه ملف تعريف المعين. في المحولات، كل رئيس مستقل الاهتمام بمعالجة مدخلاتها. وهذا يعني أن لدينا موقف واحد على مستوى أعلى من الاهتمام لكل التوزيع، أول انتباه الانتاج فقط في الخطوة الأخيرة للتكوين، وأنهم ببساطة متصلة تحويل خطي في الخطوة الأخيرة لحساب فترة طويلة الناتج النهائي من كتلة الاهتمام.

تضمين إحداثيات الموقع وإضافة:

في محول الشبكة وكبسولات، وهناك يمكن وصف عدد من الآليات التي معلومات الموقع أضاف صراحة إلى تمثيل نموذج حساب. ومع ذلك، في المحولات، والتي تتم قبل الطبقة الأولى، حيث يضاف موقف لكلمة جزءا لا يتجزأ من التضمين. في الشبكة كبسولة، وإضافتها إلى استكمال الطبقة الأخيرة، والتي تتم إضافة التحجيم من كل إحداثيات مركز الحقل تقبلا كبسولة (صف، عمود) عنصر إلى اليمين من أول عمودين من المصفوفة في التصويت من قبل تنسيق.

وقال منظم إخفاء:

في شبكة المحولات وكبسولات، هو مبني تمثيل مخبأة بطريقة معينة. في كبسولات الشبكة، بدلا من الشبكة العصبية القياسية نحن حدة تفعيل العددية في كبسولة، كل كبسولة التي عبرت عنها هذه المصفوفة موقف وقيمة التنشيط. الموقف مصفوفة ترميز المعلومات من كل كبسولة، والتشابه بين الكبسولة وديناميكية أقل احتساب المسار كبسولات العليا، ويحدد ما إذا كان احتمال تفعيل وجودها.

وعلى النقيض من ذلك، في المحولات، تتحلل هو داخل تمثل السندات، الاستعلام الثلاثي والقيم، حيث المدخلات الرئيسية والاستعلام عن حساب تشابه بين أجزاء مختلفة من عنوان ناقلات، وبحساب توزيع الانتباه إلى حساب مدخلا مساهمة الأجزاء المختلفة من تمثيل كل منهما.

من وجهة نظر مفاهيمية واسعة من الرأي، وشبكة كبسولة موقف مصفوفة تلعب دور المفتاح وناقلات الاستعلام في المحولات. النقطة هنا هي أنه يبدو أن لديها بعض المزايا في فصل تمثل أنواع مختلفة من المعلومات، وفي كلا النموذجين، والتي تقوم التوجيه أو معالجة الإنتباه في الحروف المخفية لإكمال.

عن طريق: الشبكي: ص //staff.fnwi.uva.nl/s.abnar/ = 108؟

انقر على قراءة النص الأصلي عرض التخلي عن أوهام، لاحتضان محول: اللغة الطبيعية تجهيز ثلاثة مستخرج ميزة (CNN / RNN / TF) قارن

بدءا | مع قوة في الكلام، واجهت إنتاج السيارات الأولى صفر صفر المدى S01 لاول مرة مذهلة

20 أشياء للقيام بها خلال عيد الربيع

بعد EV10 القهوة الكهربائية مدرجة رسميا للبيع 5،98-6،78 الدعم وان

من ألوان الحلوى لمذهب الذهب، حل "قصر" إلى "تربية الحيوانات البحرية،" لون الإنتاج الوطني - جماليات

سامسونج S10 التعرض تصميم براءات الاختراع: هو ملء الشاشة

تسع سيارات من نفس الشعر "، والخط الجديد" BYD مصممة على بناء "سيارة صينية قوية"

في الصين 15 عاما من ملكية أكثر من 80 مليون وحدة، وهو أعلى معدل التحوط فيوس السيارات الصغيرة شكل مصفوفة المنتج

الجمعية | أعلى الضربات الحدث AI القياسية الوطنية، وهذه هي الأسباب التي يجب أن لا يغيب | CCF-GAIR 2019

الأسرة توفير المال والقلق فولكس واجن جيتا 1.4T اختبار استهلاك الوقود

نوكيا على وشك إطلاق منتجات جديدة، 5 ديسمبر "الطاغية المدينة" دبي انظر!

13 مليار يوان لجمع الأموال لتكون مدرجة، وتقييم نينغده ثمانية أشهر من العمر تضاعفت 1.5 مرة من أسعار شبه مركبة كبيرة

SAIC ROEWE RX3 مدرجة رسميا للبيع 8،98 حتي 13،58 عشرة آلاف يوان