وتعلم الشبكة العصبية كل شيء! وقد وضعت جوجل قمر صناعي كبير (مع ورقة)

لى لين قنغ سأل تم تجميعها من أرخايف

إنتاج و qubit | عدد ملفه QbitAI

في الآونة الأخيرة، وجوجل لديها تهديد على الموضوع: واحد نموذج لمعرفة كل منهم، وهذا نموذج لما يمكن تعلمه.

وعلق غير ربحية معهد البحوث الباحث OpenAI أندريه Karpathy على تويتر، وجوجل في نفسه الشبكة العصبية كلها إلى وسيلة كبيرة، خطوة أخرى إلى الأمام.

ويمكن أن يقال هذا الموضوع أنه في أعقاب "الاهتمام هو كل ما تحتاجه"، ومن ثم وضع معيار جديد للحصول على اللقب للحزب، كما وسائل الإعلام و qubit للعار.

هذا في الآونة الأخيرة ما قبل نشرها في الصحف أرخايف القول، دراسة متعمقة جيدة جدا، ولكن كان كل لحل مشكلة بناء نموذج، وسوف يستغرق تعديل المعلمة فترة طويلة، والتدريب، ومزعج للغاية.

ذلك أنها تأتي مع في وهناك الكثير من التأثير على هذه القضية في مختلف المجالات جيدة والمتعدد الوسائط نموذج.

وهم الآن في تدريب العصبية ImageNet صورة الشبكة، والترجمة متعددة اللغات، توليد النص استنادا إلى الصورة على مجموعة البيانات COCO، القيام التعرف على الصوت، تفعل الإنجليزية تحليل.

تطوير نموذج شامل Dezhitimei بما في ذلك طبقة الإلتواء، وآلية الاهتمام، بوابات طبقة متفرق.

كل وحدة حساب المذكورة أعلاه، سيتم عبت في بعض النوع من المهام في دور رئيسي، ولكن من المثير للاهتمام أنه حتى في تلك المهام لا يمكن ان تلعب دورا رئيسيا، هذه الوحدات لديها أي مشكلة، أكثر من مرة أيضا مع قليلا ......

في المهام بيانات قليلة نسبيا، وغيرها من المهام مع هذا النموذج يعمل بشكل جيد خاصة للتدريب المشترك. على الرغم من أن في بعض الأحيان أداء المهمة على نطاق واسع ستسقط، تماما أسفل قليلا.

وقال مجردة عن هذا، دعونا نلقي نظرة على محتوى مفصل من ورقة:

1. مقدمة

تعدد المهام نموذج هذه المشكلة، وجوجل ليس مجرد نزوة بدء الدراسة، قبل أن هناك العديد من الأوراق ذات الصلة. ولكن النموذج الأصلي هو نموذج تدريب فئة من المهام: الترجمة التدجين والتطبيع المعرفة خريطة خريطة المعرفة.

وهناك أيضا مجموعة متنوعة من التدريب واحد أو اثنين من مهام لا علاقة لها مع نموذج، ولكن النتيجة ليست الطريقة الجيدة.

لذلك، والطلاب جوجل الدماغ للدخول في المتعدد الوسائط، مع النموذج الذي يمكن أن تتعلم مهام متعددة في مناطق مختلفة في نفس الوقت.

الآن، المتعدد الوسائط أنه في حين أن التدريب على مجموعات البيانات ثمانية:

(1) "وول ستريت جورنال" خطاب كوربوس

مجموعة البيانات (2) ImageNet

(3) COCO شرح جمع البيانات

(4) "وول ستريت جورنال" تحليل مجموعات البيانات

(5) WMT الإنجليزية - توقعت الترجمة الألمانية مكتبة

(6) WMT الألمانية - مكتبة ترجمة إنجليزي المتوقعة

(7) WMT الإنجليزية - توقعت الترجمة الفرنسية مكتبة

(8) WMT الفرنسية - مكتبة ترجمة إنجليزي المتوقعة

يقول المؤلفان أن أداء نموذج على هذه المهام هي جيدة، وإن لم يكن على مستوى أعلى، ولكن أيضا أقوى من العديد من الدراسات التي أجريت مؤخرا.

وفيما يلي يظهر الرقم مخرجات التعلم نموذج المتعدد الوسائط:

 من اليسار إلى اليمين التسميات يتم إنشاؤها، تصنيف الصور، الإنجليزية إلى الفرنسية والإنجليزية إلى الألمانية، إعراب

للتدريب في أبعاد مختلفة، وحجم ونوع البيانات، يتم تحويل المتعدد الوسائط وافر من الشبكات الفرعية التي نمطا محددا من هذه البيانات المدخلة، وفي مساحة التمثيل المشترك. هذه الشبكات الفرعية تسمى " شبكة الوضع (Modelity شباك) ".

2. الهندسة المعمارية المتعدد الوسائط

كما هو مبين أعلاه، المتعدد الوسائط من قبل العديد من نموذج الشبكة، التشفير، I / O خلاط، فك مكون الانحدار.

الجسم الرئيسي للنموذج بما في ذلك تعدد طبقات الإلتواء، وآليات الاهتمام، والخبراء بوابات متفرق طبقة مختلطة (قليلة بوابات-خليط من خبراء طبقات) شرح جزء، أدلى هذه الورقات الثلاث.

وحدة 2.1 الإلتواء

دور هذه الوحدة هو العثور على الوضع المحلي، ثم تعميمها على كامل المساحة.

وتضم هذه الوحدة التفاف ثلاثة عناصر هي: وظيفة خطية من المعدل (ReLU)، طبقة SepConv وتطبيع.

كما هو مبين، نموذج التلافيف مع أربع طبقات، طبقتين من 3 1 قبل نوى التلافيف، طبقتين من 15 1 الأساسية التلافيف، كل وإضافة أخيرا 40 التسرب.

وحدة عناية 2.2

الحاجة في نماذج المتعدد الوسائط تقريبا صدر قبل آليات الإنتباه وجوجل عنوان الحزب مع نموذج من ورقة الاهتمام هو كل ما.

كما هو مبين، انتباه طبقة المدخلات يضم اثنين الموتر، مصدر موتر (المصدر) والهدف موتر (الهدف)، هي في شكل .

، سيتم إضافة وحدة من الاهتمام، وبالتالي الفرق الرئيسي بين إشارة توقيت السابقة للسماح للإشارة تركيز الاهتمام على على محتوى القائمة على الموقع يقع.

2.3 الخبراء وحدات مختلطة

متفرق طبقة مجموعة المتعدد الوسائط خليط من الخبراء في جانب بسيط feedforward الشبكات العصبية (الخبراء) وشبكة النابضة التدريب الذي يختار كل مجموعة مدخلات الخبراء عملية ترقق.

لمزيد من التفاصيل، أنظر مقالة:

كرزيستوف Maziarz، أندي ديفيس، كووك لو، جيفري هينتون، جيف دين، نعوم Shazeer، Azalia Mirhoseini. الشبكات العصبية الكبيرة شنيع: وبوابات قليلة، خليط من خبراء طبقة.  ورقة أرخايف +1701.065382017.

لأن نسخ خبير المتعدد الوسائط في خلط وحدة أساسية تماما.

لدينا نموذج في نفس وقت التدريب ثمانية أسئلة، مع 240 "الخبراء"، مع معدل 60 "الخبراء" تدريب قضية واحدة.

2.4 التشفير، خلاط، فك

يتكون المتعدد الوسائط هيئة من ثلاثة أجزاء: مدخلا التشفير بمعالجة فقط الخلاط المشفرة سابقا المدخلات والمخرجات (جزء الانحدار) للخلط، وعملية خلط لإنتاج مدخلات جديدة والإخراج من وحدة فك الترميز.

تكوين التشفير، خلاط وفك مماثل لنموذج كامل تسلسل التفاف السابق لتسلسل، مثل ByteNet أو WaveNet، ولكن استخدام وحدات حسابية مختلفة.

الرقم يصور أبنية بهم. وكما يتبين من هذا الرقم، ويكرر التشفير من 6 وحدة الإلتواء، طبقة وسطى مختلطة الخبراء.

الاهتمام من قبل وحدة خلاط وحدتين الإلتواء. يتكون فك التلافيف من أربع وحدات والاهتمام، وخبراء طبقة مختلطة المتوسطة. بشكل حاسم، خلاطات وفك التفاف التعبئة في الناحية اليسرى، ولذلك لن يكون الوصول إلى أي معلومات. وهذا يسمح هذا النموذج هو autoregression، autoregression ويوفر هذا المخطط الجيل التفاف حقول تقبلا كبيرة على المدخلات والمخرجات من الماضي، والتي يمكن إنشاء الاعتماد على المدى الطويل.

من أجل وحدة فك الترميز حتى في نفس الوضع، والناتج يمكن أن تتولد لمختلف المهام، ونحن دائما استخدام الأوامر لبدء فك ورمزية، على سبيل المثال ل-الإنجليزية أو إلى تحليل شجرة. ونحن نعلم متجه جزءا لا يتجزأ من المقابلة مع كل رمز أثناء التدريب.

2.5 الوضع شبكة

لدينا شبكة أربعة وضع على التوالي: لغة (البيانات النص)، صورة، صوت، وتصنيف البيانات.

2.5.1 الوضع شبكة اللغة

وسوف يكون المسمى استنادا إلى البيانات واستخدام نفس المفردات 8K وحدات subword اللغة. يتم إنهاء وضع إدخال لغة رمزية إلى نهاية سلسلة من رمزية. في الإخراج، والإخراج وضع اللغة من خلال وحدة فك الترميز، وينفذ تعيين الخطي وSoftmax المستفادة، التوزيعات الاحتمالية توليد كلمة رمزية.

2.5.2 شبكة وضع صورة

وضع صورة مدخلات يشبه Xception تدفق واردة. حيث عمق الصورة المدخلة باستخدام المتبقية كتلة التفاف تعمق تدريجيا، فإننا ندعو ConvRes، وتعرف على النحو التالي:

تدفق المدخلات شبكة طرائق صورة تعريف عمق د (نستخدم د = 1024) على النحو التالي:

2.5.3 شبكة وضع تصنيف

وضع فئات الناتج مشابه لXception تيار الخروج. إذا كان إدخال الشبكة هو صورة ثنائية الأبعاد أو البيانات الطيفية مثل البيانات الصوتية، خرج من نموذج الأبعاد واحد من الجسم هو إعادة بناء أول ثنائي الأبعاد، وهو الاختزال التدريجي:

2.5.4 شبكة وضع الصوت

نحن نقبل وإدخال الصوت في شكل شكل ثنائي الأبعاد أو ثنائية الأبعاد من الطيف، وسيلتين الإدخال باستخدام كتل ثمانية ConvRes كومة المذكورة أعلاه.

3. تجربة

نحن نستخدم TensorFlow تحقيق هذه المتعدد الوسائط الهندسة المعمارية، ومجموعة متنوعة من التشكيلات في التدريب.

في كل التدريب المذكورة أدناه، ونحن نستخدم نفس مجموعة من المعلمات وآدم محسن فائقة مع التدرج اقتصاص. سنحقق هذا الضبط وكذلك جميع والمعلمات سوبر تفاصيل مفتوحة المصدر. ونحن نركز على التجارب للإجابة على الأسئلة التالية:

(1) بناء على ثمان مهام تدريب في وقت واحد مع معظم نتائج متقدمة المتعدد الوسائط الفجوة بين كم؟

(2) في حين أن التدريب على ثمانية المهام مع تدريب واحد ما هو الفرق؟

(3) يختلف عن وحدة الحساب أعلاه، وكيف يؤثر على مهام مختلفة؟

في الجواب على السؤال أعلاه، فإننا لا نعتبر دائما كل الأسئلة الثمانية. ولا سيما سلوك أربع مشاكل الترجمة متشابهة جدا، لذلك قررنا عدم إدراج كل منهم في كل مقارنة، ولكن علينا أن نركز على قضايا أكثر تنوعا.

للإجابة على السؤال (1)، ونحن سوف أداء المتعدد الوسائط تقارن ثمانية أسئلة مع معظم نتائج متقدمة في الجدول 1. نحن لم تنفق الكثير من الوقت للتكيف hyperparameter المتعدد الوسائط، ونحن نعتقد أن تقليص الفجوة بين الاثنين يمكن أن تصل قيمتها إلى أكثر الصغيرة. نتائج حققنا تشبه نموذج مهمة محددة ليست الكثير من ضبط.

للإجابة على السؤال (2)، في مهمة مشتركة لتدريب ثمانية، ونحن أيضا استخدام نفس المعلمات لكل مهمة أثناء التدريب منفصل. إجراء التدريب الفردي، استخدمنا عامل لاستكمال إجراء مماثل. وكما يتبين من النتائج في الجدول رقم 2، نماذج ثمانية نموذج مهمة تدريب المشترك، والأداء، وتدريب الأفراد متشابهة جدا وأحيانا على نحو أفضل.

وبالنظر إلى كميات كبيرة من مهمة الترجمة البيانات النص، انظر الجدول 2 تحسنا كبيرا ليس من المستغرب. ذلك الأداء على ImageNet سيحدث؟ وكما يتبين من الجدول 3، والفرق في الأداء هو أكثر وضوحا، وذلك بسبب استخدام التسرب ووقف في وقت مبكر، ونحن نفترض أن هذا له علاقة مع أكثر من لتركيب أي شيء. على العكس من ذلك، يبدو أن الحوسبة المشتركة بين نظرة المهام بدائية مختلفة، حتى لو كان، مثل ImageNet والتحليل النحوي بين هذه المهمة التي تبدو غير ذات صلة، وهناك بعض يمكنك نقل التعلم.

إلى إجابة السؤال (3)، قارنا تدريب الخبراء إذا لم يكن هناك طبقة الاختلاط أو أن توجد آليات الانتباه تؤثر على أداء مختلف القضايا. بسبب هاتين الآليتين مصممة للالترجمة الآلية، لذلك قارنا الإنجليزية - الترجمة الفرنسية. ولكن كنا مقارنة ImageNet، لأن هذا هو أقل فائدة من هذه الكتل في السؤال. في الواقع، إذا كانت هذه الوحدات غير مجدية حقا، وذلك بعد إزالته لن يؤثر على أداء ImageNet. في المقابل، نرى في الجدول 4، وهذه الوحدات لن يؤثر أو قليلا تحسين الأداء. هذا يقودنا إلى الاستنتاج أن خلط كتلة حساب مختلف هو في الواقع وسيلة جيدة لتحسين أداء مختلف المهام.

4. الخلاصة

علينا أن نظهر للمرة الأولى، يمكن وضع التعلم العميق واحد نتعلم معا بعض المهام الرئيسية من مختلف المجالات.

مفتاح النجاح هو تصميم هيكل متعدد الأوضاع، حيث المعلمات مشتركة قدر الإمكان، وحدة الحساب المستخدمة مع مختلف المجالات.

ونحن نعتقد أن هذا سيكون البحوث مستقبل التعلم العميق إطار أعم لفتح طريقة مثيرة للاهتمام، وخاصة البرامج نموذجنا، استنادا إلى كميات كبيرة من البيانات من مهمة التدريب والتطبيقات التعلم يمكن ترحيل البيانات على مهمة محدودة.

أوراق العنوان:

https://arxiv.org/abs/1706.05137

الكتاب : لوكاس كايزر، ايدين N. غوميز، نعوم Shazeer، أشيش فاسواني، نيكي بارمار، Llion جونز جاكوب Uszkoreit

[نهاية]

إشعار

و qubit يجري انشاء مجموعة التكنولوجيا القيادة الآلية، الطيار الآلي بحث عن المجالات ذات الصلة في المهندسين المدرسة أو الخط الأول. مرحبا بكم في إضافة بريد إلكتروني المكدسة الصغير (qbitbot)، وتلاحظ "الطيار الآلي" تطبيق ~ جيا Ruha

تجنيد

المكدسة هو تجنيد المحررين والمراسلين والعمليات والمنتجات وغيرها من المواقف، ومقرها في تشونغ قوان تسون في بكين. مزيد من التفاصيل، في عدد من واجهة الحوار العامة، يجيب: "التوظيف".

تيانفو غرين ركض إلى عهد جديد من 2018 لبدء تشغيل نصف الماراثون الذهب Wenjiang

سقوط BYD الطبقة الأرستقراطية البريطانية الابهام البريطانية يصل

الجميع يقول اللعبة معظم عبة المال حرق الصين، لكننا لعبنا في أفقر عندما

لوس انجليس ليكرز الهزيمة الذاتية، بعد 48 ساعة، والساحر يسيء جيمس وونغ، حواجب كثيفة ولوس انجليس ليكرز!

التقاط البضائع المنزلية على قيد الحياة لتشغيل الموقع لمدة 20 عاما لماذا السائقين اختيار Wingle بيك اب

LOL كأس القارات: فوز LPL على LCK حامل اللقب بنجاح! اللاعبين: S8 الأكثر استقرارا من السنة!

بجع نهاية المطاف يسأل التعرض الأسعار، ولوس انجليس ليكرز ليس فقط تفرغ، ولكن أيضا لهذا الغرض ملء ثلاثة حفرة!

داليان، موطنا لأكثر من 50،000 لأول مرة! سوبر 30 عدد الحضور صدر: Hengda الثانية Suning الثالث

التصميم التكوين أكثر ديناميكية أكثر ثراء تحت بو 2018 بدأت البلاد ما قبل البيع

LOL كأس القارات: المنتخب الصيني 3: 2 لينتزع كوريا، عوزي أربعة الإنجاز التوالي صلت! أرسلت S8 حتى!

اللاعبون يحبون الثقافة مهرجان الربيع، والناس يحبون الزلابية، وبعض الناس يحبون مقاطع، الضحك كبيرة الأردن

باركليز: التحوط صندوق منظمة العفو الدولية وتعليمات العمل البيانات الكبيرة