على GPU واحد يمكن تشغيل محول، وجوجل وبيركلي أحدث مفتوح المصدر

الأغنام الأسماك من الجزء السفلي من راحة غير معبد،

تقارير و qubit | عدد ملفه QbitAI

منذ محول منذ ولادته، وتحديث واحدا تلو رقما قياسيا جديدا في مجال البرمجة اللغوية العصبية، والمعروفة باسم إطار التعلم العميق حاليا الأكثر شعبية ليس من قبيل المبالغة.

ومع ذلك، لكسب SOTA لا يعني الكمال.

على سبيل المثال، على تسلسل تدريب طويل، محول هناك كمية كبيرة من حساب، وتكاليف التدريب عالية.

متطلبات الذاكرة تتراوح بين GB على مستوى مستوى TB. وهذا يعني أن النموذج يمكن أن تتعامل فقط مع نص قصير، لتوليد الموسيقى قصيرة.

وبالإضافة إلى ذلك، العديد من نموذج محول كبير بعد نموذج في التدريب الموازي، لا يمكن أن يكون ضبطها غرامة على GPU واحد.

الآن، أطلقت جوجل وجامعة كاليفورنيا في بيركلي نماذج محول أكثر كفاءة - مصلح .

في طول L تسلسل، يتم تقليل التعقيد من O (L2) إلى O (L logL).

وبعد التدريب نموذج، يمكنك فقط استخدام GPU واحد تشغيل 16GB من الذاكرة.

وقد وردت أوراق ICLR عام 2020. كان نموذج مفتوح أيضا. (عنوان يرى نهاية النص)

مصلح

يقدم المصلح أساسا التقنيات التالية:

  • طبقة عكسها . يتم تخزين طبقة المتبقية عكسها بدلا من مخلفات القياسية، لأن هذا نموذج فقط مرة واحدة التنشيط خلال التدريب، وبدلا من الأوقات N (N هو عدد طبقات).
  • تقسيم الداخلية طبقة تغذية الأمام التنشيط، وعملية تجزئة، والقضاء على عامل قوات الأمر الواقع، feedforward حفظ طبقة الذاكرة.
  • بدلا من ذلك نقطة اهتمام هو تجزئة الحساسة جزئية (محلة التجزئة الحساسة) الاهتمام، يتم تقليل التعقيد من O (L2) إلى O (L logL)، بحيث يمكن أن تعمل على سلسلة طويلة.

تجزئة حساسة المحلية (LSH) الاهتمام

يستخدم الاهتمام محول القياسية في نقطة الاهتمام.

حيث، Q مصفوفة من قبل مجموعة من وظيفة الاستعلام من تكوين اهتمام، ومفتاح حزمة مصفوفة K، قيمة تعبئتها وفقا لمصفوفة V، dk غير الاستعلام وأبعاد رئيسية.

في softmax (QKT)، softmax التي تسيطر عليها أكبر عنصر، لذلك كل استعلام (تشي)، والحاجة K فقط إلى التركيز على أقرب مفتاح تشي. هذه الكفاءة هي أعلى من ذلك بكثير.

إذا كيف يمكنك العثور على أقرب جار في مفتاح في؟

لا يمكن حلها التجزئة الحساسة المحلية بسرعة العثور على أقرب جار مشكلة في الفضاء الأبعاد عالية.

محلة سائل التجزئة الحساسة التي، إذا كانت ناقلات المجاورة من الممكن الحصول على قيمة التجزئة نفسها، ومتجه المسافات غير ممكن، يتم تعيين ناقلات العاشر إلى كل من ح قيمة التجزئة (خ).

في هذه الدراسة، في الواقع، لا يتطلب سوى ناقلات المجاورة للحصول على احتمال كبير نفس التجزئة، دلو التجزئة وجود احتمال كبير لحجم مماثل.

الانتباه إلى تبسيط وصف LSH

التقريب غير مقبول طالما مربع من طول تسلسل تعقيد سيتم تخفيضها إلى التركيز خطي.

عكسها محول

لذا فإن السؤال هو، وهذا يمكن أن يتضح من الجدول أدناه، في بعض الحالات، ذاكرة والتعقيد وتعقيد الوقت لا يزال مرتفعا جدا.

وهكذا، فقد قدم الباحثون طبقة عكسها وعملية تجزئة، وإلى مزيد من خفض التكاليف.

محول عكسها دون التنشيط المخزنة في كل طبقة.

ونتيجة لذلك، فإن الشبكة بالكامل التنشيط مقدار الذاكرة على عدد من الطبقات غير ذي صلة.

النتائج التجريبية

تعيين الباحثون في بيانات enwik8 وimagenet64 نموذج طبقة المصلح تم تدريب 20.

وتبين التجارب أنه المصلح يمكن تحقيق نفس الأداء مع محول، وارتفاع كفاءة الذاكرة، تدريب نموذجي أسرع في سلسلة طويلة من المهام.

يمكنك أيضا ضبط فقط على GPU واحد.

تطبيق

المصلح محول النمذجة قدرات وكفاءة معالجة العمارة مهمة سلسلة طويلة جنبا إلى جنب، حتى لنماذج مع عدد كبير من طبقات، سوف يقلل بشكل كبير من تكلفة الذاكرة.

ويعتقد الباحثون أن هذا سيسهم في تعزيز المعلمات كبيرة، غنية محول نموذج.

و، المصلح القدرة على معالجة سلسلة طويلة، سوف يعمل محول إدخال مساحة أوسع، مثل التنبؤ السلاسل الزمنية والموسيقى والصور والفيديو جيل.

بوابة

عنوان ورقة: الشبكي: //arxiv.org/abs/2001.04451

جيثب: الشبكي: //github.com/google/trax/tree/master/trax/models/reformer

- انتهى -

و qubit QbitAI عناوين على عقد

تابعنا، أبلغ أول مرة طليعة التطورات العلمية والتكنولوجية

الهيكل المعرض تدوين المودة: سعيد عيد الحب، حبي.

هذه الكلمات المؤثرة، وطبع على مكافحة الصين للمساهمات السارس إمدادات أوروبا

يرتدون أقنعة أحدث التوجيه العلمي لل

سرد نماذج 25 مارس انفجار ديك شيري نملة صغيرة نسخة ملكة المحتمل لماذا يتفوق على الآخرين؟

يرتدون أقنعة أحدث التوجيه العلمي لل

وإلنترا دي نموذج جديد شقيقة AVANTE الحديث تنشر غدا في كوريا الجنوبية

الإنترنت عبر الهاتف النقال هو محور الترقية / ستكون ثلاث ديناميات اختياري جديد SAIC فولكس واجن باسات متاح

"" الطائر قراءة "الصينية" قياسي مرتفع بناء المزارع جوي مكوك قانسو الزراعية "النسيج" Harukage

تأجيل مسابقة كأس الاتحاد الاوروبي عام، وليس فقط "مرة أخرى تراقب" حتى بسيطة

F1 سباق جائزة البحرين الكبرى لكنه تأجل بسبب اندلاع في أول الظاهري الرجل F1 سباق الجائزة الكبرى الصيني للفوز لرينو

صوت مذكرات من ووهان: أن يكون المرضى الذين خرجوا يقول كلمة واحدة، الممرضات وبدأت تقريبا في البكاء ......

مع تصميم واجهة جديدة سيتم سرد قوانغتشو للسيارات تشي تشوان GS8S رسميا في أبريل