الجمعية | قراءة ورقة بابا ICLR: الشبكة العصبية على أساس دوري طريقة الاتجاه بالتناوب من تكميم متعددة بت

RNN المعلمة لا تعول كثيرا بعد الآن، كيف؟

تقنية مراجعة AI حسب: 30-مايو أبريل 3، وقد تم الاعتراف على نطاق واسع من قبل المجتمع الأكاديمي، "الدراسة اجتماعات عمق المستوى الأعلى" من ICLR 2018 الذي سيعقد في فانكوفر، كندا. تم التعاقد علي بابا ورقة بالتعاون مع جامعة بكين "بالتناوب متعدد بت تكميم عن الشبكات العصبية المتكررة" ICLR 2018 في شكل ملصقات، وهو مؤلف الأول من العمل المنجز خلال الدكتوراه شو تشن بابا البحث خوارزمية الممارسة الجماعية. والفكرة الرئيسية هي المعلمة تكميم إلى ثنائي {-1، + 1} حتى حل يستند RNN نظرا لنموذج الأبعاد عالية أو جزءا لا يتجزأ من مشاكل في الدورة الدموية متعددة الطبقات التي تسببها المعلمات المفرطة.

مجموعة علي بابا الشهر الماضي خوارزمية البحث في قاعدة البيانات في مشروع تكنولوجي ريفيو منظمة العفو الدولية "منظمة العفو الدولية عامل تأثير". في نشطة. بابا مجموعة خوارزمية البحث في 15 أبريل في الولايات المتحدة عقدت أول "بحث والحوسبة التكنولوجيا - اليوم المفتوح"، والتكنولوجيا علي الإنترنت لتبادل الخبرات في مجال التطبيقات المتطورة ووجهات النظر تنمية المستقبل في سياق العولمة. بحث تقسيم المنتج رئيس إلكتروني التفكير من منظور تجاري، وخصوصا مزيج من الناحية الفنية والتجارية للعرض، يتم تعيين التكنولوجيا بيئة الأعمال بابا كلها يمكن أن تلعب دورا إيابا، وحصة. وICLR أدرجت 2018 ورقة، يوضح المزيد من القوة الأكاديمية للبابا خوارزمية بحث مجموعة.

ICLR 2018 بابا المشاركة الأعضاء

مقاعد تشيناي وملصق صورة

مقدمة

المتكررة الشبكات العصبية (RNN) في نموذج اللغة، والترجمة الآلية، التعرف على الكلام، صورة لقب جيل، وما إلى ذلك للعديد من التطبيقات حققت نتائج جيدة جدا. ومع ذلك، هذه النماذج غالبا ما تبنى على ارتفاع الأبعاد المدمجة (تضمين ذلك) أو وحدة متعددة الدورية، التي تضم عددا كبيرا من المعلمات، بحيث الموارد المحدودة لا يمكن نشرها في محطة متنقلة. وعلاوة على ذلك، فإن حساب RNN يعتمد على حالة مخفية الحالية، لا يمكن إلا أن يؤديها بشكل متسلسل، وذلك عند تنفيذ نتيجة الاستدلال في تأخير كبيرة. على جانب الملقم لدينا طلبات المتزامنة على نطاق واسع، مثل التعرف على الكلام أو الترجمة الآلية وغيرها من التطبيقات، من أجل تلبية متطلبات صارمة خط زمن الاستجابة، والحاجة إلى نشر عدد كبير من الآلات. في هذا العمل، ونحن نعتبر المعلمة تكميم إلى ثنائي {-1، + 1} ما يصل الى حل المشاكل المذكورة أعلاه. النظر في النموذج في حق الوزن بت واحد، نسبة إلى الدقة الكاملة، يؤدي 32 أضعاف مباشرة لضغط الذاكرة. المعلمات ضرب المصفوفات 1-بت، دون النظر في تنفيذ معين، نسبة إلى الضرب الدقة الكاملة، من الناحية النظرية، وسوف تجلب إلى 32 مرات التسارع. إذا، ومع ذلك، يتم مكمم ثقل ووزن النموذج في 1 قليلا تفعيلها في الشبكات العصبية المتكررة، وسوف تجلب خسارة كبيرة من الدقة. لذلك، الحل الوسط هو استخدام الطبيعية كميات متعددة بت (كما هو موضح في الشكل 1).

الشكل 1 تخطيطي مكمم متعددة بت مضاعف

التقليدية أسلوب تكميم متعددة بت

1) زي (الموحدة) ك بت مكمم باستخدام نظام تكميم ما يلي:

هذا الأسلوب الكمي على أساس القاعدة هو من السهل جدا لتنفيذ، ولكن بيانات ضعيفة لتأثير تكميم غير موحدة، بدلا من توزيع موحد للبيانات ولكنها أكثر شيوعا في عمق الشبكة العصبية.

2) التوازن (المتوازن) تكميم الكم موحد لحل سلبيات تجهيزها البيانات. الطريقة الأولى تولد 2 ^ ك فترات، كل فترة تحتوي على كميات متساوية إلى حد كبير من البيانات. طريقة ثم خرائط كل من تكميم الخطي المركزي فترة المقابلة الترميز. على الرغم من أنها تبدو أفضل، ولكن ويستند هذا الأسلوب على القاعدة، وهذه القاعدة لا يضمن أن يتم توزيع جميع البيانات من نتائج.

3) طريقة الجشع (والجشع) التحلل التقريبي للحلول لتحقيق تكميم مع منفصلة التالية إلى الالتزام:

ل k = 1، وشكل إغلاق الحل موجود المشاكل المذكورة أعلاه. متدرج الجشع يقترب بفارق تكميم (بقايا) وتمديده إلى ك بت (ك > 1) حالة:

كل خطوة لها حل دون المستوى الأمثل

طريقة الجشع هو فعالة جدا، على الرغم من أنه لا يمكن الحصول على حل مع دقة عالية، وسوف تكون على غرار في شكل تقدير حجم مشكلة الأمثل هو لا يزال ينير جدا.

4) نسخة محسنة (المكرر) لتوسيع الجشع طريقة تقريب الجشع للحد من الخطأ تكميم. في مشكلة تقليل الخطوة j، طريقة المربعات الصغرى مع خطوة إضافية إلى معامل التصحيح

في الأوزان الثقيلة قياس الأصلية التفاف التجارب الشبكة العصبية، وهو نسخة معدلة من طريقة الجشع أنها أكثر فعالية من طريقة الجشع الأصلي. ومع ذلك، ونحن نتحدث عن أدناه، نسخة منقحة من طريقة الجشع لا تزال غير مرضية من حيث تكميم الدقة.

بالإضافة إلى نظام متعدد بت تكميم للأغراض العامة، وهناك واقترح أيضا تكميم ثلاثة القيمة، مقارنة مع تكميم ثنائي 1-بت، وقيمة الكم من أكثر من ثلاثة الممكنة الدولة 0. ثلاثة قيمة الكم من خلال حل المشاكل التالية

لتحقيق الترميز. ومع ذلك، النص ليس حل فعال المقترحة، على العكس، من تجريبيا، سيكون أقل من 0.7 / ن || ث تم تعيين || _1 عنصر إلى 0، والعناصر المتبقية باستخدام قيمتين تكميم كما هو موضح أعلاه. في الواقع، تكميم أساسا ثلاثة ذات القيمة ما يعادل 2 بت تكميم هنا، والفرق الوحيد هو أن عدد وافر من القيد من A_1 = a_2. عندما يتم إصلاح رمز ثنائي، وA_1 معامل الأمثل (أو A_2) ويمكن الحصول على نحو مماثل من قبل المربعات الصغرى.

طريقة الاتجاه بالتناوب على أساس نظام تكميم متعددة بت

بعد ذلك، عليك تحديد الطريقة المقترحة، وهو نفس ما أردنا تحقيق كميا من خلال حل مشكلة التحسين أعلاه. لالبساطة، والنظر في أول قضية ك = 2، إذا كان من المعروف A_1 A_1 وa_2 ويلتقي a_2، أي من الممكن أن تحد مشفرة إلى الحالات الأربع التالية V = {- A_1 - a_2، - A_1 + a_2، A_1 - a_2، A_1 + a_2}. للحصول على أي عنصر ث ث التي تتحدد من قبل رموز المربعات الصغرى. ونحن قد وفقا لتقسيمها إلى أربعة أجزاء من محور بأكمله، يقع على جزء واحد من ث المشفرة الكم المقابلة. المتاحة من أقرب الجيران حالة الفاصلة تكميم الحدود هو ترميز قيمة وسيطة، أي - a_1،0 وA_1. يظهر الشكل التالي التخطيطي.

الشكل 2 عندما ثابتة معاملات حقيقية ومعظم 2 بت ترميز تخطيطي

للحصول على أي كميات ك بت، افترض المعروف {a_i} ^ _ ك {ط = 1}، يمكننا أن محور كامل على نحو مماثل إلى 2 ^ ك فترات، من خلال نقطة الوسط من الحدود المتاخمة الممكن أيضا لتقسيم الترميز . إذا أن الكم مباشرة العدد الحقيقي ث تتم مقارنة مع جميع فترات الحدود لتحديد المقابلة الترميز، أي ما مجموعه 2 ^ ك مرات، عندما القيم أكبر من ك، هذه العملية غير اقتصادية للغاية. في الواقع، يمكننا استخدام قابلة للحياة ترميز العناصر الإحضار ضد زيادة monotonically الطبيعة، والخامس بالتساوي إلى مجموعتين فرعيتين: V_ {1: م / 2} وV_ {م / 2 + 1: م}، حيث يمثل م الخامس الطول. إذا ث (V_ {م / 2} + V_ {م / 2 + 1}) / 2، أي من الممكن للحد من الترميز فرعية V_: من {1 م / 2}. على العكس، إذا ث (V_ {م / 2} + V_ {م / 2 + 1}) / 2، أي من الممكن للحد من الترميز فرعية V_: في {م / 2 + 1 م}. بواسطة ترميز بشكل متكرر مجموعة فرعية من الممكن تقسيمها بالتساوي، نحن بحاجة فقط إلى مقارنات ك يمكن الحصول الأمثل الترميز. ويمكن ملاحظة هذه العملية مثل شجرة البحث الثنائية، فإننا الشكل أدناه يظهر ك بسيطة = 2 هو التخطيطي. مرة واحدة الترميز تكميم، يمكن أن يكون رسم الخرائط واحد إلى ناقلات المقابلة ثنائي {b_i} ^ _ ك {I = 1}.

الشكل (3) سيتم تخفيض شجرة بحث ثنائية إلى k مقارنات مقارنات

واستنادا إلى النتائج الواردة أعلاه، نرى مرة أخرى وصفت نسخة معدلة من واحد تقريب الجشع. بعد المربعات معامل التصحيح الحقيقي، والترميز ثنائي {b_i} ^ _ ك {I = 1} أي الأمثل أطول، وسوف الأسلوب لا يزال ثابتا. لمزيد من تحسين وتقليل بالتناوب والقيم الثنائية معامل الحقيقي في الاختيار الطبيعي. وبمجرد أن شجرة البحث الثنائية باستخدام الأمثل {b_i} ^ _ ك {ط = 1}، ويمكن ان تكون ثابتة، وأقل تحديث الساحات {a_i} ^ _ ك {I = 1}. في تجربة حقيقية للحصول على الجشع طريقة تهيئة تفسيره، وجدنا فقط خطوتين بالتناوب حل تكرارية غير كافية للحصول على دقة عالية.

النتائج التجريبية

نحن قياس تجارب على نماذج لغة، تم اختبار LSTM وGRU اثنين من أبنية. لأن

تدريب LSTM على وزن طريقة تقريب PTB الجدول 1 مجموعة بيانات مختلفة. يمثل فيه FP الدقة الكاملة

GRU الوزن تدريبهم على أساليب مختلفة من الجدول 2 مجموعة البيانات PTB التقريبي

تجارب للتنبؤ الكلمة التالية، وأثر القياس من كلمة واحدة التعقيد (الحيرة للكلمة، كما يختصر PPW). لاختبار دقة كل خوارزمية تكميم، قمنا بتدريب أولا إلى إعادة تقريب الحق الكامل الدقة (تفعيل أو عدم تكميم الوزن التدريب)، فإن النتائج كما هو مبين في الجدول رقم 1 والجدول 2. مشيرا إلى تكميم موحدة وتكميم قائم على قواعد المساواة، التي لا تهدف للتقليل من الخطأ، لذلك هاتين الطريقتين سوف تحصل على نتائج أسوأ من ذلك بكثير. ما زلنا على مجموعات البيانات الأخرى كررت التجربة المذكورة أعلاه، على حد سواء المتكررة العصبي LSTM هندسة الشبكات وGRU، وهنا تكون النتائج مماثلة.

على مجموعات البيانات الجدول 3 PTB ومتعددة بت تكميم LSTM GRU اختبار PPW، الذي قياس كميات موحدة ونتائج متوازنة للورقة الحالية، ونسخة محسنة من القانون هو نتيجة لجشع الخاصة بنا تحقيقها.

الجدول 4 نصوص ويكي WikiText-2 على مجموعة البيانات ومتعددة بت كميات LSTM GRU اختبار PPW.

الجدول 5 نص-8 على مجموعة البيانات ومتعددة بت تكميم LSTM GRU اختبار PPW.

أجرينا أيضا تظهر التنشيط وقت واحد من الأوزان تكميم والنتائج التجريبية في الجدولين 3 و 4 و 5. يمكن أن ينظر إليه، والاتجاهات بالتناوب الطريقة المقترحة أفضل بكثير من الطريقة التقليدية تكميم الآخرين. حتى بالمقارنة مع نسخة محسنة أفضل أداء طريقة الجشع، وسيلة لتوجيه بالتناوب لتحقيق دقة مماثلة مع أقل قليلا ربما.

أدركنا أيضا في وحدة المعالجة المركزية ثنائي مصفوفة تكاثر ناقلات، الذي النتائج كما هو مبين في الجدول رقم 6.

الجدول 6 مقارنة مع ثنائي الضرب CPU كاملة الدقة وقت الضرب

ملخص

في هذا العمل، ونحن نعتبر الشبكة العصبية مشكلة متعددة بت تسريع ضغط تكميم الرئيسية. لقد وجدنا أنه إذا كان معامل الحقيقي ثابت الترميز، ثنائي الترميز منفصلة {-1، + 1} بواسطة شجرة البحث الثنائية يمكن حلها بكفاءة. واستنادا إلى هذه النتيجة، نقترح المقابلة طريقة الاتجاه بالتناوب. طريقة لقياس نموذج لغتنا وهيكل LSTM GRU، مقارنة مع دقة كاملة للنموذج، من خلال تكميم 2-بت، فإننا يمكن أن تقلل من استهلاك الذاكرة من حوالي 16 مرة، حوالي 6 مرات، وتحقيق على تسريع وحدة المعالجة المركزية الحقيقية الاستدلال ولكن فقط كمية صغيرة من فقدان الدقة. بواسطة تكميم 3-بت، على دقة طريقة يمكن تنفيذها مع فقدان القليل حتى يتجاوز النموذج الأصلي، ونحو 10.5 أضعاف تخفيض استهلاك الذاكرة، وتحقيق حوالي ثلاثة أضعاف تقدير تسارع صحيح على وحدة المعالجة المركزية. هذه النتائج هي أفضل بكثير من نتائج أساليب القياس الكمي الحالية.

نعم، نحن تجنيد الناس، لمعرفة؟

BAT العليا خوارزمية مهندس ودورات التطوير الحصرية

معظم مقربة من الحياة والعمل من المرح التطبيق العملي للمشروع

إدارة الصف مساعد الطالب المهنية Q & A

تطبيق معارفهم لاتخاذ العرض، وهي استكمال يوصي التوظيف

انقر لقراءة رمز المسح أو النص لمعرفة!

(^ 0 ^) تقاسم ترحيب، أراك غدا!

طريق الحرير

الجمعية | قراءة ورقة بابا ICLR: الشبكة العصبية على أساس دوري طريقة الاتجاه بالتناوب من تكميم متعددة بت

من من الحق، لا يخاف من ذلك على أي حال

كسر 1.7 مليار! من "العمل ميكونغ" إلى "عمل البحر الأحمر" هذا الشخص في موقف!

2017 معرض فرانكفورت للسيارات: أنا الرؤية حيوية

وليس ذلك بكثير كيف الله؟ تكنولوجيا الأرز الصينية، بيتا: أنا آسف، لقد الخروج

الجاف | UT أوستن الدكتوراه شين يان ياو: بناء على عمق الاعتراف كيان اسمه التعلم النشط

يقود الموضة والصحة: LOGO فيفو PHONE tushang

وانغ باو تشيانغ مع "الحي الصيني هولمز 2" إلى الممثل خامس أعلى الاطلاق، نلقي نظرة على رأس خمسة من آخر!

50 مليار لبناء "هنغديان" الجديد "سور الصين العظيم" والإعانات الأخرى ملصقات، لين جيان والد ذلك الخندق؟

نسخة الأحداث من "X- الرجال"؟ "قصة غريبة" المعركة التي تبدو جيدة!

وشجار غاضب، ولكن منظمة العفو الدولية ومنظمة العفو الدولية محاربة احلال الامن في الواقع

2017 معرض فرانكفورت للسيارات: رينو مفهوم سيارة Symbioz

فيفو NEX مزدوج الطبعة القادمة: حلقات + الخلفية لثلاثة الكاميرا، شريطة 10GB ذاكرة القناة الكبرى

الذئب 2 والبحر الأحمر مربع عمل مكتب ضرب، ولكن لى تشن مع "مطاردة الفضاء" للحصول على مخرج جديد جائزة أفضل

ابحاث | 2، تاريخ التوزيع العالمي للخبراء هندسة البرمجيات، فإن البرنامج لا يقرأ ولا مستقبل!

لمحة تاريخية موجزة من آبل الوظيفي

فاز الترفيه كابيتال "قائمة جديدة" وكالة وسائل الإعلام الجديدة لهذا العام، ونحن سوف تكون قيد التشغيل على طول الطريق!

أصدرت شركة سامسونج غالاكسي A8s قريبا، معلمات التكوين وراء الكواليس، وكاميرا خلفية + ثلاثة شياو 710

F-PACE والجمع بين F-TYPE؟ السيارات خبرة ثابت جاكوار E-PACE

تجف | جاءت جوجل TPU II، والحرب لا تزال قادرة NVIDIA تسلا V100 لا؟

أوبرا المنبع | بالإضافة إلى "خط الجمال" الباليه "فو" ما هو رائع؟

الجاف | "لقائي الاول العلماء تجربة التدريب البيانات."

6T بالإضافة إلى نسخة مخصصة من ماكلارين القادم: 10GB ذاكرة كبيرة + 50W سوبر تهمة سريع

الأحكام ذات الصلة