شبكة العصبية على أساس الاتجاهات بالتناوب دوري الطريقة متعددة بت كميات صغيرة | ICLR 2018: علي بابا

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: 3 أبريل 30 مايو، وقد تم الاعتراف على نطاق واسع من قبل المجتمع الأكاديمي إلى "دراسة متعمقة لمؤتمر القمة" في ICLR 2018 الذي عقد في فانكوفر، كندا. تم التعاقد علي بابا ورقة بالتعاون مع جامعة بكين "بالتناوب متعدد بت تكميم عن الشبكات العصبية المتكررة" ICLR 2018 في شكل ملصقات، وهو مؤلف الأول من العمل المنجز خلال الدكتوراه شو تشن بابا البحث خوارزمية الممارسة الجماعية. والفكرة الرئيسية هي المعلمة تكميم إلى ثنائي {-1، + 1} حتى حل يستند RNN نظرا لنموذج الأبعاد عالية أو جزءا لا يتجزأ من مشاكل في الدورة الدموية متعددة الطبقات التي تسببها المعلمات المفرطة.

بابا مجموعة خوارزمية البحث في الشهر الماضي مشروع قاعدة البيانات AI تقنية مراجعة "AI عامل تأثير" في نشطة. بابا مجموعة خوارزمية البحث في 15 أبريل في الولايات المتحدة عقدت أول "بحث والحوسبة التكنولوجيا - اليوم المفتوح"، والتكنولوجيا علي الإنترنت لتبادل الخبرات في مجال التطبيقات المتطورة ووجهات النظر تنمية المستقبل في سياق العولمة. بحث تقسيم المنتج رئيس إلكتروني التفكير من منظور تجاري، وخصوصا مزيج من الناحية الفنية والتجارية للعرض، يتم تعيين التكنولوجيا بيئة الأعمال بابا كلها يمكن أن تلعب دورا إيابا، وحصة. وICLR أدرجت 2018 ورقة، يوضح المزيد من القوة الأكاديمية للبابا خوارزمية بحث مجموعة.

ICLR 2018 بابا المشاركة الأعضاء

مقاعد تشيناي وملصق صورة

مقدمة

المتكررة الشبكات العصبية (RNN) في نموذج اللغة، والترجمة الآلية، التعرف على الكلام، صورة لقب جيل، وما إلى ذلك للعديد من التطبيقات حققت نتائج جيدة جدا. ومع ذلك، هذه النماذج غالبا ما تبنى على ارتفاع الأبعاد المدمجة (تضمين ذلك) أو وحدة متعددة الدورية، التي تضم عددا كبيرا من المعلمات، بحيث الموارد المحدودة لا يمكن نشرها في محطة متنقلة. وعلاوة على ذلك، فإن حساب RNN يعتمد على حالة مخفية الحالية، لا يمكن إلا أن يؤديها بشكل متسلسل، وذلك عند تنفيذ نتيجة الاستدلال في تأخير كبيرة. على جانب الملقم لدينا طلبات المتزامنة على نطاق واسع، مثل التعرف على الكلام أو الترجمة الآلية وغيرها من التطبيقات، من أجل تلبية متطلبات صارمة خط زمن الاستجابة، والحاجة إلى نشر عدد كبير من الآلات. في هذا العمل، ونحن نعتبر المعلمة تكميم إلى ثنائي {-1، + 1} ما يصل الى حل المشاكل المذكورة أعلاه. النظر في النموذج في حق الوزن بت واحد، نسبة إلى الدقة الكاملة، يؤدي 32 أضعاف مباشرة لضغط الذاكرة. المعلمات ضرب المصفوفات 1-بت، دون النظر في تنفيذ معين، نسبة إلى الضرب الدقة الكاملة، من الناحية النظرية، وسوف تجلب إلى 32 مرات التسارع. إذا، ومع ذلك، يتم مكمم ثقل ووزن النموذج في 1 قليلا تفعيلها في الشبكات العصبية المتكررة، وسوف تجلب خسارة كبيرة من الدقة. لذلك، الحل الوسط هو استخدام الطبيعية كميات متعددة بت (كما هو موضح في الشكل 1).

الشكل 1 تخطيطي مكمم متعددة بت مضاعف

التقليدية أسلوب تكميم متعددة بت

1) زي (الموحدة) ك بت مكمم باستخدام نظام تكميم ما يلي:

هذا الأسلوب الكمي على أساس القاعدة هو من السهل جدا لتنفيذ، ولكن بيانات ضعيفة لتأثير تكميم غير موحدة، بدلا من توزيع موحد للبيانات ولكنها أكثر شيوعا في عمق الشبكة العصبية.

2) التوازن (المتوازن) تكميم الكم موحد لحل سلبيات تجهيزها البيانات. الطريقة الأولى تولد 2 ^ ك فترات، كل فترة تحتوي على كميات متساوية إلى حد كبير من البيانات. طريقة ثم خرائط كل من تكميم الخطي المركزي فترة المقابلة الترميز. على الرغم من أنها تبدو أفضل، ولكن ويستند هذا الأسلوب على القاعدة، وهذه القاعدة لا يضمن أن يتم توزيع جميع البيانات من نتائج.

3) طريقة الجشع (والجشع) التحلل التقريبي للحلول لتحقيق تكميم مع منفصلة التالية إلى الالتزام:

ل k = 1، وشكل إغلاق الحل موجود المشاكل المذكورة أعلاه. متدرج الجشع يقترب بفارق تكميم (بقايا) وتمديده إلى ك بت (ك > 1) حالة:

كل خطوة لها حل دون المستوى الأمثل

طريقة الجشع هو فعالة جدا، على الرغم من أنه لا يمكن الحصول على حل مع دقة عالية، وسوف تكون على غرار في شكل تقدير حجم مشكلة الأمثل هو لا يزال ينير جدا.

4) نسخة محسنة (المكرر) لتوسيع الجشع طريقة تقريب الجشع للحد من الخطأ تكميم. في مشكلة تقليل الخطوة j، طريقة المربعات الصغرى مع خطوة إضافية إلى معامل التصحيح

في الأوزان الثقيلة قياس الأصلية التفاف التجارب الشبكة العصبية، وهو نسخة معدلة من طريقة الجشع أنها أكثر فعالية من طريقة الجشع الأصلي. ومع ذلك، ونحن نتحدث عن أدناه، نسخة منقحة من طريقة الجشع لا تزال غير مرضية من حيث تكميم الدقة.

بالإضافة إلى نظام متعدد بت تكميم للأغراض العامة، وهناك واقترح أيضا تكميم ثلاثة القيمة، مقارنة مع تكميم ثنائي 1-بت، وقيمة الكم من أكثر من ثلاثة الممكنة الدولة 0. ثلاثة قيمة الكم من خلال حل المشاكل التالية

لتحقيق الترميز. ومع ذلك، النص ليس حل فعال المقترحة، على العكس، من تجريبيا، سيكون أقل من 0.7 / ن || ث تم تعيين || _1 عنصر إلى 0، والعناصر المتبقية باستخدام قيمتين تكميم كما هو موضح أعلاه. في الواقع، تكميم أساسا ثلاثة ذات القيمة ما يعادل 2 بت تكميم هنا، والفرق الوحيد هو أن عدد وافر من القيد من A_1 = a_2. عندما يتم إصلاح رمز ثنائي، وA_1 معامل الأمثل (أو A_2) ويمكن الحصول على نحو مماثل من قبل المربعات الصغرى.

طريقة الاتجاه بالتناوب على أساس نظام تكميم متعددة بت

بعد ذلك، عليك تحديد الطريقة المقترحة، وهو نفس ما أردنا تحقيق كميا من خلال حل مشكلة التحسين أعلاه. لالبساطة، والنظر في أول قضية ك = 2، إذا كان من المعروف A_1 A_1 وa_2 ويلتقي a_2، فمن الممكن لترميز تحد من الحالات الأربع التالية أي الخامس = {- A_1 - a_2، - A_1 + a_2، A_1 - a_2، A_1 + a_2}. إلى ث في أي عنصر ث، والتي يتم تحديدها من قبل رموز المربعات الصغرى. ونحن قد وفقا لتقسيمها إلى أربعة أجزاء من محور بأكمله، يقع على جزء واحد من ث المشفرة الكم المقابلة. المتاحة من أقرب الجيران حالة الفاصلة تكميم الحدود هو ترميز قيمة وسيطة، أي - a_1،0 وA_1. يظهر الشكل التالي التخطيطي.

الشكل 2 عندما ثابتة معاملات حقيقية ومعظم 2 بت ترميز تخطيطي

للحصول على أي كميات ك بت، افترض المعروف {a_i} ^ _ ك {ط = 1}، يمكننا أن محور كامل على نحو مماثل إلى 2 ^ ك فترات، من خلال نقطة الوسط من الحدود المتاخمة الممكن أيضا لتقسيم الترميز . إذا أن الكم مباشرة العدد الحقيقي ث تتم مقارنة مع جميع فترات الحدود لتحديد المقابلة الترميز، أي ما مجموعه 2 ^ ك مرات، عندما القيم أكبر من ك، هذه العملية غير اقتصادية للغاية. في الواقع، يمكننا الاستفادة من الممكن جمع الترميز  الخامس مفردة النغمة طبيعة المتزايد للعناصر في الخامس بالتساوي إلى مجموعتين فرعيتين: الخامس _ {1: م / 2} و  الخامس _ {M / 2 + 1: م}، حيث يمثل م الخامس الطول. إذا wv_ {م / 2} + الخامس _ {M / 2 + 1}) / 2، والتي تحد من فرعية قابلة للترميز أي الخامس _ {1: م / 2} جرا. على العكس، إذا ث ( الخامس _ {M / 2} + الخامس _ {M / 2 + 1}) / 2، والتي تحد من فرعية قابلة للترميز أي الخامس _ {M / 2 + 1: م} جرا. بواسطة ترميز بشكل متكرر مجموعة فرعية من الممكن تقسيمها بالتساوي، نحن بحاجة فقط إلى مقارنات ك يمكن الحصول الأمثل الترميز. ويمكن ملاحظة هذه العملية مثل شجرة البحث الثنائية، فإننا الشكل أدناه يظهر ك بسيطة = 2 هو التخطيطي. مرة واحدة الترميز تكميم، يمكن أن يكون رسم الخرائط واحد إلى ناقلات المقابلة ثنائي {b_i} ^ _ ك {I = 1}.

الشكل (3) سيتم تخفيض شجرة بحث ثنائية إلى k مقارنات مقارنات

واستنادا إلى النتائج الواردة أعلاه، نرى مرة أخرى وصفت نسخة معدلة من واحد تقريب الجشع. بعد المربعات معامل التصحيح الحقيقي، والترميز ثنائي {b_i} ^ _ ك {I = 1} أي الأمثل أطول، وسوف الأسلوب لا يزال ثابتا. لمزيد من تحسين وتقليل بالتناوب والقيم الثنائية معامل الحقيقي في الاختيار الطبيعي. وبمجرد أن شجرة البحث الثنائية باستخدام الأمثل {b_i} ^ _ ك {ط = 1}، ويمكن ان تكون ثابتة، وأقل تحديث الساحات {a_i} ^ _ ك {I = 1}. في تجربة حقيقية للحصول على الجشع طريقة تهيئة تفسيره، وجدنا فقط خطوتين بالتناوب حل تكرارية غير كافية للحصول على دقة عالية.

النتائج التجريبية

نحن قياس تجارب على نماذج لغة، تم اختبار LSTM وGRU اثنين من أبنية. لأن

تدريب LSTM على وزن طريقة تقريب PTB الجدول 1 مجموعة بيانات مختلفة. يمثل فيه FP الدقة الكاملة

GRU الوزن تدريبهم على أساليب مختلفة من الجدول 2 مجموعة البيانات PTB التقريبي

تجارب للتنبؤ الكلمة التالية، وأثر القياس من كلمة واحدة التعقيد (الحيرة للكلمة، كما يختصر PPW). لاختبار دقة كل خوارزمية تكميم، قمنا بتدريب أولا إلى إعادة تقريب الحق الكامل الدقة (تفعيل أو عدم تكميم الوزن التدريب)، فإن النتائج كما هو مبين في الجدول رقم 1 والجدول 2. مشيرا إلى تكميم موحدة وتكميم قائم على قواعد المساواة، التي لا تهدف للتقليل من الخطأ، لذلك هاتين الطريقتين سوف تحصل على نتائج أسوأ من ذلك بكثير. ما زلنا على مجموعات البيانات الأخرى كررت التجربة المذكورة أعلاه، على حد سواء المتكررة العصبي LSTM هندسة الشبكات وGRU، وهنا تكون النتائج مماثلة.

على مجموعات البيانات الجدول 3 PTB ومتعددة بت تكميم LSTM GRU اختبار PPW، الذي قياس كميات موحدة ونتائج متوازنة للورقة الحالية، ونسخة محسنة من القانون هو نتيجة لجشع الخاصة بنا تحقيقها.

الجدول 4 نصوص ويكي WikiText-2 على مجموعة البيانات ومتعددة بت كميات LSTM GRU اختبار PPW.

الجدول 5 نص-8 على مجموعة البيانات ومتعددة بت تكميم LSTM GRU اختبار PPW.

أجرينا أيضا تظهر التنشيط وقت واحد من الأوزان تكميم والنتائج التجريبية في الجدولين 3 و 4 و 5. يمكن أن ينظر إليه، والاتجاهات بالتناوب الطريقة المقترحة أفضل بكثير من الطريقة التقليدية تكميم الآخرين. حتى بالمقارنة مع نسخة محسنة أفضل أداء طريقة الجشع، وسيلة لتوجيه بالتناوب لتحقيق دقة مماثلة مع أقل قليلا ربما.

أدركنا أيضا في وحدة المعالجة المركزية ثنائي مصفوفة تكاثر ناقلات، الذي النتائج كما هو مبين في الجدول رقم 6.

الجدول 6 مقارنة مع ثنائي الضرب CPU كاملة الدقة وقت الضرب

ملخص

في هذا العمل، ونحن نعتبر الشبكة العصبية مشكلة متعددة بت تسريع ضغط تكميم الرئيسية. لقد وجدنا أنه إذا كان معامل الحقيقي ثابت الترميز، ثنائي الترميز منفصلة {-1، + 1} بواسطة شجرة البحث الثنائية يمكن حلها بكفاءة. واستنادا إلى هذه النتيجة، نقترح المقابلة طريقة الاتجاه بالتناوب. طريقة لقياس نموذج لغتنا وهيكل LSTM GRU، مقارنة مع دقة كاملة للنموذج، من خلال تكميم 2-بت، فإننا يمكن أن تقلل من استهلاك الذاكرة من حوالي 16 مرة، حوالي 6 مرات، وتحقيق على تسريع وحدة المعالجة المركزية الحقيقية الاستدلال ولكن فقط كمية صغيرة من فقدان الدقة. بواسطة تكميم 3-بت، على دقة طريقة يمكن تنفيذها مع فقدان القليل حتى يتجاوز النموذج الأصلي، ونحو 10.5 أضعاف تخفيض استهلاك الذاكرة، وتحقيق حوالي ثلاثة أضعاف تقدير تسارع صحيح على وحدة المعالجة المركزية. هذه النتائج هي أفضل بكثير من نتائج أساليب القياس الكمي الحالية.

كوماموتو تحمل لا دب؟ وقد تم تسجيل التميمة اليابان بسبب العلامات التجارية وتسمية

ارتفعت السم شعبية وراء المتوقع الافراج أمريكا الشمالية في أكتوبر الصناعة لفتح الصورة أو إنشاء سجل جديد

طلقة واحدة نسخة بارد 1: كول 1C المفاجئ الإفراج بارد بسعر 899 يوان

لقد حان صفقات عيد الفصح في هونغ كونغ بلاي ستيشن المفتوحة التعامل مع اللون الجديد

الشرق والغرب الاحتفال | الجبال بين الخير نزهة يشعر الجمهور

أديداس الجدد هذا الصيف، وعلى هذا تفعيل YOUNG "وضع خطوة جيدة"

ليغو المنزلية قاضى: قبل عامين، و 15 مليون العقوبة ليست كافية، لماذا المنزلية الفاسد؟

فتحت سامسونج إكسينوس معالج المدونات الصغيرة سينا: وقال أصدقاء "إنقاذ MEIZU ذلك".

واصلت "2 في جميع أنحاء الحصار" قائمة باسكال: مبيعات لعبة UK الأسبوع

"تجول الأرض" في مدينة تحت الأرض، وقد صممت أصلا فى تشونغتشينغ

Sicong هوت دوغ الأكل التعبير شبكة شعبية، الحزمة قد تواجه التعدي على تلك الأشياء هل تعلم؟

مبيعات الهواتف النقالة من هواوي في أمريكا اللاتينية، أكثر من 10 مليون: ميسي احتفال