OpenAI صدر متفرق الحوسبة النوى، شبكة أوسع وأعمق، وهو نفس النفقات العامة الحسابية

لى فنغ شبكة AI تقنية مراجعة من قبل: الباحثون OpenAI الذي صدر مؤخرا GPU الأمثل للغاية نواة الحوسبة، فإنه يمكن أن تدعم وتقريبا لم يتم استكشافها هندسة الشبكات العصبية: الحق في منع متفرق مع شبكة الثقيلة. اعتمادا على درجة من رقيق، قد تكون هذه النوى أسرع سرعة من أمر من حجم أو cuBLAS cuSPARSE. وقد حلل الباحثون لدت OpenAI المشاعر النص من خلال هذه النوى والصور النص كانت أعلى النتائج. لى فنغ شبكة AI تقنية مراجعة لOpenAI من هذه المادة التمهيدية ترجم أدناه.

في عمق المجال من الدراسة، والهندسة المعمارية نموذج وخوارزمية التنمية إلى حد كبير خاضعة لدعم GPU لعمليات الحوسبة الأساسية إلى أي مدى. على وجه التحديد، هناك مشكلة والتي يتم حسابها من خلال تنفيذ GPU متفرق عملية خطية غير فعالة. OpenAI هذا الإصدار حساب النواة لدعم هذا، ولكن أيضا تحتوي على بعض النتائج المبكرة لمجموعة متنوعة من التطبيقات وضع متفرق. وقد أظهرت هذه النتائج بعض الإمكانيات، ولكن أيضا ليست دليلا قاطعا حقا. أيضا دعوة OpenAI الباحثون المزيد من الباحثين المشاركين في مجال التعلم العميق معا، والعمل معا من أجل مواصلة تحسين هذه العملية الحسابية النواة، بحيث تصبح العمارة أكثر الحوسبة الممكنة.

طبقة (من اليسار) يمكن ان تكون مرتبطة إلى متفرق كثيفة، طبقة أوسع (وسيطة) أو متفرق، وطبقة أعمق (يمين) بدلا من ذلك، وهي المرة الحساب ثابت تقريبا

مصفوفة كثيفة ثقيلة الوزن ومصفوفة أوزان قليلة هي مختلفة تماما، هي واحدة من العديد من القيم صفر. متفرق نموذج الوزن مصفوفة هو الأساس للعديد من مكونات مرغوب فيه، والتكلفة حساب لأن هناك فقط غير صفرية عدد، وعدد من الكتل يتناسب مع كتلة متفرق ضرب المصفوفات والإلتواء العمليات المعنية فقط. ميزة واضحة من تبعثر، يمكن تدريب هي أوسع بكثير من الطرق الأخرى في عدد معين من المعلمات والحوسبة القيود المفروضة على الموارد، العصبية أعمق بكثير الشبكة، مع الآلاف LSTM تحقيق هذه الخلايا العصبية طبقة مخفية شبكة (LSTM اللحظة فقط يمكن تدريب آلاف من الخلايا العصبية طبقة مخفية فقط).

حساب نواة

مكثفة الوزن مصفوفة (من اليسار)، ومتفرق وزن قطعة مصفوفة (في) في FIG. موقف المنطقة البيضاء الوزن المقابلة يعني الوزن المصفوفة 0

هذا يمكن أن تسمح الكامل الربط حساب نواة الالتواء، والاستخدام الفعال للمتفرق الوزن كتلة طبقة. لطبقة التلافيف، هذه المدخلات النواة وخصائص الانتاج يمكن أن يكون البعد متفرق، لا تتأثر الربط والأبعاد المكانية بأي شكل من الأشكال. يتم تعريف تبعثر المعرفة على مستوى كتلة (أعلى اليمين)، وهو حجم كتلة من الأمثل 8x8،16x16،32x32 (هنا 8X8 كتلة هو مبين). على مستوى الكتلة، وضع متفرق هو تماما التكوين الخاص بك. وبسبب هذا عند حساب نواة سيتم تخطي كتلة 0، فإنه سوف تستهلك فقط موارد الحوسبة وبما يتناسب مع عدد غير الصفر الأوزان، وليس من المعتاد الإدخال / الإخراج يتناسب مع عدد من الميزات. ويتم تخزين نفس الأوزان غير الصفر النسبي في سماء المنطقة لعدد من هذه المعايير.

مقارنة مع cuBLAS، النواة تسريع متفرق بنسب مختلفة. شروط الاختبار: الشبكة العصبية واسعة (12،288 الخلايا العصبية الخفية)، وحجم كتلة 32x32، حجم مصغرة دفعة من 32؛ اختبار الأجهزة NVIDIA تيتان X باسكال GPU، CUDA الإصدار 8.0. في هذه الاختبارات نسب ضئيلة، مقارنة مع نسبة cuSPARSE تسريع هو أعلى من ذلك.

تطبيق هذه النواة حساب

وقد أثبتت الباحثين OpenAI أيضا بعض التعليمات البرمجية في الضرب مصفوفة متفرق في TensorFlow

من blocksparse.matmul BlocksparseMatMul استيراد

استيراد tensorflow كما فريق العمل

استيراد نمباي كما أرستها

hidden_size = 4096

block_size = 32

minibatch_size = 64

# إنشاء (عشوائي) نمط تبعثر

تبعثر = np.random.randint (2، حجم = (hidden_size // block_size، hidden_size // block_size))

# تهيئة متفرق الكائن ضرب المصفوفات

bsmm = BlocksparseMatMul (تبعثر، block_size = block_size)

# الإدخال إلى الرسم البياني

س = tf.placeholder (tf.float32، = شكل )

# كتلة متفرق الأوزان تهيئة

ث = tf.get_variable ( "ث"، bsmm.w_shape، dtype = tf.float32)

# رصف متفرق الضرب مصفوفة

ذ = bsmm (س، ث)

# تشغيل

sess = tf.InteractiveSession

sess.run (tf.global_variables_initializer)

يؤدي = sess.run ( ، Feed_dict = {س: np.ones ((minibatch_size، hidden_size)، dtype = 'float32')})

طباعة (نتيجة)

LSTM مصغرة

متفرق كتلة نواة لديها استخدام مثيرة جدا للاهتمام لهذا هو خلق الشبكة العصبية مصغرة. يمكن توصيل العديد من الخطوات بين صورة مصغرة، أي عقدتين في الرسم البياني يحتاج فقط أن تكون متصلا صغيرة، حتى لو كان الرسم البياني كله، والعقد قد تكون المليارات. OpenAI الباحثين الذين يرغبون في تحقيق هذا السبب الربط مصغرة، حتى لو كانت الشبكة غاية متفرق، فإنها لا تزال تريد معلومات وسرعان ما انتشر في الشكل بأكمله. يظهر الدماغ البشري وضع اتصال مصغرة، الأمر الذي يشكل أيضا مشكلة "إذا LSTM لها نفس الخصائص، ويمكن تحسين أدائها" في. من خلال تطبيق الاتصال متفرق مصغرة، OpenAI الباحثون LSTM تدريب فعال نموذج مع ما يقرب من 20،000 الخلايا العصبية طبقة مخفية، في حين أن عرض على شبكة الإنترنت أيضا عدد من المعلمات من شبكة مماثلة 5 مرات على نطاق أوسع. بعد طراز الجيل شبكة التدريب في النص، عاطفيا تصنيف شبه إشراف يكون الأداء أفضل.

مصغرة، حتى بين العقدتين من درجة عالية من ترقق الوضع يتطلب أقل عدد ممكن من الخطوات التي يمكن ان تكون مرتبطة مع بعضها البعض. FIG المنقولة العلوي في عرض ثنائي الأبعاد من الصورة المصغرة واتس-Strogatz، عقدة المركزية (بكسل) في حالة تنشيط ظاهريا، لتصور أفضل للعشوائي الإضافية التي متجانسة. في هذا الرقم، فإن متوسط طول المسار بين العقد المختلفة هو أقل من 5، والباحثين OpenAI LSTM Barabasi-ألبرت الظروف تجربة مماثلة لFIG.

دراسة خصائص العاطفية

تدريب OpenAI الباحثون عددا من الحجج متفرق تقريبا شبكة كتلة الترجيح وشبكة مكثفة الوزن مصفوفة، مقارنة أدائها. حققت نموذج متفرق على جميع مجموعات البيانات عاطفة أداء أفضل. على مجموعة البيانات IMDB، OpenAI هذا النموذج متفرق من 5.91 في السابق نسبة الخطأ أفضل خفضت إلى حد كبير في 5.01. مقارنة OpenAI كان بعض التجارب الأداء الجيد فقط في جملة قصيرة، وأظهرت هذه المرة أيضا نتائج واعدة في جمل طويلة.

تصنيف الشعور استنادا إلى نتائج النموذج الخطي للكثيفة الصيغة وميزة متفرق التدريب نموذج استخراج. النماذج هنا وكثيفة ومتفرقة لها عدد متساو تقريبا من الحجج.

أداء ضغط من المهام

وسائل متفرق، أوسع نموذج LSTM، عدد البتات في النتائج ضغط حرف من التجارب في التقدم 1،059-1،048، بعد أن وصل إلى نفس العدد من المعلمات مماثلة للنموذج. العمارة طبقة مع كتلة الخطي متفرق طبقة كثيفة إذا تم استبدال موصل الخطي، فإن النتائج يمكن زيادة تحسين. جعل OpenAI الباحثون في نموذج PixelCNN ++ لCIFAR 10 تعديل بسيط لالعادية 2D التفاف نواة الى متفرق النووية، في حين تصبح شبكة أعمق مع الحفاظ على معايير أخرى فائقة المستمر . بعد تعديل قيمة شبكة يقلل أيضا عدد البتات في البعد 2،92-2،90، لتحقيق أفضل النتائج على مجموعة البيانات.

اتجاهات البحوث في المستقبل

معظم الشبكة العصبية مباشرة بعد يمكن أن تكون مجردة نهاية يركز التدريب. إذا تركت العمل الخوخ مع نواة متفرق، يمكنك حساب كم من الوقت التوفير عندما المنطق، حساب كيف أسرع كثيرا؟
في الدماغ البيولوجي، يتم تحديد بنية متفرق من جانب الشبكة في وقت النمو (نمو تأثير آخر هو تغيير قوة الاتصال). ما إذا كان لديك نهجا مماثلا، وهذا هو، وليس فقط من خلال الأوزان اتصال التعلم المتدرجة من الشبكات العصبية الاصطناعية، في حين تعلم أيضا بنية متفرق الأمثل؟ اقترحت دراسة حديثة طريقة لتعلم قطعة متفرق RNN، OpenAI اقترحت مؤخرا خوارزمية موحدة تستخدم للقيام L0 في الشبكة العصبية، وكلاهما يمكن أن تلعب دورا في هذا الاتجاه.
OpenAI من الباحثين المدربين LSTM هذا النموذج مع عشرات الآلاف من الخلايا العصبية طبقة خفية، وبذلك أداء أفضل النماذج النص. ثم على نطاق أوسع، ونموذج مع الكثير من وزنه مصفوفة إذا طبقة قليلة، يمكنك الحفاظ على الطراز نفسه مع عدد أقل من المعلمات والنفقات العامة الحسابية. أعتقد أن لدينا بعض المناطق لجعل هذا النهج تلعب دورا هاما.

عنوان ورقة: الشبكي: //s3-us-west-2.amazonaws.com/openai-assets/blocksparse/blocksparsepaper.pdf

عبر OpenAI مدونة، شبكة لى فنغ جمعت AI تقنية مراجعة

طريق الحرير

OpenAI صدر متفرق الحوسبة النوى، شبكة أوسع وأعمق، وهو نفس النفقات العامة الحسابية

حساب نواة

تطبيق هذه النواة حساب

LSTM مصغرة

دراسة خصائص العاطفية

أداء ضغط من المهام

اتجاهات البحوث في المستقبل

كيف مستقلة العلامة التجارية ستواجه سلسلة من المشاريع المشتركة العلامات التجارية انخفاض أسعار؟

بطولة "أنا لا إله الطب"، "غزاة يان شى" أصبحت شعبية، 2019 تان تشو تريد أن تلعب العمل الروحي، ونتطلع لاول مرة مرحلة الجبل

"21 كيلوطن" "قبالة شلي" ملصق النهائي قوه Jingfei Dilly ريبا قطع في الماضي لمحبة التحول

الدخن الجهاز الجديد أيا الآخر 300 يوان، التكوين الرئيسي الوجه إفتح شرائه؟

تزوير Ourui بو ORVIBO القطب منحوتة حادة التبديل التعليقات الذكية

ما ROEWE RX8 أداء الكبح بشكل خاص سبب وجيه؟

"سحق براذرز طبعة خاصة" وضع قصة "أضواء النجوم" خمس دقائق التجريبي

الأسرع في التاريخ، الدخن هذا 6GB الجهاز الجديد في الأسواق في يناير كانون الثاني وأكثر على السعر!

تجربة المستخدم أولا، فهم تحت السيارة لإنشاء خط تيمور كرنفال حزب الوطن

تونغ لييا الاثنين هناك الكثير من حول فترة "الماضي"، فقط أريد أن أسأل تشن سي تشنغ المعرفة؟

شفافة ثلاثة أضعاف + باس + بعنف شكل رصاصة، هذا الخاتم الحديد سماعات ارتفاع الدخن الصوت!

أستاذ جامعة بكين وانغ لى وى: AI الوضع الراهن من التصوير الطبي والفرص والتحديات

"ياكوزا" نتائج الانتخابات العامة صدر Kiryu الحصان خسر الجزيرة الحقيقية غورو

بكين للسيارات: لماذا أصبحت هذه أسعار السيارات أسعار سيارات الطاقة الجديدة التركيز على الجمهور؟

"أنا أمك" فظيع يان ني التفاف الدراما العدو صغير قبالة الشاشة الأم وابنتها "الحقيقية" معركة

فرانكفورت الإضاءة المعرض 2018 جرد من الجانب المنزل الذكي

"4 معقد مع" السياحة الكورية يأكل kimbap الرجل الحديدي، هوك صور السياح تبادل لاطلاق النار

تأثير الهواتف المنخفضة نهاية في السوق الهندية والدخن والأرز الأحمر Y1 سراح صورة شخصية للقوة!

فيلم معجزة وراء المرحلة الأولى من لقطات الثمينة! ارمل الجسم شقيقة ليست جذابة للغاية

Double Eleven هذا الجهاز الجديد المكون من أربع كاميرات مفتوح للشراء

الأمهات الأكبر سنا من الصعب جدا! البالغ من العمر 41 عاما S حاملا ثلاثة أطفال، ولكن تعدد حالات الحمل الناجمة عن الصرع

حساب نواة

تطبيق هذه النواة حساب

LSTM مصغرة

دراسة خصائص العاطفية

أداء ضغط من المهام

اتجاهات البحوث في المستقبل

الأحكام ذات الصلة