PK القتال! RTX2080Ti مزيج النقيض CIFAR100 التدريب الدقة GTX1080Ti

AI تقنية الصحافة : المؤلف Sanyam بوتاني هو باحث مستقل وFast.ai من المجال البصري للتعليم آلة والكمبيوتر. في هذه المادة، وقال انه 2080Ti فترة طويلة و1080Ti على تدريب مجموعة كاملة من التباين. أجرت منظمة العفو الدولية تقنية مراجعة تجميع شامل.

مقدمة

شكر خاص ل: إذا كنت لا تأتي من Tuatini GODARD (وهو واحد من بلادي خير صديق، ولكن أيضا لحسابهم الخاص النشطة) مع مساعدة من العمل القياس لا يمكن القيام به. إذا كنت تريد معرفة المزيد عنه، وقراءة هذه المقابلة:

الرابط:

https://hackernoon.com/interview-with-deep-learning-freelancer-tuatini-godard-e661a3995fb1

شكر أيضا Laurae العديد قيمة تقترح تغييرات على هذه المادة.

بالمناسبة، أحدث نسخة من fastai (2019 طبعة) قد بدأت للتو، أنت بالتأكيد مهتما في: يمكنك الوصول إلى course.fast.ai

ملاحظة: هذه المقالة لا تقبل الكفالة من fastai، أنا فقط تعلمت الكثير من الأشياء على القمة. من جهة نظر شخصية، إذا بدأت للتو كنت مع التعلم العميق، ونوصي بشدة لك هذا المنبر.

دعونا نصل الى هذه النقطة. وهذا دليل بسيط من FP16 قادرة على شرح طبيعة وإثبات دقة التدريب بشكل أسرع على أساس هو كيف جعلت معيارا الهجين (أعترف، معظم الوقت أنا فقط التباهي بطاقة الرسومات الخاصة بي إلى أحد الأصدقاء هذه المجموعة منه، فمن لأغراض البحث).

ملاحظة: لا علاقة هذه المقالة للمقارنة أداء خط الأساس، ولكن عندما يبني 2 التدريب على أساس المقارنة بين 2080Ti طويلة و1080Ti.

في هذا الصدد، فإن المادة بمزيد من التفصيل هناك.

وقبل ذلك، ونحن نلقي نظرة سريعة على شكل نيوترون:

FP16 هي القصة وراء؟ لماذا تحتاج إلى إيلاء الاهتمام لذلك؟

بعبارات بسيطة، ويستند عمق التعلم على مصفوفة وراء كومة من عملية معالجة GPU، تعتمد العملية على FP32 / 32 بت العائمة مصفوفة نقطة.

مع إطلاق النسخة الجديدة من العمارة CUDA و، FP32 / 32 بت الحوسبة العائمة مصفوفة نقطة وذلك أصبحت أكثر وأكثر بساطة. وهذا يعني أيضا أنه طالما أن استخدام موتر نصف حجم مما كانت عليه في الماضي، ونحن قادرون على التعامل مع المزيد من الحالات عن طريق زيادة حجم الدفعة (batch_size)؛ وبالإضافة إلى ذلك، بالمقارنة مع استخدام FP32 (المعروف أيضا باسم التدريب الدقة الكامل) التي أجريت التدريب، FP16 فعالا في الحد من كمية GPU RAM.

وأعرب في اللغة الإنجليزية بسيطة، هو القدرة على (batch_size) * 2 بديل (للbatch_size) في التعليمات البرمجية.

FP16 موتر الأساسية حساب يصبح الآن أسرع، وكمية صغيرة فقط من RAM GPU، يمكنك سرعة تحسنت والأداء.

الخ، والتي قد لا تكون كذلك بسيط

ونحن لا تزال مشكلة نصف الدقة (وذلك لأن 16 بت متغير الفاصلة العائمة الدقة هو نصف 32 بت العائمة متغير نقطة)، وأوضح:

  • تحديث البيانات الوزن غير دقيق.

  • سوف التدرج تجاوز الحد الأدنى.

  • سواء تفعيل أو خسارة قد يؤدي إلى تجاوز.

  • خسارة كبيرة من الدقة.

بعد ذلك، سأتحدث بإيجاز عن التدريب مزج دقة.

خلط التدريب الدقة

من أجل تجنب المشاكل المذكورة أعلاه، ونحن في عملية تشغيل FP16، سوف FP32 تبديل الجزء الخلفي قد يؤدي إلى فقدان الدقة في الوقت المناسب. وهذا ما يسمى التدريب الدقة مختلطة.

الخطوة 1: استخدام FP16 لتسريع سرعة الحوسبة قدر الإمكان:

ستدخل حيز fp16 الموتر الموتر، لتسريع سرعة النظام.

الخطوة 2: استخدام FP32 حساب قيمة الخسائر (لتجنب تجاوز الحد الأدنى / فيض):

تبادل موتر FP32 إلى القيم فقدان حساب، من أجل تجنب تجاوز الحد الأدنى / تجاوز يحدث.

الخطوة 3:

FP32 تشانغ يقوم أولا مع كمية من تحديث وزنه، ثم يعود مرة أخرى إلى ما قبل FP16 كانت التكرار العكسي.

الخطوة 4: إلى فقدان كامل تحجيمها من قبل عامل التحجيم تضاعفت أو تقسيم:

عن طريق ضرب أو تقسيم فقدان تحجيمها من قبل فقدان عامل.

الاستنتاج هو:

خلط التدريب الدقة على fast.ai

كما قد يتوقع المرء، فإن مزيج الدقيق يكون مثل التدريب في المكتبة

إلى تحويل

بهذه البساطة.

إذا كنت تريد أن تعرف تفاصيل العملية التي يمكن أن تكون من خلال النقر:

https://docs.fast.ai/callbacks.fp16.html

وحدة تتيح لنا استخدام ما قبل FP16 تغيير عملية التدريب لعكس التكرار، مع السرعة والتأثير.

داخليا، ويضمن وظيفة الاستدعاء أن جميع المعلمات نموذج (إزالة ذكي استخدام طبقات batchnorm FP32) وتحويلها إلى FP16، FP32 وحفظ نسخة. يستخدم FP 32 نسخ (المعلمة الأولية) أساسا لتحديث محسن، معلمة 16 هي FP لحساب التدرج. ويمكن لهذه أن تمنع بشكل فعال تجاوز ظاهرة معدل التعلم منخفضة.

مختلطة دقة RTX 2080Ti مع GTX 1080Ti تدريب النتائج المقارنة

تفاصيل الإعداد

من هنا يمكنك معرفة وضع إشارة المحمول

إعدادات البرنامج:

  • كودا 10 يتوافق + إلى أحدث إصدار من Cudnn

  • PyTorch + مكتبة fastai (المترجمة من المصدر)

  • أحدث نسخة من السائقين نفيديا (اعتبارا من كتابة المقالة الوقت)

تكوين الأجهزة:

تكوين الأجهزة لدينا يختلف قليلا، فإن القيمة النهائية ليتم الاحتفاظ بها.

التكوين Tuatini:

  • i7-7700K

  • 32GB RAM

  • GTX 1080Ti (EVGA)

بلدي التكوين:

  • i7-8700K

  • 64GB RAM

  • RTX 2080Ti (MSI الألعاب ثلاثية X)

لأن الحسابات ليست مهام كثيفة CPU-رام المكثف أو، لذلك اخترنا لتبادل نتائجنا هنا.

دعونا يذهب بسرعة عبر:

  • إدخال البيانات CIFAR-100

  • تغيير حجم الصورة، تمكين وتعزيز البيانات

  • دعمت يعمل على جميع Resnet fastai

الناتج المتوقع:

  • لتحقيق نتائج أفضل في كل اختبار التدريب دقة المزج.

النتائج الرسم البياني

ويبين الجدول التالي مقارنة بين وقت التدريب الكلي على كل ResNets.

ملاحظة: أصغر قيمة، (يمثل المحور السيني الوقت بالثواني وتوسيع وحدة الزمن) كلما كان ذلك أفضل

Resnet 18

أصغر Resnet.

  • الوحدة الثانية من الوقت:

نسبة الأداء:

Resnet 34

الوحدة الثانية من الوقت:

نسبة الأداء:

Resnet 50

الوحدة الثانية من الوقت:

نسبة الأداء:

Resnet 152

  • الوحدة الثانية من الوقت:

نسبة الأداء:

استخدام نفيديا أبيكس سلوك لغة النمذجة من الطراز العالمي

من أجل اختبار دقة خلط التدريب وتدريب FP16 ممكن، أصدرت نفيديا أداة خاصة للحفاظ على مجموعة من نفيديا نفيديا قمة، لتبسيط خلط التدريب الدقة والتدريب وزعت Pytorch في. قمة باعتباره الهدف الرئيسي هو تزويد المستخدمين بأحدث المرافق السريعة.

فتح موقع الويب المصدر:

https://github.com/NVIDIA/apex

هذا يظهر لنا من خلال بعض الأمثلة، لا يحتاج إلى الكثير من التعديل سوف تكون قادرة على تشغيل الأداة مباشرة - ولكن كما يبدو أن اختبار جيد آخر لسرعة دوران عالية.

لغة نموذج المقارنة:

جيثب مثال مفتوحة النمذجة لغة التدريب المهني القائم على مصدر لمتعدد الطبقات RNN (علمان، GRU أو LSTM). يستخدم البرنامج النصي تدريب مجموعة البيانات نصوص ويكي WikiText-2 الافتراضية. نموذج تدريب يمكن استخدامها لإنشاء البرامج النصية لتوليد النص الجديد.

ونحن في الواقع لا يهتمون نتائج الاختبارات ولدت - نريد أساسا 30 مرات (الحقب) على أساس المقارنة بين نماذج التدريب التدريب مختلط الدقة والتدريب والدقة الكاملة (الدقة الكامل) نفس الحجم دفعة ولكن مع إعدادات مختلفة.

تمكين fp16 لتمرير وعندما لتشغيل التعليمات البرمجية "-fp16" المعلمات بسيطة، APEX يمكن تعيين لتشغيل على أن لدينا بيئة جيدة PyTorch. على العموم، يبدو أن الخيار الأمثل.

وهنا النتائج:

  • وحدة زمنية ثانية

  • نسبة الأداء:

استنتاج

وعلى الرغم من حيث الأداء من بطاقة 1080Ti RTX أقوى بكثير، وخاصة في حالة وجود شبكة صغيرة، ولكن الفرق ليس هو تدريب الوقت بشكل كبير كما هو متوقع.

إذا قررت لمحاولة خلط التدريب الدقة، وأنا هنا لأقدم لكم بعض النصائح مفتاح:

  • كميات أكبر:

في الاختبارات دفتر المؤشر، وجدنا أن زيادة ما يقرب من 1.8 أضعاف بطرق batch_size، هذه المحاكمة وكنا جميعا Resnet مثال على نتائج متسقة.

  • أسرع من التدريب الدقة الكامل:

لدينا أكبر فجوة بين نتائج Resnet 101، على سبيل المثال (مع وجود مجموعات CIFAR-100 البيانات)، والكامل وقت التدريب الدقة التي تنفق على 2080Ti 1.18 أضعاف مزيج دقة التدريب والوقت الذي يقضيه في تدريب 2080Ti هو الدقة مختلطة من 1.13 مرات. حتى حجم "أصغر" من Resnet34 وResnet50، وجدنا أن وجود مختلطة الدقة تأثير تسارع تدريب السعة الصغيرة أثناء التدريب.

  • بالضبط نفس القيمة:

لم نجد الاختلاط يؤدي التدريب الدقة إلى دقة انخفضت من هذه الظاهرة.

  • تأكد من استخدام أحدث إصدار من CUDA ( > 9) ونفيديا السائقين.

وينبغي التأكيد على أنه، أثناء الاختبار، وإذا كانت البيئة ليست جيدة التحديث لا يمكن تشغيل التعليمات البرمجية.

  • وهناك الكثير من الاهتمام وfastai نفيديا APEX

عبر https://hackernoon.com/rtx-2080ti-vs-gtx-1080ti-fastai-mixed-precision-training-comparisons-on-cifar-100-761d8f615d7f

تقارير منظمة العفو الدولية تقنية مراجعة

انقر على قراءة النص الأصلي مشاهدة التعرف على الوجوه التي قوية؟ أمازون ومايكروسوفت وجوجل وغيرها من شركات التكنولوجيا الكبرى تحليل مقارن

ASSC، بابي، مهزوم غران توريزمو بالاشتراك مع تعرض كل منتج واحد! حدد عسر القراءة وسوء المعاملة!

2018 MAGOTAN 1.4T التمتع نوع المدرجة للبيع 197900 يوان

دوائر | سراح كوانغ العلوم والتكنولوجيا أكبر مجموعة بيانات تحديد الهوية السلع، لتعزيز السجل الجديد النقدية التجزئة تقع المشهد تلقائيا

فازت عائلة جولة "لعبة العروش" رخصة لعبة، شركات صينية تتنافس في IP قمة في العالم من الحرب قد أوقدت؟

كيا ستينغر التعرض مع هارمان كاردون الصوت، الخ

المبيدات الحشرية 2016 المحاصيل القائمة التي يشيع استخدامها

الربط سيطرة على مجموعة متنوعة من الأجهزة، ميمي كاشف صغير الهواء منزل النشر: $ 399

حار | SAIC أودي الأصفر؟ القصة لم تنته بعد

لمعطف، وأرسلت كوريا الجنوبية العفاريت الساق ولكن البرد!

هناك جيل جديد من جيب التراث الكلاسيكي، وتربية الحيوانات خريطة مارين قوان تفاصيل الابتكار

أصدرت شركة سامسونج W2019 غدا: صدفي الكلاسيكية، وسعر أو المتطرف عشرين ألف

الهيب هوب صورة جماعية المغني: تحت الأرض لسنوات عديدة، الانفجار الأحمر الليل، وإذا كان الحلم؟