46 مرات أسرع من جوجل GPU دفعة IBM التقط ML40 مائة مليون عينات نموذج القطار فقط 91.5 ثانية

[جديد جي وون استعراض] مؤخرا، أعلنت IBM أنها تستخدم مجموعة من الإعلانات مجموعة البيانات التي نشرتها Criteo مختبرات لتدريب اللوجستي المصنف الانحدار، تشغيل آلة خاصة بها تعلم مكتبة التقط ML على الخادم POWER9 وGPU، ونتيجة لمعظم غوغل من ذي قبل من أفضل يسجل 46 مرات أسرع.

الأنفس جي تقرير جديد

المصدر: بحوث IBM

المؤلف: ليو شياو تشين تشانغ تشيان

نفيديا الرئيس التنفيذي لشركة جين هسون هوانغ وجون كيلي IBM نائب الرئيس الأول في فكر المؤتمر

في الآونة الأخيرة، IBM THINK الجمعية في لاس فيغاس، أعلنت IBM أنها الاستفادة من خوارزمية جديدة البرمجيات والأجهزة الأمثل، وحققوا اختراقا كبيرا في أداء منظمة العفو الدولية، بما في ذلك استخدام مزيج من POWER9 وNVIDIAV100GPU.

على النقيض من IBM عض على الكتلة جوجل سحابة على TensorFlow وPOWER9 (AC922) (وقت التشغيل يحتوي الوقت وقت التحميل البيانات والتدريب)

مبين، عبء العمل، ونماذج ومجموعات البيانات هي نفسها، ويستخدم المقارنة كما هو الحال في التدريب FIG TensorFlow واستخدام الوقت التقط ML تدريبهم على Power9 على جوجل الغيمة. حيث، TensorFlow باستخدام آلات 89 (60 مجموعات آلة تعمل 29 و المعلمات الجهاز)، التقط ML باستخدام Power9 CPU 9 و 16 NVIDIA GPU تسلا V100.

TensorFlow مقارنة، التقط ML الحصول على نفس الخسارة، ولكن 46 مرات أسرع.

كيفية تحقيقه؟

التقط ML: TensorFlow 46 مرات أسرع من الواقع

في وقت مبكر من فبراير من العام الماضي، كتب جوجل مهندس البرمجيات أندرياس Sterbenz بلوق عن استخدام جوجل الغيمة ML وTensorFlow التنبؤ الإعلانات والتوصيات على نطاق واسع مشهد من النقرات.

Sterbenz تدريب نموذج للتنبؤ حركة المرور على إعلانك يظهر في Criteo مختبرات، هذه السجلات أكبر من 1TB، ويحتوي على قيم مميزة من الملايين من مرات ظهور الإعلان والنقرات ردود الفعل.

بعد ما قبل تجهيز البيانات (60 دقيقة) لمعرفة الاستخدام الفعلي للآلة العمل 60 وآلة 29 مجموعات المعلمات للتدريب. استغرق نموذج 70 دقيقة من التدريب، وتقييم الأضرار التي لحقت 0.1293.

وعلى الرغم من Sterbenz ثم استخدام نماذج مختلفة للحصول على نتائج أفضل، والحد من تقييم الأضرار، ولكن هذه تستغرق وقتا أطول، وعمق النهائي باستخدام الشبكة العصبية ثلاثة حقب (مقياس لجميع ناقلات التدريب استخدامها لتحديث الأوزان عدد الثقيل) من ، استغرق الأمر 78 ساعة.

ولكن بعد الخاصة مكتبة التدريب خوادم IBM من يعمل على POWER9 وGPU، يمكن أن يكون أفضل من 89 الجهاز على نظام التشغيل السحابي Google في التدريب الأساسي الأولي.

وهي تظهر شاشة التقط ML، وجوجل TensorFlow وثلاث نتائج المقارنة أخرى رسم:

46 مرات أسرع من TensorFlow، هو كيف نفعل؟

ويقول الباحثون، التقط ML جود التوازي متعدد المستويات، يمكن تخصيص حجم العمل بين العقد مختلفة في الكتلة، وذلك باستخدام وحدة التسريع، واستخدام موازية متعددة النواة إلى وحدات الحوسبة منها.

1. أولا، يتم توزيع بيانات العمل بين العقد في الكتلة.

2. الفصل بين العقدة على المدى البيانات في وحدة المعالجة المركزية الموازية وGPU لتسريع وحدة المعالجة المركزية الرئيسية وGPU

يتم إرسال 3. البيانات إلى عدد وافر من GPU الأساسية وحدة المعالجة المركزية متعددة مؤشرات الترابط أعباء العمل

تداخل مبكرة ML خوارزمية الهرمية (المتداخلة الهرمية حسابي) وظائف، ويمكن استخدام هذه المستويات الثلاثة من التوازي.

وباختصار، فإن السمات الأساسية الثلاث التقط ML هي:

التدريب الموزعة: عض ML هو إطار بيانات موازية، ويمكن تمديد على مجموعة التدريب بيانات كبيرة، قد تتجاوز سعة الذاكرة من جهاز واحد، وهو أمر حاسم بالنسبة التطبيقات الكبيرة مجموعة البيانات.

GPU تسريع: لتحقيق حلالا خاص، وتهدف إلى الاستفادة من الهندسة المعمارية المتوازية من GPU، GPU مع الحفاظ على بيانات الموقع في ذاكرة للحد من نقل البيانات في سماء المنطقة. لهذا الأسلوب لتطويره، واستخدام بعض التطورات الحديثة التعلم غير متجانسة، على الرغم من أن يمكن تخزين البيانات في الذاكرة مسرع سوى جزء صغير، يمكن تنفيذ تسريع GPU.

هياكل البيانات متفرق: معظم مجموعات البيانات تعلم الآلة هي متفرق، وبالتالي تطبيقها على هياكل البيانات متفرق، والخوارزميات المستخدمة في النظام جعلت بعض التحسين الجديد.

العمليات التكنولوجية: فقدان 0.1292 لتحقيق اختبار في 91.5 ثانية

أول مجموعة من تيرا-مقياس الأداء.

تيرابايت انقر سجلات الصادرة عن Criteo مختبرات هي جمع البيانات على الانترنت الإعلان كبير، والبحوث للتعلم آلة الموزعة. وهو يتألف من أربعة مليارات عينات التدريب.

حيث تمتلك كل عينة "التسمية"، وهذا هو ما إذا كان ينقر المستخدمون على الإعلانات عبر الإنترنت، فضلا عن مجموعة المقابلة من ميزة عدم الكشف عن هويته. بناء على هذه المعطيات آلة تدريب نماذج التعلم، الذي يهدف إلى التنبؤ ما إذا كان المستخدم الجديد سوف انقر على الإعلان.

مجموعة البيانات هذه هي واحدة من أكبر مجموعات البيانات العامة والبيانات التي تم جمعها في 24 يوما، في المتوسط تدريب لجمع 160 مليون عينات يوميا.

من أجل تدريب تيرابايت كاملة انقر قواعد بيانات سجلات، نشر الباحثون التقط ML على أربعة الخادم IBM نظام الطاقة AC922. كل خادم لديه أربعة NVIDIA GPU تسلا V100 واثنين من وحدة المعالجة المركزية Power9، ويمكن التواصل مع المضيف عبر واجهة NVIDIA NVLink. خادم الشبكة بتقنية InfiniBand التواصل مع بعضهم البعض. عندما اللوجستي الانحدار المصنف تدريب على مثل هذه البنية التحتية، أدرك الباحثون خسائر 0.1292 اختبار في 91.5 ثانية.

قراءة مرة أخرى من خلال FIG hereinbefore:

أثناء التسارع لهذا على نطاق واسع GPU نشر التطبيق، كان هناك تحديا تقنيا كبيرا: بيانات التدريب كبيرة جدا ليتم تخزينها في الذاكرة المتوفرة على GPU. وهكذا، خلال التدريب، والحاجة إلى معالجة البيانات بشكل انتقائي وبشكل متكرر داخل وخارج الذاكرة GPU. لشرح تطبيق وقت التشغيل، حلل الباحثون الفترة الوقت الذي يقضيه في النواة GPU ونسخ البيانات على يأخذ GPU.

في هذه الدراسة، واستخدام جزء صغير من البيانات تيرابايت الزيارات سجلات، بما في ذلك 200 مليون عينات التدريب الأولي، ومقارنة تكوينات الأجهزة اثنين:

آلة المستندة إلى x86 من إنتل (زيون الذهب 6150 CPU @ 2.70GHz)، مع اتصال باستخدام واجهة PCI الجنرال 3 NVIDIA GPU تسلا V100.

واجهة استخدام NVLink 4 الخادم تسلا V100 GPU من IBM الطاقة AC922 (في المقارنة، 1 فقط والتي تكون فيها GPU).

لوحة ويظهر مجموعة من النتائج تحليل الأداء المستندة إلى x86. ويمكن ملاحظة أن هذين الخطين S1 و S2. في خط S1، والتدريب الفعلي على وشك الانتهاء (أي استدعاء الانحدار اللوجستي النواة). تدريب كل كتلة البيانات يستغرق حوالي 90 ميلي ثانية (مللي ثانية).

عندما التدريب في التقدم، وذلك تمشيا S2 والباحثين نسخ بجانب كتلة من البيانات إلى GPU. الوقت اللازم لنسخ احظت بيانات 318 ميلي ثانية، مما يعني أن GPU خاملا لفترة طويلة من الزمن، وبيانات منسوخة من الواضح أن عنق الزجاجة.

في FIG. (B)، ينص على، عرض النطاق الترددي منذ NVIDIA NVLink يوفر أسرع القائم على السلطة، بحيث كتلة التالي من البيانات المنسوخة إلى وقت GPU انخفضت بشكل ملحوظ إلى 55 مللي ثانية (تخفيض ما يقرب من 6 أضعاف). هو هذا التسارع نتيجة لتكرار البيانات في الوقت خفية وراء تنفيذ النواة، والقضاء على نحو فعال الوقت الاستنساخ على المسار الحرج، وتحقيق تسارع 3.5 أضعاف.

IBM هذا الجهاز تعلم مكتبة تقدم سريع جدا تدريب السرعة، ويمكن تدريب نماذج التعلم آلة لتيار السائد في وحدة المعالجة المركزية الحديثة / GPU أنظمة الحوسبة يمكن أن تستخدم أيضا لتدريب نموذج لاكتشاف أنماط جديدة ومثيرة للاهتمام، أو إعادة عندما تكون البيانات الجديدة المتاحة تدريب النموذج القائم، من أجل الحفاظ على مستوى سرعة الخط السريع (أي، يمكن للشبكة دعم أسرع السرعة). هذا يعني انخفاض المستخدم حساب التكاليف، وأقل استهلاك الطاقة، وأكثر مرونة وأسرع وقت التطوير لإكمال.

ومع ذلك، فإن الباحثين IBM لا يدعون أن TensorFlow عدم استخدام التوازي، ولا يقدم أي مقارنة بين التقط ML وTensorFlow.

لكنهم قالوا: "إننا تنفيذ الحلول المتخصصة، للاستفادة من الهندسة المعمارية المتوازية من GPU، منطقة الذاكرة GPU مع احترام البيانات من أجل تجنب كميات كبيرة من نقل البيانات في سماء المنطقة."

وذكر المقال أن استخدام واجهة NVLink AC922 خادم 2.0 مع واجهة من تسلا GPU بكيي لها من الخادم زيون (زيون الذهب 6150 CPU @ 2.70GHz) هو أسرع واجهة PCIe لهي واجهة تسلا GPU. "للحصول على ضبط القائمة على بكيي، قمنا بقياس عرض النطاق الترددي الفعال لل11.8GB / ثانية، استنادا NVLink عن الإعداد، قمنا بقياس عرض النطاق الترددي الفعال لل68.1GB / ثانية."

يتم إرسال بيانات التدريب إلى GPU، وتتم معالجة هناك. NVLink نظام نظام بكيي أسرع بكثير من كتلة نقل البيانات إلى GPU، 55ms الوقت، بدلا من 318ms.

وقال الفريق IBM: "عندما يطبق على هياكل البيانات متفرق، والخوارزميات المستخدمة في نظام حققنا بعض التحسين الجديد".

بشكل عام، يبدو أكثر من استخدام التقط ML نفيديا GPU، أسرع بيانات الإرسال من على خوادم إلى x86 PCIe لرابط على NVLink. ولكن أنا لا أعرف سرعة وحدة المعالجة المركزية POWER9 مقارنة كيف وXeons، لم تصدر IBM علنا أي مقارنة مباشرة من POWER9 وزيون SP.

لذلك لا نستطيع أن نقول، واثنين من مصاصي قبل تشغيل على تكوين الأجهزة نفسها، التقط ML من TensorFlow أفضل بكثير.

أيا كان السبب، 46 أضعاف معدل الانخفاض أمر مثير للإعجاب، وأعطى IBM الكثير من الفضاء لتعزيز الخادم POWER9 كدولة الإدراج نفيديا GPU، تشغيل المكتبات التقط ML وآلة مكان التعلم.

النتائج الكاملة للتجربة وترى الصحيفة: الشبكي: //arxiv.org/abs/1803.06333

https://www.theregister.co.uk/2018/03/21/ibm_machine_learning_models_trained_fast/

https://cloud.google.com/blog/big-data/2017/02/using-google-cloud-machine-learning-to-predict-clicks-at-scale

جينغدتشن الى نينغبو فهم الحب، هل تعلم؟

إلى مصر، وغاب معبد الأقصر، فقط غاب عن العالم كله ......

سوبر عمال المناجم عشرة ملايين الراتب السنوي: تدريب الشبكة العصبية لتبادل المعادن، والدخل التعدين أربع مرات

السنة الصينية الجديدة قاب قوسين أو أدنى، هؤلاء الخمسة المحرمات السنة الجديدة في الوطن يمكنك معرفة؟

الفساد واختلاس 485 مليون $، وهروب 17 عاما، أعيد أخيرا

أريد أن أذهب سبع بحيرات بقية حياتي دنيا الخيال الحياة.

الدعاية النار الصينية يوان شانشان، والتي بموجبها البلاد وقالت انها تعرف هذا السر

تاريخ الفيسبوك إلى المسك، (سبيس اكس) وتسلا أرقام المبيعات معسكر الحذف

هذا AI أكاديمية Google الاستثمار الاستراتيجي بشكل كبير في البحث والتطوير الشمبانزي الروبوت إلى السماء!

الانتقام الرجال على المجتمع الخبيثة الجريمة السيارة المعينة أكثر من 40 حالة، اعتقلت الشرطة في نهاية المطاف

داي التحول الكمال مدرب ركل أفضل موسم الوظيفي، كيف بعيدا للعودة إلى المنتخب الوطني؟

أسبوع واحد التجزئة | علي ترقية كبيرة الوشق، ومن ناحية أموي وصول الكتاب الأحمر الصغير، والطابق الأول مربع حصان 100 متجرا