تجف | جاءت جوجل TPU II، والحرب لا تزال قادرة NVIDIA تسلا V100 لا؟

AI تقنية مراجعة من قبل: جوجل في العام الماضي أطلقت TPUv1 السماح مرة واحدة نفيديا يشعر هدد قاب قوسين أو أدنى، والآن جوجل TPU II TPUv2 هو حقا يحصل أصبح هذا التهديد واقع التقييم العام الماضي NVIDIA تسلا V100 بعد في الواقع TPUv1 الخوف يمكن أن تتحدى جوجل، ولكن الآن جوجل TPU II جاء، والحرب لا تزال قادرة NVIDIA تسلا V100 لا؟

ما يلي هو تقييم مقارن RiseML غوغل TPUv2 وNVIDIA تسلا V100، وAI تقنية مراجعة محتوياته جمعت على النحو التالي.

جوجل في عام 2017 لتسريع دراسة متعمقة وضعت شريحة مخصصة، V2 حدة المعالجة موتر (TPUv2). TPUv2 دراسة متعمقة جوجل في عام 2016، وأول سحابة العامة تسارع رقاقة TPUv1 من المنتجات من الجيل الثاني، تعتبر ذات قوة محتملة بديلا NVIDIA GPU ل. قد RiseML كتب مقالا جوجل TPUv2 التجربة الأولى، ثم تلقينا عددا كبيرا من حاجة ملحة "إلى Google TPUv2 V100 GPU NVIDIA والتقييم المقارن" من.

ولكن هذين التعلم العميق معرض تسارع رقاقة والتقييم المقارن ذات مغزى ليست سهلة. في نفس الوقت نظرا لعدم وجود أهمية تطوير مستقبل عمق الحالي للصناعة وتقييم مفصل لهذين المنتجين، والتي نحن بحاجة للغاية لامتلاك هذه الشريحة اثنين من سحابة ثقيلة لتقييم متعمق. نحن أيضا الوقوف في عملية التقييم بقدر الأطراف المتنازعة الممكن رقاقة سماع وجهات نظر مختلفة، لذلك نحن أيضا إقامة روابط مع جوجل وNVIDIA المهندسين وحملهم على ترك آرائهم حول مشروع نص هذه مرحلة التقييم. سمحت هذه التدابير لنا لجعل معظم تقييم مقارن شامل لعمق TPUv2 وV100 كلا رقاقة سحابة.

الإعداد التجريبية

نحن (المعدات من سحابة TPU) مقارنة أربعة NVIDIA GPU V100 مع أربع شرائح TPUv2، سواء مع 64GB من الذاكرة، والتي يمكن أن تكون نفس نموذج التدريب واستخدام نفس حجم دفعة واحدة. في هذه التجربة، وكنا أيضا نفس طريقة التدريب: سحابة TPU لتشغيل متزامن رقائق البيانات TPUv2 أربعة وازى وزعت التدريب، نفيديا هو نفس الجانب مع أربعة V100 وحدة المعالجة المركزية.

نموذج، قررنا استخدام المعيار الواقعي للحصول على نقاط تصنيف الصور والمرجعية، وتدريب ResNet 50 النماذج على ImageNet. وعلى الرغم من ResNet-50 هو النموذج المرجعي على سبيل المثال متاحة للجمهور، ولكن لم يتم قادرة على دعم التدريب نموذج تنفيذ نموذج واحد على الغيمة TPU وGPU متعددة.

لV100، NVIDIA توصي باستخدام MXNet أو تنفيذ TensorFlow، فإنها يمكن أن تستخدم الصور عامل الميناء على منصة نفيديا GPU الغيمة. ومع ذلك، وجدنا MXNet أو TensorFlow تستخدم لتوجيه استخدام الكلمات وتلتقي غير مدربين جيدا بكميات كبيرة وGPU المقابلة. هذا يحتاج إلى تعديل، وخاصة من حيث تحديد معدل التعلم.

بدلا من ذلك، ونحن نستخدم مكتبة مرجعية من TensorFlow على (مؤشر مستودع)، وtensorflow / tensorflow: 1.7.0 الجرافيك، CUDA 9.0، 7.1.2 تحت CuDNN تشغيله في صورة عامل الميناء. فمن الواضح أنه أسرع من مسؤول نفيديا أوصى TensorFlow تحقيق، و3 في المئة فقط أبطأ لتحقيق من MXNet. ولكنه يتقاطع أيضا بكميات كبيرة. هذا يساعدنا على استخدام نفس الإطار على نفس المنصة (TensorFlow 1.7.0)، مقارنة تطبيقات اثنين.

TPU الجانب سحابة غوغل الموصى بها رسميا bfloat16 من TensorFlow 1.7.0 TPU تنفيذ مستودع. تنفيذ TPU GPU واستخدام الهندسة المعمارية التدريب المختلفة مزج دقة باستخدام حسابات نصف الدقيقة، وموتر أقصى تخزين.

V100 للتجربة، وكنا أربعة V100 GPU (كل 16 GB من الذاكرة) الدرجة p3.8xlarge (زيون E5-2686@2.30GHz 16 النواة، 244 GB من الذاكرة، أوبونتو 16.04) على AWS. للتجارب TPU، استخدمنا صغيرة-N1 المعايير 4 كمثال على مجموعة (Xeon@2.3GHz ثنائي النواة، 15GB الذاكرة، ديبيان 9)، وتكوينها مع أربع شرائح TPUv2 (16 GB في الذاكرة) تتكون من سحابة TPU (v2-8).

نحن المقارنة بين تجارب مختلفة. أولا، نحن توليفها المشهد الطبيعي (البيانات لا المحسنة)، ومراقبة الأداء في كل من الصورة الأصلية في الثانية الواحدة، وعلى وجه التحديد، وبيانات الإنتاجية بمعدل (في الثانية عدد الصور). على النقيض من ذلك له علاقة أم لا تلاقي أي شيء، ولكن أيضا لضمان أن I / O عنق الزجاجة أية بيانات أو أي تعزيز يؤثر على النتائج. التجربة المقارنة الثانية، لاحظنا على ImageNet دقة والتقارب بين البلدين.

سرعة نقل البيانات بسرعة النتائج

لدينا في مشهد طبيعي الاصطناعية (وليس البيانات المعززة)، وبيانات الإنتاجية معدل لوحظ في شكل معالجة الصور في الثانية الواحدة، وهذا هو، في أحجام دفعة مختلفة، يتم إنشاء بيانات التدريب أثناء العملية. نلاحظ أيضا، وأوصى حجم TPU دفعة الرسمي هو 1024، ولكن على أساس جميع متطلبات الاختبار، ونحن كما نفذت اختبارات الأداء في إطار كل من حجم دفعة أخرى.

في لم يتم توفير البيانات التي تم إنشاؤها والبيانات المعززة، ومعالجة الصور الأداء في أداء الاختبار في مجموعة متنوعة من حيث الحجم دفعة واحدة. حجم دفعة لمجموعه "العالمي"، وهذا يعني أنه في 1024 حجم كل خطوة على كل GPU دفعة / TPU رقاقة 256

عندما يكون حجم دفعة 1024، وهما ليسا البيانات الفعلية الإنتاجية الفرق سرعة! جوجل TPU ما يقرب من 2 من الرصاص طفيف. أصغر حجم وأداء كل من سوف تكون أكثر خفضت، ثم GPU تتصرف أفضل قليلا. ولكن كما ذكر أعلاه، فإن حجم الدفعة الحالية لهذه TPU غير إعداد الموصى بها.

وفقا لتوصيات رسمية NVIDIA، فإننا لا نزال MXNet استخدام GPU لم التجربة، باستخدام صورة عامل الميناء التي تقدمها سحابة نفيديا GPU: ResNet-50 التي تحققت في (mxnet 18.03-PY3). في حجم الدفعة هو 768 (1024 أيضا)، GPU يمكن معالجة 3280 صورة في الثانية الواحدة. هذا هو أسرع من 3 فوق أفضل أداء TPU. ومع ذلك، تماما كما سبق، في نفس حجم الدفعة هو 168، MXNet كان التقارب يست جيدة على عدة GPU، والذي هو السبب في أننا نشعر بالقلق حول أداء كل من الوضع على تنفيذ TensorFlow، بما في ذلك أيضا نفس الشيء كما هو مذكور أدناه.

تكاليف سحابة

فتحت جوجل الغيمة الآن تصل سحابة TPU (أربع شرائح TPUv2). ويحسب فقط عند الحاجة، وسيتم ربط إلى مثيل سحابة TPU VM. سحابة الاختبار، ونحن نعتبر باستخدام AWS لاختبار نفيديا V100 (لأن جوجل سحابة حاليا لا تزال معتمدة V100). وبناء على نتائج الاختبار أعلاه، فإننا نستنتج أن تكلفة التكلفة (US $) على عدد من الصور في الثانية الواحدة في كل من منصات منها وتوفير.

تكلفة معالجة الصور في الثانية الواحدة (USD)

في الجدول التكلفة التي تظهر على سحابة TPU الواضح أن الفائز. ومع ذلك، عند النظر في عقد الإيجار على المدى الطويل أو الأجهزة يبيع (TPU سحابة الآن لا توجد وسيلة لشراء)، قد يكون الوضع مختلفا. ما سبق يشمل أيضا الحال عند (p3.8xlarge على AWS المحجوزة التسعير سبيل المثال (لا الدفع المسبق)) عندما عقد الإيجار 12 شهرا. أن هذا الوضع يكون من الواضح لتوظيف ستخفض سعر لتكلفة تجهيز 375 صور للدولار الواحد.

لديه الجانب GPU يمكن اعتبار خيارات شراء أكثر إثارة للاهتمام، على سبيل المثال Cirrascale يقدم خدمة الشهرية أربعة V100 خوادم GPU، الإيجار الشهري من 7500 $ (حوالي 1.03 $ / ساعة). ومع ذلك، ويرجع ذلك إلى الأجهزة سوف تختلف اعتمادا على تكوين الأجهزة (نوع وحدة المعالجة المركزية والذاكرة ودعم NVLink، الخ) على تغيير AWS، والمعايير لتقييم مقارن للمتطلبات الأساسية هي في تناقض مباشر مع (على العين المؤجرة).

دقة والتقارب

وبالإضافة إلى الأداء الخام من التقريرين، نود أن التحقق من الحساب (حساب) هو "ذات مغزى"، ويشير أيضا إلى تحقيق التقارب إلى نتائج جيدة. لأننا المقارنة بين اثنين من تطبيقات مختلفة، وحتى بعض الأخطاء وينتظر أن تتم. لذلك، وهذا هو ليس فقط حول سرعة الأجهزة، ولكن تتعلق أيضا تحقيق جودة التقييم المقارن. وأضاف TPU ResNet-50 لتحقيق صورة عالية جدا تجهيزها مكثفة حسابيا، الذي هو في الواقع جزء من حساب سرعة سرعة. تنفيذ Google معين تم تصميم هذا النحو، فإننا سوف نرى لاحقا، هذا النهج دفعت قبالة حقا.

نموذج تدريبنا على مجموعات البيانات ImageNet، فإن مهمة التدريب هو تصنيف صورة كما الطنان، 1000 الفئة البوريتو المكسيكية أو البيتزا. 1،300،000 من قبل مجموعة التدريب بيانات الصور المستخدمة (حوالي 142 GB) و 50،000 صور (حوالي 7 GB) المستخدمة للتحقق من التكوين.

ونحن في حالة من حجم دفعة 1024، تم تدريب نموذج 90 مرات، التحقق من صحة البيانات وتمت مقارنة النتائج. وجدنا أن، TPU ندرك دائما عملية التعامل مع 2796 صورة في الثانية الواحدة، مع الحفاظ على عملية التنفيذ GPU 2839 في الثانية الواحدة. يتم الحصول على هذه البيانات وفقا لاختلاف سرعة سرعات أعلى النتائج، ونحن لا تؤدى في حالة استخدام البيانات والبيانات تعزيز ولدت، ويقارن بين سرعة الأصلية للGPU وTPU.

خلال أول يومين لتحقيق دقة 90 بعد فترة التدريب (أي، ننظر فقط إلى حالة كل صورة لديها أعلى موثوقية توقع)

مبين، تحققت TPU كما دقة FIG مقارنة مع أول متعددة GPU-0.7 بعد فترة 90 التدريب. هذا قد يبدو وكأنه الفرق الصغيرة في القيمة، ولكن من الصعب للغاية لتنفيذ الترقية على المستويين بالفعل عالية جدا، وكذلك في تطبيق سيناريوهات العملية، حتى مثل وجود فجوة صغيرة في تعزيز وهما في نهاية المطاف مما أدى إلى أداء أنتج العالم للفرق.

دعونا ننظر أولا في دقة نماذج مختلفة من فترة التدريب التعرف على الصور التعلم.

إعداد التحقق الأول من دقة اثنين تطبيقات

وجهة نظر الموسع لتغييرات جذرية الجدول جزء في دقة الأولى، ومعدل التعلم على كل من TPU ونموذج تنفيذ GPU متطابقة. عملية التقارب على TPU لتحقيق أفضل من GPU، وتدريب نموذج 86 مرات، وصلت أول معدل دقة النهائي من 76.4، ولكن وعلى سبيل المقارنة، فقط 64 TPU تحقيق وفترة التدريب نموذج تكون قادرة على تحقيق نفس رأس المحدد معدل. TPU لتعزيز التقارب على ما يبدو بسبب أفضل ما قبل المعالجة والبيانات تعزيز، لكنه يحتاج الى مزيد من التجارب لتأكيد هذا الأمر.

تكلفة حل يستند سحابة

وأخيرا، في حالة الحاجة إلى تحقيق درجة معينة من الدقة والوقت والمال هو المفتاح. ونحن نفترض أن دقة 75.7 (GPU يمكن تنفيذها لتحقيق أعلى دقة) من حل مقبول، يمكننا حساب، على أساس نموذج التدريب ومرحلة التدريب نموذج سرعة معالجة الصور في الثانية المطلوبة لتحقيق دقة التكاليف اللازمة. وهذا يشمل أيضا الوقت اللازم لنموذج التدريب الأولي والوقت الذي يقضيه على نموذج حساب عقدة فترة التدريب.

معدل دقة الأول من 75.7 من تكلفة الأموال (الإبقاء على فترة 12 شهرا من الاستخدام)

كما هو مبين في الجدول، مما يتيح للمستخدم سحابة TPU ضمن تسع ساعات وتكلفة $ 55، يمكن تدريب في نموذج دقة الصفر ImageNet إلى 75.7، يمكن أن تكلف 73 $ إلى 76.4 للتدريب نموذج التقارب. على الرغم من أن V100 وTPU السرعة نفسها، ولكن سعر التكلفة العالية والتقارب V100 يتحقق ببطء أكثر، وبالتالي فإن استخدام TPU هو حلول أكثر بكثير فعالة من حيث التكلفة.

تحتاج مرة أخرى تجدر الإشارة إلى أن نتائج التقييم المقارن لدينا ويتم تعتمد على نوعية وسعر التنفيذ خادم سحابة.

كما سيتم على أساس تباين مثيرة للاهتمام بين البلدين على المقارنة بين الاثنين من حيث استهلاك الطاقة. ومع ذلك، ما زلنا لا نعرف أي معلومات استهلاك الطاقة العامة TPUv2.

ملخص

على أساس معيار تجريبي لدينا، وخلصت إلى أنه في TPUv2 ResNet-50 رقاقة أربعة (أي على TPU سحابة) وأربعة GPU الأصلي سرعة تشغيل بأسرع (داخل الخطأ التجريبي من 2). كما أننا نتطلع إلى المستقبل من خلال برنامج (TensorFlow أو CUDA) الأمثل لتحسين أداء كل من يعمل على منصة وتحسين الخطأ التجريبي.

تحقيق دقة محددة على مسألة معينة في المثال من التطبيق العملي في كل من الوقت والتكلفة من أكثر سحابة حرجة. في الغيوم التسعير TPU الحالية، مع مستوى عال من ResNet-50 التنفيذ على ImageNet وصلت إلى دقة رائعة من الوقت والمال (فقط $ 73 يمكنك قضاء نموذج التدريب لتحقيق 76.4 من الدقة).

في المستقبل، سوف نستخدم أيضا أبنية شبكة مختلفة من مناطق أخرى كنموذج مرجعي لتقييم أعمق. هناك نقطة تجربة مثيرة للاهتمام هو أن لمنصة أجهزة معينة، يريد أن الاستخدام الفعال للموارد الأجهزة، مقدار الجهد سوف يستغرق. على سبيل المثال، حساب الدقة مختلطة يمكن أن يحقق مكاسب كبيرة في الأداء، ولكن وتنفيذ وأداء النموذج على GPU وTPU يختلف كثيرا.

وأخيرا، وذلك بفضل هانا جامعة اللحاء فرايبورغ، أندرسن جامعة كارنيجي ميلون ديفيد، تيم Dettmers والدراسة ماثياس ماير وتصحيح تقييم مقارن للمشروع النص.

عبر RiseML مدونة، AI تقنية مراجعة المترجمة.

نعم، نحن تجنيد الناس، لمعرفة؟

BAT العليا خوارزمية مهندس ودورات التطوير الحصرية

معظم مقربة من الحياة والعمل من المرح التطبيق العملي للمشروع

إدارة الصف مساعد الطالب المهنية Q & A

تطبيق معارفهم لاتخاذ العرض، وهي استكمال يوصي التوظيف

انقر لقراءة رمز المسح أو النص لمعرفة!

(^ 0 ^) تقاسم ترحيب، أراك غدا!

الجاف | "لقائي الاول العلماء تجربة التدريب البيانات."

6T بالإضافة إلى نسخة مخصصة من ماكلارين القادم: 10GB ذاكرة كبيرة + 50W سوبر تهمة سريع

صور الجهود "Onmyouji" وراء، عام واحد فقط من تقدير العمل هناك 1.8 مليار؟

الجمعية | قراءة ورقة بابا ICLR: الشبكة العصبية على أساس دوري طريقة الاتجاه بالتناوب من تكميم متعددة بت

من "الحي الصيني هولمز 2"، استشرافا للمستقبل، الفيلم لا يمكن التفكير في معدل ممتاز تشن سي تشنغ عالية جدا!

من من الحق، لا يخاف من ذلك على أي حال

كسر 1.7 مليار! من "العمل ميكونغ" إلى "عمل البحر الأحمر" هذا الشخص في موقف!

2017 معرض فرانكفورت للسيارات: أنا الرؤية حيوية

وليس ذلك بكثير كيف الله؟ تكنولوجيا الأرز الصينية، بيتا: أنا آسف، لقد الخروج

الجاف | UT أوستن الدكتوراه شين يان ياو: بناء على عمق الاعتراف كيان اسمه التعلم النشط

يقود الموضة والصحة: LOGO فيفو PHONE tushang

وانغ باو تشيانغ مع "الحي الصيني هولمز 2" إلى الممثل خامس أعلى الاطلاق، نلقي نظرة على رأس خمسة من آخر!