لماذا TPU حساب سرعة من GPU الطبيعي، وحدة المعالجة المركزية 15-30 مزيج من مرات بسرعة؟

لقد وجدنا بعض المعلومات، وتريد أن تكون قادرة على الإجابة لماذا سرعة عملية TPU من GPU الطبيعي، وحدة المعالجة المركزية 15-30 مزيج من مرات بسرعة. وفي الوقت نفسه، نعتقد جوجل TPU الابتكار في مجال البحوث والتنمية من المرجح أن يصبح الإنتر، AMD القياسي تتبع نفس تطوير الأجهزة، وتصبح في نهاية المطاف الاتجاه.

أولا، وعمق التعلم لتطوير مخصصة

TPU هو جوجل خصيصا لDNN القدرة الحاسوبية لتسريع البحث والتطوير في ورقة، هو في الواقع ASIC.

يشير ASIC، IC لمواصفات خاصة وفقا لاحتياجات مختلفة من المنتجات حسب الطلب، التي صممها احتياجات متطلبات المستخدم محددة والأنظمة الإلكترونية محددة في التصنيع. بشكل عام، وظائف محددة أسيك يقوم على تعزيز خاص، قد تكون التصاميم المعقدة ضرورية، ولكن نسبيا، أعلى سرعة المعالجة واستهلاك أقل للطاقة. المقابلة، وتكاليف الإنتاج أسيك مرتفعة جدا.

عموما من الصعب على الشركات لتحمل التكاليف والمخاطر لتطوير التعلم العميق معالج المتخصصة رقاقة أسيك. أولا، يجب علينا أن نستخدم أفضل أداء لعملية تصنيع أشباه الموصلات، والآن مع أحدث تكنولوجيا تصنيع رقاقة المتاح سيكلف عدة ملايين من الدولارات، ومكلفة جدا. حتى لو كان المال اللازم لسحب فريق من تصميم الصفر، وقت التصميم في كثير من الأحيان إلى أكثر من سنة واحدة، والوقت للسوق وقتا طويلا، محفوفة بالمخاطر. إذا لا يمكن أن يتحقق على نطاق التطبيق، حتى لو نجحت في تطوير أيضا عدم وجود قيمة عملية. لذلك، تميل الشركات عموما لاستخدام رقاقة عامة (على سبيل المثال، وحدة المعالجة المركزية، GPU)، أو شريحة شبه مخصصة (FPGA).

جوجل يجرؤ على القيام أبحاثهم مخصصة الخاص والتنمية، من ناحية واحدة هي بطبيعة الحال الضال الغني، من ناحية أخرى بسبب العديد من الخدمات التي تقدمها جوجل، بما في ذلك البحث عن الصور (جوجل ImageSearch)، والصور جوجل (جوجل صور)، وجوجل سحابة API البصري ( جوجل الغيمة الرؤية API)، ومنتجات وخدمات ترجمة جوجل تحتاج إلى استخدام عمق الشبكة العصبية. على أساس المبلغ الضخم الخاص غوغل من الجسم، لتطوير رقاقة خاصة أن تبدأ مع تطبيقات واسعة النطاق (تقاسم عدد كبير من تكاليف R & D) ممكنة.

إذا كان هناك سيناريو التي يستعملها الناس في يوم واحد في جوجل البحث الصوتي لمدة 3 دقائق، ونحن نريد لتشغيل عمق الشبكات العصبية للمعالج نظام التعرف على الصوت يستخدم، فسيكون لدينا لمضاعفة مركز بيانات جوجل العدد.

تحميل لدينا هو إطار رفيع المستوى من TensorFlow مكتوبة، وهو تطبيق على مستوى إنتاج الشبكات العصبية (متعدد الطبقات المستقبلات، العصبي التفاف الشبكة وLSTM)، وتمثل هذه التطبيقات لمركز البيانات لدينا احتياجات الاستدلال الشبكة العصبية الحاسوبية 95.

شكلت شبكة الستة العصبية (الشبكة العصبية لكل نوع من كل اثنين من الأنواع) لتحميل TPU 95: الجدول 1. الأعمدة في الجدول تليها مجموعة متنوعة من الشبكات العصبية، ونوع وعدد من خطوط للقانون، الشبكة العصبية الوسطى (FC وطبقات مرتبطة ارتباطا كاملا، التحويل هي طبقة الإلتواء، المتجهات هي طبقة ناقلات، طبقة خزان بركة) وTPU اختراق من التطبيق في يوليو 2016.

الأمثل فيما يتعلق CPU و GPU زمنية مختلفة (تنفيذ ذاكرة التخزين المؤقت النظام، ومتعددة الخيوط ومتعددة المعالجة، الجلب المسبق ......)، ونموذج تنفيذ حتمية أن TPU (نموذج تنفيذ حتمية) أفضل تطابق 99 من متطلبات الوقت استجابة لدينا تطبيقات الشبكة العصبية، وذلك لأن المزيد من وحدة المعالجة المركزية وGPU هي إنتاجية مفيدة (طوال) وبلغ متوسط، وليس لضمان الأداء تأخير. عدم وجود هذه الميزات تساعد في تفسير سبب، على الرغم من TPU ديه كبيرة MAC وذاكرة كبيرة، لكنه نسبيا صغيرة ومنخفضة استهلاك الطاقة.

TPU هو مخطط كتلة من الوحدات. القسم حساب وحدة رأس أصفر مصفوفة الصحيحة الضرب الرئيسية. المدخلات هي الأزرق "الأوزان FIFO" ومخبأ موحد الأزرق (الموحدة العازلة (UB))؛ الإخراج هو تراكم الأزرق (بطاريات (ACC)). تفعيل الأصفر (تفعيل) ينفذ وحدة وظيفة غير الخطية من UB تدفق في لجنة التنسيق الإدارية.

الثانية، ورقاقة ذاكرة واسعة النطاق

تستخدم TPU تصل إلى 24MB من الذاكرة المحلية على الرقاقة، و6MB الذاكرة ذاكرة التخزين العمودي للتفاعل مع المعالج المضيف، أي ما مجموعه 37 من مساحة رقاقة (الزرقاء في الشكل).

وهذا يعني ان غوغل تدرك تماما من ذاكرة الوصول خارج رقاقة منخفضة كفاءة استخدام الطاقة في GPU الجاني، وذلك على حساب ضعت على رقاقة ذاكرة ضخمة. في المقابل، نفيديا نفس الفترة K808MB فقط من الذاكرة على الرقاقة، فمن الضروري الاستمرار في الوصول خارج رقاقة DRAM.

تصميم TPU رقاقة من FIG. ذاكرة التخزين المؤقت البيانات الأزرق رقاقة من 37. الأصفر احتساب 30. وكان الأخضر I / O 10. السيطرة الحمراء 2 فقط. وقسم السيطرة على وحدة المعالجة المركزية أو GPU دينا الكثير كبيرة (وصعبة جدا للتصميم).

الثالثة، منخفضة الدقة (8 بت) حساب

أداء TPU ولكن أيضا من التسامح منخفضة لعملية دقيقة.

وأظهرت النتائج أن العمليات الحسابية منخفضة الدقة الناجمة عن فقدان دقة صغيرة جدا، ولكن يمكن أن تجلب راحة كبيرة على تنفيذ الأجهزة، بما في ذلك انخفاض استهلاك الطاقة وأسرع رقاقة منطقة تمثل وحدة عملية صغيرة، ذاكرة أصغر طلب عرض النطاق الترددي.

المعلومات الصادرة، يستخدم TPU 8 بت منخفضة الدقة الحسابية. أن TPU كل خطوة سوف تتطلب عددا أقل من الترانزستورات. في حالة الترانزستورات من نفس السعة الإجمالية، في وحدة الزمن يمكنك تشغيل المزيد من العمليات على هذه الترانزستورات، لذلك يمكن استخدام آلة التعلم خوارزميات أكثر تعقيدا وقوية الحصول على نتائج أكثر ذكاء بشكل أسرع من خلال.

اختبار جوجل، 64 بت الفاصلة العائمة مشغل الرياضي 18 من حركة الأساسية في معالج 2.3 غيغاهيرتز قادر على معالجة هسول XeonE5-2699 V31.3 TOPS من العمليات في الثانية الواحدة، ويوفر عرض النطاق الترددي ذاكرة 51GB / ثانية؛ رقاقة قوة هسول الاستهلاك هو 145 واط، ونظام (256 GB من الذاكرة) استهلاك 455 واط في حمولة كاملة. في المقابل، TPU باستخدام 8 بت عدد صحيح الرياضيات، ذاكرة المضيفة ذاكرة 256GB و 32GB يمكن أن يتحقق عرض النطاق الترددي 34GB / ق الذاكرة، وتجهيز بسرعة تصل إلى 92 TOPS، مما أدى إلى تحسن أعلى 71 مرة من هسول، بالإضافة إلى ذلك، TPU الطاقة الحرارية من الخادم فقط 384 واط.

رابعا، تيار النابض

لGPU، وذاكرة جلب التعليمات والبيانات من تستغرق وقتا طويلا. TPU ولا حتى جلب عملية القيادة، ولكن شريطة أن حاليا لتعليمات المعالج المضيف، والقيام TPU المقابلة بناء على تعليمات التشغيل الحالي، مما يجعل من الممكن لتحقيق أعلى كفاءة TPU الحسابية.

في عملية الضرب مصفوفة والالتواء، وعدد من البيانات يمكن المضاعفة، ونفس البيانات يتطلب عددا من أوزان مختلفة وجمعت للحصول على نتيجة الضرب النهائية. وهكذا، في أوقات مختلفة، والبيانات في كثير من الأحيان واحد أو اثنين فقط من المدخلات اللازمة للبيانات جديدة مأخوذة من الخارج، ولكن على بيانات أخرى من البيانات في الوقت التحول.

في هذه الحالة، على رقاقة ذاكرة البيانات طرد جميع يذهب للحصول على جديد بيانات هو بلا شك غير فعالة للغاية. خصائص هذا الحساب، وأضاف TPU الدعم النابض تيار البيانات، كل دورة على مدار الساعة تحول البيانات، واسترداد البيانات الجديد. وهذا تعظيم البيانات المضاعفة، وتقليل مرات الوصول إلى الذاكرة، في حين خفض ضغط عرض النطاق الترددي الذاكرة يقلل أيضا من استهلاك الطاقة في الوصول إلى الذاكرة.

خامسا، تعزيز تبديد الحرارة

للحصول على أداء، اثنين من العوامل التي تحد من السرعة القصوى للمعالج هو منطق بوابة تأخير الحرارة، حيث التدفئة هو الأكثر عامل مهم الحد من السرعة. معظم المعالجات الحالية تستخدم تكنولوجيا CMOS، ودورة على مدار الساعة وكل تبديد الطاقة المنتجات، وأسرع الحرارة أكبر. وفيما يلي العلاقة بين تردد على مدار الساعة وحدة المعالجة المركزية واستهلاك الطاقة يمكن أن ينظر إليه، وهذه العملية رقاقة استهلاك الطاقة مع سرعة النمو المتسارع التغيير.

TPU مع الحد من استهلاك الطاقة، والقدرة على جعل أيضا لمزيد من التحسين التبريد. كما أنه يمكن أن ينظر إليها من وجهة النظر الخارجية من TPU، والتي تكون فيها أمور معدني إسقاط ورقة كبيرة، وهو أمر جيد لTPU ليكون ويتم تشغيل عالية السرعة بها الكثير من تبديد الحرارة.

سادسا، الأجهزة، والبرمجيات، والتحسين المستمر

تؤمن Google هناك غرفة كبيرة لتحسين الآن لا تزال TPU الأجهزة والبرمجيات، مثل NVIDIA GPU K80 يفترض أن تنفق في ذاكرة GDDR5، يمكن للTPU تلعب أداء أفضل.

وبالإضافة إلى ذلك، طور مهندسو جوجل أيضا البرمجيات دعا CNN1 TPU، يمكن للTPU جعل سرعة أعلى 70 مرة من متوسط CPU!

حقوق النشر محفوظة: هذه المادة هي من الحكمة مهرجان البيانات الكبيرة تعدل أو شبكة لى فنغ أذن طبع.

اليابان معا العمل مع والدي علي علي صور ما هو نوع من التجربة؟

أشد كسلا بلد في العالم الترتيب المفرج عنهم، كنت ببساطة لا يمكن أن نتصور كيف كسول البريطانية

قديم ماك بوك بطيئة وبطاقة كيف؟ هذه الخدعة يمكن أن تجعل من معارك 5 سنوات

مقابلة مع "السم. الوصايا "لاو تشينغ وان: أتطلع الصداقة الثقيلة

ممن لهم R17 إنشاء برنامج الجمال الحصري الجمال أكثر طبيعية

"الآباء الصينية" للحفاظ على صديقاتها! هناك 14 الحد الحرة المال الانتظار لتلقي لك التطبيقات الخاصة

مجد 8 SE 8X مقارنة الدخن إشارة: من خلال المصعد والسلامة، والذين لقطات لأول مرة

تظهر الباعة المسخ، تصمد "الجودة الصينية" نصف ......

قطار مهرجان الربيع، يعلمك كيفية اضعاف خمس نقاط عالية السرعة السكك الحديدية الجاهزة

شبكة السينما | هذا الفيلم كلمة ليس فقط من الحرس الفم، أصبح اليوم NO.1 شباك التذاكر!

هاكر، كوريا الجنوبية، أكبر شركة برامج مكافحة الفيروسات مؤسس هان اهن وتتنافس معظم الأعمال الخطرة

امرأة 150 جنيه ليس ما تفعله الولايات المتحدة لا تزال ممكنة!