"في العمق" الورقية على معظم تحليل جوجل TPU وشامل والتقييم المهني

الأنفس جي توصية جديدة

الأصل

2017 الدولي السنوي الكمبيوتر العمارة السنوي (ISAC-2017)، في حين لا يزال في مرحلة التقديم، على غرار "جوجل ستعلن تفاصيل المعالج موتر لها" في وقف القيل والقال التخمير. وقبل بضعة أيام، وهذا هو، 6 أبريل 2017، كشفت جوجل في مشروع ورقة على مواقعها على الانترنت، بحيث يمكن للجمهور أن يعرف مقدما تفاصيل قبل الاجتماع. وهكذا أصبح جوجل، TPU وتسريع NN موضوعا ساخنا مرة أخرى.

لأن المعلومات العامة بما فيه الكفاية الغنية لتحل محل قسم خاص مماثل لأجهزة الشبكة العصبية مسرع حلول أسيك. بعد ثلاثة أيام من المناقشات في العلن، ونحن عمدا من أجل ضم النسخ الورقية، استنادا إلى النقاش حول فرك الحرارة.

تعليقات ورقة:

نمط:

هذه الورقة ليست النمط الورقي التقليدي من ISCA. أتذكر كان هناك نقاش طويل وتحليل البيانات، وهيكل من المؤتمرات صناعة مثل هذا النظام ISCA يعتمد على محاكاة النموذج والتصميم المبتكر (أو الدماغ حفرة مفتوحة على مصراعيها، أو رصاصة واحدة محظوظا في الرأس) هو معروف. عادة على فكرة ISCA قد يكون على وشك أن يكون 10 عاما من الإنتاج الممارسة الصناعية.

وبهذا المعنى، فإن هذه الورقة TPU أكثر انسجاما مع الشكل التقليدي للدراسة عن HPCA الصناعة. التكنولوجيا والممارسات البحثية التي يتم مناقشتها في الوقت نفسه التأكيد على مبتكرة والصناعة العرضية المدرجة في حالة الإنتاج الضخم، تنازلات تحليل قضيته. منذ 2016 TPU تصميم بالفعل تم الكشف عنها، ورقة خصصت أكثر من 10 صفحات لا يتوافق مع نمط مؤتمر دوائر الدولة الصلبة.

الوحي:

على الرغم من أن ورقة قد لخص الكثير من الضوء الفنية، والحوار "اسطوانة" تذكير أسلوب مناقشة كتاب مخاطرها وأوجه القصور في القائمة التصاميم مناقشة المشاكل. ولكن بعد كل شيء، هم أصحاب، وليس جزءا من الحشد.

  • تصميم الأجهزة الأساسية، وخصوصا في تصميم المعالج هو التمثيلي للبحوث وأعمال التطوير لم تخفض عتبة. ولكن بسبب بغض النظر عن تحديدا والمعالجات للأغراض العامة المطلوبة للحصول على قبول المستخدم النهائي، والنظر في الاحتياجات الحقيقية للبرمجيات والأجهزة والبرمجيات التنمية المشتركة قد تعزيز عتبة التصميم. (أي: الزراعة ياردة السيليكون لا يزال لديه الطلب في السوق)

  • مقارنة مع نموذج الشبكة العصبية، والمعدل الحالي لتطور وإطار تطبيق البرمجيات، والكامل العرف أو شبه مخصصة التقليدية دورة تطوير أسيك وسرعة التسارع الثابت. لا يزال من الممكن للحفاظ على تصميم خاص معين من الحياة، وتحديد التحسينات من خلال نموذج تقييم الأداء. (أي: R & D لا يزال الروتين القديم، ولكنها ستكون أكثر صعوبة في المدى الحصان السيليكون أسرع وأقل الرعي الوضع ليس أفضل أو سوف الرعي تزداد سوءا فقط.)

  • مطلوب نشر التطبيق الحقيقي وجمع البيانات، ولكن لديها أيضا مقنعة قوي، وبطبيعة الحال، فإن الهدف النهائي هو الحصول على قبول المستخدم معالج الهدف. (أي: هناك أناس يمكن أن تجعل تصميم بشعبية كبيرة، وهناك ما يكفي من الموارد للتعامل مع هذه أعلى احتمال)

  • عندما نركز على الورق، يجب أن تشعر بالقلق إزاء تحليل براءات الاختراع. في الأبحاث المنشورة من قبل، حتى في قراءة أولية الصحيفة عن الكثير من التعليقات تشير، TPU أي تفاصيل التصميم، وتغطي حتى الصور مع بالوعة الحرارة. ولكن قراءة الصحف لمعرفة، وجوجل في عام 2015 قدمت أوراق تطبيق ذات الصلة، وألفا GO للعب الشطرنج حين تستطيع أن ترى البراءة ذات الصلة الصادرة عن موقع مكتب براءات الاختراع. (أي: الشركات التجارية والعامة المتقدمة في مجال حماية الملكية الفكرية، وعمليات الدمج والاستحواذ والتحقيق ليست للعرض).

  • المعرفة المهنية، لا يزال هو أساس كل شيء. ويشمل TPU الحوسبة الأساسية: أ 256x256 مصفوفة 65536 وحدة مضاعف، والنابض إعدام إعدام الانقباضي يمكن أن ترجع إلى عام 1984، نشر باحثون من جامعة هارفارد في الصحف TOC. وفي هذه الدراسة كان NUDT يجب أن يكون من السهل التفكير في مفهوم ناقلات والمياه وغيرها من موجة السفر. (أي: دراسة الاحتياطي والخبرة لا تزال قيمة)

  • وأضاف:

    الصحف العامة المراجع يحتوي بالفعل على محتوى مفصل، ولكن يشير أيضا إلى مستقبل الأدب، على سبيل المثال، في عام 20186th طبعة من "هندسة الحاسوب: تصميم طريقة الكمي" هنا براءات الاختراع ملحق خاص 6 جوجل، على سبيل المثال، تريد أن تركز على: تفاصيل وحدة الفاصلة العائمة والعلاقة مصفوفة الوحدة، التحقق الكتب نقل DMA وزملاء آخرين.

    •  الشبكات العصبية المعالج. براءات الاختراع تطبيق NO.62 / 164931، US20160217368A1، WO2016186801A1

    •  الحوسبة الإلتواءات باستخدام المعالج الشبكة العصبية. براءات الاختراع تطبيق NO.62 / 164902، US20160342889A1، WO2016186811A1

    •  Prefecting الوزن بالنسبة للمعالج الشبكة العصبية. براءات الاختراع تطبيق NO.62 / 164981، US20160342892، WO2016186810A1

    •  البيانات الدورية عن الشبكات العصبية الحساب.

    • براءة اختراع تطبيق NO.62 / 164908، US20160342893، WO2016186826A1

    •  وحدة الحاسبات ناقلات في المعالج الشبكة العصبية. براءات الاختراع تطبيق NO.62 / 165022، US20160342889، WO2016186813A1

    •  تجهيز الدفعات في الشبكات العصبية المعالج. براءات الاختراع تطبيق NO.62 / 165،020، US20160342890، WO2016186823A1.

    غير كافية:

    نظرا لصفحتها الرئيسية غير مرئية، متهمة الشركة ZZ أصبح ما يقرب من التحرك الصحيح. ولكن هذه الصناعة الورقية التقليدية، لا يزال يضيف أن أداء هذا النموذج هو غير متوفر (أو غير متوفرة)، بالنسبة للكثيرين لمساعدة الدكتوراه الدراسات العليا يقتصر. بعد كل شيء، العديد من الأدوات في HP N.P Jouppi تشارك في تطوير والمصادر المفتوحة هي واحدة من العديد من الباحثين سلاح لحفظ البيانات.

    للمشروع الأول، وإشارات لا وجود لها حتى الآن، وعلى رقاقة ذاكرة سعة 28MB بين و24MB تحويل، لا تعتبر كافية.

    من هنا قبل البداية الرسمية للمقدمة:

    ويمكن تقسيم تسريع الشبكة العصبية إلى أربعة أشكال (CPU، GPU، FPGA، ASIC). وقد تم تشكيل وحدة المعالجة المركزية وDSP (معالج الإشارات الرقمية، ومعالج مخصص بدلا من حقل) أساسا بطريقة متسارعة لتوسيع SIMD. NN تسارع سيف ذو حدين البيئية الحالية، على الرغم من وحدة المعالجة المركزية لديه مزايا بيئة تطوير غنية، ولكن محدودة أيضا إلى التصميم التقليدي ومتوافق مع المتطلبات المشتركة. FPGA لديه المرونة للتكيف مع تغير DNN الخوارزمية، مزايا الكفاءة في استخدام الطاقة. لكن FPGA تسارع بيئة الحوسبة وتأسيس منصة الأبحاث الصوت مع الأجهزة والبرمجيات اللازمة لتحقيقه، العتبة التقنية أعلى من نفيديا مع GPU كممثلين لشريحة غير إعادة التشكيل. على تكلفة الحوسبة تعادل القوة FPGA رقاقة أقل بكثير، وارتفاع في نهاية عالية الأداء ورقاقة FPGA هو أكثر بكثير من سعر GPU مماثل القدرة الحاسوبية. إذا كانت الشركة لديها الموارد البشرية والمالية الكافية، وثبت في تصميم FPGA، إذا كان مقدار نطاق واسع، وعادة ما تسعى أسيك العرف كما في المرحلة الثانية من البرنامج.

    وعلى الرغم من ASIC لديها دورة تطوير طويلة، NRE تكاليف مخاطر أعلى، ولكن كما معظم حلول الأجهزة كاملة مخصصة، يمكن للمصممين تحقيق جميع أنواع هدف PPA، بطبيعة الحال، عملية ونتائجها شملت أيضا التسوية التي لا نهاية لها.

    المرفقات الكبيرة "ترجمة" 1-8:

    موتر من المعالجات في تحليل أداء مركز البيانات

    في-مراكز البيانات تحليل أداء معالج التنسور

    ويعتقد العديد من المهندسين المعماريين أن الطريقة الرئيسية لتعزيز "التكلفة - - أداء الطاقة،" يجب أن يأتي من مجال الأجهزة المخصصة (الأجهزة محددة المجال). ودعا يقيم رقة جوجل موتر المعالج: ASIC مخصص رقاقة (وحدة TPU التنسور معالجة) من. بدأ رقاقة من عام 2015 لنشر في مراكز البيانات جوجل لتسريع عملية العصبية شبكة الاستدلال (ملاحظة المترجم: في هذا التطبيق الهدف المادة TPU لا يحتوي على عملية التدريب ولكن صياغة الرأي، لا أن تكون مصممة عمدا TPU لا يمكن أن تستخدم للتدريب). وTPU الأساسية 8 هو مجموعة 64K الخلية ومصفوفة الضرب على رقاقة إدارة الذاكرة 28MB البرمجيات، وذروة القدرة الحاسوبية في 92TOP / S. وحدة المعالجة المركزية وGPU مع إدخال ذاكرة التخزين المؤقت، وتنفيذ النظام، وخاصية تعدد والجلب المسبق عدم اليقين الناجمة عن وقت التنفيذ مقارنة، نموذج تنفيذ حتمية TPU لتلبية 99 جوجل متطلبات زمن الاستجابة الشبكة العصبية. السمات الهيكلية CPU / GPU متوسط إنتاجية أكثر فعالية، وTPU لتصميم استجابة تأخير. وبسبب عدم وجود التيار CPU / GPU ميزات الأجهزة، على الرغم من أن وحدة التخزين بالاعمال ورقة ذات قدرة كبيرة لديها كمية كبيرة من الضرب مصفوفة، TPU منطقة رقاقة صغيرة نسبيا مع الحفاظ على انخفاض استهلاك الطاقة. وسوف يقوم الباحثون جوجل مقارنة TPU نشرها في نفس مركز بيانات الخادم من الدرجة إنتل هسول وحدة المعالجة المركزية ونفيديا K80 GPU. ويستند اختبار الحمل في إطار وصف TensorFlow رفيع المستوى، وتطبيقها على المنتجات الفعلية تطبيقات الشبكة العصبية (بما في ذلك الرئيسية ذات المسئولية المحدودة، CNNs وLSTPs)، لأنها تمثل 95 من احتياجاتها من مركز بيانات جوجل المنطق حامل. بينما في بعض التطبيقات استخدام منخفض نسبيا، TPU المتوسط 15 أضعاف إلى 30 أضعاف أسرع من CPU / GPU، وأداء السلطة تصل إلى 30-80 مرة من قمم / مؤشر W. وعلاوة على ذلك، في استخدام ذاكرة GDDR5 TPU GPU التقليدية، والقدرة على المقابل تمكن مؤشر أداء قمم ثلاث مرات، وارتفاع كفاءة الطاقة تتصدر مؤشر / مرات W من GPU 70، وحدة المعالجة المركزية 200 مرة.

    اكسسوارات - الجزء 1: مقدمة الشبكة العصبية

    مجموعات البيانات الضخمة في بيئة السحابية، فضلا عن العديد من موارد الحوسبة السحابية لتدعم فتح تعاونية نهضة تعلم الآلة. على وجه الخصوص، وعمق الشبكة العصبية (DNN: ديب الشبكات العصبية) لتحقيق 30 أقل من الطرق التقليدية لتحقيق انفراجة في نسبة الخطأ التعرف على الكلام، ما يقرب من 20 عاما لتصبح أعظم الإنجازات في هذا المجال، واعتبارا من عام 2011 في مسابقة التعرف على الصور انخفض معدل الخطأ من 26 إلى 3.5، واعتدوا بالضرب على بطل العالم البشري في لعبة الشطرنج.

    الشبكات العصبية (NN: الشبكات العصبية) يشبه وظيفة الهدف في المخ، وتعتمد على تصميم مبسط لالعصبية الاصطناعية: وزن تعدد المدخلات وظيفة غير الخطية مرجح (على سبيل المثال، الحد الأقصى (0، قيمة)). كثير العصبية الاصطناعية هم في التسلسل الهرمي، والطبقة التالية تصبح أجل انتاج طبقة من المدخلات. وDNN "العمق" لعدد من المستويات من عدة طبقات اختراق الأصلي، والسبب الرئيسي هو مجموعة كبيرة من البيانات على منصة سحابة يسمح مستوى إضافي وعلى نطاق أوسع لبناء نماذج أكثر دقة، وليس للعيش مستوى أعلى نموذج أو مفهوم، في حين أن العروض GPU بما فيه الكفاية قوة الحوسبة مفتوحة لتطوير هذه النماذج.

    المراحل الرئيسية اثنين من الشبكة العصبية يتم تدريب (التدريب أو التعلم التعلم) والمنطق (الاستدلال أو التنبؤ التنبؤ)، ويمكن أيضا تتوافق مع مرحلة التطوير والمنتج. مطوري اختيار نوع من طبقات الشبكة والشبكات العصبية، وتحديد الوزن عن طريق التدريب. في الواقع، وكلها تقريبا من التدريب الحالي القائم على عملية الفاصلة العائمة، التي تعد واحدة من الأسباب التي أدت إلى GPU حتى الشعبية. ويسمى خطوة تكميم (تكميم)، المتحولين العائمة أرقام نقطة فقط باستخدام عدد صحيح ضيق من 8 بتات البيانات، عملية المنطق هو عادة ما تكون كافية. تخفيض 8 بت عدد صحيح الضرب 6 أضعاف انخفاض الطاقة من IEEE 75416 بت الفاصلة العائمة القياسية تتكاثر، منطقة السيليكون المحتلة أيضا 6 مرات أقل، وعدد صحيح بالإضافة العودة الطاقة 13 مرة و 38 مرة من منطقة

    يوجد حاليا ثلاثة أنواع من الشبكة العصبية الشعبية:

    • متعدد الطبقات المستقبلات (MLP: متعدد الطبقات Perceptrons): كل مستوى جديد حتى كل من مستويات الانتاج هي (جميعا) وظيفة المرجح غير الخطية من الأوزان إعادة استخدامها.

    • الشبكة العصبية الإلتواء (CNN: التلافيف الشبكات العصبية): في التسلسل الهرمي هي المرجحة قبل لإخراج مجموعة فرعية من الفضاء المجاورة وكل مستوى لاحق من مجموعة من غير الخطية وظائف، والأوزان أو إعادة استخدامها.

    • الشبكات العصبية المتكررة (RNN: المتكررة الشبكات العصبية): كل مستوى لاحق هو مبلغ المرجح لحالة سابقة من إخراج مجموعة من الوظائف غير الخطية. RNN هو الأكثر شعبية الذاكرة طويلة المدى القصير (LSTM: طويل الذاكرة قصيرة الأمد). يجب أن يتم تمرير الكذب مفتاح LSTM في تحديد أي دولة يجب أن ننسى، والتي تنص على إلى المستوى التالي. يتم استخدامها الأوزان في تسلسل خطوة.

    في الجدول رقم 1، ونظرا للشبكات العصبية ثلاثة مثالين من NN - جوجل تمثل 95 من حمولة مركز البيانات المنطق NN - أيضا معايير لبرامج اختبار هذه الورقة. TensorFlow عادة تكون مكتوبة، وهذه تحتاج فقط وسيتم وصف NN 100-1500 خطوط للقانون، فمن قصيرة جدا. اختار الكتاب اختيار برنامج الاختبار الوحيد التي تعمل على المضيف جزء صغير من تطبيق أكبر، وتطبيق كامل قد يكون الآلاف إلى الملايين من الأسطر من التعليمات البرمجية C ++. وغالبا ما تواجه هذه التطبيقات على التفاعل مع المستخدم والمشاركة، وبالتالي لديها أكثر صرامة المهلة استجابة.

    يمثل تطبيق ستة-NN (اثنان لكل نوع من التطبيق) 95 من الحمل على TPU: الجدول 1. بالترتيب من اليسار إلى اليمين في كل صف هم: اسم NN، وعدد من خطوط للقانون، NN وعدد طبقات من أنواع الشبكات المختلفة (FC هي طبقة الربط الكاملة، التحويل هي طبقة الإلتواء، ناقل شرح طبقة، بركة منذ TPU هو غير الخطية الكامل تخفيض حجم طبقة الخلايا). يتم تحديد شعبية هذه التطبيقات TPU في يوليو 2016. DNN هو RandBrain

    ثلاث مرات في المسابقات الدولية، وقال انه يأسف "هذا هو قتال حقيقي فئة معركة"

    المحرمات الشاي يجب أن أقول، فاجأ كامل أيضا، تبدو المستنير

    تم تجاهل هذه 90 من مهارات الناس، ولكن كان تشن تشون هوا، وتشانغ تشيوان لينغ لهم كدورة المطلوبة

    100000 الخيار الميزانية أن العديد من الألوان ذات القيمة العالية SUV، القرية سوف اعجاب لكم!

    "إن القول بأن الكلمات هي في دور لعبت في ......"

    تراجعت الاسهم الامريكية مرة أخرى، تراجع أسعار النفط فجأة إلى أدنى مستوياته منذ بدأ السوق العالمية على نطاق واسع التحوط

    تاكل الاطارات لماذا الحاجة حد لتحل محلها؟ تعلم السائقين هذا خمس ثوان القديمة

    كيف تصبح القهوة والمشروبات اليومية من ترفا؟

    وي: تعلم هذه تغش التوظيف، يمكنك بناء Tiejun علي

    قوانغتشو للسيارات عرض 7 تشانجان مازدا CX-8 الذي صدر اليوم شو كبير، ما هي أبرز؟

    تشين شو: والله لا يسلب ماضيك، سوف يسلب مستقبلك

    لماذا يعود الى نيبال؟ ألف الناس لديهم ألف سبب وسبب!