فريق تشن تيانتشى صدر TVM: نشر التعلم العميق للهاتف، وفطيرة التوت، والمزيد من الأجهزة

يون الانتهاء من جمعها

إنتاج و qubit | عدد ملفه QbitAI

 تشن تيانتشى، قسم الحاسوب جامعة واشنطن طالب الدكتوراه، كان قد تخرج من الطبقات ACM جامعة جياوتونغ فى شانغهاى. على XGBoost، cxxnet غيرها من أدوات التعلم آلة معروفة، واحدة من المساهمين الرئيسيين من MXNet.

أعلن DMLC مشروع الراعي تشن تيانتشى صباح اليوم عن إطلاق TVM.

ما يسمى TVM، وفقا لبيان رسمي: هو نوع من التعلم العميق ستنشر أعباء العمل إلى IR نهاية (تمثيل وسيط) كومة الأجهزة. وبعبارة أخرى، يمكن التعبير عنها كنموذج توزيعها على عمق التعلم، ونهاية إلى نهاية الحلول على الأجهزة المختلفة.

وقال تشن تيانتشى في الدقيقة بو، TVM وقبل الافراج عن NNVM نظام وحدات التعلم العميق معا "، وتتألف من مختلف الأجهزة دراسة معمقة لاستكمال سلسلة أداة التحسين."

وفي المجموعة ذاتها من DMLC ليو هونغ ليانغ (phunter_lau) شرحه لأهمية هذا العمل في الصغرى بلوق: "نموذج TVM يمكن نشرها إلى الأجهزة المختلفة، مثل الجماهير المتداولة لا يمكن استخدام GPU AMD، وFPGA كيفية التعامل معها، TVM توفر طبقة وسطى حل فعال لهذه المشكلة ".

ثم أضاف تشن تيانتشى أيضا:

بالإضافة إلى دعم الأجهزة أكثر وضوحا وأكثر من ذلك، الأهم من ذلك هو دعم ضبط تلقائي أكثر ملاءمة ونشر خفيفة الوزن. على سبيل المثال، يمكننا تحقيق بعض الطلاب وتأثير مماثل cudnn في بعض عبء العمل، ونفس الشيء يمكن ترحيل إلى الأجهزة غير CUDA الأخرى.

جدا أقترح عليك أن تحاول.

وعلى رديت وقال ليو هونغ ليانغ استعارة حية: المستقبل لا يمكن أن يتحقق لجعل التوت بي القط ~

حول مقدمة الرسمي TVM، المكدسة في محاولة لتجميع المحتوى الرئيسي التالية. عرض الصفحة الأصلية يمكن النقر على الزاوية اليسرى السفلى، "قراءة الأصلي" زر.

الكاتب: تيانتشى تشن (الرصاص المشروع)، تييري مورو (الأجهزة كومة)، Ziheng جيانغ (تجميع الرسم البياني)، Haichen شين (الجرافيك الأمثل)

لقد أصبح التعلم العميق في كل مكان والذي لا غنى عنه.

قوة واحدة وراء هذا التغيير هو للمد نظم التعلم عميقة، مثل TensorFlow، MXNet، كافيه PyTorch وهلم جرا. أكثر من نظام القائمة سوى جزء من GPU على مستوى الخادم الأمثل، إذا كنت ترغب في نشر إلى الهواتف المحمولة والإنترنت معدات الأمور والمعجلات مخصصة (FPGA، ASIC) وغيرها من المنصات، وهناك الكثير من العمل للقيام به.

مع تزايد إطار التعلم عمق وعدد من الأجهزة الخلفية، نقترح كومة موحد التمثيل وسيطة (IR)، ويستخدم لتقريب المسافة بين عمق التعلم الإطار والخلفية للجهاز.

يسرنا أن نعلن عن إطلاق TVM إلى حل المشاكل المذكورة أعلاه. TVM هو الإطار الجديد، يمكنك:

  • وحدة المعالجة المركزية، GPU وغيرها من الأجهزة مخصص والتمثيل وتعظيم الاستفادة من أعباء العمل دراسة متعمقة مشتركة الحوسبة

  • يتم احتساب FIG التحويل التلقائي لتقليل أثر الذاكرة، والبيانات تخطيط الأمثل وضع التقارب حساب

  • ترجمة نهاية، من الواجهة الأمامية من الإطار إلى المعدن من الأجهزة الموجودة، حتى متصفح جافا سكريبت قابل للتنفيذ

مع مساعدة من TVM، فإنه يمكن تشغيل بسهولة أعباء العمل في دراسة متعمقة للهواتف النقالة، الأجهزة المدمجة وحتى على المتصفح، دون الحاجة إلى عمل إضافي. كما توفر TVM دراسة متعمقة وعبء العمل على العديد من منصات الأجهزة، وإطار موحد الأمثل، بما في ذلك حساب جديد يعتمد على معجل مخصص البدائية.

لقد اعتمدت صناعة مترجم فلسفة مشتركة، وتوفير اثنين من طبقة التمثيل وسيطة لفعالا في الحد من عمق متقدمة خوارزميات لأجهزة الخلفية متعددة التعلم.

في هذه الإصدارات الإفراج عنهم، وتقدم حزمة TVM مفتوحة المصدر إلى x86، ARM، OpenCL، والمعادن، CUDA والأمثل البدائيون جافا سكريبت. ونحن ملتزمون بشكل فعال في زيادة تسريع الأجهزة المهنية والأمثل لدعم العمارة نفيديا GEMM فولتا.

التفاصيل الفنية

TVM كومة الهدف، وتوفير سلسلة أداة قابلة لإعادة الاستخدام، وتقدم الى عمق البعيدة من إطار التعلم الشبكة العصبية وصفها، جمعت بالخفض رمز الجهاز إلى عدد وافر من أقل الأجهزة نهاية الخلفي.

أباتشي MXNet كواجهة أمامية لهذه القضية، يوضح التعليمة البرمجية التالية كيفية استخدام رفيع المستوى وصف TVM ستجمع يتم تخصيص نموذج التعلم العمق لأجهزة الهدف الأمثل وحدة قابلة للتنفيذ.

انها يتمثل التحدي في دعم العديد من الأجهزة الخلفية، في حين الحوسبة والذاكرة والطاقة أقدام تبقى إلى أدنى حد ممكن. علينا أن نتعلم من حكمة المجتمع المجمعين، بناء طبقتين الوسطى: واحدة منها هي NNVM (وسط كبار لجدولة المهام وإدارة الذاكرة التمثيل)، وآخر هو TVM (الأمثل لحساب نواة معبرة يمثل أقل سيطة)

ويستند المرحلة الأولى على عروض كومة حساب FIG. FIG الحساب هو رسم بياني احلقي موجهة، تمثل عقدة عملية حسابية، مع السهام تظهر تدفق البيانات. معظم الأطر القائمة التعلم العميق بهذه الطريقة، المكدس تضم NNVM FIG TVM التمثيل، TensorFlow XLA وإنتل Ngraph.

يمكن أن الإطار الأمثل الرقم دعم العديد الأمثل قوية. على سبيل المثال، ونحن نقدم وظيفة تحسين الذاكرة الخطية التي تسمح للمستخدمين تدريب ImageNet ResNet 1000 على GPU طبقة واحدة.

ومع ذلك، وجدنا فقط الأشعة تحت الحمراء حساب القائم على الرسم البياني ليست كافية للتصدي للتحديات دعم مختلف الخلفية للجهاز. منذ مشغل الرسومات واحد، على سبيل المثال، ضرب المصفوفات يمكن تعيين التلافيف أو مختلف والأمثل النهاية الخلفية الأجهزة بطرق مختلفة جدا. هذه الأجهزة محددة تخطيط الذاكرة الأمثل، وضع موضوع مواز، ووضع وصول ذاكرة التخزين المؤقت والأوليات الأجهزة الاختيار، قد تتغير بشكل كبير. نأمل أن يكون بطريقة عامة لهذا التعبير واضح.

أنشأنا التمثيل على مستوى منخفض إلى حل هذه المشكلة. ويمثل هذا المؤشر على أساس الصيغة، وتقديم الدعم للازدواجية.

IR يستخدم على مستوى منخفض لغة معالجة الصور (مثل هاليد أو غرفة مظلمة) المبادئ القائمة على تطوير أداء قويا جدا من DSL التعلم العميق. FIG TVM شيدت الأمثل في أداة تحويل دورة الخفيفة (مثل loopy مثل). كما حصلنا على الإلهام من تدفق البيانات لغة وصف MXNet، TensorFlow، Theano وغيرهم إطار التعلم العميق. بعد ذلك تعامل خوارزمية TVM وصفت في مرحلة الجدولة، لتطبيق نهاية الجزء الخلفي من تحويل مخصصة الأجهزة المستهدفة.

ويشمل الإطار الأمثل TVM وحدة المعالجة المركزية المشتركة البدائيون تحويل القياسية. الأهم من ذلك، TVM التكامل بين الأوليات جديدة الأمثل لGPU، بما في ذلك استخدام موضوع النموذج التعاوني، تحويل البيانات تخطيط والأوليات الحسابية القوية. مزيج TVM وNNVM، يمكن أن يكون الأمثل في مختلف الطرق البرمجيات عبء الدراسة كومة العمق، وعلى مستوى الصورة يحسب لتحقيق مزيد من التحسين على مستوى المشغل.

متعدد اللغات ودعم منصة

واحدة من مزايا TVM والمنصات واللغات المتعددة هو توفر ثروة من الدعم. وهو يتألف من جزأين. أولا، المكدس مترجم، بما في ذلك المكتبات الأمثل كاملة لتوليد الأمثل رمز الجهاز، والثاني هو بيئة وقت التشغيل خفيفة الوزن التي توفر قابلية اللازمة لتجميع وحدة المنتشرة على منصات مختلفة.

يدعم TVM حاليا جزءا لا يتجزأ من كومة مترجم بايثون وC ++ واجهة. نحقق عند تصميم إطار لتحقيق أقصى قدر من إعادة استخدام، من أجل تحسين مترجم كومة يمكن أن تستخدم بالتبادل بين الشكل بيثون وC ++.

ونحن نقدم أيضا بيئة وقت التشغيل خفيفة الوزن التي تسمح TVM مع جافا سكريبت، جافا، بيثون، C ++ وغيرها من التعليمات البرمجية المترجمة التي تعمل على أجهزة Android و iOS، وفطيرة التوت ومتصفح الويب المنصات.

بعيد نشر وتنفيذ

بواسطة واجهة خفيفة الوزن TVM RPC ونشر وتنفيذ TVM حدات المترجمة الصليب على أجهزة جزءا لا يتجزأ من جهاز التحكم عن بعد. وهذا يوفر واجهة مألوفة لTVM تقدمت المستخدمين بيثون لترجمة بعيد على مجموعة متنوعة من الأجهزة جزءا لا يتجزأ من مستوى أدنى، إلى أقصى حد واختبارها خوارزميات التعلم عميقة.

أداء

TVM في مراحله المبكرة، وحتى ذلك الحين هناك الكثير من مجال للتحسين، ولكننا شهدنا بعض النتائج المثيرة.

التوت بي

نحن تعرض لأول مرة على عمل التوت بي 3B ResNet معقدة، مقارنة TVM وnnpack. نظرا لضيق الوقت، ونحن نستخدم TVM التفاف المباشر في حين فينوغراد تنفيذ نواة nnpack لمدة 3 3 الالتواء.

لقد وجدنا التجربة التوت فطيرة، TVM ضبط تلقائيا النواة، يمكننا الحصول على دليل من الأمثل nnpack مماثل أداء النواة.

GPU

الاختبارات التالية المنسوبة إلى Leyuan وانغ (AWS / UCDavis)، يووي هو جين تاو (TuSimple)، Weitang ليو (AWS / UCDavis).

كدليل على المفهوم، أنشأنا عملية نهاية إلى بناء، ويمكن تجميع نموذج MXNet إلى TVM تنفيذها. نحن تنصهر الأساسية ولدت TVM بواسطة الآلي مشغل التكامل تطبيق لتحسين بين العقد الرسم البياني. نحن أعباء العمل MobileNet ImageNet تم اختبارها مع النتائج التالية.

وأظهرت النتائج أن TVM خوارزمية أفضل من معيارنا من حيث السرعة. المثير للاهتمام أكثر، وإدماج نواة يجلب تسارع إضافية. ومن الجدير بالذكر أن TVM أنها يمكن أن تولد كل النوى GPU الأمثل، وتعتمد على الأذن CuDNN وغيرها من المكتبات الخارجية.

نحن نجري المزيد من التجارب، وانها مستعدة للافراج عن النتائج التي تم تحديثها.

مصدر

جيثب معالجة هنا:

https://github.com/dmlc/tvm

- انتهى -

التوظيف الصادق

المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

و qubit QbitAI

' " تتبع تقنيات AI دينامية جديدة والمنتجات

61 دقيقة سجل مهنة مسطح، وهي خطوة بعد المباراة هاردن دائرة الوردي لا تعد ولا تحصى، وكثير من الناس فهمها له!

تم التخلي عن الحق في الصحة الناي السحري + ياتاي الجناح! U23 لكرة القدم في الديكور؟ 2 إلى الغرب وتنظيفها

معظم لعبة تستغرق وقتا طويلا! لاعب قوارب مفتوح في اللعبة، وأنا كان يدرب الكامل 18 شهرا!

صاروخ اليوبيل الماسي! ضرب تتصلب سجل 6، بول 3 ترحيب إيجابية، 18 واحد لعبة تساعد على نقطة حراسة للانضمام!

رائعة جديدة GE بكين للسيارات اول مرة في العالم

تينسنت، نيتياس 7، الفقرة 5 نماذج! 2018 ChinaJoy جولة أكثر من المتوقع في أي جهة!

لا جيدة مثل سوبر U23 المصب فريق B؟ ليبي بما فيه الكفاية ثقة! مينغ جي تكشف عن كرة القدم الوطنية سرية 6-0

40 + 50 + 60 +، كل الضرب والتعليق هاردن الدوري، ونشط هداف الذي يرفض قبول؟

وGE جديدة رائعة، كشفت مفهوم السيارة SUV الجديدة بكين للسيارات اول مرة في العالم

شراء جوجل لشركة الرؤية الحاسوبية AIMatter، التي أطلقت Fabby

عقد بنغ جيانغ، جامعة سيتشوان والجبال إلى المدرسة حفل توقيع التعاون الاستراتيجي

2017Chinajoy معظم فتاة إستعراض جميلة: البرد عالية الحلو خادمة موحدة، كنت تريد أن يكون