ديناميكية | من قبل منظمة العفو الدولية إلى الهدف مجلس كشف رقاقة "جامعة شيان جياوتونغ،" هو كيف يمكن تحقيق مكاسب DAC FPGA المسار عداء؟

"

تهنئة الى "معهد جامعة شيان جياوتونغ من الذكاء الاصطناعي والروبوتات فريق XJTU-Tripler"!

"

تقنية مراجعة AI حسب: 5 يونيو 2019، من قبل جمعية الإمارات للغوص DAC مؤتمر 2019 أعلى من "الطاقة المنخفضة نظام الكشف عن الهدف تحدي تصميم" في لاس فيغاس نظمت وصل الى نهايته. معهد جامعة شيان جياوتونغ من الذكاء الاصطناعي وفريق XJTU-Tripler الروبوتات مع خوارزميات التحسين الخاصة وأبنية، وتحقيق نهاية المطاف دقة IoU61.5، 9537J الطاقة، معدل الإطار 50.91Hz، المعلقة 9.248W تحقيق السلطة، يكسب السباق FPGA عداء الطريق، كما أنها تدخل فريق في المراكز الثلاثة فقط العليا. حاليا، لديهم خطط لأدوات المنافسة مفتوحة المصدر، وتقديم الدعم للمتابعة. سوف AI تقنية مراجعة تصميم البرامج التي تقدمها وتلخيص العزم على النحو التالي.

1

مباراة الخلفية

DAC، الاسم باللغة الانكليزية ACM / مؤتمر أتمتة التصميم IEEE، هو مؤتمر القمة في مجال أتمتة التصميم الإلكتروني والأنظمة المدمجة. مسابقة تصميم النظام (نظام مسابقة تصميم) من قبل لجنة المساعدة الإنمائية، وتهدف إلى توفير منصة لتبادل الفنية للمصمم النظم العالمية لتعلم الآلة في البرامج والموظفين ممتازة في مجال تنظيم.

متطلبات نظام المنافسة لFPGA وGPU الدرجة الثانية هندسة الأجهزة، على التوالي المنافسة. لدائرة FPGA، رعت هذه المسابقة من قبل XILINX، Dajiang ونفيديا، لعبة الطرف لمنظور بدون طيار معينة من مجموعة التدريب البيانات (90000 قرار الصورة 360x640، واحدة علامة الهدف) للتدريب والعرق اختبار على الخاص 50000 مجموعة البيانات في اختبار مربع. النهائية دقة الكشف آيو (تقاطع عبر الاتحاد)) غير العالية والمنخفضة انتصارات استهلاك الطاقة.

2

نشر بعثة

معهد الذكاء الاصطناعي والروبوت المعرفي Renpeng جو أستاذ مشارك من جامعة شيان جياوتونغ، حيث الحوسبة فريق الهندسة المعمارية XJTU-Tripler في هذه المسابقة، تم تصميم الأجهزة المستخدمة لبيئات تقنيات عمليات منخفضة الطاقة المصممة Ultra96 - XILINX ZYNQ مجلس التنمية ، وهي محمولة على أربعة الجانب PS الأساسية ARM اللحاء A53 وحدة المعالجة المركزية، مسافة السباق في 1.5GHz، وقدم لعبة الحزب. يستخدم برنامج لوضع إطار بناء على PYNQ بيثون. التي من قبل أعضاء الفريق: ران تشاو بو، وتشاو ينزه، الصيف، تشن فاي، فان لونغ، وكان بنغ تشن مسؤولة عن تطوير الأجهزة، Weiya دونغ، تو تشى جيون، تشاو شو دونغ تشى وى مسؤولة عن تحسين خوارزمية.

لتحقيق التوازن بين استهلاك الطاقة ودقة الكشف، وفريق XJTU-Triper اختيار والشبكة العصبية الأمثل الجانب تواجه خفيفة الوزن من نهاية الاطار، والقيود المفروضة على الموارد لZU3 وتبسيط فريق التصميم قبل شبكة مشتركة يمكن أن تدعم DNN مسرع (HiPU)، والتي تم نشرها في ZU3 الجانب PL. لذلك، يتم تقسيم فريق العمل XJTU-Triper الرئيسي في تحسين خوارزميات والهندسة المعمارية لتصميم منصة الأجهزة الأمثل:

خوارزمية الأمثل

  • ShuffleNet V2 اختيار استخراج ميزة باعتباره الإطار الرئيسي.

  • YOLO اختيار كإطار لالانحدار من موقع هدف واحد؛

  • 8bit تحديد الشبكة العصبية.

  • HiPU الأمثل

  • دعم CONV، FC، إقلاع الحكيم CONV، تجميع، ايلى الحكيم إضافة / مول عمليات أخرى، وتحسب ذروة القوة 268Gops، وكفاءة أكبر من 80.

  • دعم قناة خلط ورق اللعب، والانقسام، عملية CONCAT، ولا تستهلك وقتا إضافيا.

  • توفير C، واجهة API تجميع RISC-V، وجدولة مرنة؛

  • HiPU بالكامل من قبل الجانب PL، لا تعتمد على PS الجانب. PS وتتمثل أهم ما قبل الحمل والصور ونتائج الإخراج.

  • 3

    مفصل التقنية ذات الصلة

    • كشف واحد اختيار الشبكة المستهدفة

    لتلبية كشف في الوقت الحقيقي من نهاية الحركة، فريق XJTU-Triper YOLO اختار في نهاية المطاف كأساس للإطار الكشف و-تخصيص النفس ShuffleDet الشبكة. حيث يتم استبدال ميزة استخراج وشبكة خفيفة ShuffleNet V2، وهو أكبر قليلا من حجم المعلمة 1X. هو مبين أدناه يتم تخصيص واحدة شبكة الكشف عن الهدف.

    الشبكات الرسم البياني للShuffleDet

    • التدريب والشبكة العصبية تحديد

    فريق XJTU-Tripler قبل التدريب لأول مرة تصنيف ShuffleNet V2 قياسي على بيانات شبكة ImageNet. بعد تقارب النموذج، الذي الجزء الأمامي استخراج ثلاثة المعلمات مميزة العودة ShuffleDet الشبكة فوق طاقتها. تدريب الأحزاب المنافسة تعيين لتدريب جميع المعلمات طبقة.

    لاستيعاب FPGA نقطة ثابتة، جميع المعلمات التدريب بعد الانتهاء، والكم جميع المعلمات التشغيل. وكميا الفريق سيضم الخريطة وشبكة المعلمات كنقطة 8bit. عملية تكميم في الخطوات التالية: 1) جنبا إلى جنب BN طبقة إلى المعلمة؛ 2) المعلمات من تكميم متماثل جنبا إلى جنب، تهذيب المعلمات المطلوبة 3) حاليا تكميم الانتهاء. الشكل التالي يبين عملية تكميم التخطيطي.

    معلمات الشبكة عملية تكميم

    بعد تكميم، وعدد من الطبقات ومن ثم النهائية طبقة الشبكة التفاف ShuffleDet حوالي 74، الوزن حوالي 1.94MB، التحيز هو حول 78KB. وكانت الدقة الكاملة قبل دقة تكميم 67.1، وكانت دقة 61.5 بعد تكميم، ودقة تكميم العملية الناجمة عن فقدان 5.6.

    • حول HiPU

    1) لمحة العام

    منذ شيان معهد الذكاء الاصطناعي وفريق الروبوتات في المقام الأول لنقل محددة الدوائر المتكاملة (بتر) التصميم، والتصميم على FPGA لتحقيق وظيفتها الرئيسية هي للتحقق، وبالتالي، لمنصة الحوسبة التي تقدمها السباق، ونحن بحاجة إلى أن تكون HiPU قطع المناسب لتناسب ZU3 الموارد. يظهر الرسم البياني كتلة من تصميم HiPU قلص، وخصائصه كما هو مبين أدناه. HiPU 233MHz العمل، ذروة قوة يحسب 268Gops، واستخدام C / RISC-V واجهة برمجة المجمع، وكفاءة التفاف أكثر من 80 في المتوسط.

    رسم بياني للHiPU مميزة

    NN HiPU دعم عمليات مشتركة مختلفة، بما في ذلك: CONV، FC، CONV إقلاع الحكيم، تجميع، ايلى الحكيم إضافة / مول عمليات أخرى. FC التي يمكن أن تفعل الحسابية على مقربة الكفاءة إلى 100.

    HiPU قناة الاتجاه دعما للخلط، والانقسام، عملية CONCAT. عندما تكون هذه العمليات على الفور بعد عمليات التفاف، ويمكن الجمع في الأجهزة، فإنه لا تستهلك وقتا إضافيا.

    HiPU يمكن أن تعمل على أي نوع من XILINX FPGA سبيل المثال لا الحصر Zynq الهندسة المعمارية.

    HiPU الكامنة وراء عمليات مصفوفة التنفيذ، وعمليات ناقلات والعمليات العددية. في حالة جدولة جيدة، وأنها يمكن أن تدعم أي نوع من الحوسبة المتوازية. سوف يكون في المستقبل لتحسين عمليات مصفوفة متفرق لدعم عملية DeCONV فعالة، خريطة ميزة الأمثل متفرق.

    2) تحليل HiPU نقطة الأمثل - عن طريق الحد من عرض النطاق الترددي اللازم لالمشتركة بين طبقة سلسلة DDR

    HiPU الأداء تصميم جانبين مهمين: جانب واحد هو استخدام MAC وحدة حسابية، سواء قد تكون هناك حاجة إلى شبكة نقل البيانات لمطابقة البيانات MAC. حيث القيود شبكة نقل البيانات في الغالب من واجهة DDR. هو الأمثل لهذا التصميم واجهات DDR.

    ونظرا لضيق حجم في SRAM HiPU، خريطة واحدة ميزة لا يمكن أن يكون كليا على البيانات HiPU في SRAM. يتم احتساب الترتيب باستخدام الحاجة المعتادة على الخريطة يتم إرجاع كل طبقة من نتيجة ميزة حساب لذكرى DDR. وبهذه الطريقة يحتاج كل طبقة خريطة ميزة البيانات لزيارة متطلبات عرض النطاق الترددي DDR، DDR كبيرة جدا، سوف تستهلك طاقة إضافية

    فريق DDR يقلل من متطلبات عرض النطاق الترددي عن طريق المشتركة بين طبقة تتالي. بعد عنق الزجاجة على أنها قطع لShuffleNet، يقرأ خط من DDR خريطة ميزة من مساهمة كل من عنق الزجاجة، وحساب كامل لجميع طبقات بالتتابع، سطر واحد قبل الإخراج من الخريطة ميزة DDR الكتابة الظهر. عندما تحسب بالتسلسل كافة الصفوف. حساب النظام كما هو موضح البينية وحدة C تتالي.

    يتم حساب الوحدة-C باستخدام البينية تتالي

    3) تحليل HiPU نقطة الأمثل - لتعزيز شكل صورة مدخلات كفاءة التصنيع تحويل

    وبالتوازي حساب قناة المدخلات HiPU 8. ومع ذلك، فقط أول إدخال صورة شبكة طبقة RGB ثلاث قنوات، مما أدى إلى HiPU الكفاءة الحاسوبية فقط 3/8. لذلك، صمم فريقنا مدخلا الصورة لوحدة التحويل. إذا كان نواة عرض Conv1 من 3، ثم قناة مدخلات صورة توسعت 3-9. كفاءة المعالجة النهائية بحيث الطبقة الأولى هي 0،38-0،56 الترقية، التخطيطي المتحولين هو مبين أدناه.

    التحويل على الصورة المدخلة في الاتجاه التوالي

    • الأمثل تصميم وتحليل النظام

    1) صورة فك التفاف الشبكة العصبية الموازاة الحوسبة

    منذ HiPU تعتمد فقط على الجانب موارد يمكن PL Zynq تصميم، يمكن الموارد الجانب PS فارغة من الأعمال ذات الصلة به نظام IO. لدينا فريق أثناء معالجة العملية الصورة الحالية الكشف عن والجلب المسبق وفك الجانب PS في الصورة التالية، وتجهيز درجة التوازي، وبالتالي تحسين معدل الإطار العام كشف من 30.3Hz إلى 50.9Hz.

    كما هو مبين أدناه صورة فك التلافيف الشبكة العصبية الموازاة FIG.

    قبل (أ) العمل الموازي

    بعد سير العمل (ب) بشكل متوازي

    الصورة فك التلافيف الشبكة العصبية بشكل متوازي التخطيطي

    2) رمز C الجانب تسارع الأصلي بيثون كود PS

    أعيد بناؤها C الجانب كود PS العملية، واستخدام C ctypes رمز واجهة المكالمات تستغرق وقتا طويلا بناؤها الإطار في Pynq: 1) المحسوبة سابقا في الجانب البيانات عنوان مؤشر PL وBBOX الثقة الإحداثيات؛ 2) العثور على أكبر وما يقابلها من الإحداثيات الثقة BBOX، وبحساب الإحداثيات المطلقة والإحداثيات النسبية.

    3) المعزولة على مدار الساعة للحد من استهلاك الطاقة PL الجانب

    من أجل الحد من نظام استهلاك الطاقة، وعلى مدار الساعة النابضة استراتيجية التصميم. عندما HiPU الانتهاء تحسب تلقائيا عند صورة من الساعة، الصورة التالية تبدأ تنشط عندما الساعة مرة أخرى. يقع هذا إستراتيجية تعتمد على سببين التاليين:

    أولا، لم يتم إصلاح نظام حلالا شكل JPG الوقت الصورة، عندما بطاقة SD عندما لم يتم إصلاح النموذج، ومتوسط بين 7ms-12ms، جزء من الصورة للوصول إلى 100MS حلالا أقصى وقت.

    وثانيا، فإن عملية قياس استهلاك الطاقة للنظام وغيرها من النفقات العامة تحتل جزءا من الوقت وحدة المعالجة المركزية، وPS وPL DDR مشتركة عرض النطاق الترددي، مما أدى إلى HiPU 166Mhz عندما يصل معدل الإطار حول 50HZ، ولكن مرتفعة HiPU إلى 200MHZ، ونظام بقي تجهيز معدل الإطار في 50HZ.

    المذكورة أعلاه سببان HiPU وقت المعالجة وصور الحياة السياسية في فرنسا حلالا مطابقة الوقت تصبح ثابتة، وعندما يحين الوقت قصير HiPU الوقت معالجة الصور من الحل صورة الفرز، وسوف يكون HiPU "عدم نقل" مضيعة للطاقة. وبالإضافة إلى ذلك، من أجل قضية للاستيلاء على DDR احتياجات عرض النطاق الترددي تواصل الأمثل.

    4

    نتيجة

    المجموع العالمي من 58 فرق وقعت للقيام بهذه المهمة سباق FPGA، هناك 11 فرق المقدمة تصميم (معدل النهاية من 19). بطل iSmart3، قام فريق مشترك من UIUC، IBM، شركة أحيا تقنيات عمليات، الوصيفة لXJTU-Tripler، والذكاء الاصطناعي من جامعة شيان جياوتونغ ومعهد تصميم الروبوتات، المركز الثالث هو SystemsETHZ، من فريق ETH زيورخ.

    الذي، XJTU-Tripler هو الفريق الوحيد في استخدام فيريلوج، بدلا من تصميم HLS فريق الحائز على جائزة. بسبب عالية الأداء تصميم DNN مسرع لها، العصبي حجم الشبكة هو أيضا الأكبر من استخدامه. نتائج السباق النهائية على النحو التالي:

    DAC19 نظام التصنيف مسابقة التصميم

    الموارد مقارنة

    نفس الخوارزمية على أيضا تم نشر منصة ShuffleDet TX2، والجدول التالي مقارنة بين التحليلين. يمكن أن ينظر إليه بعد 8bits تحديد تسبب 5.6 من آيو الخسارة المطلقة (-8.3)، ولكن جلبت تحسين 28.87 معدل الإطار (+ 131) وانخفاض في استهلاك الطاقة 8309J (-46.56).

    مقارنة الأداء ShuffleDet في منصة Ultra96 FPGA وTX2

    مزيد من التفاصيل حول DAC 2019، يرجى زيارة الموقع:

    https://www.dac.com/content/2019-system-design-contest

    2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات

    2019 نيان 12-14 يوليو ، ينظمه اتحاد عموم الصين للكمبيوتر (CCF)، شبكة لى فنغ وجامعة هونغ كونغ الصينية في رعاية (شنتشن)، وشنتشن، الذكاء الاصطناعي، ومعهد بحوث الروبوتات لشركة 2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات (يشار إلى أن CCF-GAIR 2019) وشنتشن يكون الستار رسميا.

    بحلول ذلك الوقت، الحائز على جائزة نوبل JamesJ. هيكمان، أكاديمي أجنبي، رئيس القمة العالمية، المعروفة زميل، وعدد من الضيوف في الوزن الثقيل سوف شخصيا Zuozhen ، لمناقشة الذكاء الاصطناعي والمجال المعقد من الوضع الروبوتات البقاء على قيد الحياة والإنتاج والاستثمار وهلم جرا.

    انقر على قراءة النص الأصلي عرض: تعلم الآلة كيفية قمع السلوك التمييزي من المنبع؟ أحدث نتائج مختبر ستانفورد AI يعطي الجواب

    لا الأسلاك، وعمر البطارية الطويل: أبيض الذكية نسخة بطارية الكاميرا (التقييم)

    "بلدي الرجل الأسرة" فنون الدفاع عن النفس التي يرجع تاريخها شينغ فاي طلبت صديقته السابقة تشن Xiaotong الخلط للعثور على التخييم عناق

    دوائر | راء بيرت وGPT، مايكروسوفت للبحوث آسيا، والمصدر المفتوح نموذج جديد MASS

    190614 الولايات المتحدة شريط استوديو تجمع الحمى وفقا لمعظم الصيف مغر بارد فتاة

    كنت المتحمسين الرقمية المبتدئين، وهذا هو بلدي 2019 "الأيدي قائمة ختم"

    حول WF-1000XM3 والمهندسين سوني يخبرنا

    "ضعفي" "مشاركة" 190614 تأخير ثابتة أيضا قبالة! مطار إنتشون بعد ظهر هذا اليوم المغادرة إلى تايلاند

    ضد الولايات المتحدة للصين لزيادة الضرائب على عقود لمحاربة صناعة الألعاب الثلاثة الكبار تعاونت فعليا

    يجب أن تستخدم عمق لمكافأة مشروع تعزيز التعلم ذلك؟ معهد بيركلي لمنظمة العفو الدولية: لا حاجة

    تخدم 190 محطة 614 لي Madou T كل مراجعة أسلوب مفضل

    190614 لي يي فنغ بكين وتشنغدو العودة إلى مجهولي الهوية بدءا أحمر نابضة بالحياة المدرسية التي تنتشر فيها الحشائش

    قناة الصغرى صديق دائرة المرأة لعنة الشعب زلزال تشانغنينغ: اعتقل عشرة أيام