تعظيم الاستفادة من تشذيب الشبكة العصبية التفاف العميق

نشأت دراسة متعمقة في الشبكات العصبية الاصطناعية، وبعد LECUN Y يعرض التفاف الشبكة العصبية LeNet 5 ، للاعتراف الأرقام مكتوبة بخط اليد، وحققت نتائج جيدة، ولكن لم تثير الاهتمام الكافي. ثم يلاحظ BP خوارزمية مشاكل التدرج يختفي، عندما ظهر انتشار الشبكة، وينتقل التدرج من الخطأ إلى الجزء الأمامي من طبقة الشبكة قريبة إلى حد كبير إلى الصفر، مما أدى إلى التعلم الفعال لا يمكن أن يؤديها. في عام 2006 اقترح HINTON G E شبكة متعددة الطبقات الخفية يمكن التغلب على عمق الشبكة العصبية تدرب على يد طبقة بعد طبقة على ما قبل التدريب ، تليها التعلم العميق إيذانا ببدء فترة من التطور السريع. ولا تزال بعض الهياكل شبكة جديدة لتقديمها (مثل AlexNet، VGGNet، GoogleNet، ResNet، وما إلى ذلك)، وهيكل الشبكة يستمر الأمثل، وتحسين الأداء، والتعرف على الصور يمكن استخدامها لتحقيق نتائج جيدة. ومع ذلك، فإن معظم هذه الشبكات الحصول على مزيد من طبقة الشبكة، والقدرة على معالجة الصور على جهاز كمبيوتر تطالب، تتطلب المزيد من الموارد الحاسوبية، واستخدام العام من أفضل GPU لزيادة سرعة التدريب لا يفضي إلى الموارد المعدنية (ذاكرة والمعالج، تخزين) أقل تشغيل المعدات، والقيود.

عمق المرحلة الحالية من تطوير التعليم، والتي يمكن أن تنقسم إلى اتجاهين البحث: (1) تصميم هيكل الشبكة المعقدة، لتحسين أداء الشبكة؛ (2) من ضغط نموذج الشبكة للحد من التعقيد الحسابي. في ستناقش الحالة الثانية من هذا القانون، والتكرار في إزالة المعلمات نموذج لتقليل كمية الحسابية، وزيادة سرعة الجري.

في الوقت الحاضر، العديد من الشبكات لديها بنية أكثر تعقيدا، وهناك الكثير من العوامل التي أدت إلى نموذج شبكة زائدة عن الحاجة، وزيادة التعقيد الحسابي، مما أدى إلى إهدار غير ضروري للموارد الحوسبة. نموذج ضغط لديه البحوث العامة التالية: (1) تصميم هيكل الشبكة أدق، بحيث أداء أكثر بساطة وكفاءة الشبكة، مثل شبكة MobileNet ، (2) قطع نموذج، وهيكل أكثر تعقيدا أكثر هناك الكثير من المعلمات شبكة زائدة عن الحاجة، فمن الممكن أن نجد وسيلة فعالة لتقييم المحاصيل نموذج المدربين؛ (3) من أجل الحفاظ على دقة البيانات، العام الصحيح شبكة مشتركة وزن النموذج، وعادة 32 بت حفظه ك طول نوع تعويم، مما يزيد بشكل كبير من التعقيد الحسابي وتخزين البيانات. وبالتالي، قد يكون الكم البيانات أو ثنائي، أو عن طريق binarizing البيانات الكم وبالتالي تخزين البيانات تقلص إلى حد كبير. وبالإضافة إلى ذلك، التنوي يمكن أيضا أن تكون ضعيفة خارج الأساسية الإلتواء، وجزء من نواة الالتواء الناجم إلى 0، وبالتالي تقليل كمية من حساب .

وتركز هذه الورقة على الطريقة الثانية، ونموذج لتشذيب، عن طريق خفض المعلمات الوزن عديمة الفائدة لتقليل كمية من الحساب.

الشبكة العصبية 1 CNN الإلتواء

الشبكة العصبية التلافيف هي شبكة feedforward، وهيكل طبقة الشبكة من الالتواء، طبقة المجمعة، وطبقات مرتبطة ارتباطا كاملا . طبقة تأثير الإلتواء تستخرج ملامح من طبقة المدخلات من FIG، A مجموعة التدريب الذي يتلقاه.:

في وقت لاحق إضافة طبقة طبقة التفاف عادة المجمعة، وتسمى أيضا الاختزال تجميع، يمكن استخدام طبقة تجميع للحد من مصفوفة خطوط العرض المدخلات، والسمات البارزة لحفظها، مجمعة في برك والحد الأقصى للمتوسط تجميع ، أي بركة أقصى مصفوفة إعطاء أقصى قدر من المنطقة المجاورة. طبقة لها تأثير في خفض حجم الخلية والتكرار شبكة المعلمات.

2 التلافيف شبكة تقليم العصبي

2.1 نموذج وسيلة ضغط

هذه المقالة نموذج تقليم مع الطرق التالية: (1) أول من استخدم هذه الطريقة لنقل التعلم التدريب الشبكة، ومن ثم صقل الشبكة، وتقارب الشبكات والأمثل، يوفر هذا النموذج، (2) لحفظ تقليم النموذج، وتدريب مرة أخرى ، المعلمات نموذج قلص من خلال التدريب صقل، لذلك مرارا وتكرارا، حتى لا يمكن اكتشافها عن نواة قطع الإلتواء، (3) على غرار السابق تدريب خطوة قطع مرة أخرى حتى وصل عدد يصل إلى معايير التدريب مجموعة حتى الآن. عملية محددة هو مبين في الشكل 2.

تدفق معالجة أعلاه هو بسيط نسبيا، ويتم التركيز كيف نحكم على أهمية الخلايا العصبية نموذج الشبكة. في هذه الورقة، وقيمة الدالة C (W) كأداة للحكم على أهمية. لمجموعة البيانات D، نموذج الشبكة التي تم الحصول عليها بعد التدريب النموذجي، حيث عامل الوزن:

تقدير 2.2 المعلمة

تقييم معلمات الشبكة له دور مهم جدا في ضغط نموذج. يستخدم الأسلوب التالي عموما أنه بمقارنة حجم عدد L2 المعلمة القاعدة الترجيح، حذف القاعدة L2 أصغر التفاف . وبالإضافة إلى ذلك، يمكن أيضا أن يتم على طريقة للخروج من تفعيل المعلمات تقييم التحقق، مجموعة البيانات قبل نشر من خلال الشبكة، إلى عقدة الشبكة، إذا قيمة وظيفة تفعيل كبير حصلت عليها 0 أو أقل من قيمة عتبة معينة، يتم تجاهلها.

2.2.1 تقليل القاعدة L2

3 النتائج

3.1 التدريب وتشذيب النتائج

تجارب على تصميم الخادم عالية الأداء في نظام Ubuntu16.04، ومجهزة الرسومات 1080Ti، واستخدام Pytorch إطار التعلم العميق للتدريب والاختبار. الاستخدامات تصميم VGG16 شبكة من 16 فئة من العقبات على الطرق المشتركة صورة من التدريب، والتي ركزت على مجموعة التدريب البيانات من 24،000 الصور، 12000 مجموعة التدريب من الصور. 16 VGG16 شبكة التلافيف في طبقة الشبكة، 4224 الإلتواء النواة. يستخدم أسلوب التدريب الهجرة التعلم مجموعة العصر وحتى 30، ونتائج التدريب كما هو مبين في الشكل.

3 يشير إلى دقة التدريب، والمحور الأفقي يمثل عدد التكرارات، وتدريب معدل دقة النهائي من 97.97.

حفظ المعلمات التدريبية السابقة للنموذج، تشذيب لها، تقليم لهم 5 مرات، والحد الأدنى وتصفية لأول مرة طبقة الشبكة لتكون قلصت وفقا لL2 نواة القاعدة الإلتواء، وإزالة كل التفاف 512 النووي، وقلص عدد نموذج للنواة التفاف المتبقية كما هو مبين في الشكل.

4 ويمثل المحور الرأسي عدد نموذج التفاف الاحتفاظ، بانخفاض من الأولي 42241664، ومعدل 60.6 اقتصاص. دقة بعد 5 تكرارات الانتهازي هو مبين في الشكل.

شبكة إعادة التدريب قلص للحصول على عملية التدريب نموذج تقليم النهائية كما هو مبين في الشكل.

وأخيرا، 98.7 معدل دقة. التقليم قبل السريرية حجم النموذج هو 512 MB، يمكن تخفيض تشذيب النموذج إلى 162 MB، يتم تقليل أثر الذاكرة نموذج 68.35.

اختبار زرع تحت 3.2 منصة جزءا لا يتجزأ من

في منصة جزءا لا يتجزأ من زرع التوت بي نوع B 3 الجيل Pytorch الإطار، بعث 3B التوت أربعة إلى 1.2 غيغاهرتز BCM283764 بت المعالج ARM A53 النواة، 1 GB من الذاكرة لتشغيل على متن BCM43143WiFi. نظرا لمحدودية التوت بي نفاد الذاكرة، وارتفعت إلى 2 GB المبادلة الذاكرة الظاهرية، شفرة المصدر لتجميع إطار Pytorch. استدار نموذج شبكة المدربين إلى منصة خادم جزءا لا يتجزأ من على GPU، اختباره. 123 للكشف عن تصنيف الصور اختبار قبل تحميل القطع النموذج الأصلي، عند استخدام 109.47 الصورة، 95.08 معدل دقة. نموذج تحميل بعد التقليم، نفس الصورة من 123 اختبار، 41.85 ثانية، معدل دقة 96.72 عند استخدامها. النتائج هو مبين في الشكل 7، يمكن أن ينظر إليه على الجزء الخلفي من الوقت نموذج لقطة بنسبة 61، وقد تم تحسين سرعة إلى حد كبير.

4 خاتمة

حاليا التعلم العميق هو البحث الساخنة، وحققت نجاحا غير مسبوق في كشف صورة، تصنيف، التعرف على الكلام، وما إلى ذلك، ولكن هذه تعتمد على الأداء العالي الكمبيوتر رفيعة المستوى، كانت هناك مجموعة متنوعة من إطار التعلم العميق ونموذج الشبكة، ولكن ومن تطوير المتوقعة من التعلم العميق هي على وشك الدخول في مرحلة لطيف، إذا لم يكن هناك مجموعة واسعة من التطبيقات، وسيتم قريبا تقطعت بهم السبل في تطوير التعليم عميق. في الواقع، ويتم استخدامها في منصات جزءا لا يتجزأ سيكون تطور جيد للغاية. وأعتقد أن مستقبل دراسة متعمقة جزءا لا يتجزأ في مجال سيكون هناك اختراق أكبر، المنتشرة في منصات متحركة لن يكون مشكلة.

مراجع

LECUN Y، BOTTOU L، BENGIO Y، وآخرون al.Gradient المستندة إلى التعلم تطبيقها على الاعتراف وثيقة .Proceedings من IEEE، 1998،86 (11): 2278-2324.

HINTON G E، SALAKHUTDINOV R R.Reducing على أبعاد البيانات مع الشبكات العصبية .Science، 2006.313 (5786): 504-507.

HOWARD A G، M زو، تشن B، al.MobileNets آخرون: الشبكات العصبية التلافيف فعالة لتطبيقات الرؤية المحمول .arXiv ورقة أرخايف: 1704.04861،2017.

HAN S، H MAO، دالي W J.Deep الضغط: ضغط الشبكات العصبية العميقة مع تشذيب وتدريبهم تكميم وهوفمان الترميز .Fiber، 2015،56 (4): 3-7.

ملخص البحث التفاف الشبكة العصبية Zhoufei يان جيلين بينغ دونغ يونيو مجلة الكمبيوتر، 2017،40 (6): 1229-1251.

ANWAR S، K HWANG، سونغ W، وآخرون al.Structured تشذيب الشبكات العصبية العميقة التلافيف .JETC، 2017،13 (3): 1-18.

AYINDE B O، ZURADA J M.Building ConvNets كفاءة استخدام زائدة تقليم ميزة .arXiv ورقة أرخايف: 1802.07653،2018.

LI H، KADAV A، DURDANOVIC I، وآخرون مرشحات al.Pruning لConvNets كفاءة .ICLR 2017،2017.

الكاتب المعلومات:

Mazhi نان 1 و 2 هان Yunjie، بنغ يو لين 1، زو جين فان 1، لين فو تشون 1، LIU يو هونغ 1

(مدرسة البيانات الكبيرة وهندسة المعلومات، جامعة قويتشو، قوييانغ 550025، الصين؛ 2. معهد قوييانغ تقنية المعلومات، قوييانغ 550081)

طريق الحرير

تعظيم الاستفادة من تشذيب الشبكة العصبية التفاف العميق

"الشجعان لعبة،" جونسون الغابة إشعار الصالة الرياضية العد التنازلي عن سقوط الحرب مستخدمى الانترنت "مضحك"

استنادا FPGA-الغازية نظام الحصول على البيانات

نظرة على النسخة اليابانية من AR صنع لاعب "مسكون لويجي البيت" مع لبو

تحديث آفاق جديدة مستقلة! العائلة لماذا CS تشانغ مع الملايين من جميع الأعمار

السوق الفترة عقلانية، واتجاهات السوق العقاري ويست إند بيع ما؟

فيلم "السيدة الأولى" لاحظ النهائي من التعرض، "اغتيال كينيدي،" معرض البيت الأبيض في سميكة من و

الكلام صحيحا: ROEWE I60.25Cd منخفضة للغاية مقاومة الرياح هو في الواقع "تفجير"!

أعلنت جزيرة جوز الهند الجديد "الألعاب أسطورة": العالم مدين لك بطولة

"صناعة بقعة ساخنة" من مستقرة MEIZU! تشوهاى دعم التمويل الحكومي

"القطب الجنوبي الحب" وراء السجل، ناقص 90 درجة تشاو المحاصرين السفينة أربعة أيام لكسر الجليد الطافي الهبوط النهائي

ذاكرة حنون من أبطال الحرب تأجلت الصداقة الراسخة تشي تشانغشا إدارة شرطة السكك الحديدية للقيام بأنشطة لتحية دفع لشهداء

لشراء هذه السيارات، والدتي لم يعد لدينا ما يدعو للقلق حول عدم التخلص منه رقم

اجتمع خبراء! "الحي الصيني هولمز 2" يتعرض "العالم المخبر الشهير" مقطورة

كيا التكبير ثم خدعة! دفع سيارة صغيرة اختياري التكوين تصميم عبر الحدود للشباب

أقل من 2000 يوان، وقال انه كان على كنز كامل من مجموعة من المعدات لمحطة شبه قاعدة

الاستجابة لمطالب مستخدمي الإنترنت في جميع أنحاء مارس 7171 مرات | الأحمر صافي العمل الجماعي البيانات الكبيرة على الانترنت

هناك CCTV المسرح الكبير في تشونغتشينغ تثبيت، بالإضافة إلى المناظر الجبلية بالقلق أيضا حول مختلف المشاكل النفسية المدينة الحالية

وقد تم الآن إضافة SLG نسخة الأفقي للRPG "مخطوطات سحرية" الصينية الرسمية

الليثيوم حالة البطارية التقييم تهمة وطريقة المحاكاة على أساس IRVM

7 SUV بنسبة 17 تكوين 110000 هذه السيارة الأسعار لا تتخلى عن الزعيم التقليدي في سوق الطاقة الجديدة

وبناء على مراقبة الوضع باك دفعة الجهد موازن لا يتجزأ مزدوج الانزلاق

ليس فقط الدخن 9؟ كما أعلنت الجسم الحي دون العلامة التجارية iQOO شياو 855 طائرة جديدة

الأحكام ذات الصلة