طريقة تصنيف الصور بناء على عمق التعلم

0 مقدمة

مع التطور السريع لتقنيات الإنترنت والوسائط المتعددة، فقد أظهرت بيانات الصور النمو الهائل، صورة ضخمة لكيفية تصنيف واسترجاع كفاءة أصبح تحديا جديدا. ويستند تصنيف الصور استرجاع الصور، الكشف عن وجوه وتطبيق الاعتراف، أيضا نمط الاعتراف التركيز على البحوث وتعلم الآلة.

التعلم العميق هو طريقة لوصف البيانات التعلم ، نشأت في الشبكات العصبية، ظلت لعقود طويلة، ولكن التطور البطيء. حتى عام 2012، HOMTPM G وفريقه حقق نتائج ممتازة في سباق ImageNet التعرف على الصور كبير للغاية، و26 نسبة الخطأ أعلى 5 الى 15، من عمق التعلم جذب المزيد والمزيد من الباحثين قلق، دخلت مرحلة التطور السريع.

تقنيات التعلم عمق في عملية تدريب نموذج الشبكة العصبية في كثير من الأحيان يسبب مشاكل زيارتها المناسب. ما يسمى الإفراط في تركيب (Overfitting)، الرجوع إلى تدريب مجموعة نموذج بيانات تناسب بشكل جيد جدا، لكنها لم تدرس مجموعة البيانات ليس مناسبا، والقدرة على تعميم ضعيفة، وهذا هو تأثير العينة المدروسة من كذلك، وسعت إلى مظاهر أكثر عمومية، أكثر عالمية عينة ليست جيدة.

في هذه الورقة، والعصبية شيوعا نموذج الشبكة على مدار المناسب-مشاكل، وسوف تؤثر على الطريقة التي تم تحليلها وتجمعات مختلفة من تصنيف الصور بالمقارنة مع الشبكة العصبية التفاف المقترحة باستخدام نوع واحد من تداخل تجمع والتكنولوجيا التسرب لتخفيف إلى حد ما، مشكلة الإفراط في تركيب، وقادرة على الاستجابة لبيئة بيانات أكثر تعقيدا.

الشبكة العصبية 1 الإلتواء

الشبكة العصبية التلافيف (التلافيف الشبكات العصبية، CNN) هي واحدة من طراز شبكة التعلم عمق الأكثر استخداما لتحليل الصوت، والتعرف على الصور وغيرها من المجالات المستخدمة على نطاق واسع. الشبكة العصبية التقليدية كبيرة ومرتبطة ارتباطا كاملا لعدد من المعلمات، أو حتى ممارسة التدريب الصعبة، في حين ألهم التفاف الشبكة العصبية التي كتبها الشبكات العصبية البيولوجية الحديثة، متصلة بواسطة المحلي تستغرق وقتا طويلا، ونهج تقاسم الوزن يقلل من تعقيد النموذج، وخفض الوزن عدد، والحد من صعوبة التدريب.

1.1 الإلتواء استخراج ميزة

الصورة هي في الواقع التفاف المكاني خطي تصفية الصورة، مجال التردد تصفية هذه الأساليب التحليلية المشتركة، صورة تصفية المكانية وغالبا ما تستخدم لتحسين الصورة. تصفية مع مرشح هو التفاف نواة الالتواء، وعادة الجوار، مثل حجم 3 3 مصفوفة.

عملية التفاف هي نواة الالتواء والعناصر بضرب بالتسلسل بكسل في الصورة المقابلة لمبلغ قيمة بكسل الجديد التفاف، ثم يتم ترجمة نواة التفاف على الصورة الأصلية، ومواصلة حساب القيم بكسل الجديدة، ويغطي الصورة بأكملها. عملية الالتواء هو مبين في الشكل (1).

FIG 1 هو عملية التفاف يتجاهل المدى التحيز، وحجم الصورة المدخلة هو 5 5، وحجم التفاف النواة هو 3 3، وحجم الانتاج convolved هو 3 3. هو التفاف نواة يبدأ عملية التشغيل محددة من أعلى الزاوية اليسرى من الصورة المدخلة هو الجمع الخطي، ثم نقلت بعد بكسل واحد إلى اليمين حتى أقصى اليمين، ثم ينتقل إلى أسفل بمقدار بكسل واحد، بالتتابع، يمكن الحصول على حجم انتاج المنتج. إذا كنت تريد نفس المدخلات والمخرجات الأحجام، يمكنك ملء الدائرة "0" إلى حجم 7 7 حول الصورة الأصلية، ومن ثم يؤدي التفاف العملية يمكن.

على الرغم من أن تأثير عملية التفاف بسيط جدا، ولكن يمكن أن تنتج العديد من الآثار المختلفة اعتمادا على التفاف صورة التحقق. عملية وصفها أعلاه هي في الأساس تأثير التفاف المرتبطة الصارم التفاف معالجة الصور مختلفة قليلا، بدقة التفاف إلى التفاف نواة يتطلب 180 درجة دوران أولا ثم يقوم بإجراء عملية الارتباط.

Convolving عملية صورة، في الواقع، هو صورة استخراج الميزة، يمكن للصورة التفاف قضاء على تأثير دوران والترجمة والتحجيم لجلب . طبقة التفاف جيدة خاصة في بيانات الصورة ميزة المستخرجة، ويمكن للطبقات مختلفة استخراج ميزات مختلفة.

خصائص العصبية ميزة شبكة طبقة استخراج التلافيف بعد طبقة، وميزة استخراج طبقة الأولى أقل نسبيا، ما زالت لاستخراج الطبقة الثانية يتميز مستوى أعلى على أساس من الطبقة الأولى، وبالمثل، طبقة القاعدة الثانية من الطبقة الثالثة الميزات المستخرجة هي أيضا أكثر تعقيدا. الميزات الأكثر تقدما أكثر قدرة على تجسيد صورة سمة فئة، والالتواء الشبكة العصبية هو بالضبط استخراج ملامح طبقة صورة ممتازة بعد طبقة عن طريق الالتواء.

تجميع 1.2 الاختزال

بعد ينتج التفاف صورة عدد وافر من خريطة الميزة، ولكن ملامح الصورة الأصلية من حجم FIG لم تتغير مقارنة مع كمية البيانات لا يزال كبيرا، فإن المبلغ من حساب يكون كبيرا، من أجل تبسيط الحساب، وغالبا ما تقوم خصائص FIG في أخذ العينات. اتخذت المجمعة الشبكة العصبية التلافيف (تجميع) بطريقة الاختزال، ومجموعة مشتركة من طريقتين: قيمة الحد الأقصى من تجمع (MaxPooling) والمتوسط المجمعة (AvgPooling)، وحمامات اثنين من العملية هو مبين في الشكل 2 العروض.

في الشكل 2، حجم الإطار هو 2 2، الخطوة 2. يتم تحديد قيمة الحد الأقصى ضمن مجموعة من أربعة بكسل من النافذة التي تغطي أكبر قيمة عينة كقيمة بكسل، تجميع المتوسط هو في المتوسط أربعة بكسل ضمن إطار يتم احتساب كل مرة يتحرك نافذة اثنين بكسل إلى اليمين أو إلى الأسفل المسافة، حيث 4 4 بعد تجميع حجم FIG تصبح 2 2.

تم تصميم نموذج 2 CNN لتصنيف الصور

إشارة كتلة VGGNet هنا تلفيفي أفكار وتصميم، نموذج الشبكة العصبية التلافيف، وطبقة التفاف انضمت طبقات مرتبطة ارتباطا كاملا طبقة التسرب، overfitting خفف إلى حد ما، وأيضا على طريق تجمع مختلف وجرى تحليل تأثير تجميع نافذة على تصنيف النتائج ومقارنتها.

2.1 أساس هندسة الشبكات العصبية

يظهر نموذج الشبكة في الجدول 1، ما مجموعه 11 طبقات تتألف من أربع طبقات الإلتواء، وتجميع طبقة 3، يتضمن ثلاثة أجزاء. أولا، الطبقة الأولى هي طبقة المدخلات، ومجموعة البيانات المستخدمة هنا، و 10 نوعا من الصور الملونة هو حجم 32 32، مساحة اللون RGB، وحجم طبقة المدخلات هو 32 32 3. ويضم الجزء الأول طبقتين وحمامات طبقة التفاف 2، حيث عدد الطبقات في FIG 2 الإلتواء 32؛ ويتضمن الجزء الثاني طبقتين ومجمعة طبقة الإلتواء، حيث الملتوية طبقتين FIG 64 غير، يتم توصيل جزء كثيفة على الطبقة الثالثة، أي طبقة اتصال كاملة، الطبقة الأولى 512 هو اتصال الكاملة على الخلايا العصبية طبقة، هي الطبقة الثانية 10، أي، مقسمة إلى 10 فئات، ثم الانحدار باستخدام Softmax التصنيف. الجدول 1 التحويل (3،3) -32 ممثل طبقة هي طبقة من الالتواء، وحجم التفاف النواة هو 3 3 وتتميز في FIG 32؛. MaxPool (2،2) هو الحد الأقصى للتجمع، ونافذة حجم 2 2، FC-512 ويعني أن طبقة متصل تماما طبقات، 152 هو عدد الخلايا العصبية.

2.2 تحليل مشاكل

ويستخدم هذا النموذج لCIFAR 10 مجموعة بيانات الاختبار التجريبي، على سبيل المثال، وهي جزء من العينة 3 كما هو مبين في الشكل.

استخدام CIFAR 10 ملزمة Rmsprop الأمثل بيانات تدريب الشبكة، كل مجموعة تدريب الصور التدريب على مدى فترة (عصر). بعد 100 دورات التدريب، والتغييرات دقة عملية التدريب كما هو مبين في الشكل.

خلال وسيتم احتساب مدة التدريب لكل دقة بيانات التدريب ومجموعة بيانات الاختبار، ويمكن أن ينظر إليه قبل 40 دورة، ودقة مجموعة اختبار جنبا إلى جنب مع زيادة في دقة مجموعة التدريب، عند أول 40 دورة 0.74، وبعد تدريب مجموعة من معدل دقة في ارتفاع مستمر، ودقة مجموعة اختبار ليرتفع صغيرة جدا، وهناك تقلبات طفيفة، وبعد 70 دورات، ومجموعة التدريب دقيق ما زال مستمرا في الارتفاع، في حين بقي معدل دقة اختبار مجموعة مستقرة، وتغير صغيرة. فقدان وظيفة التدريب كما هو مبين في الشكل.

ويمكن أيضا أن ينظر إليه من FIG 5، في بداية المجموعة اختبار مع فقدان القيم تنخفض مع مجموعة التدريب، كما تم الحفاظ على قيمة اختبار مجموعة من الخسارة بعد 40 دورة يتقلب بين 0،72-0،75، وقيمة الخسائر في مجموعة التدريب الاتجاه النزولي، وأسفل دورة 80 إلى 0.50، وأخيرا انخفض إلى 0.42. يتغير فقدان الوظيفة أيضا نموذج من الجانب أكد ظهور مشكلة أكثر خطورة من خلال تركيب.

3 اقتراح نموذج ورقة

استخدام تداخل تجميع يمكن أن تخفف من مشكلة الإفراط في تركيب واستخدام تسوية يمكن أيضا حل مشكلة الإفراط في تركيب. HINTON G E تقنية التسرب المقترحة في عام 2012 ، قد تحسنت إلى حد كبير لoverfitting الشبكة العصبية. ويشير الانقطاع في عملية تدريب الشبكة وفقا لنسبة معينة من الخلايا العصبية التخلص عشوائيا القسم، أي طبقة من جزء تم اختيارها عشوائيا من الخلايا العصبية بحيث قيمة الانتاج هي 0، وهذا سيجعل هذا الجزء من الخلايا العصبية لاختيار المقبل الخلايا العصبية طبقة الانتاج المتصلة به لا يسهم في عديمة الفائدة.

وقد تبين أن عدة مرات، ويمكن أيضا أن تتحسن نموذج الشبكة للحصول على أفضل نسبيا من قيمة الحد الأقصى من متوسط أثر خلية البطارية، وذلك باستخدام تداخل تأثير تجميع، دقة فترات التدريب 100 تدريب واختبار مجموعات كما هو مبين في الجدول رقم (2).

الجدول 2 سجل أعلى دقة للهياكل الشبكة المختلفة وتدريب مجموعة ومجموعة الاختبار بعد 100 دورات. استخدمت النوع الأول والنوع الثاني ونموذج متوسط تجمع متداخلة غير الحد الأقصى، تجمع يمكن أن ينظر إلى أن قيمة الحد الأقصى من متوسط قيمة تجميع النسبي أفضل، ولكن كلا منهما overfitting، النوع الثالث النموذج هو قيمة الحد الأقصى من تجمع متداخلة، overfitting خفف إلى حد ما، النموذج الرابع يستخدم أقصى متداخلة تجمع والتسرب تقنيات وأضاف يمكن أن ينظر إلى كمية مناسبة من التنظيم أن دقة مجموعة التدريب أقل من ذلك بكثير في مجموعة الاختبار، ومعدل دقة ترتفع هناك إمكانات كبيرة. وهكذا، وتحسين بنية الشبكة المحددة الرابع، وهيكل شبكة كاملة كما هو مبين في الجدول 3.

وتمت مقارنة بنية الشبكة الأصلي الهيكل الأمثل في الطبقة الخامسة وتم إضافة طبقة التاسعة متداخلة أقصى طبقة تجمع 0.25 نسب التسرب طبقة، بعد أن أضاف الطبقة الأولى الكاملة 11 متصلا طبقة طبقة التسرب 0.5 النسبة. وعلاوة على ذلك طبقة الشبكة ووزن كل من التلافيف طبقة إعادة استخدام اتصال L2 تنظيم، تسوية عامل 10.000 صغيرة فقط، ودقة لا يزال يتدرب بعد 300 دورات باستخدام Rmsprop طريقة التعلم كما هو مبين في الشكل.

وكما يتبين من الشكل (6)، وعملية التدريب، يمكن للتكنولوجيا التسرب حل مشكلة الإفراط في تركيب ودقة مجموعة اختبار لترتفع جنبا إلى جنب مع دقة مجموعة التدريب وتدريب مجموعة معدل دقة وكان أقل من مجموعة الاختبار، 300 اقامة دقة دورة تدريبية هي 73.49، وهي أعلى اختبار مجموعة دقة يمكن أن تصل إلى 82.15 في المئة، وتبين أن تكنولوجيا التسرب قد تحسنت كثيرا المشكلة عبر تركيب.

التخلص عشوائيا قسم التسرب العصبية خلال التدريب، وبيانات التدريب هو بنية شبكة مختلفة من كل دفعة، المقابلة لعدد وافر من شبكة التدريب، والجمع بين عدد وافر من هياكل الشبكة المختلفة معا، وافر من التدريب المتكامل في شبكة واحدة، يمكن أن تمنع بشكل فعال overfitting هيكل موحد للشبكة.

4 خاتمة

في هذه الورقة، ونموذج الشبكة العصبية الإلتواء لتصنيف الصور، وظهور الشبكة العصبية التفاف التقليدي overfitting، طرق مختلفة لاستخدام تجميع والتكنولوجيا التسرب لهيكل الشبكة الأمثل وتحسين نموذج تصنيف الصور الأداء، وتحقيق نتائج أفضل تصنيف على CIFAR 10 مجموعات البيانات.

مراجع

LECUN Y، Y BENGIO، والتعلم HINTON G.Deep .Nature، 2015.521 (7553): 436-444.

شيه السيف. تصنيف Image مبني على الشبكات العصبية التلافيف خفى: جامعة خفى للتكنولوجيا، 2015.

سيمونيان K، ZISSERMAN A.Very شبكات التلافيف عميق للاعتراف صورة على نطاق واسع (2014/09/04) .https: //arxiv.org/abs/1409.1556.

KRIZHEVSKY A، SUTSKEVER I، HINTON G E.ImageNet تصنيف مع الشبكات العصبية العميقة التلافيف مؤتمر .International على العصبية معالجة المعلومات Systems.Curran شركاه، 2012: 1097-1105.

الكاتب المعلومات:

Xushao وي، تشن Siyu

(معهد الطيران الصينية لتكنولوجيا الحاسبات، وشيان 710065، الصين)

طريق الحرير

طريقة تصنيف الصور بناء على عمق التعلم

طبعة مرسل خاص "متجر بقالة الحزن" من التعرض 1993 من محنة عن طريق تعيين الحياة الحقيقية التي تواجهها

الثقيلة | مايكروسوفت لتطوير رقاقة للجيل القادم AI HoloLens، صوت التعرف وصورة

مجلس البيت الملكي: الجبال الخلابة والأنهار، وتلبية لتشونغتشينغ أفضل

العديد من غزاة ألعاب معكم خلال فصل الصيف، "وانغ يده PLUS" Vol.9 المدرجة

"بوين مسلسل" EVDK DDR3 تجريبي تصحيح الملاحظات (بشأن مسألة VREF)

كلمة في الفم يعمل التركيز الاجتماعي إطلاق "كرنفال" اليوم وراء قضية الاعتداء الجنسي من التقصير في أداء الواجب

جوجل تحليل أرباح الربع الثاني: العام إلى الخير، ولكن أيضا حل مشكلة الغرامة

إنقاذ الرصاص رومانسية اليدوية والزجاج، والتي هي حصرا رجل قوي | التيتانيوم المساحات الفارغة

"صناعة النقاط الساخنة" لكسر احتكار الأجانب، ورقائق تحكم الجزئي الوطنية للعلوم تساعد صناعة SSD لدينا في رحلة جديدة

دعم تحسين الخدمات الترقية تحيط بها الجبال قوي "التجديد"

وعد CUP "مفتاح التبديل" لذلك! لم يعد قلقا حول "أخذ مزورة"

العام الجديد هدية عيد صديقة كيفية اختيار؟ عطلة المعلم لتعطيك سلاح

CCF ADL سلسلة 80 كتلة ورش مراجعة: هل تريد أن تعرف سلسلة كتلة التكنولوجيا المتطورة والتطبيقات هنا

"المسافر بلاس" خلفية الهاتف والكمبيوتر المحمول الكمبيوتر مشاركة

"مفجر" سوبر فريق مضاءة السنة الجديدة عمل واقعية لخلق جريمة جديدة من الحد إجراءات المحلية

أنها تعزز التقدم للتغيير نوعية المعيشة في المناطق الحضرية

ما يقرب من العمر 50 عاما الممثل الممثلة Jingchun Yongmei بعد حصوله برلين! فاز الممثلة الصينية أيضا بالجائزة الأولى مزدوج

جوجل لمعرفة من الانترنت في الصين، براعة هو Jingdong BES Express و "تعطيل"، Suning الدعاية، ستقوم مايكروسوفت إطلاق الجيل الثاني من معالج AI | لى فنغ الصباح

"دامبو" تخسر المال ديزني على أي حال، بعد كل شيء، وجاء "4 المنتقمون"

وفاة "هانت" مدير جونيا ساتو، ويبلغ من العمر 86 عاما، لديه جيل

A جديد على متن الطائرة الكمبيوتر المتكاملة تصميم التحكم

مناظر طبيعية شوقانغ المذهبة سحابة عرض حفل شارع لأشيد التطلع إلى العيش

الأحكام ذات الصلة