يجب العلماء بيانات يعرف عمق العمارة 10 التعلم

شبكة لى فنغ حسب: هذه المقالة من "10 متقدمة ديب التعلم البنى العلماء بيانات أن نعرف!"، شبكة لى فنغ لاول مرة حصرية الرسم البياني جمعتها التكنولوجيا الأخضر.

في السنوات الأخيرة، وزخم التطور السريع التعلم العميق، مواكبة وتيرة التقدم في عمق التعلم وأصبح من الصعب على نحو متزايد. كل يوم تقريبا هناك حوالي الابتكار التعلم العميق، وأكثر من عمق التعلم والابتكار مخفية في تلك التي نشرت في أرخايف وSpinger والأوراق البحثية الأخرى.

توضح هذه المقالة بعض التطورات الأخيرة والتعلم الابتكارات العمق، وكذلك تنفيذ التعليمات البرمجية مكتبة Keras، توفر هذه المقالة أيضا وصلة إلى الورقة الأصلية.

الإيجاز، ويصف هذا المقال فقط على مجال الرؤية الكمبيوتر أكثر نجاحا العمارة التعلم العميق.

وبالإضافة إلى ذلك، قد أتقن هذه المادة الشبكة العصبية القائمة على المعرفة، وKeras بالفعل على دراية تامة مع المؤسسة. إذا كنت لا تعرف الكثير عن هذه المواضيع، فمن المستحسن أن تقرأ المقالات التالية:

"أساسيات التعلم ديب - بدءا من تقنية الشبكات العصبية الاصطناعية"

"ملف: تحسين الشبكات العصبية باستخدام Keras (مع دراسة حالة الاعتراف صورة)"

دليل

ما هو عمق التعلم، "العمارة العليا"؟
أنواع مختلفة من المهام رؤية الكمبيوتر
جميع أنواع الهندسة المعمارية التعلم عميقة

تعلم ما هي "العمارة رفيع المستوى" لعمق؟

مقارنة بسيطة مع خوارزمية التعلم الآلي، خوارزمية التعلم عميقة تحتوي على نموذج أكثر تنوعا. والسبب في ذلك هو إقامة نموذج كامل، الشبكة العصبية لديها الكثير من المرونة.

في بعض الأحيان، يمكن أن نضع الشبكة العصبية من الطوب مرح التي يمكن استخدامها لبناء أي بسيطة أو معقدة من المباني الصغيرة.

في الواقع، يمكن أن نكون "العمارة رفيع المستوى" يعرف ببساطة كدولة ذات ناجحة سجل نموذج العمارة دراسة متعمقة، مثل هذا "العمارة رفيع المستوى" أساسا في مواجهة التحديات ImageNet مماثلة في، في هذه التحديات، مهمتك هي حل المشاكل، مثل وتعطى استيفاء بيانات التعرف على الصور. بعبارات بسيطة، ImageNet هي مجموعة من البيانات حول التحديات، والتي يتم الحصول عليها مجموعة البيانات من ILSVR (ImageNet التعرف البصري على نطاق واسع) في.

المشار إليها أدناه باسم العمارة القادمة، والهندسة المعمارية التي لديها بين كل مختلف قليلا، ومن هذه الاختلافات التي تميزها عن النماذج العادية، بحيث تلعب النموذج العادي ليس لديه ميزة عندما حل المشاكل . هذه البنى أيضا تنتمي إلى فئة "نموذج العمق"، لذلك أدائها هو على الأرجح أفضل من المقابلة "نموذج الضحلة."

أنواع مختلفة من "المهام رؤية الكمبيوتر".

تركز هذه المقالة على "رؤية الكمبيوتر"، وذلك بطبيعة الحال أنها تنطوي على "رؤية الكمبيوتر" المهمة. وكما يوحي اسمها، "مهمة رؤية الكمبيوتر" هو بناء نموذج حاسوبي كامل يمكن تكرار المهام البصرية الإنسان. وهذا يعني أساسا أن نرى يمكن فهم الرؤية والتصور المحتوى وهو البرنامج الكامل في نظام مصطنع.

أنواع رئيسية من مهام رؤية الكمبيوتر هي:

التعرف على الأشياء / تصنيف : في التعرف على الأشياء، وسوف تحصل على الصورة الأصلية، ومهمتك هي لتحديد الفئة التي تنتمي إليها هذه الصورة.
تصنيف، وتوطين : إذا كانت الصورة كائن واحد فقط، ثم مهمتك هي العثور على مكان للكائن. وينبغي أن توصف هذه المشكلة بشكل أكثر تحديدا بأنها "مشكلة تحديد المواقع."
الكشف عن وجوه : في اختبار الكائن، مهمتك هي تحديد الهدف من ذلك هو في موقف ما في الصورة. قد تنتمي هذه الكائنات لنفس الفئة، قد تنتمي إلى فئات مختلفة.
تقطيع الصورة : صورة تجزئة هو أكثر قليلا مجمع المهمة، والتي الغرض من ذلك هو تعيين كل بكسل من الصورة المقابلة لكل فئة.

حاليا، تعلمناه عن التعلم العميق "العمارة رفيع المستوى"، ويستكشف أنواع مختلفة من المهام رؤية الكمبيوتر. حتى ذلك الحين، سوف نقوم بسرد أهم العمارة دراسة متعمقة، ومقدمة موجزة لهذه البنى:

1. AlexNet

كان AlexNet أول العمارة دراسة متعمقة، هو دراسة من جانب واحد من الرواد التعلم العميق --Geoffrey هينتون وزملاؤه معا، وقدم. AlexNet هو بسيط على ما يبدو ولكنها قوية جدا هندسة الشبكات، والآن مهدت الطريق لفتحا التعلم البحوث المتعمقة. هذا الرقم هو AlexNet العمارة:

يمكننا أن نرى من وجهة نظر انفجرت، AlexNet هو في الواقع بنية بسيطة فيها طبقة الإلتواء وطبقة تراكم فرضه على بعضها البعض، وتوصيل أعلى طبقة تماما. في أوائل 1980s، تم وضع تصور وصف AlexNet نموذج. مختلف AlexNet رئيسيا من النماذج الأخرى هو أنه مهمة الحجم، وحجم GPU من أجل التدريب. في الثمانينات، والتي تستخدم لتدريب الشبكة العصبية من وحدة المعالجة المركزية. وAlexNet رائدة في استخدام GPU، وزيادة سرعة القطار عن عشرة أضعاف.

وعلى الرغم من AlexNet الآن عفا عليها الزمن إلى حد ما، لكنه لا يزال نقطة الانطلاق لاستخدام الشبكات العصبية لإنجاز المهام المختلفة. إذا كانت المهمة هي رؤية الكمبيوتر كاملة والمهام التعرف على الكلام أو لا تزال بحاجة AlexNet.

رابط ورقة الأصلي
رابط لتنفيذ كود

2. VGG نت

"VGG نت" عرضه جامعة أكسفورد "الصور المرئية مجموعة أبحاث" الباحثين. شبكات VGG الميزة الأكثر أهمية هو شكل هرم لها، مجموعة واسعة نسبيا بالقرب من أسفل الصورة، في حين أن طبقة أعلى وضيقة نسبيا وعميقة.

كما هو مبين في الشكل، VGG شبكة تتألف من طبقة مستمرة من الالتواء، طبقة التفاف على الفور طبقة تراكم. ترك كل طبقة مسؤولة عن تراكم طبقات يصبح أضيق. في أكملت هذه المجموعة من الباحثين داخل ورقة، واقترحوا أنواع مختلفة من الشبكات، والفرق الرئيسي بين هذه البنى شبكة وأعماق مختلفة.

مزايا شبكة VGG هي:

1. وهذه مهمة محددة جدا لقياس بنية شبكة فعالة.

2. وفي الوقت نفسه، هناك الكثير من شبكة خالية من تدريب ما قبل الإنترنت من VGG، وبالتالي، VGG عادة ما يتم استخدامها في مجموعة متنوعة من التطبيقات.

من ناحية أخرى، VGG العيب الرئيسي هو أنه إذا كان من بداية التدريب، وبعد ذلك سوف تكون بطيئة جدا سرعة التدريب. حتى مع وجود GPU جيدة الى حد ما، فإنه لا يزال يحتاج إلى أكثر من أسبوع لتعمل بشكل صحيح.

رابط ورقة الأصلي
رابط لتنفيذ كود

3. GoogleNet

GoogleNet (المعروف أيضا باسم "InceptionNet") هي بنية شبكة من تصميم الباحثين جوجل. فاز GoogleNet البطولة في عام 2014 مسابقة ImageNet أثبتت أنها نموذج قوي.

في هذه العمارة الشبكة، والباحثون لا تعمق عمق الشبكة (GoogleNet يحتوي على 22 طبقات، في حين أن طبقة الشبكة فقط 19 VGG)، وضعت أيضا طريقة جديدة تسمى "وحدة التأسيس".

كما هو مبين أعلاه، هذه العمارة مقارنة مع الانتظام العمارة رأيناه من قبل، فقد شهدت تغيرا هائلا. ظهور مجموعة متنوعة من "مستخرج ميزة" في طبقة واحدة. هذا غير مباشر يحسن أداء الشبكة، لأنه عندما معالجة المهام، حدد العملية التدريب الذاتي شبكة واسعة جدا. يمكن أن تختار المدخلات الإلتواء، يمكنك اختيار مباشرة تتراكم الإدخال.

تتكون العمارة النهائية للعديد من وحدة نمطية التأسيس فرضه للطرفين. معظم الطبقة العليا ديك طبقة الانتاج الخاصة بها، وذلك تدريب GoogleNet ونماذج أخرى لديها اختلافات دقيقة. ومع ذلك، يمكن لهذه الاختلافات تساعد على إكمال نموذج التفاف بسرعة أكبر، وليس فقط لأن هذه الطبقات لديها التدريب المشترك، فضلا عن التدريب منفصل.

مزايا GoogleNet هي:

1.GoogleNet تدريب أسرع من VGGNet.

2. بالمقارنة مع شبكة VGG المدربين قبل، احتلت تدريب ما قبل GoogleNet التي كتبها نطاق أصغر. مساحة محتلة من قبل نموذج VGG يمكن أن يتجاوز 500MB، وGoogleNet 96MB فقط.

حتى الآن، ليس هناك عيوب GoogleNet مباشرة، إلا أن المادة عددا من التغييرات لزيادة تحسين برنامج مساعدة GoogleNet. حيث هناك ما يسمى تغيير برنامج "XceptionNet"، في هذه الشبكة، تم تحسين "وحدة أولية" الحد من الاختلاف. من الناحية النظرية، هو الآن الاختلاف المحتمل لانهائية.

رابط ورقة الأصلي
رابط لتنفيذ كود

4. ResNet

ResNet هو يعرف حقا هندسة الشبكات هندسة دراسة متعمقة العمق. "شبكة المتبقية"، وهذا هو ما نسميه ResNet، يحتوي على العديد من متتالية "وحدة المتبقية"، وهذه "الوحدة المتبقية" تشكل أساس ResNet الهندسة المعمارية. "كتلة المتبقية" كما هو مبين أدناه:

بعبارات بسيطة، وهي "وحدة المتبقية" هناك خيارين - أنها يمكن أن تختار لأداء مجموعة من الوظائف على المدخلات، ويمكن أيضا اختيار لتخطي هذه الخطوات.

وGoogleNet وبالمثل، فإن "وحدة المتبقية"، متراكبة على بعضها البعض، وذلك لتشكيل شبكة كاملة.

بعض التكنولوجيات الجديدة التي ResNet هي:

1. استخدم SGD القياسية، ولكن لا يتوهم التكنولوجيا "التعلم التكيفي". يتم ذلك عن طريق وظيفة التهيئة للحفاظ على التدريب العادي إلى الاكتمال.

2. preprocessed تغيير وضع الإدخال، الإدخال الدفعة الأولى، ومن ثم الإسهام في الشبكة.

ResNet الميزة الرئيسية هي أن عشرات الآلاف من طبقة المتبقية يمكن استخدامها لإنشاء الشبكة، ويمكن استخدامها لأغراض التدريب. هذا هو المعتاد "توقيت شبكة" يختلف قليلا، وأداء "شبكة توقيت" بسبب العدد المتزايد من الزيادات طبقات.

رابط ورقة الأصلي
رابط لتنفيذ كود

5. ResNeXt

ويزعم ResNeXt هو إلى حد بعيد معظم تقنية التعرف على وجوه المتقدمة. ResNeXt مبنية على أساس ResNet إنشائها وعلى، هو، وتحسين بنية الشبكة الجديدة. يلخص الشكل التالي ResNeXt وحدة المتبقية من:

رابط ورقة الأصلي
رابط لتنفيذ كود

6.RCNN (CNN استنادا منطقة)

وقال RCNN أن يكون إطار التعلم العميق لحل مشكلة الاعتراف الكائن الأكثر نفوذا هندسة الشبكات. لحل مشكلة تحديد الكشف، RCNN في محاولة لمنع كافة الكائنات في الصورة، ثم حددت صورة الكائن ما هو عليه. الإجراء الذي هو على النحو التالي:

FIG RCNN التالية هيكل:

رابط ورقة الأصلي
رابط لتنفيذ كود

7. YOLO (أنت تنظر مرة واحدة فقط)

YOLO هو إلى حد بعيد معظم الوقت الحقيقي نظام التعرف على الصور المتقدمة، والتي تقوم على أساس عمق التعلم. كما رأينا في الشكل التالي، بل هو الصورة الأولى إلى مربعات صغيرة، ثم أحد عشر خوارزمية الاعتراف تعمل على الشبكة، تحدد كل شبكة أي فئة الكائن تنتمي، ثم الساحات جنبا إلى جنب من نفس الفئة لتشكيل كتلة الكائن الأكثر دقة.

تتم هذه العمليات بشكل مستقل، وبالتالي تمكين العملية في الوقت الحقيقي. ويمكن التعامل مع ما يصل إلى 40 صور في ثانية واحدة.

على الرغم من أن مقارنة RCNN المقابلة، وانخفاض الأداء YOLO، ولكن في الوقت الحقيقي تجهيز لها لا يزال هناك ميزة كبيرة في التعامل مع المشاكل اليومية. وفيما يلي هندسة الشبكات YOLO:

رابط ورقة الأصلي
رابط لتنفيذ كود

8. SqueezeNet

SqueezeNet الهندسة المعمارية هي بنية الشبكة أكثر قوة، فإنه مفيد جدا في السيناريو من هذا القبيل على غرار منصة متنقلة النطاق الترددي منخفضة. هذه الشبكة العمارة 4.9MB فقط من الفضاء، في حين شكلت التأسيس لأكثر من 100MB من الفضاء. هذه المشتقة يسمى "وحدة النار" تغيير كبير في هيكل. "وحدة النار" كما هو مبين أدناه:

squeezeNet يظهر الشكل التالي الهندسة المعمارية النهائية:

رابط ورقة الأصلي

رابط ورقة الأصلي
رابط لتنفيذ كود

9. SegNet

SegNet هو إطار التعلم العميق لحل تقطيع الصورة. وهو يحتوي على سلسلة من طبقة المعالجة (التشفير) ومجموعة من فك المطابق للتصنيف بكسل. يلخص الشكل التالي SegNet العملية:

ومن السمات الرئيسية هي أن SegNet: يحتفظ تفاصيل وتيرة عالية في الصورة مقسمة، منذ مترابطة المتراكمة مؤشر تراكم شبكة كود مؤشر فك الشبكة. لفترة وجيزة، ونقل المعلومات مباشرة، بدلا من بشكل غير مباشر من خلال الإلتواءات. SegNet هو أفضل نموذج عند العمل مع تجزئة الصورة.

رابط ورقة الأصلي
رابط لتنفيذ كود

10. GAN (المولدة الخصومة الشبكة)

GAN هو مختلف تماما بنى الشبكة العصبية، التي تستخدم الشبكات العصبية لتوليد صورة جديدة لا وجود له، ركز يظهر صورة ظهرت في بيانات التدريب، ولكن ليس في الواقع. وGAN هو وجهة نظر انفجرت من FIG.

رابط ورقة الأصلي
رابط لتنفيذ كود

طريق الحرير

يجب العلماء بيانات يعرف عمق العمارة 10 التعلم

دليل

تعلم ما هي "العمارة رفيع المستوى" لعمق؟

أنواع مختلفة من "المهام رؤية الكمبيوتر".