المادة للكشف عن الهدف خوارزمية YOLO V1 إلى YOLO V3

ملخصات

الهدف الاعتراف هو نوع شائع جدا من تطبيق رؤية الكمبيوتر، والأنواع الحالية الكائن خوارزمية التعرف أيضا إلى حد كبير، وصفت YOLO الخوارزمية في هذه المقالة هو واحد منهم، وهذا هو RCNN الثانية، وسرعة وRCNN وأسرع RCNN، إطار آخر روس Girshick المقترح الهدف سرعة الكشف DL المشكلة، الغرض العام من هذه الورقة هو لفهم تاريخ تطور YOLO الخوارزمية، لتفاصيل التنفيذ تحتاج إلى معرفة المزيد من التفاصيل والاعتبارات. هذه المادة هي أطول قليلا، وبعد القراءة عن 30min في.

من YOLO V1 إلى YOLO V3

1، YOLO V1

YOLO V1

YOLO V1 الفكرة الأساسية

YOLO الفكرة الأساسية هي استخدام خريطة الشبكة بالكامل كمدخل، والعودة إلى موقف مربع (المربع المحيط) إحاطة مباشرة وينتمي إلى فئة في طبقة الإنتاج.
أسرع RCNN أيضا خريطة كاملة مباشرة كمدخل، ولكن أسرع RCNN كليا أو استخدام هذا الاقتراح + المصنف RCNN فكرت في، ولكن يتم وضعها في اقتراح استخراج خطوة تحقق CNN، ولكنها تستخدم مباشرة YOLO أفكار الانحدار.

YOLO V1

طريقة تنفيذ YOLO V1

واس باي اس صورة في شبكات (خلية الشبكة)، وإذا كان مركز كائن يقع على الشبكة، ثم الشبكة مسؤولة عن التنبؤ الكائن.

كل شبكة للتنبؤ مربع إحاطة B، كل مربع المحيط بالإضافة إلى عودة موقفها، يجب أن يتزامن أيضا مع قيمة الثقة التنبؤ.

وهذا يمثل ثقة الكائن توقع الواردة في مربع والثقة مربع التكهن معلومات التسجيل اثنين الثقيلة، والتي يتم احتساب قيمة على النحو التالي:

إذا كان هناك كائن الذي يقع على خلية الشبكة، أول من اتخاذ 1 و 0 خلاف ذلك. آيو الثاني هو بين القيمة المتوقعة والفعلية في groundtruth المربع المحيط.

كل مربع إحاطة للتنبؤ (س، ص، ث، ح) وما مجموعه خمس قيم الثقة، كل شبكة ولكن أيضا معلومات نوع التنبؤ، ويشار إلى فئة C. اس باي اس الشبكات، كل شبكة للتنبؤ وثاب مربع B أيضا التنبؤ فئات C. الإخراج هو S س S س (5 * B + C) هو موتر.

ملاحظة: المعلومات فئة لكل شبكة، والثقة هي المعلومات لكل من المربع المحيط.

على سبيل المثال: في PASCAL VOC، الصورة المدخلة هي 448x448، مع S = 7، B = 2، أي ما مجموعه 20 فئة (C = 20)، والناتج هو ممتد من 7x7x30.

هيكل شبكة كاملة كما هو موضح أدناه:

عندما توقع الاختبار، كل من معلومات فئة وشبكة إحاطة يتم ضرب الثقة التنبؤ المعلومات مربع، للحصول على درجة الثقة فئة محددة لكل من المربع المحيط:

أولا يتوقع الجانب الأيسر من كل نوع المعلومات شبكة، والثانية، ثلاثة لكل مربع إحاطة هي الثقة المتوقعة. المنتج أي ترميز الاحتمال المتوقع بالانتماء إلى مربع فئة معينة، لديه مربع أيضا دقة المعلومات.

بعد الحصول على درجة الثقة فئة محددة لكل مربع، يتم تعيين قيمة العتبة، ودرجات منخفضة تصفية صناديق، وصناديق ليتم الاحتفاظ عملية للمرفق، للحصول على نتيجة الكشف النهائي.

ملاحظة: * الطبقة الإخراج هو تماما طبقة متصلة، عند الكشف عن نموذج التدريب YOLO يعتمد فقط على نفس الصورة تدريب قرار الإدخال. * على الرغم من خلايا B يمكن التنبؤ مربع المحيط، ولكن فقط في الاختيار النهائي لتحديد فقط أعلى IOU إحاطة مربع كما يبلغ حجم انتاجها الكشف عن وجوه، أي كل شبكة وتوقع أقصى كائن واحد. عند الكائن يمثل نسبة الارتفاع صغيرة، مثل قطيع الغنم أو المدرجة في الصورة، كل شبكة تضم افر من الأشياء، ولكن تم الكشف عن واحدة منها فقط. هذا هو عيب طرق YOLO.

YOLO V1

تفاصيل التنفيذ YOLO V1

كل شبكة لها أبعاد 30، وهذا لمدة 30 الأبعاد، الإحداثيات ثمانية الأبعاد للمربع المقابل، علبة من الثقة ثنائية الأبعاد، وهناك فئة 20 الأبعاد.

حيث إحداثيات X، Y مع الشبكة المقابلة الإزاحة تطبيع إلى ما بين 0-1، ث، ح مع العرض والارتفاع للصورة طبيعية إلى ما بين 0-1.

وتنفيذا، والأكثر أهمية هو كيفية فقدان وظائف من التصميم، بحيث ثلاثة متوازن. على بسيطة والخام المستخدمة في كل خسارة خطأ مبلغ التربيعية للقيام بذلك.

هناك العديد من المشاكل مع هذا النهج:

أولا، 8 الأبعاد الخطأ التعريب والخطأ تصنيف الأبعاد 20 بالتساوي غير معقول بشكل واضح.

ثانيا، إذا كان الكائن ليس شبكة (أ عيون كثير من هذه الأرقام)، وسوف تكون هذه الشبكة مربع من دفع الثقة إلى 0، هناك أقل مقارنة مع الهدف من الشبكة، هذا النهج هو القهر، والتي يمكن أن تؤدي إلى عدم الاستقرار الشبكة أو تتباعد حتى.

الحل:

إيلاء المزيد من الاهتمام إلى إحداثيات 8 الأبعاد متوقعا، إلى الجزء الأمامي من هذه الخسائر نظرا أكبر خسارة الوزن، ويرمز

خذ 5 تدريب VOC باسكال.
للثقة فقدان مربع لا تمانع، وإعطاء فقدان الوزن صغير، يرمز

0.5 VOC باسكال المتخذة في مجال التدريب.
هناك فقدان ثقة فقدان فئات الكائن وفقدان الوزن من المربع 1 يستخدم في الحالات العادية.
مربع للتنبؤ بحجم مختلف، بالمقارنة مع التنبؤ منحازة قليلا، والتنبؤ جزئي مربع صغير قليلا أكثر بالتأكيد لا يمكن السكوت مربع كبير. وفقدان خطأ مبلغ مربع الإزاحة نفس عن نفس الخسارة.
للتخفيف من حدة هذه المشكلة، استخدم المؤلفون طريقة صعبة نسبيا، مربع الجذر التربيعي العرض والارتفاع بدلا من الارتفاع الأصلي والعرض. الإشارة إلى FIG التالية موضع تقدير بسهولة، وأصغر قيمة المحور الأفقي للمربع صغير، عندما يحدث النزوح، وكرد فعل على المحور الصادي لتكون أكبر من مربع كبير. (أيضا وسيلة للتقارب وثيق)

A شبكة تتوقع المزيد من مربع، كل مربع مؤشرا الأمل هو المسؤول عن التنبؤ كائن. نهج محدد هو أن ننظر إلى المربع التوقعات الحالية مع صندوق الحقيقة على الارض الكبيرة التي آيو، وهي المسؤولة عنه. ويشار إلى هذا النهج إلى مربع التخصص تنبؤ.

وأخيرا، فإن وظيفة فقدان كامل على النحو التالي:

هذه الخسارة من وظيفة:

فقط عندما يكون هناك شبكة من تصنيف الكائن الأسماك خطأ العقاب.
فقط عندما يكون مؤشرا مربع مربع الحقيقة على الارض هو المسؤول عن متى تنسيق مربع الخطأ سيكون العقاب، ولكن الذي مربع الحقيقة على الارض هي المسؤولة أن نرى أن القيمة المتوقعة ومربع الحقيقة على الارض من آيو ليست في لخلية كل أكبر مربع.

تفاصيل أخرى، مثل استخدام وظيفة تفعيل استخدام تسرب RELU، نموذج ImageNet مع ما قبل التدريب، الخ، لن اعدد هنا.

يعتمد * طريقة YOLO نموذج التدريب على تحديد كائن بيانات الشرح، وبالتالي، كائن لالأشكال غير التقليدية أو نسب، ونتائج الكشف YOLO يست مثالية: مذكرة. * YOLO الاختزال باستخدام تعدد الطبقات، حيث الكائن شبكة علمت لن تكون بخير، لذلك سوف يؤثر على نتائج الاختبار. * YOLO وظيفة الخسارة، الأجسام الكبيرة والأجسام الصغيرة IOU IOU الخطأ خطأ لشبكة التدريب فقدان مساهمة مقربة (على الرغم من أن استخدام وضع الجذر التربيعي، ولكن لا حل المشكلة جذريا). وهكذا، على أشياء صغيرة، يمكن أن الأخطاء IOU صغيرة يسبب تأثير كبير على عملية تحسين الشبكة، مما يقلل من دقة تحديد المواقع من الكشف عن وجوه.

YOLO V1

أوجه القصور YOLO V1

الكائن YOLO على مقربة من بعضها البعض، فضلا عن عدد قليل من السكان من نتائج الكشف الفقيرة، لأن شبكة اثنين فقط توقعت الإطارات، وينتمي فقط إلى فئة.

عند ظهور نفس نوع الكائن في نسبة الارتفاع الجديدة وحالات غير عادية أخرى، تعميم ضعيفة.

منذ مشكلة فقدان وظيفة، هو السبب الرئيسي لتحديد المواقع أخطاء تؤثر على أداء الكشف. على وجه الخصوص، يتم معالجة حجم الكائن، إلى تعزيز.

2، YOLO V2

YOLOv2: يمثل المستوى الحالي للصناعة الكشف عن وجوه الأكثر تقدما، وأنظمة الكشف عن الأخرى (FasterR-CNN، ResNet، SSD) انها أسرع من اللازم، يمكن للمستخدمين المفاضلة بين السرعة والدقة.

YOLO9000: هذا الهيكل الشبكة، ويمكن الكشف في الوقت الحقيقي أكثر من 9000 نوعا من تصنيف الكائن، وذلك بفضل WordTree استخدامه، عن طريق خلط WordTree للكشف عن البيانات داخل مجموعة البيانات لتحديد مجموعة من البيانات.

عنوان رمز المشروع: HTTP: //pjreddie.com/darknet/yolo/

YOLO V2

YOLO V2 مقدمة

مجموعة بيانات الاختبار الحالي (كشف مجموعات البيانات) وهناك العديد من القيود، معلومات قليلة جدا التسمية والتصنيف، وعدد من الصور أقل من مجموعة البيانات المصنفة (تصنف مجموعات البيانات فاي الموجبة)، وتكلفة مجموعة بيانات الاختبار عالية جدا، فإنه لا يمكن أن تصنف على أنها مجموعة من البيانات استخدام. وتصنف الآن مجموعة البيانات ولكن لديها الكثير من الصور وفئة غنية جدا.

تقدم هذه الورقة طريقة جديدة لتدريب - خوارزمية تدريبية مشتركة. مثل خوارزمية قد تكون مختلطة معا هذه مجموعتي البيانات. باستخدام طريقة عرض الهرمي للكائن من التصنيف، والبيانات السرية التي تم تحديدها مع كمية كبيرة من مجموعات البيانات لتوسيع البيانات الكشف، وبموجبه مختلطة مجموعتين بيانات مختلفة.

الفكرة الأساسية لخوارزمية تدريبية مشتركة هي هذه: في حين أن التدريب في مجموعات البيانات الكشف ومجموعة بيانات سرية للكشف عن وجوه (كائن كشف)، والمكان المحدد مع بيانات الرصد مجموعة من البيانات للكائنات التعلم، ومجموعات البيانات تصنيف البيانات لزيادة تصنيف حجم، وتحسين المتانة.

YOLO9000 هو استخدام خوارزمية تدريبية مشتركة المدربين، وقال انه لديه نوع من المعلومات تصنيف 9000، الذي يتم تعلمه معلومات سرية من مجموعات البيانات تصنيف ImageNet، في حين تعلم من موضع الكائن كشف COCO مجموعات بيانات الاختبار.

قبل التدريب مدونة نموذجية وعنوان: HTTP: //pjreddie.com/yolo9000/

YOLO V2

تحسينات YOLO V2

دفعة التطبيع

استخدام دفعة التطبيع تحسين الشبكة، وبالتالي فإن الشبكة لتحسين التقارب، في حين القضاء أيضا الاعتماد على أشكال أخرى من التنظيم (تنظيم) لل. دفعة التطبيع من خلال زيادة التفاف كل طبقة YOLO زادت في نهاية المطاف حتى الخريطة 2، في حين لا يزال يسمح للتسوية نموذج. استخدام دفعة التطبيع يمكن إزالتها من القالب التسرب، دون تركيب المفرط.

عالية الدقة المصنف

طرق صناعة اختبار القياسية، يجب المصنف الأول (المصنفة فاي إيه) قبل التدريب على ImageNet. من البداية، فإن معظم المصنفين تشغل Alexnet في الصور أقل من 256 * 256. والآن زيادة YOLO إلى 224 من 224 * 448 * 448، مما يعني أن احتياجات الشبكة للتكيف مع قرار مدخلات جديدة.

من أجل التكيف مع القرار الجديد، V2 YOLO شبكة الخطوط بدرجة وضوح 448 * 448 تتم أولا على ImageNet التشذيب، وتقليم 10 العهود، حتى أن الشبكة لديها الوقت للتكيف فلتر (الفلاتر)، من الافضل ترك تشغيله بشكل أفضل في قرار جديد، ولكن أيضا نحن بحاجة إلى ضبطها للكشف الناتجة الشبكة. في نهاية المطاف باستخدام عالية الدقة، وتحسين خريطة بنسبة 4.

الإلتواء مع صناديق مرساة

تضم YOLO الجيل طبقة ومرتبطة ارتباطا كاملا، حيث يمكن التنبؤ القيم تنسيق مباشرة صناديق المحيط. يستخدم أسرع نهج R-CNN التنبؤ مرساة صندوق القيمة وشبكة الثقة التلافيف طبقة منطقة اقتراح تعويض، بدلا مما كان متوقعا مباشرة تنسيق القيمة. وقد وجد الباحثون أن من خلال التنبؤ الإزاحة تنسيق القيم ولن تكون قادرة على تبسيط المشكلة، والسماح للمنحنى التعلم الشبكة العصبية أسهل.

حتى أخيرا إزالة YOLO طبقة مرتبطة ارتباطا كاملا، وتوقع مرساة صناديق التنطط صناديق. إزالة الكاتب في بركة من طبقة الشبكة، مما يجعل الناتج من طبقة الإلتواء يمكن أن يكون لها دقة أعلى. تتيح شبكة انكماش تشغيله في 416 بدلا من 448 * 416 * 448. منذ الكائنات في الصور هي الصور تميل إلى أن تحدث في موقع مركزي، وبخاصة النوع من الأجسام الكبيرة نسبيا، ويتم وضع ذلك حتى لا يكون هناك مركز واحد من وجوه للتنبؤ هذه الكائنات. يستخدم YOLO طبقة التلافيف 32 باستخدام هذه القيمة صورة الاختزال، وذلك عن طريق تحديد حجم 416 * 416 كما سمة المدخلات والمخرجات في نهاية المطاف 13 * 13 من FIG. واستخدام مرساة صندوق دقة يقلل إلى حد ما، لكنه يسمح باستخدام أكبر من YOLO يتوقع ألف الأطر، في حين وصلت استدعاء 88 حسب ما أوردته 69.2.

مجموعات البعد

قبل اختيار أبعاد مرساة صندوق يدويا، وحجم هناك مجال للتحسين. من أجل تحسين تشغيل حوالي الوسائل ك تجميع على مجموعة التدريب التنطط صناديق للعثور على أفضل قيمة.

وإذا استخدمنا المسافة الإقليدية القياسية للوسائل ك، وحجم كبير من مربع المزيد من الأخطاء من مربع صغير. لأن هدفنا هو تحسين عشرات IOU، وهذا يتوقف على حجم الصندوق، بحيث يتم استخدام قياس المسافة:

من خلال تحليل نتائج (الشكل 2)، يسار: بعد وزنها بين تعقيد النموذج وسحب عالية، واختيار عدد تصنيف مجموعة K = 5. الحق: هو مركز الكتلة، ومعظمهم طويل القامة، صندوق رقيقة.

TABLE1 هو رسم بياني يوضح اختيار مرساة صناديق مع K-وسيلة، وعندما يتم تحديد العنقودية IOU 5، قيمة AVG IOU هي 61، هذه القيمة ليست أفضل من 60.9 طريقة تجميع أعلى. عند اختيار قيمة 9، AVG IOU تحسن بشكل ملحوظ. باختصار، يتضح من طريقة التجميع غير فعالة.

التنبؤ موقع مباشر

مع نموذج نهج مرساة صندوق سوف تصبح غير مستقرة، وخاصة في عدد قليل من التكرارات ابتداء من الزمن. معظم العوامل غير المستقرة من وقت للتنبؤ مربع (س، ص) الموقف. طريقة YOLO من قبل، دون التنبؤ شبكة عوض، ولكن التنبؤ إحداثيات موقف خلايا الشبكة YOLO، والذي يسمح قيمة الأرض الحقيقة بين 0 و 1 مم. من أجل السماح للشبكة يمكن أن يؤدي السقوط ضمن هذا النطاق، تستخدم شبكة التنشيط لوجستية محدودة إلى نتائج التنبؤ الشبكة، بحيث النتائج بين 0 و 1 مم. توقعات في كل خلية شبكة 5 من صناديق التنطط، كل صناديق التنطط هناك خمسة تنسيق القيم TX، تاي، طوماس فيبس، ال، T0، ويظهر العلاقة إلى ما دون (Figure3). لنفترض أن خلية الشبكة إلى الزاوية اليسرى العليا للصورة تخالف CX، قبرصي، التنطط صناديق عرض مسبق والارتفاع والأسبق، ودرجة الحموضة، ثم توقع نتيجة الصيغة هو مبين أدناه اليمين:

بسبب القيود المفروضة على استخدام تسمح تصبح القيم معلمات، ولكن أيضا جعل شبكة أسهل للتعلم وأكثر استقرارا. مجموعات البعد والتنبؤ موقع المباشر، ارتفع YOLO قبل ما يقرب من 5 في المئة من إصدارات أخرى من مرساة صندوق.

الميزات الحبيبات الجميلة

FIG YOLO حيث يتم تعديل حجم 13 * 13، وحجم الكائن كشف في حجم الصورة هو ما يكفي كبيرة، في حين أن استخدام هذه الميزات الحبيبات غرامة أشياء صغيرة لتحديد المواقع موقع قد يكون مفيدا. أسرع RCNN، يستخدم SSD حيث FIG أحجام مختلفة للحصول على نطاقات دقة مختلفة، وYOLO اتخذت نهجا مختلفا، إلى جانب خصائص طبقة YOLO 26 * 26 قرار قبل الحصول على طبقة العبور . طبقة العبور قادرة على ذات الدقة العالية والمنخفضة للقرار مميزة الروابط ميزة معا، وتتميز طريقة ربط عن تراكم في مختلف القناة المجاورة، على غرار طريقة Resnet خارطة الهوية، وبذلك 26 * 26 * 13 * 13 * 512 يصبح 2048. بعد ما سبق (الموسع) ويقع في تمديد خريطة ميزة YOLO كاشف، حتى يتمكن من الحصول على معلومات ميزة الحبيبات غرامة، التي تعزز أداء YOLO 1.

متعدد مقياس التدريب

ويأمل واضعو يمكن YOLOv2 تشغيل بقوة على أحجام مختلفة من الصور، وبالتالي فإن فكرة هذا النموذج التدريب.

ملء حجم كامل للصورة يختلف عن الطريقة السابقة، وYOLOv2 كل الأوقات تكرار تغيير معالم الشبكة. لكل دفعة 10، وشبكة باختيار عشوائي حجم صورة جديدة، لأن المعلمة الاختزال هو 32، وأحجام مختلفة مختارة لتكون من مضاعفات الرقم 32 ... ..608 {320352}، والحد الأدنى 320 * 320 أقصى 608 * 608، فإن الشبكة تلقائيا تغيير حجم وتستمر عملية التدريب.

تسمح هذه السياسة الشبكة لتحقيق مؤشرا جيدا للتأثير على حجم مختلف المدخلات، ويمكن الكشف عن الشبكة نفسها في قرارات مختلفة. عندما يكون حجم الصورة المدخلة صغير نسبيا عند تشغيل أسرع، أدخل حجم الصورة كبير نسبيا عندما عالية الدقة، لذلك يمكن أن تزن في على سرعة YOLOv2 ودقة.

هذا الرقم هو السرعة والدقة في voc2007

YOLO V2

العمارة YOLO V2

في عملية التدريب، عندما يواجه الشبكة صورة وبطاقة المعلومات من مجموعة بيانات الاختبار، ثم وضع الظهير نشر البيانات مع وظيفة كاملة من YOLO فقدان V2 هذه الصورة. عندما قاءات الشبكة صورة واحدة مجموعة البيانات من تصنيف المعلومات وعلم التصنيف، سوى جزء من الهيكل العام تصنف هذه الصورة مرة أخرى فقدان نشر وظيفة.

لكن بيانات الاختبار فقط تعيين الخشنة الحبيبات بطاقة المعلومات، مثل "القط"، "الكلب"، وما شابه ذلك، والعلامة المعلومات مجموعة البيانات تصنيف غير محبب غرامة أكثر وأكثر ثراء. على سبيل المثال، وهذا النوع من الكلاب بما في ذلك "أجش" "بول الكلب" "الذهبي المسترد الكلب"، وهلم جرا. حتى إذا كنت ترغب في حين أن التدريب على رصد وجمع البيانات وتصنيف مجموعات البيانات، ثم سيكون لديهم طريقة متسقة مع دمج هذه التسميات.

وعلاوة على ذلك، وطريقة للتصنيف، ومعظمهم من طريقة طبقة softmax، بين فئات تصنيف متوسط softmax أن تكون مستقلة عن بعضها البعض. مجموعات البيانات المختلطة تدريب عمياء، وسوف يكون هناك مثل هذا: الكشف عن المعلومات المبوبة مجموعة البيانات "كلب" هذا التصنيف، مجموعة البيانات والتصنيف، وسيكون هناك أنواع مختلفة من الكلاب: "أجش"، "بول الكلب" "ذهبية" هذه المعلومات تصنيف، تصنيف بين هذه مجموعتي البيانات ليست مستقلة عن بعضها البعض. ولذلك، باستخدام نموذج متعدد التسمية لمجموعة البيانات المختلطة، على افتراض أن الصورة يمكن أن يكون لها معلومات سرية متعددة، معلومات سرية ويفترض يجب أن تكون مستقلة عن يمكن تجاهل القواعد.

تصنيف هرمي

هيكل وردنت هو الرسم البياني المباشر (الموجه الرسم البياني)، بدلا من هيكل شجرة. لأن اللغة هي معقدة، سواء الذين ينتمون إلى كلمة الكلب الكلبي "وجزء من الفئات" الماشية "، في حين أن 'الكلاب' والفئات" المواشي "في وردنت مرادف، لذلك لا يمكن استخدام هيكل شجرة.

ويأمل واضعو لإنشاء شملت شجرة هرمية تقوم على مفهوم ImageNet، من أجل إنشاء شجرة هرمية، أولا التحقق من شروط ImagenNet تظهر، ومن ثم تجد هذه المصطلحات في وردنت، هذه الشروط لإيجاد الطريق إلى جذورها (في هنا هو جذر لكافة الكائنات كيان (كائن مادي). في وردنت، أكثر مرادفا فقط مسار واحد، مسار وضع أول كلمة إضافة كافة إلى شجرة هرمية. ثم تحقق تكرارا بقية الأسماء، وإضافتها بأقل قدر ممكن إلى شجرة هرمية، إضافة المبدأ هو أن تأخذ أقصر الطرق يضاف إلى شجرة.

من أجل احتساب احتمال المطلق للعقدة، إلا أن احتمالات كل من الطريق بأكمله إلى تتكاثر عقدة الجذر. هكذا على سبيل المثال، كنت تريد أن تعرف ما إذا كانت الصورة هي احتمال نورفولك جحر تحسب على النحو التالي:

من أجل التحقق من هذه الطريقة، والتدريب نموذج Darknet19 في WordTree، 1000 تدريب فئة ImageNet، من أجل إقامة WordtTree 1K، كل الكلمات متوسطة تضاف إلى WordTree، الفضاء التسمية توسيع 1000-1369. خلال التدريب، وإذا كان هناك صورة التسمية "جحر نورفولك"، ثم هذه الصورة سوف تحصل "الكلب" (الكلب) و "الثدييات" (الثدييات) وتسميات أخرى. الآن صورة أكثر من علامة كلمة لا تتطلب علامات مستقلة عن بعضها البعض.

كما هو مبين في Figure5، قبل تصنيف هو استخدام كبير ImageNet softmax التصنيف. والآن، WordTree تحتاج فقط لتصنيف المرادفات softmax تحت نفس المفهوم.

باستخدام المعلمات التدريب نفسها، Darknet19 تحقيق هذا التسلسل الهرمي دقة دقة 71.9 أعلى 1 و 90.4 أعلى 5، سوى انخفاض طفيف في الدقة.

فوائد هذا النهج: عندما المجهول أو تصنيف كائن جديد، تدهور الأداء أنيقة جدا (برشاقة). على سبيل المثال، لنرى صورة للكلب، ولكن أنا لا أعرف أي نوع من الكلاب، ثم على درجة عالية من الثقة (ثقة) توقعت "الكلب"، وغيرها من أنواع الكلاب كمرادف ل "أجش" "بول الكلب" "الذهبي" هذه الثقة وأخرى منخفضة.

قواعد البيانات بالاشتراك مع wordtree

WordTree مع مجموعة بيانات الخرائط لهذه الفئة في المرادفات شجرة هرمية، على سبيل المثال على FIG الشكل 6، WordTree ImageNet مختلطة مع COCO.

تصنيف المشترك والكشف

الغرض المؤلف هو: تدريب للكشف على نطاق واسع للغاية. ولذلك، عند استخدام التدريب WordTree البيانات الكشف COCO المختلطة المنصوص عليها في الطبقة ImageNet Top9000، وضعت بيانات مختلطة 9418 لديها WordTree الدرجة المقابلة. من ناحية أخرى، ويرجع ذلك إلى مجموعة البيانات ImageNet كبير جدا، وكمية البيانات من أجل تحقيق التوازن بين مجموعتي البيانات، من خلال الإفراط (الإفراط) البيانات COCO في مجموعة البيانات، والبيانات بين مجموعات البيانات ومجموعة البيانات ImageNet COCO نسبة تصل إلى 1: 4.

القائم V2 التدريب YOLO9000 YOLO الإطار، ولكن باستخدام 3 مقدمو الاديره بدلا من خمسة للحد من حجم الانتاج. عندما يتم عادة تعيين صورة بيانات قاءات الشبكة المكتشفة في انتقال الاتجاه المعاكس، عندما مجموعة البيانات صورة الوجه الحرة، وفقدان فقط من التصنيف الوظيفي نشر عكسي. المؤلف يفترض أيضا ما لا يقل عن 0.3 IOU. وأخيرا العكسي هذه الافتراضات.

استخدام أسلوب التدريب المشترك، YOLO9000 COCO كشف الموقف باستخدام بيانات مجموعة من الأشياء التعلم الكشف في الصورة، وذلك باستخدام معلومات سرية مجموعة ImageNet تعلم كيفية تصنيف عدد كبير من الفئات.

لتقييم هذه الطريقة، ImageNet كشف المهام لتقييم نتائج التدريب.

التقييم:

YOLO9000 الحصول على 19.7 خريطة. اختبار على 156 تصنيف البيانات لم تدرس، وصلت خريطة 16.0.

YOLO9000 خريطة أعلى من DPM، وYOLO دينا المزيد من المزايا المتقدمة، YOLO9000 هو جزء من التدريب تحت إشراف بطريقة مختلفة مجموعة التدريب، في حين كشف 9000 فئات الكائن، وضمان التشغيل في الوقت الحقيقي.

وعلى الرغم من تحديد YOLO9000 أداء جيدة من الحيوانات، ولكن فئة فئة "SUNGALSSES" أو "سروال سباحة" هذه الملابس أو المعدات اللازمة لأداء اعترافها ليست جيدة جدا، انظر الجدول 7. وتتألف هذه المجموعة البيانات مع وجود علاقة كبيرة.

YOLO V2

ملخص YOLO V2

يمثل YOLO V2 مستوى معظم الكشف عن وجوه المتقدمة، في مجموعة متنوعة من بيانات الرصد المقرر أن تكون أسرع من أنظمة الكشف عن الأخرى، ويمكن أن تكون المفاضلة في السرعة والدقة.

YOLO 9000 هندسة الشبكات تتيح الكشف في الوقت الحقيقي من أكثر من 9000 نوعا من تصنيف الكائن، وذلك بفضل لأنه مع تحقيق اكتشاف وتصنيف القدرات. WordTree تستخدم لمزج البيانات من موارد التدريب المختلفة، وفي الوقت نفسه باستخدام تقنيات التحسين مشتركة في البيانات تدريب مجموعة ImageNet وCOCO، YOLO9000 زيادة خفض حجم الفجوة بين مجموعة رصد البيانات مع مجموعة بيانات تحديد الهوية.

3، YOLO V3

YOLO V3

YOLO V3 مقدمة

وصلت عملية YOLOv3 على الصورة يمكن أن تصل إلى باسكال تيتان X 608x60820FPS سرعة، على COCO اختبار ديف mAP@0.557.9، مشابهة لنتائج RetinaNet (اقترحت ورقة FocalLoss شبكة مرحلة واحدة)، وأربع سرعات مرات.

YOLO V3 مجمع نموذج من الطراز السابق العدد، السرعة والدقة يمكن أن يكون وزنه عن طريق تغيير حجم بنية النموذج.

مقارنة سرعة على النحو التالي:

"YOLOv3 في تحقيق نفس دقة هو أسرع بكثير من طرق الكشف الأخرى. في الوقت يقاس باستخدام نفس GPU M40 تيتان X أو ما شابه ذلك.

لفترة وجيزة، وبداهة كشف YOLOv3 (الكشف المسبق) أن يكون إعادة تصنيفها أو محدد لأداء مهام الكشف. وهي تنطبق على نموذج لمواقع متعددة وأبعاد الصورة. ويمكن رؤية هذه المنطقة أعلى درجة كما نتائج الاختبار. وعلاوة على ذلك، نسبة إلى غيرها من طريقة الكشف عن الهدف، ونحن نستخدم نهجا مختلفا تماما. وسوف يتم تطبيق الشبكة العصبية واحدة لكامل الصورة، وينقسم صورة الشبكة إلى مناطق مختلفة، وبالتالي فإن الاحتمال المتوقع من كل المربع المحيط والمنطقة، والمربع المحيط بترجيح الاحتمال المتوقع. نموذجنا بالمقارنة مع النظم القائمة على المصنف لديه بعض المزايا. يبدو في الصورة بأكملها في وقت الاختبار، لذلك فمن المتوقع استخدام المعلومات العالمية في الصورة. وتتطلب الآلاف من هدف واحد صورة R-CNN مختلفة، ومن المتوقع من قبل تقييم شبكة واحدة. وهذا يجعل YOLOv3 سريع جدا، وهو بشكل عام أسرع من الأوقات R-CNN 1000 أسرع من السريع R-CNN 100 مرة.

YOLO V3

تحسينات في YOLO V3

التحسينات:

وتوقع 1. متعددة النطاقات (فئة FPN)

شبكة 2. أفضل تصنيف على أساس (الطبقة ResNet) والمصنف داركنت-53، انظر أدناه

3. المصنف - التنبؤ الفئة:

YOLOv3 عدم استخدام Softmax تصنيف كل مربع، وهناك اعتبارين رئيسيين:

a.Softmax مثل أن كل كتلة يتم تعيين فئة (أ أعلى درجة)، وفتح الصور لهذه المجموعة البيانات، التسميات الفئة المستهدفة قد تتداخل، وبالتالي لا تنطبق على تصنيف متعددة تسمية Softmax.

يمكن استبدال b.Softmax من عدد وافر من المصنفات اللوجستية منفصلة، وليس خفض دقة.

ج. خسارة التصنيف باستخدام ثنائية فقدان عبر الكون.

متعددة على نطاق والتنبؤ

كل نهج تصميم على نطاق والتنبؤ ثلاثة مربع، مرساة لا يزال لكتلة الاستخدام، ومراكز المجموعة لإعطاء 9، والتي وفقا لمتوسط حجم الأبعاد الثلاثة.

مقياس 1: إضافة التفاف الكامنة وراء طبقة الشبكة بعد إعادة الانتاج مربع المعلومات.
مقياس 2: طبقة عينة من الإلتواء قبل الأخيرة في نطاق (X2) ثم إضافة الماضي 16X16 FIG حجم الميزة، خرج المعلومات التي وافر من مربع التفاف مرة أخرى، بالمقارنة مع نطاق أوسع مرتين.
نطاق 3: 2 نطاق مماثل، وذلك باستخدام ميزة حجم 32x32 FIG.

الشبكة الأساسية داركنت-53

داركنت-53 بالقرب من ResNet-101 أو دقة ResNet-152، ولكن بشكل أسرع، والمقارنة التالية:

هيكل الاختبار التالي:

YOLOv3 مع نتائج جيدة على mAP@0.5 ونقاط وصول الهدف صغيرة، ولكن مع هذه الزيادة، تدهور الأداء IOU، مشيرا إلى YOLOv3 لا يتناسب تماما مع الحقيقة على الارض

طريق الحرير

المادة للكشف عن الهدف خوارزمية YOLO V1 إلى YOLO V3

! مدهش البحر التنين أضواء حديقة الفاكهة التغيير والعلوم والتكنولوجيا وسيلة غنية ماومينغ غوازهو يرى هذا البستان!

يشارك قوانغدونغ الطالبات حادث سيارة مفتوحة بعد تحطم سيارة في حصة مرسيدس بنز

تفسير البيانات العلمي "لعبة العروش": من سيكون في نهاية المطاف على متن العرش الحديد؟

الاحتراق التلقائي! لفة! شنغهاي 26 أبريل ثم قدمت عدة حوادث المرور!

ذهب فيلا في مسؤول يوم: المنتجات الغذائية Jiajiang الاستماع أسطورة الرسمية اليوم (خريطة)

التحقيق والتعامل مع تجهيز مواقع صغيرة! بلدة Zhangmutou لتنفيذ إجراءات الإنفاذ ضد مياه الصرف الصحي غير قانوني

لي وتشوتشوانغ: تشوتشوانغ حلم باي تخيل التراث كونتشيو

تشاوتشو "الأمن القومي" جسر Guangji ضرب المسار: غير معطوب خبراء الرصيف، الجسر كله فتح

2019 الجمعية تورينج | مقدمة: دانيال Yunhao ليو تشينغهوا كل شيء الإنترنت العين

أيام المطر الثقيلة، شاوقوان شين فنغ شخصين محاصرين في النهر، "الجزيرة"، رجال الاطفاء تمر "الحياة حبل".

هل لديك "مذكرة اعتقال" التوقيع عليه؟ حذار من تظاهر بأنه كاذب "الأمن العام"

صندوق تشانغشنغ في الربع الثاني 2019 تقرير استراتيجية الاستثمار

لديك رسائل يو هوا الفرصة للحصول على كتاب التوقيع! يوم الكتاب العالمي تشوهاى أي واحد كنت مثل معظم لحضور؟

الرجال شهرين لتغيير طفلك أدى إلى كسر في الساعة 20

تسليط الضوء على "طول الطريق" روح جولة النبيذ التشيلي عن الجمعية الصينية المنظمة انه "على غرار التشيلي" المشروع رسميا في بكين

GaoYuanYuan تعرض الحوامل بطن الصورة، تشاو ساعد بعناية زوجها

وكانت ناننينغ دائرة امرأة من الأصدقاء "صن لايف" لصوص اجتذبت بالفعل، تمكن من الفرار بعد تسليم 100،000 يوان

الربيع الغيمة سلسلة الإصدار 2.x springboot متكاملة ActiveMQ

البالغة من العمر 21 عاما ويبلغ من العمر 50 عاما الشعبية الزواج الأثرياء، أشهر ونصف أرملة بعد الزواج، والآن 50 عاما ويعيش في مثل هذه الطريقة

فتاة تبلغ من العمر 1 تناول المبيدات السامة الآباء تعرق بارد

كبير مسار نظم البيانات التعلم (مع مجموعة كاملة من الدروس البيانات الكبيرة وPDF الكتاب الإلكتروني)

كما حصل لحسن الحظ، القهوة السويسرية إلى أن يتم سرد ستاربكس اثنين من المساهمين 800 مليون دولار!

الأحكام ذات الصلة