التفاف الشبكة العصبية خوارزمية كشف الوجه

في السنوات الأخيرة، وصناعة الذكاء الاصطناعي مع التطور السريع التعلم العميق (الشبكة العصبية الاصطناعية) التي تلعب دورا حيويا، ولكن أيضا على عمق التركيز الحقول كشف الوجه للدراسة، يتم استخدام البحث لتحديد هوية الشخص يمكن أن يكون على نطاق واسع المستخدمة في السلامة العامة، ومكتب الشركة، والتعليم، والتفاعل بين الإنسان والحاسوب وغيرها من المجالات. تختلف عن بصمات الأصابع، وقزحية لا يوجد جهاز خاص الاستحواذ، ونظام التعرف على الوجه يحتاج فقط لجهاز مع وظائف الكاميرا (مثل الهواتف المحمولة والكاميرات وغيرها) يمكن أن تلبي الاحتياجات، لديه ميزة فريدة من نوعها.

حاليا، تم الهبوط تكنولوجيا كشف الوجه في كل مكان، وأيضا معروفة. على سبيل المثال، لضمان السلامة، وقد تم تغطية سيدني للكريكيت بالكامل تكنولوجيا الكشف عن الوجه. من أجل حسابات وهمية تجنب، البنك الصناعي والتجاري الصيني في 215 منافذ تتيح كشف الوجه، من أجل القاصرين حماية ويضاف كشف الوجه جدار الحماية لالأهتزاز في. "كشف الوجه" سوف تساعد على العثور على أقارب ومحطة الإنقاذ الأخرى. وفي الوقت نفسه، فقد حان عصر الإنترنت +، وحماية الخصوصية والاهتمام أكثر عدد أكبر من الناس، ولكن أيضا تعزيز التنمية أسرع من البحوث والتكنولوجيا كشف الوجه.

عملية ذكية إلى حد كبير نظام كشف الوجه هو مبين في الشكل.

اليوم، وتكنولوجيا الكشف عن الوجه خاصة في الفئات الثلاث التالية:

(1) بناء على ميزة Harr سلسلة Adaboost المصنف، اقترح طريقة من الرئيسين VIOLA P وJONES M J. في البداية ميزات استخراج الكثافة الظاهرية، سوف يكون الأمثل مع بيانات التدريب والتصنيف ليس واضحا المرحلة التالية من البيانات التي تم الحصول عليها متكررة الدقة ميزة مستخرج، ثم استخراج تتالي إلى عدد وافر من كثافة أعلى شلال الدقة ، صالحة باستخدام صورة متكاملة استخراج صورة قيمة الميزة.

(2) نموذج جزء تشوه (تشوه أجزاء النموذجي) على أساس جزء الوجه كما مجتمعة. يتم احتساب بداية كل عنصر للحصول على التدرج الاتجاه الرسم البياني، ودعم آلة المتجهات (Surpport آلة المتجهات) تدريب المصنف، ويمكن إجراء عملية التصنيف التي كتبها المصنف.

(3) كشف الوجه على أساس شبكة العصبية باستخدام اثنين من شبكة عصبونية التفافية لكشف الوجه، ومواجهة ينفذ المرحلة الأولى لتحديد المواقع الخشنة، وتحديد المواقع غرامة للمرحلة الثانية ينفذ وجهه. بحلول عام 2015، في إطار لعبة ImageNet الساخنة، ساشين ياهو وغيرها باستخدام الأسلوب أعلاه لكشف الوجه، والمكان، والنتائج الجيدة التي تحققت. الحاجة تجهيزها العملية بعد كشف الوجه، والهدف من ذلك هو الحد من تأثير الضوضاء على الصورة من قبل عدد من تقنيات معالجة الصور، والتباين والسطوع والتعديلات المناسب التشبع، من أجل تحسين دقة النتائج.

اطلاق النار هناك العديد من الشكوك في الحياة الحقيقية، مثل الضوضاء الأجهزة الكاميرا والإضاءة والتفاف. من أجل القضاء على تأثير العوامل الخارجية، والحاجة لعمليات معالجة قبل تتصل الصورة الأصلية. تتضمن المعالجة تعويض سطوع صورة الوجه، وتصفية الحد من الضوضاء ومعادلة الرسم البياني. عادة الأولية قبل العملية على أساس بسيط 2D صورة، مع تقدم التكنولوجيا تدريجيا استنادا تتطور في 3D النمذجة خطوة المعالجة.

وحقق درجة من استخدام الطريقة الثالثة. في هذه الورقة، وضعت البيانات LFW (وجوه وصفت في البرية) وجه عدة مجموعات البيانات بتدريب 20000 بيانات الصورة، و 50،000 التكرار تأتي caffemodel ومرتبطة ارتباطا كاملا، FIG. 2 هو جزئية الوجه وعدم وجها البيانات البيانات، FIG 3، FIG. 4 هو نموذج بيانات قياس الأبعاد التدريب المصنف المشتقة منها، بما في ذلك البيانات عضوية وجه الشرح، مسار البيانات وتنسيق الموقف من وجهه، ولقد ثبت نموذج للحصول على نتائج جيدة تصنيف. ثم استخدامه للكشف عن الصور جهه. الكشف عن بيانات الصور لاستخدامها لمرحلة ما قبل التدريب للحصول على خصائص انتشار caffemodel FIG جيدة، ويمكن تحديد من إحداثيات وجها ليتم الكشف.

1 AlexNet التلافيف هيكل الشبكة العصبية

الشبكة العصبية التلافيف هي طبقة التفاف العامة، طبقة المجمعة، وطبقات مرتبطة ارتباطا كاملا التراص. هيكل الشبكة التلافيف هي طبقة مهمة من ارتفاع الأبعاد صورة استخراج ميزة، المقابلة لالدماغي البشري ينظر: في عملية الكشف عن الصورة، لم يتم الكشف عن الصورة بأكملها في وقت واحد، ولكن لكل من ميزة الصورة الأولى الاستشعار المحلي، وأكثر من ذلك على مستوى عال عملية شاملة المحلية للحصول على المعلومات العالمية.

وظيفة تفعيل إخراج ReLU طبقة التفاف تفعل تعيين غير الخطية. بركة سباحة طبقة تسمى أيضا دون أخذ العينات أو أسفل أخذ العينات، هو أساسا تستخدم لتقليل حجم الميزة، عدد من البيانات والمعلمات مضغوط للحد من الإفراط في تركيب، وزيادة التسامح مع الخطأ من نموذج، وحتى أن هذا النموذج أفضل وأسرع نحو أكثر تركيب اتجاهي ممتازة.

AlexNet هو بنية كلاسيكية التطبيق الناجح لعمليات المذكورة أعلاه. وقد صممت من قبل KRIZHEVSKY A وغيرها وفاز باللقب في عام 2012 ILSVRC، وسوف يعترض انخفض معدل الخطأ تصنيف من 25.8 إلى 16.4 قبل في ذلك الوقت للوصول إلى المستوى الأمثل. AlexNet مجموعات البيانات الكبيرة يمكن تدريب وشبكة أعمق. يتكون هذا النموذج من 8 طبقات، خمس طبقات وثلاث طبقات التفاف مرتبطة ارتباطا كاملا. FIG 5 هو مخطط تكوين شبكة AlexNet ومعايير مفصلة من كل طبقة، يمكن كافيه استخدام هذه المعايير لتعريف كل طبقة في بناء الشبكة، ولكن لكشف الوجه، وهي مهمة تصنيف الثنائية التي تتطلب الاتصال الكامل للطبقة مشاركة عدد الطبقات في فئة المهمة المطلوبة، الأصلي 1000 إلى تعديلين.

يتم استخراج 6 باستخدام كافيه وظيفة التفاف بنيت بعد تأثير، ثم يمكنك زيادة المعلومات المفيدة استخراج الخلايا عملية التفاف المستخرجة الإحداثيات أعلى الأبعاد من هذا الرقم يمثل حجم بكسل والاختلاف.

2 كافيه إطار التعلم العميق

وكتب بيركلي كافيه هو إطار واضح ودراسة متعمقة فعالة، وتخرج الدكتور جايانت جرين من جامعة كاليفورنيا. كافيه نقية C ++ / CUDA العمارة، والمزايا التالية:

(1) وحدات: كافيه الصفر صممت لتكون وحدات، مما يسمح بمد تنسيق البيانات الجديد، وطبقة الشبكة وفقدان الوظيفة.

(2) تمثيل وتحقيق تجزئة: لا البرمجة رمز، ومجرد استخدام شبكة مخصصة العازلة بروتوكول نموذج اللغة في ملف التكوين. في أي شكل من أشكال الرسم البياني احلقي موجهة في والعمارة كافيه شبكة الدعم. سوف كافيه الاتصال تلقائيا الذاكرة المناسبة وفقا لحجم الشبكة لتجنب أثر الذاكرة المفرطة، ولكن أيضا يمكن التبديل بين وحدة المعالجة المركزية والجرافيك.

(3) اختبار التغطية: في كافيه، كل وحدة المقابلة لاختبار واحد.

(4) كافيه الرسمي بيثون وMATLAB ديه نسختين من مترجم لبيثون نسخة، والتنفيذ النهائي للتجربة التحقق تجميعها على بيثون 2.7.

(5) ما قبل التدريب النموذج المرجعي: بالنسبة للمشروعات البصرية، ويوفر كافيه بعض النموذج المرجعي تستخدم فقط لالمجالات الأكاديمية وغير التجارية، ومعظم النماذج يمكن العثور عليها في حديقة الحيوان نموذج كافيه في، لكنها ليست BSD المصدر المفتوح اتفاقية الترخيص.

وفي وقت لاحق قال انه وضعت جايانت فريق البحث SD جيل جديد في إطار الفيسبوك Caffe2. 2018 نيان 4 يو 18 ري، الفيسبوك مفتوحة المصدر Caffe2. إيلاء المزيد من الاهتمام لجيل جديد من إطار وحدات، وعلى الجانب المحمول، ونشر على نطاق واسع من التميز. كما TensorFlow، Caffe2 باستخدام مكتبة C ++ إيجين التي تدعم بنية ARM.

المبدأ 3 خوارزمية

خصائص مدخلات AlexNet الشبكة، والحجم المطلوب للصورة هو 227 227 لإدخال. ولكن حجم الوجه من بيانات الصورة الأصلية قد لا تكون 227 227، بعضها كبير، بعضها صغير جدا. فمن الضروري استخدام الهرم الصورة (صورة الهرم) تحويل متعددة الحجم، ومن ثم من خلال الشبكة العصبية التلافيف نشر المستمدة الرسم البياني المميزة التي تم الحصول عليها بعد التعيين لجميع النوافذ على الصورة من القيمة الاسمية الاحتمالات. هذا الأسلوب هو قيمة احتمال أكبر من 0.95 نقطة ميزة معكوس تحويل للحصول على صورة المقابلة لمنطقة، وهذا هو، والموقف من الإطار وجه.

على الرغم من أن إطار مواجهة جئت تنسيق، ولكن سوف تجد الكثير لتلبية الاحتياجات من النافذة، وتحتاج فقط لإعطاء وجه إنساني للتميز نافذة على الأرجح، وبالتالي، فمن الضروري استخدام NMS (غير الحد الأقصى قمع) خوارزميات للقضاء على الصليب تكرار النافذة والعثور على أفضل وضع للوجه، وجها إنسانيا للعثور على أفضل وضع. 7، ومبدأ الخوارزمية NMS إلى حد كبير، لنفترض أن يؤطر وB إطار كإطار مرشح تضم نفس الوجه، وعبر أكثر من بينهما IOU (تقاطع الإفراط-الاتحاد) أكبر من 0.8، ويعتبر درجة عالية من التداخل، واحتمال أنهم ينتمون إلى القيمة الاسمية الإنسان P (B)> P (أ)، وكتلة المرشح اعدام.

FIG 8 هو مخطط من خوارزمية الكشف الشاملة. مكتبة برمجية مفتوحة للرؤية الحاسوبية قراءتها باستخدام صورة لأول مرة الكشف عن، ومن ثم تنفيذ العمليات التالية.

4 يظهر نتائج

طريقة تمكن منصة لينوكس نظام، ورقم الإصدار هو Ubuntu16.04، والرسومات GPU نموذج بطاقة GTX1080. استخدامات البرامج كافيه + بايثون 2.7 + مكتبة برمجية مفتوحة للرؤية الحاسوبية 3.4.1.

تدريب لأسباب الذاكرة، مجموعة batch_size إلى 64، ولكن ليس عالمي 128. الرقم 9 هو نتيجة للتدريب، كل بعد تسجيل 100 مرة من قيمة الخسارة، يمكنك ان ترى الخسارة التدريب: 0،00301 واختبار الخسارة: 0،00139، في الأساس تلبية الطلب، وعدم الإفراط في تركيب الظاهرة.

FIG 10 هو بيانات الصورة الأولى من صورة الهرم تحويل، ومن ثم الصورة بعد رفع كل خريطة ميزة الحصول عليها قبل نشر FIG الحرارة. في FIG. (6) ونفس التغيير الإحداثيات، يمكن أن نرى بسهولة تغيير في حجم الصورة، والمناطق قتامة الصورة تقر أن احتمال المقابلة بالانتماء إلى قيمة أكبر من الوجه البشري. مع حجم المتغير، كل شيء ممكن موقف وجه الإنسان كل ذلك يأتي إلى استنتاج مفاده أن وجها تأطير الأمثل من قبل خوارزمية NMS.

FIG 11 هو حجم مختلف، مختلف البيانات صورة قرار الوجه (صورة مجموعات البيانات من الشبكة و300W، تضم وجه أمامي، وجوه جانب وجوه متعددة) من نتيجة الكشف الفعلية، والتي يمكن الكشف عنها جيدا إطار الوجه، أن هذا النموذج له نتائج تصنيف جيدة، للكشف عن ملامح الوجه.

5 الخاتمة

وهنا ندرك كشف الوجه، بسيطة وفعالة وسهلة التشغيل كافيه عمق إطار التعلم، لبناء شبكة AlexNet، التي تم الحصول عليها من خلال بيانات التدريب caffemodel المصنف كبيرة، وانزلاق نافذة الخوارزمية باستخدام الطريقة التقليدية، واستخدام غير هرم تحويل ماكسيما خوارزميات قمع واستخدام الكمبيوتر الرؤية وجه مؤطرة أدوات قوية مكتبة برمجية مفتوحة للرؤية الحاسوبية، لتحقيق التفاف الشامل الشبكة العصبية كشف الوجه. ولكن الجانب السلبي هو أن هذا النموذج لا يمكن التعرف بشكل فعال وجوه متعددة، لا يمكن تحديد سطوع الصورة أقل، فإن الخطوة التالية ليتم اعتماد البيانات أكثر شمولا وتحسين الاستفادة المثلى من الشبكة (مثل VGGNet، GoogleNet وResNet، الخ) للتدريب، لتحقيق أكثر من كشف الوجه، وتوطين والتعبير عن النقاط الرئيسية للكشف عن وظائف أخرى، أو محاولة Caffe2 لنهاية النقالة كشف الوجه الارتباط.

مراجع

 . مناطق التكاثر دينغ تشاو التركيز واتجاه التنمية لمنتدى الاصطناعي الناس المخابرات، 2018 (2): 22-24.

 البحوث وتطبيق لى وى التعلم العميق في التعرف على الصور ووهان: جامعة ووهان للتكنولوجيا، 2014.

 جيانغ Zhaojun تشنغ شياو قانغ، بنغ يقين، مثل الطائرات بدون طيار تكنولوجيا التعلم عمق خوارزمية التعرف مقرها الإلكترونية، 2017،43 (7): 84-87.

 . XU غوي باو "الإنترنت +" استراتيجية تطوير التكنولوجيا الصناعية الاستخبارات لحل الاتصالات السلكية واللاسلكية في العالم، 2016 (3): 71-75.

 VIOLA P، JONES M J.Robust في الوقت الحقيقي وجه detection.International مجلة الحاسوب الرؤية، 2004،57 (2): 137-154.

 أغنية جين وانغ Shifeng والروبوت كشف الأهداف على أساس HOG عضوا تشوه ملامح نموذج التطبيقية البصريات، 2016،37 (3): 380-384.

 هو جين تاو Fahuan، ليو قوه بينغ، هو جين رونغ هوا، وغيرها من كشف الهرمي يقوم على رؤية الجهاز وجودة البرتقال السرة SVM جامعة بكين للتكنولوجيا، 2014 (11): 1615-1620.

 RUSSAKOVSKY O، DENG J، SU H، وآخرون al.ImageNet على نطاق واسع التعرف البصري challenge.International مجلة رؤية الحاسوب، 2015،115 (3): 211-252.

 . ووي دراسة التعرف على الوجه كافيه منصة وعمق التعلم القائم في مدينة شيآن: شيان جامعة العلوم الالكترونية والتكنولوجيا، 2015.

 وانغ تشيان تشانغ شيان إطار التعلم عمق كافيه في تطبيق تصنيف الصور من الكمبيوتر الحديثة، 2016 (5): 72-75.

 جيا Yangqing، SHELHAMER E، دوناهو J، وآخرون al.Caffe: العمارة التلافيف لميزة سريعة embedding.arXiv: 1408.5093،2014.

 KRIZHEVSKY A، SUTSKEVER I، تصنيف HINTON G.ImageNet مع networks.Advances العصبية تلفيفي في عمق العصبية نظم المعلومات المعالجة، 2012،25 (2): 1097-1105.

 BADAWI A A، تشاو J، J لين، وآخرون al.The AlexNet حظة التشفير التماثلي: HCNN، أول CNN متماثل الشكل على البيانات المشفرة مع GPUs.arXiv: 1811.00778v2،2019.

 . كلمات تينغ تينغ شو شو على أساس أخذ العينات الكاملة والتقليل من أخذ عينات من L1 القاعدة التلافيف برامج شبكة الأسلوب العصبي تصنيف الصور، 2018،39 (2): 75-80.

 Xushao وي، تشن Siyu دراسة متعمقة للطريقة تصنيف الصور القائمة على التكنولوجيا الإلكترونية، 2018،44 (6): 122-125.

 . شيه يونيو، تشن وي التلافيف البحوث الشبكة العصبية في برنامج التعرف على الوجه GUIDE 2018 (1): 25-27.

الكاتب المعلومات:

وانغ جينغ بو، منغ يونيو

(أهم مختبر لقياس الالكترونية والتكنولوجيا، جامعة نورث، وتاييوان 030051، الصين)

باليد الحجر مكنسة كهربائية H6 تجربة لاسلكية للبدء: القيمة الاسمية للقوة الشاملة للأداء ثنائي خط V10 دايسون قحا

شين دعابة الصوت "، المتخصص أمي" وقال تشى هوا تشانغ: بي شومين الأكثر مبيعا رواية "فيروس كورولا" كيفية الكتابة

لا البطل أخت، أخ وأخت هو البطل

بدا شنغهاي "الجمعية البطل"! الدوري على الانترنت لعبة الدوري عودة الربيع، S10 يكون وراء ذلك بكثير؟

تحلق فوق تيار جبل تشو نهر وشارع هان، ونتطلع إلى الربيع في ووهان إعادة تشغيل!

مستشفى الأول من وهان عيادة الانتعاش في اليوم الأول، ما يقرب من 500 مريض مع موعد لرؤية الطبيب

قبل السيارة جاءت محملة بالخضار والمجتمعات الأسماك

مغلق تماما المكاتب المكيفة "الحق في فتح الطريق."

يومين من تشغيل "نصف حصان" تنضج الناس، حتى أنها لعبت مع وتيرة 47 المسنين الذين يعيشون بمفردهم

تسريع التقدم البناء لبناء مشاريع جديدة في

تصحيح تلقائي من النص الصيني محول نموذج

تعويض وظيفة برمجة بكفاءة عالية، وكثافة عالية وحدة منظم PSM