يعلمك طريقة بسيطة للكشف عن عمق التعلم ملامح الوجه

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: قد شهدت في بعض البرامج الهاتف المحمول مواجهة زيادة إعطاء التطبيق المؤثرات الخاصة، وأنها ستضيف بعض الأشياء المثيرة للاهتمام جدا للفيديو صورة شخصية، وبعض من أكثر إثارة للاهتمام يمكن الكشف عن تلقائيا حدد التعبير المناسب الكائنات. ستكون هذه المقالة العلم العميق التعلم باستخدام أساليب الكشف عن التعبير الوجه، لفترة وجيزة تحت طرق الكشف التقليدية.

في الماضي، كشف الوجه والملامح، بما في ذلك العينين والأنف والفم، وحتى تعابير الوجه من الصعب جدا استخراج من شكلها، ولكن الآن، يمكن لهذا العمل أن يكون "سحرية" ليتم حلها بواسطة عمق التعلم، أي ذكي يمكن أن تكتمل الشباب في غضون ساعات قليلة. شبكة المادة AI تقنية مراجعة لى فنغ جمعت هذا الطالب بيتر Skvarenina من معهد جورجيا للتكنولوجيا وسوف يعرض هذا التطبيق.

طريقة "التقليدية" (CLM)

افترض أنك مثلي، وتحتاج الآن إلى تتبع الوجه (في حالة من هذه المادة، ويشير إلى حركات الوجه لشخص ما عن طريق كاميرا ويب متزامنة إلى الطابع يصل المتحركة)، قد تجد أنه قبل تحقيق هذه المهمة أكثر خوارزمية جيدة نموذج محلي القيد (CLM)، ومقرها كامبريدج الوجه المقتفي أو OpenFace. هذا الأسلوب هو التحلل مهمة الكشف، إلى الخصائص كشف ناقلات الشكل (على ASM)، الخطي قالب صورة SVM بودنغ (AAM) وباستخدام عدة تحسين عملية الكشف عن خطوة واحدة مدربة مسبقا.

أولا، تقدير تقريبي من النقطة الحرجة، ومن ثم استخدام جزء المدربين قبل صورة من المعلومات الواردة وجه إجراء عملية SVM، في حين أن الموقف من النقاط الرئيسية التي يجب تصحيحها. يتم تكرار هذه العملية عدد وافر من الأوقات، إنشاء خطأ حتى يتم أدناه متطلباتنا. وعلاوة على ذلك، فمن الجدير بالذكر أن هذا الأسلوب يفترض موقفا من صورة الوجه ويقدر، وذلك باستخدام كما فيولا جونز للكشف عن (شلال هار). ومع ذلك، وهذه الطريقة ليست على مستوى راقي جدا من طلاب المدارس الثانوية يمكن أن تحقق بسهولة، والهيكل العام كما يلي:

التعلم العميق (ديب التعلم)

من أجل تحقيق المادة المذكورة في البداية، حتى أن الشباب يمكن أن يكون الهدف من كشف الوجه، ودراسة متعمقة لنهجنا لإدخال. هنا، سوف نستخدم الشبكة العصبية التلافيف بسيطة جدا (CNN، الشبكة العصبية التلافيف) والكشف عن أجزاء مهمة من الوجه البشري على بعض الصور التي تحتوي على وجه الإنسان. للقيام بذلك، نحتاج أولا إلى قاعدة بيانات التدريب، وهنا يمكننا استخدام الوجه الاعتراف الموقع Kaggle توفير قاعدة بيانات التحدي، تحتوي على 15 نقاط أساسية، أو قاعدة بيانات أكثر تعقيدا MUCT، فقد 76 نقطة أساسية (رائع!).

ومن الواضح أن نوعية التدريب قاعدة بيانات الصورة الأساسية، هنا، فإننا نشيد "الفقراء" طلاب الجامعات الذين يتخرجون إلى "التضحية" وقتهم وطاقتهم على تميزت هذه الصور، حتى يتسنى لنا هذه يمكن أن تكون تجربة مثيرة للاهتمام.

ويستند التالية على مظهر الوجه الباروك والنقاط الرئيسية قاعدة بيانات Kaggle:

قاعدة البيانات هذه هي صورة من القرار 96 * 96 ظلال من الرمادي، والنقاط الرئيسية 15، 5 نقاط لكل منهما على التوالي التي تضم اثنين من العينين والأنف والفم، ما مجموعه خمس نقاط.

للحصول على أي صورة، يجب علينا أن الوجه الأول لتحديد مكان، حتى مع كشف فيولا جونز المذكورة أعلاه، وعلى أساس الهندسة المعمارية سلسلة هار (إذا نظرتم الى عملية التنفيذ، وسوف تجد أنه من مفهوم مشابه لCNN). إذا كنت تريد أن خطوة أقرب، يمكنك استخدام كامل الإلتواء شبكة (FCN، تماما شبكة التلافيف) واستخدام التنبؤ عمق للتجزئة الصورة.

بغض النظر عن الطريقة التي تستخدمها، فهي بسيطة جدا لمكتبة برمجية مفتوحة للرؤية الحاسوبية:

Grayscale_image = cv2.cvtColor (صورة، cv2.COLOR_RGB2GRAY)

face_cascade =

cv2.CascadeClassifier ( 'haarcascade_frontalface_default.xml "

)

bounding_boxes = face_cascade.detectMultiScale (grayscale_image، 1.25، 6)

خطوط قليلة من التعليمات البرمجية أعلاه يستخدم، الصورة قد تكون بعيدة عن الوجه المربع.

ثم، على يتم إرجاع مواجهة كل كتلة، ونحن استخراج صورة جزئية فيه صورة مقياس الرمادية ولضبط لهم إلى تحويل حجم هو 96 * 96. تصبح بيانات الصورة التي تم إنشاؤها حديثا مدخلات أكملنا شبكة CNN. العمارة CNN هو الأكثر شيوعا، والالتواء طبقة 5 * 5 (في الواقع، طبقة 3، و 24، و 36 هي كل 48 RELU)، تليها طبقتين 3 * 3 الإلتواء (كل 64 ReLU)، وذلك باستخدام آخر ثلاث طبقات مرتبطة ارتباطا كاملا (500،90 وتحتوي على 30 وحدة). ماكس تجميع استخدامها لتجنب استخدام كمية زائدة المراد دمجها للحد من متوسط تجميع العالمي للتمهيد المعلمة. الناتج النهائي للبنية نقطة عائمة 30، والذي يتوافق مع كل من 15 نقطة رئيسية مثل س، ص تنسيق القيم.

وفيما يلي عملية التنفيذ Keras:

نموذج = متسلسل

model.add (BatchNormalization (input_shape = (96، 96، 1)))

model.add (Convolution2D (24، 5، 5، border_mode = "نفس"،

الحرف الأول = 'he_normal، input_shape = (96، 96، 1)،

dim_ordering = "فريق العمل"))

model.add (التنشيط ( "relu"))

model.add (MaxPooling2D (pool_size = (2، 2)، خطوات = (2، 2)،

border_mode = "صالحة"))

model.add (Convolution2D (36، 5، 5))

model.add (التنشيط ( "relu"))

model.add (MaxPooling2D (pool_size = (2، 2)، خطوات = (2، 2)،

border_mode = "صالحة"))

model.add (Convolution2D (48، 5، 5))

model.add (التنشيط ( "relu"))

model.add (MaxPooling2D (pool_size = (2، 2)، خطوات = (2، 2)،

border_mode = "صالحة"))

model.add (Convolution2D (64، 3، 3))

model.add (التنشيط ( "relu"))

model.add (MaxPooling2D (pool_size = (2، 2)، خطوات = (2، 2)،

border_mode = "صالحة"))

model.add (Convolution2D (64، 3، 3)) model.add (التنشيط ( "relu"))

model.add (GlobalAveragePooling2D)؛

model.add (الكثيفة (500، وتفعيل = "relu"))

model.add (الكثيفة (90، تفعيل = "relu"))

model.add (الكثيفة (30))

قد ترغب في اختيار RMS انتشار (rmsprop) تحسين والخطأ التربيعية يعني (MSE) بوصفها وظيفة خسارة والمواصفات دقة. تحتاج فقط إلى استخدام تجهيز الدفعات على الصورة المدخلات وتطبيع متوسط اجتياز العالمي (متوسط الاقتراع العالمي) وسعادة العادية الوزن التهيئة، يمكنك الحصول على 80 -90 من التحقق من دقة في غضون 30 دورات تدريبية وتحقيق

model.compile (محسن = 'rmsprop "، وفقدان =' MSE، مقاييس =

)

checkpointer = ModelCheckpoint (أسم دليل = 'face_model.h5، مطول = 1، save_best_only = صحيح)

العهود = 30

اصمت = model.fit (X_train، y_train، validation_split = 0.2،

خلط = صحيح، العهود = العهود، batch_size = 20، الاسترجاعات =

، مطول = 1)

تعليمات بسيطة لأداء التنبؤ موقف نقطة حرجة:

يتميز = model.predict (المنطقة batch_size = 1)

حسنا! والآن بعد أن كنت قد تعلمت كيفية اكتشاف نقطة مفتاح الوجه!

وللتذكير، فإن التنبؤ الخاص بك هو 15 زوجا (س، ص) تنسيق يمكن البرهنة القيم في الصورة التالية:

إذا كانت العملية المذكورة أعلاه لا يمكن تلبية الاحتياجات الخاصة بك، يمكنك المضي قدما على النحو التالي:

كيفية الحد من عدد من التجارب وطبقة مرشح الإلتواء مع الحفاظ على تحسين دقة وسرعة التفكير.
استخدام نقل التعلم لاستبدال جزء من الإلتواء (Xception هو المفضل لدي)
استخدام قاعدة بيانات أكثر تفصيلا
القيام ببعض تحسين الصورة المتقدمة لتحسين متانة

قد لا تزال تشعر بسيط جدا، فمن المستحسن أن تتعلم أن تفعل صفقة مع بعض 3D، يمكنك الرجوع إلى الفيسبوك وNVIDIA هي الطريقة التعرف على الوجه وتتبع.

وبالإضافة إلى ذلك، يمكنك استخدام بعض من تم تعلمها (كنت قد أردت دائما أن تفعل ولكن لا نعرف كيفية تحقيق) هذه الأشياء الجديدة:

في دردشة الفيديو، وطرح بعض الصور متعة وضعها على الوجه، مثل: النظارات الشمسية، وقبعة مضحكة واللحية وهلم جرا؛
يواجه الصرف، بما فيهم أنت ووجه صديقك والحيوانات والكائنات وهلم جرا.
اختبار المنتجات في الوقت الحقيقي الصور الشخصية للفيديو مع بعض قصات الشعر الجديدة، والمجوهرات والماكياج.
كشف موظفيك ليست قادرة على الشرب لبعض المهام.
استخراج التعبير الشعبي الحالي من ردود الفعل من الناس في الوجه.
استخدام ضد شبكة (GANS) في الوقت الحقيقي للوجه - تحويل الرسوم المتحركة، واستخدام الشبكة لمزامنة الوقت الحقيقي الرسوم المتحركة في الوجه والتعبير.

حسنا - الآن كنت قد تعلمت كيفية جعل حياتك الخاصة مرشحات دردشة الفيديو، والذهاب جعل متعة من ذلك!

شبكة عبر بيانات العلوم @ المتوسطة، لى فنغ جمعت AI تقنية الاستعراض.

طريق الحرير

يعلمك طريقة بسيطة للكشف عن عمق التعلم ملامح الوجه

طريقة "التقليدية" (CLM)

التعلم العميق (ديب التعلم)

عودة الرسمية مؤتمر الابتكار ممن لهم ملصق الجمهور بعد عامين مرحلة MWC

أطلقت مايكروسوفت إكس بوكس واحد X نخبة جديدة بيضاء ومقبض المضيف

فقط 100،000 من المشروع غير مشترك لشراء العديد من النماذج يجب أن ننظر إلى هذا

كيف فاز فريق أبحاث الأمن الصيني بفضل تسلا؟

على أساس خط نقل مزدوج CRLH قوة غير متكافئة الخائن

BYD خط سحابة السكك الحديدية في التشغيل التجاري ينتشوان الى المرور، وضرب "الأولين"

فنغ شياو قانغ "الشباب" تمديد مفتاح، السنة الجديدة الصينية السنوية لمكافحة ظاهرة تصنيفا الأفلام

عن "استهلاك الوقود" من حولنا، ما هي الأخطاء الشائعة؟

التنقيط النمذجة الأجهزة القائمة UML وSystemC خط الهندسي للGPU

الجبهة فقط أبل ووتش: ساعة فيتبيت أول ذكية حقا | IFA 2017 ووتش المشهد

الآسيوية جامعة أساطير "ألعاب مباراة استعراضية الفريق الصيني 3: 1 النصر على مكاسب بطل كوريا الجنوبية!

صدر NVIDIA بلغت 2019 أرباح السنة المالية رقما قياسيا عائدات صناعة الألعاب

"عالم رائع النهائي ريميكس" محتوى جديد إضافي "يوم جديد" الذكاء نشر

بيزوس القلق: تحالف منظمة التعاون الاقتصادي للحرب مايكروسوفت مايكروسوفت كورتانا ورئيس ذكي

ربطها الكثير من المتاعب، أطلقت نايك تكييف BB كرة السلة الذكية حذاء نظرة

تعبت من ضرر! وأن العديد من سيارة SUV طالما الله تكون قادرة على يد 100000

إيثان هوك وشو تشينغ بو مينغ "هو جين دو" "24: ولادة جديدة مسدود" الأسرة اللقطات السرية

الياباني الأسبوع مبيعات لعبة / الأجهزة 20188،20-8،26

"الأكاديمي" وصلة الاتصال القائمة على FPGA-EtherCAT من محطة تحليل والتأكيد

أطلقت هواوي تكنولوجيز في العالم أول هاتف محمول AI على رقاقة والعمليات الرسمية BYD سحابة السكك الحديدية في ينتشوان، والثمن هو فقط 1/5 مترو الانفاق

و alipay مباركة MG ZS حقا قوية بيع نسخة RX5 من ذلك؟

"البقع الساخنة صناعة" الذكاء الاصطناعي ومن دون طيار تصبح السنوات المقبلة 3--5 النمو على المدى الطويل لصناعة أشباه الموصلات

طريقة "التقليدية" (CLM)

التعلم العميق (ديب التعلم)

الأحكام ذات الصلة