مختبر التصوير ميتو (MTlab) 10000 نقطة مواجهة التفسير الكامل من التكنولوجيات الرئيسية

أطلقت لى فنغ شبكة AI تقنية الصحافة، قبل أيام قليلة، مختبر التصوير ميتو (MTlab، Meitu التصوير والرؤية مختبر) على "100003D تقنيات مفتاح الوجه" - استخدام تكنولوجيا التعلم عميقة لتحقيق 10000 نقطة من الوجه رسم الخرائط ميزات غرامة، التكنولوجيا يمكن بناء وجه اللاعب في المباريات VR وشخصية 3D لعبة مدفوعة، ويمكن أيضا أن تطبق على المحاولة، محاولة مستحضرات التجميل ماكياج الظاهري والمجالات الطبية. هذا المقال هو التفسير الوحيد لميتو التصوير مختبر MTlab على أساس هذه التكنولوجيا توفر لشبكة لى فنغ AI تكنولوجي ريفيو. النص على النحو التالي:

مقدمة موجزة

في مجال الرؤية الحاسوبية، النقاط الرئيسية في الوجه في المواقع البصرية والرسوم البيانية في مجموعة واسعة من التطبيقات، بما في ذلك تتبع الوجه، والتعرف على العاطفة والتفاعلية مهام تحرير الصور الفيديو ذات الصلة للوسائط المتعددة. حاليا صناعة يشيع استخدام تقنيات مفتاح الوجه 2D، ومع ذلك، 2D نقطة وجهه المواقع عدم القدرة على الحصول على عمق المعلومات، وليس تحليل خصائص ثلاثية الأبعاد للمستخدم، مثل أكثر تفصيلا المستعمل العضلات المعلومات أبل، والطيات الأنفية، كما لا يمكن تحليلها المستخدم الموقف الحالي وتعابير الوجه. AI الجمال صورة شخصية قادرة على إضافة تأثيرات الحركة للمستخدم، مثل الأقنعة والنظارات والقبعات 3D وغيرها من البنود، وتوفير نوع أكثر ذكاء من تأثير الجمال، يتطلب مجموعة خاصة من تكنولوجيا الاستشعار عن بعد، وتتبع في الوقت الحقيقي من ابتسامة كل مستخدم، وميض، الخ ملامح الهندسة السطح. لذلك، طور الباحثون ميتو التصوير مختبر MTlab التكنولوجيا الرئيسية 10000 الوجه، وتعزيز الصور الوجه إلى حيز ثلاثي الأبعاد، والموقف المستخدم وتعبيرات الوجه لتكون مفككة، في الوقت الحقيقي تتبع الموقف الحالي للمستخدم، وتعبيرات الوجه شكل الوجه بعد تغيير ملامح الوجه، صورة تعديل مظهر أكثر طبيعية.

واستنادا 3DMM وجه أساسي لتحديد المواقع نقطة

1. ثلاثي الأبعاد نموذج تشويه (3DMM)

في عام 1999، اقترح علماء في جامعة بازل، سويسرا وBlanz فيتر طريقة مبتكرة جدا - نموذج تشوه ثلاثي الأبعاد (3DMM). ويستند نموذج تشوه ثلاثي الأبعاد على قاعدة بيانات الوجه ثلاثية الأبعاد، وجها لشكل الوجه والملمس كما إحصاءات القيد، مع الأخذ بعين الاعتبار تأثير العوامل تشكل وإضاءة الوجه والوجه عالية الدقة نموذج ثلاثي الأبعاد ولدت.

3DMM

كما هو مبين في الشكل 3DMM الفكرة الرئيسية هي: قد تكون نموذجا وجه تركيبة خطية من طراز وجه الحالية. وهذا هو، عن طريق تغيير معاملات، ويولد وجها مختلفا على أنها كانت أساس الوجه. على افتراض تشوه وجه 3D نموذج نموذج الوجه التي كتبها م، حيث تضم كل نماذج الوجه وجها منها، ونوعين من ناقلات الملمس، بحيث يمثل جديدة نماذج الوجه 3D، ويمكن استخدام ذلك على النحو التالي:

بين

يمثل متوسط نموذج شكل الوجه،

يمثل PCA شكل الجزء،

وهو يمثل معامل المقابلة لوجه.

اقترح Blanz وفيتر 3DMM يحل مشكلة الوجه نموذج التعبير تشوه، لكنه لا يزال موجودا على التعبير تعبيرات الوجه غير كاف بشكل واضح. 2014، ويعرض ورقة FacewareHouse هذا ويكشف قاعدة بيانات التعبير في الوجه، مما يجعل 3DMM مع أكثر تعبيرا، وخطي نموذج الوجه يمكن توسيعها لتمثيل:

في مواجهة قاعدة البيانات الأصلية، وزيادة التعبير

،

فإنه يشير إلى أن معامل التعبير المقابلة، معامل يسمح في الوقت الحقيقي التعبير تتبع ممكن.

نموذج 2. ميتو MT3DMM

من أجل توصيف أكثر دقة شكل 3D مختلفة من الوجه، ومناسبة لمجموعة واسعة من عرقية، فريق MTlab R & D باستخدام معدات متطورة 3D المسح جمع 1200 حرفا مختلفة، كل منها 18 نوعا من التعبير عن بيانات الوجه 3D، مقسمة بالتساوي حسب الجنس، ومعظمهم من الصينيين، الذين تتراوح أعمارهم تتراوح بين 12 إلى 60 سنة، أكثر من 20،000 عدد من النماذج، وبناء على هذه البيانات، وإنشاء نموذج يستند إلى الشبكة العصبية عمق MT3DMM. مقارنة لتعميم نموذج 3DMM الحالي، MT3DMM لديها واحد من أعلى طراز الوجه 3D من معبرة، عالية الدقة نموذج، وبما يتفق مع خصائص الآسيويين الشخصي وجه، هو دقة هذه الصناعة.

3DMM نموذج، يمثل الوجه متوسط، ويتضمن أيضا معلومات حول انحراف وجهه يعني. على سبيل المثال، وجه واسع من نموذج عملية شد الوجه على أساس مواجهة واسعة من نموذج يمكن الحصول عليها عن طريق تعديل ميزات النسبة. مع هذه العلاقة، الكمبيوتر تحتاج فقط إلى استخدام وجه المستخدم ووجه متوسط المعلومات الانحراف، فمن الممكن لتوليد نموذج محدد 3D للمستخدم. وعلاوة على ذلك، هذه الانحرافات مزيد المؤلف من سن عام والجنس والمعلمات طول الوجه. ومع ذلك، وهذا هو أيضا مشكلة، مواجهة عالم متغير باستمرار، ليتم تخزين كل الوجوه ومتوسط الانحراف وجهه لأسفل، ونماذج 3DMM تحتاج إلى دمج كميات كبيرة من المعلومات من وجهه، ولكن النموذج الحالي المفتوحة المصدر في التقليد من الأعمار والأجناس المختلفة القدرة على منطقة الوجه محدودة جدا.

BFM بيانات الوجه المبين أدناه هي الوجه الغريبة في الأساس، وجه الآسيوية مع وجود اختلافات توزيع البيانات، والبيانات Facewarehouse وجه معظمهم من آسيا، ولكن مع كينيكت مسح نموذج أقل دقة هناك مشكلة، SFM مفتوحة المصدر يتضمن بيانات سوى ستة أنواع التعبيرات، وانخفاض دقة النموذج لا يمكن تلبية احتياجاتنا، والبيانات LSFM يحتوي على المزيد من البيانات وجهه، ولكنه لا يشمل التعبير، والتعبير لا يمكن أن تستخدم لتعقب المستخدمين.

بيانات جزئية SFM وBFM البيانات

في حين يتم فحص النموذج مع نموذج عالية الدقة، ولكنه لا يشمل المعلومات الدلالات المحددة. ولذلك، فريق 3D R & D MTlab وضعت خصيصا خوارزمية التسجيل الآلي مع أن يتم تكريره مسجل لنموذج المسح الضوئي، لا المعايرة اليدوي كما هو مبين أدناه:

عملية التسجيل

النتائج توليد نموذج

وأخيرا، امدادات جيدة من قبل جميع المسجلين 3D نموذج MT3DMM دمجها في قاعدة بيانات لنقطة الوجه رئيسية الموقع 10000. يوفر درجة عالية من الدقة نموذج المسح لتطوير وظائف أخرى أيضا أكثر الاحتمالات.

3. إنتاج البيانات

لتكون قادرة على لعب ميزة كبيرة من البيانات التعلم عميقة، تحتاج إلى توفير الكثير من البيانات إلى الشبكة العصبية، صمم الباحثون MTlab مجموعة بيانات إنتاج خوارزمية تعقيد عالية، جنبا إلى جنب مع نموذج MT3DMM عالية الدقة لإنتاج كميات كبيرة من البيانات التدريب. بالمقارنة مع التدريب التيار طريقة إنشاء البيانات الحالية، يمكن للبيانات التدريب MTlab يكون فصل فعال وجهه، وتعبيرات الوجه والمعلومات الموقف، وأثناء أداء دقيق نقطة كثيفة وجه لتحديد المواقع، والمؤثرات الخاصة وأداء AR دقيقة بالسيارة تعبيرات الوجه.

يمكن أن تتحول مشكلة إعادة الإعمار وجهه إلى الطلب من الصيغة أعلاه

،

السؤال معامل، لدينا نموذج حدودي الوجه 3D

مع 2D نقطة ميزة

بعد رسم الخرائط، الصيغة التالية يمكن تركيبها على وجهه، حل عملية محددة كما يلي:

هنا

ومن المتوقع نموذج ثلاثي الأبعاد لنقطة طائرة ثنائية الأبعاد، P هو إسقاط مصفوفة متعامدة، R هو مصفوفة التناوب،

مصفوفة التشريد، حتى نتمكن من حل المشكلة ثلاثية الأبعاد في حل معادلة الطاقة التالية:

هنا إضافة جزء التنظيم، حيث

PCA هو معامل (بما في ذلك عامل الشكل

ومعاملات التعبير

وهو يمثل الانحراف تبعا للمكون الرئيسي.

هي الأمثل معظم خوارزميات إعادة الإعمار 3D الحالي مع لفتة، وتعبيرات الوجه والمعلمات، وهؤلاء الثلاثة لا يمكن أن تكون مفتوحة أمام مستقلة، لتكون قادرة على وضع فصل، وتعبيرات الوجه، والعلاقة بين وجهه، ويتضمن بيانات MTlab شخص تحت تعبيرات مختلفة لنفس الموقف، والموقف من مجموعات البيانات المختلفة تحت نفس التعبير، واستخدام استراتيجيات المشتركة الأمثل لحساب المعلمات الوجه والموقف وتعبيرات الوجه لكل شخص للحصول على بيانات المعلمة المعلومات موقف فصل يمكن أن تعكس حقا وجهه الحالي معلومات الوجه التعبير والإعلام، والتي تثري سيناريوهات التطبيق.

4. تدريب الشبكة العصبية

التقليدية 3D خوارزمية وجه إعادة الإعمار، سواء كان ذلك هو رأي واحد لإعادة الإعمار، والمزيد من خريطة إعادة الإعمار أو الفيديو تسلسل الإطار إعادة الإعمار، ونحن بحاجة خوارزمية الأمثل لتحسين المعايير المطلوبة من قبل محدبة، من أجل تمكين الخوارزمية في محطة عملية في الوقت الحقيقي النقالة والباحثين MTlab تستخدم عمق الشبكات العصبية نهاية إلى نهاية التعلم، والشبكات العصبية بديلا قويا لتعلم الكثير من الحوسبة عملية التحسين محدبة. تحليل من خلال خصائص شبكة سريعة (SqueezeNet، Shufflenet V2، PeleeNet، MobilenetV2، IGCV3) من محطة متنقلة الحالية، وتوريد من قبل الباحثين المقترحة ThunderNet مناسبة الشبكة الطرفية المتنقلة، ويكون انخفاض استهلاك الطاقة، مع تطور التموين من قبل محرك AI والتقنيات الكمية الأمامية لنموذج، التي تعمل على ميتو T9 معدل الإطار إلى 500fps متناول اليد. نقاط MT3DMM تدريب الشبكة العصبية هي كما يلي:

العملية الشاملة MT3DMM

بيانات الربح: من أجل التكيف في رأس البرية صورة، لذلك أن الحاجة إلى منخفضة الدقة الخوارزمية، والضوضاء، انسداد، أو تحت الحركة وتضم مشاهد الإضاءة المختلفة مع متانة قوية، وتوريد باستخدام كتلة من البيانات، وذلك باستخدام الخوارزميات ومحاكاة اضطراب البيانات في مجموعة متنوعة من التدريب في العالم الحقيقي.

هيكل الشبكة: استخدام شبكة ThunderNet هيكل MTlab التنمية الذاتية، سواء في السرعة والدقة من مع حجم شبكة اتصال سريعة، بما في ذلك SqueezeNet، Shufflenet V2، PeleeNet، MobilenetV2، IGCV3، ولديه انخفاض استهلاك الطاقة.

فقدان وظيفة: معلمات خسارة أساسا خسارة، خسارة النقاط الرئيسية، 3D فيرتيكيس خسارة وفقدان الملمس، وإعادة استخدامها في سلسلة لالأوزان المقابلة، بحيث تلاقي الشبكة لتحقيق أفضل النتائج. تبين أن خسائر المعلمات ويمكن الحصول على المعلمة المعلومات الدلالي أكثر دقة، النقاط الرئيسية لتخفيف يمكن أن تجعل النقطة النهائية من المعلومات الكثيفة وجه تناسب ملامح الوجه، 3D فيرتيكيس الخسارة يمكن الاحتفاظ أفضل وجه 3D الهندسة المستخدم، نسيج الخسارة يمكن لمساعدة الشبكة على تحقيق نتائج أفضل التقارب.

وأخيرا، فإن معلمات الإخراج الشبكة للحصول على، مع MT3DMM العرض عن طريق فك رموز نموذج وجه نموذج 3D المقابلة، وفقا ليمكن الحصول على مصفوفة الموقف وإسقاط جزء النقطة وجه كثيفة. بعد كل نموذج حدودي، ويمكن تحرير كل نقطة من المعلومات الدلالي المقابلة لها على الصورة المقابلة عن طريق تعديل نموذج 3D. ميتو كاميرا الهاتف الزجاج أثر، شخصية المحفوظات الجمال، 3D ذاكرة ذات سعة إصلاح والجمال ترقية ستيريو، 3D تعديل الموقف، التطبيقات منغ تأثير الخفقان، الكاميرا الجمال هالوين ماكياج، ماكياج، اعتمدت الرمزية يشتغل وظائف تكنولوجيا دخول.

مراجع

V. Blanz وT. فيتر. نموذج morphable لتركيب 3D يواجه. وفي وقائع المؤتمر السنوي 26TH على رسومات الحاسوب والتقنيات التفاعلية وصفحات 187- 194، 1999.

تساو C، Y ونغ، تشو S، وآخرون Facewarehouse :. A 3D قاعدة بيانات التعبير الوجه لالحوسبة البصرية . المعاملات IEEE على التصور ورسومات الحاسوب، 2014، 20 (3): 413-425

هوبر P، هو جين تاو G، R تينا، وآخرون. A multiresolution 3D morphable وجه نموذج والإطار المناسب // وقائع المؤتمر الدولي المشترك في جهاز الرؤية والتصوير ونظرية رسومات الحاسوب والتطبيقات. عام 2016 ال11.

كشك J، روسوس A، S Zafeiriou، وآخرون. A 3D نموذج morphable المستفادة من 10،000 وجوه // وقائع مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط 2016 :. 5543-5552.

Iandola F N، S هان، Moskewicz M W، دقة وآخرون SqueezeNet :. AlexNet المستوى مع 50X أقل المعلمات و

ما N، تشانغ X تشنغ H T، وآخرون Shufflenet V2 :. مبادئ توجيهية عملية لكفاءة تصميم الهندسة المعمارية سي إن إن // وقائع المؤتمر الأوروبي على رؤية الكمبيوتر (ECCV) 2018 :. 116-131.

وانغ R J، لي X، لينغ C X. بيلى: في الوقت الحقيقي نظام الكشف عن وجوه على الأجهزة النقالة // التقدم في العصبية نظم المعلومات تجهيز 2018 :. 1963-1972.

ساندلر M، هوارد A، تشو M، وآخرون Mobilenetv2 :. مخلفات مقلوب والخطية الاختناقات // وقائع مؤتمر IEEE على رؤية الحاسوب والتعرف على الأنماط 2018 :. 4510-4520.

الشمس K، M لي، ليو D، وآخرون تلافيف مجموعة Igcv3 :. معشق المنخفضة للرتبة لالشبكات العصبية العميقة فعالة . أرخايف ورقة أرخايف: +1806.001782018.

ORTHOPEDICS للأزواج من الأحذية على الحق، ويمكن ساقيه تظهر جمال فستانها لتظهر

تعلم أحدث التقدم من ICLR 2019 قائمة عينات صغيرة

جين كينان أسفل بسرعة، وتخطيط سنتين عشرة أطفال! قوانغتشو، أول الفرعية المرحلة

علمتك كيف لطهي الطعام، وهذا هو آت من أيدي من وصفات الشيف

عقدت سيدني "الحياة البرية الضوء مضاء" لايت مشاهدة

نهر الرجل وانقاذ الفتاة على الانتحار، اكتشفوا ...... العضو: لم الدراما لا يجرؤ على القيام بذلك

القوي أقوى! الأصول قوانغدونغ الائتمان العقاري لأعلى 20 في السنوات الخمس الماضية كان معدل زيادة ما يقرب من 4 مرات

قطاع عصير الفاكهة في الملك، والمزارعين يطلق عليه بقرة حلوب جميع الأعمار يحبون ذلك

بيرو المتطوعين تنظيف الشاطئ للاحتفال باليوم العالمي للمحيطات

الدهون ولكن لحم الخنزير غير دهني، والخضروات توالت معا، إضافة نقطة الثوم، يمكن أن يطلق عليه جيدة

ما علينا إلا أن نعمل بجد

إذا كانت الشركة يمكن أن تحقق هذه التقنية، وعلى الأرجح في الأمازون