CVPR 2020 | MetaFuse: معلومات ما قبل التدريب لتشكل البشري نموذج تقدير الانصهار

هذه المادة هي CVPR 2020 ورقات مختارة: القراءة "تدريب ما قبل MetaFuse نموذج الانصهار لحقوق بوز تقدير" من.

الكاتب | PKU CVDA

تحرير | أواخر كونغ

عنوان ورقة: الشبكي: //arxiv.org/abs/2003.13239

مقدمة تقدير 3D إحداثيات النقاط الرئيسية في جسم الإنسان من صورة متعددة بغية وهي مهمة هامة في رؤية الكمبيوتر. بكثير من عملية العمل هو: يقدر أولا من 2D إحداثيات كل عرض الكاميرا، ثم استخدم التثليث (التثليث) أو ما شابه ذلك، لحساب 3D إحداثيات المقابلة. النتائج النهائية للجودة مثل هذه الأساليب، يعتمد عموما على دقة الإحداثيات 2D. ومع ذلك، إذا كانت المشكلة انسداد، وتوقع 2D الإحداثيات هي أكبر خطأ. إحداثيات 2D في عملية التنبؤ، يمكن أن المعلومات الانصهار وجهات نظر متعددة حل انسداد المشكلة بفعالية. ولكن الطرق الحالية، والمعلمات نموذج الانصهار تعتمد على حق الكاميرا معين، فإنه من الصعب التعميم مع البيئة الجديدة. لحل هذه المشكلة، تقدم هذه الورقة الأصلي الانصهار نموذج التحلل (1) جميع النماذج كاميرا سهم عادي (2) مصفوفة التحويل للكاميرا خفيفة الوزن محددة. واستخدام Metalearning الخوارزمية، قبل المدربين في البيانات كاميرا متعددة على نطاق واسع، وبالتالي تحقيق أقصى قدر من تعميم هذا النموذج. البيانات التجريبية التي أفصح عنها في تعدد مجموعات، ثبت نموذج (MetaFuse) مجرد عينة صغيرة يمكن أن يكون التنقل فعال في البيئة الجديدة .

الشكل 1: MetaFuse التخطيطي

2 مقدمات: متعددة زاوية الانصهار المعلومات

الشكل 2: تفسير هندسي من زاوية متعددة الانصهار المعلومات

ويبدأ مع أساسيات متعددة زاوية الانصهار المعلومات. هندسة epipolar (Epipolar الهندسة) يدل على أن بكسل للكاميرا 1

في كاميرا أخرى 2، يجب على نقاط بيكسل المقابلة تكمن في خط مستقيم I (Epipolar الخط) جرا. وهكذا، يمكننا أن خطيا I معلومات مميزة المقابلة لنقطة الانصهار

في. صيغة محددة على النحو التالي:

حيث j، أنا هو العددية، يمثل كاميرا 2 في 1 كاميرا وي بكسل في ط بكسل شهادة جامعية كيفية تحديد قيمة عملية التكامل هو الأكثر المسألة الحاسمة. في النموذج المقترح في NaiveFuse، والاستخدام المباشر للطبقة اتصال كاملة (FCL) هو تكامل المعلومات بين الكاميرا . 3، وزاوية نظر التنبؤ شبكة التلافيف مخطط النشاط امتدت ناقلات ذات بعد واحد، ثم يتم إضافة طبقة ربط بعد التحويل الكامل للمنظور الأولي مخطط النشاط 2، للحصول على التنبؤ النهائي زاوية 2. وحدة الانصهار (FCL) والإلتواء يمكن التشبيك معا، وذلك باستخدام الحقيقي وصفت بأنها من هذا القبيل، نهاية إلى نهاية التدريب.

FIG 3: NaiveFuse نموذج

ومع ذلك، فإن طبقة اتصال كاملة ربط ببساطة كل بكسل في وجهة نظر، وجهة نظر أخرى وكل بكسل. ومن المعلمة حساسة للغاية للموقف، عندما قد تتغير تغير تشكل الكاميرا بشكل كبير قليلا . لذلك، وهذه الطريقة من الصعب على الهجرة إلى بيئة كاميرا متعددة مختلفة. وعلاوة على ذلك، فإن كمية كبيرة من المعلمة طبقة الاتصال هو كبير (عادة 642 642)، وهناك هو الحالة التي يكون فيها كمية صغيرة من بيانات التدريب Overfitting خطر.

الطريقة المقترحة المساهمة الرئيسية لهذه الورقة تكمن في جانبين. الأول هو نموذج NaiveFuse الأصلي إلى قسمين، وتشكيل نموذج التنقل أكثر إحكاما وأفضل. والثاني هو أن تكون هناك كمية كبيرة من البيانات في الكاميرا، وذلك باستخدام خوارزمية التعلم الفوقية إلى القطار، والسماح لكمية صغيرة من البيانات لصقل النموذج (صقل) من خلال، التي هي قادرة على الهجرة إلى بيئة كاميرا متعددة غير معروفة. 2، إذا كان من المعلوم

المقابلة قطاعات في زاوية 2 I. 3 عند زاوية النظر هذه، يمكن أن تنتقل بشكل مناسب على خط I زاوية 2 تحويل تآلفي لإعطاء خط مصدر المقابلة منظور 3. من وحي، هناك افتراض عام base نموذج الانصهار، والذي يستخدم في اتصال منظور 1 بكسل واحد وزاوية الرؤية 2 كل بكسل . ثم زاوية نظر لبكسل الأخرى 1 يمكن أن تنتج عن طريق تحويل أفيني قاعدة الفرعية أوميغا، لإعطاء وزن الموافق الانصهار. كما يلي إجراء الحساب، حيث يمثل T للتحويل تآلفي، وزاوية عرض ثيتا المعلمات] ط ط 1 بكسل أفيني التحول الموافق (مصفوفة 2 3 ثنائية الأبعاد). (2) ويتم توصيل i إلى كل بكسل، حجم بكسل ط مخطط النشاط نفس زاوية الرؤية والمنظور، هو H W. تحقيق أفيني التحول المرجعية المكانية شبكة محول.

للكاميرا مختلفة على، والشيء نفسه يمكن تحويل base أفيني للحصول على نموذج الانصهار المطلوب. وتنقسم هذه العملية فعلا في النموذج الأصلي (1) جميعا نشترك في النموذج العام للكاميرا base، (2) مصفوفة التحويل ل خفيفة الوزن لكاميرا معينة، وموقف خاص بكسل. وNaiveFuse نموذج مختلف، والنموذج العام هو أكثر استقرارا عندما التغيير كاميرا الموقف.

وبالإضافة إلى ذلك، يستخدم هذه الورقة أيضا طراز الملحد التعلم ميتا (MAML) ميتا التعلم الإطار، لتهيئة أفضل للدراسة نموذج. والهدف الرئيسي من الفوقية التعلم (ميتا التعلم)، هو دراسة توزيع المهام المختلفة، بحيث يمكن للنموذج التكيف بسرعة مع المهام الجديدة. وفي هذا السياق، يشير مهمة لكاميرا لدمج المعلومات. عملية التدريب، وذلك باستخدام عدد من البيانات كاميرا مختلفة ميتا التدريب. والغرض من ذلك هو تدريب معلمة القيمة الأولية أفضل، يمكن ترحيل القيمة الأولية للكاميرا الجديدة في أسرع.

الشكل 4: عملية التدريب MetaFuse

واقترح طريقة MetaFuse، وإجراء التدريب الشامل هو مبين في الشكل (4). الخطوة الأولى، وجميع البيانات المستخدمة في شبكة قطارات (CNN) جزء الإلتواء. الخطوة الثانية، التلافيف معلمات الشبكة الثابتة، والقيم الأولية المثلى وbase باستخدام ميتا التدريب التدريب. مواجهة البيئة الجديدة (على الكاميرا) في مرحلة الاختبار، سوى كمية صغيرة من عينات المسمى أفيني التحول المعلمة صقل.

4 تجربة وتحليل بيانات

وتم تدريب التجارب وجامعة كارنيجي ميلون شامل الإراءة الإدراجات، اختر من 20 الكاميرات المستخدمة للبيانات التدريب (ميتا التدريب). اختبار مجموعة بيانات H36M (Human3.6M)، إجمالي مجموعات التقاط البيانات. في مجموعة البيانات H36M آخرين، وذلك باستخدام كمية صغيرة فقط من البيانات إلى الأرقام صقل (50-500).

طريقة التباين

خط الأساس لأسلوب المقارنة تتألف من:

لا فيوجن، لا الانصهار المعلومات بين المنظور.

كامل فيوجن، وجميع البيانات الهدف، وتدريب NaiveFuse.

استخدام كمية صغيرة من التدريب NaiveFuse البيانات؛

نموذج AffineFuse، وذلك باستخدام الطريقة التقليدية التدرج نزول المعلمات التدريب متحللة، وكمية صغيرة من البيانات تقليم.

MetaFuse، وذلك باستخدام الفوقية نموذج لتدريب المعلمات من التحلل تعلم واستخدام كمية صغيرة من البيانات لصقل.

النتائج التجريبية

في نتيجة الكشف H36M 2D مجموعة البيانات هو مبين في الشكل 5، حيث يمثل الإحداثي السيني عدد العينات المستخدمة لضبط تنسيق يدل على معدل نجاح للكشف عن المفاصل (معدل اكتشاف المشتركة). كما يمكن أن يرى، NaiveFuse عند عدد قليل من عينات والفقراء، وكان هناك أكثر من المناسب الظاهرة. AffineFuse فاق أداء NaiveFuse، للتحقق من صحة المعلمات من التحلل. اقترح MetaFuse، في أعداد مختلفة أكثر من الطرق الأخرى للتحقق من أن خوارزمية التعلم الفوقية زيادة تعزيز القدرة تعميم هذا النموذج.

FIG 5: مجموعة البيانات 2D نتيجة H36M

مجموع القبض على مجموعة البيانات وH36M، ويتم الحصول على النتائج 3D كما هو مبين في الجدول رقم 1 والجدول 2. 3D دقة تقدير قفة، وذلك باستخدام الحقيقي 3D الإحداثيات وإحداثيات خطأ يعني لكل المشتركة الوظيفة توقع (MPJPE) لقياس.

الجدول 1: 3D مجموعة البيانات نتيجة H36M

الجدول 2: 3D بيانات نتائج إجمالي التقاط

6 من عملية معلومات زاوية لاندماج وتصور.

الشكل (6): تصور عملية معلومات فيوجن

5 ملخص

هذا ويعرض ورقة MetaFuse، عينة صغيرة من واحد، متعدد الزوايا المعلومات نموذج الانصهار يمكن تدريب في بيئة اختبار جديد. الطريقة الحالية يمكن أن يكون أي هيئة تشكل نموذج تقدير 2D الإنسان جنبا إلى جنب، ويمكن أن تهاجر إلى أي بيئة كاميرا متعددة. إن تعددية مجموعات البيانات في النتائج التجريبية كشفت، والقدرة تعميم للتحقق من نموذج.

مراجع

هاى بو تشيو، Chunyu وانغ وانغ Jingdong، Naiyan وانغ، وون جيون تسنغ. عبر الانصهار عرض ل3D تقدير قفة الإنسان. وفي ICCV، الصفحات 4342-4351، 2019.

ماكس Jaderberg، كارين سيمونيان، أندرو زيسرمان، وآخرون. الشبكات محول المكانية. في خطط التنفيذ الوطنية، وصفحات 2017-2025، 2015.

تشيلسي فين، بيتر Abbeel، وسيرجي ليفين. نموذج الملحد الفوقية التعلم من أجل التكيف السريع للشبكات عميقة. وفي ICML، الصفحات 1126-1135. JMLR. المؤسسة، 2017

طريق الحرير

CVPR 2020 | MetaFuse: معلومات ما قبل التدريب لتشكل البشري نموذج تقدير الانصهار

حلول A-رقاقة لجميع التفاعل الصوتي، وقد فعلت بايدو صناعة المتغيرة للابتكار التكنولوجي

ICLR 2020 | تشوه الألباب، والكامل للالإبداعية نواة الالتواء تشوه

ورقة اليوم | تمثيل توزيعها، على أساس يوان التعلم؛ مجموعة البيانات على مستوى المحافظة، GPS-NET، الخ

لا المعايير ليست التعاوني، التعاون المتعدد الأطراف تغيير في علاقات الإنتاج | دراسة الاتحادية المقبل IEEE القياسية الدولية

يمكن أيضا أن تكون CVPR 2020 شو قيمة 8 بت نموذج التدريب؟ اقترح شانغ تانغ لتسريع تدريب خوارزميات جديدة

اليوم ورقة | اهتمام الانحياز النفس؛ الآلي التقييم؛ مهمة استخراج العلاقة، ونماذج LSTM

المتشددين! قامت الشرطة الكولومبية نعش لإقناع الناس أن يكون المنزل، والأصدقاء: دعوى ذلك؟ ربط ذلك؟

الهند، وهو رجل توصيل البيتزا تشخيص الالتهاب الرئوي العهد الجديد، الذي لديه تسليم 72 منزل

وقال الدكتور فوسي هذا الأصل الفيروسي أكثر من 100،000 حالة وفاة في أوروبا، تبرعت المملكة العربية السعودية نصف مليار دولار لمنظمة الصحة العالمية ......

تشاو ينغ مينغ وزوجته مرة أخرى! نار! فوق

اسمحوا لي أن أقول لك: إذا كان الثور القادمة، ما القطاع الأول انتفض الماضي ما القطاع؟ فهم أسهمها لا داعي للذعر

السوق الصينية الأسهم "Jianqian" عصر: 2-3 يوان A-حصة كأب، ومرحلة أقل مرارا وتكرارا، 200000 الصيادين تتخذ للاستثمار على المدى الطويل، عمليا؟

1 ساعة تقتصر على 1000 وحدة مباعة JAC سيدان الإصدار الجديد التفجير غرفة بطاقة الحية

ICDE 2020 شو النموذج الرابع لعمل جديد: تعلم AutoML والمعرفة التعيين التلقائي جزءا لا يتجزأ من تصميم مختلف وظائف التهديف

شو CVPR 2020 بالكشف عن إطار جديد على أساس 3D نقطة الكائن سحابة

صوت ثلاث ورقات مختارة ACL 2020 سحابة المعروفة، درسوا ماذا؟

CVPR 2020 | عبر طريقة للاعتراف المشاة من الهرمية VI-ريد

ICLR 2020 | زيادة الضوضاء، ويمكن تحسين تعميم وكيل القدرة RL

ICLR 2020 | المماس العصبي، 5 خطوط من التعليمات البرمجية لخلق واسعة نموذج الشبكة العصبية لانهائي

"لايف" CVPR 2020 | هيكل شبكة البحث الجشع خوارزمية تقوم على فكرة، في حين أن شبكة CNN دعم وGCN العمارة البحث

Bengio شارك في إنتاج العديد من العلماء الآخرين: كيفية تصميم نظام لضمان موثوقية AI؟

IJCAI تحذير! سوف الري كبار يصبح من الصعب على نحو متزايد، وAI أعلى معدل التوظيف العام قد انخفض بشكل مستمر لسنوات عديدة

الأحكام ذات الصلة