ورقة CVPR جامعة كورنيل: شبكة الجوى التصوير مرور تعلم جوهري التحلل صورة

عنوان موقع الويب:

أوراق العنوان:

https://arxiv.org/abs/1804.00582

1. تمهيد ومقدمة

ووتتحلل لفترة وجيزة، جوهري التحلل صورة (جوهري صورة التحلل) الصورة إلى نتاج FIG تفكير (الانعكاس) وFIG المشع (تظليل) أ. لقد وجدنا عمل في الماضي إلى مجموعات البيانات جمع تميزت أساسا عن طريق تقديم التعهيد الجماعي أو كائنات طريقة الصباغة. ومع ذلك، هذه الطرق لها قيود قوية خاصة بهم: الصباغة جمع الكائن الأسلوب هو صعب للغاية، ويمكن استخدامها فقط في كائن لا يمكن استخدامها في مكان الحادث. طريقة التقديم لا يمكن أن تجعل من تدريب التعميم إلى الصور المشهد الحقيقي منها. طريقة التعهيد الجماعي لا يحصلون إلا على العلامات متفرق جدا وجودة العلامات لا يمكن ضمان.

الشكل 1: من خلال شبكة غير المسماة فيديو يمكن تدريب لتوليد عرض واحد من الصورة الذاتية

ولذلك، فإننا نعتبر البيانات المستخدمة لدراسة الصورة الجوهرية لأكثر من السهل جمع: عدد كبير من الخالي من الملصقات الفيديو والتصوير الفوتوغرافي مرور على الشبكة. ببساطة، والتصوير الفوتوغرافي الوقت الفاصل هو جعل يتم إصلاح عدسة الكاميرا الكاميرا، ولكن الوقت الذي يستغرقه طويل جدا، حتى نتمكن من الحصول على وجهة نظر مختلفة من الزمن، ولكن نفس تسلسل الصورة. على الرغم من أن لم يتم وضع علامة لدينا مجموعة بيانات الفيديو، ولكن الفيديو لا تسمح لنا للانضمام العديد من بداهة مهمة خلال تدريب CNN. كما هو مبين في الشكل. 1، ونحن الفيديو الخالي من الملصقات التعلم الصورة الذاتية عبر الشبكة، حتى نتمكن من استخدام وتدريب هذا النموذج على استخدام صورة واحدة.

2. إطار نظرة عامة

كما هو مبين في الشكل 2، في مرحلة التدريب CNN، لدينا كامل تسلسل الصور المدخلات، والمخرجات المقابلة لكل إطار ينعكس والمشع FIG. ويستند العمارة شبكتنا على U-الشباك، والتفاصيل يرجى الرجوع إلى ورقة. وبالإضافة إلى ذلك، CNN هو أيضا في وقت واحد يولد ناقلات 3D لتوضيح لون كل صورة من الضوء المحيط في الداخل منها.

الشكل 2: يوضح بنية النظام وشبكة

3. جمع البيانات

لدينا مجموعة بيانات تسمى "BIGTIME (BT)." نقوم بجمع جميع أنواع الفيديو من موقع الإنترنت لعدد كبير من ذات جودة عالية في الهواء الطلق وداخل قاعة الفيديو والتصوير الفوتوغرافي مرور الزمن، وعدد أكثر من 200. BT في مجموعة البيانات لدينا، وجدنا أن الفيديو داخلية صعبة للغاية، وذلك لأن العديد من اشرطة الفيديو في الأماكن المغلقة تسجل سوى فترة قصيرة جدا من الزمن، والعديد من اشرطة الفيديو يحتوي على الظلال القوية أو التعرض. ومع ذلك، في الدورة التجريبية أظهر لنا على أساس إطارنا ومجموعة من تدريب شبكة البيانات يمكن أن يكون لها قدرة جيدة التعميم.

4. إطار التعلم

4.1 الطاقة / فقدان وظيفة:

خلال مرحلة التدريب، وهدفنا هو تحقيق أقصى قدر من الخلفي احتمال p (R، S | I). هذا هو ما يعادل أنه من السهل للحد من وظيفة الطاقة E (R، S، I). لذلك نحدد E (R، S، I) غير

4.2 صورة وظيفة فقدان التعمير:

ونظرا صورة تسلسل المدخلات، ويمكن أن نكتب وظيفة فقدان إعادة بناء تسلسل كامل لجميع الصور ل:

يتطلب التنفيذ المباشر فقدان وظيفة O (M2N) تعقيد الوقت، ونحن نقدم أسلوب في 4.7 تمكن يتم تخفيض وظيفة الوقت التعقيد إلى O (بالمليون).

4.3 الاتساق خسارة الانعكاس وظيفة:

قدمنا أيضا نفس الوظيفة لتمثيل إخراج FIG انعكاس انعكاس ينبغي أن يظل هو نفسه طوال تسلسل الصورة.

مرة أخرى، هذه الخسارة من وظيفة تتطلب O (M2N)، ولكن في 4.7 وسوف نعرض كيفية الحد إلى O (بالمليون).

4.4 الكثيفة الفضاء - الزمن تجانس وظيفة FIG فقدان انعكاس:

ويستند لدينا FIG تجانس فقدان التفكير في وجود علاقة بين كل بكسل في تسلسل الصور. حددنا على النحو التالي:

حيث p و ف يمثل بكسل من تسلسل الصور.

نيابة عن مزدوجة عشوائية الوزن المصفوفة. علما بأن نعتبر سلسلة كاملة من العلاقة بين كل بكسل، لذلك الحساب المباشر في هذا البند هو المستحيل، لذلك نحن بحاجة إلى وسيلة أكثر فعالية. أولا، لاحظ أنه إذا كان هو مصفوفة العشوائية على نحو مضاعف، وبعد ذلك يمكننا تبسيط الصيغة أعلاه هو:

حيث r هو متجه كامل سجل البياض تسلسل مخطط صورة التمثيل. وإذا افترضنا أن W هو التمويه، الفضاء الثنائي، فإننا يمكن تكوينها من خلال سلسلة من مصفوفات متفرق إلى صيغة الحد التقريبية (7). التضمين الثنائي يجعل مصيبتنا يمكن أن تتحول إلى شكل من الدرجة الثانية:

وأخيرا، فإننا سوف يقلل التعبير من تعقيد الوقت O (m2n2) إلى O ((د + 1) بالمليون).

والمشع FIG حجم أكثر من 4.5 نحو سلس وظيفة الخسارة:

واضاف نحن أيضا وظيفة تمهيد معرضا للاشعاع FIG. وتعرف هذه الوظيفة في صورة هرم متعددة الحجم. لكل نطاق، يمكننا تحديد:

حيث N (ع) يمثل يونيكوم في بكسل ص 8 المجاورة، والتمثيل v من وزن كل طرف. فكرتنا الأساسية هي لحساب وزن كل إعادة استخدام الرقم المعلومات الإحصائية للتسلسل الصور. حيث يقوم فرضيتنا على متوسط التدرج مع سلسلة من العروض الصور الانعكاس صورة التدرج التقريبية لFIG. وصف مفصل يرى أوراقنا.

4.6 جميع أزواج المرجحة المربعات الصغرى (APWLS)

في هذا القسم، نقدم نسخة خطية من APWLS أغلق الحل لتحقيق الصيغ الفعالة 4 و 5. وترتبط مع كل صورة يفترض الثاني أن مصفوفة بي وتشى، والتنبؤ شي ويي، يمكننا أن APWLS تحويلها إلى:

الحساب مباشرة من المعادلة (14) يتطلب O (M2N)، ولكن إذا أصبح المعادلة (15)، الذي المرة الوحيدة تعقيد O (بالمليون).

5. تجربة

5.1 IIW التجربة:

نحن نستخدم قواعد البيانات BT تدريب CNN (IIW عدم استخدام مجموعة التدريب) لاختبار مباشرة مجموعة اختبار IIW. المقارنة بين القيم في الجدول 2. يمكننا أن نرى أن لدينا نموذج يمكن أن يكون أكثر بالقرب من أفضل الأداء وتحسين خوارزميات وخوارزميات تعلم الآلة.

الجدول 2: IIW مجموعة الاختبار المقارن

الجدول 3: SAW المقارن مجموعة الاختبار

التجربة 5.2 SAW:

اختبرنا أيضا ركز تدريبنا بيانات اختبار أداء الشبكة BT على SAW. في الجدول 3 قارنا ومتوسط الدقة (AP) أعمال أخرى في المجموعة اختبار SAW الماضي. علما بأن جميع الطرق لا تستخدم التدريب SAW مجموعة البيانات للتدريب. يمكننا أن نرى من الجدول 3، لدينا وسيلة ممتازة في جميع الطرق في الماضي.

5.3 IIW مجموعة اختبار SAW وجهة نظر انفجرت المقارنة:

الشكل 3: رسم تخطيطي انفجرت يقارنون

في الشكل 3 قارنا الصورة الذاتية للانتاج شبكتنا وأفضل صورة الانفصال وتعلم الآلة الخوارزميات لإخراج الأمثل. من الشكل (3) يمكننا أن نرى أنه إذا كنا لا تستخدم بيانات التدريب IIW، ونحن قد يتم إنشاء جوهري صورة التحلل BT شبكة التدريب مجموعة البيانات مع اثنين من خوارزميات أخرى مماثلة.

5.4 MIT صورة الجوهرية بيانات التجربة:

وأخيرا، ونحن تحقق فعالية تركيزنا في إطار بيانات الصورة الذاتية MIT. في عملية تدريب شبكتنا، لدينا عودة أي مباشرة إلى الحقيقة على الارض، بدلا من ذلك، ندرب شبكتنا على سلسلة من الصور التي يقدمها معهد ماساتشوستس للتكنولوجيا.

الجدول 4: MIT اختبار مقارنة أداء مجموعة

قارنا نهجنا مع أساليب التعلم تحت إشراف الأخرى. وقد استخدمت هذه الجهود السابقة الحقيقة الأرضي من مجموعة تدريبية لتدريب النموذج. بدلا من ذلك، ونحن نستخدم فقط صورة مجموعة تسلسل البيانات المقدمة لتدريب الشبكة. وتظهر نتائج المقارنة في الجدول (4). يمكننا أن نرى أن أساليب التعلم غير خاضعة للرقابة لدينا يمكن أن تكون قابلة للمقارنة أو حتى أفضل من الماضي، تحت إشراف خوارزمية على أساس CNN التعلم.

6. ملخص

في عملنا الحالي، نقترح طريقة جديدة للتعلم غير خاضعة للرقابة لتعلم التحلل الصورة الذاتية من خلال الوقت الفاصل بين التصوير الفيديو على الشبكة. شبكة المدربين لدينا يمكن أن تركز أظهر قدرة التعميم قوية في عدد من البيانات، مما يدل على إمكانات هائلة للتعلم من خلال الصورة الجوهرية لعدد كبير من أنظمة الفيديو الشبكية الخالي من الملصقات.

CCF-GAIR 2018 قاب قوسين أو أدنى،

الرعاية AI تقنية مراجعة إرسالها!

وسوف نقدم طلاب الجامعات عددا من تذاكر مجانية، مجرد ملء في "قراءة الأصلي" وصلة لإرسال النموذج، لدينا الفرصة للحصول على قيمة 3999 يوان CCF-GAIR 2018 تذكرة الجمعية العامة.

(PS: ملء الرجاء في شكل إشارة الصغرى دقيقة، من خلال موظفي المراجعة سوف اتصل بك عن طريق بريد إلكتروني الصغير، وإصدار تذاكر)

ملاحظات تذاكر

إذا لم يكن هناك تعليمات خاصة، تشمل إعطاء تذاكر الغداء ثلاثة أيام، لا تشمل الإقامة وغيرها من الخدمات.

آخر تفسير لى فنغ شبكة كل AI تقنية مراجعة

الموعد النهائي: 26 يونيو مساء 24:00

1 يونيو 29 يوليو، وشنتشن نرى!

الحصين فاميليا F7 المدرجة في 27 سبتمبر، وسوف تأخذ محرك 1.5T

وهو تشاو بينشان المتدرب، ولكن لا تأخذ مسار المتدرب تشاو بينشان، وقدم القهوة النجوم له وجه!

الجاف | المقترحة DeepMind GQN، والشبكات العصبية هناك مجالا للخيال

شنتشن الخطوط الجوية التطبيقات خطف قناة متناهية الصغر، في اليوم الأول من خط أبل أخبار عانت حوادث مختلفة؛ هواوي P30 "تلسكوب الهاتف المحمول" الذي صدر رسميا | لى فنغ الصباح

أعلنت شركة سوني أنها ستعقد مؤتمر صحفي: اريكسون XA3 / XA3 لاول مرة الترا CES 2019

تبريد الرئيسي الكلب الموسيقى الحية، سواء من خلال مرساة، "المغني تطوير" الانقلاب على النمط التقليدي لصنع النجوم

كارلوس لينة تحميل والعالم أصدقاء الأرض افتتح نائب الرئيس المعين حديثا برنامج براعم الربيع رسميا أبحر

أمام تشو يون فات، أندي لاو فقط عندما يكون الأخ الأصغر؟ جميع الأفلام الأربعة تبدو تفهمون

الجمعية | سوف CCF-GAIR 2018 الدورة التي الذكية الأمن لديهم البن كبيرة تخرج؟ من الداخل موجة المشي

فرنسا هي أيضا في العالم مع العلامة التجارية تعلمون المجموع

MADE HUMAN نهاية الحدث الرئيسي! العمل STUDIO SEVEN معا لجلب 2017 سلسلة الشتاء!

موتورولا تعرض P40 تقديم، 4800W الكاميرا الخلفية، وحفرت تقنية الشاشة المستخدمة