جامعة كاليفورنيا في بيركلي التي تم اطلاقها غير خاضعة للرقابة إطار التعلم العميق جوجل، تقليد حركة العين البشرية لتحقيق الفيديو الوعي الذاتي

لى فنغ شبكة AI تقنية مراجعة: التعلم غير خاضعة للرقابة ويمكن القول بأن مستقبل عمق التعلم، المؤلف الأول من هذه الورقة Tinghui تشو وهو طالب الدكتوراه في جامعة كاليفورنيا، بيركلي الهندسة الكهربائية وعلوم الحاسوب، Efros تحت وصاية البروفيسور الكسي (Alyosha). هذا المقال هو انه مع جوجل ماثيو براون، بالتعاون مع نوح سنافيلي وديفيد لوي، وهذا الورق المحدد CVPR 2017 ورقة عن طريق الفم. ما يلي هو عبارة عن تجميع جزئي لى فنغ شبكة المحتوى AI تكنولوجيا مراجعة، وفقا للصحيفة.

ملخص

لتسلسل الفيديو غير منظم وعمق المهمة تنتقل الكاميرا الحكم أحادية العدسة، نقترح إطار التعلم غير خاضعة للرقابة. كنا نتعلم عرض نهاية مركب كما إشراف إشارة. وبالمقارنة مع الأعمال السابقة، وغير خاضعة للرقابة نهجنا تماما، فقط أحادية العدسة تسلسل التدريب الفيديو. نهجنا هو استخدام-عرض واحد ومتعددة بغية شبكة عمق الموقف وعمق الحوسبة المستندة فتة وعرض مشوه من الأهداف وفقدان القريب. خسائر في عملية تدريب وترتبط الشبكات، ولكن عند اختبار التطبيقات المستقلة. في كيتى مجموعة البيانات التجريبية تقييم يستند أيضا إثبات فعالية نهجنا. 1) أداء عمق أحادية العدسة واستخدام التدريب عمق أو أساليب النقيض المراقبة groud-الحقيقة (القيمة الحقيقية). 2) التخلص تحت مقارنة المدخلات فتة أداء نظام تحديد وأنشأ SLAM المقارنة.

الورقة نظرة عامة

البشر لديهم القدرة حتى في فترة قصيرة جدا من الزمن سوف تكون قادرة على تحديد هيكل 3D من الحركة الذاتية ومشهد. على سبيل المثال، عبر الشارع، ونحن يمكن بسهولة تحديد العقبات ويمكن أن تتفاعل بسرعة لتجاوز لهم. وكانت دراسات رؤية الكمبيوتر لسنوات عديدة لم تحقق قدرات مماثلة النمذجة الهندسية لإعادة إنتاج المشهد في العالم الحقيقي.

لماذا البشر لديهم ميزة في هذه المهمة؟ فرضية واحدة هي أننا تطورت غنية، والتسلسل الهرمي منظم التفاهم البصري من التجربة الماضية. مراقبة بعناية مكان الحادث والتحرك كثيرا ونموذج ثابت في التنمية وجدنا. من قبل الملايين من هذه الاكتشافات، ونحن ندرك أن هذا العالم من الانتظام - الطريق مسطح، وبناء تستقيم. تحتاج سيارة بدعم من الطريق، وهلم جرا. ونحن ندخل مشهد جديد، أو حتى صورة واحدة أحادي، يمكننا استخدام هذه المعرفي.

التجريبية: واحد عرض ومتعددة بغية الحكم عمق البادرة.

الشكل (1)

الشكل (1)، عن غير متسلسل صورة التسمية التدريب على نظام التقاط البيانات نحن نخرج من زوايا مختلفة، لم يتم توفير الموقف من الصورة. تنتج برنامج التدريب لدينا نموذجين تشغيل وحدها، توقعات عمق جهة نظر واحدة ومتعددة بغية الحكم الكاميرا الموقف.

في هذه التجربة، فإننا تقليد هذا الأسلوب، من خلال تدريب نموذجا يحتذى ووجهة لشرح ملاحظاته، استخدمنا النهاية إلى نموذج طريقة لجعل الأحكام ورسم أساس ذاتي الحركة مباشرة من مدخلات بكسل هيكل صورة. على وجه الخصوص، نحن مستوحاة من الأعمال التمهيدية، والتوليف عرض كوحدة للقياس. وحلت في الآونة الأخيرة مشكلة التوحيد في إطار متعددة بغية الحالات 3D نهاية. نهجنا هو دون رقيب وتحتاج فقط إلى استخدام صورة متتابعة يمكن تدريب، لا حاجة للاحتفال الكاميرا حتى المعلومات الحركة يدويا. ويستند نهجنا على بصيرة الرأي الهندسي للنظام متكامل. فقط عندما هندسة المشهد والموقف الكاميرا وقيمة التنبؤ المتوسطة تتفق مع الواقع المادي، يمكن للنظام بسلاسة.

لأنواع معينة من المشاهد، وعندما يتم تحديد هذه اللفتة لم يكتمل الهندسي أو خداع نظرة شاملة إلى حد ما. (على سبيل المثال، والملمس مفقود) إذا قدم نفس النموذج إلى فئة أخرى لديها تخطيط متنوع ومظهر من بنية المشهد سوف تفشل جدا. لذلك، وهدفنا هو تصور رؤية شاملة للبرنامج مسار الاستدلال بأسره الشبكة العصبية الإلتواء. لذلك، في وإجبارهم أجل المهام رأي على أساس تجميع الدولارات لتدريب شبكة من بيانات الفيديو على نطاق واسع للتعلم في منتصف عمق المهمة، حكم كاميرا الموقف هو من أجل التوصل إلى تفسير ثابت والعالم المرئي. وقد أثبتت عمق وفعالية من رأي واحد كاميرا فتة طريقة حكم البحوث حول كيتى.

مناهج البحث

من أجل تمكين طريقة عرض واحدة من عمق موقف الكاميرا التفاف الشبكة العصبية والحكم أبدا ملحوظ تسلسل فيديو تدريب معا، نقترح الإطار. على الرغم من أن القطار مع عمق واتجاه هذا النموذج هو نموذج مصمم يمكن تشغيل بشكل منفصل خلال نتائج الاختبار. لتدريب عينات من نموذجنا تشمل التي تم التقاطها بواسطة كاميرا الهاتف النقال لتسلسل الصور.

الشكل 2

2، خريطة نظرة عامة على أساس رؤية شاملة للطريق الرقابة. عمق الشبكة المستهدفة عرض فقط كمدخل، وإخراج D ر المقابلة نقطة بكسل (ع) في خريطة العمق. لاستخراج موقف الهدف من وجهة نظر الشبكة (و) وبالقرب من عرض الهدف (على سبيل المثال، و-1 وو+ 1) كمدخلات، والمخرجات المرتبطة كاميرا الموقف (ترينيداد وتوباغو تي 1، تي تي ر + 1). نوعين من إخراج الشبكة بحيث يحدث انعكاس العرض الأصلي. إعادة بناء رأي الهدف، وفقدان إعادة الإعمار الضوئية للالتفاف تستخدم لتدريب الشبكة العصبية. باستخدام عرض الاصطناعية على هذا النحو، فإننا يمكن أن يكون بطريقة غير خاضعة للرقابة من شريط فيديو التدريب إلى الإطار المتبقية.

دعونا نفترض بأننا هي الأكثر اهتماما في لا تتحرك الكواليس. عبر إطار مختلف، جنبا إلى جنب مع ظهور تغير المشهد، يتغير المشهد الأخير من قبل حركة الكاميرا إلى الهيمنة.

مفتاح إشارة الإشرافية التلافيف العصبية عمق الشبكة والتوجه التنبؤ شذوذ من تكوين رأي: إطلالة على المشهد للمدخلات، صورة مركبة جديدة للمشهد من مواقع كاميرا مختلفة. نحن توليفها وجهة نظر المستهدفة، وإعطاء صورة جديدة على عمق بكسل، وموقف وآراء إضافية في محيط الوضوح. كخطوة تالية نريد أن نظهر أن يرافق عملية التوليف ذلك عن طريق الشبكة العصبية التفاف تشغيل بطريقة يمكن تحديدها تماما. الحدة يمكن السيطرة عليها مع نموذج غير جامدة وغير عامل آخر.

الشكل (3)

3، يمكن تمييز نمط عملية تزييفها هو مبين في الشكل. لكل رأي حزب العمال نقطة الهدف، علينا أولا توجيهها للعرض الأصلي والكاميرا على أساس الموقف من عمق توقع، ثم قيمة الاستيفاء المترابط مشتقة مشوه في موقف هدف حزب العمال.

النتائج التجريبية

1) واحد عرض عمق تحليل

وينقسم نحن الصور متتالية إلى ثلاثة أجزاء من الشاشة، ومنتصف الشاشة كطريقة عرض هدف، قبل وبعد الصورة على النحو العرض الأصلي. ونحن نستخدم اللون كاميرا لالتقاط هذه الصور معا، ولكن عند تشكيل تسلسل التدريب، بالنسبة لهم ليتم التعامل معها بشكل منفصل. والنتيجة هي ما مجموعه 44540 الصور تسلسل، والتي نستخدمها لتدريب 40109، 4431 لتأكيد. واحدة عدسة الفيديو باستخدام أساليب التعلم غير خاضعة للرقابة لتحديد عمق تعلم طريقة عرض واحدة، كنا أولا. هنا نقدم عمق وقبل اعتماد أشرف طريقة التعلم واعتمدت طريقة مؤخرا القياسية الصور ثلاثية الأبعاد لتدريب التباين. لأن استخدام أسلوبنا للتنبؤ عمق يحدده عامل المقياس.

الشكل (4)

ويقدم الشكل 4 مثال على النقيض البصرية، نتائجنا وعلى أساس المقارنة بين عينة واسعة النطاق للتعليم تحت إشراف، وهو ما يمكن ملاحظته من خلال التدريب غير خاضعة للرقابة، نتائجنا ونتائج التي تم الحصول عليها في التعلم تحت إشراف تماما . حيث حدود عمق الاحتفاظ وهياكل ضعيفة، مثل الأشجار والشوارع بشكل أفضل، والأداء.

وأظهرت الصفوف الأخيرين من نموذجنا خطأ نموذجية، عندما مشهد مفتوح ضخم والكائن من الكاميرا قريبة جدا، وأداء صعب للغاية.

الرقم 5

في الشكل (5)، وتبين لنا العينة التي تنبأ بها نموذجنا مناظر المدينة الأولي والنموذج النهائي. بسبب الفجوة في كل من البيانات نطاق مركزي، مناظر المدينة النموذج هو في بعض الأحيان من الصعب قليلا لاستعادة كامل في شكل سيارة أو الشجيرات، وسوف يكون لدينا أهداف لتحديد الخطأ.

2) تحديد فتة

من أجل تقييم أداء شبكتنا من حكم الموقف، وسوف نطبق نظامنا إلى اودومتري كيتى الرسمية (بما في ذلك 11 أضعاف قيمة اودومتري الحقيقية الدافعة تسلسل الحركة الإسلامية الأوزبكية / GPS قراءة) باستخدام 00-08 لتدريب، وذلك باستخدام 09- 10 تسلسل الاختبار. في هذه المحاكمة، دخلنا في صورة نظامنا هو ثابت إلى 5 أجزاء. نحن الذاتية الحكم الحركة واثنين من مرآة واحدة ORB-SLAM (أ بقبول واسع لدى كل نظام SLAM) من البديل مقارنة، 1) ORB-SLAM (الكامل) يقود تسلسل باستخدام جميع أجزاء لاستعادة المدينة. 2) ORB-SLAM (قصيرة) يستخدم الفقرة 5 فقط (وونحن ندخل الإعدادات).

الشكل (6) عندما جانب زاوية دوران صغير، طريقة لدينا هو أفضل بكثير من الواقع، والعملية برمتها ORB-SLAM (FULL) ORB-SLAM (قصيرة) قابلة للمقارنة. نهجنا وORB-SLAM (قصيرة) كبيرة تظهر فجوة الأداء التي حركتنا الدراسة الذاتية في نظام SLAM أحادية العدسة هو استخدام وحدة الحكم جزئية جدا مع إمكانيات.

والكاتب Tinghui تشو أيضا اختبار التعليمات البرمجية على جيثب مفتوحة المصدر: الشبكي: //github.com/tinghuiz/SfMLearner

عبر بيركلي، شبكة لى فنغ المترجمة

طريق الحرير

جامعة كاليفورنيا في بيركلي التي تم اطلاقها غير خاضعة للرقابة إطار التعلم العميق جوجل، تقليد حركة العين البشرية لتحقيق الفيديو الوعي الذاتي

في السنوات الأخيرة، وأفضل مظهر من المحلي الدراما فنون الدفاع عن النفس، غياب طويل!

تقليل الضوضاء الخوارزمية على أساس المويجات التباين الضوضاء عتبة

ممن لهم R17 تحليل عينة برو: قصة في وقت متأخر من الليل تحت اضح النار سجل

"دونكيرك" فاز بطل أمريكا الشمالية شباك التذاكر مقطورة جديدة نولان معك مواجهة قاسية

لعق الوقت الشاشة | الداخل لطيف فتاة جهود جادة تيان اريكا

فأرة الكمبيوتر التوقيت التلقائي مسابقة تصميم نظام

لعق الوقت الشاشة | "معالج الجمال سرقة" ليف تايلر

2018 الجمال صناعة العناية بالبشرة، والتمويل، والاتجاهات ومخرج: الصف المستهلك، تعود المنازل

اليوم يأخذك إلى تنوير لي، ما هو زي الإله الحقيقي

توفي المخرج برناردو بيرتولوتشي في سن تحفة البالغة من العمر 77 عاما "الإمبراطور الأخير" لقد أحاطت المنزل تسع جوائز الاوسكار

تحديد الكشف التلقائي من عيوب السطح من السيليكون الصلب قطاع بناء على رؤية الجهاز

وقد تم فصل الصيف أكثر من النصف، والتي في أغسطس المسارح قطعة تستحق المشاهدة الفتيات؟

العلامات التجارية الصينية على الطريق: من CES لرؤية العلم الأحمر من قوة مبتكرة للعلامة التجارية

مسيرة "شرسة" الحصول كبير معا، لا تخافوا لبجرأة إلى إصابة

تصميم وتنفيذ نظام موقع الموظفين على أساس زيجبي شبكة استشعار لاسلكية

لعق الوقت الشاشة | "قبل" إلهة الصدر شقة ميلا جوفوفيش

تقدير يستند توزيع قناة الاستشعار عن الضغط نظام MIMO-OFDM

WSN عقدة المكان تحليل خوارزمية

تعليقات المستخدمين تبدأ ب "حصاد الحب"! أعلن ضابط: المجد 8X الخيال الأرجواني استنفاد المبيعات الأولى

الخطأ إلقاء اللوم على اللجنة المنظمة لل89 جوائز الاوسكار السنوي

NVIDIA معهد التعلم العميق (DLI) موقع ليعلمك كيفية تعلم العملي من العمق، كما المطورين AI لا يمكنك إلقاء نظرة؟

الأحكام ذات الصلة