سوبر كامل! دراسة متعمقة في مجال الكمبيوتر قائمة التطبيقات الرؤية (مع وصلات)

المصدر: يعرف تقريبا

الكاتب: حمام هوانغ، مركز أبحاث كبير العلماء التفرد ورئيس السيارات في الولايات المتحدة

هذه المقالة حول 7200 كلمات اقترح القراءة 15 دقيقة.

هذا هو معاينة عمق التعلم مدى تطبيق كامل في مجال الرؤية الحاسوبية ~

استعراض موجز للقضية، في عام 2006 أوراق جيفري هينتون أضاءت "هذه النار"، والآن هناك الكثير من الناس بدأ في صب "الماء البارد"، وAI الرئيسي هو الكثير من الرغوة، وعمق التعلم ليس علاجا للجميع وصفة طبية.

رؤية الكمبيوتر ليست الأولى لمعرفة عمق المجال كسر الدراسة، حقا الجميع فوجئ في مجال تطبيق لإلغاء الطريقة التقليدية في التعرف على الكلام، مصنوعة من الشركة هو مايكروسوفت، وليس جوجل ومزدهرة. تطبيقات الحاسب الآلي رؤية دراسة متعمقة دعا نجاح اختراق في عام 2012 نقطة المباراة ImageNet، يستخدم نموذج CNN، بدلا من الانخراط في هينتون RBM وDBN وما شابه ذلك، ومصنوعة من الطلاب هينتون اسمه من بعده AlexNet.

(ملاحظة: بالمناسبة، قاد بطل 2010 يو كاي ImageNet / لين Yuanqing تعاون فريق NEC ومجموعة UIUC توم هوانغ، وكانت الطريقة المستخدمة تعتمد على الترميز متفرق + SVM).

بالطبع، تم خبراء حقيقيين يدرسون CNN هي يان ليكون، بار صغير وسحبت منه لاحقا للقيام FB AI رئيس البحوث. CNN هو أول نموذج للخروج من أن LeNet، ولكنه كان القيام به التعرف على الصور الرقمية. يجب أن أقول، CNN مثالية للتعامل مع المهام إشارات 2-D، RNN أنها تتوسع في المجال الزمني.

الآن CNN في تطبيقات رؤية الكمبيوتر ناجحة جدا، يتم التخلي عنها في الأساس طرق تعلم الآلة التقليدية. واحدة من أكبر الأسباب هو أن تصميم يتميز بيانات الصورة، هذا التوصيف، كان رؤية الكمبيوتر صداع، قبل التعلم العميق أكثر من 10 عاما، وتصميم أنجح ملامح صورة (وضعت اليد الميزة) هو فرزت، فضلا عن شهرة وحقيبة من الكلمات البصرية، واحد طريقة VQ الرقيقة. في وقت لاحق وضعنا CNN فرزت قارن النماذج وجدت تماما مثل هيكل وقال المقال أيضا أنه بعد لا RNN وCRF مثل ذلك.

من CNN بعد AlexNet، ونماذج جديدة في الظهور مرة كل ستة أشهر هناك اكتشاف جديد. هنا يتم سرد فقط، ZFNet (وتسمى أيضا MatNet)، VGGNet، NIN، GoogleNet (التأسيس)، شبكة الطرق السريعة، ResNet، DenseNet، SE-نت (الضغط والإثارة صافي)، هي أساسا ImageNet الأولى الشهيرة.

استعراض موجز:

  • AlexNet ينبغي النظر في عمق الأول CNN.
  • ZFNet باستخدام DeconvNet والتصور تكنولوجيا يمكن رصد عملية التعلم؛
  • VGGNet لاستبدال فلتر صغير 3X35X57X7 ومرشح كبير للحد من التعقيد الحسابي.
  • GoogleNet تعزيز NIN فكرة محددة التأسيس وحدة قاعدة (متعددة النطاقات تحويل والجمع بين مرشح من مختلف الأحجام، أي 1X1،3X3،5X5) لبناء نموذج.
  • شبكات الطرق السريعة gaiting وحدة توجه RNN التي LSTM.
  • ResNet هو العمل الثوري، بالاعتماد على اتصال شبكات الطرق السريعة تخطي الأفكار، وهذا نموذج التدريب عمق كبير يمكن أن تحسن الأداء، يتم تقليل التعقيد الحسابي.
  • التأسيس-V3 / 4 استبداله مع 1X71X5 وخصائص مرشح كبيرة قبل 5X5 عنق الزجاجة والقيام 7X7،1X1 التصفية، بحيث تصبح عملية التفاف قناة مثل عمليات عبر (عبر قناة) ذات الصلة؛
  • DenseNet أساسا من خلال وصلة عبر طبقة التلاشي حل مشكلة الانحدار.
  • تم تصميم SE-نت لاختيار ميزة، وتوظيف النابضة الآلية؛
  • الاهتمام هو أيضا شعبية منذ بعض الوقت آلية اقترضت من LSTM وتنفيذ نموذج السياق الكائن على علم.
  • ......

في تطبيقات محددة، كانت هناك العديد من النماذج الناجحة، مثل:

  • RCNN مشكلة الكشف، RCNN بسرعة، أسرع RCNN، SSD، YOLO، RetinaNet، CornerNet الخ
  • FCN حل مشكلة تجزئة، DeepLab، Parsenet، Segnet، قناع R-CNN، RefineNet، PSPNet، U-نت، الخ
  • VoxelNet يدار معالجة البيانات سحابة نقطة، PointNet، BirdNet، LMNet، RT3D، PIXOR، YOLO3D شابه ذلك،
  • رادار ليزر وتحقيق الانصهار صورة PointFusion، RoarNet، PointRCNN، AVOD، الخ
  • للقيام معالجة الصور DeHazeNet، SRCNN (فائقة الدقة)، DeepContour، DeepEdge شابه ذلك،
  • 2.5 D البصرية MatchNet، DeepFlow، FlowNet شابه ذلك،
  • إعادة الإعمار 3D من PoseNet، فينيه، منظور محول الشبكة، SfMNet، CNN-SLAM، SurfaceNet، 3D-R2N2، MVSNet الخ
  • وتبسيط معالجة ضغط نموذج MobileNet، ShuffleNet، EffNet، SqueezeNet،
  • ......

هنا نتحدث بعناية لتطبيقات محددة.

صورة / معالجة الفيديو

قال أولا (الكامنة رؤية الكمبيوتر، وليس أقل) معالجة الصور / الفيديو.

معالجة الصور، ومعالجة الفيديو، كان الأساس للعديد من المنتجات الصناعية، الآن التلفزيون والهاتف والكاميرا / كاميرا تنفصل ذلك، التكنولوجيا نضجت ببطء (الطريقة التقليدية)، تجربة يصبح أكثر أهمية، و رقاقة أكثر تكاملا، يذهب الناس أساسا لدراسة أقل. الكلاسيكية ISP، A3، متاحة بسهولة، وبطبيعة الحال، فإنه من الصعب القيام بعمل جيد وتتنافس مع الآخرين، وخفض التكاليف.

هذه هي عملية التصوير نموذجية مخطط من:

الكلاسيكية ISP سير على النحو التالي:

معالجة الصور، ويستند أساسا على إعادة الإعمار إشارة تحت بعض الافتراضات. هذا ليس ما نقول ان اعادة الاعمار 3-D، يشير الانتعاش إلى إشارات المعلومات الأصلية، مثل الضوضاء، والاستيفاء. هذه هي مشكلة عكسية في حد ذاته، ليس هناك أية قيود أنه لا يوجد حل أو الافتراضات، مثل إزالة الضجيج هو الأكثر شيوعا افتراض ضجيج جاوس، والاستيفاء الفعلي لاستعادة إشارة عالية التردد، فإنه يمكن أن يفترض واستمرارية تدرج حافة الارتباط، المعروف التلفزيون (الاختلاف الكلي) وهلم جرا.

قبل أكثر طريقة ناجحة هو معالجة الإشارات، والتعلم الآلي الأساسية وكانت هناك والقيود معالجة الإشارات يصبح لديهم معرفة مسبقة من الحكم بايز، مثل متفرق الترميز / التعلم القاموس، MRF / CRF وما شابه ذلك، يتعلمون الآن من الجهاز التقليدية هذه الطريقة أيضا الانتقال الطبيعي لتعلم عمق ذلك.

1، دي الإشاعة / defogging / طمس / دي الظلال

وأول شبكة التشفير فك يعطي نموذج AR-CNN (AR = قطعة أثرية الحد):

هذا هو إطار معالجة الصور نموذج للأغراض العامة:

2، وتعزيز / فائقة الدقة (SR)

مرشح الثنائي هو مرشح صورة معروفة، وتعطى CNN هنا إلى نموذج مصنوع من مثال على تحسين الصورة وحي:

كما غرض استيفاء المذكور استعادة فقدان المعلومات ذات تردد عال، وهنا للقيام SR النموذج هو أحد مكونات عالية التردد في الصورة التعلم:

3، وإصلاح / استرداد / تلوين

التشفير، فك نموذج شبكة لإصلاح الأفكار القائمة GAN:

الإطار النموذجي للتلوين صورة الرمادي (8 بت تدرج إلى 24 بت الفضاء RGB مساحة ممتدة):

صورة تجهيزها

هناك كمبيوتر رؤية المعالجة (2-D).

الكمبيوتر الرؤية المطلوبة تجهيزها، مثل استخراج الميزة، ميزة نقاط بما في ذلك، وحواف ومعالم مثل. تستخدم للقيام المسار وإعادة البناء ثلاثي الأبعاد، يجب علينا أولا استخراج الميزات. السابقة نقطة ميزة الناجحة هي فرزت / SURF / FAST أو ما شابه ذلك، حيث شكلت FIG الآن من قبل CNN يمكن تعريف.

استخراج حواف ومعالم هي مهمة صعبة جدا، قد التفاصيل كانت قوية جدا للتغطية على خط صورة، والملمس (نسيج) نمط توزيع حافة نفسه هو ضعيف، وتصنيف (الهرمي) التمثيل هو الطريقة المستخدمة عادة، المعروف باسم الفضاء على نطاق و(الفضاء على نطاق و). القيام به قبل نهاية الرؤية منصة متنقلة، وكان في بعض الأحيان إلى إيقاف بعض الصور تجهيز وظائف، لأن الخصائص تشويه الناتجة عن ذلك. الآن توصيف CNN لهذه الآلية الطبيعية، لتوفير وسيلة جيدة تجهيز ما قبل صورة من شأنها أن قبل معالجة الصور والبصرية جنبا إلى جنب.

1، واستخراج ميزة

LIFT (المستفادة ميزة ثابتة تحويل) نموذج، وهذا هو، في تقليد فرزت:

2، على حافة / استخراج كفاف

وكشف كفاف نموذج شبكة التشفير فك:

3، ومطابقة ميزة

هنا مباراة أدلى نموذجا MatchNet:

2.5-D الحاسوب الرؤية

وبالاضافة الى 2،5-D جزء رؤية الكمبيوتر (ليس تماما 3-D).

يشير المقطع إلى الحركة المنظر 2-D أو عموما المشار مساحة 2،5-D. هذا جزء من المشكلة 2-D السابقة هو نفسه، كما هو الحال أيضا مهمة إعادة بناء المشكلة العكسية التي تتطلب حل الحل الأمثل القيد، مثل التلفزيون، GraphCut. وهناك فترة من الوقت (وخاصة مار عصر) مهمة الرؤية الحاسوبية هي حل المشاكل الأمثل في ظل قيود.

وفي وقت لاحق، احتمال عشوائي وتقدير النظرية الافتراضية متهما إياه لهذا الحدث، تصبح القيود على معرفة مسبقة (قبل)، والدوائر رؤية الكمبيوتر بدون كتابة P (احتمال) وباء (بايز)، وشعر بالحرج. مثل SVM، وزيادة، الرسومات النموذجي، عشوائية غابة، BP (الإيمان الانتشار)، CRF (شرطي الميدان عشوائية)، خليط من Gaussians، MCMC، متناثر الترميز كان مرة واحدة محبوبة من رؤية الكمبيوتر، والآن CNN اللون :).

ويمكن القول هو التعلم العميق جدا "العنف" وما القيود التحليل السابق آه، آه المعرفة هنا قبل طرح جميع جانبا، طالما أن بيانات الصورة ويمكن محاربة آلة التقليدية أساليب التعلم.

1، وحركة / تقدير التدفق البصري

وتشمل الطرق التقليدية طريقة المحلي وطريقة العالمي، حيث يتم استبدال CNN طريقة العالمي.

هنا هو تقدير نموذج التدفق البصري:

2، والتفاوت / عمق تقدير خريطة

خريطة تقدير عمق وتقدير الحركة مشكلة مماثلة، والفرق الوحيد هو أحادي يمكن تقدير خريطة العمق، وممارسة التمارين الرياضية لا يمكن.

هنا هو نموذج مجهر لتقدير خريطة العمق:

وهذا هو نموذج أحادي لتقدير خريطة العمق: هنا هو الاستخدام الذكي للبيانات الخرائط عمق مجهر عمل تقديرات التعلم غير خاضعة للرقابة.

أحادي عمق تقدير نموذج آخر: هو استخدام القيود الهندسية عيون تفعل التعلم غير خاضعة للرقابة.

3، دينترلاسينغ فيديو / إطارات محرف.

لا حصل مشكلة كلاسيكية فراميراتي upconversion دينترلاسينغ ومعالجة الفيديو، عندما سوني وسامسونج هذه الشركات المصنعة TV تحت الكثير من الجهد في هذا الصدد، NXP الشهير (فيليبس شركة من العرضية) ثم هناك خوارزميات الأجهزة سريع في هذه الوحدة أقل من المال.

وتعتمد الطرق التقليدية الأساسية تقدير الحركة وطريقة التعويض، المعروف باسم MEMC، لذلك تصنف على أنها 2.5-D. تم حل تقدير الحركة السابقة مع التعلم العميق، والآن هاتين المسألتين بشكل طبيعي.

أول اطلالة له على نموذج من MEMC القيام به:

هذا هو نموذج للقيام دينترلاسينغ:

هذا هو الجوانب فراميراتي Upconversion نفيديا للنموذج:

لأنه يستخدم إطار الاستيفاء تفعل طريقة التدفقات البصري، أكثر من ذلك المرفق نموذج تقدير التدفق: هو وضع الرملية (الساعة الرملية).

4، جيل صورة منظور جديد

فقط أدخل أحادي تقدير خريطة العمق عندما، في الواقع رأينا بالفعل أمثلة على استخدام معكوس تزييفها طرق جديدة ولدت من القيام المنظور، في مجال IBR لديه فرع يسمى الصورة القائمة هنا عمق التقديم (DIBR).

ومشكلة مماثلة لFIG تعلم أن تفعل صورة توليفها عمق، بل هو أيضا مساحة 2،5-D. في مجال التلفزيون، كان يعمل في هذه الطريقة 3-D لتوليد برنامج تلفزيوني تلقائيا من أحادية العدسة كاميرا مجسمة الفيديو. كانت تستخدم في السابق تعلم الآلة، يوتيوب ثم استخدام صورة طريقة البحث للقيام التنبؤية خريطة العمق يوفر خدمات المحتوى 2D-3D، ولكن أداء ليست جيدة. الآن نشعر، نحن لا يبدو متحمسا هذا بعد الآن.

هذا هو نموذج للحصول على منظور جديد:

وهذا النموذج هو لتوليد فيديو مجسمة من الفيديو عدسة واحد:

عليها أن تفعل الترميز / فك، أو أيضا توظيف الحركة القائمة على تحويل التشابه، ولكن الأداء من الطريقة التقليدية، يتم تجاهل هنا.

3-D الحاسوب الرؤية

تحول بجانب 3-D، على أساس متعددة بغية إعادة الإعمار (MVS) / حركة (SFM)، وهذا الأخير يسمى أيضا SLAM.

هذا الجزء هو كلاسيكي مشكلة الرؤية الكمبيوتر: إعادة الإعمار 3-D.

في الأساس تقسيمها إلى مسارين: الأول هو إعادة الإعمار متعدد الزوايا، وهما إعادة بناء الحركة. الأول لديه الأسلوب الكلاسيكي MVS (متعددة ستيريو عرض)، فمن مباراة متعدد الإطار، تعزيز مطابقة مجهر، وبالتالي فإن استخدام CNN تحل أيضا معقولة. ، وخلق ضجة كبيرة، ويستند العام وإعادة البناء ثلاثي الأبعاد في الفناء المعرض تحول المنظور جامعة كارنيجي ميلون في هذا الطريق، ولكن لم يتم تسويقها في نهاية المطاف (وقد تم نقل التكنولوجيا).

بعد SLAM تصبح الروبوتات، وهناك نوعان من الإطار الرئيسية شروط وأساليب، ودقة عالية الأخيرة، على أساس نقاط ميزة متفرق يمكن أن تستخدم على BA (حزمة التعديل)، وأساليب معروفة مثل PTAM، ORB-SLAM1 / 2، LSD-SLAM، KinectFusion (RGB-D)، الطميية وVELODYNE SLAM تحديد المدى، وما شابه ذلك. SLAM أصبحت الآن صناعة AR عنق الزجاجة، تبدو ماجك ليب وHoloLens، لا يمكننا دائما يتم الكشف في الطائرة بناء على أمن بار الكائن الظاهري، مع الوضع الفعلي هو صحيح في بيئة حقيقية حيث ظيفة عادية.

أود أن تتخيل مطابقة نقطة ميزة، وتقدير إطارات الحركة، والكشف عن حلقة إغلاق هذه الوحدات يمكن استخدامها لحل نموذج CNN، ثم SLAM / SFM / VO يدخل استكشاف المنطقة على CNN.

1 والمعايرة

معايرة مشكلة الكلاسيكية في كاميرا للرؤية الكمبيوتر كجهاز استشعار المهمة النظام البصري الأولى هي تحديد العلاقة بين الملاحظات الخاصة بها و3-D العالم النظام، وهي المعايرة تنسيق. الكاميرا معايير والمعايرة يتم تحديدها في جزأين، المعلمة الداخلية واحد هو خارج المعلمتين. إن تعددية أجهزة الاستشعار عن النظام البصري، مثل عمق مكتشف، قبل كينيكت RGB-D، هناك رادار ليزر VELODYNE وتنسيق علاقاتهم المتبادلة بين يتم معايرة المهام.

المعلمات معايرة الخارجية التي تساعد على إكمال بيانات المعايرة، مثل الليزر RGB-D خريطة عمق نقطة رادار سحابة، والكاميرا مجموعة صورة بكسل، يجب أن يكون هناك أفضل تطابق المعايير، والتي يمكن أن تدرب على يد بيانات نموذج NN كاملة. نموذج NN هو نتيجة المعلمات معايرة الانتاج الانحدار.

هنا هو رسم بياني لنظام رادار ليزر ومعايرة الكاميرا:

في عرض نموذج هيكل CalibNet:

2، البصرية اودومتري (VO)

VO هو جزء من SLAM، ولكن يقدر الحركة وضعهم تغييره. VO Autopilot2.0 الرئيس السابق لتيسلا ديفيد Nister تأسست قبل له صورتين لحساب مصفوفة الأساسية "05:00 خوارزمية" والمشاهير، والآن هو رئيس نفيديا الطيار الآلي، نائب رئيس الشركة.

هنا VIO نموذج NN (اودومتري-بالقصور الذاتي البصرية) وربط البيانات INS:

هذا هو نموذج المعروفة VO AR تبدأ ماجك ليب المقترحة: اثنان أجزاء، وهي ميزة استخراج ومطابقة (Homography).

وبالمناسبة، بالإضافة إلى بيانات رادار ليزر تفعل اودومتري نموذج CNN:

3، SLAM (مونو، ستيريو، RGB-D، تحديد المدى) / SFM

ويستند هيكل BACKGROUND من الحركة على فرضية لا تتحرك، والرؤية الكمبيوتر مثل أقرانهم المدى SFM والأقران والروبوت يسمى SLAM. SLAM أكبر الالتفات إلى الحلول الهندسية، SFM قدمت مساهمات كبيرة نظريا.

نظرة على كاميرا واحدة كتلة نظام تخطيطي SFM:

ومن NN نموذج SFM نت، الحركة والهيكل تضم قسمين:

SLAM ثم إرفاق نموذج CNN-SLAM: في المقام الأول بالإضافة إلى أحادي خريطة عمق تقدير حدة CNN.

هذا هو أسلوب التوطين على أساس يدار من CNN: ليس فقط تشير البيانات سحابة، هو أيضا قيم الانعكاس المدخلات درجات الرمادي.

الصورة هي تدفق البصري الحركة بكسل، ويسمى حركة 3-D التدفق المشهد المشهد، إذا كانت البيانات ليزر نقطة رادار سحابة، والتي يمكن أن تتحقق من خلال تقدير ICP حيث التنفيذ نظرا FlowNet3D CNN نموذج، هي ملحقات PointNet:

4، MVS

ويمكن تقسيم الطرق التقليدية MVS إلى قسمين: وPMVS الشهير السابق، وKinectFusion الأخير، ويستند CNN طريقة نموذجا لحل MVS المناطق نموا وعمق الانصهار في هذا الشأن.

MVS تفعل نلقي نظرة على نموذج 3D-R2N2 RNN المستندة إلى المهام في LSTM من:

وهو مخطط كتلة النظام كما يلي:

UIUC / DeepMVS الفيسبوك نموذجا للتعاون:

هذا هو مخطط كتلة نظامهم:

نرى الآن هو مالك، اقترحت مجموعة بيركلي LSM (المستفادة آلة ستيريو) نموذج:

هنا هو نموذج MVSNet المقترحة مؤخرا من قبل مجموعة حقوق أستاذ طويل هونغ كونغ:

فهم البيئة

الجزء الأساسي من مستوى عال رؤية الكمبيوتر.

هذا الجزء من الدراسة هي الأولى التي تصل إلى عمق في الرؤية الكمبيوتر وإظهار قوة من جانب قوي. عمل ممتاز أكثر من اللازم، ويلتمس اهتمام الجميع بعد، وهناك الكثير من التحليل وملخص لهذه المادة، لذلك سيكون هناك عدم تكرار أكثر من اللازم، لمجرد التذكير.

1، وتجزئة الدلالي / تقسيم مثال (الدلالي / مثيل تجزئة)

وينبغي أن يكون CNN تجزئة الدلالي الأول التطبيق الناجح للنموذج FCN (بالكامل الإلتواء شبكة)، التي أدلى بها الباحثون في بيركلي. وهو pixel2pixel للتعلم، وبعد تطور نماذج مختلفة، ويمكن الآن تصنيف لهم في التشفير، فك الشبكة.

وفيما يلي رسم بياني ورقة في العام الماضي CVPR الواردة في ملخص الطيار الآلي في الوقت الحقيقي تجزئة الدلالي الخوارزمية.

حيث التشفير قسم وبخاصة استخدام MobileNet ShuffleNet.

أمثلة على تقسيم هو تقسيم الدلالات الخاصة، جنبا إلى جنب مع الكشف عن وجوه، يمكن القول الكشف عن وجوه مع مخطط واضح من رائعته هو قناع R-CNN، ينبغي أن يكون تحفة الأولى بعد وKaiming إلى FB.

وهذا مثال من هدف إشارة خوارزمية الكشف عن نموذج SSD تجزئة.

وفيما يلي أمثلة على نموذج تجزئة MaskLab من الكشف عن الهدف خوارزمية أسرع-RCNN تطور الأبحاث المنشورة في العام الماضي وCVPR'18.

هذا هو التخطيطي وهي عملية إصلاح قناع:

ويستند هذا على 3-D نقطة الغيوم تجزئة الدلالي نموذج NN:

2، والكشف عن / تحديد الهوية (أمثلة محددة: الوجه)

يجب تعيين الهدف عمل كشف الرائد بها، بيركلي مالك، أي عملية من خطوتين من R-CNN (منطقة المستندة إلى CNN)، اقترضت منطقة اقتراح الطريقة التقليدية. بعد التحسين المستمر وسريع RCNN وأسرع RCNN، في كل مرة فكرة جديدة، حقا، "النجوم" الشعور.

العمل من خطوة واحدة، شهرة هو SSD (طلقة واحدة الكشف) وYOLO (أنت تنظر إلا مرة واحدة)، وKaiming خلال إدخال فقدان البؤري للمزايا كل منها وعيوب-مرحلة واحدة وطريقة من مرحلتين، وطريقة جديدة لبناء ودعا RetinaNet، في وقت لاحق، YOLO3 أيضا حلها أساسا دقة منخفضة من الضعف.

هنا وجهت تطوير خوارزمية رسم (في الواقع، هناك بعض الطرق غير المدرجة فيه، مثل densebox، deepbox، R-FCN، FPN، وما إلى ذلك).

ImageNet حد ذاته هو 1000 أنواع من وجوه لعبة الاعتراف، أعلن الجنرال أن الجزء العلوي 5 النتائج (شوهدت للمرة الاولى الدقة كيف منخفضة). CNN في تاريخ ImageNet، غير أنه في بعض التعرف على الصور ما يقرب من خمس سنوات من التاريخ.

ليزر رادار بيانات نقطة المعالجة السحابية، وتحديد ما إذا كان أو مقسمة، هناك PointNet CNN ونماذج محسنة.

باحثون هل الاعتراف الكائن نقطة أساس أمثلة نموذج سحابة VoxelNet أبل المنشورة:

صورة RGB مجتمعة ونقطة الكائن سحابة الكشف CNN مثال نموذجي على النحو التالي:

هنا، بالمناسبة التعرف على الوجه، لأنها ملك للتمييز وجه الإنسان الفردية، لذلك ينبغي النظر في هذه المسألة غرامة الحبيبات الاعتراف. تماما مثل كلب أو حصان للحيوانات يستمر لتحديد سلالة لها، يتم تقسيمها.

يرجى ملاحظة، وجها وجها دون التحقق (التحقق الوجه) والتحقق الوجه (تحديد الوجه)، والسابق هو عندما اثنين من الناس ليسوا نفس الشخص، 1 إلى 1 رسم الخرائط، وهذا الأخير هو تحديد مجموعة من الناس الذين هم واحد (1)، لكثير ampping. كثيرا ما ذكرت من قبل جهاز التعرف على الوجه أقوى من الناس، والرجوع إلى السابق، إذا كان هذا الأخير، ثم وكأنه آلة من يستطيع التعرف على الوجوه من الناس على قاعدة البيانات عليه؟ ناهيك عن وزارة الامن العام الصينية من بيانات تصل إلى مئات الملايين من حجمها.

وإكمال نظام التعرف على الوجه، واستكمال كشف الوجه والوجه معايرة (الوجه محاذاة)، في حين أن هذا الأخير هو الحاجة إلى مواجهة النقطة الحرجة (معالم الوجه) كشف، ولكن أيضا يمكن أن تقوم على نموذج CNN للقيام به. هنا في نموذج FB DeepFace كمثال على ذلك، وبالنظر إلى الرسم البياني كتلة النظام من التعرف على الوجه من قبل:

هو نموذج كشف الوجه قد اقترح هذا مؤخرا: الانتقائية شبكة صقل

وهنا هو معايرة القائم على نموذج للقيام معالم الوجه:

نموذج بالمناسبة الهرم CNN ونموذج DeepID2 شانغ سلالة تقنية التكنولوجيا دائمة (أصدرت ما مجموعه أربعة نسخة DeepID) التي تظهر بشكل متتالي في FIG.

3، وتتبع (ولا سيما الأمثلة على ذلك: موقف الهيئة / الهيكل العظمي)

تتبع الهدف هو مشكلة تقدير متكررة، وفقا للمعلومات كان مقدرا في السابق إطار صورة الهدف من الموقع المستهدف الحالي وحتى حجم / التوجيه. لبعض الوقت، كشف وتتبع يصبح الموحلة ككل، أي ما يسمى تتبع من خلال الكشف، وتتبع تجزئة الهدف يمكن أيضا أن ينظر إليه (من حيث الأمامية والخلفية) / مشكلة الاعتراف.

تتبع هو باختصار (قصيرة الأجل) الكشف عن الحي، والكشف عموما طويل (طويل الأجل) للكشف عن مجموعة واسعة. تتبع الأكاذيب صعوبة في انسداد الهدف (نقطة الجزئي أو الكلي)، والخلفيات المعقدة (أو كائن مماثل الحالي)، سريع (FAST) ومتحولة (رشيق) الحركة وما شابه ذلك. على سبيل المثال، وتتبع وجها إنسانيا، عندما تحول 90 درجة على وجوه الجانب سيكون لها هذه المشاكل.

هناك حاجة للتمييز بين تتبع multiobjective نقطة طريقة (MOT) أو هدف واحد (سوت) تعقب. لن يتم النظر في هدف واحد تدخل واقتران بين الهدف، وستنظر في ظهور أهداف تتبع متعدد الاهداف، وكذلك التفاعل مع بعضهم البعض واختفاء القيود، تم تصميم فرضية ضمان تفرد كل خوارزمية تتبع الهدف.

تتبع أهداف متنوع، يعتبر عموما هيئة جامدة أو مرنة، وأنها تعتبر واحدة جامدة أو مفصلية (مفصلية)، مثل حركة الإنسان أو الإصبع، فمن الضروري تحديد نموذج هيكل عظمي. تتبع يمكن أن تكون الصورة القائمة، أو سحابة نقطة يدار، يجب أن تأخذ في الاعتبار التغيرات السابقة في حجم صورة الهدف، وتغيير الموقف، أكثر صعوبة.

واستنادا إلى الخصائص المذكورة أعلاه، وتتبع يمكن حلها عن طريق CNN أو نموذج RNN، وتتبع وصف الهدف في حد ذاته هو الاستفادة من نموذج NN، الجدير بالذكر الكشف، وتجزئة أو قيمتها الاعتراف بالذكر، ليست مشكلة. وصف يمكن أن خصائص الحركة أيضا معرفة نموذج RNN، ولكن كيف أفضل بكثير نشهد نتائج هذا الجزء أفضل من الطرق التقليدية.

نظرة على نموذج واحد CNN تتبع الهدف.

نموذج المبين هو امتداد لنموذج الكشف R-CNN بناء على تتبع الهدف واحد:

متعدد هدف نموذج تتبع لها مثل هذا المثال:

وفيما يلي متعدد الاهداف تتبع نموذج RNN على أساس:

التكميلية تتبع نموذجا NN استنادا إلى صور RGB و 3-D أهداف الغيوم نقطة:

وبالمناسبة، والحديث عن موقف الهيئة ومشاكل تتبع الهيكل العظمي. قبل الطريقة التقليدية في تقدير الجسم البشري تشكل أنها أنفقت الكثير من الجهد ولكن النتيجة سيئة، اقترح طراز كائن قائم على جزء منها، مثل نموذج كوكبة، هيكل التصويرية، نموذج الشكل الضمني، نموذج تشوه، وهلم جرا.

اقترحت جامعة كارنيجي ميلون في الآونة الأخيرة طريقة على أساس الجزء تقارب الحقول (PAF) لتقدير الموقف الجسم والهيكل العظمي، سريع جدا. القوات الجوية الباكستانية هو يوصف نموذج غير حدودي، لكل من بكسل الصورة والمضاهاة من جسم الإنسان، انظر FIG هندسته المعمارية، فإنه يستخدم اثنين من فرع CNN هيكل، النقابي ارتباط التعلم وموقف كل طرف.

ما يلي هو تخطيطيا للجزء مكرر نمط مطابقة (Bipartie مطابقة) الخوارزمية.

هذا فهم السلوك البشري لتحقيق متعدد الاهداف تتبع موقف سريع هو أداة مهمة جدا.

أربعة طلبات

وأخيرا، والحديث عن مجال الرؤية الحاسوبية لتعزيز.

هنا، اخترت أربعة طلبات رؤية الكمبيوتر، ودفع إلى الحديث عن التعلم العميق في هذه المناطق، قبل CNN أو RNN "النار"، وجود هذه التطبيقات بالفعل، ولكن على تحديد أداء مهمة تصنيف يقتصر بايل. تطبيقات الطيار الآلي في مقال آخر سبق ذكرها، وهذا يتم تجاهل.

1، استرجاع المحتوى

CBIR (محتوى الصورة القائمة على استرجاع) هناك نوعان من موجات من الناس الذين ينخرطون في موجة من علوم الكمبيوتر، للنظر في هذه القضية عندما قاعدة البيانات؛ عملية إلكترونية ضخمة أخرى، وهذا هو مشكلة صورة مطابقة. بدأنا أيضا فجوة الدلالي مزعجة بشأن هذه المسألة، مع بعض السمات، مثل اللون، الملمس، مخطط، أو تخطيط حتى، وأنا حقا لا تأثير Zeyang.

في وقت لاحق مع فرزت، مع مفهوم حقيبة استرجاع المعلومات من الكلمات، بالإضافة إلى فهرسة مقلوب، TF-الجيش الإسرائيلي (التردد معكوس المدى ثيقة تردد)، تجزئة هذه التكنولوجيا أصبحت أفضل، كل عام مجموعة من الاجتماع ACM MM الورق. وجاءت دراسة متعمقة بشكل رئيسي تلعب دور الميزات وصف هذه الوثيقة.

هذا هو استخدام الإطار CBIR من CNN:

هذا المعرض هو لCNN صورة نموذج مطابقة CBIR من:

2، الواقع المعزز

AR بدء القيام بعمل جيد، لا اقول ان جزءا من المشكلة VR، المتطلبات العالية أساسا في الوقت الحقيقي، بغض النظر عن الاعتراف أو حركة / موقف دقة تقدير ليست جيدة. الآن تطوير أجهزة الحاسوب وسرعة الحوسبة، بالإضافة إلى دراسة معمقة بحيث يصبح سهولة تحديد الهبوط، ومؤخرا أكثر وأكثر حرارة، سواء كان أو ميزة تقدير قفة مطابقة (المواقع)، هي أسهل قليلا. نأمل أن يكون هذا يمكن أن يكون حقا لها تأثير على المجتمع، AR تلك الأحلام.

هذا الإطار هو جوجل زجاج منصة تطبيق AR، لا يمكن أن يتحقق عدة وحدات على أساس CNN:

وفيما يلي التشفير فك شبكة إطار حركة الكاميرا: نموذج ثلاث مجموعات، حيث والتكرار.

ويبين الجدول التالي تأثير استخراج ميزة نموذج وصفها، AR يمكن استخدامها مباشرة، كما أعيد توطين.

3، ومحتويات ملء / وصف

السفلية هو مزيج من رؤية الكمبيوتر والبرمجة اللغوية العصبية. يمكنك استخدامه بمثابة مهمة "بحث"، يمكن القول أن يكون "ترجمة" العمل. التعلم العميق، هو مساعدة إنشاء نموذج اللغة وتوليد وصف عينة.

4، ومضمون Q (Q & A)

Q & A NLP هو مزيج من رؤية الكمبيوتر وجوهرها هو بناء جسر بين الصورة ووصف وصف اللغة. بعض الناس يقولون، Q & A اختبار تورينج هو سؤال جيد، وهنا هو دراسة متعمقة للمساعدة في فهم التفاعل بين تكوين وصف صورة من المشكلة، وكذلك أنماطها.

CNN بعض التطبيقات لا تزال بحاجة إلى مزيد من تحسين النموذج، أداء غير مرض. ومع ذلك، فإننا سعداء لرؤية قد حان عمق التعلم في المستقبل دراسة متعمقة لأداء سيكون أفضل.

الرابط الأصلي:

https://zhuanlan.zhihu.com/p/55747295

المحرر: وانغ جينغ تم التعليق بواسطة: لين يي لين
- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور " بيانات الإرسال THU "أيتها الأخوات ولا". إرسال البيانات THU "لرعاية المزيد من المحاضرات ونوعية المحتوى.

نصف المقاطعة الوطنية من السلع اليابانية، والشيء الحقيقي الكورية حتى الآن؟

ليو يونبينغ: البيانات الكبيرة، واسمحوا لي من العيش أقرب

A قراءة النص: ما هو التسامح الهندسي؟

تشير الصين إلى خط الشمالية وسلسلة: 137331 بيانات شواء، يكون ذلك المفضلة لديك؟

T2 تنس الماس في ماليزيا شو: مالون قطع الجولة الأولى

الشبكة العصبية الخاص بك لا يعمل 37 أسباب (الرابط المرفق)

NC على "الموناليزا" تمثال، فعل الشعب الصيني

! أوراق ACL تعتمد على "لا"، وضعت منظمة العفو الدولية إلى تخمين المكفوفين القراءة الانخفاضات مستوى الفهم

وقال تشو Siyu: المستفيد الأكبر وبيانات الاتصالات

أرخايف سخونة إطار التعلم العميق: TensorFlow أولا، وضع PyTorch ترتفع

مدينة ووهان، وأول استبدال نطاق واسع للضوء نفق جسر | أطلس

ليلة القراءة | أفضل الحب هو الطريقة يكون لديك