[استعراض فاز جي الجديدة 20 أيام غادر في عام 2018، إلا أنها لم تقلل من الحرارة الذكاء الاصطناعي. بالإضافة إلى لعبة الشطرنج، التعرف على الوجوه، والذكاء الاصطناعي وضعت بالضبط إلى أي مدى؟ ملخص من أكثر الإنجازات الأكاديمية المتقدمة في مختلف المجالات، اليوم، دعونا ننظر في في رؤية الحاسوب واللغة الطبيعية معالجة الوضع الحقيقي للهذين المجالين من التقدم في منظمة العفو الدولية.

2018، AI على قيد الحياة، ولا تزال النتائج.

على الرغم من أن كثير من الأحيان أقل من العام الماضي، "وراء الإنسان" في الروح، ولكن "المساعدات الإنسانية" في مجال الذكاء الاصطناعي، والآن بالضبط إلى أي مدى؟ ودعونا يقترب من نهايته في 2018 عندما، من خلال مراجعة بسيطة.

وعلى الرغم من سمية الحديث هو البلطجة جرعة، ومجموعات البيانات جانبا مهمة محددة إلى الحديث عن التقدم المحرز في مجال الذكاء الاصطناعي، أيضا. "حالة art.ai" MIT والطلاب UNAM يقومون موقع على شبكة الانترنت، التي تأسست في الأمثل الحالي رؤية الكمبيوتر يغطي الخوارزمية، والألعاب، ومعالجة اللغة الطبيعية، مخططات الشبكة وقاعدة المعرفة، وإجراءات الاستقراء، وتكوين البرنامج ومعالجة الصوت، السلاسل الزمنية العملية في سبع مناطق.

هنا، نحن بناء على الأوراق البحثية المنشورة، نلقي نظرة على حالة رؤية الحاسوب واللغة الطبيعية معالجة هذين المجالين من منظمة العفو الدولية.

رؤية الكمبيوتر

3D / 3D إعادة الإعمار

"3D" يمكن أن تكون كلمة CV الآن أهم المجالات. هذا العام هناك العديد من الهواتف الذكية الدعاية المشار إليها "الضوء منظم 3D". ثم، 3D تطوير البصرية إلى أي مدى؟

، تظاهر 2017 CVPR MIT جامعة ماساتشوستس أمهرست والباحثين جوجل DeepMind هذه النتيجة، وذلك باستخدام التشفير التلقائي (VAE)، بنى الإطار دعا SingleVPNet، وعمق من وجهات نظر متعددة FIG أو كفاف المقابلة (خيال) يولد نموذج التعلم، وذلك باستخدام وظيفة التقديم لتوليد التفاصيل الدقيقة للشكل صور 3D.

ليس ذلك فحسب، ولكن أيضا من خلال إطار المقترح خريطة متكاملة عمق 2D وجهات نظرهم المختلفة (حتى في حالة محمية)، جيل جديد من أشكال 3D.

SingleVPNet تم الحصول 0.35 متوسط نتائج خطأ في البيانات شكل 3D يحدد SharpNetCore. وبعبارة أخرى، واقعية شكل 3D إنشاء بعض المسافة.

الملحق، SharpNetCore هي مجموعة فرعية من ShapeNet تضم حاليا 55 فصول مشتركة الكائن (التي تغطي مجال الرؤية الحاسوبية المشتركة 3D مجموعات البيانات القياسي PASCAL 3D + فئة الكائن من 12)، وحوالي 513003D نماذج فريدة من نوعها، كل نموذج لديك للتحقق من فئات يدويا ومواءمة التعليقات، التي شاركت في تأسيسها برينستون وستانفورد ومعهد تويوتا (TTIC) الفني موظف.

اعتراف العمل

وسائل التعرف على الحركة تحديد يختلف عن عمل الفيديو، وهذا قد يكون من خلال شريط الفيديو بأكمله، أو لا يجوز. يتم توسيع حركة التعرف على الصور تحديد وصلته التعرف على الصور الفيديو من عدد وافر من الإطارات، ثم تجمع النتائج من كل من الإطار التنبؤ.

2017 NeurIPS والباحثين جامعة كارنيجي ميلون كلية الروبوت روهيت Girdhar وديفا Ramanan استخدام آليات الإنتباه (سيكلوجية الإنتباه تجميع)، مع الحفاظ على التعقيد وكمية من الحوسبة شبكة هو في الأساس نفسه، تحديد ثلاث صور ثابتة ومعايير الحركة الفيديو تعزيز التعرف على بيانات مرجعية العملية. حيث، في مجموعة البيانات الجسم المكتسبة الموقف MPII 12.5 التحسن النسبي.

ومع ذلك، نظرة على القيمة المطلقة لمتوسط دقة ما زال عالقا في 52.2 في المئة أعلاه.

التعرف على الوجه

وفقا لنتائج المعهد الوطني الأمريكي للمعايير والتكنولوجيا (NIST) أعلن 16 نوفمبر من هذا العام في صناعة المعروف باسم "المعيار الذهبي" في اختبار التعرف على الوجوه العالمي خوارزمية (اجرتها FRVT) وفقا لعشرات الملايين في التكنولوجيا خريطة دقة التعرف تحت انذار كاذب من 99، والحفاظ على الفائز مسابقة الاعتراف العالمي.

دقة التعرف على عشرات الملايين من دون بت المغلوطة أكثر من 99، وهذا يعني مقفلة أكثر أهمية الساحة الأمنية الأساسية. مقارنة بالفترة نفسها من العام الماضي، وأداء الاعتراف العالمي بنسبة 80.

ومن الجدير بالذكر أنه في التقرير الرسمي الذي نشر باللغة الصينية لإظهار قوة الشركة الذكاء الاصطناعي، وفقا لخطط التكنولوجيا (yitu)، شانغ سلالة التكنولوجيا (sensetime)، كوانغ، والتكنولوجيا (megvii) يشمل المقاعد الخمسة في العشرة الأوائل، بالإضافة إلى المرتبة الخامسة في معهد شنتشن فى الاكاديمية الصينية للعلوم التكنولوجيا المتقدمة (SIAT)، والصين لديها أكثر من نصف الفريق، وبحزم "الطغاة الشاشة" خمسة، الشركة الرائدة عالميا في خوارزمية التعرف على الوجه.

تقدير تشكل البشري

في فبراير من هذا العام، خط سياسة جامعة شنغهاي جياوتونغ لو في فريق نظام المختبرات MVIG AlphaPose بلدي، هو الأول في مجموعة البيانات COCO يمكن أن تصل إلى 70+ خريطة المصدر المفتوح نظام تقدير قفة.

سبتمبر، ونظام AlphaPose ترقية باستخدام إطار PyTorch، وتقدير قفة على مجموعة اختبار مجموعة التحقق من صحة COCO القياسية، وتحقيق 71mAP دقة (محددة OpenPose النسبية رفع 17، قناع-RCNN معارضة رفع 8)، في حين أن سرعة 20FPS (OpenPose زيادة نسبيا نسبة 66، قناع RCNN 300 زيادة نسبية).

ويستند AlphaPose النظام على RMPE إطار من خطوتين (ICCV 2017 ورقة) مجموعة شنغهاي جياو تونغ جامعة MVIG البناء المقترح، مقارنة بأنظمة أخرى مفتوحة المصدر قد تحسنت كثيرا في دقة من الزيادة النسبية OpenPose 17، قناع-RCNN الزيادة النسبية 8.2 .

بعد الترقية، كل إطار مفتوح أداء COCO-التحقق من الصحة، ومؤشرات واحد بطاقة 1080ti الوقت GPU قياسها هي كما يلي:

أنظمة مفتوحة المصدر

دقة

متوسط السرعة

Openpose (جامعة كارنيجي ميلون)

60 خريطة

12 FPS

قناع-RCNN (الفيسبوك)

67 خريطة

5 FPS

Alphapose (SJTU)

71 خريطة

20 FPS

تصنيف صور

دقة الكمبيوتر في مهمة تصنيف الصور تتجاوز الإنسان، وبالتالي دقة تصنيف الصورة الحالية على أفضل النتائج، في كثير من الأحيان نتيجة ثانوية للدراسات أخرى. ICLR 2017، أصدرت جوجل الدماغ باريت Zoph وكووك V. لو على "العصبية العمارة البحث مع التعزيز التعلم"، فإنها تلقائيا بالبحث عن هيكل الشبكة العصبية مع تعزيز التعلم، وفي نهاية المطاف AI تصميم نموذج الخاصة بهم، لا صورة على CIFAR 10 مجموعات البيانات حقق تصنيف 96.35 دقة في المئة.

ولعل من المستغرب، وأفضل نتيجة من تصنيف الصورة الفيسبوك AI البحوث بنيامين جراهام مما أدى له 2015 ورقة أرخايف "كسور ماكس تجميع"، بعد الخطأ إلا بعد 100 اختبارات على CIFAR 10 3.47 . تقدم هذه الورقة طريقة جديدة لكسور ماكس-تجميع وتقلل من خلال تركيب على مجموعة متنوعة من مجموعات البيانات.

مولد صورة

عندما يتعلق الأمر الى توليد صورة، يتم إنشاء هذا القبيل ضد شبكة (GAN).

GAN متزايد هذا العام، اقترح BigGAN العام ICLR DeepMind، يمكن وصفها بأنها أقوى طراز الجيل الصورة الحالية، على تدريب ImageNet 128X128 القرار، BigGAN النتيجة التأسيس (IS) يمكن أن تصل إلى 166.3، فريشيه التأسيس المسافة (ااا) 9.6.

حول BigGAN مزيد من التفصيل انظر هنا.

GAN أيضا تعزيز مستقبل وإلى أي مدى، ومن الجدير نتطلع إلى!

تقطيع الصورة

نعم، تقطيع الصورة هو ما ملك كاي مينغ وآخرون، 2017 المقترحة قناع RCNN، قيمة خريطة 26.2.

أغسطس 2018، وجامعة ميشيغان والباحثين الدماغ جوجل اقتراح إطار معالجة الصور الدلالات الهرمي التي يمكن أن تحقق على مستوى بكسل معالجة الصور والفهم الدلالي، أي إضافة في الصورة، وتغير، والأشياء التحرك، ومع سلس الأصلي، صحيح "لا يوجد أي أثر لPS."

على الرغم من أن الأوراق لم استعراض الأقران ذات الصلة، ولكن ذكرت الصحيفة أرخايف النتائج، أنها متفوقة في تجزئة الصورة ووفقا للباحثين.

المعالجة الطبيعية للغة

الفئة / الدلالي التشابه / قواعد / الفيلم الاستعراضي / ما يعادل غويا / Q / اعتراف الكيان

بيرت يمكن وصف اسم مؤخرا في مجال البرمجة اللغوية العصبية كما المزدهر.

13 أكتوبر، أصدرت نموذج بيرت جوجل فريق AI الجديد في مستوى أعلى من آلة القراءة اختبار الفهم SQuAD1.1 عرضت نتائج مذهلة: مقياس راء الكامل للإنسانية على حد سواء! وأيضا 11 اختبارات مختلفة البرمجة اللغوية العصبية خلق أفضل النتائج ، بما في ذلك GLUE إشارة دفعت إلى 80.4 (تحسين المطلق 7.6)، وبلغت MultiNLI دقة 86.7 (نسبة التحسن من 5.6 المطلق) وما شابه ذلك.

فريق Google تشانغ لونغ محددة مباشرة: فتح بيرت نموذج حقبة جديدة من NLP!

بيرت نموذج جديد تمثيل اللغة، التي تمثل محول التشفير ثنائي الاتجاه التمثيل. وتمثل لغة أخرى الأخيرة نموذجا مختلفا، أهداف بيرت ويتم تدريب تعديل المشترك في سياق جميع طبقات مسبقا يمثل عمق ثنائية الاتجاه . لذلك، يمكن تمثيل بيرت تدريب قبل أن يكون ضبطها من قبل طبقة الإنتاج الإضافية، لبناء أكبر نموذج متقدم ينطبق على مجموعة واسعة من المهام.

وكما ذكر أعلاه، تعيين بيرت سجل أداء في 11 المهام NLP! في خطوة واحدة من النتائج.

نتائج الاختبار الغراء، التي قدمها GLUE الخادم التقييم. الأرقام أدناه لكل مهمة تمثل عددا من الأمثلة التدريبية. "متوسط" عمود من البيانات مع النتيجة الرسمية GLUE يختلف قليلا، لأننا قد استبعد قضية مجموعة WNLI. بيرت النتائج وOpenAI GPT هي البيانات تحت نموذج واحد، وهي مهمة واحدة. جميع النتائج من https://gluebenchmark.com/leaderboard وhttps://blog.openai.com/language-unsupervised/

نتائج الفريق. بيرت هو استخدام مختلف التدريب وصقل بذور نقطة تفتيش متكاملة قبل (البذور صقل) من 7X النظام.

، CoNLL 2003 نتائج NER. مجموعة المعلمة جدا المحددة من قبل المطور عشرات تطوير واختبار، التي تم الحصول عليها باستخدام هذه المعايير على مدى متوسط خمس إعادة تشغيل عشوائي.

عموما، ويتحقق بيرت رقم الطراز من المهام في مجال NLP حاليا على أفضل النتائج، بما في ذلك

تصنيف، تشابه الدلالي والنحو، ويستعرض الفيلم، التكافؤ الدلالي، الأسئلة والأجوبة، والتعرف على كيان وهلم جرا.

التفكير المنطقي

المشترك المنطق بمعنى (Commensense الاستدلال)، وقد حققت الآن معظم المستوى المتقدم هو أنطونيو ليتو، الذي في عام 2017 نشر المقال: المزدوج PECCS: نظام المعرفي لتمثيل المفاهيمي والتصنيف .

وبطبيعة الحال، ونتيجة لهذه المادة هو حاليا أفضل على مفهوم دقة التصنيف (مفهوم تصنيف الدقة)، 89؛ ولكن في ديف واختبار دقة، والنموذج الحالي لا يزال أفضل النتائج بيرت، على التوالي 86.6 و 86.3.

الترجمة الآلية

في المهام الترجمة الآلية (الترجمة الآلية)، حققت الآن على أفضل النتائج من المادة تشن يانغ وآخرون، نشر في أرخايف في ابريل من هذا العام.:

المقال يجمع خوارزمية الرئيسية محول + BR-CSGAN، وسجل النتائج التي تحققت في BLEU هو 43.01، ويعمل حاليا على أفضل النتائج.

الاستدلال اللغة الطبيعية

في مهمة الاستدلال اللغة الطبيعية (اللغة الطبيعية الاستدلال)، حاليا على أفضل النتائج من هذه المادة Yichen غونغ وآخرون، نشر في أرخايف مايو من هذا العام.:

يستخدم خوارزمية ورقة DIIN، حيث معدل الدقة في الوقت الراهن 89.84، في الوقت الحالي عند مستوى الأمثل.

وهذه هي آخر التطورات في رؤية الحاسوب ومعالجة اللغة الطبيعية في كلا المجالين. AI تريد أن تعرف على أفضل النتائج في مجالات أخرى جعلت كل مهمة حتى الآن يمكن الرجوع إلى الروابط التالية:

https://www.stateoftheart.ai/

طريق الحرير

2018 تواجد في تأليف الحقيقة التنمية AI (على)

رؤية الكمبيوتر

اعتراف العمل

التعرف على الوجه

تقدير تشكل البشري

تصنيف صور

مولد صورة

تقطيع الصورة

المعالجة الطبيعية للغة

التفكير المنطقي

الترجمة الآلية

الاستدلال اللغة الطبيعية

عمرها 600 سنة المدينة المحرمة بشرت في أكبر اختبار، يرجى ندعه يذهب!

لي كا شينج من خريطة أوروبا ومزيد من التوسع في وقت طويل لماذا فعلت حركة سعر السهم؟

بالنظر إلى CES 2018: سيارة المستقبل قادم حقا؟

2019 قمة منظمة العفو الدولية بو مهرجان تشينغ وسائل الإعلام الجديدة البيانات الكبيرة على إمكانات طريق وسائل الإعلام الجديدة جديدة

BWF أحدث تصنيفات: البلد الزوجي ريشة فقط الجزء العلوي، ولين دان تشن لونغ 48، 5 الفردي تشن يوفي

المورد الكهرباء معركة حاسمة "2-11" علي Jingdong، اندلع شجار Suning خارج

من جهة ثانية عشية سوق السيارات من الفاشية، و58 مدينة السيارات المستعملة تغيير كيفية النظام البيئي الصناعة؟

الإناث المخدرات النقل لمسافات طويلة الأجنبية، بكين الشرطة جنون المعرض الإنجليزية

بعد أسابيع من البط الغذاء الأسود والمشروبات الصيد الأسهم البحر أو يأتي لنين في هونغ كونغ الدولي بعد الاكتتاب

تشيلسي 1-1 المستضعف الأربعة الأولى أمل ضئيل في دوري ابطال اوروبا التأهيل قفل توتنهام وارسنال قفل 6

قلق! هذه يضع بطاقة جينغدتشن في بقعة مشرقة جديدة! بسرعة يقول صديقاتها قليلا ...

AR أو قناة الصغرى أثر الابتكار بعد العالمي: ما تلميح

تجول الأرض لا تبتعد! أنها شينجيانغ Tiejing "ابنه الرضيع"!

عملت ما له الغناء! فاز "ثلاثة خيول" وراء أعمال منخفضة رئيسيا من هم؟

الدوري الممتاز الجولة 10 معاينة: نهاية التحوطية للحرب أو اضطراب، وإرسال لونينغ الحق في قمة الصحة؟

2018 نماذج الحصين S5 التسوق دليل دليل: السلطة خارج قوية، ما البيض؟

اقتحم الرجال داخل محطة وقود، ولكن فحص القيادة في حالة سكر

وجهة نظر وسائل الاعلام الاجنبية: 2018 في أمريكا الشمالية للسيارات الأكثر إثارة للاهتمام 5 سيارة

هاكا 1-1 Liaozu غاب عن القمة، وكسر وانغ لونغ راسل المخلص، تاتشر الرصاص مؤقت في A

[تذكير] 80 من الناس تفتقر إلى الفيتامينات، وتعليم الصورة التي تكونها

IRC واثق من وسائل منتجات المجموعة أن هناك جيد شمال شرق الطلب

وأمريكا الشمالية للسيارات إدخال أربعة نماذج الداخلية: نماذج الانفجار قد يكون في وقت متأخر، ولكن لم تغيب

رؤية الكمبيوتر

اعتراف العمل

التعرف على الوجه

تقدير تشكل البشري

تصنيف صور

مولد صورة

تقطيع الصورة

المعالجة الطبيعية للغة

التفكير المنطقي

الترجمة الآلية

الاستدلال اللغة الطبيعية

الأحكام ذات الصلة