AAAI 2019: نظرة على النص الكامل لمايكروسوفت للبحوث آسيا أوراق 27 مفتاح

[استعراض فاز جي الجديدة AAAI المقبلة، هذا التفسير يجلب مايكروسوفت للبحوث آسيا، اختار 27 ورقة، بما في ذلك مجالات التعلم الآلي، ومعالجة اللغة الطبيعية (NLP)، رؤية الكمبيوتر والرسومات وهلم جرا.

سيتم عقد مؤتمرات دولية مهمة في مجال الذكاء الاصطناعي AAAI 2019 في هاواي 27 يناير - 1 فبراير.

وفقا لنتائج قبول أوراق تم نشرها، الجمعية العامة لهذا العام لإنشاء معدل القبول مستوى قياسي منخفض عدد المساهمين حتى 7745، فقط حوالي 16 من عدد المقبولين.

وقد اعترف في ورقة، وهناك ما لا يقل عن 27 من مايكروسوفت للبحوث آسيا، بما في ذلك التعلم الآلي، ومعالجة اللغة الطبيعية (NLP)، عدد من المجالات مثل رؤية الكمبيوتر والرسومات. تفاصيل هذه المقالة المناطق الثلاث التي ورقة النواة الصلبة من مايكروسوفت للبحوث آسيا.

آلة التعلم

نموذج الانحدار غير المتمتعة بالحكم الذاتي الترجمة الآلية اثنان طرق جديدة لتحسين

عام 2018، أثار عدم autoregression (غير نماذج الانحدار الذاتى) نموذج الترجمة الآلية للاهتمام العديد من الباحثين. نموذج غير ذاتية الانحدار إلى كسر تسلسل عملية الترجمة، والكلمة الأصلية بأمر كلمة من عودة ولدت الترجمة الآلية في جميع الهدف في نهاية الوقت لإنتاج الكلمات، ويعزز من سرعة الترجمة الآلية. ومع ذلك، مع ترتيب تبعيات كسر، وترجم غير متمتع بالحكم الذاتي بدقة معدل أقل بكثير من نموذج الانحدار نموذج autoregression الترجمة الآلية، في الوقت نفسه، واستنزاف وكرر ترجمة الترجمة جودة الترجمة ستقل كثيرا. واقترحت مايكروسوفت للبحوث آسيا حلول لهاتين القضيتين المشار إليها أعلاه الورقتين التالية.

أوراق التمثيلية: عدم نماذج الانحدار الذاتى والعصبية الترجمة الآلية مع تعزيز فك الإدخال

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1812.09664

في هذه الورقة، فإن الباحثين يقترحون طريقتان لتحسين نوعية المدخلات من وحدة فك الترميز، والحد من فقدان دقة الترجمة. كما هو مبين أدناه: الطريقة الأولى (العبارة-بحث الجدول) المفردات مباشرة طاولة نظرة المتابعة لترجمة اللغة المصدر واللغة الهدف المدخلات إلى وحدة فك الترميز، والطريقة الثانية (التضمين رسم الخرائط) من مستوى الكلمة ضد التعلم والجمل المعلومات على مستوى المحاذاة، مصدر ناقلات كلمة لغة ناقلات كلمة الانحياز إلى اللغة المستهدفة، كإدخال فك.

بواسطة WMT14 أون-دي / دي خاص، WMT16 أون-رو، مجموعه IWSLT14 دي أون لأربع تجارب على الترجمة، بالمقارنة مع النموذج الأساسي (نارت)، وقد بلغ هذا الأسلوب 3-5 دقائق لتعزيز BLEU مقارنة أثيرت BLEU 1-5 دقائق من أفضل الأعمال السابقة (IR-NAT).

دقة الترجمة نموذج أقرب AT النموذج، على WMT16 أون-رو بيانات مقارنة للنموذج AT (محول) ليست سوى نقطة الفجوة BLEU. في سرعة الترجمة، بالمقارنة مع النموذج AT (محول) ما يصل إلى 25 مرة أسرع الترجمة؛ مقارنة مع نموذج NAT (LT، نارت، IR-NAT) وقد أثيرت على سرعة.

كلتا الطريقتين لها مزايا في نفس الوقت، العبارة الطاولة بحث في بيانات نوعية أفضل بكثير WMT14 دي خاص، مجموعة والبيانات ميزة IWSLT دي أون لتكون قادرة على الحصول على القاموس عالية الجودة استنادا إلى مجموعة التدريب، في حين WMT14 En- دي وWMT16 أون-رو، وسوء نوعية القاموس الناتجة، لذلك تضمين خرائط تظهر أفضل المزايا.

أوراق التمثيلية: عدم نماذج الانحدار الذاتى الترجمة الآلية مع مساعد توفيق أوضاع

أوراق تحتوي على وصلة: الشبكي: //taoqin.github.io/papers/nat.reg.AAAI2019.pdf

لنموذج غير ذاتية الانحدار إلى ترجمة مشكلة التسرب والترجمة، ويعرض الورقة غير المستندة التكميلي ضبط النفس (مساعد توفيق أوضاع) نموذج الانحدار الذاتي الترجمة، كما هو مبين أدناه.

ممثل توليد طبقة المتاخمة للفك لترجمة تمثيل موقف (التمثيل مخفي) لديها تشابه كبير لتوليد نفس ترجمة كلمة فك الشفرة الخفية. تحقيقا لهذه الغاية، والباحثين المقترح التشابه القيد (التشابه توفيق أوضاع) للحد من مواقف اثنين من طبقة مخفية المجاورة تبين وجود علاقة بين ناقلات:

حيث s_cos ممثل المسافة جيب التمام بين متجهين. ممثل فك H_t تي عشر دولة ناقلات موقف طبقة خفية، ر y_t يمثل موقف كلمة كلمة الهدف جزءا لا يتجزأ من (تضمين ذلك) النواقل. أهمية L_sim هو أنه إذا كان اثنان موقف مجاور (T و T + 1) كلمة هدفا قرب الدلالي (كبيرة s_cos)، ثم h_t وH_ ينبغي أن يكون (ر + 1) قريبة جدا، أو العكس بالعكس.

ترجمة للهجرة يمكن أن يكون عائقا بناؤها (التعمير توفيق أوضاع)، إضافة مخبأة طبقة العكس الاتجاه ناقلات ترجمة نموذج الانحدار الذاتي، بدوره يتطلب وحدة فك الترميز في إعادة بناء نموذج لمصدر في الاتجاه المعاكس من نهاية رأس الحكم في نموذج غير الانحدار. مع هذا القيد، والترجمة الإلزامية للنموذج غير ذاتية الانحدار التي تحتوي على كافة المعلومات من أجل التغلب على مشكلة تسرب الترجمة.

عن طريق أداء وافر من مجموعات من البيانات تتم مقارنة مع أداء كل خوارزمية الأساسي، بما في ذلك قياس جودة الترجمة وسرعة الترجمة. NAT-REG الخوارزمية أداء جيدا في سرعة الترجمة (الماضيين على الرسم البياني) كما تم تحسنت بشكل ملحوظ. اعتماد هذه العناصر القيود، غير الذاتي العائد الترجمة الآلية لترجمة نموذج وظاهرة الترجمة في عداد المفقودين قد خفت إلى حد كبير.

تعميم نموذج عمق الشبكة العصبية ووصف الخطأ التعميم

في مجال تعلم الآلة، وفهم طبيعة التعميم عمق نموذج الشبكة العصبية ووصف الخطأ التعميم هو نقطة ساخنة، ورقة "قدرة التحكم في الشبكات العصبية ReLU التي كتبها أساس مسار نورم" تناقش هذه النظرية.

أوراق التمثيلية: القدرة التحكم في الشبكات العصبية ReLU بواسطة نورم أساس مسار

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1809.07122

ReLU الشبكة العصبية الإيجابية وجود ثبات متداخلة، أي، يتم ضرب عقدة خفية من جانب جميع الأطراف إلى ثابت C إيجابي، وجميع الأطراف مقسوما ثابت C إيجابي، وقيمة الانتاج للشبكة العصبية ReLU دون تغيير. لذلك، وهو تعميم الشبكة العصبية المناسب حول طبيعة هذا الاجراء، وينبغي أيضا أن يكون ثبات تمتد إيجابي. واستنادا إلى مسار متري الشبكة العصبية ReLU يمكن أن تلبي هذه الخاصية.

لمسار الشبكة العصبية (المسار)، اعتبرت الشبكة العصبية ReLU مثل رسم بياني احلقي موجهة، مسار ص هو عقدة الإدخال إلى عقدة الناتج من مسار، يتم تعريف القيمة مسار V (ع) لأنه يمر المنتج المعلمات. ويمكن التعبير عن ذلك ReLU الشبكة العصبية من الناتج-ك الأبعاد على النحو التالي:

حيث P_ (ط ك) يدل على ط عشر مدخلات متصلة مجموعة من الأقسام وجميع مسارات ك عشر عقدة الإخراج؛ يتم تنشيط قيمة 1 أو 0، تمثل قيمة مسار من خلال متعدد الطبقات، و(خ ع) إذا كانت وظيفة في الأثر الناتج.

قيمة P_ مسار (ط، ي) يساوي W_ (1، ط) w_ (2، ي)، ثم المسار بين مترابطة، على سبيل المثال الخامس (P_ (2،2)) = (ت (P_ (1،2 )) v (P_ (2،1))) / الخامس (P_ (1،1)).

ويعرف مسار القاعدة حيث بلغت قيمة جميع المسارات L2 - القاعدة، والتي أثبتت أن ترتبط ارتباطا وثيقا بقدرة تعميم ReLU الشبكة العصبية. ومع ذلك، يرتبط كل الشبكة العصبية بقيمة المسار (أعلاه)، والذي يسبب مسار القواعد والمعايير وأضاف بشكل صحيح كما هو خوارزمية القيد الأمثل، التحديث لا يمكن حلها في المادة مغلقة. من خلال العمل دراسة العلاقة بين قيمة المسار، لإيجاد مجموعة من المسارات لجميع مسارات القيم لا علاقة لها، فإنه يشير إلى مسار قاعدة، ويمكن حساب مسار من القيمة المتبقية من مسار قاعدة.

وتقترح هذه الورقة مقياس يستند إلى مسار قاعدة. أولا، يمكن تقسيم الطريق إلى مجموعتين، يظهر قيمة واحدة في جزيء على التعبير في مسار غير قاعدة، يظهر القيمة الثانية في مقام في التعبير عن مسار غير قاعدة. وهكذا، يمكن أن تظهر قاعدة في مقام قيمة مسار لن تكون كبيرة جدا أو صغيرة جدا. وهكذا، فإن وثيقة قيمة الحد السابق إلى 0، القيمة الأخيرة هي قريبة إلى 1، وحي، واقترح الباحثون مسار متري تستند فقط على المجموعة: BP-القاعدة.

تعريف 1: (BP-القاعدة) لأي قيمة ناقلات مسار

يتم تعريف BP القواعد والمعايير على النحو التالي:

التي

BP القواعد والمعايير، ويمكن الحصول على الخطأ التعميم التالية وفقا للالحد الأعلى.

نظرية 1: احتمال ما لا يقل عن 1-، خطأ التعميم (الخطأ اختبار - خطأ التدريب) من المساحة فرضية F يمكن يحدها العلوي كما

حيث (ش. د، H، L) = (ه ^ 2U + du ^ 2) (1 + Hu ^ ^ 2e 2U) ^ (L-2) (4H) ^ L، يمثل د إدخال البعد، H يمثل عرض على شبكة الإنترنت، L يمثل عمق الشبكة.

وأضاف التنظيم المدى BP القواعد والمعايير باعتبارها خسارة وظيفة، ومع G-SGD SGD والأمثل BP ظيفة فقدان العادية. يبين الجدول التالي الخطأ التدريب الخوارزمية، اختبار خطأ والخطأ التعميم على المهمة تصنيف الصور، حيث يعكس الخطأ تعميم الحجم. وأظهرت النتائج أن BP هي خوارزمية يمكن أن تقلل بشكل فعال من تعقيد نموذج، للحصول على خطأ التعميم أصغر.

المعالجة الطبيعية للغة

منظمة العفو الدولية قد ترسل تلقائيا وابلا

أصبح ابل عادة الناس يشاهدون الفيديو؛ ابلا بين مختلف المستخدمين يميلون إلى تشكيل سياق الرد على العلاقة، وترك ابل تصبح النموذج الاجتماعي الجديد. وبناء على هذه الظاهرة، مايكروسوفت للبحوث آسيا سيل مصممة لتولد تلقائيا نظام اسمه من LiveBot. في هذا النظام اثنين من الصعوبات التي يجب التغلب عليها: أولا، إلى فهم كامل للمحتوى الفيديو الذي تم إنشاؤه بناء على تعليقات المستخدمين آخر مناسب ابل، والثاني هو للظهور في إطار الفيديو المقابلة عند نقطة مناسبة من الزمن.

أوراق التمثيلية: LiveBot: توليد فيديو مباشر تعليقات استنادا البصرية والنصية سياقات

أوراق الرابط: http: //export.arxiv.org/pdf/1809.04938

تتناول هذه الورقة اثنين من أعماق نموذج الشبكة العصبية لتوليد سيل من المعلومات استنادا إلى سياق الفيديو والنص، وبناء مجموعة التدريب البيانات على نطاق واسع يحتوي على 2361 أشرطة الفيديو و895929 قطعة ابل للتحقق من صحة النموذج.

وأظهرت النتائج أن يمكن LiveBot تعلم بدقة المستخدم الحقيقي استعراض ابل خصائص السلوك أثناء مشاهدة الفيديو، على نحو فعال تفاعلت لفهم ويستعرض المستخدم من محتوى الفيديو، ولكن أيضا تحقيق نتائج ممتازة في تقييم موضوعي.

الترجمة الآلية غير خاضعة للرقابة من أحدث تحسينات في الأداء

في السنة الأخيرة، غير خاضعة للرقابة الترجمة الآلية أصبحت موضوعا ساخنا للصناعة الترجمة الآلية. في مشهد غير خاضعة للرقابة العصبي نموذج الترجمة الآلية، وذلك أساسا من خلال التدريب المشترك (التدريب المشترك) أو بالتناوب العودة الترجمة (تكرارية العودة الترجمة) متدرج التكرار. ولكن نظرا لعدم وجود إشارة إشراف فعالة، وبيانات التدريب الزائفة الظهر ترجمتها الحصول سوف تحتوي على الكثير من الضوضاء، والضجيج في عملية التكرار، سيكون الجهاز العصبي نموذج ترجمة قوية قدرات نمط مطابقة التضخيم، وعلى حساب من نموذج الأداء ترجمة النهائي .

أوراق التمثيلية: بدون اشراف العصبية الترجمة الآلية مع SMT كما الخلفي توفيق أوضاع

أوراق الرابط: http: //export.arxiv.org/pdf/1901.04112

بعد تستخدم هذه الورقة تجربة منتظم (الخلفي توفيق أوضاع) وسيلة SMT (الترجمة الآلية الإحصائية) في عملية التدريب غير خاضعة للرقابة في NMT، وSMT الأمثل والنموذج NMT التي كتبها EM معالجة بالتناوب، مما يجعل NMT غير خاضعة للرقابة الضوضاء عملية تكرارية ويمكن إزالته بشكل فعال، في حين NMT النموذج هو أيضا لعدم وجود نموذج SMT طلاقة من حيث الجملة.

وينقسم الهيكل العام للطريقة تقريبا إلى قسمين، كما هو مبين في الشكل. اليسار هو التهيئة النموذج، وتدريب اللغتين (مثل الإنجليزية والفرنسية) من خلال أحادي كلمة بيانات المتجه (كلمة التضمين)، بعد الحصول على التضمين عبر اللغات التي كتبها طريقة التدريب غير خاضعة للرقابة، وتحصل من خلال الحساب الأولي من التشابه جيب التمام لها كلمة لترجمة كلمة احتمال الجدول (كلمة جدول ترجمة). هذا، جنبا إلى جنب مع الترجمة نموذج الجدول احتمال (نموذج لغة) تم الحصول عليها من التدريب الأولي أحادي اللغة كخاصية من نموذج SMT، وبالتالي استكمال التهيئة نموذج.

الرقم على اليمين هو الجزء الرئيسي من طريقة، والنموذج الأولي للمجموعة SMT البيانات ترجمة اللغة الواحدة، بيانات وهمية عن بيانات التدريب يتكون من نموذج NMT الأولي. بعد التدريب الأولي للحصول على نموذج NMT، وسوف نستمر في ترجمة الظهر البديل (خفض الحق، تكرارية NMT العودة الترجمة)، وترجم عددا من شبه بيانات نموذج التقارب NMT الجديد. بيانات وهمية تم إنشاؤها في هذا الوقت يحتوي على الكثير من الضوضاء، ويمكن جديدا تدريب نموذج SMT (أعلى اليمين، SMT كما PR) من هذه البيانات وهمية. SMT نموذج يقوم على بنية كتلة أعلى الجدول احتمال قطاع الترجمة (عبارة جدول ترجمة)، يتم تصفية البيانات دمية الضوضاء بها وذلك من خلال دفعة جديدة من ترجمة البيانات أحادي تعطي أفضل ترجمة الزائفة دفعة البيانات. يمكن استخدام هذا الرقم وهمية NMT نموذج البيانات قبل التعديل (صقل)، ثم العودة المترجمة نموذج NMT بالتناوب مرة أخرى. سنقوم بتدريب NMT وعملية SMT التدريب EM متكاملة في إطار، عمليتين التفاعل التكرار حتى تلتقي في نهاية المطاف.

في تجارب بريطانيا وفرنسا (أون-الاب) وينجدي (أون-دي) التي أجريت في اللغة، وهذه الطريقة أفضل من الطرق السابقة، ويحسن بشكل كبير من أداء الترجمة الآلية غير خاضعة للرقابة.

وTTS الجديد: يجمع بين مزايا Tacotron2 ومحول

التفاعل بين الإنسان والكمبيوتر لديها العناصر المهمة، وهذا هو، التوليف الصوتي النص (النص إلى الخطاب، TTS)، من أجل تحقيق واضحة والطبيعية والاصطناعية أقرب إلى الواقع تسجيل الصوت.

في العقود القليلة الماضية، نموذج الفسيفساء (نموذج concatenative)، واستنادا إلى معالم النموذج (نموذج حدودي) على مجالين رئيسيين من TTS، ولكن كل من يملك خط التجميع معقدة جدا، ولكن أيضا اختيار الميزات الصوتية فعالة عادة جدا قتا طويلا ويرتبط ارتباطا وثيقا اللغة. وبالإضافة إلى ذلك، فإن هذه الأساليب اثنين من التوليف الصوتي ليست على نحو سلس، ولكن أيضا في إيقاع والنطق مع تسجيلات حية وجود فجوة كبيرة.

مع ظهور الشبكة العصبية، وعدد من نهاية إلى نهاية (نهاية إلى نهاية) من طراز TTS بدأت في الظهور، مثل Tacotron وTacotron2، حتى أن جودة الصوت جنبا إلى جنب لديه خطوة كبيرة جدا إلى الأمام، وحتى على بعض مجموعة معينة من البيانات مع الواقع تسجيل قدم المساواة. هذا النموذج TTS نهاية من جزأين: التشفير وحدة فك الترميز. التشفير هو المسؤول عن النص تعيين إلى الفضاء الدلالي (الفضاء الدلالي) في تسلسل الدولة الخفية ولدت، تليها وحدة فك ترميز (عادة الشبكة العصبية القائمة على RNN) مع آليات الإنتباه (آلية الانتباه) يتم فك هذا التسلسل الدولة مخبأة في الطيف.

ومع ذلك، في RNN، كل ولدت على أساس حالة مخفية قبل جميع أن الدولة وتوقيت المدخلات الحالية الخفية، وبالتالي يمكن حساب نموذج متسلسل، ويحد من قدرة شبكة الحوسبة المتوازية، مما يقلل من الكفاءة التشغيلية. وRNN الصعب تحديد الاعتماد المباشر لاثنين من المدخلات بعيدة. انتباه شعبية في الآونة الأخيرة من شبكة (محول) في التدريب يمكن أن يحقق الحوسبة المتوازية، ولكن أيضا لديه القدرة على إنشاء الاعتماد المباشر بين أي اثنين تسلسل المدخلات رمزية.

أوراق التمثيلية: العصبية خطاب التجميعي مع شبكة محول

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1809.08895

في اتصال مع ورقة والمزايا المقترحة Tacotron2 محول نموذج TTS الجديد: باستخدام متعددة التركيز (متعددة رئيس الانتباه) بدلا من الأصلي Tacotron2 الاهتمام بين RNN وآليات التشفير وحدة فك الترميز. وبالتالي، من جهة من خلال آلية التركيز الذاتي (انتباه النفس)، بالتوازي مع شبكة الحوسبة، بحيث كفاءة التدريب الأصلي أربع مرات؛ وفي الوقت نفسه، مسافة طويلة يمكن تأسيس تبعية مباشرة بين اثنين من المدخلات التعسفي. من ناحية أخرى، يمكن الانتباه الثيران آلية دمج المدخلات من زوايا متعددة.

كما هو مبين أعلاه، على أساس Tacotron2، والتشفير وحدة فك الترميز باستخدام محول على التوالي بدلا من الأصلي في اتجاهين مزدوج التشفير RNN RNN وحدة فك الترميز، ومن ناحية أخرى، يتم استبدال الآليات التركيز الأصلي آليات طالما أفضل في الانتباه استخراج المعلومات ميزة الإدخال، بالإضافة إلى ذلك، نحن أيضا لبنية الشبكة الأخرى، مثل تعديل الترميز الموضعية. في هذا النموذج، وذلك بسبب وجود آلية التركيز الذاتي يمكن أن يكون أفضل وضع لمسافات طويلة التبعية، بحيث يمكن أن نموذج أفضل الميزات prosodic تشمل الصوت، بما في ذلك.

في اختبار MOS (من 5)، ونموذج Tacotron2 محول تحويل النص إلى كلام، وتمكن من الحصول على وثيقة جدا لتسجيل الصوت البشري الحقيقي (أي الحقيقة على الارض) درجة. (البشرى المقارنة، وعشرات نقطة) في الاختبارات CMOS، ويمكن الحصول على طريقتنا بالمقارنة Tacotron2 تحسين الأداء الهامة.

من ناحية أخرى، المقارن ميل الطيف Tacotron2 محول TTS نموذج وتركيبية، يمكن العثور عليها في كل جزء التردد المنخفض مماثل، أظهرت قدرة قوية وارتفاع نسبة تردد، محول TTS نموذج الطيف لاستعادة الملمس أفضل ، حتى أن جودة أعلى الصوت توليفها.

توليد نموذج يستند إلى تكرار إعادة صياغة أكثر كفاءة

أوراق التمثيلية: قاموس موجهة شبكات التحرير لتوليد الصياغه

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/pdf/1806.08077.pdf

في معالجة اللغة الطبيعية، كرر الجملة الذي يستخدم على نطاق واسع، على سبيل المثال، يمكن استخدامها في استرجاع المعلومات، والتلخيص التلقائي، مهمة ترجمة الجملة. كرر الجملة (وظائف الصياغه) يشير إلى التعبير بطريقة مختلفة إلى الحكم الأصلي، في حين أن نفس معنى الجملة الأصلية. عندما يكون الناس استكمال تكرار الجملة، وغالبا ما تستخدم المرادفات لاستبدال بعض الكلمات في الجملة، ثم الحكم بعد استبدال لتعديلات بسيطة.

كنقطة انطلاق، هذه الورقة يعرض نموذج كتابة شبكة القاعدة وإعادة روايتها جيل. توليد نموذج باستخدام تكرار الأول من الجملة الأصلية استردادها، مما أدى إلى مجموعة من تكرار على مستوى الكلمة، تكرار تشفير ثم استرجاع الحصول على مجموعة من ناقلات من طول ثابت، كرر الجملة كاملة مشاركة الشبكة على أساس إعادة كتابة.

بعد هذا الرقم، ونموذج ولدت تكرار تسلسل إلى تسلسل في إطار نموذج (Seq2Seq)، فإن عملية فك، وذلك باستخدام آلية التركيز (آلية الانتباه)، لتكرار استردادها مقابل مجتمعة إعادة الأوزان، والترجيح ينتج عن وحدة فك الترميز. نموذج للتغلب على فك الوقت، سوف تكون أكثر تركيزا على استخدام (التغلب عليها، والتخلص من) هذه تكرار أزواج. التي تسمح آليات الإنتباه تتعلم كيفية كتابة احتياجات نموذج لتحل محلها والتعديلات في ما هي المجالات.

تجارب على اثنين من قرة MSCOCO والبيانات العامة مجموعات، كما هو مبين أعلاه، استنادا إلى نموذج ولدت شبكة المتكررة إعادة كتابة حققت أفضل النتائج في مجموعة البيانات MSCOCO، مجموعة البيانات على قرة، شروط البحث الجشع في حققنا أفضل النتائج.

وعلاوة على ذلك، من خلال تحليل أظهرت النتائج التجريبية التي، كما هو مبين أعلاه، فإن تكرار ولدت، الجهاز سوف أكرر على أساس استبدال استرجاع وإعادة كتابة حصلت، وبهذه الطريقة يضمن ليس فقط الفرق بين تكرار الجملة الأصلي النتائج، ولكنها لا تغير القصد.

رؤية الكمبيوتر

MonoGRNet: صورة كائن واحد ثلاثي الأبعاد تقدير موقف

في الصورة، والموقع الكائن أو ثنائي الأبعاد كشف صناديق المحيط التقليدي تشير التقديرات إلى أن تصاغ ينتمون إلى الجزء المرئي من الكائن على متن الطائرة الصورة. ومع ذلك، وهذا نتيجة الاختبار لا يمكن أن توفر التصور الهندسي لفهم المشهد في العالم الحقيقي 3D، وهذه ليست ذات أهمية كبيرة للعديد من التطبيقات.

أوراق التمثيلية: MonoGRNet: A الهندسية شبكة المنطق لكائن توطين احادي العين 3D

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1811.10247

وتقترح هذه الورقة استخدام MonoGRNet، صورة RGB من تقدير الهندسي أحادي، غير مشروط تحديد الكائنات في ثلاثي الأبعاد مربع إحاطة لوحظ في الطائرة الإسقاط ثنائية الأبعاد والبعد عمق يكن لوحظ في (Amodal المربع المحيط، ABBox- 3D)، أي تحقيق يتم تحديد الكائن موقف ثلاثي الأبعاد للفيديو ثنائي الأبعاد.

MonoGRNet والفكرة الرئيسية هي لفصل 3D مشكلة التعريب في العديد من المهام صيغة تقدمية، يمكن المهام الفرعية استخدام بيانات RGB أحادي لحلها. النظرة إلى شبكة طائرة صورة يبدأ الدلالي 2D، ثم يقوم التفكير الهندسي في الفضاء 3D. يجب أن نتجاوز مشكلة التحدي هو تقدير دقيق لعمق المثال المركزي 3D في حالة حيث لا يحتسب خريطة العمق على مستوى بكسل. تقدم هذه الورقة إلى مستوى جديد من الفردية تقدير عمق (مثيل عمق تقدير، IDE) وحدة، والتي استكشاف ميزة تعيين نطاق عمق الإدراك كبيرة للقبض على سبيل المثال الخام من عمق، ثم جنبا إلى جنب مع قرار ميزة مبكرة العالي لتحسين IDE .

من أجل استرداد في وقت واحد الوضع الأفقي والرأسي، وسط توقعات 3D 2D أولا المتوقعة. ملزمة IDE، وامتدت بعد ذلك إلى مركز الإسقاط الفضاء الحقيقي 3D للحصول على موضع الكائن 3D النهائي. يتم دمج جميع المكونات في شبكة MonoGRNet نهاية التي توجد فيها ثلاثة فروع 3D المنطق، كما هو مبين أدناه. وأخيرا، فإن وظيفة فقدان الأمثل من قبل هندسة المفصل، ويقلل من المربع المحيط 3D الخلافات الحدودية في السياق العام.

MonoGRNet تتألف من أربع شبكات فرعية، كاشف 2D (البني)، وتقدير موضوع العمق (الأخضر)، 3D تقدير الموقف (الأزرق) وزاوية الانحدار جزئية (الصفراء). تحت تم الكشف عن توجيه مربع إحاطة 2D، وشبكة تقدر أولا عمق إطار مركز 3D وإسقاط 2D 3D من الحصول على مكانة عالمية، ثم العودة إلى إحداثيات الزاوية منها في البيئة المحلية. المربع المحيط النهائي على أساس الموقف 3D المقدرة والزاوية المحلية 3D الأمثل لوضع حد لهذه الغاية في البيئة العالمية.

وتشير مجموعات البيانات التجربة كيتى تحدي أن الشبكة هي أفضل من معظم أساليب متقدمة في أحادي المواقع وجوه 3D، وأقصر المنطق.

3D أداء كشف في الوقت الاستدلال، فإن متوسط الدقة في 3D مربع إحاطة كيتى مجموعة التحقق من صحة وكل صورة. علما بأن الطريقة ليست على أساس ستيريو 3DOP المقارنة، يتم سرد كمرجع.

MVPNet: صورة كائن واحد إعادة بنائها نموذج ثلاثي الأبعاد

في نفس الصورة، ويرجع ذلك إلى الأشكال، والقوام، والإضاءة والكاميرا مختلفة التكوين، ولإنتاج ثلاثي الأبعاد إعادة الإعمار الكائن صورة RGB واحد، والتي هي مشكلة قوية سوء تشكلها. ولكن نموذج التعلم العميق يسمح لنا لإعادة تعريف مهمة، العينة الفعلية التي يتم إنشاؤها من توزيع محددة. تقاسمت عمق التعبير الشبكة العصبية التلافيف في شكل حكم صالح، بيانات عالية الكثافة أخذ العينات، والوزن، وما إلى ذلك.

الثلاثي شبكة (الثلاثي شبكة) هو تمثيل السطح الرئيسي (السطحية)، ولكن ليس من السهل أن المخالفات فك التشفير والترميز، عميق ثلاثية الأبعاد voxels شبكة شبكة (3D شبكة الحجمي)، ولكن حساب عينة كثيفة أكثر الحالية عالية التعقيد، وبعض المكالمات نهج الأخيرة للنقطية نقطة تمثيل سحابة، ولكن السمة غير مرتبة يتطلب حسابات إضافية لإنشاء واحد لرسم الخرائط واحد هو نقطة إلى نقطة، والتي عادة ما تستخدم كل خوارزمية رسم الخرائط مكلفة لتمثيل نقاط أقل ، مما أدى إلى سطح متفرق.

أوراق التمثيلية: MVPNet: متعدد عرض شبكات الانحدار نقطة للإنشاء كائن 3D من نفس واحدة صورة

أوراق تحتوي على وصلة: الشبكي: //arxiv.org/abs/1811.09410

لتوضيح سطح كثيفة، مقدمة فعالة من متعدد عرض الورقية (عرض متعددة) في شكل، وذلك باستخدام عدد وافر من وجهات النظر ونقاط كثافة سحابة مرئية المقرر أن يمثل السطح، والتي تغطي أكبر عدد من وجهة نظر الاستغناء السطح .

(A) MVPC FIG. يتم تخزين 1-VPC لكل بكسل في نقطة السطح الخلفي الإسقاط من بكسل (س، ص، ض) والرؤية ضد تخزين نقاط ثلاثية الأبعاد شعرية الثلاثي الأبعاد اثنين على متن الطائرة صورة، وهذا الرقم يظهر اتجاه العادي من المثلث للدلالة على سطح الشبكة. (B) صورة RGB معينة، MVPNet توليد مجموعة من 1 VPC، فإنها تتجمع لتشكل التنبؤ MVPC. وظيفة فقدان هندسية لقياس MVPC الحقيقي والمتوقعة.

الرقم يصور نقطة سحابة متعددة بغية (MVPC). يتم تخزين كل نقطة سحابة في وجزءا لا يتجزأ من شبكة ثنائية الأبعاد في عرض الطائرة الصورة. Backprojection عمق جهة نظر واحدة من النقاط السطحية سحابة (1-VPC) يشبه خريطة العمق، ولكن يتم تخزين إحداثيات ثلاثية الأبعاد من كل بكسل والمعلومات الرؤية، بدلا من بكسل. توفير التحول backprojection رسم الخرائط واحد وجود 1-VPC نقطة مجموعة من المعلمات كاميرا متساوية. في نفس الوقت، وإدخال الاتصالات المحلية من ورقة من وجهة ثلاثية الأبعاد شبكة ثنائية الأبعاد، وتشجيع تشكيل الثلاثي شبكة backprojection سطح بناء على هذه النقاط. وهكذا، يتم تحويل الإعمار السطح إلى إحداثيات ثلاثية الأبعاد والمعلومات المخزنة في الرؤية MVPC الانحدار.

باستخدام التشفير - فك كشروط شبكة لإنتاج المحددة للعينات MVPC، الشكل (ب). التشفير استخراج ملامح الصورة وخليط منها، على التوالي، مع خصائص وجهات نظر مختلفة. الأوزان فك يتقاسمها عدد وافر من فروع، كل فرع يرتبط لتوليد جهة نظر السحابية. كلها مجتمعة 1-VPC يشكل MVPC النهائي، بعد FIG.

إعطاء صورة مدخلات I، MVPNet من قبل التشفير وحدة فك الترميز تتألف من وجهات النظر N 1-VPC ج _I الانحدار. يتميز N يتم تغذية (ض، c_i) إلى فك فروع N، حيث الفروع تبادل الأوزان.

هنا رواية وظيفة فقدان الهندسة، كما هو موضح أدناه، لقياس الفرق الحقيقي مقارنة مع سطح ثلاثي الأبعاد لطائرة ثنائية الأبعاد. الطرق السابقة على أساس وجهات نظر مختلفة، وبشكل غير مباشر حساب المكاني ميزة الإسقاط ثنائي الأبعاد (أي الطائرة صورة) ولكن تجاهلت منذ فقدان المعلومات من 3D إلى تخفيض البعد 2D تسبب تسمح لنا هنا MVPC التكوين الثلاثي التغيرات في سطح الخلية من النقاط المنفصلة، أي حساب مباشرة من سطح ثلاثي الأبعاد. وظيفة فقدان متكاملة ثلاثي الأبعاد تغيير حجم الهندسي، ومتعددة بغية الثقة التنبؤ والاتساق، وتحسين كبير في دقة إعادة الإعمار ثلاثي الأبعاد.

وظيفة فقدان (أ) مسافة 1-VPC-بنقطة (ب) مبلغ من الفرق شبه حجم ثلاثي الأبعاد (ج) تمشي بطرق عرض متعددة

يظهر الشكل التالي النتائج في ShapeNet مجموعة البيانات المشتركة والصور الحقيقية، يمكن اعتبار هذه الطريقة لتوليد سطح ثلاثي الأبعاد الكثيفة. وعلاوة على ذلك، واستخدام اثنين علمت ميزات مثل الخطية بعد نموذج إعادة الإعمار التي تولدها وحدة فك الترميز، MVPNet علم الفضاء ميزة وجود التعبير جيدة والاستمرارية.

مقارنة مجموعة بيانات نتائج ShapeNet

النتائج صورة إعادة الإعمار صحيح ثلاثية الأبعاد

إعادة الإعمار نتيجة للتعلم لخاصية الخطية ولدت

مايكروسوفت للبحوث آسيا وفيما يلي قائمة بجميع الأوراق المقبولة :

  • النشطة ميني دفعة أخذ العينات باستخدام العمليات بغيض نقطة
  • متوازنة الضآلة لكفاءة DNN الاستدلال على GPU
  • مراقبة قدرة الشبكات العصبية ReLU بواسطة نورم أساس مسار
  • التعمير كائن عميق وحيد مشاهدة 3D مع Visual هال تضمين
  • كشف أو المسار: نحو كائن فعالة من حيث التكلفة فيديو كشف / تتبع
  • قاموس موجهة شبكات التحرير لتوليد الصياغه
  • الحد من مخاطر الكوارث نت: دينامية إعادة قراءة شبكة الجملة مطابقة الدلالي
  • توصية تفسيرها من خلال اليقظة متعدد مشاهدة التعلم
  • FANDA: رواية نهج لتنفيذ متابعة تحليل سؤال
  • تعلم أساس التمثيل لتقديرات بوز تنقية 3D الإنسان
  • الاستفادة من المعرفة الويب الدلالي في Word التمثيل التعلم
  • LiveBot: توليد فيديو مباشر تعليقات استنادا البصرية والنصية سياقات
  • MonoGRNet: A الهندسية شبكة المنطق لكائن توطين احادي العين 3D
  • MVPNet: متعدد عرض شبكات الانحدار نقطة للإنشاء كائن 3D من نفس واحدة صورة
  • العصبية تركيب الكلام مع شبكة محول
  • الترجمة الآلية غير نماذج الانحدار الذاتى مع مساعد توفيق أوضاع
  • غير نماذج الانحدار الذاتى والعصبية الترجمة الآلية مع تعزيز فك الإدخال
  • التنبؤ شعبية على مقالات على الانترنت مع ديب فيوجن من عملية الزمانية والميزات المحتوى
  • قراءة + التحقق: آلة القرائي مع أسئلة بلا إجابة
  • اتفاق تسوية وآلة العصبية الترجمة byTarget-ثنائي الاتجاه
  • الجيل استجابة للسياق علم نموذج التحرير
  • الجملة الحكيم السلس لتسوية وضع تسلسل إلى تسلسل التعلم
  • توصية استنادا الدورة مع الرسم البياني الشبكات العصبية
  • TableSense: قناع R-CNN لجدول الكشف عن الجدول
  • ربط المحولات: العصبية الترجمة الآلية مع التشفير المشتركة وفك
  • الثقة استراتيجيات تطور المنطقة
  • دون رقيب العصبية الترجمة الآلية مع SMT asPosterior توفيق أوضاع

وبدأ كورديسيبس من "المنتجات الصحية" في العمود! السابقة الغذاء والدواء: الحفاظ على ارتفاع خطر طويلة المدى استخدام

داو تقترب 20،000 نقطة أغنى رجل بيل غيتس: الأسهم الأمريكية أصبحت مكلفة للغاية

استراتيجية العام "واحد فورد"، ما قد تغير بالضبط؟

23 مليون نسمة على المشاركة، لا أحد الفوز! كشفت الشرطة القمار حالة عشرة مليارات!

زيدان زيدان أيضا إلى الخاسر! فرنسا اثنين من التحركات لعام 2006 إقامة مذهلة نأسف إلى الأبد

تجنيد، والتخلص من "العلامة التجارية الفاخرة" الخرافات، بو وو في الهجوم المستقبل؟

انقر نقرا مزدوجا المزدوج 1211 ديان كسب الكثير! اصطف نحو 200 من رجال الأعمال لتسويق زارة أموي

"2019 مهرجان المصابيح حزب" مساء غد لاول مرة، وراء الكواليس يسلط الضوء على البرنامج

70 عاما منذ اليوم الأول، وإدراج!

! غير متوقع ميتشو بدأت الطائرات في حين التخلي Chongchao، استثمرت بكثافة في مرحلة ما قبل الموسم، في المرتبة فريق حاليا المركز الثاني

الوقوع المنظمين كنز يمكن في الواقع بهدوء تخطيط منصة المالية في هونغ كونغ

المطر جينغدتشن على الأقل حتى النهاية! قد المدرسة والتقى مع المطر أو العمل أو المدرسة يجب أن تخرج إلى الأمام!