AAAI 2020 | CHINA: الاهتمام تتفكك الشبكة للحصول على التعرف على النص

الكاتب | انغ تيانوي

تحرير | عشر، سنوات

هذه المادة في معهد جامعة جنوب الصين وجنبا إلى جنب المساعد لإكمال، كان 20 ورقة AAAI-مقبول "شبكة الاهتمام تنفصل عن التعرف على النص" التفسير.

https://arxiv.org/abs/1912.10205

خلفية

مع التطور السريع التعلم العميق العديد من الطرق الجديدة في السنوات الأخيرة لتحديد مجالات النص يبدو. آلية انتباه هي واحدة من أكثر أساليب متقدمة لتحديد النص الحالي، الأمر الذي جعل تأثير جيد خصوصا على مهمة التعرف على النص المشهد.

ومع ذلك، فإن محاذاة التركيز آلية العملية الحالية التي تعتمد على خطوة المعلومات فك، الذي يؤدي إلى خطأ فك خطوة على مرة واحدة أو مربكة، والاهتمام آلية التوافق يولد خطأ، سوف تتراكم هذا الخطأ وانتشارها. المشكلة في النص بخط اليد طويلة تعكس أكثر وضوحا.

ولمعالجة هذا الوضع، نقترح فصل اهتمام الشبكة (على DAN)، فإن الشبكة تركز محاذاة المرحلة decoupler الخروج من فك، فإن الخطوة لم تعد تعتمد على المعلومات التي يتم فك الانحياز. التجارب تظهر أن DAN في فعالية التخفيف من مشكلة الآليات الخطأ المحاذاة من الاهتمام، وجعل SOTA أو تأثير كبير على التعرف على الكتابة اليدوية والمشهد كلا النصين المشهد.

طرق نظرة عامة

يتكون DAN من ثلاث وحدات: مستخرج ميزة (FE)، وحدة محاذاة التفاف (CAM)، بالإضافة إلى وحدة فك الترميز (DTD). ميزة FIG FE استخراج عدد وافر من جداول الصورة المدخلة، وتتميز في CAM ميزة المتعددة النطاقات استقبال مستخرج، وحجم التفاف كامل باستخدام هيكل وخصائص الانتاج، وما شابه ذلك من FIG الانتباه خريطة، DTD فك الشفرة أخيرا نتيجة الاعتراف.

الإلتواء وحدة التنسيق

وحدة نمطية التفاف يستخدم هيكل المحاذاة التفاف كامل، وL طبقة تتألف من الالتواء. تجمع وحدة الإدخال ملامح من مختلف ميزة نطاق عملية الاستخراج، ومرحلة إزالة التفاف، ويمكن إضافة كل ميزة لمرحلة التفاف ميزات المقابلة. يتم تنشيط MaxT من خلال وحدة الانتاج بعد السيني وظيفة تشانغ خريطة الاهتمام. بعد كل الاهتمام الخريطة بعد التطبيع. maxT فك هو الحد الأقصى للخطوة الوقت، أي الحد الأقصى لعدد الأحرف في النص. نص طويل في مهمة التعرف على خط اليد، قد يتم تعيين القيمة إلى 150، 200 maxT، SceneText مهمة التعرف على مستوى الكلمة، قد يتم تعيين القيمة إلى 25 maxT.

عن طريق تغيير حجم الخطوة وعملية التفاف CAM FE، وDAN يمكن أن تنتقل بمرونة بين الشكل احدة وثنائي الأبعاد، وذلك استجابة لتطبيق سيناريوهات مختلفة. FIG FE الانتاج سمة من أي شكل ضغط كبير، واحد من الأبعاد تحديد الهوية، وDAN القواعد المطبقة على التعرف على النص المكتوب بخط اليد لفترة طويلة، وخلال شكل ثنائي الأبعاد، وDAN ينطبق على السيناريو التعرف على النص غير النظامية. في تطبيق سيناريوهات مختلفة، DAN مرن وفعال، حققت SOTA كبير أو تأثير.

فصل فك

بعد فصل فك مماثلة فك الانتباه إلى عملية التشغيل الأخرى، يتم فك عالية الأبعاد ميزة FIG الاهتمام الخريطة ومبلغ المرجح لكل حرف بالتتابع. في نفس الوقت الخطوة السابقة فك النتائج بعد التضمين، والمشاركة في خطوة فك الحالية من أجل تعزيز التعلم الدلالي. التدريب DAN يحتاج فقط وضع العلامات فئة حرف، لا يتطلب معلومات الموقع من كل حرف.

تجربة

1. خارج خط النص مكتوبة بخط اليد، في خارج خط مهمة التعرف على النص مكتوبة بخط اليد، اخترنا اثنين من مجموعات البيانات IAM والتجربة RIMES.

(1) مقارنة النتيجة. DAN يمكن أن ينظر إليه من Table2 هي نتائج ممتازة في كل من مجموعات البيانات.

(2) تجارب الاجتثاث. في هذه الورقة، وتناقش تصميم وحدة CAM، نتيجتين :. يجب أن يكون 1 عدد CAM من طبقات عميقة بما فيه الكفاية لتحقيق نتائج جيدة. 2. طالما وضع معقول، وحجم قنوات الانتاج maxT تأثير يذكر على نتيجة الاعتراف.

(3) تحليل متعمق من القضاء على أخطاء المحاذاة. I اختيار اثنين بنية الاهتمام الكلاسيكية: اهتمام Bahdanau والاهتمام لونغ، تم تحليل تأثير محاذاة أخرى على IAM البيانات. وكما يتبين من الشكل 6، DAN تخفيف فعال لمشكلة محاذاة النص طويلة.

2. التعرف على النص المشهد، في هذه المهمة، ونحن نستخدم مجموعة البيانات سبع تجارب النص العادية / غير النظامية، وذلك باستخدام اتجاهين فك التجربة.

النتائج المبينة في الجدول 5 على سبيل المثال. كما يمكن أن يرى، أدلى DAN SOTA أو تأثيرات مماثلة على معظم مجموعات البيانات، في وقت واحد، في ثنائية الأبعاد نتائج التعرف على عدم انتظام تحديد البيانات النص الوارد إلى بعد الاعتراف أفضل بكثير.

ملخص

هذا ويعرض الورقة فصل شبكة الاهتمام (DAN)، من أجل حل أخطاء محاذاة تتراكم آلية نشر في الاهتمام الناجمة عن مشكلة فك. DAN التعرف على النص خط اليد والتعرف على النص مشاهد المشهد أظهرت تطبيقين نتائج متفوقة. بالمقارنة مع الطرق السابقة لتحديد آليات من الاهتمام، DAN أكثر مرونة وقوة.

وبالإضافة إلى ذلك، ومن الجدير بالذكر أن واضعي الدراسة حيث سيقوم الفريق هذا النموذج باعتباره واحدا من وحدة التكنولوجيا الرئيسية، والتكامل مع تقنية التعرف على الهوية أخرى، شاركت في هذا العام لافتات الشوارع ICDAR في التعرف على الحروف المشهد الإنجليزية (ICDAR 2019-ReCTS) الدولية المنافسة، وفازت ICDAR 2019-ReCTS بطل مهمة التعرف عليها.

إعلان الحرب Deepfake

تأسست معهد بحوث الذكاء الاصطناعي الشمالية: دمج الموارد المدرسة AI، وبناء نموذج "الهندسة الجديدة"

للتعلم المستمر عبر الشبكة: خوارزميات الذكاء الاصطناعي جديدة تسمح "النسيان كارثية" لا أكثر

ورقة اليوم | الملابس وصورة الجسم ولدت محاولة الافتراضية، قوية التعلم العميق؛ نمط الهجرة الصورة

ICLR 2020 من الورق | إضافي هدف مسبق الضبابي للتخفيف من الجهل التنوع سلبية

موثوقة كبار من معظم العلماء تأثيرا في العالم قائمة AI 2000، يسلط الضوء على أبحاث الذكاء الاصطناعى عدم الصينية

AAAI 2020 | جامعة بكين: خوارزمية تعلم متعددة المراحل بإشراف ذاتي في الالتفاف على الرسم البياني

AAAI 2020 | USTC: التشخيص عصبي النظام التعليمي ذكي، تعلم من البيانات البيني وظيفة

2019، ML & NLP مجال التركيز على البحوث العشرة الأوائل

أقوى مجموعة من العلامات التجارية لتقنية مفتوحة المصدر للذكاء الاصطناعي ، GMIC * AI Source Global Developer Summit (بكين) هنا

اليوم ورقة | العشوائية المعادلة التفاضلية، تدفق التعرف على الكلام التلقائي؛ تصنيف الصورة؛ الربط كثيفة شبكات التلافيف

جيف عميد شخصيا: في 2019، وجوجل AI وتخريب ماذا؟ (تعلم)