ICPR التعرف على الصور وكشف بطل تحدي خبز مخطط لتحديد Duang كلمة المستندة إلى متطرف

مع التطور السريع للإنترنت، أصبحت الصورة وسيلة هامة لنشر المعلومات، والتعرف على النص والصورة تكنولوجيا الكشف أيضا أصبح موضوعا ساخنا للصناعة الأكاديمية، في تطبيقات مثل تحديد جواز السفر، وجمع المعلومات والكتب والالكترونيات وغيرها من المجالات.

ومع ذلك، فقد كان مشكلة، لا يوجد أي صورة تستند إلى الشبكة، ومجموعات البيانات OCR استنادا الصينية. واستنادا إلى هذه النقطة الألم، أطلقت علي بابا "صورة والجمال" فريق MTWI مجموعة البيانات، وهو أول جمع البيانات OCR العام علي، ولكن أيضا موجود الصورة الأكثر صعوبة والأكثر شمولا من جمع البيانات OCR الشبكة.

واستنادا إلى مجموعة البيانات هذه، وعلي بابا "صورة والجمال"، في رعاية فريق جامعة مشتركة جنوب الصين للICPR MTWI 2018 التحدي، وتنقسم اللعبة إلى ثلاثة مسارات منفصلة، واحدة تحديد سطر واحد من (العمود) نص نص في الصورة، ثانيا، لكشف وتحديد موقع خطوط النص في الصورة، والثالث هو تحديد النص الكامل للFIG. ثلاثة مسارات مستقلة، وقد اجتذب كل مسار على 1000 الفرق المشاركة.

أستاذ جوناثان شعبة النهوض بالمرأة من NELSLIP (مختبر الهندسة الوطني للنطق ولغة معالجة المعلومات، الكلام واللغة USTC المختبر الوطني للهندسة) وأستاذ داي Lirong العمل الجماعي وIFLYTEK، اجتاحت كل بطل ثلاث مهام. ما يلي هو في هذه اللعبة هي المسؤولة عن تحديد وكشف المهام والإنجازات يقصد الطلاب تشو تشانغ USTC لوصف نجم برنامج لعبة، لالمسار الثالث، فهي مزيج من برامج للتشخيص والكشف.

المنافسة، وتوفير منظمي 20،000 الصور ومجموعات البيانات. 50 من تدريب مجموعة 50 على أنها مجموعة الاختبار. مجموعة كاملة من البيانات من صورة شبكة، تتكون أساسا من الصورة المركبة، وصف المنتج، وشبكات الإعلانات، وتضم كل صورة معقدة أو تخطيط، أو كثيفة صغيرة نص أو نص اللغة، أو يحتوي على علامة مائية، وكشف هذا النص تحديد جميع التحديات. ما يلي هو صورة نموذجية.

التعرف على النص

برنامج المنافسة يمكن تقسيمها إلى نوعين المقدمة، ويستند واحد على برنامج CTC، ويستند برنامج آخر على اهتمام التشفير، فك الرموز. ويستند فريق NELSLIP الآن على نتائج معقدة، واختار في نهاية المطاف الخيار الثاني.

صعوبة المباراة

الأولى هي تحديات طويلة الأمد التي يواجهها OCR، مثل النص المستمر، فضلا عن الخلفية المعقدة للمشاهد الطبيعية، ضجيج كبير نسبيا.

ثانيا، نموذج التعلم العميق يتطلب كمية كبيرة من البيانات للتدريب. إذا كانت صغيرة التدريب العينة، فإنه من الصعب تدريب نموذج جيدة. هذه المرة هناك اعتراف بعض الأحرف الصينية التقليدية، وبدرجة أقل على تدريب عينات من الحروف الصينية التقليدية، وسوف يؤدي إلى تحديد أكثر صعوبة.

حلول

الراديكالي شبكة شبكة تحليل

فريق NELSLIP المنافسة تستخدم الراديكالي شبكة تحليل، يتم استخدام الشبكة أساسا لحل مشكلة عينة صغيرة، وتقوم هذه الشبكة على ورقة من الإنجازات ورقة شبكة تحليل جذرية للتعلم صفر النار على ICME2018 في التعرف على الحروف الصينية المطبوعة (وصلة الرسالة: HTTP : //t.cn/RFJIN9k)، في السباق للقيام ببعض الأمثل، والمزايا الهامة التالية:

هذا هو وسيلة لتشفير وفك التشفير الآليات القائمة على الاهتمام، بدلا من تقسيم الحرف في شكل نافذة انزلاق، بغض النظر عن المدخلات غير أفقي أو عمودي، فإنه لا يرى إلا بكسل المقابلة.

قبل هذا البرنامج، ونحن جميعا الحروف الصينية كحرف كله أو صورة للتعرف على الأساليب المستخدمة مع التعرف على الصور، صورة نظام تصنيف أو ImageNet تجاهل تقريبا طبيعة مهمة من الشخصيات أنفسهم - الأحرف من المتطرفين الدستور. المنافسة، وأنها ستكون في شكل كانجي تفكيك جذري. اتخاذ "معبد" كلمة، على سبيل المثال، كانت الكلمة حول الهيكل، أولا "شاملة" وبجانب بجانب كلمة "ثمانية" كلمة أسفل الخط في الهيكل، ثم بجانب كلمة "ميتة" اليسار العلوي حاصرت هيكل من أعلى إلى أسفل. حق "قليل" و "الحق" صعودا وهبوطا المكونات.

عن طريق العمق الأول اجتياز، واجتياز هذه البنية شجرة على شكل سلسلة، ثم يتم التعرف على سلسلة عن طريق تحديد حرفا. هنا وهناك هو معرفة مسبقا IDS2char القاموس. على سبيل المثال، بعد "بولي"، "تشيان"، هذه الكلمات الثلاث "ساحة"، وهذه الكلمات هي سلاسل المحددة في القاموس سوف تكون قادرة على مؤشر هيكل فئات، ومن ثم القيام التعرف على الحروف الصينية.

هذا النهج يمكن أن يحقق فائدتين:

1. الأحرف العديد من الفئات، مقسمة إلى الجذور من قبل، وعدد يمكن ضغطها إلى حد كبير، لإزالة التكرار.

على الرغم من أنه يبدو أصبحت الشخصيات تفكيك سلسلة طويلة جدا، ولكن في الواقع تحسين سرعة الحوسبة. إذا كنت ترغب في التعرف بشكل جيد، يجب أن تشمل جميع الشخصيات، وإذا كان بعض استخدام القديم للكلمة كل عدد، بلغ عدد الكلمات 100،000. إذا كنت تفعل مائة ألف أنواع المصنفات الأخرى، والكفاءة تكون منخفضة. وهكذا، على الرغم من كل كلمة من التسلسل الأصلي وتفكيكها إلى خمسة أو ستة أو أكثر، ولكن عدد من فئات لكل فئة في تسلسل يتم تخفيض، يتم تقليل مساحة البحث وفقا لذلك، تسوية أسفل، وكفاءة فك هي نسبيا العطاء زيادة.

2. التعرف على الكلمات ذات التردد المنخفض، على سبيل المثال، لا يظهر في مجموعة التدريب في أكثر من الكلمات، والتي لا تتطلب وقتا إضافيا لبيانات جمع، لا تحتاج إلى الإبقاء على النموذج.

على سبيل المثال، حتى كلمة duang حار جدا إلى ها لونج. على الرغم من أن هذه الكلمة هي بسيطة جدا، ولكن لأنه لا يوجد تدريب مركزي، توجد طريقة لتحديد نموذج مشترك، ومن المرجح أن يتم التعرف على أنها "ب"، "التنين" أو أي كلمة أخرى. نموذج لRAN، سيكون المشهد في OOV التعرف عليه. على سبيل المثال duang كلمة كمدخل، وسوف تحل طالما، وبينما يمثل تسلسل كما يظهر هيكل طويلة عموديا.

عند تحديد الأحرف التقليدية هو نفس السبب.

كما هو مبين أدناه، منذ يستند الصورة على المشهد الحقيقي، لذلك لم يكن هناك "المخدرات" و "شراء" هذه الشخصيات المعقدة. في حين أن نموذج اللغة العام، "شراء" يمكن حصرها في "شراء"، الذي صحيحة لغويا، ولكنه ما زال يمثل مشكلة. بواسطة شبكة RAN، يمكن أن يكون حلا جيدا لمشكلة OOV هنا، لتحديد الشخصيات التقليدية بشكل صحيح.

، وهذه المرة كانت مهمة لتحديد سطر من النص، فإن المعلومات النص إلى نماذج من الحس السليم، وأضاف أنهم على أنها تحسين شبكات RAN نقطة أخرى، شبكة السابقة هي للاعتراف كلمة التشفير هو نموذج واحد فقط من CNN بعد التشفير CNN RNN شبكة اتجاهين. وعلاوة على ذلك، فإن كلمة من تحديد خط النص الذي تم التعرف على نموذج، فإنه ليس فجوة كبيرة جدا بين البلدين، حيث الجذور لاستخراج آليات الإنتباه قد يميز أيضا بين كلمة وكلمة تباعد، في الواقع فقط الحاجة جذرية في منتصف جذري مع كل كلمة معرف.

آلية تحسينات الاهتمام

كما أنها آلية التركيز تحسن، والاهتمام تستخدم ليكون آلية رئيس واحد، في هذه المسابقة، وزيادة إلى آلية 4-الرأس من الاهتمام، ولكن أيضا بإضافة المزيد من الاهتمام على تغطية الفاعل، والتغطية الممثل إرادة التاريخ التركيز الحالي من المعلومات نموذج الاهتمام يروي الوقت، وهذا سيؤدي إلى تحسين القدرة على التوفيق بين الاهتمام.

وبالإضافة إلى ذلك، فإنها تستخدم أيضا تقنية الهادي الاهتمام، بالإضافة إلى نموذج على شكل مربع أسود لجعله تعلمهم، ولكن التوجيه أيضا أقوى للنموذج الاهتمام. في هذا المشهد الحقيقي، عندما ضجة كبيرة، ونموذج الاهتمام من الصعب معرفة، من خلال إعطاء نموذج توجيه أفضل، والاهتمام يتعلم بشكل أسرع، وأفضل نموذج تتلاقى.

يستخدم RGB + HSV أساسا لحل بعض المشاكل الشائعة OCR، مثل الخلفية المعقدة. بعض العيون البشرية لا يمكن رؤية الضوء الصورة الاختلافات في اللهجة التي كتبها HSV، وذلك لتكون قادرة على تحديد بشكل صحيح.

وبالإضافة إلى ذلك، كما فعلوا بعض البيانات عمل محسنة، مثل دوران النص والضغط وهلم جرا.

من الصعب الحالات العزم:

المثال الأول هو الضجيج الخلفية بصوت عال جدا. الشكل التالي هو مثال أكثر تعقيدا من العين البشرية لا يمكن أن نرى. هذا المثال هو خلفية وردية اللون، المقدمة خفيفة الأصفر، على الرغم من ظلال يمكن أن تعزز صورة من HSV، لكن يمكنك أن ترى أنه الحقيقية علامات الطفل الجميلة NO1، إن لم يكن HSV، نتيجة لخطأ فظيع جدا. بعد الاستعمال، وكلمة لا يزال من الصعب جدا الكشف عنها.

المثال الثاني هو سحب بعض من المشاهد من الصورة الحقيقية، إذا كانت الصورة نفسها صغيرة جدا، وسوف تكبر إلى حد ما، والتعرف على الجهاز سوف تصبح غير واضحة جدا.

والمثال الثالث هو التردد المنخفض مشاكل كلمة أكثر صعوبة المذكورة أعلاه، فإنه يمكن التعرف بشكل صحيح عن طريق شبكة RAN.

كشف

في هذه البطولة، وهناك أربعة جوانب الاختبار:

الأولى، متعدد الزوايا المشكلة. قبل الأوساط الأكاديمية الكشف يتم وضع علامة مع مستطيل، مثل أريكة أو اكتشاف جسم الإنسان، ولكن إذا كنت تفعل كشف النص، مثل زاوية الميل نص 45 درجة، وهذه المرة إذا مربع مستطيل، سيكون هناك أكثر من الكثير من الضوضاء.
ثانيا، مشكلة التداخل بين النص. على سبيل المثال الشكل التالي يصور السطرين التداخل.
ثالثا، غموض النص. FIG يلي حجب جزء، حتى عين الإنسان يمكن أن يرى.
رابعا، الفجوة طول النص كبيرة نسبيا. بعض النصوص بشكل خاص منذ فترة طويلة، وبعض النص قصير جدا.

لتعظيم الاستفادة من هذه المشاكل

ويستخدم هذا بنية الشبكة في اللعبة، وهو عملية أخذ العينات أسفل، وخصائص تحت أحجام مختلفة الانصهار.

والثاني هو حل مشكلة متعددة زاوية. للمشكلة متعددة زاوية، إذا تناسب أربعة القمم مباشرة في الخطوة الأولى تكون مضللة، من أجل تجنب هذا الأمر، كانوا LocSLPR في الخطوة الأولى، سوف تدخل الصورة بناء مساحة الهرم، والتي تصور النص على مختلف المستويات ملامح، وبالتالي استكمال دقة تحديد المواقع من خط النص.

كما المستخدمة هنا، مكدسة R-CNN، مربع الاقتراح الأول هو إطار مستطيل أفقي، وذلك باستخدام LocSLPR المناسب كفاف، وكفاف الثاني يكون المعلومات في الوقت، والخطوة الثانية مربع اقتراح دوران هي إطار مستطيل.

بقية الصورة غير واضحة من قبل قوة من مشكلة في الشبكة العصبية يمكن حلها، على الرغم من أن هذه المشكلة هي أيضا أكثر صعوبة في عزم، ولكن المنافسة ليست مصممة خصيصا الشبكة.

المشكلات العملية التي تواجهها في اللعبة

CVPR، المؤتمر ICCV على رؤية الحاسوب وهلم جرا، كل عام هناك الكثير من الأوراق والبرامج في هذه اللعبة، وتريد أيضا أن تأخذ المقام الأول مع اشارة الى البرنامج جيدة مختلف.

تحديد صعوبة أكبر أن بعض الصور صغيرة جدا لرؤية واضحة بعد التضخيم، أو تشويه الصورة، ودقة وضوح الصورة ليست عالية، وأنها تريد أن تفعل بعض وسائل فائقة الدقة، وتحسين جودة الصورة بعد التوسع الذي عرض أيضا CVPR على بعض لطيفة مخطط فائقة الدقة، ولكن بعد ذلك وجدت أن النتيجة ليست النهاية مرضية للغاية، بالإضافة إلى بعض القضايا المطروحة على الدوار هو أيضا أكثر صعوبة لعزم.

وبالإضافة إلى ذلك، والبحث الآن جزيلا على اهتمامكم، بما في ذلك NLP والتوجيه الترجمة الآلية لديها الكثير من الآليات التحسينات الاهتمام. ولكن هذه البرامج ليست مشكلة للنص، وذلك في بداية لا في محاولة لتحديد كيفية تحسين أثر البرنامج على المهمة. في اختيار شيء أن تبدو آلية أكثر ملاءمة للبرامج لتحسين الانتباه ومحاولة في هذه العملية، واجهت أيضا العديد من المشاكل.

لا تزال بحاجة إلى برنامج لتحسين التعرف على الحروف المكتوبة بخط اليد. الناس في اليد، وسوف تكون عادية جدا، وأحيانا سوف يكون هناك قلم حتى، مسح القضاء يجب أن الشخصيات لها بعض المتطرفين والهيكل المكاني، وهذه المرة على أساس أداء RAN لن تكون هناك طريقة للحصول على جسم طباعة كبيرة.

في المستقبل، قد يكون التركيز الرئيسي للتحسين والتشفير.

طريق الحرير

ICPR التعرف على الصور وكشف بطل تحدي خبز مخطط لتحديد Duang كلمة المستندة إلى متطرف

الجديد الجاسوس نموذج صني التعرض 1.5L أو نهاية القائمة الرسمية

سيتم فتح نمط كبير، شخصية صغيرة شو مهرجان بينغياو السينمائي الدولي "النمر الرابض" في أكتوبر من هذا العام

والمشتركة العليا لم شراء؟ نايك Humara'17 الهواء لا تدع جديد مرارا وتكرارا!

بين ما بعد البذر | خريطة النجوم خائبي: AI الكاميرا المواهب على مستوى المستهلك الطائرات بدون طيار

واضاف "اذا يي تشوان" الأنثى ان نكون اصدقاء تجد أنه ضعيف جدا، في النهاية الفرق بينها وبين عدد قليل من المرتفعات تشن هوان؟

بورشه 911 اختبار الطريق الجديد: شكل ما زال نفس السنوات

ردي رومانسي تشونغتشينغ الكليات والجامعات الكبرى، واتخاذ اجهتك ربيعي جميل

مروحية TV هونج كونج للمرة الأولى عددا كبيرا من الدراما الشرطة "الخط وكر" جاء مايكل مياو

هواوي تتمتع سلسلة الإصدارات الجديدة: أول ثلاثة آلاف يوان كاميرا الهاتف المحمول، وارتفاع تكلفة

يتعرض الكثير فستان V عميق، تشين لان الملابس خياطة شخصيا، والأصدقاء: غني فحص الملكة الفاضلة حقا!

YOUKU مخيم الدراما عظمى شبكة يضيف المجندين، "الحرب النمر الطائر قطب" كيف "تفعل شيئا"؟

MIX 3 الدخن آلة حقيقية التعرض: الهاتف المنزلق حقا شعور

جيثب المحلية تم التفجير الاحتيال، والتدريب على تكنولوجيا المعلومات صناعة "دورة مكثفة" لتحمل الكثير من المسؤولية؟

قضاء جودة قليلا اشترت 50000 يوان من سيدان مشروع مشترك الموصى بها

جوجل المحلية متجر Play لا يمكن أن ترتفع، XXXX

مشاهدة أقيل الأخبار لمعرفة الشركة، كم هيون آه كيم شياو تشونغ أن يفقدوا وظائفهم من أجل الحب؟

تجمع جدار | تفتقر إلى معنى الحياة جيانغ شين

MEIZU ملاحظة جاءت 8 البراهين الصورة بها، وصحيح الرائد ألف دولار؟

مقابلة نيكي: ضعيف الشخصية؟ لأنني دائما القيام بأعمال تجارية لا يأخذ في الحسبان أخرى رخيصة الثمن شخصا

الناس تلعب كلب؟ "الكلب الذهبي" لي تشين كامل سراح الخط، فاي وونغ: أداء مؤثر جدا!

كونا المحلي الحديثة أو قوانغتشو للسيارات بدء SUV صغيرة جديدة

كاني ريدز حول كل منهم الموضوعات الحالية صانع؟ الانتقام س العاصفة روتين الآن مرة أخرى على القوة الجوية 1 أحذية رياضية!

الأحكام ذات الصلة