السحب من التكنولوجيا OCR اختراقات: نهاية إلى دراسة متعمقة النص الإطار كشف بكسل مرساة

شبكة لى فنغ AI تقنية مراجعة الأخبار، في الآونة الأخيرة، جعلت تكنولوجيا الكشف عن سحابة من نص OCR في مشهد طبيعي في هذا الجزء طفرة تكنولوجية في دقة الكشف والكفاءة كشف دمج بعدين، الحصول على أفضل النتائج حتى الآن. الحادث الذي وقع في قناة شبكة لى فنغ AI تكنولوجي ريفيو هو مشروع قاعدة البيانات الأكاديمية "AI عامل تأثير" في نقاط المقابلة. وفيما يلي نص تفسيرهم للإطار التعلم العميق بكسل مرساة للكشف عن استخدام.

خلفية مقدمة

لديها تاريخ طويل، منذ 1960s الحروف الأولى من المنتجات اعتراف OCR المتاحة، تمديد تكنولوجيا التعرف الضوئي على الحروف OCR مجال الاعتراف تدريجيا إلى الأرقام والرموز، ومن ثم لغات أخرى مثل اللاتينية باللغة الفرنسية، والألمانية، لغات شرق آسيا الإيطالية وغيرها هي الصينية واليابانية والكورية وهلم جرا. تضم OCR عموما اثنين من وحدات أساسية، والكشف عن النص والتعرف على النص. دراسة متعمقة التكنولوجيا السابقة، والكشف عن نص OCR التقليدي يعتمد على عدد من الضحلة طريقة معالجة الصور أو أسلوب تقطيع الصورة، ومعقدة شاقة تقنيات تجهيز آخر لتحديد المواقع النص، مثل binarization أوائل مجال الاتصالات الاستخراج، أو يتم استخراج كبير الاستقرار في المنطقة أواخر تستند إلى الأحرف في المنطقة، وبعد ذلك منطقة المستخرجة جنبا إلى جنب مع سلسلة من العمليات المتصلة لاستكمال وضع النص النهائي. لأن استخدام هذه التقنيات، معالجة OCR التقليدية الكائنات الصورة غالبا ما تكون محدودة واضحة، الخلفية نظيفة، الخط العادية ترتيب بسيط وفي نفس الوقت صورة وثيقة.

مع تطور التعلم العميق للنص OCR في مجال الكشف، ولكن أيضا ظهور سلسلة من نهاية إلى كشف إطار التعلم العميق، يمكن OCR التعامل مع الأجسام توسعت تدريجيا من الوثائق ذات جودة عالية للصور بدءا من مستوى جودة الصورة، الخلفية معقدة، الخط متنوعة، اتجاه النص من أي مشهد طبيعي. توسيع التطبيقات أيضا إعلانات مصورة من وثيقة مرشح الاعتراف، فهم المشهد، والسلع الأساسية مجالات واسعة لتحديد وتحديد الشارع، والتعرف على الملاحظات. فيما يلي مثال من عدة مشهد طبيعي الكشف عن النص.

ويمكن تقسيم كشف الإطار الحالي التعلم عمق النص القائم إلى فئتين، ويستند واحد على تجزئة الدلالي صورة مستوى بكسل، مشتق الآخر من الإطار العام الكشف عن وجوه، على سبيل المثال، استنادا إلى مرساة (انكور) كشف والانحدار.

النص إطار كشف القائم على مرساة الانحدار كشف في الكشف عن وجوه العام؛ بكسل النص ينقسم إطار الكشف الحصول أولا الممكن بكسل النص الذي تقطيع الصورة الدلالي، مباشرة بعد الانحدار من قبل بكسل أو بكسل النص البوليمر للحصول على موقع النص النهائي على أساس في الأساس، نسب مختلفة من خلال توفير المزيد من القدرة على التكيف مع مرساة النص يصبح أطول، لتحقيق التأثير من موقع النص.

تجزئة بكسل القائم للكشف عن النص تميل إلى أن تكون دقة أفضل، ولكن للنص على نطاق صغير، كما بكسل النص المعمول بها ضئيل للغاية، ومعدل اكتشاف عموما ليست عالية، ما لم كفاءة الكشف على حساب تكلفة صورة الإدخال على نطاق واسع التكبير، يقوم كشف مرساة النص للكشف عن عودة النص نفسه ليست حساسة لنطاق، فإن معدل الكشف عن نص صغير، ولكن لكتل كثيفة من النص زاوية كبيرة، والطريقة المباراة مرساة ستسقط حتما إلى تناقضات لا يمكن أن يصلح في أوساط بالإضافة إلى ذلك، منذ ويستند هذا الأسلوب على خصائص الخشنة النص بأكمله، وميزات بغرامة لا على أساس مستوى بكسل، غالبا ما يكون ليس كما دقة الكشف خير تجزئة النص كشف بكسل القائمة. لهذا فترة كبيرة من لغة طول النص الصينية، هاتين الطريقتين المعمول به حاليا على نص طويل غير مرضية.

لحل هذه المشاكل، وسحابة من اقصاه الى الهدايا تكنولوجيا نهاية التعلم العميق إطار الكشف عن نص بكسل مرساة، والخصائص المشتركة عن طريق وكفاءة على مستوى بكسل تجزئة الصورة ومرساة الدلالي كشف الانحدار وضعت في الشبكة، وبكسل يتم تحويل نتيجة تجزئة لآلية عودة مرساة التركيز الكشف عن عملية واحدة، بحيث طريقة للكشف عن عودة مرساة مع تحقيق معدل اكتشاف عالية، ولكن أيضا الحصول على دقة عالية.

وعلاوة على ذلك، أما بالنسبة للطول النص بحيث كبيرة تمتد للغة الصينية، وبكسل مرساة، وسحابة من SCIENCE طبقة اقترح على التنبؤ على التكيف، ومميزة لمختلف المستويات المقابلة لعدد من المجالات تقبلا، ومرساة تصاميم مرساة مختلفة التوزيع المكاني للموقف، وطول النص مع كفاءة أكبر وأفضل على التكيف مع التغيير. كما هو موضح أعلاه، وهما تحدي كشف النص مشهد طبيعي واختبار مجموعة ICDAR2015 ICDAR2017 MLT، بكسل مرساة في الكشف عن دقة وكفاءة الكشف متكاملة بعدين لإعطاء أفضل النتائج حتى الآن (في نتيجة معينة انظر أدناه الجدول 1، الجدول 2 والجدول 3). على أساس الإطار لتلبية متطلبات الإنتاج البيئة في الوقت الحقيقي على الحصول على دقة الكشف عالية، لدينا أنظمة تحديد الفواتير وإعلانات مصورة للنظام الترشيح التكنولوجيا على خط من الوثائق في السحابة.

بكسل مرساة هذا الإطار كشف النص، وإطار الكشف عن النص التيار الحالي مقارنة يقترح نقطتين الرئيسية للتحسين:

وتتكون النقطة الأولى التي تجزئة صورة فتيل بكفاءة مستوى بكسل والكشف عن الدلالات مرساة أساس الانحدار معا، نهاية لهذه الغاية يمكن تدريب للكشف عن الشبكة. في هذه الشبكة، وتجزئة على مستوى بكسل الصورة وكشف المشتركة مرساة تستند ميزة قاعدة الانحدار الدلالي، والمستوى بكسل من الصورة الانتباه نتيجة لآلية تقسيم الدلالية لإجراء عملية الكشف عن الإشراف مرساة العودة، لضمان فعالية معدل اكتشاف النص في نفس الوقت، وتحسين دقة الكشف عن النص.

انظر أعلاه الإطار العام، والاستخدامات الأكاديمية بكسل مرساة ملامح استخراج كشبكة العمود الفقري المشتركة ResNet-50، ومقتطفات ميزة في FIG 1 / 4،1 / 8،1 / 16 وكذلك وحدة تجزئة الدلالات على مستوى بكسل (الشكل 5) و حيث كشف عن عودة وحدة قاعدة مرساة (الشكل 6)، في حين يتم حقن الدلالي الناتج حدة تجزئة في شكل حرارة في مرساة FIG وحدة الكشف عن الانحدار. الشبكة بالكامل بسيطة وخفيفة الوزن، ويمكن القيام بها في نهاية التدريب أساليب ADAM الأمثل.

يتم الكشف عن نقطة الربط الثانية في الانحدار يدخل التنبؤ التكيف طبقة وحدة "التكيف توقع طبقة"، وطبقة التنبؤ فيها اتصال FIG بعد مستويات مختلفة، وفقا لخصائص مختلفة من FIG الحقل تقبلا مختلفة، وهو جانب تعديل نسبة مرساة وشكل نواة الالتواء الكثافة المكانية ومرساة (كثافة مرساة، انظر الشكل 7)، من أجل الحصول على نص كفاءة على الكشف عن نتيجة كل ميزة الخريطة، وبالتالي فإن طول النص يتغير القدرة على التكيف على نحو أفضل. طبقة التكيف التنبؤية على مستوى الكشف عن الأداء نص طويل ممتازة، وأعلى بالمقارنة مع طريقة CTPN الكلاسيكية، لا يتطلب هذا الأسلوب معقدة الكفاءة في مرحلة ما بعد العلاج في نفس الوقت أكثر قوة.

عنوان ورقة: الشبكي: //arxiv.org/abs/1811.07432

(النهاية)

بعد YOHOOD كرنفال، يمكننا أن نذهب إلى هذه الأماكن للعب!

هنغشوى II مدخل كلية المائة يوم أداء اليمين الدستورية مرة أخرى! "جامعة تسينغهوا في بكين في قدمي،" الدجاج شعار ملهمة

"البوهيمي رابسودي" التعرض زي تصميم فاتوريت كبيرة تظهر مثل الأزياء لخلق العيد السمعية والبصرية

تحقيق الهاتف الخليوي قمة الكاميرا: فيفو X21 تقييم الكاميرا الخاصة

لا "قنبلة" جديدة، لكنه شدد على أن "مستوى القواعد سيارة" و "إنتاج"، لتوسيع دائرة الأصدقاء NVIDIA الطيار الآلي | GTC الصين 2018

فولكس واجن Arteon اتخاذ تكنولوجيا أمنية جديدة في السوق أو منتصف يونيو

LOL: في هذا الإصدار الجنود والقتلة، ADC كيف تلعب؟

"سنو العاصفة" لتغيير ملف لفتح 30 أبريل أدت الملفات شرطة الغابات واحد وخمسين نيني لياو فان تشانغ تشن قوانغ جويه لي جي "معركة الثلوج في النهاية

+ لعبة + سحابة الخادم طيار كل عام، لمعرفة ما جلبت NVIDIA الأشياء الجيدة للسوق الصينية | GTC الصين 2018

مشاهدة أول اختبار بكين للسينما: نجمة كلمات جوي مفتاح منخفضة ظهور اللون عالية المعرض المرشحين قيمة المواهب

نيوزيلندا الشمالية العرش المنافسة SCG 003 لسحب ترجل مافريكس

"بعيدا الرعوية" يتعرض IMAX ملصق ملف معين 12 أبريل الأدبي تحفة الاستنساخ التحولات البدوية أسطورة