Seq2Seq أساس ثنائي وLSTM من النص الصيني نموذج التدقيق اللغوي التلقائي

مع التطور المستمر لصناعة النشر الالكتروني، حيث النص الصيني تصحيح التجارب المطبعية جوانب مهمة ثقيلة على نحو متزايد، وذلك باستخدام التدقيق اليدوي التقليدي غير قادر بوضوح لتلبية الطلب. ولذلك، فإن تطوير النص الصيني تكنولوجيا التدقيق اللغوي التلقائي أهمية خاصة.

في هذه الورقة، وعمق التعلم (الشبكات العصبية المتكررة) نص التدقيق اللغوي التلقائي. خصائصه هي قادرة على التعامل مع المدخلات والمخرجات متواليات من أي طول، لذلك يتم تطبيقها على نطاق واسع في (معالجة اللغات الطبيعية) المهمة. على مهام الترجمة الآلية، CHO K أول من اقترح تصميم نموذج يستند إلى الشبكة العصبية المتكررة في ورقة نشرت في عام 2014، وحققت اختراقا في معالجة اللغة الطبيعية في قضايا متعددة. ولذلك، يوفر نموذج Seq2Seq اقترح طريقة جديدة للتفكير ونهج للبحث في مجال تصحيح التجارب المطبعية النص.

في الوقت الحاضر، والتكنولوجيا التدقيق التلقائي استنادا دراسة متعمقة النص الصيني لا يزال في مراحله الأولى، وتركز هذه الورقة على نموذج Seq2Seq وBiRNN شبكة تحسين نموذج هندسة الشبكات، مما يجعلها مناسبة للقضايا النص وتصحيح التجارب المطبعية الصينية، وتوفير مناطق للالتدقيق النص الصيني نهج جديد.

1 الخلفية

وضع النص الصيني التدقيق 1.1

في الوقت الحاضر، والبحث المحلي في تصحيح التجارب المطبعية النصوص الصينية بشكل رئيسي في الطرق الثلاثة التالية: (1) بناء على نظام الكتابة الصينية التدقيق النص؛ (2) على أساس الصيني التدقيق النص الطابع؛ (3) بناء على سياق التدقيق النص الصيني. وتنقسم الترتيب من هذه الطرق الثلاث المستخدمة إلى ثلاث فئات: (1) استخدام خصائص النص، مثل خصائص الخط، والسمات، أو سياق الكلام ميزات، (2) استخدام الخصائص الإحصائية للسياق العلاقة احتمالي اتصال التحليل؛ (3) تستخدم المعرفة اللغوية، مثل قواعد قواعد مطابقة النحو وكلمة.

نموذج 1.2 Seq2Seq

ويتألف النموذج القائم Seq2Seq ثلاثة أجزاء، أي التشفير النهاية، فك وينتهي اتصال كل من ناقلات دولة وسيطة. التشفير تسلسل التشفير مدخلات X = (X1، ...، XT) المشفرة إلى حجم ثابت من متجه الحالة S التي تنتقل عن طريق فك فك الترميز، وحدة فك الترميز عن طريق التعلم لتوليد تسلسل إخراج S Y = (Y1، ...، يك). يتم الحصول على فك الرئيسي على أساس ناقلات دولة وسيطة S وذ الناتج من المرة السابقة (تي 1) في الوقت t قبل فك ذ الإخراج (ر). هيكل هو مبين في الشكل (1).

1.3 ثنائي الاتجاه، LSTM

LSTM (لونغ قصيرة الأجل الذاكرة) دورة السيطرة البوابة الشبكة العصبية. شبكة المعلومات معيار RNN التي يمكن تخزينها محدودة، وتأثير المدخلات والمخرجات مع الحلقات شبكة الإضافية وانخفاض، وLSTM في مواجهة سلسلة طويلة، لا يزال قادرا على تذكر كل تسلسل المعلومات. LSTM له بوابة المدخلات، بوابة النسيان، والإخراج من بوابة 3 بنية شبكة خاصة لهيكل الباب. LSTM من خلال المعلومات الهيكلية بحيث الأبواب يؤثر بشكل انتقائي على حالة الشبكة في كل لحظة. هيكل LSTM هو مبين في الشكل.

ثنائية RNN RNN يتغلب على مشاكل الانتاج الحالي أحادي الاتجاه والوقت بعد الوقت مستقلة. في ثنائية RNN، وRNN انقسام الشبكة في اتجاهين، وليس فقط على طبقة الصدد، هناك أيضا طبقة اتصال العكسي من اليسار إلى اليمين من اليمين إلى الجبهة اليسرى، وترتبط هاتين الطبقتين مع موصل طبقة الإخراج، وذلك لضمان الشبكة قادرة على التعامل طويلة طي النسيان تسلسل لا يحدث، ويضمن ويمكن تقديم المعلومات سياق كاملة لتسلسل المدخلات طبقة الانتاج. هيكل هو مبين في الشكل (3).

2 نموذج لتحقيق

2.1 تجهيزها البيانات

نموذج العمارة الأساسي هو Seq2Seq نموذج. قبل بناء النموذج، ضرورة إحضار المعالجة، تتألف من خمسة أجزاء: تحميل البيانات، تنظيف المعاملات؛ مشفرة كلمة تجزئة، التحليل الإحصائي، تحويل الإحضار. عند تحميل الاحتياجات من البيانات لتكون مجزأة جسم النص، الجملة كوحدة واحدة، وهذا هو، كل صف يمثل جملة تامة، من أجل قراءة بيانات التدريب. قطع كلمة يمكن الاستفادة من بعض من الجزء ناضجة من أدوات تجزئة الكلمة الصينية، مثل كلمة jieba. العملية هي إعادة تحميل كاملة للكلمة، البيانات إلى أن يكون لاحظت أنه في حين تطهير لإزالة الأرقام والأحرف الخاصة، وما إلى ذلك، ثم يتم ترميز عليه في وحدات من دخول كلمة القاموس.

بعد الانتهاء من رسم الخرائط من قاموس الرقمية، ثم أكمل الأعداد المطلوبة لdemapping العلاقة رسم الخرائط وفقا لقاموس المرادفات. تحليل البيانات هو وصف إحصائي للجسم التدريب، لمعرفة بعض المعلومات عن بيانات التدريب، مثل: عدد عدد الجملة التدريب، وهي أطول وأكثر العبارات كلمة تحتوي على عدد من المثول التدريب تشكل مفردات متميزة وهلم جرا. وأخيرا، وفقا لأحكام متعددة مرتبة من الصغيرة الى تحسين عملية التدريب.

نموذج الشبكة 2.2Bi-LSTM من Seq2Seq

قيود 2.2.1 الهيكل الأساسي للSeq2Seq

في الترجمة الآلية، على قضايا مثل توليد ملخصات، كان Seq2Seq القائم على نموذج دائما أداء جيد، ولكن مثل هذه المشاكل لتنقيح الكتابة النص، وهيكلها ولا يمكن استخدامها مباشرة. إدخال التشفير ترميز إلى حجم ثابت خلال أول دولة عملية ناقلات "ضغط المعلومات الضياع"، وإذا كانت كمية أكبر من المعلومات، ثم عملية التحويل فقدان ناقلات أكبر من المعلومات، في نفس الوقت، مع طول سلسلة من زيادة وسائل تسلسل أن البعد الزمني طويل جدا، وسوف تظهر أيضا RNN نموذج نشر التدرج. ثانيا، الاتصال وحدات التشفير فك والمكونات القائمة على النموذج هي مجرد حجم ثابت من ناقلات الدولة، بحيث لا يمكن أن تذهب المعنية مباشرة فك مزيد من التفاصيل دخلت المعلومات. وأخيرا، ويرجع ذلك إلى خصائص شبكة RNN، في الوقت الانتاج الحالي والوقت الحالي والمدخلات قبل المدخلات ذات الصلة فقط بحيث نموذج للقبض على معلومات ليست كاملة.

2.2.2 بناء نموذج

تصحيح التجارب المطبعية نموذج يتكون من التشفير، فك الترميز، ترميز نهاية LSTM وحدات من شبكة ثنائي RNN. نص الصينية المعايرة التلقائية، يتم وضع علامة على تسلسل المدخلات كاملة نص بيان كلمة الصينية، والموقف حيث يمثل ي مرتفع حكما في الإحضار، ممثل كلمة لموقف منخفض ط عشر الجملة. كل كلمة في النص قبل الإدخال إلى LSTM شبكة تحويلها إلى آلة رمز رقمي قابل للقراءة. فقط منذ LSTM معالجة البيانات طول ثابت، فمن الضروري لضمان أن طول المدخلات الإحضار تكساس تبقى ثابتة. يعطي الحد الأقصى لعدد الكلمات في الجملة قبل قسم تجهيزها، يفترض كلمة أن عدد تكساس = 20، ثم التعامل مع أقل من 20 كلمة الجمل الطويلة < PAD > الانتهاء. ترميز كل من محطة استقبال الكلمات الرقمية في أشكال الصينية والدولة الخفية نقطة في الوقت المناسب، منذ الشبكة ثنائي RNN، إخراج طبقة خفية هي حالة النقطة الحالية من الوقت، وهيكل هو مبين في الشكل (4)، والتي عرضين وحدة LSTM اتجاهين.

RNN هو فك مع آلية اهتمام على شبكة الإنترنت والتي يمكن استخدامها في المقام الأول إلى المعلومات السابقة عند إنشاء الزمن t كلمة. يتلقى الكلمات الصينية ناقلات الدلالي فك حكما الهدف ونقطة آليات الوقت والاهتمام مخبأة دولة طبقة فوق نقطة زمنية ولدت، كما هو مبين في الشكل.

ويرجع ذلك إلى آليات الإنتباه، وتوليد كلمة المدخلات من كل كلمة تسلسل درجة القلق ليست هي نفسها في كل مرة، وبالتالي فإن التشفير تسى في كل لحظة ليست هي نفسها. صيغة صيغة (15) هو مبين في الشكل. حيث، HJ يمثل ي-ث مخبأة كلمة وضع طبقة ترميز النهاية، ط يمثل الوزن بين ي-عشر كلمة وط عشر كلمة ترميز نهاية الجانب فك، والذي يحسب على النحو المبين في صيغة (16). في الصيغة (16)، eij هو انتاج نموذج softmax، وقيمة الاحتمال هو 1. يمثل eij نموذج التوافق، وهو مقياس للجانب الترميز فيما يتعلق ي عشر، كلمة فك درجة المواءمة بين ط عشر كلمة (درجة التأثير). يتم احتساب Eij نموذج المواءمة وفقا لصيغة (17) هو مبين في الشكل.

هناك العديد من المعادلات لحساب eij، وحسابات مختلفة تمثل نموذج الانتباه مختلفة تستخدم نموذج الاهتمام لينة هنا، والتي قد تكون جزءا لا يتجزأ في نموذج للتدريب المباشر. لينة الاهتمام نموذج التوزيع الاحتمالي عند التماس الانتباه عن كلمة لدخول أي حكم يتم إعطاء X الاحتمالات. هيكل هو مبين في الشكل (6).

ويبين الشكل 6 هيكل عندما تنبأ الناتج تونكو تي عشر الفترة. بترجيح الدولة طبقة التشفير، وذلك لتزويد كل بيان تفاصيل المدخلات، والدولة الأخيرة من طبقة مخفية ونهاية فك ناقلات الدلالي اندمجت معا، وحساب الناتج احتمال النهائي.

"حبي تعلم الآلة" على سبيل المثال، افترض أن اللحظة الراهنة تستعد دليل "آلة" هي الكلمة، وهذا وقت الحاجة لحساب ناقلات الدلالي، كما هو موضح في الشكل (7).

في FIG 7، وسانت-1 ممثل من الواجهة الأمامية للدولة فك طبقة خفية، وإخراج طبقة الخفية التي تمثل التدقيق الدولة "على كلمة واحدة آلة" المرحلة؛. A1 ~ A4 تمثل نهاية كل كلمة مساهمة في الثنائية ترميز دولة طبقة مخفية بعد RNN. إيلاء الاهتمام طبقة والإخراج الخفية وفقا لكل عشرات التشفير فك من كل جانب، ثم تدريب على القيمة المتوقعة من الانقسام معا، وإخفاء طبقة فك كوب من الوقت كمدخل في الوقت الحالي RNN.

2.2.3 نماذج التدريب والتحسين

بعد الانتهاء من بناء نموذج، ولكن أيضا تكوين الجانب التدريب وظيفة التنبؤ فك التشفير، والتدريب منفصل والتنبؤ. لأن الناتج من فك سيكون وقتا قبل الوقت الحالي كمدخل، إذا كان الوقت الإدخال السابق ليست كافية دقيقة، وسوف تؤثر على التنبؤ لاحق. لذلك، أثناء التدريب، يحتاج كل المدخلات لمعرفة الشبكة في الشكل الصحيح للجملة، ثم اضطر لدخول التدريب الصحيح، وهذا ما يسمى بطريقة المعلم إجبار، كما هو مبين في الشكل.

وقد تم عرضه توزيع احتمال فك في وقت واحد، وذلك لجميع من التدريب العينات التي تحتاج إلى القيام به هو في العينة التدريب بأكملها، P جميع العينات (Y1، ...، YT | X1، ...، XT) والاحتمالات أكبر، والظروف لتعظيم دالة الإمكان، والحصول على أفضل النتائج واقية. نموذج تصميم باستخدام البحث في الشبكة أجل العثور على أفضل تصميم معماري وفائقة المعلمة القيم.

3 نتائج وتحليل

علي سحابة الخادم GN2 التجارب باستخدام كخادم التدريب، إطار TensorFlow، واستخدمت ما مجموعه أربع مجموعات تجريبية لاختبار Seq2Seq، BiRNNSeq2Seq، Seq2Seq مع آليات الاهتمام وأربعة نماذج بالاشتراك مع اثنين معا في النص الصيني دليلا على الأداء. استخدمت تجربة مجموعة بيانات من 2018 NLPCC المشتركة بيانات التدريب وكذلك جزء من المهمة 2 Sogou مختبرات مفتوحة المصدر الإحضار الصيني، ومجموعة البيانات بالكامل يحتوي تتمثل 1327608 أزواج الجملة التي SRC وميدان، SRC باسم الأصلي الجملة، يمكن أن يكون إما الجملة الصحيحة التي تحتوي على خطأ كلمة قد الحكم، يمثل ترغ الانتاج المستهدفة، الموافق الجملة الصحيحة التي هي SRC، حيث لا يتضمن مجموعة التحقق من الصحة. مجموعة البيانات بالكامل نسبيا (99.5: 0.5) تم تقسيم عشوائيا إلى قسمين: مجموعة من التحقق، والذي يحتوي على 5310 أزواج الجملة، وهناك عدم تناسق بين الجملة مصدر والجملة المستهدفة؛ مجموعة تدريبية أخرى يحتوي كل 1322298 المتبقية حق الحكم. يحتوي على بيانات الاختبار الجمل 2000 الحق. مجموعات البيانات الإحصائية هو مبين في الجدول 1.

ويبين الجدول 1 تدريب التحقق الإحصائية وبيانات الاختبار. .Src يشير إلى مصدر الجملة خاطئة، ويشير .Trg لاستهداف الجملة الصحيحة.

من أجل تقييم نموذج معقول بموضوعية، تجربة MaxMatch هداف أدوات تستخدم على نطاق واسع للتقييم. نص تصحيح التجارب المطبعية النتائج الصينية هو مبين في الجدول رقم 2، حيث F0.5، F1، يتم تقييم BLEU النتيجة.

وأظهرت النتائج أن ثنائي RNN وآليات الإنتباه كلها عوامل تساهم في تحسين أداء النص الصيني نموذج تصحيح التجارب المطبعية، ويمكن للاثنين معا زيادة تحسين أداء النظام. وبما أن نتائج النموذج تؤثر على كمية البيانات وعدد التكرارات من هذا الموضوع، وبالتالي إدخال استنادا إلى هذه البيانات لكسب المزيد من التدريب، وتحسين أساليب التدريب، مثل إدخال التعلم الطلاقة، وآلية الاستدلال لتعزيز دقة معايرة النموذج.

4 خاتمة

في هذه الورقة، والصينية Seq2Seq نص نموذج تصحيح التجارب المطبعية وثنائي LSTM الكشف عن مجموعة من البيانات تصميم وبالكامل التحقق من أداء النموذج. وقدم جوهر النموذج حين أن وحدة ثنائية LSTM وآليات الاهتمام، التي أجريت مع هيكل Seq2Seq لشبكة دراسة الإحضار الصينية، واستكشاف العلاقة بين الكلمة والكلمة، وكأساس لتصحيح التجارب المطبعية النص الصيني. على الرغم من أن يرجع ذلك إلى كمية من التدريب، فإن النتائج لم يحقق أفضل النتائج، ولكن يمكن أن نرى أن النموذج لديه إمكانات كبيرة في مجال التدقيق النص الصيني، ويمكن توسيع تطبيقات أكثر الصينية في معالجة اللغة الطبيعية.

مراجع

 CHO K، B MERRIENBOER، GULCEHRE C.Learning عبارة التمثيل باستخدام RNN التشفير فك لآلة الإحصائية translation.Computer العلوم، 2014 (V1): 52-55.

 تشانغ يانغ سين، يو Shiwen ملخص النص الفني التدقيق اللغوي التلقائي تطبيقات الحاسوب بحوث، 2006 (6): 8-12.

 . لوه وى هوا، تظهر لوه زينشينج الصينية الدراسات البحثية النص التلقائي وتصحيح التجارب المطبعية تكنولوجيا الحاسوب، 2004،33 (1): 60-64.

 . طريقة المعايرة التلقائية ليو يانغليانغ تساو كعب الصينية "الأخطاء غير كلمة متعددة" علوم الحاسب الآلي، 2016 (10): 34-39.

 صقل شيه قانغ ملخص رسم الخرائط معرفة التكنولوجيا الالكترونية، 2018،44 (9): 29-38.

 DE FELICE R، S PULMAN G.A النهج القائم على المصنف لحرف الجر وتصحيح الخطأ determiner في L2 English.Proceeding المؤتمر الدولي 22 حول المؤتمر الدولي الحاسوبية Linguistics.COLING 200822، 2008: 167-176.

 وو يان، ولى Xiukun، ليو تينغ، الخ البحوث وتطبيق نظام تصحيح الصينية تلقائي من معهد هاربين للتكنولوجيا جورنال، 2001 (2): 60-64.

 تشن يونغ تشى، WU S H، يانغ Pingche، وآخرون al.Improve الكشف عن الأحرف الصينية تستخدم بشكل غير صحيح في طلاب المقالات مع الخطأ model.International مجلة التعليم المستمر والتعلم مدى الحياة هندسة 2012 (V1): 93-97.

 وو لين، وتشانغ يانغ سين النص القائم على قاعدة استكشاف المعرفة متعدد المستويات نموذج المنطق الصيني هندسة الحاسوب، 2012،38 (20): 21-25.

 ليو يانغ يانغ وانغ وانغ دونغ شنغ، والأخطاء النصية الأخرى في مجال الآلي طريقة اكتشاف نظام الرد الصينية تقنية المعلومات، 2013،27 (3): 77-83.

 تشانغ يانغ سين، تانغ الصينية Anjie طريقة التدقيق النص المجال السياسي الأخبار الصينية تقنية المعلومات، 2014،28 (6): 44-49.

 كلمة يونفى، لي يي لى، الشمس Huayan دراسة متعمقة من النظام توصية شخصية بناء على تطبيقات تكنولوجيا الشبكة العصبية الإلكترونية، 2019،45 (1): 14-18.

 TAN Y، ياو T، شيا Q، وآخرون al.Applying حقول عشوائية مشروطة لparsing.Proceedings الضحلة الصينية للClcling عام 2005، مكسيكو سيتي، 2005: 167-176.

 كودو T، YAMAMOTO K، ماتسوموتو Y.Applying حقول عشوائية مشروطة لالصرفية اليابانية analysis.Natural معالجة اللغات (Emnlp-2004)، برشلونة، 2004: 230-237.

 وانغ جي، تشياو شوان يي بينغ يان، وغيرها من دراسة متعمقة العاطفي على أساس تحليل وسائل الإعلام الأميركية، "على طول الطريق" للتكنولوجيا الالكترونيات الرأي العام، 2018،44 (11): 102-106.

 بان وو يان سيارة التلقائي تصحيح خوارزمية على أساس نص كلمة الصيني من جامعة ووهان للتكنولوجيا، 2009،31 (3): 18-20،28.

 PINTO D، مكلوم A، استخراج WEI X.Table باستخدام fields.26th عشوائي مشروطة ACM مكتب المفتش العام، كندا، 2003: 235-242.

 تشانغ يانغ سين، وجيا تشنغ الصينية طريقة دراسة النص للكشف عن الأخطاء الدلالية مجلة الحاسبات و 2017 (3): 63-68.

 زو G D، SU J.Named كيان الاعتراف باستخدام tagger.Proceedings قطعة القائم على HMM من 40 الاجتماع السنوي للACL'2002، فيلادلفيا، 2002: 473-480.

الكاتب المعلومات:

غونغ يونغ قانغ وو منغ، الموالية صغيرة غير مكلفة، Peichen تشن

(مفتاح مختبر تقنية البيانات الكبيرة، معهد بكين للالحاسوب وهندسة المعلومات، سلامة الأغذية والتكنولوجيا وجامعة بكين الأعمال، بكين 100048، الصين)

مخطط شعاع الأولي المتعلقة 5G غير متجانسة UAV الشبكة

دراسات 5G خطط البقاء UAV الطوارئ على أساس

عندما أصغر كلما كان ذلك أفضل

ثابت تحويل النسبة إلى تحسين كفاءة شبكة الطاقة

بحوث التكنولوجيا "أوراق" للاتصالات الطوارئ المتكاملة 5G حافة الانصهار

السكك الحديدية عالية الأداء SAR استقبال إشارة طريقة تقييم الأثر GNSS

كود مسح المترو الحافلة! يجب الانتباه إلى هذه التفاصيل

الاستماع! هذا هو صوت ووهان، والأكثر تتحرك اليوم!

مسح شفرة تتبع دقيق الركاب الاسم الحقيقي، يصطف الناس أكثر من 10 دفعات دون إطلاق سراحهم، لذلك تأكد من سلامة السيارة مترو الانفاق

"الوطن في نهاية المطاف"، ومحطة القطار الرئيسية الثلاثة عبر حد لأكثر من 200 مرة

واستؤنفت دونغفنغ هوندا ثلاثة مصانع | أطلس

ووهان مئات EMU هي على وشك أن "إعادة تعيين"