"أوراق"، وهي تسمية كيان طريقة الاعتراف للنص ويبو

NER (الاسم الكيان الاعتراف) يشير إلى الكيانات المختلفة في النص المعترف بها، مثل أسماء، أسماء، أسماء أو غيرها من وسائل تعريف فريد هو NLP (المعالجة الطبيعية للغة، NLP) هو مهم جدا التكنولوجيا الأساسية. في السنوات الأخيرة، وضعت تويتر، سينا ويبو وغيرها من منصة الشبكات الاجتماعية الجديدة سرعان ما تصبح اتجاه جديد من NER. RITTER A وآخرون، يتم تطبيق صمم نظام T-NER على تويتر، أعيد بناؤه يدعى كيان عملية الاعتراف. TURIAN J وآخرون. لنظام التعرف على كيان اسمه باستخدام شبه أشرف، والحد بشكل كبير من تكلفة الاعتراف. ليو شياو هوا آخرون في إطار شبه خاضع للإشراف وK الجمع بين CRF لتحديد اسمه الكيانات تويتر، حققت نتائج جيدة.

بناء على العمل أعلاه هو التغريد، لا نعتبر الدلالات العميقة الصينية، والمزيد من استخدام مجموعة البيانات التي يتم بناؤها ذاتيا محدودا، لم تنظر في التكلفة وعدم وجود علامات اصطناعية، وبالتالي يحتاج إلى تحسين. في هذه الورقة، واسمه الاعتراف كيان لتدوين الصينية، انها لن تعترف كمشكلة تسلسل العلامات من خلال تحسين خوارزمية الأمثل على أساس احتمالي تأثير الاعتراف النموذج. ويبو نص قصيرة، أقل من المعلومات وأسلوب غير الرسمي، من خصائص غامضة، وإدخال مصادر البيانات الخارجية لاستخراج ملامح الدلالات العميقة، لمجموعات البيانات الكبيرة المدونات الصغيرة اليدوية قضية تكاليف التجهيز، وإدخال خوارزميات التعلم النشط لدليل أصغر النظر تعزيز تأثير الاعتراف.

1 تويتر عن اسمه كيان طريقة الاعتراف

CoNLL2003 تم تسمية المعيار المرجعي، نظرا لالصغرى بلوق، والتي تحتاج لتحديد الأسماء والأماكن والمنظمات والكيانات الأخرى الدرجة كيان 4 .

دراسة نموذج القاعدة باستخدام CRF نموذج.

1.1 ميزة الاختيار

الملامح الأساسية لهذا الاستخدام الحالي للكلمات ميزة كلمة كلمة ونوع ومكان قبل وبعد الكلمة، وهو سيعتمد على معظم نموذج CRF مميزة. توليد بالتالي نموذج كأساس لهذا النموذج، الموافق النتائج التجريبية كأساس.

1.1.1 الميزات الموضوع

(الكامنة ديريتشليت تخصيص، LDA) نموذج هو غير خاضعة للرقابة احتمالي نموذج الموضوع. تحت كل موضوع يتم توزيعها في وجود احتمال كبير تظهر الكلمات، هذه الكلمات لها علاقة قوية مع هذا الموضوع، واستخدام ذات الصلة الأداء حل هذه تعدد المعاني والمترادفات وغيرها من القضايا إلى حد ما. تدريب الاستخدامات نموذج مصدر بيانات خارجي، يمكنك تحديد مقدما عددا من الموضوعات ك.

بعد الحصول على نموذج LDA، لموضوع ك قدمها ص (ث | ر)، وسيتم التعامل مع كل موضوع كسمة، سوف ينظر كل كلمة كمجموعة التدريب التمثيل ناقلات K-الأبعاد من ميزة ك، ويمكن التعبير عن كل كلمة كناقل-ك الأبعاد، وهي:

حيث والسادس لط عشر كلمة ناقلات، يمثل k كلمة حق على وزن ك ال الموضوع، N كونها حجم المفردات.

1.1.2 كلمة ناقلات ميزة

الكلمات المشتقة من ناقلات الموزعة التمثيل HINTON G E المقترحة. كلمة أداة تدريب ناقلات الشعبية هي word2vec، التي اقترحها MIKOLOV T في عام 2013. يمكن تعيين كلمة word2vec إلى الفضاء ناقلات د الأبعاد، والتي تدل على تشابه الفضاء ناقلات تشابه النص على دلالات، والمساعدة تدوين الدلالات حل المشكلة الغموض.

كلمة ناقلات البعد عموما 200-500، إذا تم عرض ناقلات ميزة كلمة كنموذج للCRF مباشرة، وحساب المفرط. هنا هو الحاجة إلى استخدام تشابهها، وبالتالي يمكن تبسيط طريقة التجميع. تجارب لتحديد الكلمات ممثلة ناقلات المدى 200-500 الأبعاد، ومن ثم استخدام وسائل-ك تجميع، والطبقات ميزة كمدخل للنموذج. ومن الجدير بالذكر هو أنه بالمقارنة مع النتائج التجميع واحدة، والنهج الأفضل هو تجميع متعددة الطبقات (العنقودية متعددة الطبقات).

1.2 نموذج تعزيز

المعالجة اليدوية تدوين الإحضار تكلفة المعالجة اليدوية من أجل الحصول على أقصى قدر من الأداء النظام مع زيادة تكاليف العمالة الحد الأدنى، واستخدمت الدراسة خوارزميات التعلم النشط. تتكون خوارزمية التعلم النشط من جزأين، وتصنف واحدة، والآخر هو استراتيجية أخذ العينات . CRF المصنف باستخدام نموذج تعديل الموصوفة سابقا. يجوز توظيف أخذ العينات طريقة الاستراتيجية.

أخذ العينات عدم اليقين هو مقياس مشترك للمحتوى المعلومات من العينات، في تسلسل العلامات نموذج، يمكن تحديد حالة عدم اليقين أخذ العينات على أساس الحد الأدنى من الثقة (أقل ثقة) LC (خ).

حيث، يمثل x عينة، ص * هو أكبر احتمال المقابلة لعلامة. لCRF التدريب جيدة نموذج، قد يكون احتمال المقابلة الانتاج في حين أن كل الصغرى بلوق العلامات P. الآن يعطي الإطار الخوارزمية.

خوارزمية 1: نشاطات التعلم خوارزميات تقوم على الثقة

الإدخال: تميز الإحضار DL، DU الإحضار الخالي من الملصقات

الإخراج: المصنف C

يتم تدريب DL المصنف مع C (CRF المصنف)

أكرر:

تجربة 2

تستخدم التجربة ثلاث مجموعات البيانات، وهي مجموعة التدريب، ومجموعة موسعة ومجموعة الاختبار. حيث علامة شريط 3000 باسم الإحضار تدريب مجموعة، الإحضار شريط علامة 2000 مجموعة الاختبار. إضافية 2 امتدادا ضبط 000 للتعلم النشط، أي تسميات. آخر 5 مليون دينار من خلال المدونات الصغيرة بالإضافة إلى إلغاء الضوضاء الثقيل كمصدر خارجي، على التوالي، لتدريب نموذج LDA والتدريب نموذج كلمة متجه لاستخراج ميزة استخدام الخارجي.

2.1 معايير التقييم

معايير التقييم المستخدمة في هذه الوثيقة تشمل دقة P (الدقة)، ومعدل استدعاء R (استدعاء) وF1 قيمة (F1-مقياس) 3 مؤشرات. F1 هو الوسط التوافقي لأسعار دقة ومراجعة، بل هو مؤشر شامل.

2.2 البيانات وتحليلها التجريبية

(1) يتميز باستخدام مجموعة التدريب أساس مستخرج، وأساس للنمذجة وتقييمها على مجموعة الاختبار. وتظهر النتائج في الجدول 1. وسوف تستخدم هذه النتيجة وعلى سبيل المقارنة خط الأساس مع التجارب اللاحقة.

(2) مقدمة من الخصائص الخارجية للتعددية مجموعات من التجارب. FIG. 1 هو الجانب الأيسر لتعزيز تأثير إدخال ميزة الموضوع، على الرغم من فعالية ولكن ليس واضحا. FIG 1 هو الآثار الجانبية اليمنى كما أدخلت على نموذج بعد ناقلات ميزة كلمة تتجمع 400 البعد. قيمة F1 في 400 وبلغ عدد التجمعات 63.96، وتحسنت بشكل ملحوظ مقارنة مع خط الأساس. والسبب هو أساسا مكونات ناقلات كلمة ينطوي على جملة غنية ودلالات المعلومات السياق، يستخدم LDA نموذج داخلي كيس من الكلمات نموذج يعتبر فقط العلاقة بين زملاء حدوث كلمة دون النظر إلى السياق، وهذا النموذج المبسط ولكن حتما جلب فقدان المعلومات.

النتائج HIBERARCHY التجريبية هو مبين في الشكل 2، الركن الأمامي من FIG. 4 يمثل تأثير كل المجموعات بعد واحد (200، 300، على التوالي، وتتجمع في مجموعات الطبقات)، يمثل آخر استخدام أول تأثير أربعة التجميع بمثابة تجمع متعدد الطبقات، على ما يبدو أفضل من كتلة واحدة.

إضافة أي ميزات الخارجية لتجربة نموذجية الأساسية، لتحسين قيمة F165.41.

(3) استخدام أساليب التعلم النشط لتعزيز النموذج. تعزيز تأثير كما هو مبين في الشكل. بيانات مفصلة في الجدول 2. يمثل منحنى Model_ba فقط الشكل الخارجي للنموذج دون تأثير التعلم النشط. يمثل الرسم البياني Model_la كل الإحضار التدريب المتاح تضم مجموعة من DL وDU، بما في ذلك توسيع مجموعات وصفت (تسمية كل) وتستخدم للتدريب نموذج. Model_al1، Model_al2 وmodel_al3 هو استخدام استراتيجيات التعلم النشط ولكن نموذج عتبة مختلفة. وعموما، أيا كان عتبة على أن تتخذ، لا تأخذ زمام المبادرة لتعلم مقارنة مع التعلم النشط يمكن أن تعزز قيمة F1، والتقارب السريع.

ويوضح الجدول 2 كذلك مزايا التعلم النشط. Model_la ضرورة علامة المدونات الصغيرة 2080 الشرائط، وحوالي 90،000 الكلمات، والثمن هو الاصطناعي أيضا. في المقابل، يمكن للنموذج ثلاثي التعلم النشط الحد بشكل كبير من كمية علامة الاصطناعية. F1 قيمة Model_al2 وهو أعلى من Model_al30.25، وكمية التسمية تحسن فقط 12.9، في حين مقارنة Model_al1 مع Model_al2، F1 فقط تعزيز قيمة 0.1، ولكن ثمن هو تعزيز كمية من 17، وأكثر من التكرار مرات. معا، واتخاذ Model_al2 إلى نتائج نهائية. في هذا الوقت، الأرقام فقط 457 الصغرى بلوق، حوالي 37،000 علامات، وصلت قيمة فلوريدا 67.23، بالمقارنة مع النموذج الأصلي وتعزيز 4.54.

3 الخاتمة

في هذه الورقة، واسمه كيان طريقة تقديرا لتدوين الصينية، أولا لإدخال الميزات الخارجية للنموذج CRF التدريب، ثم استخدام نتائج التدريب المكثف النشطة خوارزمية التعلم. العمل الفعلي الذي الكلمة الصينية غير فعالة تؤثر على أعمال المتابعة، وإدخال التعلم النشط لا يزال العلامة الثانية، لا يفضي إلى المهام الاعتراف على نطاق واسع. هذه الحاجة إلى تحسين في العمل مستقبلا.

لا أقول "إله الطب،" هو النسخة الصينية من "نادي دالاس المشترين" ل

كيف الشعبي الجماعات لا، وكيفية قيادة الأيديولوجية والسياسية طلاب الجامعات؟ هذه المعلومات البحثية لاقول لكم

كيف 'الصورة الدفتري "عالية الدقة كلمة الإكتشاف على المعالج اللحاء-M

فاز SF الأولى اللوجستية رحلة UAV الصين حق، الوزارة ان: ابتداء من اليوم الهواتف مثبتة مسبقا يجب إلغاء تثبيت التطبيق | صباح لى فنغ

نص الكيان الاعتراف الموجهة اسمه تويتر

الألمانية العليا وادي شياو فنغ: عالية الدقة خريطة القيادة التلقائي هو السبيل الوحيد | سيارات المستقبل قاعة

"جراد البحر الانتربول" يوان شانشان تجسد هيت لأول شريك الوقت نعمة وانغ شريك تفسير حار

الأبحاث والأدوات لكيو تي طريقة PLC اختبار مستوى مجلس الإدارة القائم

أكاديمي من ست مجموعات Qigao ون وغيرها AI 2.0 الندوات والأكاديمية دانيال الذي قال ماذا؟ | 2017 مؤتمر المخابرات العالمية

العادية الفتاة الرومانسية، وقالت انها هي الجواب القياسية

تحولت ما متاجر التجزئة بدون طيار خارج! عليك أن تعرف هذه

جائزة فنغ وون الفيلم الأميركي الإنجاز مدى الحياة، ويعامل الحديث عن "الشباب"