NLP البرنامج التعليمي: علامات POS، تحليل التبعية وتحليل الاعتراف كيان اسمه والتطبيق

مذكرة لى فنغ الشبكة: هذه المادة هي عبارة عن تجميع لللى فنغ ترجمات بلوق التكنولوجيا المجموعة، العنوان الأصلي للNLP المقدسة فهم جزء من الكلام الكلمات، التبعية توزيع، ويدعى كيان الاعتراف، مؤلف بيتر بومغارتنر !.

الترجمة | تاو تشنغ Sijie التشطيب | جيانغ فان

مقدمة موجزة

عندما نتحدث عن علم البيانات، فإننا كثيرا ما أفكر في التحليل الإحصائي للأرقام. ولكن في الواقع، أكثر شيوعا هو كمية كبيرة من البيانات النص غير منظم ولدت من قبل المنظمة، وتحتاج لهم أن يكون كميا وتحليلها. بعض الأمثلة من التعليقات الشبكة الاجتماعية، استعراض المنتجات، والبريد الإلكتروني، مشروع المقابلة.

من أجل تحليل النص والعلماء البيانات وغالبا ما تستخدم معالجة اللغة الطبيعية (NLP). في هذه المقالة، فإننا سوف تصف بالتفصيل ثلاث مهام NLP المشتركة، وكيفية استخدامها لتحليل النص. سوف نناقش ثلاث مهام هي:

  • علامات الكلام: ما هو جزء من خطاب الكلمة؟

  • تحليل التبعية: هذه الكلمة وغيرها من الكلمات في الجملة ما هي العلاقة؟

  • NER: ما إذا كانت الكلمة هي الاسم الصحيح؟

  • وسوف سبسي هذا مكتبة الثعبان لاستدعاء فوق ثلاث وظائف، وبالتالي فإن الدور الرئيسي للكتاب المقدس في التعدين، وتحليل سلوكهم. ثم، فإننا سوف محاولة للحصول على البيانات المهيكلة للقيام ببعض التصور مثيرة للاهتمام.

    عندما يكون لديك الكثير من المستندات النصية، يمكنك استخدام هذا الأسلوب لفهم ما هي الكيان الرئيسي الوثائق قد، حيث تظهر في الوثيقة، فعلوا. على سبيل المثال، DocumentCloud باستخدام طريقة مشابهة لهذه لتحقيق "عرض الكيانات" خيارات التحليل.

    الدخول وكلمة العلامات

    هل هناك طريقة لاستخراج معنى من النص تحليل فردي لكل كلمة. ويسمى قطع في إدخال النص من الكلمات، ويسمى كلمة حصلت دخول. علامات الترقيم هو أيضا مصطلح. الحكم على كل مصطلح له عدد من السمات، يمكننا تحليل هذا. ومن الأمثلة على ذلك الخطاب عبارة: الأسماء تدل على شخص أو مكان أو شيء، الأفعال العمل يعني حدوث أو الحدث، والصفات المستخدمة لوصف الأسماء. مع هذه الصفات، يمكنك الاعتماد بسهولة على مدى فترة من أكثر نص مشترك من الأسماء، والأفعال والصفات، لإنشاء نسخة من ملخص.

    استخدام سبسي، يمكننا أن نكون على شروط جزء من النص، مما أدى إلى سمات خطاب كل دخول. مع التعليمات البرمجية التالية كتطبيق سبيل المثال، كنا على دخول الفقرة السابقة، ومعظم الأسماء المشتركة والاعتماد على عدد منهم. وبالإضافة إلى ذلك، كنا جزءا من خطاب للحد من المدخلات، للحصول على الجذر من كل كلمة، موحدة الكلمات النموذج.

    تحليل التبعية

    هناك علاقة معينة بين الكلمات، حيث هناك العديد من الأنواع الشائعة. على سبيل المثال، يمكن استخدامه كاسم في حكم هذا الموضوع، لأداء إجراء (فعل)، و"ضحك جيل." يمكن أن تستخدم اسما في جملة من وجوه، وعملها يكون موضوع النفوذ، مثل حكم جون: "ضحك جيل في جون."

    وهي طريقة الجمل إعراب المشترك بين التبعية في فهم العلاقة بين الكلمات. "ضحك جيل في جون." الحكم هناك ولايتين جيل وجون. جيل هو الموضوع، ويمثل هذا العمل من الناس يضحكون، ولكن جون هو الكائن الذي يمثل الناس يسخرون من. تبعيات على الخصائص الدقيقة، ويمكن استخدامها لفهم العلاقة بين الكلمات في الجملة.

    يمكن تنظيم العلاقة بين الكلمات والجمل تصبح معقدة جدا. تحليل تبعية الأحكام، وما نتج عن ذلك الجذور الفعل بنية بيانات شجرة.

    دعونا ننظر تحليل تبعية هذه الجملة: "الثعلب البني السريع يقفز فوق الكلب الكسول."

    الاعتماد هو سمة دخول. يوفر سبسي مجموعة من API، يمكن أن تساعدنا على مختلف دخول خصائص. ونحن هنا سوف طباعة النص مع الترابط بين دخول مختلف النص، دخول ودخول الأم (الإدخال الأول) من.

    لمزيد من التحليل، نحن بحاجة إلى إيلاء الاهتمام لهذه الإدخالات مع nsubj العلاقة، الأمر الذي يعني أنها هي موضوع الحكم. في هذه الحالة، يعني أننا في حاجة إلى عبارة "الثعلب" تسجيل.

    الاعتراف كيان اسمه

    والخطوة الأخيرة هي اعتراف الكيان المسمى. كيان اسمه هو الاسم الصحيح في الجملة. تم الكمبيوتر معترف بها تماما الكيانات الجملة الكشف عن اسمه، في واقع الأمر، للتمييز بين نوع.

    يدعى سبسي اعتراف الكيان في مستوى الدرجة الوثيقة. وذلك لأن اسم كيان قد تمتد عدة سفرات. وتتميز كل دخول كجزء من الكيان، وفقا لتجسيد معين قواعد IOB العلامة، مقسمة، والكيانات الداخلية والكيانات الخارجية تبدأ الكيان.

    في التعليمة البرمجية التالية، ونحن نستخدم docs.ents وظائف مستوى المستند لطباعة جميع الكيانات اسمه. ثم، فإننا طباعة كل دخول، والمعهد المصرفي علامات نوع كيان وينتمي (إذا كان الإدخال جزءا كيان منه).

    1. نحن نستخدم: "جيل ضحك على جون جونسون".

    مثال على التطبيق العملي: الكتاب المقدس معالجة اللغة الطبيعية

    طرق استخدام الآثار المذكورة أعلاه كلها جيدة جدا. ومع ذلك، فإن القوة الحقيقية للNLP هو أن نتمكن من الجمع بين هذه الطرق لاستخراج المعلومات تمشيا مع نموذج لغة. يمكننا استخدام علامات الخطاب، والتعرف على كيان اسمه وتحليل التبعية لفرز جميع الأدوار وسلوك عدد كبير من يظهر النص. وبالنظر إلى عدد كبير من الشخصيات وطول الكتاب المقدس المذكورة، بل هو خير مثال على تطبيق هذه الأساليب.

    في البيانات التي المستوردة، كل كائن هو قطعة من آيات الكتاب المقدس. يستخدم النص إلى مؤشر القسم محددة من الكتاب المقدس، وهي عادة ما تتكون وافر من الجمل أو النص. وسوف تجتاز كل مرور، موضوع الذي يتم استخراجه لتحديد ما إذا كان اسم الشخص، واستخراج سلوك الشخص.

    أولا، نحن تحميل شكل سلمان الكتاب المقدس من مستودع جيثب. ثم، لكل مرور النص المستخرج، وذلك باستخدام لها علامات الاعتماد سبسي الكلام والتحليل، ونتيجة التحليل المخزنة.

    سنقوم تحليل النص من شكل سلمان وتخزينها verse_docs هذا المتغير، والذي يستغرق حوالي ثلاث دقائق، أي بمعدل قسم معالجة ثانية واحدة 160 الآيات. كمرجع، يمكننا أن ننظر في bible_json الأسطر الثلاثة الأولى.

    استخدام دخول سمة

    من أجل انتزاع الأدوار والسلوك ذات الصلة، ونحن في حاجة إلى كل الإدخالات في كل مرور لاجتياز، والنظر في ثلاثة عوامل.

    1) ما إذا كان هذا الدخول هو موضوع الحكم (وهذا هو، لمعرفة ما إذا تبعياته هي nsubj)؛

    2) دخول حيث الأم ما إذا كان الفعل (يجب أن يكون الفعل في ظل الظروف العادية، ولكن في بعض الأحيان علامات الكلام وتحليل التبعية لتسوية النزاعات، ونحن لا تزال حذرة قليلا منه. بالطبع أنا لست لغويا، ولذلك فإن هذا قد هناك شيء غريب في المثال المتطرف)؛

    3) ما إذا كان هذا الدخول هو الرجوع إلى الشعب اسمه الكيانات، ونحن لا نريد الأحرف إلى استخراج الأسماء غير (على البساطة، ونحن استخراج سوى جزء من اسم كل دور).

    إذا كان هناك إدخالات تلبية الشروط الثلاثة المذكورة أعلاه، فإننا سوف أنه جمع السمات التالية.

    1) كيان إدخال النص إسم ممثلة.

    2) مجموعة من الأسماء النص والأفعال (أي العبارات).

    3) الأفعال المرتبطة بها.

    4) يظهر الفعل في النص الانكليزي القياسي في احتمال سجل (باستخدام احتمال لوغاريتمي في كثير من الأحيان بسبب احتمال هذه القيمة ستكون صغيرة جدا).

    5) عدد القطع النص.

    تحليل

    لدينا استخراج جميع الشخصيات وتصرفاتهم، وتخزينها في شكل قائمة. نحن القيام بتحليل سريع، وحساب التاليين.

    1) كل شخص لمعرفة السلوك الأكثر شيوعا (فعل).

    ......

    تريد مواصلة القراءة، يرجى الانتقال إلى مجتمعنا AI Yanxishe: الشبكي: //club.leiphone.com/page/TextTranslation/848

    المزيد من المحتوى المثير لجعل AI Yanxishe.

    مختلف المجالات بما في ذلك رؤية الكمبيوتر، ودلالات الكلام، سلسلة كتلة، الطيار الآلي، واستخراج البيانات، التحكم الذكي، لغات البرمجة وغيرها تحديثها يوميا.

    شبكة لى فنغ (عدد الجمهور: لى فنغ شبكة) شبكة لى فنغ

    ملك المجد S6 مطلق النار بطل تعادل على المركز الاول الترتيب Shangxiang

    ستيفن تشو "الملك الجديد من الكوميديا" الحوار الآلاف من الناس، "أنا أؤيد لكم" إرسال مقاطع السنة الصينية الجديدة خلاقة "العمل الشاق"

    H20 آلة الغسيل الذكي صوت وانغ يي نقطة جيدة: التحكم الصوتي ذكية من تجفيف الذكية تجربة الترقية الشاملة

    جامعة تسينغهوا، وانغ يولونغ: كيف نفهم سلوك الشبكة عن طريق مسار البيانات الرئيسية؟ | AI Yanxishe 62 محاضرة

    المستهلك استخدام بارومتر، خطوة واحدة في التسويق المحمول!

    بابي عودة قوية بعد مرور سبع سنوات لإعادة احتلال مكان في لوس انجليس!

    المدافع الرشاشة والمدفعية مزيج مثالي! وبان السابع المهارات القتالية

    تقديم الأجهزة إدارة تطوير المنتجات الذكية، كنت بحاجة لمعرفة هذه الخطوات العشر!

    سيغراف 2018: VR بارد؟ يتجول المعرض تعلمون

    تألق كيت وينسلت لأول مرة للانضمام إلى HBO الكشف عن الدراما الحد الدراما القتل

    المال لا يشتري! موجة كبيرة من لويس فويتون مخصص للتسوق تدفق "اللقطات"!

    يعلمك كيفية الحصول بسرعة صندوق بريد العميل دقيق، التقليب بشكل فعال العملاء المحتملين