ما يكون NLP مجال طرق البحث النص تلخيص؟

وقال كثير من الناس أن الفهم الدلالي الحقيقي للنص اللغة البشرية أن تكون الكأس المقدسة من معالجة اللغات الطبيعية (NLP) - هذه الجملة ليست من قبيل المبالغة. للأسف، لغة الإنسان مباشرة "تفاهم" وليس الاعتماد فقط على ملخص النص.

ومع ذلك، يجب أن تستمر تحليلنا. وهناك عدد من التقنيات العملية لتلخيص النص، وبعضها يرجع تاريخها عقود الظهر. توضح هذه المقالة الطرق الرئيسية المستخدمة في ملخص النص ومناقشة خصائصها.

تلخيص نص تلقائي

على وجه التحديد، عندما يتعلق الأمر ب "تلخيص النص التلقائي"، فإننا نعني عن طريق استخدام الجهاز، ونوع من أساليب الكشف عن مجريات الأمور أو إحصائية لهضم في واحد أو أكثر من نسخة من الوثيقة. في هذه الحالة، فإن ملخص هو نص المذكرة التي بدقة التقاط ونقل معظم المعلومات الهامة وذات الصلة حول وثيقة نريد الهضم يحتوي. وثبت مختلف التلقائي التكنولوجيا تلخيص نص نستخدمها حاليا، وأثر كثير منها.

هناك عدة طرق لتصنيف تقنية التلقائي تلخيص النص، كما هو مبين في الشكل. وهذه الورقة استكشاف إخراج ملخص في زاوية من هذه التقنيات. وفي هذا الصدد هناك نوعان من التكنولوجيا: أسلوب القابلة للإزالة ومجردة.

وهناك طريقة لأوتوماتيكي FIG تلخيص النص.

قابل للإزالة طريقة تلخيص النص: تحديد من الخطاب أو استخراج الأحكام الهامة، ونسخة حرفية، كجزء من التلخيص. لا يولد النص الجديد، فقط استخدام النص الموجود في عملية التلخيص.

نمط مجردة طريقة تلخيص النص: لغة طبيعية أكثر قوة معالجة تقنيات لتفسير النص وتوليد نص ملخص جديد، بدلا من اختيار معظم مقتطفات تمثيلية من القائمة الهضم.

على الرغم من أن كلتا الطريقتين هي وسيلة فعالة لنص موجز، ولكن التكنولوجيا مجردة من الصعب تحقيقه. في الواقع، وتستند معظم الطرق القابلة للإزالة إجراءات موجزة. هذا لا ينبغي عدم تجاهل نهج مجردة لا يعني، على العكس من ذلك، فإن أساليب لدراسة - ولغة الإنسان الحقيقية فهم الدلالي - هو السعي شيء يستحق.

وفقا لذلك، وتركز ما تبقى من هذه الورقة على محتوى النص المقتبس محددة قابلة للإزالة والتكنولوجيا المختلفة تجسيد لها.

قابل للنقل دايجست

الفن التجريدي القابلة للإزالة تختلف، ولكنها جميعا لها نفس المهام الأساسية:

1. إنشاء تمثيل الوسيط لإدخال النص (نص لتكون مجردة)

2. استعراض المتوسطة تمثيل الجمل بناء

3. ملخص تنتخبهم أهمية السابقة الجملة ك الترتيب

المهام 2 و 3 هو بسيط جدا: عشرات في الجملة، لدينا لتحديد إلى أي مدى كل ينقل الجملة جانبا هاما من جوانب النص موجز، ويستخدم الجملة لتحديد الطرق الأمثل محددة لتنفيذه. الخوارزمية من هذه الخطوات هما مختلفة، ولكن المفاهيم من السهل أن نفهم - يسجل لكل جملة وفقا لبعض المقاييس، ومن أعلى الجمل التهديف عن طريق رقم عقوبة طريقة اختيار واضحة المعالم.

فإن المهمة الأولى هي تمثيل وسيط يمكن بمزيد من التفصيل.

تمثيل وسيط

قبل التهديف الجملة واختيار ضرورة إعطاء الشعور اللغة الطبيعية، من أجل تحقيق ذلك، نحن بحاجة إلى وضع بعض التمثيل وسيطة للكل جملة. وفيما يلي تعريف موجز من الفئتين الرئيسيتين المتوسطة تمثل موضوعات مؤشرات التمثيل والتمثيل، وكذلك الفئات الفرعية الخاصة بهم.

موضوع هو - لتحديد موضوع النص ركز تحويل النص؛ وتشمل الفئات الفرعية الرئيسية لهذا الأسلوب:

تكرار أسلوب القيادة

طريقة في MeSH

الكامنة التحليل الدلالي (LSA) (https://en.wikipedia.org/wiki/Latent_semantic_analysis)

النظرية الافتراضية نموذج موضوع - مثل المحتملين تخصيص ديريتشليت (LDA) (https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)

الطرق هما الاكثر شعبية هي كلمة تردد احتمالات كلمة وTF-الجيش الإسرائيلي (https://en.wikipedia.org/wiki/TfE28093idf).

في طريقة الكلمات الرئيسية، وهناك طريقتان لحساب أهمية الجملة: نسبة عدد المواضيع وعدد النص (عدد الموضوعات التي تمت مناقشتها في الجملة) من خلال موضوع النظر عن أنه يحتوي على التوقيع، أو الموضوع الوارد المسألة في الجملة الواردة. وهكذا، على فئة الأولى تميل جمل أطول، والنوع الثاني هو لقياس كثافة الكلمات الرئيسية.

الكامنة التحليل الدلالي وتفسير موضوع النظرية الافتراضية نهج نموذج (مثل LDA) ليست في نطاق هذه المقالة، ولكن يمكنك أن ترى في الرابط أعلاه.

FIG شيدت متجهين ميزة حقيبة من الكلمات

المؤشرات تمثل - لتحويل النص في كل جملة هي قائمة سمة هامة، ويمكن أن تشمل مهامها:

طول الجملة

موقف الجملة

تحتوي على الجملة (مثال ذلك ميزة طريقة استخراج، انظر الشكل 2، كيس من الكلمات (https://en.wikipedia.org/wiki/Bag-of-words_model)) كلمات محددة

إذا كان يحتوي على الجملة عبارة محددة

باستخدام مجموعة من الميزات لتمثيل البيانات النص وفرزها، قد يتم تنفيذ باستخدام إحدى الطرق المشار اليهما الممثلة عموما: طرق الرسم وطرق تعلم الآلة.

التمثيل البياني:

لقد وجدنا أن يمثل شبه الرسم البياني الموضوع الأخير المشمولة بهذه المادة.

ونحن قادرون على فصل الجملة الهامة في النص، لأن هذه الأحكام سوف تكون أكثر متصلة الجمل الأخرى (إذا كنت سوف يعامل على الجملة قمة الرأس ويتم التعبير عن التشابه الجملة على النحو الحواف).

نحن لسنا بحاجة إلى التفكير في التعامل مع لغة معينة، يمكن تطبيق طريقة لمجموعة متنوعة من اللغات.

نحن في كثير من الأحيان نجد أن المعلومات الدلالي من خلال التشابه الجملة الرسومية التي تم الحصول عليها أكثر من طريقة بسيطة لتحسين ملخص أداء تردد.

باستخدام آلة التعلم، وقال:

ملاحظات على غرار المشكلة باعتبارها مشكلة تصنيف

من أجل أن تصنف على أنها جمل موجزة أو الجملة ملخص الجملة، ونحن بحاجة للاحتفال بيانات التدريب وبناء المصنف

بديل التعلم شبه إشراف على حل بعض البيانات المشاكل علامة

لقد وجدنا أن بعض تبعيات الحكم الافتراضات بين الطرق في كثير من الأحيان من التقنيات الأخرى

تلخيص النص دون الانضباط هو معالجة اللغة الطبيعية مثيرة. على الرغم من أن الناس يستخدمون مجموعة متنوعة من ملخص ودراسة طرق كل يوم، ولكن على أساس فهم مفهوم ما سبق، يجب أن تكون قادرا على فهم العملية من هذه الأساليب، على الأقل على مستوى عال جدا.

مفصل الرمز: البناء ANN مع اللغة وR البصرية

أول من إنشاء لقطة حقيقية شيفروليه قطاع سيارات الدفع الرباعي المدمجة ريدلاين يضيف ريجي

موتورولا أن تكون عودة قوية؟ نشر الجهاز الجديد لعام 1999 يوان فقط

دائرة من الأصدقاء على خط الميزات الجديدة! يجب علينا إعطاء الآباء أوصى ......

الدوري الاميركي للمحترفين لاعبين حصادات، من كارداشيان الأسرة ثروة الحديث

فيفو نيكس + هواوي P20Pro، أول خمسة هواتف الكاميرا حتى من الشركات المصنعة المحلية الصغيرة

اسم ريغا "PLUS" أنا لن تعترف؟ هذا ... ما هذا؟

91800 فصاعدا! SAIC تشيس دفع MPV الجديد: حتى 5 مقعد تخطيط اختياري

شاشة الهاتف الخليوي لمكلفة جدا؟ ! الحقيقة هي سرية على تجنب حساب!

تعرف تشجيانغ | تحليل شاندونغ ون النجاح كلمة السر: على وجه الخصوص، يمكن أن تتعلم الابتكار في مجال الطاقة خاصة

أغسطس، هواتف أندرويد الثناء الترتيب، سامسونج بالفعل اجتاحت المراكز الثلاثة اثني عشر

250000 يوان كروس أوفر للاحتفال تسلا؟ بو مقاطعة iV625-35 عشرة آلاف يوان الدعم قبل البيع