استخراج النص القائم بيثون التلقائي: طريقة توليد مجردة وطريقة

هذا المقال هو عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي: تلخيص نص في بيثون: مقابل الاستخراجية تقنيات تلخيصي إعادة النظر

الترجمة | تيان Dongwen، والانتهاء من السادس والعشرين | جيانغ فان

الرابط الأصلي: الشبكي: //rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/

هذا بلوق هو ملخص موجز للنص، ويمكن تلخيصها على النحو الممارسة الحالية في هذا المجال. ويصف لنا (فريق نادرة خطة فتحة لثلاثة طلاب) كيف قامت خوارزميات وأدوات بيثون لإجراء التجارب القائمة في هذا المجال.

تتم مقارنة طرقنا القائمة استخراج (الاستخراجية) (على سبيل المثال LexRank، LSA، Luhn وGensim TextRank التقليدية وحدة ملخص) التي تحتوي على 51 Opinosis مجموعات البيانات الصفحة. ونحن نحاول أيضا إلى نص تلخيص خوارزمية Tensorflow من الفن التجريدي (تلخيصي)، ولكن بسبب متطلبات الأجهزة العالية (7000 ساعات GPU، $ 30K سحابة الائتمان)، وبالتالي لا يمكن الحصول على نتيجة جيدة.

لماذا ملخص النص؟

مع دفع الإخطارات وملخصات المادة كسب المزيد والمزيد من الطلب على توليد نص طويل ملخص ذكي ودقيق للمشاكل البحثية والصناعية أصبحت شعبية.

ملخص النص، هناك طريقتين أساسيتين: استخراج والتجريد. لإنشاء ملخص استخراج الكلمات والعبارات كلمة الأولى من النص الأصلي. هذا الأخير أعرب لتوليد تعلم اللغة الداخلي هو أشبه ملخص للبشرية، لشرح القصد من النص الأصلي.

ملخص النص، هناك طريقتين أساسيتين: استخراج والتجريد.

ملخص نص مقتطف

أولا، وصفا موجزا لبعض من شعبية نص قائم هضم خوارزمية والتنفيذ:

ملخص نص Gensim

وحدة gensim.summarization الأدوات TextRank، وهي ورقة Mihalcea وآخرون. خوارزمية غير خاضعة للرقابة بناء على الرسم البياني مرجح. كما أضاف طالب آخر حاضنة Olavur مورتنسن لبلوق - لرؤيته في المقال السابق على هذا بلوق. لأنه يقوم على خوارزمية جوجل الموقع الشعبية لترتيب صفحات الويب على. يعمل TextRank على النحو التالي:

  • النص المعالجة: حذف المحطة كلمة وجعل ما تبقى للكلمة.

  • خلق الجملة كخريطة القمم.

  • كل جملة متصلة مع بعضها البعض عن طريق الأحكام الحافة. وزن حافة هو درجة التشابه في جملتين.

  • الموقع خوارزمية تعمل على الرسم البياني.

  • اختر القمم (العقوبة) وجود أعلى درجة تصنيف الصفحة

  • في TextRank الأصلي، على الجانب الأيمن بين الاثنين هو يبدو أن نسبة الأحكام الثقيلة في اثنين من الكلمات في الجملة. استخدام Gensim من TextRank وظيفة أوكابي BM25 لرؤية الجمل كيف مماثلة. أن ذلك يعد تحسنا ورقة باريوس وآخرون.

    PyTeaser

    PyTeaser هو تنفيذ مشروع TextTeaser سكالا من بيثون، بل هو أسلوب ارشادي لاستخراج ملخص النص.

    سوف يسجل TextTeaser يرتبط كل جملة مع. يتم استخراج هذا جزء من هذه الجملة خطي مزيج من الميزات. TextTeaser الخصائص التالية:

    titleFeature: عنوان الوثيقة وعدد جملة من الكلمات المشتركة.

    sentenceLength: TextTeaser يعرف ثابت "المثالي" (القيمة 20)، الذي يمثل طول المثل الأعلى للملخص لتمثيل الكلمات. sentenceLength محسوبة على مسافة طبيعية بعيدا عن هذه القيمة.

    sentencePosition: توحيد عدد من الجمل (الجمل موقف في القائمة).

    keywordFrequency: تردد المدى (بعد إزالة كلمات التوقف) كيس من الكلمات نموذج.

    لمزيد من المعلومات حول ملخص الحكم الخصائص، انظر Jagadeesh وآخرون، على أساس واحد استخراج وثيقة الجملة الموجزة.

    PyTextRank

    PyTextRank هو الأصلي تنفيذ TextRank الثعبان خوارزمية لديها العديد من التحسينات، مثل استخدام هيكل كلمة شكل بدلا من الساق، تصنيف أقسام الكلام وقرار كيان اسمه، ومقتطفات العبارات الرئيسية من هذه المادة بناء على استخراج وملخص الأحكام الصادرة بحقهم. بالإضافة إلى ملخص لهذه المادة، PyTextRank أيضا استخراج العبارة الرئيسية ذات مغزى من هذه المادة. PyTextRank أربع مراحل العمل، كل مرحلة توفر يبلغ حجم انتاجها الى المرحلة التالية:

  • في المرحلة الأولى، وتنفيذ العلامات الكلام وlemmatization كل جملة في المستند.

  • في المرحلة الثانية، يتم استخراج العد من عبارات مفتاح معا، وتطبيع.

  • يتم احتساب نقاط لكل العقوبة المسافة التقريبية بين العبارات مفتاح JACCARD والجمل.

  • ووفقا للوثيقة يلخص معظم الأحكام الهامة والعبارات الرئيسية.

  • خوارزمية Luhn

    الخوارزمية نشرت في عام 1958، في كثير من الأحيان مع الأخذ بعين الاعتبار وثيقة "مهمة" نظرا لبعد المسافة الخطية بين الكلمات وغير الكلمات مع هذه الكلمات المهمة، لجمل موجزة استخراج المرتبة.

    LexRank

    LexRank هو TextRank طريقة بيانية غير خاضعة للرقابة مشابه. تستخدم LexRank الجيش الإسرائيلي كإجراء جيب التمام التشابه معدلة بين الجملتين. على الحافة اليمنى من نمط إلى درجة التشابه بين الوزن جملتين. يستخدم LexRank أيضا ذكية خطوات تجهيز آخر لضمان كخيار أعلى ملخص الجملة ليست مماثلة لبعضها البعض.

    المزيد عن المقارنة LexRank مع TextRank يمكن العثور عليها هنا.

    النص تلخيص الكامنة التحليل الدلالي (LSA)

    LSA هو مبدأ العمل من البيانات الإسقاط لخفض الأبعاد الفضاء دون أي خسارة كبيرة من المعلومات. طريقة واحدة لشرح هذه المساحة هي فريدة تشغيل ناقلات التحلل يمكن التقاط ومثلت في الإحضار وضع كلمة الجمع المتكررة. وتمثل أهمية حجم نموذج القيم الفريدة في الوثيقة.

    إذا كان ناقلات فريدة المدى والقيم الفريدة وما شابه ذلك يبدو غير مألوف، ونحن نوصي هذا البرنامج التعليمي، والتي تغطي نظرية LSA، إذا كنت مبتدئا، التي حققت الثعبان تعليمي يمكن أن تساعد لكم ل(لشخص المهرة، لقوي التنفيذ السريع، واستخدام gensim وLSA).

    كيفية تقييم جودة تلخيص النص؟

    مؤشر ROUGE-N

    لLexRank، Luhn وطريقة LSA، ونحن نستخدم مكتبة ملخص سومي لتنفيذ هذه الخوارزميات. كنا مؤشر ROUGE-1 للمقارنة بين التقنيات التي تمت مناقشتها.

    روج-N هي كلمة نموذج N-غرام المتري بين ملخص والذهب (ملخص الذهب).

    على وجه التحديد، هو نسبة عدد والذهب يحدث في الملخص عبارة نموذج مع N-غرام التهم N-غرام كل العبارات التي تظهر في الملخص من الذهب.

    وهناك طريقة أخرى لتفسير ذلك هو أن نذكر قيمة الذهب كمقياس ملخص يظهر ملخص نموذج كم N-غرام.

    عادة لتقييم موجز، فقط ROUGE-1 وROUGE-2 (أحيانا ROUGE-3، إذا كان لدينا ملخص طويلة ونموذج الذهب) مؤشر، على أساس أنه عندما نضيف N، نحن بحاجة إلى زيادة الذهب والمستخلص طول النموذج كلمة في العبارة بالضبط من N-غرام.

    على سبيل المثال، والنظر في اثنين مماثلة غويا عبارة "التفاح والموز" و "التفاح والموز". وإذا استخدمنا ROUGE-1، ونحن ننظر فقط إلى كلمة أن هذه العبارتين هي نفسها. ولكن إذا أردنا استخدام ROUGE-2، ونحن نستخدم اثنين من كلمة عبارات ذلك "الموز التفاح" وتصبح "الموز التفاح" كيان واحد مختلفة، مما يؤدي إلى انخفاض درجات التقييم "ملكة جمال" و.

    على سبيل المثال:

    ملخص الذهب: اتباع نظام غذائي جيد يجب أن يكون التفاح والموز التفاح نموذج والموز لا بد منه لاتباع نظام غذائي جيد ..

    وإذا استخدمنا ROUGE-1، ثم على درجة من 7/8 = 0.875.

    لROUGE-2، الذي هو 4/7 = 0.57.

    نسبة المذكورة أعلاه يمكن تفسيرها من خلال كمية المعلومات المتعلقة خوارزميات لدينا المستخرجة من كل مجموعة من المعلومات ذات الصلة، وهذا هو تعريف نذكر (استدعاء)، لذلك استند الحمر على التذكير.

    لمزيد من الأمثلة على كيفية حساب النتيجة هي هنا.

    مؤشر BLEU

    مؤشر BLEU هو شكل معدل من الدقة، وتستخدم على نطاق واسع في تقييم الترجمة الآلية.

    دقة هي نسبة عدد الكلمات وعدد من النماذج والتحولات نموذج الذهب مجردة / ملخص شارك في حدوث الكلمة. ROUGE مختلفة، والنظر في العبارات طول BLEU متغير مباشرة باستخدام المتوسط المرجح - واحد يوان كلمة كلمة ثنائية، ثلاثية كلمة مثل.

    المؤشر الفعلي فقط تعديل الدقة لتجنب نموذج ترجمة / سؤال ملخص يحتوي على معلومات مكررة عند

    على سبيل المثال:

    ملخص الذهب: يجب أن يكون اتباع نظام غذائي جيد التفاح والموز.

    نموذجية ملخص: التفاح والموز لا بد منه لاتباع نظام غذائي جيد.

    إذا اعتبرنا فقط يوان واحد BLEU مؤشر كلمة، أي واحد يوان الكلمة الصحيحة من الوزن 1، سائر الوزن N-غرام هو 0، فإننا نسبة BLEU تحسب على النحو 7/9 = 0.778.

    كل كلمة حق ووزن واحد يوان وكلمة الثنائية ، فإن نسبة يصبح 0.6 * (7/9) + 0.4 * (4/8) = 0.667.

    N-غرام مع BLEU دقة التصحيح

    N-غرام مفتاح دقة التعديل هو أنه بمجرد تحديد مرجعية عبارة / كلمة في النموذج المجرد، وينبغي النظر في ذلك استنفدت. فكرة لحل ملخص نموذج تكرار الكلمات / الإفراط في المشاكل.

    من خلال إيجاد أولا الفرد / يظهر الحد الأقصى لعدد العبارات في أي مرجعية واحدة لحساب المعدل دقة N-غرام. يصبح هذا العدد كلمة / عبارة من أكبر عدد مرجع. ثم، ونحن نعول كل نموذج كلمة القص ونقلت / عبارة من قبل أكبر عدد لها الكلي، إضافة قطع العد لكل كلمة في تحويل نموذج / ملخص، ويتم تقسيم المبلغ على نموذج تحويل / كلمات مجردة / العبارات المجموع.

    روابط حول ورقة BLEU (أعلاه) لديها مثال جيد فيه تعديل دقة N-غرام.

    ملخص الجملة: وكلما ارتفعت درجة ROUGE وBLEU، هضم أفضل.

    بيانات

    استخدام المواد 51 Opinosis مجموعة البيانات (Opinosis يشير إلى الطرق المعتمدة على الرسومات، ملخص مجردة للتعليق زائدة للغاية) وتمت مقارنة. ويرتبط كل مادة مع ميزات المنتج، مثل عمر البطارية بود. هذه المواد هي عبارة عن مجموعة من الزبائن شراء المنتجات الاستعراضات. وضع بيانات كل مادة لديها خمسة ملخص رئيسيا أعد يدويا. أبرز وعادة ما تكون خمس مختلفة، ولكنها يمكن أيضا أن تكرار نفس النص خمس مرات.

    المعلمات النموذجية

    لGensim من TextRank (Gensim بيثون قاعدة البيانات NLP، TextRank هو الثعبان النص أدوات المعالجة، Gensim حدة متكاملة تستند Textrank النص المقتطف)، يتم تعيين العد كلمة موجزة الإخراج (word_count) إلى 75.

    لعدد من الجمل سومي-LSA وسومي-Lex_rank، يتم تعيين إخراج ملخص (sentence_count) إلى 2.

    نتيجة

    وترد ROUGE-1 BLEU درجة ومتوسط والانحراف المعياري التي تم الحصول عليها في الجدول أدناه.

    ملخص هي أكبر نتيجة ROUGE ROUGE لكل درجة في خمسة (ملخص شخصي مهم) العشرات في.

    لدرجة BLEU، ونحن نستخدم NLTK وحدة bleu_score، حيث unigrams الوزن، bigrams وأغوا الوزن، على التوالي 0.4،0.3،0.2.

    للمثال معين، وتحقق من هذا الاستعراض غارمين 255W معدات الملاحة. مراجعة اصطناعية ملخص والجيل النموذجي.

    التقييم النوعي

    LexRank هو الفائز هنا، لأنها تنتج أفضل ROUGE BLEU والنتيجة. لسوء الحظ، وجدنا أنه يولد أقل من المعلومات ملخص موجز TextRank وLuhn نموذج Gensim النسبة. وبالإضافة إلى ذلك، LexRank فاز يست دائما TextRank في النتيجة ROUGE. على سبيل المثال، أداء TextRank في مجموعة البيانات DUC 2002 هو أفضل قليلا من LexRank. وبالتالي فإن اختيار بين LexRank وTextRank اعتمادا على مجموعة البيانات الخاصة بك، وهو يستحق المحاولة على حد سواء.

    مشتق استنتاج آخر من البيانات في Textrank Gensim أفضل من PyTextRank العادي، لأنه يستخدم الدالة بدلا ظيفة جيب التمام الجيش الإسرائيلي BM25 في TextRank نقية.

    جدول آخر هو خوارزمية Luhn لديه درجة BLEU أقل. وذلك لأنه يستخرج ملخص أطول، وبالتالي تغطي المزيد من التعليقات على المنتج. للأسف، لا يمكننا تقصير منه، لأن حزمة سومي في Luhn الخوارزمية لا توفر المعلمات لتغيير كلمة الحد.

    النص عينة مجردة

    طريقة الشبكات العصبية

    Textsum جوجل هي واحدة من المصادر المفتوحة ملخص النص بنية مجردة الأكثر تقدما. ويمكن أن تخلق عناوين مواد فقا للجملتين الأولى.

    بعد Gigaword إلى Textsum شكل مجموعة البيانات (الجملتين الأولى، عناوين) تدريب 4000000 أزواج، والذي أظهر نتائج جيدة. خلال التدريب، لأنه يقوم على جملتين الأولى من هذه المادة لتحسين إمكانية ملخص. الترميز وحدات طبقة والتدريب على اللغة في وقت واحد. لإنشاء خلاصة القول، أنه يبحث عن مخطط محتمل لمكان العثور على معظم تسلسل المحتمل للكلمات مادة معينة.

    وفيما يلي مثال لنموذج البيانات وتدريب مخطط TextSum لتوليد نموذج.

    يرجى ملاحظة أن لا يظهر "رئيس" لهذا المصطلح في النص الأصلي. تم إنشاء نموذج ذلك. هذا لن يحدث في العديد من خوارزمية استخراج أعلاه.

    ركضنا تقدم Tensorflow شبكة Google عددا من التعديلات والمعلمات الفائقة. لسوء الحظ، يمكننا أن 10 فقط من نموذج التدريب ضمن الوقت المطلوب، والحصول منخفض جدا ملخص الجودة. وبسبب هذا ملخص حصلت لا معنى له، لا يمكننا حتى استخدام ما سبق ROUGE BLEU وعشرات.

    من أجل مقارنة التعديلات المختلفة لبنية الشبكة العصبية، كان علينا أن اللجوء إلى استخدام نموذج رياضي لقياس مجموعة التدريب "تشغيل متوسط الخسارة". ويمكن إنشاء فقدان FIG متوسط نقاط التشغيل من هذا الطراز.

    تدريب كم يكفي؟

    يوصي الكتاب Tensorflow تنفيذ الملايين تدريب خطوات وقت للنجاح في نتائجها الحالية. وهذا يعني أن على احتياجات العنقودية تمكين GPU لعدة أسابيع من وقت التدريب. جوجل استخدام الخاص 10 آلات، كل أربعة GPU، والتدريب المستمر أسبوع واحد. وهذا يعادل تشغيل GPU 7000 ساعة أو 30000 $ في الائتمان AWS سحابة. ولكن في عملية لدينا، ليس لدينا موارد الأجهزة.

    وبالإضافة إلى ذلك، استخدمت الكتاب جوجل TextSum مجموعات البيانات المشروح الإنجليزية Gigaword ومجموعة البيانات يحتاج 3000 $ الترخيص. لذلك، ونحن نستخدم المقالات الإخبارية صغيرة نسبيا ولكنها خالية قواعد البيانات: CNN وديلي ميل بدلا المشروح الإنجليزية Gigaword مجموعة البيانات. يتم تحويل هذه المواد إلى صيغة Textsum 320K متوافقة والمفردات. يمكنك إنشاء البيانات CNN وديلي ميل الخاصة TextSum المعالجة متوافق باستخدام رمز لنا عبر جيثب.

    في البداية، يتم المعلمات الافتراضية للتدريب على أجهزة الكمبيوتر المحمول NVIDIA GTX 950M، ولكن حتى بعد أكثر من 48 ساعة تدريب خوارزمية لا يبدو أن تتقارب. لتسريع هذه العملية وتوليد ملخص معنى، نحن التبديل على NVIDIA GPU K520 مع g2.2xlarge المعدات أمازون EC2.

    إيلاء الاهتمام

    نحن الخطوط العريضة بعض الأمثلة على عدم كفاية التدريب نموذج TextSum ولدت سيئة للغاية. هذا هو مماثل لمحاولة التدريب TextSum في بافل Surmenok بلوق.

    الكثير من بعض الكلمات في الملخص، ومع ذلك، لا تعتبر ما إذا كانت هذه العبارة في المادة الفعلية وملخصا للمجموعة اختبار، على سبيل المثال، "مانشستر يونايتد" و "مانشستر سيتي" عبارة تتكرر مرات عديدة في الخطوط العريضة ولدت .

    ملاحظة أخرى هي أن الأولي (global_steps

    فقط بعد 50،000 خطوات الوقت، وفقدان (وكذلك ملخص للجودة الدلالي) قد تحسنت بشكل كبير. بعد تدريب يوم واحد أقرب إلى 100،000 خطوات الوقت، نلاحظ نوعية - حيث نستخدم فهمنا للحكم على نوعية ذاتية - ملخص تحسن بشكل عام. ومع ذلك، فإن ملخص واضح لا يلبي المعايير. مع الأخذ في الاعتبار وقت التدريب، الذي أمر متوقع. ادعى مقدم البلاغ من النموذج الذي إذا كان المستخدم يرغب في التأثير في والوقت اللازم لحساب، يمكنك الحصول على نتائج أفضل.

    ملخص

    لتكنولوجيا الاستخراج، قياساتنا تقول لنا: أداء LexRank أفضل قليلا من TextRank Gensim، ولكنها توفر لاحظنا أيضا TextRank ملخصا للجودة أعلى. ونحن نعتقد أن نوعية هذا جمع البيانات تؤثر على استخدام الحصول عليها تلخيصها. ممارسة جيدة لتشغيل واستخدام واحدة من طريقتين لتقديم نظرة عامة أكثر مرضية من الخوارزمية. الاتجاه مستقبل Gensim TextRank تحققان مقارنة مع PyTextRank باكو ناثان.

    GPU بسبب نقص الموارد وتعظيم الاستفادة من العديد من المعلمات، لقد انتهى الدراسة من التجريد، ونحن في هذه المرحلة لا يمكن بالتأكيد أن نستنتج أن النموذج يمكن أن تستخدم كبديل لاستخراج الحالي لتحقيقه. بالطبع، يمكن للمرء أن نحاول دائما بضعة ملايين (أكثر) ضمن نموذج وقت التدريب خطوة وتعديل بعض المعلمات لمعرفة ما إذا كانت النتائج تصبح أفضل على مجموعات البيانات CNN-ديلي ميل أو مجموعات البيانات الأخرى.

    أريد الاستمرار لعرضها المزيد من الرموز، وصلات والمراجع؟ شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

    رابط الطوابع:

    عشرات كلية امتحان القبول من 19 مقاطعة وتعال!

    جيلي العلامة التجارية الراقية LYNK & CO صدر السيارات المدمجة الجديدة

    "المعلم حسن" جو تشنغدو حملة ترويجية الناري صاحب ثلاثة الهوايات يو تشيان يعترف ليس هناك جرو الحب

    شعبي حار AJ 13 "ولدت" العودة هذا الأسبوع، توفر الجمال كاملة الحجم الحقيقي

    فازت بروتون سيارة بفضل لنائب رئيس الوزراء مبتكرة أكد: مشترك كامل الشاشة كاملة من التكنولوجيا والعمل بنشاط على تعزيز شحنات الإنتاج الضخم

    داجي توصية تشكيلة الفريق، ليعلمك كيفية التعاون مع زملائه ثلاث استراتيجيات الشخص الثاني

    آه سا شارلين تشوي نهاية العام أن يتزوج؟ الكائنات "عشرات المليارات من جونغ Taizi يي"!

    المدينة المحرمة متجر وعاء ساخن "الشعلة": شهر وافتتاح إيقاف "الأرز ميازاتو" لا طعم جيد؟

    أعلنت العلامة التجارية الراقية جيلي الصينية اسم "غرام طوق،" ما رأيك؟

    لا خيالك الشمال؟ أسبوع الموضة في كوبنهاغن لرؤية تدفق الناس من مختلف الجهات في النهاية كيفية ارتداء

    من هو أقوى مقاتل، عندما التقى مياموتو موساشي الدروع

    "Jianghai Yutong من السلاحف العملاقة الرومانسية" جعلت التركيز النهائي فواتير "تنمو تلك الأشياء."