استخدام التعلم العميق بيثون نص الدليل الشامل ملخص الجزء الأول (مع الدروس)

الكاتب: أرافيند PAI

الترجمة: الصين و

تصحيح التجارب المطبعية: شن ليبين

هذه المقالة حول 7500 كلمات وأوصى القراءة لمدة 15 دقيقة.

توضح هذه المقالة كيفية استخدام seq2seq لإنشاء ملخص نص النموذج، فضلا عن اهتمام هذه الآليات. وضع Keras صعودا واستخدامها لكتابة رمز نموذج كامل.

مقدمة

"أنا لا أريد تقرير كامل، فقط أعطني ملخص للنتائج." كثيرا ما أجد نفسي في هذا الموقف - سواء في الكلية أو في مكان العمل. قمنا بإعداد تقرير شامل، ولكن المعلم / المشرف ولكن فقط لديهم الوقت لقراءة ملخص.

يبدو مألوفا؟ حسنا، أنا قررت أن تفعل شيئا حيال ذلك. تقرير موجز يدويا تحويل تستغرق وقتا طويلا جدا، أليس كذلك؟ يمكنني الاعتماد على معالجة اللغة الطبيعية التقنيات (NLP) لمساعدتك؟

المعالجة الطبيعية للغة (NLP)

https://courses.analyticsvidhya.com/courses/natural-language-processing-nlp؟utm_source=blog&utm_medium=comprehensive-guide-text-summarization-using-deep-learning-python

هذا هو استخدام عمق النص ملخصات تعلم أن تساعد حقا لي. أنه لا يحل المشكلة السابقة تم يزعجني - والآن يمكننا أن نفهم سياق نموذج من النص بأكمله. لجميع أولئك الذين يحتاجون إلى ملخص سريع للوثيقة، فقد أصبح هذا الحلم حقيقة واقعة!

كيف نستخدم عمق التعلم ملخص النص الكامل لنتائج ذلك؟ جيد جدا. لذلك، في هذه المقالة، سوف نقدم تدريجيا من استخدام عملية التعلم العميقة لبناء ملخص النص الذي يحتوي على كافة مفهوم المبنى التي يحتاجها. ثم أننا سنحقق ملخص نص النموذج الأول مع بيثون!

ملاحظة: تتطلب هذه المادة فهم أساسي لبعض مفاهيم التعلم عميقة. أقترح قراءة المقالة التالية.

  • A لا بد من قراءة مقدمة لتسلسل النمذجة (مع حالات الاستخدام)

https://www.analyticsvidhya.com/blog/2018/04/sequence-modelling-an-introduction-with-practical-use-cases/؟

utm_source على بلوق = & utm_medium = شامل دليل النص التعلم العميق باستخدام-تلخيص-الثعبان

  • لا بد من كلمة دروس لتعلم تسلسل النمذجة (deeplearning.ai دورة # 5)

https://www.analyticsvidhya.com/blog/2019/01/sequence-models-deeplearning/؟utm_source=blog&utm_medium=comprehensive-guide-text-summarization-using-deep-learning-python

  • أساسيات ديب التعلم: مقدمة قصيرة طويلة الأجل الذاكرة

https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/؟utm_source=blog&utm_medium=comprehensive-guide-text-summarization-using-deep-learning-python

دليل

ما ملخص النص هو 1. NLP؟

2. تسلسل تسلسل (Seq2Seq) مقدمة في نمذجة

3. تقدير التشفير (التشفير) - فك (فك) العمارة

4. المبرمج - القيود بنية فك

5. الحدس وراء آلية الاهتمام

6. فهم بيان المشكلة

7. استخدام ملخص النص تحقيق نموذج Keras في بيثون

8. آليات كيف الإنتباه تعمل؟

ظللت بعض "كيف الآليات في الانتباه العمل؟" في السطح النهائي من هذه المادة. هذا هو جزء كثيفة الرياضيات، فإنه ليس إلزاميا لفهم كيفية كود بايثون. ومع ذلك، وأنا أشجعكم لقراءته، لأنه سيتيح لديك فهم واضح للمفهوم البرمجة اللغوية العصبية.

ملاحظة: محتويات هذا المنصب هو مجرد 1-6 و7-8 محتويات، انظر: بيثون استخدام ملخص النص التعلم العميق الحظر الشامل للتجارب دليل الجزء الثاني (مع الدروس)

ما ملخص النص هو 1. NLP؟

قبل فهم كيف يعمل، دعونا ننظر في في ما نعم ملخص النص. هنا هو تعريف وجيز، وهنا نذهب:

"مهمة التلقائي تلخيص نص هو لتوليد ملخص موجز للمعلومات الأساسية مع الحفاظ على المعنى العام والمضمون" - تلخيص النص: دراسة موجزة، 2017

عموما هناك طريقتين مختلفتين لمقتطفات النص:

  • ملخص القابلة للإزالة (الاستخراجية تلخيص)
  • ملخص صيغة (تلخيصي تلخيص)

دعونا ننظر في هذه المزيد من التفاصيل نوعين.

  • ملخص القابلة للإزالة

كشف اسم دور هذا النهج. نحدد الجمل أو العبارات الهامة من النص الأصلي، ورسم. وهذه الجملة المستخرجة يكون استنتاجنا. FIG وصف موجز مجردة استخراج:

أقترح عليك قراءة هذا المقال، الذي يصف كيفية بناء TextRank الخوارزمية باستخدام ملخص نص قابل للنقل:

  • مقدمة لتلخيص نص باستخدام خوارزمية TextRank (مع تنفيذ بايثون)

https://www.analyticsvidhya.com/blog/2018/11/introduction-text-summarization-textrank-python/

  • ملخص صيغة

هذا هو نهج مثيرة جدا للاهتمام. التي، فإننا سوف تولد جملة جديدة من النص الأصلي. هذا هو على النقيض مع طريقة استخراج رأيناه من قبل، وذلك قبل ونحن نستخدم فقط الجملة الحالية. ولدت صحة المدينة قد لا تظهر الجمل المجردة في النص الأصلي:

كنت قد خمنت - سوف نبني ملخصات النص تراكم باستخدام دراسة متعمقة في هذه المقالة! قبل الخوض في تحقيق هذا القسم، علينا أولا أن نفهم بعض المفاهيم اللازمة لبناء نموذج الجيل ملخص النص.

أمام طاقة عالية!

2. تسلسل تسلسل (Seq2Seq) مقدمة في نمذجة

يمكننا أن نبني نموذج Seq2Seq عن أي مسائل تتعلق المعلومات التسلسل. وتشمل بعض التطبيقات الشائعة جدا من أجل تصنيف الشعور المعلومات، والشبكات العصبية، والترجمة الآلية والاعتراف كيان اسمه.

في حالة الشبكة العصبية الترجمة الآلية، إدخال النص هي لغة، والناتج هو نص بلغة أخرى:

في الاعتراف كيان اسمه، المدخل هو تسلسل كلمة، تسلسل علامة وإخراج كل كلمة في تسلسل المدخلات:

هدفنا هو بناء مولد ملخص النص، حيث المدخلات هي كلمة سلسلة طويلة (هيئة النص)، والناتج هو ملخص قصير (أيضا تسلسل). لذلك، يمكننا أن تكون على غرار كمشكلة العديد-Seq2Seq.  ما يلي هو نموذجية العمارة نموذج Seq2Seq:

نموذج Seq2Seq اثنين من عناصر رئيسية هي:

  • التشفير
  • فك

 ونحن نلقي نظرة فاحصة على هذين العنصرين. هذه ضرورية لفهم ملخص نص مدونة كيف يعمل. يمكنك أيضا عرض البرنامج التعليمي لمعرفة المزيد عن تسلسل تسلسل النمذجة.

البرنامج التعليمي:

https://www.analyticsvidhya.com/blog/2018/03/essentials-of-deep-learning-sequence-to-sequence-modelling-with-attention-part-i/؟utm_source=blog&utm_medium=comprehensive-guide-text -summarization باستخدام العميقة التعلم بيثون

3. التشفير تقديره - العمارة فك
المبرمج - فك العمارة تستخدم أساسا لحل مدخلات مختلفة وتسلسل الإخراج إلى (Seq2Seq) مشكلة تسلسل طول.

بداية دعونا مع ملخص نص منظور لفهم هذا. المدخلات هي قائمة طويلة من الكلمات، والناتج من تسلسل المدخلات هو نسخة قصيرة.

عادة، المتكررة الشبكة العصبية (RNN) البديل، مثل الشبكات العصبية بوابات المتكررة (GRU) أو عندما الذاكرة طول (LSTM)، ويفضل أن مكونات وفك التشفير. هذا هو لأنها قادرة على التقاط مشكلة الاعتماد على المدى الطويل عن طريق التغلب على التدرج نشرها.

نحن لا يمكن اقامة في مرحلتين التشفير - فك:

  • مرحلة التدريب
  • مرحلة التفكير

 دعونا نفهم هذه المفاهيم من خلال نماذج LSTM.

  • مرحلة التدريب

خلال مرحلة التدريب، ونحن سوف أولا بإعداد وفك التشفير. ثم، فإننا سوف تدريب نموذج للتنبؤ إزاحة خطوة وقت تسلسل الهدف. علينا أن نتعلم المزيد عن كيفية إعداد وفك التشفير.

  • التشفير

ذاكرة نموذج (LSTM) القراءة على طول التشفير عندما تسلسل المدخلات، حيث في كل خطوة الوقت، يتم إرسال كلمة إلى التشفير. ثم، يقوم بمعالجة المعلومات في كل خطوة من الوقت والتقاط مدخلات تسلسل المعلومات السياق الحالي.

ويوضح الشكل التالي هذه العملية:

وأخيرا، يتم استخدام دولة سرية (مرحبا) والدولة خطوة وحدة زمنية (CI) لتهيئة وحدة فك الترميز. تذكر، وذلك لأن وفك التشفير نوعان من العمارة LSTM.

  • فك

وحدة فك الترميز أيضا شبكة LSTM، التي تنص حرفيا تسلسل الهدف بأكمله والإزاحة في نفس تسلسل في كل مرة خطوة التنبؤ. تدريب لتحقيق وحدة فك ترميز، كلمة للتنبؤ الكلمة التالية في تسلسل معين من قبل.

< بداية > و < نهاية > يتم إضافته إلى تسلسل هدف محدد وصفت قبل توريدها إلى وحدة فك الترميز. عندما فك تسلسل الاختبار، وتسلسل الهدف هو معروف. لذلك، اعتمدنا الكلمة الأولى (دائما < بداية > تبث العلم) إلى وحدة فك الترميز لبدء التنبؤ تسلسل الهدف، و < نهاية > يشير علامة نهاية الجملة.

حتى الآن بديهية جدا.

مرحلة التفكير

بعد التدريب، واستخدام تسلسل جديد تسلسل غير معروف الهدف لاختبار النموذج. لذلك، نحن بحاجة إلى وضع الإطار إلى فك شفرة تسلسل اختبار المنطق:

كيف المنطق عمل العملية؟

ما يلي هو خطوة من فك رموز تسلسل الاختبار:

1. تشفير مدخلات تسلسل كامل، واستخدامها لتهيئة الحالة الداخلية من فك التشفير

2. مكان < بداية > العلامة كإدخال فك

3. تشغيل الحالة الداخلية الخطوة وقت فك

4. الناتج سيكون احتمال الكلمة التالية. ونحن سوف تختار كلمة وفقا لأعلى احتمال

وينتقل الخطوة التالية في وقت أخذ العينات كحرف مساهمة في فك الترميز، ويتم تحديث الوقت الخطوة الحالية باستخدام الحالة الداخلية

6. كرر الخطوات من 3-5 حتى نولد < نهاية > علامة أو تحقيق أقصى طول تسلسل الهدف

نعطي مثالا، سلسلة الاختبار معين. كيف المنطق اختبار دور هذا التسلسل؟ أرجو أن تنظر لنفسك أن ننظر إلى أسفل قبل ذلك.

1. تسلسل اختبار ترميز ناقلات الدولة الداخلي

الخطوة 2. لاحظ كيف تسلسل الهدف التنبؤ فك في كل مرة:

  • خطوة زمنية: ر = 1

  • خطوة زمنية: ر = 2
  • خطوة زمنية: ر = 3

4. المبرمج - القيود بنية فك

على الرغم من أن مثل هذا التشفير - فك العمارة هي مفيدة، ولكن لديها بعض القيود.

  • التشفير كامل تسلسل المدخلات في ناقلات من طول ثابت، ثم توقع تسلسل الناتج فك. هذا ينطبق فقط على سلسلة قصيرة، لأن فك يحتاج إلى عرض كامل تسلسل المدخلات تنبأ
  • مشاكل سلسلة طويلة هي ذاكرة التشفير من الصعب أن تنمو لتصبح تسلسل ناقلات من طول ثابت
"هذا التشفير - فك المشكلة المحتملة هو أن أساليب الشبكة العصبية تتطلب يمكن ضغط جميع ناقلات الجملة مصدر المعلومات الضرورية إلى طول ثابت والتي قد تجعل من هذه الشبكة العصبية من الصعب مواجهة الزيادة في جمل طويلة طول الجملة المدخلات إلى حد كبير. التشفير - سوف أداء فك يتدهور بسرعة "-Neural آلة الترجمة من قبل التعلم المشترك إلى محاذاة وترجمة

إذا كيف نتغلب على سلسلة طويلة من هذه المشكلة؟ هذا هو المكان الذي هو عرض آلية الاهتمام. وهو يهدف إلى التنبؤ تسلسل من خلال النظر فقط في جزء معين بدلا من سلسلة كاملة من الكلمات. هذا يبدو كبيرا!

5. الحدس وراء آلية الاهتمام

دعونا النظر في مثال بسيط لفهم كيف يمكن للآليات اهتمام:

  • مصدر تسلسل: "ما هي الرياضة المفضلة لديك (أي الرياضة تحب أكثر؟)؟
  • تسلسل الهدف: "أنا مثل الكريكيت" (I الحب لعبة الكريكيت)

 تسلسل الهدف في أول كلمة "أنا"، وتسلسل مصدر في الكلمة الرابعة 'لكم' ترتبط، أليس كذلك؟ وبالمثل، فإن تسلسل الهدف هو الكلمة الثانية "الحب" في تسلسل المصدر وكلمة الخامسة "مثل" يرتبط.

ولذلك، فإننا يمكن إضافة جزء محدد من التسلسل المصدر (هذا هو الجزء المتعلق تسلسل الهدف) من حيث الأهمية، وليس رؤية مصدر كل الكلمات في التسلسل. هذه هي الفكرة الأساسية وراء آلية الاهتمام.

وفقا لموجهات السياق المستمدة طريق المشاركة، وهناك نوعان من أنواع مختلفة من آليات الإنتباه:

  • الاهتمام العالمي (جلوبل الاهتمام)
  • الاهتمام المحلي (الاهتمام المحلي)

 دعونا وصف موجز هذه الفئات.

الاهتمام العالمي

في هذه الحالة، كل التركيز على الموقف المصدر. وبعبارة أخرى، تعتبر كل دولة الخفية للترميز للمشاركة في سياق، مستمد ناقلات:

الاهتمام المحلي

في هذه الحالة، المعنية فقط موقع مصدر قليلة. تنظر سوى عدد قليل من التشفير مخبأة يستمد مشاركة ناقلات السياق:

سوف نستخدم آليات الاهتمام العالمي في هذه الوثيقة.

6. فهم بيان المشكلة

تعليقات العملاء وعادة ما تكون طويلة جدا وصفية. كما يمكنك أن تتخيل، بل هو تستغرق وقتا طويلا جدا التحليل اليدوي لهذه التعليقات. هذا هو المكان معالجة اللغات الطبيعية يمكن استخدامها لتوليد ملخص طويل من التعليقات.

وسنعمل على أساس مجموعة بارد جدا من البيانات. هدفنا هو توليد تعليقات الأمازون ولدت أسلوب المطبخ بناء على ملخص علم قبل استخدامها.

مجموعات البيانات التي يمكن تحميلها من هنا.

https://www.kaggle.com/snap/amazon-fine-food-reviews

المحرر: وانغ جينغ تم التعليق بواسطة: لين يي لين

مقدمة المترجم

والصين، ماجستير في هندسة البرمجيات يغادرون ألمانيا. بسبب الاهتمام في تعلم الآلة، اختارت أطروحة الماجستير لتحسين الاستفادة من kmeans التقليدية الخوارزمية الجينية. في البيانات الكبيرة الحالية المتعلقة الممارسة في هانغتشو. THU ترغب في الانضمام بيانات الإرسال للقيام مساهمتها في مساعدة الزملاء IT نأمل أيضا لجعل الكثير من مثل التفكير رفيق.

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور " بيانات الإرسال THU "أيتها الأخوات ولا". إرسال البيانات THU "لرعاية المزيد من المحاضرات ونوعية المحتوى.

افتتح الدقة تلبية الطلب الاستهلاكي، ووضع Jingdong C2M جنبا إلى العلامة التجارية الأم والطفل حقبة جديدة من المستهلكين

"ديب التعلم 500 أسئلة" تم تحديث، تألق جيثب 2.6W (مرفق تحميل كامل)

معك ومعرفة كيفية إنشاء عقدة نظام المجموعة ثلاثة HDFS HDFS (مع رمز والقضية)

حوار أستاذ تشينغهوا الشمس Maosong: الذكاء الاصطناعي من الجيل الثالث للتعامل مع مشكلة "تفسيرها"

حصادة بدون طيار لاول مرة وطنية! تقنية الأسود من قرية جيا شيانغ، الاصدقاء الاجانب هتف

60 عامًا من التاريخ الفني ، تأخذك إلى فهم الماضي والحاضر من الذكاء الاصطناعي

تغيير AI "أعاقت بشكل مصطنع"؟ العلم الجديد السببية

بناء نماذج التعلم الآلي باستخدام TensorFlow.js وبيثون في المتصفح

أنت مسؤول عن أي جزء من الذكاء الاصطناعي؟ بناء خريطة المعرفة تعتمد أساسا على دليل أو الجهاز؟

البيانات روج: الأولية تكنولوجيا المحاكاة الديناميكية ودورة حياة التطبيق في مجال الضرائب

تم إيقاف 360 الأعمال الهاتف المحمول، تجنيد 37 مدينة متوسط الراتب الشهري من 8452 يوان ......

اليوم العالمي لمكافحة التصحر والجفاف: اسمحوا الأصفر الاستنساخ الأرض الخضراء الحياة