من "لندن"، 8 خطوات للحصول على معالجة اللغة الطبيعية (رمز بيثون)

الأنفس جي توصية جديدة

المصدر: متوسط

الكاتب: آدم Geitgey

ترجمة: بوت، ثلاثة الحجر

[مقدمة من جديد تشى يوان ] معالجة اللغات الطبيعية هو المجال الفرعي لمنظمة العفو الدولية، واستخراج البيانات المهيكلة من الاتصالات اليومية الشعب المستخدمة في المعلومات النص غير منظم من أجل فهم الكمبيوتر. في هذه الورقة، وبلغة واضحة بسيطة مقدمة من معالجة اللغة الطبيعية، ويتم تنفيذه في بيثون العديد من الأمثلة المثيرة للاهتمام للغاية.

المعالجة الطبيعية للغة (NLP) هو أحد فروع الذكاء الاصطناعي، لأنها تركز على الكمبيوتر يمكن أن نفهم واللغة العملية البشرية. هذه المقالة سوف أعرض على الأساسي عمل آليات NLP، على أمل أن تكون مستوحاة من القراء.

ملاحظة: هذا الاختيار من عينة اللغة هي اللغة الإنجليزية.

الكمبيوتر يمكن أن نفهم اللغة؟

منذ بداية ولادة من أجهزة الكمبيوتر والمبرمجين كانت تحاول فهم اللغة المكتوبة للبرنامج. والسبب بسيط - تم استخدام اللغة في تاريخ البشرية من ألف سنة، إذا كان الكمبيوتر يمكن قراءة وفهم جميع البيانات، والتي سوف تكون ذات فائدة كبيرة.

على الرغم من أن جهاز الكمبيوتر لا يمكن قراءة حقا مثل لغة الإنسان، لكنها في واقع الأمر الكثير من التقدم في بعض المناطق، واستخدام البرمجة اللغوية العصبية يمكن أن تجلب السحر لتغيير الأمور. من خلال تقنيات البرمجة اللغوية العصبية للمشاريع الخاصة بك، وكنت قد يوفر الكثير من الوقت.

أفضل الأخبار هي أن الآن يمكننا فتح مصدر مكتبة بايثون (مثل سبسي، textacy وneuralcoref) الحصول على أحدث الإنجازات في مجال البرمجة اللغوية العصبية استرخاء. فقط بضعة أسطر من التعليمات البرمجية لتحقيق نتائج مذهلة على الفور.

من الصعب استخراج معنى من النص

قراءة وفهم اللغة هي عملية معقدة جدا - حتى لا نحكم ما إذا كان هذا التفاهم والاتساق المنطقي. على سبيل المثال، العناوين التالية للتعبير عن ما هو المعنى؟

"مالك المنظمين شواء البيئي الأعمال على نيران الفحم غير المشروعة." الهيئات التنظيمية البيئية حول قضية الفحم غير قانوني ___ أصحاب الأعمال. (الشواية: الاستجواب، مشوي)

المنظمين يشككون في وجود ظروف العمل الفحم غير القانونية، أو أصحاب الأعمال تأخذ في الطبخ؟ كما ترون، يصبح جدا معقدة لغة الكمبيوتر سوف يعمل على حل المشكلة.

في تعلم الآلة، من أجل حل المهام المعقدة في كثير من الأحيان وسيلة بناء خط أنابيب. والفكرة هي لكسر مشكلة في عدد من أجزاء صغيرة جدا، ثم استخدم آلة التعلم للحصول عليها متصدع، وأخيرا، من خلال هذه النماذج تعلم آلة خياطة معا، يمكننا استخدامها لتنفيذ المهام المعقدة.

وهو ما كنا في البرمجة اللغوية العصبية في الاستراتيجية. ونحن نفهم ينقسم النص لغة هذه العملية إلى عدة قطع صغيرة والتدقيق المستقل في طريقة محددة فهمهم.

تدريجيا بناء خط أنابيب NLP

هنا هو الفقرة يكيبيديا على "لندن" هو:

لندن هي العاصمة والمدينة الأكثر اكتظاظا بالسكان انجلترا والمملكة المتحدة. الدائمة على نهر التايمز في جنوب شرق جزيرة بريطانيا العظمى، وكانت لندن والاستيطانية الكبرى لألفي عام. وقد تأسست على يد الرومان، الذي عين ذلك بتأسيس مدينة لندن هي عاصمة إنجلترا والمملكة المتحدة، هو أيضا أكثر المدن اكتظاظا بالسكان في المملكة المتحدة. وهي تقع في الجنوب الشرقي من جزيرة بريطانيا العظمى نهر التايمز، كان 2000 واحدة من المستوطنات الرئيسية في المنطقة. تأسست في لندن في الأصل من قبل الرومان، واسمه بتأسيس مدينة.

يحتوي هذا النص على عدد من الحقائق المفيدة، إذا كان الكمبيوتر لقراءة من "لندن هي مدينة" "لندن، إنجلترا" "تأسست في لندن من قبل الرومان"، ثم الانتهاء من ذلك. ولكن من أجل تحقيق هذا الهدف، ونحن نريد أولا لتعليم المفاهيم الأساسية للغة الكمبيوتر مكتوبة، ومن ثم السعي مزيد من التطوير.

الخطوة الأولى: بيان تقسيم (الجملة الإنقسام)

وتتمثل الخطوة الأولى لأول النص خط أنابيب NLP ينقسم إلى الأحكام الفردية، على النحو التالي:

لندن هي عاصمة إنجلترا والمملكة المتحدة، هو أيضا أكثر المدن اكتظاظا بالسكان في المملكة المتحدة.

وهي تقع في الجنوب الشرقي من جزيرة بريطانيا العظمى نهر التايمز، كان 2000 إحدى المستوطنات الرئيسية في المنطقة.

تأسست في لندن في الأصل من قبل الرومان، واسمه بتأسيس مدينة.

يمكننا أن نفترض أن كل جملة هنا وأعربت عن التفكير المستقل أو فكرة، من فهم الفقرة بأكملها، كتابة برنامج لفهم حقا أن جملة واحدة أن يكون أسهل من ذلك بكثير.

أما بالنسبة للتصريح لبناء نموذج تجزئة، وهذه ليست مهمة صعبة، يمكننا تحديدها على أساس كل علامات الترقيم الجملة. وبطبيعة الحال، NLP الحديثة غالبا ما تستخدم تقنيات أكثر تطورا، حتى لو كان محتوى المستند ليست نظيفة، فإنه لا يزال من الممكن تنقسم جمل كاملة.

الخطوة الثانية: كلمات من كلمة (وورد Tokenization)

مع جملة واحدة أن يكون الانقسام، ونحن الآن يمكن التعامل معهم واحدا تلو الآخر. دعونا نبدأ مع الجملة الأولى:

لندن هي العاصمة والمدينة الأكثر اكتظاظا بالسكان في إنجلترا والمملكة المتحدة.

هذا الهدف الخطوة هو إعادة بالسجن لفي كلمات منفصلة أو علامات الترقيم، وبعد الانتهاء من الانقسام، أصبحت الجملة بأكملها من هذا القبيل:

"لندن"، "هو"، "ال"، "العاصمة"، "و"، "معظم"، "عدد السكان"، "المدينة"، "من"، "إنجلترا"، "و" "و" "يونايتد "،" المملكة "،" ".

يوجد محدد الطبيعي باللغة الإنجليزية - الفضاء، لذلك هو مناسب جدا لتوليد كلمة تجسيد. طالما هناك مسافة بين كلمتين الحالات، ونحن يمكن وضعها مباشرة على حدة. علامات الترقيم المعقول أيضا لأن نأخذ بها باعتبارها حالات كلمة منفصلة.

الخطوة الثالثة: توقع كلمات خطاب

وبعد ذلك، ونحن نركز على جزء من خطاب كلمة سبيل المثال: الأسماء، والأفعال، والصفات ...... يعرف كل كلمة تساعدنا على فهم ما تقول الجملة في الجملة في هذا الدور.

ولتحقيق ذلك، يمكننا تدريب مقدما نموذجا تصنيف الكلام، ومن ثم التنبؤ كل إدخال الكلام الكلمة التي:

تم تدريب هذا النموذج أصلا على الملايين من الجمل الإنجليزية، تم وضع علامة مجموعة البيانات جزء من الخطاب من كل كلمة، لذلك يمكن معرفة "تعريف" لهذه العملية. لكن لاحظ أن هذا النموذج يستند كليا على البيانات الإحصائية - في الواقع، لم يفهم معنى كلمات مثل البشر، ولكن فقط لعقوبة مماثلة كان لتخمين وفقا ل "رؤية".

بعد معالجة الجملة بأكملها، وسوف نحصل على هذه النتيجة:

مع هذه المعلومات، يمكننا أن نبدأ في جمع بعض المعنى الأساسي للغاية، كما هو الحال في فترة الحكم، بما في ذلك "لندن"، "العاصمة"، لذلك ليس هناك احتمال كبير هذه الجملة يتحدث عن لندن.

الخطوة الرابعة: النص Lemmatization (Lemmatization نص)

في اللغة الإنجليزية، والكلمة هي هناك أشكال مختلفة، مثل:

كان لي المهر.

كان لي اثنين من الخيول.

جملتين هي ذات الصلة المهر اسما (المهر)، ولكن صيغة المفرد، هو صيغة الجمع. عندما يكون الكمبيوتر عند معالجة النص، إن لم يكن ذكرت أنها سوف "المهر" و "المهور" وجوه مختلفة تماما، وبالتالي مفيدة لفهم الشكل الأساسي من كل كلمة، والطريقة الوحيدة لمعرفة الكمبيوتر في جملتين نتحدث عن نفس المفهوم.

في البرمجة اللغوية العصبية، ونحن نسمي هذا شكل من أشكال مفردات اللغة من أي تخفيض من الشكل العام للعملية تسمى Lemmatization، فإنه يمكن تحديد شكل أبسط من كل كلمة في الجملة من.

مرة أخرى، وهذا ينطبق أيضا على الفعل الإنجليزية. يمكن أن نجد كلمة استعادة كلمة على شكل وقف، وبعد ذلك، "كان لي اثنين من الخيول" يصبح "I اثنان ".

ويتحقق Lemmatization من خلال استرجاع المفردات إنشاء جدول، فمن الممكن أيضا أن يكون بعض قواعد العرف التي يمكن التعامل مع كلمة الناس لم أر أبدا.

ما يلي هو حكم مخفف، وتغيير فقط ما علينا القيام به هو "هو" يصبح "تكون":

الخطوة الخامسة: تحديد كلمات التوقف (تحديد موقف الكلمات)

ثم هو مقياس لمدى أهمية كل كلمة في الجملة. اللغة الإنجليزية لديها الكثير من الكلمات حشو "، و" مثل المتكررة "و" و "a". عندما الإحصاءات النص، وهذه الكلمات إدخال الكثير من الضجيج، بسبب ارتفاع وتيرة الذي تظهر. أنها سوف تكون وضعت بعض من خط أنابيب NLP كما توقف كلمة - وهذا هو، قبل أي تحليل إحصائي، ونحن قد ترغب في تصفية هذه الكلمات.

هنا هو عبارة الجملة توقف الرمادي القياسية:

كلمات التوقف أيضا أن الكشف عن قائمة معدة سلفا، لكنه Lemmatization مختلفة، ليس لدينا أي مشكلة بالنسبة لائحة موحدة للكلمات التوقف، فإنه يحتاج إلى تحليل قضايا محددة. على سبيل المثال، إذا كنا نريد لبناء محرك بحث عن موسيقى الروك، أن "" كلمة لا يجب تجاهلها، كما تظهر في العديد من اسم الفرقة في هناك في 1980s الفرقة الشهيرة تسمى " وو".

الخطوة السادسة (أ): الاعتماد على التوزيع (توزيع التبعية)

الخطوة التالية هي معرفة كيف مترابطة كل الكلمات في الجملة، وهذا هو، تحليل التبعية.

هدفنا هو بناء شجرة التبعية، والتي هي في جذر الفعل الرئيسي المهيمن، ويشار إلى هذا الموضوع، في موقف يعتمد من الكلمات:

ولكن يمكننا أن تذهب أبعد من ذلك. وبالإضافة إلى تحديد كلمة رئيسية من كل كلمة، ويمكننا أيضا التنبؤ تبعيات بين هذين النوعين من الكلمات:

الاعتماد على شجرة شجرة يخبرنا موضوع الحكم هو "لندن"، و "العاصمة" هناك علاقة "يكون". وفقا لذلك، وحصلنا على معلومات مفيدة --London هو رأس المال. على هذا الأساس، إذا واصلنا ننظر إلى الوراء، نجد، في الواقع، لندن هي عاصمة المملكة المتحدة.

كما توقعنا قبل استخدام نماذج التعلم الآلي كجزء من الكلام، ويمكن أيضا الاعتماد على تحليل استخدامها لتنفيذ نموذج. والفرق هو أن كلمة تحليل التبعية معقدة بشكل خاص، يتطلب أوضح مزيج من المادة بكاملها في التفاصيل. إذا كنت مهتما، ماثيو Honnibal من "مع 500 خطوط بيثون تحليل رمز الإنجليزية" هو تعليمي جيد.

بينما في عام 2015، عندما واضعي هذا الأسلوب أصبح معيار، ولكن النقطة الوقت الحاضر للعرض، فمن قليلا عفا عليها الزمن، العديد من الباحثين لم تعد استخدامه. عام 2016، أصدرت جوجل محلل جديد التبعية دعا Parsey McParseface، والتي تقوم على عمق التعلم، من حيث الأداء تجاوزت بكثير من المعايير الحالية، وذلك بمجرد الإفراج تم نشرها على نطاق واسع. وبعد مرور عام، أطلقوا سراح نسخة محدثة ParseySaurus إلى قطع مزيد من ترقية. باختصار، والتبعية إعراب حاليا على مساحة نشطة للبحث، والمتغيرة باستمرار وتحسين.

وبالإضافة إلى ذلك، هناك مشكلة من معنى غامض العديد من الجمل الإنجليزية وغالبا ما يصعب حلها. في هذه الحالات، سيتم بناء نموذج لإصدار تحليل كل عقوبة تصل إلى التخمين الخيار المرجح، لكنه لم يكن مثاليا، وأحيانا نموذج سيكون خطأ محرج. ولكن مع مرور الوقت، سوف ننتقل تدريجيا نحو نموذج NLP معقولة.

الخطوة السادسة (ب): أبحث عن جملة إسم

وحتى الآن، لدينا وضع كل كلمة في الجملة ككيان مستقل، ولكن في بعض الأحيان هذه الكلمات تعبر عن فكرة واحدة أو شيء معا أكثر منطقية. استخدام شجرة التبعية، ونحن يمكن أن تدمج المعلومات، ومناقشة معا بكلمة شيء تلقائيا.

مقارنة الشكل التالي هذا النموذج:

يمكننا أن مجموعة عبارة إسم لتوليد:

هل تريد أن تأخذ هذه الخطوة تعتمد على هدفنا النهائي. ومع ذلك، إذا نحن لسنا بحاجة لمعرفة تفاصيل إضافية الأحكام، مثل الكلمات التي هي الصفات، ولكن المزيد من الاهتمام لاستخراج فكرة كاملة، فإنه عادة ما يكون وسيلة مريحة لتبسيط الجملة.

الخطوة السابعة: الاعتراف كيان تسمى (NER)

بعد الانتهاء من هذه الخطوات، يمكننا أن نتخلص من القواعد الأولية، ولقد بدأت لبدء حقا لاستخراج المعنى.

في الجملة سبيل المثال، لدينا على النحو التالي:

وتشمل هذه الشروط شيء موجود في الواقع، مثل "إنجلترا"، تعني "المملكة المتحدة" الموقع الجغرافي على الخريطة "لندن". مع هذه المعلومات، يمكننا استخدام البرمجة اللغوية العصبية لاستخراج تلقائيا قائمة المواقع المذكورة في وثائق من العالم الحقيقي.

اسمه التعرف على الكيان (NER) الهدف هو الكشف عن هذه الكلمات تمثل العالم الحقيقي للمواد الغذائية، وتسمية لهم. بعد كل كلمة لتجسيد FIG NER نموذج المدخلات، والتغيرات سبيل المثال الجملة:

وإن لم يكن بديهيا، NER ولكن بأي حال من الأحوال مجرد القاموس، واللعب العلامة، والذي يحتوي على كلمة نموذج إحصائي في سياق الموقع، كلمات مختلفة يمكن التنبؤ أي نوع من الأسماء يمثلونها. على سبيل المثال، وهذا نموذج يمكن تمييزها عن NER جيد "بروكلين" هو اسم بروكلين ديكر، بروكلين أو أسماء.

وهنا بعض الأشياء نموذجية نظام NER يمكن أن يكون المسمى:

اسم الشخص
اسم الشركة
الموقع الجغرافي (الجغرافية السياسية)
اسم المنتج
التاريخ والوقت
نقود
اسم الحدث

NER والعديد من الاستخدامات، لأنه لا يمكن الوصول إلى البيانات بسهولة من النص المنظم، التي تعد واحدة من أسهل الطرق لسرعة الحصول على معلومات قيمة من خط أنابيب NLP.

خطوة ثمانية: Coreference قرار

حتى الآن، لقد حصلت على الكثير من خصائص مفيدة والأحكام ذات الصلة. ونحن نعلم أن كل كلمة كلمة، تبعيات بين الكلمات، وهذه الكلمات تمثل كيانا اسمه.

ولكن لدينا مشكلة صعبة، يحتوي على عدد كبير من الإنجليزية الضمائر مثل "هو" "هي" "انه"، تظهر هذه الكلمات في كثير من الأحيان في الجملة، ويشار إليها في أجل تكرار تجنب نذكر اسم واستخدامها. يمكن للانسان ان يفهم معنى هذه الضمائر وفقا للسياق، ولكن نموذج NLP لا يعمل، لأنه حتى الآن، أنها ليست سوى واحدة للكشف.

دعونا ننظر مثال على الجملة الثالثة:

"وقد تأسست على يد الرومان، الذي أطلقوا عليه اسم بتأسيس مدينة".

وفقا لخطوط الأنابيب NLP، نموذجنا لا يعرفون سوى أن "انه" كان رجلا الروماني، لا أعرف ما "انه" نعم. ولكن يجب على هذا السؤال لا يضربون أي شخص يقرأ هذه الكلمات أن التحرك، نحن نعرف أين "انه" من الجملة الأولى في "لندن".

ما يلي هو نتيجة لكلمة "لندن" في عزمنا على تشغيل وثيقة الإجماع:

وبموجب القرار coreference وشجرة التبعية، واسمه كيان يجمع المعلومات، ونحن يمكن استخراج الكثير من المعلومات من وثيقة! في الواقع، وهذا هو الآن صعوبة كبيرة في مجال البرمجة اللغوية العصبية، وصعوبة في أعلى بكثير من إعراب الجملة واحد. وعلى الرغم من بعض الإنجازات خلال السنوات الأخيرة، استنادا إلى أحدث التقدم في عمق التعلم حققت بعض الاختراقات، لكنها ليست مثالية.

هذه هي بعض من أساسيات البرمجة اللغوية العصبية، وتطبيق محددة إذا كنت أكثر اهتماما في هذا المحتوى، فإننا سوف يناقش مستقبل NLP، مثل تصنيف النص، مساعد ذكي لمشاكل عزم.

NLP خط أنابيب مكتوبة في بيثون

وفيما يلي كاملة NLP خط أنابيب لمحة عامة:

قرار Coreference هو خطوة اختيارية

أولا، نفترض أن لديك Python3 تثبيت، والضغط على التعليمات البرمجية التالية يمكن تثبيت سبسي:

# تركيب سبسي

pip3 تثبيت -U سبسي

# تحميل نموذج الإنجليزية كبير للسبسي

python3 -m سبسي تحميل en_core_web_lg

# تركيب textacy التي ستكون مفيدة أيضا

pip3 تثبيت -U textacy

ثم كتابة التعليمات البرمجية التالية لتشغيل خط أنابيب NLP:

سبسي استيراد

# تحميل نموذج كبير الإنجليزية NLP

البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg')

# النص نريد لدراسة

نص = "" "لندن هي العاصمة والمدينة الأكثر اكتظاظا بالسكان في إنجلترا و

في المملكة المتحدة. الدائمة على نهر التايمز في جنوب شرق

من جزيرة بريطانيا العظمى، وكانت لندن إلى تسوية كبرى

لمدة آلاف السنين. وقد تأسست على يد الرومان، الذي أطلقوا عليه اسم بتأسيس مدينة.

"" "

# تحليل النص مع سبسي، وهذا يمتد خط الأنابيب بأكمله.

وثيقة = البرمجة اللغوية العصبية (النص)

# 'دوك' يحتوي الآن على نسخة تحليل النص، ونحن يمكن استخدامه لفعل أي شيء نريده!

# على سبيل المثال، وهذا سوف طباعة جميع الكيانات المسماة التي تم الكشف عنها:

للكيان في doc.ents:

طباعة (و "{entity.text} ({} entity.label_)")

بعد تشغيل، سوف تحصل على قائمة كيان اسمه والكشف عن نوع كيان من هذه الوثيقة إلى:

لندن (GPE)

إنجلترا (GPE)

المملكة المتحدة (GPE)

نهر التايمز (FAC)

بريطانيا العظمى (GPE)

لندن (GPE)

ألفي سنة (DATE)

الرومان (NORP)

بتأسيس مدينة (الشخص)

ومن الجدير بالذكر أن هناك خطأ في "بتأسيس مدينة"، وهذا هو اسم الشخص، بدلا من المكان. قد يكون هذا لأنه في مجموعة التدريب البيانات ليست شيئا من هذا القبيل، فإنه يجعل أفضل تخمين. اسمه كشف كيان (اسمه كشف الكيان) نماذج وعادة ما يتطلب بعض صقل.

هنا، دعونا ننظر كشف كيان، وعكس ذلك لبناء المطهر البيانات. الآلاف من الوثائق يدويا تحرير قد تتطلب اسمها عدة سنوات، ولكن لNLP، وهذا هو مجرد قطعة من الكعكة. هنا هو بيانات بسيطة تنظيف، ويمكن حذف الكشف عن أسماء:

سبسي استيراد

# تحميل نموذج كبير الإنجليزية NLP

البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg')

# استبدال رمز مميز مع "حجب" إذا كان اسم

مواطنه replace_name_with_placeholder (رمز):

! إذا token.ent_iob = 0 و token.ent_type_ == "الشخص":

العودة " "

آخر:

عودة token.string

# حلقة من خلال جميع الكيانات في وثيقة والاختيار إذا كانت أسماء

فرك صفر (النص):

وثيقة = البرمجة اللغوية العصبية (النص)

لوالأنف والحنجرة في doc.ents:

ent.merge

الرموز = خريطة (replace_name_with_placeholder، وثيقة)

عودة "" .join (الرموز)

الصورة = "" "

في عام 1950، نشرت آلان تورنج مقالته الشهيرة "الحوسبة الآلية والاستخبارات". في عام 1957، نعوم تشومسكي

ثورة الهياكل النحوية اللغويات مع "قواعد العالمي"، وهو نظام قائم على قواعد البنى النحوية.

"" "

طباعة (فرك (ق))

النتائج التشغيلية هي كما يلي:

في عام 1950، نشرت مقالته الشهيرة "الحوسبة الآلية والاستخبارات". في عام 1957،

ثورة الهياكل النحوية اللغويات مع "قواعد العالمي"، وهو نظام قائم على قواعد البنى النحوية.

استخراج حقيقة

هناك مكتبة الثعبان يسمى textacy، الذي ينفذ بعض المشتركة خوارزمية استخراج البيانات على أساس سبسي. فإنه يطبق خوارزمية دعا الجملة شبه منظمة استخراج (منظم شبه بيان استخراج). نحن يمكن استخدامه لتحليل الجمل البسيطة البحث شجرة، حيث كان الموضوع هو "لندن"، في حين أن فعل "يكون" نموذج. هذا يساعدنا في العثور على الحقيقة حول لندن. على النحو التالي:

سبسي استيراد

textacy.extract استيراد

# تحميل نموذج كبير الإنجليزية NLP

البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg')

# النص نريد لدراسة

نص = "" "لندن هي العاصمة والمدينة الأكثر اكتظاظا بالسكان في إنجلترا والمملكة المتحدة.

يقف على نهر التايمز في جنوب شرق جزيرة بريطانيا العظمى،

وكانت لندن والاستيطانية الكبرى لألفي عام. وقد تأسست على يد الرومان،

الذي أطلقوا عليه اسم بتأسيس مدينة.

"" "

# تحليل وثيقة مع سبسي

وثيقة = البرمجة اللغوية العصبية (النص)

# تصريحات استخراج شبه منظم

البيانات = textacy.extract.semistructured_statements (الوثيقة، "لندن")

# طباعة النتائج

طباعة ( "هنا هي الأشياء وأنا أعلم عن لندن:")

لبيان في تصريحات:

الموضوع، الفعل، حقيقة = عبارة

طباعة (و "- {الحقيقة}")

النتائج التشغيلية هي كما يلي:

وهنا هي الأشياء وأنا أعلم عن لندن:

- العاصمة والمدينة الأكثر اكتظاظا بالسكان في إنجلترا والمملكة المتحدة.

- تسوية كبرى لمدة آلاف السنين.

هذا قد يبدو بسيطا، ولكن إذا قمت بتشغيل نفس رمز على النص الكامل لمقالة ويكيبيديا لندن (بدلا من ثلاث جمل فقط)، وتحصل على نتائج باهرة، على النحو التالي:

وهنا هي الأشياء وأنا أعلم عن لندن:

- العاصمة والمدينة الأكثر اكتظاظا بالسكان في إنجلترا والمملكة المتحدة

- تسوية كبرى لمدة آلاف السنين

- معظم مدينة في العالم من حيث عدد السكان من جميع أنحاء 1831-1925

- وراء كل المقارنة أكبر مدينة في انكلترا

- لا يزال مضغوط جدا

- أكبر مدينة في العالم من حوالي 1831-1925

- مقر حكومة المملكة المتحدة

- عرضة للفيضانات

- "واحدة من المدن خضرة في العالم" مع المساحات الخضراء أكثر من 40 في المئة أو المياه المفتوحة

- المدينة الأكثر اكتظاظا بالسكان ومنطقة العاصمة من الاتحاد الأوروبي، والثانية من حيث عدد السكان في أوروبا

- في 19 أكبر مدينة وأكبر 18 منطقة حضرية في العالم

- المسيحي، ويحتوي على عدد كبير من الكنائس، وخاصة في مدينة لندن

- أيضا موطن لمسلم كبير والهندوسية والسيخ، والطوائف اليهودية

- أيضا موطن ل42 المعابد الهندوسية

- في العالم معظم سوق المكاتب مكلفة للسنوات الثلاث الماضية وفقا لمجلة الملكية العالم (2015) تقرير

- واحدة من المراكز المالية البارزين قبل في العالم وأكبر موقع هام للتمويل الدولي

- العالم الوجهة أعلى المدينة حسب تصنيفها من قبل مستخدمي موقع TripAdvisor

- محور النقل الجوي الدولي الرئيسي مع ازدحاما أجواء مدينة في العالم

- مركز لشبكة السكك الحديدية الوطنية، مع 70 في المئة من الرحلات بالسكك الحديدية تبدأ أو تنتهي في لندن

- مركزا عالميا رئيسيا للتعليم والتعليم العالي والبحوث ولديه أكبر تجمع للمؤسسات التعليم العالي في أوروبا

- الصفحة الرئيسية لمصممي فيفيان ويستوود، غاليانو، ستيلا مكارتني، مانولو بلانيك، وجيمي تشو، من بين أمور أخرى

- الإعداد لكثير من الأعمال الأدبية

- مركزا رئيسيا للإنتاج التلفزيوني، مع استوديوهات بما في ذلك مركز تلفزيون بي بي سي، ينبوع استوديوهات واستوديوهات لندن

- أيضا مركزا للموسيقى في المناطق الحضرية

- "خضرة المدينة" في أوروبا مع 35000 فدان من الحدائق العامة والغابات والحدائق

- ليست عاصمة انجلترا، وإنجلترا لم يقم حكومتها الخاصة

ما الذي يمكن عمله؟

وثائق سبسي وثيقة textacy، سترى مثال على الاستخدام المكثف للتحليل النص. دعونا ننظر مثال آخر: لنفترض قمت بإعداد موقع على شبكة الانترنت، وإذا كان موقع الويب الخاص بك لديه قسم البحث، وتريد بالتأكيد لأتمتة شائعة مثل جوجل استعلامات البحث، كما هو مبين أدناه:

جوجل عن "لندن" الاستعلام نص كلمة تكملة

للقيام بذلك، ونحن بحاجة لتقديم قائمة من التوصيات للمستخدم. NLP يمكن استخدامها لتوليد بسرعة البيانات. ما يلي هو وسيلة لاستخراج الشروط من كتلة كثيرا ما يذكر الوثيقة:

سبسي استيراد

textacy.extract استيراد

# تحميل نموذج كبير الإنجليزية NLP

البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg')

# النص نريد لدراسة

نص = "" "و لندن" ""

# تحليل وثيقة مع سبسي

وثيقة = البرمجة اللغوية العصبية (النص)

# قطع استخراج الاسم الذي يظهر

noun_chunks = textacy.extract.noun_chunks (الوثيقة، min_freq = 3)

# قطع تحويل الأسماء لسلاسل صغيرة

noun_chunks = خريطة (شارع، noun_chunks)

noun_chunks = خريطة (str.lower، noun_chunks)

# طباعة أي الأسماء التي و2 كلمة على الأقل

لnoun_chunk في مجموعة (noun_chunks):

إذا ليون (noun_chunk.split ( "")) > 1:

طباعة (noun_chunk)

إذا قمت بتشغيل هذا الرمز في لندن ويكيبيديا، وكانت النتائج على النحو التالي:

كنيسة وستمنستر

متحف التاريخ الطبيعي

الطرف الغربي

الطرف الشرقي

كاتدرائية سانت بول

قاعة رويال ألبرت

مترو أنفاق لندن

حريق كبير

المتحف البريطاني

عين لندن

.... الخ ....

وطبع هذا المقال بإذن الجزء النظري من رقم القناة الصغرى العام "المخابرات" (ID: jqr_AI)

فاز جي الجديد AI WORLD 2018 تذكرة في وقت مبكر الطيور الجمعية []

للبيع!

سيتم عقد جديد جي وون 20 سبتمبر AI WORLD 2018 مؤتمر في مركز المؤتمرات الوطني ببكين، دعا تعلم الآلة العراب، مع التركيز على أستاذ آلة الاستخبارات في جامعة كارنيجي ميلون توم ميتشل، Maike سي نمر مرقس، تشو تشى هوا، وتشنغ تاو كبير، تشن Yiran منظمة العفو الدولية وقادة آخرين ومصير البشرية.

موقع الجمعية العامة الرسمي:

الآن وحتى 19 أغسطس، جي الأنفس الجديد رقم طبعة محدودة من تذاكر وقت مبكر الطيور التواصل الوثيق مع الشركة الرائدة عالميا في منظمة العفو الدولية، والذكاء الاصطناعي، شاهد الصناعة العالمية على قدم وساق.

النشطة تذاكر الصف تصل:
تذكرة خط نشط رمز ثنائي الأبعاد:

طريق الحرير

من "لندن"، 8 خطوات للحصول على معالجة اللغة الطبيعية (رمز بيثون)

مكتب الصحة ببلدية مجموعة دراسة نظرية المجموعة الحزب (التوسع) لتنفيذ التدريب على السلامة

DeepMind رفعت الإجابة على الأسئلة نموذج بصرية جديدة، CLEVR معدل دقة 98.8

فندق على الجسم الرطب، مثل تايلاند هل تريد أن تذهب؟

86 بيع نعمة مقنعة: القديم إلى الجديد سيأتي

لماذا فشلت "المصادر المفتوحة": الفقراء يزدادون فقرا، والأغنياء يزدادون غنى!

أنا أعترف، في مواجهة النبيذ الفرنسي، وكنت سكير ولا كرامة!

من الزواج من الطلاق 3 دقائق فقط! اشتعلت الناس على حين غرة في تاريخ أقصر الزواج

4008 انخفاض نصف السنة عشرين ألف، بيجو 5008 كيف كسر حدة؟

هانتشونان خريطة كاملة أكثر من خطوط الحافلات، وجمع الفراغ

العودة إلى الأرض! شبكة الأحمر باتو وفتح مهارة جديدة، وأشار المهرة الفطائر الفاكهة الثناء العملاء

قصة الربيع | الشرطة في الخطوط الأمامية في الخدمة مهرجان الربيع مذكرات

استكشاف المحلات التجارية X-تريل / قطاع التنقيب و/ CR-V، سيارات الدفع الرباعي شعبية مكافأة نهاية الخدمة سماش بروس؟

CLS63 AMG: النص يمكن التقاط الهدوء القلم، والتحركات الأسلحة يمكن إطلاقها

حول "يتجول في الأرض"، وأقوى سر، وتحول الفيلم إلى أن الأبيض بدا!

المطورين الإنجيل! بدأت جوجل APP محرك سحابة لدعم اليوم بيثون 3.7

لكزس CT200h لاعادة البث من بيع، حزينة سبع سنوات حكة؟

"دامبو" نماذج حقيقية بعد حياة مأساوية: هذا هو الأكثر وحشية الإنسان صورت صور

شرطة بكين، لي!

"ما 800،000،000 $ لا معنى،" ماجيك قفزة من المنتجات الجديدة التي بيعت أخيرا: US $ 2295! شرائه؟

NVH، وهو "الميتافيزيقيا"، والعلامات التجارية المحلية تتم كل ما الجهود؟

وهذا ما يسمى الفنادق الفاخرة أعلى في البرية، والحد من الفقر مخيلتي ...

"الخوارزمية الجمال" لتغيير خوارزمية سيد عشرة العالم