الوصول السريع إلى معالجة اللغات الطبيعية NLP

مقدمة سهلة لNLP

جيد جدا عملية توحيد بيانات الكمبيوتر ومنظم كجدول قاعدة البيانات، والسجلات المالية. ويمكن أن معالجة البيانات بشكل أسرع مما كنا البشر. ولكن نحن البشر لا تستخدم "البيانات المهيكلة" على التواصل، لن أقول لغة ثنائية! نتواصل في الكلمات، وهذا هو النوع من البيانات غير المهيكلة.

وللأسف، فإن الكمبيوتر الصعب التعامل مع البيانات غير المهيكلة، لأنه لا يوجد توحيد أساليب التعامل معها. عندما نستخدم لغة ج، جافا أو الثعبان مثل لبرمجة الكمبيوتر، ونحن في الواقع يعطي الكمبيوتر مجموعة من القواعد التي يجب أن تعمل. للحصول على بيانات غير منظم، هذه القواعد تشكل تحديا للغاية تعريفات مجردة وملموسة.

هناك الكثير من اللغة الطبيعية غير منظم على شبكة الإنترنت، وأحيانا حتى جوجل لا يعرفك

التفاهم بين البشر في اللغة والكمبيوتر

البشر إرسال الامور كانت منذ آلاف السنين. خلال هذا الوقت، أدمغتنا الحصول على الكثير من الخبرة في فهم اللغة الطبيعية. عندما نقرأ شيئا على قطعة من الورق أو بلوق على شبكة الإنترنت، سوف نفهم معناها الحقيقي في العالم الحقيقي. ونحن نرى العاطفة لقراءة هذه الأشياء تسبب، في واقع الحياة ونحن غالبا ما تصور أن الأمور ستبدو.

المعالجة الطبيعية للغة (NLP) هو أحد فروع الذكاء الاصطناعي، وتلتزم لجعل أجهزة الكمبيوتر على فهم اللغة وعملية البشرية والكمبيوتر أقرب إلى التفاهم بين البشر من لغة. الكمبيوتر فهم بديهية من اللغة الطبيعية ليس كبشر، فإنها لا يمكن حقا فهم اللغة في النهاية ما أقول. وباختصار، فإن الكمبيوتر لا يمكن قراءة ما بين السطور.

ومع ذلك، والتعلم الآلي (ML) من أحدث التطورات تمكن كمبيوتر أن تفعل الكثير من الاشياء المفيدة في اللغة الطبيعية! دراسة متعمقة حتى نتمكن من إرسال بريد البرنامج لأداء وظائف مثل الترجمة، فهم الدلالات، وملخصات النصوص وهلم جرا. كل هذا يضيف قيمة إلى العالم الحقيقي، بحيث يمكنك بسهولة فهم وأداء العمليات الحسابية على كتل كبيرة من النص دون الحاجة لعملية يدوية.

دعونا تبدأ مع بداية سريعة على كيفية عمل NLP على المفاهيم. بعد ذلك، سنقوم الخوض في بعض من قانون الثعبان، حتى تتمكن من البدء في استخدام الخاص بك من NLP!

السبب الحقيقي لNLP صعوبة

عملية القراءة وفهم اللغة هي أكثر تعقيدا بكثير مما كانت عليه في أول وهلة. لفهم حقيقة ما وسيلة النص في العالم الحقيقي، وهناك أشياء كثيرة يجب القيام به. على سبيل المثال، ما رأيك يعني المقطع التالي؟

"كان ستيفاني كاري على النار لطيفة الماضي. وtotallydestroyed الفريق الآخر"

للشعب، ما يعنيه هو واضح. ونحن نعلم أن ستيفاني الكاري هو لاعب كرة السلة، حتى لو كنت لا تعرف، ونحن نعلم أنه نوع من الفريق، قد يكون الفرق الرياضية. عندما نرى "النار" و "تدمير"، ونحن نعرف ما يعنيه إضافة تعليق كاري لعبنا بشكل جيد الليلة الماضية، بفوزه على فريق آخر.

الكمبيوتر في كثير من الأحيان نأخذ الأمور حرفيا أيضا. حرفيا، وسوف نرى "ستيفاني كاري"، وبناء على افتراض أنه هو الشخص العاصمة، مكان، أو غيرها من الأمور الهامة. ولكن بعد ذلك رأينا إضافة تعليق كاري "على النار" ... سيقوم الكمبيوتر اقول لكم ان شخص مضاءة إضافة تعليق كاري حريق أمس! ... عذرا. بعد ذلك، قد يقول الكمبيوتر، الكاري قد دمر فريق آخر ... أنها لم تعد موجودة ... عظيم ...

إضافة تعليق كاري حقا على النار!

ولكن ليس كل شيء على آلة يفعل هو وحشي، وذلك بفضل لتعلم الآلة، يمكننا أن نفعل فعلا بعض الأشياء ذكية جدا لاستخراج بسرعة وتفسير المعلومات من اللغة الطبيعية! دعونا ننظر كيف يمكن لعدد قليل من مكتبة بيثون بسيطة في بضعة أسطر من التعليمات البرمجية لإنجاز هذا.

كود بايثون إلى حل المشكلة باستخدام NLP

من أجل فهم كيف يعمل البرمجة اللغوية العصبية، سوف نستخدم ويكيبيديا في النص التالي كمثال لدينا بتشغيله:

Amazon.com، وشركة، والتعامل كما الأمازون، هو التجارة والحوسبة السحابية شركة Americanelectronic مقرها في سياتل، واشنطن، التي أسسها جيف بيزوس في 5 يوليو 1994. وعملاق التكنولوجيا هو متاجر التجزئة largestInternet في العالم إذا ما قيست من حيث الإيرادات والقيمة السوقية، والمرتبة الثانية بعد مجموعة علي بابا من حيث إجمالي المبيعات. وamazon.comwebsite التي باعتباره بيع الكتب على الانترنت في وقت لاحق متنوعة لvideodownloads بيع / الجري، تنزيل MP3 / الجري والتنزيلات مسموع / الجري، والبرمجيات، وألعاب الفيديو ، وتنتج الإلكترونيات، والملابس، والأثاث، والمواد الغذائية ولعب الأطفال وandjewelry، وتقوم الشركة أيضا الالكترونيات أوقد المستهلك القراءة الإلكترونية، وأقراص النار، TV النار، وصدى وهو أكبر مزود في العالم لخدمات البنية التحتية السحابية (IAAS andPaaS). الأمازون كما تبيع بعض المنتجات المنخفضة نهاية تحت brandAmazonBasics في المنزل لها.

العديد من المكتبات المطلوبة

أولا، فإننا سوف تثبيت بعض المكتبات بيثون البرمجة اللغوية العصبية مفيدة من شأنها أن تساعدنا على تحليل هذه المادة.

### تثبيت سبسي، العام ليب بيثون البرمجة اللغوية العصبية pip3 تثبيت سبسي ### تحميل نموذج القاموس الإنجليزية للسبسي python3 -m سبسي تحميل en_core_web_lg ### تثبيت textacy، أساسا الإضافة مفيدة لسبسي pip3 تثبيت textacy

تحليلات كيان

الآن تم تثبيت كل شيء، يمكننا بسرعة نص تحليلات الكيان. سوف تحليلات كيان اجتياز النص وتحديد جميع الكلمات المهمة في النص أو "كيان". عندما نقول "مهمة"، فإننا نعني حقا هو أن كلمة لها معنى أو دلالات ذات أهمية في العالم الحقيقي معين.

راجع التعليمات البرمجية التالية، وكان جميع كيانات تحليلنا:

# الترميز: UTF-8 سبسي استيراد # # # تحميل نموذج الانجليزية NLP سبسي ل البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg') ### والنص الذي تريد اختبار النص = "Amazon.com، وشركة، والتعامل كما الأمازون، هي التجارة الإلكترونية anAmerican والحوسبة السحابية شركة مقرها في سياتل، واشنطن، التي تأسست جيف بيزوس في 5 يوليو 1994. واعني عملاق التكنولوجيا أكبر سلسلة متاجر الإنترنت في العالم مقاسا الإيرادات وmarketcapitalization، وثاني أكبر بعد مجموعة علي بابا من حيث إجمالي الأمازون sales.The. بدأ كوم الموقع ولبيع الكتب على الانترنت في وقت لاحق tosell تنوعا الفيديو التنزيلات / الجري، MP3 تنزيل / الجري، audiobookdownloads / الجري، البرمجيات، وألعاب الفيديو، والالكترونيات، والملابس، والأثاث، الطعام والألعاب والمجوهرات. وتنتج الشركة أيضا الالكترونيات الاستهلاكية أوقد القراء الإلكترونية، وأقراص النار، TV النار، وصدى وهي أكبر مزود في العالم سحابة infrastructureservices (IAAS وأجزاء من الكمية المخصصة). كما تبيع أمازون بعض المنتجات المنخفضة نهاية تحت itsin منزل AmazonBasics العلامة التجارية. " # # # تحليل النص مع سبسي ### لدينا "وثيقة" متغير يحتوي الآن على نسخة تحليل oftext. وثيقة = البرمجة اللغوية العصبية (النص) # # # طباعة جميع الكيانات المسماة التي تم الكشف عنها للكيان في document.ents: طباعة (entity.text، entity.label_)

علينا أولا تحميل نموذج ML تعلمت سبسي، ووتهيئة النص الذي تريد العمل. نحن نتعرض لنموذج ML على النص لكيانات استخراج. عند تشغيل كود طحت، سوف تحصل الإخراج التالي:

Amazon.com، وشركة ORG الأمازون ORG NORP الأمريكية سياتل GPE واشنطن GPE جيف بيزوس شخص 5 يوليو 1994 التاريخ الثانية ORDINAL مجموعة علي بابا ORG amazon.com ORG حريق TV ORG صدى - LOC أجزاء من الكمية المخصصة ORG الأمازون ORG AmazonBasics ORG

إلى جانب نص رمز ثلاثة أحرف هو علامة تشير إلى نوع من الكيان الذي تقوم بعرضه. ويبدو أن نموذجنا قام بعمل جيد! جيف بيزوس هو في الواقع شخص، والتاريخ هو الصحيح، والأمازون هي منظمة، سياتل وواشنطن هي كيان جيوسياسي (البلد أي مدينة، والدولة، وما إلى ذلك). السؤال الصعب هو فقط، TV النار، وصدى واشياء من هذا القبيل هو في الواقع المنتج، وليس للمنظمة. ومع ذلك، فإن نموذج غاب عن غيرها من المنتجات الأمازون مبيعات "تحميل الفيديو / تدفق وسائل الاعلام، mp3 تحميل / تدفق، والكتب السمعية تحميل / تدفق وسائل الاعلام، والبرمجيات، وألعاب الفيديو، والإلكترونيات، والملابس، والأثاث، والمواد الغذائية ولعب الاطفال والمجوهرات،" قد يكون لأنهم في قائمة كبيرة، بحيث يبدو غير مهم نسبيا.

وبشكل عام، وقد تم الانتهاء نموذجنا نريد. تخيل لدينا وثيقة ضخمة، الذي هو الكامل من مئات الصفحات من النص، يمكن للنموذج NLP تسمح بسرعة تعرف ما هي محتويات الوثيقة وكذلك الوثائق كيان الرئيسية نعم.

التشغيل كيان

دعونا نحاول أن نفعل شيئا أكثر الأشياء المناسبة. افترض أن لديك كتلة من النص أعلاه نفسه، ولكن لاعتبارات الخصوصية، وأنك تريد حذف أسماء جميع الأشخاص والمنظمات تلقائيا. مكتبة سبسي لديه وظيفة إزالة مفيدة جدا، ونحن يمكن استخدامه لمسح أي فئة كيان أننا لا نريد أن نرى. على النحو التالي:

# الترميز: UTF-8 سبسي استيراد # # # تحميل نموذج الانجليزية NLP سبسي ل البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg') ### والنص الذي تريد اختبار النص = "Amazon.com، وشركة، والتعامل كما الأمازون، وهو الإلكترونية التجارة والحوسبة السحابية الأمريكية شركة مقرها في سياتل، واشنطن، التي تأسست بواسطة بيزوس جيف يوم 5 يوليو، 1994. عملاق التكنولوجيا هو أكبر سلسلة متاجر الإنترنت في العالم مقاسا الإيرادات والقيمة السوقية، وثاني أكبر بعد مجموعة علي بابا من حيث إجمالي المبيعات، و amazon.com الموقع بدأ باعتباره بيع الكتب على الانترنت و نوعت في وقت لاحق لبيع تنزيل الفيديو / الجري، تنزيل MP3 / الجري، اوديوبوك تنزيل / الجري، البرمجيات، وألعاب الفيديو، والإلكترونيات، والملابس، والأثاث والأغذية ولعب الأطفال، والمجوهرات. وتنتج الشركة أيضا الالكترونيات الاستهلاكية - أوقد القراءة الإلكترونية، وأقراص النار، TV النار، وصدى - وهي أكبر شركة في العالم توفير خدمات البنية التحتية السحابية (IAAS و كما تبيع أجزاء من الكمية المخصصة). الأمازون بعض المنتجات المنخفضة نهاية تحت AmazonBasics العلامة التجارية في المنزل لها ". # # # استبدال كيان خاص مع كلمة "PRIVATE" مواطنه replace_entity_with_placeholder (رمز): ! إذا token.ent_iob = 0 و (token.ent_type_ == "شخص" أو token.ent_type_ == "ORG"): العودة "  " آخر: عودة token.string ### حلقة من خلال جميع الكيانات في جزء من النص وتطبيق كيان بديل فرك صفر (النص): وثيقة = البرمجة اللغوية العصبية (النص) لوالأنف والحنجرة في doc.ents: ent.merge () الرموز = خريطة (replace_entity_with_placeholder، وثيقة) عودة "" .join (الرموز) طباعة (فرك (النص))

جيد جدا! هذا هو في الواقع تقنية قوية جدا. الناس دائما استخدم Ctrl + F الدالة على الكمبيوتر العثور على واستبدال الكلمات في المستند. ولكن استخدام NLP، يمكن أن نجد واستبدال كيان محددة، مع مراعاة معناها الدلالي، وليس فقط النص الأصلي.

استخراج معلومات من النص

نحن مسبقا بتثبيت textacy الأدوات المكتبية عدة شيوعا NLP استخراج المعلومات خوارزمية تقوم على سبسي جرا. وسوف تتيح لنا القيام ببعض خارج بسيط من مربع من شيء أكثر تقدما الأشياء.

طريقة واحدة لتحقيق ذلك هو نص شبه منظمة لاستخراج. وتحلل هذه الخوارزمية بعض المعلومات سبسي نموذج NLP يمكن استخراجها من الطبيعة، والحصول على بعض المعلومات أكثر تحديدا بشأن بعض الكيانات على هذا الأساس! باختصار، يمكننا استخلاص المعلومات على الكيان الذي اخترناه بعض "الحقائق".

دعونا نرى ما يبدو رمز مثل. لهذا واحد، ونحن سوف جميع ويكيبيديا ملخص صفحة من واشنطن، DC، خارج.

# الترميز: UTF-8 سبسي استيراد textacy.extract استيراد # # # تحميل نموذج الانجليزية NLP سبسي ل البرمجة اللغوية العصبية = spacy.load ( 'en_core_web_lg') ### والنص الذي تريد اختبار نص = "" "واشنطن، DC، رسميا مقاطعة كولومبيا ويشار إلى واشنطن أو DC، هي عاصمة الولايات المتحدة الأمريكية. تأسست بعد الثورة الأمريكية حيث مقر الحكومة المستقلة حديثا البلاد، وكان اسمه واشنطن بعد جورج واشنطن، أول رئيس للولايات المتحدة والأب المؤسس. واشنطن هي المدينة الرئيسية في منطقة واشنطن الكبرى، والتي يبلغ عدد سكانها 6131977. ومقعد للولايات المتحدة الحكومة الاتحادية والعديد من المنظمات الدولية، والمدينة هي عاصمة السياسي العالمي المهم. واشنطن هي واحدة من أكثر المدن زيارة في العالم، مع أكثر من 20 مليون سائح سنويا. التوقيع على قانون الإقامة في 16 يوليو 1790، وافق على إنشاء منطقة العاصمة التي تقع على طول نهر بوتوماك على الساحل الشرقي للبلاد. وقدمت دستور الولايات المتحدة للمنطقة اتحادية تحت الاختصاص الحصري للمؤتمر، وبالتالي فإن منطقة غير ليست جزءا من أي دولة. ولايات ميريلاند وفيرجينيا كل أرض تبرعت لتشكيل منطقة الاتحادية، والتي تضمنت المستوطنات القائمة قبل جورج تاون والإسكندرية. الاسم تكريما لفخامة الرئيس جورج واشنطن، تأسست في مدينة واشنطن في عام 1791 لتكون عاصمة وطني جديد في عام 1846، عاد الكونغرس أرض تنازلت أصلا فرجينيا؛. في عام 1871، وإنشاء حكومة بلدية واحدة للجزء المتبقي من منطقة. وكانت واشنطن يقدر عدد سكانها 693972 اعتبارا من يوليو عام 2017، مما يجعلها 20 أكبر مدينة أمريكية من حيث عدد السكان. المتنقلون من المحيط ولاية ماريلاند وفرجينيا الضواحي رفع السكان النهار في المدينة لأكثر من مليون شخص خلال أسبوع العمل. منطقة العاصمة واشنطن، ل الذي منطقة هي المدينة الرئيسية، ويبلغ عدد سكانها أكثر من 6 ملايين، وسادس أكبر منطقة الإحصائية الحضرية في البلاد. وتتركز جميع الفروع الثلاثة للحكومة الفيدرالية الأمريكية في الكونغرس :. الجزئية الامريكية (التشريعية)، رئيس (السلطة التنفيذية)، والمحكمة العليا في الولايات المتحدة (القضائية) واشنطن هي موطن لكثير من المعالم الأثرية والمتاحف الوطنية، والتي تقع في المقام الأول على أو حول المركز التجاري الوطني. وتستضيف المدينة 177 السفارات الأجنبية وكذلك مقر العديد من المنظمات الدولية والنقابات وغير هادفة للربح، جماعات الضغط، والجمعيات المهنية، بما في ذلك منظمة الدول الأمريكية، الرابطة، والجمعية الجغرافية الوطنية، و حملة حقوق الإنسان، ومؤسسة التمويل الدولية، والصليب الأحمر الأمريكي. رئيس بلدية منتخبة محليا ومجلس من 13 عضوا وتخضع منطقة منذ عام 1973. ومع ذلك، يحتفظ الكونغرس السلطة العليا على المدينة وقد نقض القوانين المحلية. سكان العاصمة تنتخب ليس لهم حق التصويت، في واسع مندوب الكونغرس لمجلس النواب ولكن منطقة لا يوجد لديه تمثيل في مجلس الشيوخ، ومنطقة يتلقى ثلاثة الأصوات الانتخابية في الانتخابات الرئاسية على النحو المسموح به بموجب التعديل الثالث والعشرون لدستور الولايات المتحدة، تم التصديق عليه في عام 1961. "" " # # # تحليل النص مع سبسي ### لدينا "وثيقة" متغير يحتوي الآن على نسخة تحليل النص. وثيقة = البرمجة اللغوية العصبية (النص) ### استخراج البيانات شبه منظمة البيانات = textacy.extract.semistructured_statements (الوثيقة، "واشنطن") طباعة ( "**** معلومات من صفحة ويكيبيديا واشنطن ****") عد = 1 لبيان في تصريحات: الموضوع، الفعل، حقيقة = عبارة طباعة (شارع (العد) + "- بيان:" البيان) طباعة (شارع (العد) + "- الحقيقة:" الحقيقة) عد + 1 =

وجد لدينا نموذج NLP ثلاث حقائق مفيدة عن واشنطن، DC من هذا المقال:

(1) واشنطن هي عاصمة الولايات المتحدة

(2) السكان واشنطن، وحقيقة أنها هي عاصمة

(3) العديد من النصب التذكاري الوطني ومتحف

أفضل جزء هو أن هذه هي معظم قطعة مهمة من المعلومات النص!

دراسة متعمقة من NLP

أن يخلص لدينا مقدمة موجزة من NLP. لقد تعلمنا الكثير، ولكن هذه ليست سوى محاولة صغيرة ...

NLP العديد من التطبيقات أكثر، مثل الترجمة، بوت، فضلا عن أكثر تحديدا وتحليل أكثر تعقيدا من نص الوثيقة. أكثر من عمل اليوم هو استخدام التعلم العميق، خصوصا المتكررة الشبكة العصبية (RNNs) على المدى القصير والذاكرة (LSTMs) شبكة طويلة الأجل لكاملة.

إذا كنت تريد أن تلعب لنفسك المزيد من البرمجة اللغوية العصبية، ونظرة وثيقة سبسي وثائق textacy هو مكان جيد للبدء! سترى مثال على العديد من الطرق لمعالجة النصوص تحليل واستخراج المعلومات المفيدة. كل شيء بسرعة وبسيطة، يمكنك الحصول على بعض قيمة كبيرة جدا. لقد حان الوقت أن تفعل أشياء أكبر وأفضل مع عمق التعلم!

الروابط المرجعي:

https://spacy.io/usage/linguistic-features#entity-types

https://spacy.io/api/doc

الرابط الأصلي:

https://towardsdatascience.com/an-easy-introduction-to-natural-language-processing-b1e2801291c1

الدخن الرسم المفاهيمي MIX II التعرض: الفك أضيق من الجيل النهائي الشاشة نسبة

غليان العالمي! قمة شركاء ما يونتشنغ الأولمبية الشتوية، "سحابة الألعاب الأولمبية" لتحديث عيون العالم

ما زيدان عندما المحمولة جوا جامعة الصين الدوري، ورفع مستوى CUFA يعني لكرة القدم للشباب؟

العديد من الأفكار والطرق (على) تتجسد الكشف عن الهدف في الجبال لRCNN

بعد أن تزوجت جيجي في شركته الخاصة، والآن إدراج الشركة في البورصة ذهبت الى دق الجرس

أذكر حقا الغاز! الوشق الصين اليابان لاول مرة عرض للأزياء في نيويورك، وقد فاز تصميم الصيني وسط تصفيق العالم!

التقدم في التعلم العميق تطبيقها على علوم المواد

"3820000 أمريكا الشمالية شباك التذاكر الأرض رينجرز، والحد الأقصى عام 1993، وتطلعات عدة أيام قاعة بطل شباك التذاكر واحد.

ما هو نوع الهاتف الشحن السريع تعتبر جيدة؟ أولا، أربع نقاط لديك لفهم

الكلاسيكية خوارزميات الرؤية الحاسوبية للتجزئة صورة

وكشفت الفنانة JJ الحفل الذي استقال تقريبا، ماكياج جين تشانغ الشفة الخروج ليهتف

ستعقد وي التعرض للفائقة تشغيل السيارة NIO EP9 إلى البلاد مارس