أمثلة + الرمز، فلن تخافوا لدراسة بناء عمق البحث كود المكتبة بعد

مذكرة لى فنغ الشبكة: هذه المادة هي عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، والعنوان الأصلي كيفية إنشاء كائنات الطبيعية اللغة الدلالية بحث عن التعسفي مع ديب التعلم، مؤلف هامل حسين.

الترجمة | تاو زاو بينغفيه وانغ سينغيو التدقيق | ليو جياو التشطيب | MY

هذا ويعرض المادة حدا لمثل نهاية كيف يمكنك بناء الدلالي كائنات نظام البحث. مؤلف المشروع هو هامل حسين وهو-HSIANG وو.

الصور Hubot

الدافع المشروع:

لا يمكن إنكار أن محرك البحث الحديثة هي قوية جدا: يمكنك جمع دائما المعلومات من الإنترنت إلى المعرفة. لكن العائق الوحيد هو أنه ليس حلا سحريا. في كثير من الحالات، والبحث تماما كما هو البحث عن الكلمات الرئيسية صارمة، أو أيضا عندما يكون الكائن غير النص، والبحث سيكون من دون جدوى. وبالإضافة إلى ذلك، فإن البحث عن الكلمات الرئيسية صارم لا يسمح للمستخدمين البحث الدلالي، مما يعني أنك لا يمكن الاستعلام إلى المعلومات ذات الصلة.

اليوم، ونحن نشارك الحد الأدنى للجدوى استنساخه للمنتج، من أجل شرح كيف يمكن لأي كائن ! على وجه التحديد، ونحن سوف تظهر لك كيفية إنشاء نظام من التعليمات البرمجية الثعبان البحث الدلالي - ولكن يمكن أيضا أن تمتد طريقة للبحث كيان آخر (مثل صورة أو مقطع صوت)

لماذا البحث الدلالي فكيف مثيرة؟ النظر في المثال التالي.

كود بايثون للبحث الدلالي. * يرجى الرجوع إلى نص إخلاء المسؤولية

الرقم المقدم استعلام البحث هو "بينغ REST API وعودة النتائج." ومع ذلك، يمكن البحث بإرجاع نتيجة معقولة، حتى لو كان رمز وتعليق النتائج لا تحتوي على كلمة بينغ، REST API أو.

وهذا يدل على قوة البحث الدلالي: بالإضافة إلى الكلمة، وهذا يعني أننا يمكن أيضا أن محتوى البحث، وبالتالي تحقيق أقصى قدر من الفرص للمستخدمين العثور على المعلومات المطلوبة. البحث الدلالي مهم - على سبيل المثال، فإن هذه العملية بحث تسمح للمطورين إلى رمز البحث في المستودع، حتى لو لم تكن مألوفة مع بناء الجملة من قانون عنها، أو لم تدخل الكلمة الصحيحة. الأهم من ذلك، يمكنك تعزيز هذه الطريقة للبحث عن الكائنات الأخرى، مثل الصور والصوت والمحتويات الأخرى لم نفكر حتى الآن على.

إذا كان هذا لا يكفي الإثارة، وحتى الآن تظهر لك النظام بعد الانتهاء من قراءة هذا البرنامج التعليمي يمكن بناؤها:

في بعض الأحيان، عندما لا يمكن بناء موقع جميل، وأود أن استخدام أجهزة الكمبيوتر المحمولة Jupyter وقدرات سحرية لخلق عروض مخصصة. هذا هو وسيلة سريعة لعمل عرض تفاعلي.

فهم بديهية من عملية بناء ناقلات مساحة مشتركة

قبل الخوض في التفاصيل الفنية، حول أفضل السبل لتحقيق البحث الدلالي لديه فهم بديهية. الفكرة الأساسية هي البحث عن النص والكائنات (الرمز) الذي نريده للبحث عن التمثيل المشترك في الفضاء ناقلات نفسه، على النحو التالي:

أمثلة: 2 والنص يجب ان يكون مماثلا لمكافحة ناقلات كود تمثل، كما ترتبط بشكل مباشر

والهدف هو رسم خريطة للرمز إلى الفضاء ناقلات في اللغة الطبيعية، وبعد قياس جيب التمام تشابه بعد، وصف مفهوم من نفس المجموعة (النص، رمز) مجموعة ناقلات من أكثر حداثة، بغض النظر عن (النص، رمز) ناقلات بعيدا.

هناك العديد من الطرق لتحقيق هذا الهدف، ومع ذلك، سوف نظهر طرق استخدام نموذج ما قبل التدريب. هذا النموذج يتميز المستخرجة من الرمز وصقل نموذج لهذا، حتى أن إمكانات خرائط كود الفضاء ناقلات ميزة للغة الطبيعية. ملاحظة: نستخدم هذا المصطلح في النواقل وإدراج هذا البرنامج التعليمي بالتناوب.

المعرفة شرط أساسي

قبل قراءة هذا البرنامج التعليمي، ونحن ننصح تآلف مع ما يلي:

  • تسلسل تسلسل نموذج: المعرفة هو المفيد مراجعة البرنامج التعليمي من قبل.

  • تقرأ بعناية هذه الورقة وفهم كامل للطرق المنصوص عليها فيه. استخدمنا مفهوم مماثل في هذه المقالة.

لمحة عامة:

وينقسم هذا البرنامج التعليمي إلى خمس خطوات محددة. وتظهر هذه الخطوات التالية، فإنه يمكن أن تكون بمثابة مرجع مفيد عند قراءة البرنامج التعليمي. عند إكمال البرنامج التعليمي، وإذا نظرنا إلى الوراء في هذا المخطط سوف تساعدك على معرفة المزيد حول كيفية يتم تجميع كافة الخطوات معا.

العقل رسم خريطة لهذا البرنامج التعليمي. HD نسخة هنا

1-5 كل خطوة الموافق دفتر Jupyter هنا. سنناقش كل خطوة بالتفصيل لاحقا.

الجزء الأول - اقتناء وتحليل البيانات

الملاحظات الجزء الأول

مجموعة غوغل من البيانات في مجتمع المصادر المفتوحة جيثب، وتخزينه في الاستعلام الشامل. هذا هو البيانات العامة جيدة المحددة لمجموعة متنوعة من المشاريع العلمية البيانات مثيرة للاهتمام، بما في ذلك هذا المشروع! عندما قمت بالتسجيل لحساب جوجل الغيمة، سوف تحصل 300 $، وهو ما يكفي للاستعلام عن البيانات اللازمة لهذه العملية. الحصول على البيانات مريحة للغاية لأنه يمكنك استخدام الاستعلام SQL لتحديد نوع الملف، وغيرها من البيانات الوصفية عن المستودع الذي تبحث عنه، مثل عدد من المقدمة وعدد من الإضرابات والنجوم الأخرى.

ملاحظات يصف خطوات الحصول على البيانات. لحسن الحظ، قد أكملت عدد من الماشية فريق Google Kubeflow هذه الخطوات، والبيانات التي تخزن أنها قريبة إلى ضرورة ممارسة الاستخدام، والاطلاع على المعلومات.

بعد جمع البيانات، نحن بحاجة إلى حل هذه الملفات (رمز، سلسلة الوثائق) مجموعة في شكل بيانات. لهذا البرنامج التعليمي، قد تكون وحدة الشفرة قد تكون وظيفة على مستوى أعلى أسلوب. نحن نريد لجمع هذه البيانات مجموعات كنموذج بيانات التدريب، ونموذج يمكن تلخيص (محددة جدا سنقول مرة أخرى) رمز. نحن نريد أيضا أن حذف جميع التعليقات في التعليمات البرمجية، ولم يتبق سوى رمز نفسه. ويبدو أن هذا يمكن أن يكون مهمة شاقة. ولكن في المكتبة القياسية است مكتبة بيثون، والتي يمكن أن تستخدم لاستخراج والأساليب، وسلسلة الوثائق. يمكننا تحويل الشفرة عن طريق أول شجرة في بناء الجملة مجردة، ثم تشغيله مرة أخرى رمز الحزمة أستور، والتي سوف إزالة التعليقات في التعليمات البرمجية. لا ينطوي هذا البرنامج التعليمي مبدأ كتب القواعد المجردة والأدوات ذات الصلة، ولكن هذه هي المواضيع مثيرة جدا للاهتمام.

المشهد عن هذا الرمز الاستخدامات، كما هو مفصل في الملاحظات

من أجل إعداد نموذج البيانات، يمكننا أن نفصل البيانات إلى تدريب مجموعة والتحقق منها واختبار مجموعات. نحن أيضا حفظ الملف الأصلي (سنعلن اسم النسب)، من أجل تسجيل أصل كل (رمز، سلسلة الوثائق) المجموعة. وأخيرا، ونحن نطبق نفس شفرة التحويل لا يحتوي على سلاسل الوثائق، وتبقى منفصلة، لأننا نريد أيضا أن تكون قادرة على بحث هذه الرموز.

الجزء الثاني: بناء التعليمات البرمجية باستخدام حثي طراز الجهاز Seq2Seq

الجزء 2 الملاحظات

من الناحية النظرية، يمكن أن نبني على Seq2Seq نموذج لتلخيص الرمز، وجيثب قضية ملخص بالضبط نفس كما وصفنا من قبل - نحن استخدام رمز الثعبان بدلا من القضايا البيانات الأصلية، وبدلا من استخدام عنوان قضية docstring.

ومع ذلك، فإن مسألة النص جيثب الفرق هو أن الرمز لا تنتمي إلى اللغة الطبيعية. للاستفادة من قانون المعلومات، يمكننا إدخال التحسين في مجالات محددة، مثل LSTMs القائم على شجرة دلائل محسوسة والنحوي (جملة علم tokenization). لالبساطة، في هذا الرمز نحن تعليمي عن معالجة اللغة الطبيعية (وأخيرا حصلت على نتائج معقولة).

......

تريد مواصلة القراءة، يرجى الانتقال إلى مجتمعنا AI Yanxishe: الشبكي: //club.leiphone.com/page/TextTranslation/707

المزيد من المحتوى المثير لجعل AI Yanxishe.

مختلف المجالات بما في ذلك رؤية الكمبيوتر، ودلالات الكلام، سلسلة كتلة، الطيار الآلي، واستخراج البيانات، التحكم الذكي، لغات البرمجة وغيرها تحديثها يوميا.

نهاية الهاتف يمكن مسح الوصول رمز ثنائي الأبعاد

لى فنغ لى فنغ صافي صافي

جوجل وأمازون النار الشامل، وهو AI الحرب رقاقة غير مسبوقة

الذي تشن Jinfei ذلك؟ ما هي العلاقة مع ليو Yifei تشن Jinfei

الجيل الخامس-نيسان سيرينا إعلان الشكل التكنولوجيا ركوب الطيار الآلي

خط سامسونج الكامل للطي شاشات مجهزة شياو 855، مصدر البرامج الثابتة لم يتم العثور على أوريون 9820!

تم حذف أبل فان بينغ بينغ تلعب العاطفة لا يطاق

جوائز التصوير Jingdong المسابقة، مشاركتكم أكثر إثارة

نايك كورتيز 45 الذكرى باعتبارها جهة رئيسية في متناول اليد لإنشاء سلسلة لا نلاحظ، ما هو الفنان الذي؟

المسيل للدموع السنوي نظام العملاقة، "كوريا الشمالية تتوعد لقضاء المساء" 22 فبراير لا ننسى لقاء "الصنبور" قوية "امواى" البقشيش التوقعات

وتحده سيرة BMW مدير التصميم ترك منصبه مجموعة متنوعة من المركبات الثقيلة

الشركات التابعة الألغام أو آثار سلبية كبيرة على الأداء، وأسهم التعدين سوسيتيه جنرال ليكون بارد؟

تحديث MIX الدخن تدوين يشتبه سخن الجديدة، وحجم MIX3 المعدات 5G النسخة قد يكون قليلا!

ملك المجد بطل المجموعة Yujiebingqing - يوجي غزاة