بعد أن قدمت جوجل 450،000 مرات أنواع مختلفة من تصنيف النص، ولخص مشترك "الخوارزمية اختيار نموذج"

الأنفس جي تقرير جديد

المصدر: developers.google.com

ترجمة: شياو تشين، سلالة مينغ

[استعراض فاز جي الجديدة أطلقت جوجل رسميا عن "تصنيف النص" دروس. من أجل تعظيم حدد نموذج تصنيف النص لتبسيط عملية صنع تجربة جوجل نص التصنيف بعد حوالي 450K، ولخص مشترك "الخوارزمية اختيار نموذج"، جنبا إلى جنب مع الرسم البياني الكامل، وعملي جدا.

تصنيف النص (تصنيف النص) مجموعة متنوعة من الخوارزمية هي جوهر أنظمة البرمجيات على نطاق واسع لمعالجة البيانات النص. على سبيل المثال، يتم تحديد تصنيف البريد الإلكتروني استخدامات البرامج النصية بواسطة رسالة يتم إرسالها إلى صندوق البريد الوارد الخاص بك أو تصفيتها إلى مجلد البريد المزعج، منتدى للنقاش تستخدم تصنيف النص لتحديد ما إذا كان يجب على المستخدم وضع علامة تعليق غير مناسب.

وهنا اثنين موضوع تصنيف أمثلة (تصنيف الموضوع)، والمهمة هي أن تصنف على أنها وثائق نص محدد مسبقا مجموعة من المواضيع. معظم تصنيف الموضوع إلى كلمات النص القائم.

ويستخدم التصنيف الموضوعي في علامة البريد المزعج ردت، يتم تصفيتها هذه الرسائل إلى مجلد البريد المزعج

تصنيف آخر النص شيوعا هو تحليل المشاعر (تحليل المشاعر)، والغرض منها هو تحديد قطبية النص (قطبية): أنه يعبر عن وجهة نظر نوع . هذا ثنائي "مثل / كره" التصويت ل، أو باستخدام مجموعة أكثر تفصيلا من الخيارات، مثل من سنة إلى خمس نجوم تصنيف نجوم. أمثلة على تحليل المشاعر تتضمن تحليلا المشاركات على تويتر، وذلك لتحديد ما إذا كان الناس مثل فيلم النمر الأسود، أو استدلال على التصور العام العام للعلامة التجارية نايك الجديدة من تعليقات وول مارت.

وهذا دليل يعلمك بعض من المفتاح إلى حل مشكلة الجهاز تصنيف النص تعلم أفضل الممارسات. سوف تتعلم:

  • تصنيف النص باستخدام آلة التعلم لحل مشكلة رفيعة المستوى، ونهاية لهذه الغاية سير العمل (العمل)

  • كيفية اختيار النموذج الصحيح للمشكلة تصنيف النص

  • كيفية استخدام نموذج تنفيذ TensorFlow من اختيارك

سير العمل تصنيف النص

ما يلي هو آلة التعلم وحل المشكلات سير العمل

  • خطوة 1: جمع البيانات

  • الخطوة 2: استكشاف البيانات الخاصة بك

  • الخطوة 2.5: اختر نموذجا *

  • الخطوة 3: إعداد البيانات

  • الخطوة 4: بناء وتدريب وتقييم النموذج الخاص بك

  • خطوة 5: ضبط hyperparameter

  • خطوة 6: نشر نموذج

آلة التعلم لحل مشكلة العمل

[ملاحظة] "تحديد نموذج" ليست خطوة رسمية في سير العمل للتعلم آلة التقليدية، ولكن اخترت مشكلة نموذج مناسبة مهمة حرجة، يمكن أن يكون واضح وتبسيط العمل في الخطوة التالية.

"تصنيف النص" دورة مكثفة جوجل في دليل تعلم الآلة يشرح بالتفصيل كل خطوة، وكيفية تنفيذ هذه الخطوات باستخدام بيانات النص. ونظرا لضيق المساحة، وتغطي هذه المقالة أساسا هاما لأفضل الممارسات والقواعد من الإبهام، استنادا إلى 2.5 الخطوات تسليط الضوء على: كيفية اختيار النموذج المناسب وفقا للهيكل الإحصائي لمجموعات البيانات، وتوفير الرسم البياني الكامل .

خطوة 1: جمع البيانات

جمع البيانات وهي أكثر الخطوات الهامة من أجل حل أي مشاكل الرقابة تعلم الآلة. كيف جيدة وتتكون من مجموعة من البيانات، المصنف النص الخاص بك وهناك أكثر من جيدة.

إذا كنت لا ترغب في حل مشكلة معينة، ولكن المهتمين في استكشاف تصنيف النص، ثم هناك الكثير من مجموعة البيانات مفتوحة المصدر مجانية. الريبو جيثب التالية كافية لتلبية الاحتياجات الخاصة بك:

https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py

من ناحية أخرى، إذا كنت تتعامل مع مشكلة معينة، تحتاج إلى جمع البيانات اللازمة. تستخدم العديد من المؤسسات للوصول إلى بياناتهم API العام - على سبيل المثال، تويتر API أو نيويورك تايمز API، يمكنك استخدام هذه العثور على البيانات المطلوبة.

وإليك بعض الأشياء الهامة التي يجب أن نأخذ في الاعتبار عند جمع البيانات:

  • إذا كنت تستخدم API العام، يرجى فهم القيود المفروضة على API قبل استخدامها. على سبيل المثال، بعض API للاستعلام عن مجموعة الحد الأقصى للسرعة.

  • تدريب سبيل المثال (في الفترة المتبقية من هذا الدليل يسمى سبيل المثال)، كان ذلك أفضل. وهذا سوف يساعد نماذج تعميم أفضل.

  • تأكد من أن كل فئة أو الموضوعي للعدد العينات ليست الاختلالات المفرطة. وهذا هو، يجب أن يكون كل فئة عددا كبيرا من العينات.

  • أمثلة ضمان التغطية الكافية للفضاء المدخلات الممكنة، وليس فقط لتغطية الحالات الشائعة.

في هذا الدليل، ونحن سوف تستخدم مجموعات البيانات فيلم استعراض شجونه لتوضيح سير العمل. هذه مجموعة بيانات نشرت الناس جمعها على الموقع الإلكتروني استعراض شجونه الفيلم، والتسمية المقابلة ( "إيجابية" أو "سلبي")، تشير إلى ما إذا كان المراجع يحب الفيلم. هذا هو مثال نموذجي لمشاكل تحليل المشاعر.

الخطوة 2: استكشاف البيانات الخاصة بك

  • مجموعات تحميل البيانات

  • تحقق من البيانات

  • المؤشرات الرئيسية جمع

بناء ونموذج التدريب ليست سوى جزء من العمل. معرفة مسبقة من خصائص البيانات يمكن أن تساعدك على بناء نموذج أفضل. وهذا يعني ليس فقط أعلى قدر من الدقة يعني أيضا بيانات التدريب أقل، أو أقل موارد الحوسبة.

الخطوة 2.5: اختر نموذج

في هذه المرحلة، التي جمعناها مجموعات البيانات، وفي عمق فهم لطبيعة الحرجة للبيانات. وبعد ذلك، وفقا لمقاييس جمعنا في الخطوة 2، ينبغي أن ننظر ينبغي النماذج التي تستخدم تصنيف . وهذا يعني طرح الأسئلة مثل "كيف لجعل إدخال البيانات النص إلى الأعداد المتوقعة خوارزمية؟" (وهذا ما يسمى البيانات السابقة للتجهيز وكمية موجهة)، "ما هو نوع من نموذج يجب أن نستخدمها؟"، "ما ينبغي أن تستخدم نموذجنا معلمات التكوين؟ "، وهلم جرا.

بعد عقود من البحث، وكنا قادرين على الحصول على كميات كبيرة من البيانات مسبقا تجهيز وخيارات التكوين نموذج. ومع ذلك، فإن عددا كبيرا من الخيارات الممكنة للاختيار من بينها إلى حد كبير زيادة تعقيد وحجم المشكلة تحديدا في متناول اليد. مع الأخذ بعين الاعتبار أفضل خيار قد لا يكون واضحا، فإنه يفترض وجود الحل هو أن تحاول أن تفعل كل خيار ممكن، عن طريق الحدس استبعاد بعض الخيارات. ومع ذلك، هذه التكلفة باهظة الثمن جدا.

في هذا الدليل، ونحن نحاول تحقيق أقصى قدر من تبسيط عملية اختيار نموذج تصنيف النص. لمجموعة معينة من البيانات، وهدفنا هو العثور على حساب الوقت المطلوب مع التقليل من التدريب، وتحقيق القريب الحساب أقصى الدقة. نحن نستخدم 12 مجموعات من البيانات لأنواع مختلفة من المشاكل (وخصوصا في موضوع تحليل المشاعر والتصنيف) وهناك عدد كبير (~ 450K) التجربة ، وتستخدم تقنيات مختلفة وبيانات مختلفة تجهيزها الهندسة المعمارية النموذجية بالتناوب لكل مجموعة البيانات. هذا يساعدنا على إيجاد أفضل المعلمات مجموعة البيانات التي تؤثر في اختيار.

ما يلي اختيار خوارزمية نموذجية (اختيار خوارزمية النموذجي) و الرسم البياني وهو ملخص لدينا عدد كبير من التجارب.

إعداد وبناء نموذج البيانات خوارزمية

1. حساب عدد العينات / عدد ونسبة كل كلمة في العينة.

2. إذا كانت هذه النسبة أقل من 1500، ثم يتم وضع علامة على النص كما ن غرام والاستخدامات تصنيف بسيط نموذج MLP (فرع الأيسر من الرسم البياني أدناه):

. تتحلل عينة في كلمة ن غرام، تحويل ناقلات إلى ن-غرام.

B. أهمية لمكافحة ناقلات النتيجة، و20K وفقا لاختيار فرع السابقة.

ج. بناء نموذج MLP.

3. وإذا كانت النسبة أكبر من 1500، ثم تسلسل النص يتم وضع علامة، وباستخدام نموذج تصنيف sepCNN (فرع الأيمن من مخطط):

تتحلل عينة في كلمات؛ 20K كلمة قبل اختيار التردد وفقا ل.

ب. مكان العينات في تسلسل كلمة في ناقلات.

ج. إذا كان عدد من الكلمات من العدد الأصلي من عينات / لكل عينة هذه النسبة أقل من 15K، ويستخدم لصقل المدربين sepCNN قبل نموذج ممكن للحصول على أفضل النتائج.

4. قياس الأداء للنموذج، تعيين بيانات نموذج للعثور على أفضل التكوين مع قيم المعلمات مختلفة على مدى.

في مخطط التالية، لبنات الصفراء تمثل البيانات وإعداد نموذج. مربع رمادي والصندوق الأخضر يشير إلى خيارات ونحن ننظر لكل عملية. وتشير المربعات الخضراء الخيارات الموصى بها لكل عملية.

يمكنك استخدام هذا الرسم البياني كنقطة انطلاق للتجربة الأولى، لأنه يسمح لك للحصول على دقة جيدة بتكلفة منخفضة الحسابية. يمكنك الاستمرار في تحسين النموذج المبدئي في تكرار لاحقة.

مخطط تصنيف النص (انقر للعرض تكبير)

هذا الرسم البياني للإجابة سؤالين رئيسيين:

  • أي نوع من خوارزميات التعلم أو النماذج التي ينبغي أن نستخدمها؟

  • كيف ينبغي لنا أن إعداد البيانات من أجل دراسة فعالية العلاقة بين النص والتسميات؟

  • الجواب على السؤال الثاني يعتمد على الإجابة على السؤال الأول، ونحن سيعتمد البيانات وتجهيزها على الطريقة التي تختار نموذج . نماذج يمكن تنقسم إلى فئتين: يستخدم نموذج المعلومات كلمة يأمر ( نماذج سلسلة )، وسيتم التعامل معها على أنها نص كلمة فقط "أكياس" (مجموعات) نموذج ( ن-غرام نموذج ).

    وتشمل نماذج سلسلة الشبكة العصبية التلافيف (CNN) ، المتكررة الشبكات العصبية (RNN) والمتغيرات منه . ن-غرام يتضمن نموذج الانحدار اللوجستي ، MLP بسيط (MLP أو بالكامل متصلة الشبكات العصبية)، التدرج شجرة تعزيز (التدرج عزز الأشجار) و SVM (SVM).

    في التجربة، لاحظنا أن "عدد عينة" (S) وأداء نموذج نسبة "عدد من الكلمات لكل عينة" (W هو) لديه ارتباط.

    عندما قيمة صغيرة من نسبة ( < 1500) عندما، كمدخل إلى ن-غرام صغير متعدد الطبقات المستقبلات (الخيار أ) أداء أفضل، أو على الأقل كنموذج سلسلة جيدة. MLP يعرف بسهولة وفهمها، ولكن أقل من يأخذ سلسلة نموذج الوقت محسوب.

    عندما يكون هذا قيمة كبيرة من نسبة ( >  = 1500) عندما نستخدم نموذج سلسلة (الخيار B). في الخطوة التالية، يمكنك وفقا لحجم قيمة هذه النسبة، وقراءة مباشرة على أجزاء من نموذج المحدد.

    لمجموعة البيانات استعراضنا شجونه، ونسبة عدد الكلمات عدد العينات / كل عينة في 144 أو أقل. وهذا يعني أننا سوف خلق نموذج MLP.

    الخطوة 3: إعداد البيانات

    • ناقلات N-غرام

    • ناقلات تسلسل

    • التسمية كمية موجهة

    الخطوة 4: بناء وتدريب وتقييم نموذج

    • بناء الطبقة الأخيرة

    • بناء ن غرام نموذج

    • بناء تسلسل نموذج

    • مدرب

    خطوة 5: ضبط hyperparameter

    خطوة 6: نشر نموذج

    استنتاج

    تصنيف النص هو المشكلة الأساسية في تعلم الآلة، فمن يشارك في مجموعة متنوعة من التطبيقات المنتج. في هذا الدليل، فإننا سوف النص سير العمل تصنيف تقسيمها إلى عدة خطوات. لكل خطوة، وضعنا وفقا لخصائص بيانات محددة، توصيات تنفيذ المخصصة. على وجه الخصوص، ونحن بناء على عدد من العينات مع كل عينة في نسبة عدد الكلمات، تشير إلى أي نوع من النموذج الذي تستخدمه، والتي يمكن أن تجعل من نموذج بسرعة أقرب إلى الأداء الأمثل. تستند خطوات أخرى على نموذج المحدد لهذه الخطوة. اتبع التوصيات الواردة في هذا الدليل، الرجوع إلى الملحق من رمز وتدفق الرسم البياني سوف تساعدك على تعلم وفهم، والحصول بسرعة على حلول لمشكلة تصنيف النص.

    "تصنيف النص" دليل العنوان:

    https://developers.google.com/machine-learning/guides/text-classification/

    فاز جي الجديد AI WORLD 2018 تذاكر الجمعية العامة] [الطائر المبكر للبيع!

    سيتم عقد جديد جي وون 20 سبتمبر AI WORLD 2018 مؤتمر في مركز المؤتمرات الوطني ببكين، دعا تعلم الآلة العراب، مع التركيز على أستاذ آلة الاستخبارات في جامعة كارنيجي ميلون توم ميتشل، Maike سي نمر مرقس، تشو تشى هوا، وتشنغ تاو كبير، تشن Yiran منظمة العفو الدولية وقادة آخرين ومصير البشرية.

    موقع الجمعية العامة الرسمي:

    الآن وحتى 19 أغسطس، جي الأنفس الجديد رقم طبعة محدودة من تذاكر وقت مبكر الطيور التواصل الوثيق مع الشركة الرائدة عالميا في منظمة العفو الدولية، والذكاء الاصطناعي، شاهد الصناعة العالمية على قدم وساق.

    • النشطة تذاكر الصف تصل:

    • تذكرة خط نشط رمز ثنائي الأبعاد:

    يمكن أن يؤدي غراما من الشهرة؟ نظرا جيلي ثلاث نصائح لمتابعة مينغ

    جوجل AutoML صحيح ثم الله؟ تعلم عمق "دي حير"

    من اليابان وإيطاليا إلى بكين، وأجنبي هو في الحقيقة "موجات"

    سياسات ريادة الأعمال والتأمين ضد البطالة والتوظيف يتم تنفيذ الدعاية، هانتشونان في العمل

    للبقاء في الاعتبار لست نادما على ذلك: تعليق على الإمبريالية الأمريكية لا ينصح لمعظم النماذج الخمسة

    قبل الجولة يجب أن نرى! تشينغمينغ نصائح السفر، وكلها جافة!

    انخفضت الدراجات النارية الثلوج في الجليد تخرج عن نطاق السيطرة، اتخذت زي الشرطة من القفز الى النهر لإنقاذ الناس ......

    نقل هانتشونان الثانية من التقرير المرحلي (9.5)

    سيارة جديدة في كل مكان، حيث خمسة طرازات من أكثر من المتوقع؟

    "يسمح للتجار لقضاء AI" الخادم AI هو أكثر ملاءمة لعالية الأداء التعلم العميق تدريبية نموذجية

    انتشار الأفارقة الخنازير حمى في جميع أنحاء البلاد، وذلك اعتبارا من 23 أكتوبر، وتفشي تنطوي على 12 مقاطعة و 31 مدن!

    لا نسميها "ليتل جزر المالديف"، وهنا لدينا معظم غروب الشمس الجميلة في العالم ......