يان ليكون عمل جديد ل 473 نوعا من النموذج النقيض كبير، في اليابان وكوريا الجنوبية التي ترميز لاستخدام تصنيف النص في نهاية المطاف؟

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: فقط في اليوم الآخر، يان ليكون (الاسم الصيني: يانغ Likun، والمعروفة باسم شبكات الأب الالتواء) وطلابها تشانغ شيانغ نشرت العمل الجديد "، أي ترميز هو أفضل لنص على أرخايف تصنيف باللغة الصينية والانجليزية واليابانية والكورية؟ ". جعلت هذه المادة على نطاق واسع التجارب المقارنة تحتوي على 473 نوعا من النماذج، والغرض من هذه التجربة هو أن المهام تصنيف النص في مختلف لغات مختلفة (الإنكليزية والصينية والكورية واليابانية) مستوى (UTF-8، وشخصيات، الخ) والترميز مختلفة تم اختبار تأثير الجمع المستخدمة في نماذج مختلفة (خطي النماذج، fastText، ConvNets الخ) (كيس من بين الكلمات، الخ)، للحصول على سلسلة من الاستنتاجات القيمة. شبكة لى فنغ هنا سيتم تحليل بالتفصيل في هذه الورقة.

تصنيف النص هو الأكثر معالجة اللغة الطبيعية شيوعا لأحد التطبيقات، مثل المواد التصنيف التلقائي، والبريد الإلكتروني التصنيف التلقائي، والتعرف على البريد المزعج، وتصنيف المشاعر المستخدم وهلم جرا، وهناك أمثلة كثيرة في الحياة. ومع ذلك، نظرا للاختلافات كبيرة بين لغات مختلفة (على سبيل المثال كما الصينية والكورية واليابانية والإنجليزية لغات مثل اللغات CJK هذه الرسائل هي مختلفة جدا في هذه العملية). على سبيل المثال، في الآونة الأخيرة يستخدم شخص ما على مستوى طابع الترميز الشبكة العصبية (ConvNets) لمعالجة مشكلة تجزئة اللغة كلمة، ولكن للأسف، مع شخصية للتعامل مع اللغة CJK ليست جيدة جدا، لأن هذه المرة عدد الأحرف يمكن أن تصبح كبيرة جدا . وذلك في عملية ونحن قادرون على ايجاد أداء نموذج جيد على جميع هذه اللغة الطبيعية؟ نهج المؤلفين هو سرد سلسلة من النماذج (473)، ومن ثم مقارنة أدائها.

مجموعة بيانات (مجموعات البيانات)

وتعتبر هذه المادة اللغات الأربع، وهي الصينية والانجليزية واليابانية والكورية. الكتاب هي من التعليق العام (الصينية، والمطاعم)، Jingdong (الصينية، متجر)، راكوتين (متجر على الانترنت، اليابانية)، 11 (متجر والكورية)، والأمازون (الإنجليزية، متجر)، وفينيكس (الصينية والأخبار) تشاينا ديلي (اللغة الصينية، والأخبار)، NYnews (الإنجليزية، والأخبار) موقع الزحف ثمانية ثماني مجموعات البيانات تصنيف الشعور. حيث ينقسم Jingdong، راكوتين، 11 الأمازون ومجموعة البيانات كله في شبه طريقة وتصنيف مزدوجة الطبقة نجمة (1،2 سلبية النجوم، التخلص منها 3 نجوم و 4 و 5 نجوم هو إيجابي). وعلاوة على ذلك، لأن هذه المواقع هي أربعة أنواع تسوق، حتى أنها يمكن أن تستخدم لتجميع مجموعتين مشتركة من البيانات (نجمة نقطة نظام كامل ومزدوجة)، منذ مجموعتي البيانات هي خليط من أربع لغات، يمكن استخدامه القدرة على اكتشاف مختلف نموذج معالجة اللغة. لتلخيص ما مجموعه 14 مجموعات البيانات تصنيف الشعور.

ثانيا، على مستوى الترميز (ترميز مستوى)

ما يسمى مستوى الترميز، فإنه ببساطة هي أصغر وحدة من الوقت للنظر في تحليل النص. الترميز المستوى المذكور في يتألف النص: حرف (أحرف)، UTF-8 (البايت) من الحروف الرومانية (الحروف بالحروف اللاتينية)، وكلمة (كلمات)، على حد تعبير روما (كلمات بالحروف اللاتينية) وما شابه ذلك.

ثالثا، (آلية ترميز) نظام الترميز

اختيار هنا عمق التعلم نموذج نموذج شبكة التلافيف (ConvNets)، وفقا لطبقات الشبكة إلى شبكة واسعة (12 طبقات) وصافي صغير (8 طبقات). في شبكة التدريب نموذج الإلتواء، يجب أن يكون الجهاز النص المشفر إلى الاعتراف بها. يتضمن ثلاثة آلية الترميز في هذه المقالة، هي: ترميز الخط حرف (حرف رسومي)، ترميز الساخنة واحد (ترميز الساخنة واحد)، جزءا لا يتجزأ من الترميز (التضمين).

1، الخط ترميز الأحرف (حرف رسومي)

ما يسمى الشكل الذي يتم التعرف عليها في حرف قراءة، مثل السكتات الدماغية الأحرف الصينية "الفطيرة" في اللغة الإنجليزية أو "A"، هو شكل يمكن التعرف عليه. في هذه المقالة سوف مؤلف تحويل كل رسومي في مصفوفة بكسل 16 * 16. ومن الواضح أن هذه الآلية الترميز (الحروف هي أكثر وفرة) هي مناسبة جدا للغات CJK. ومع ذلك، فإن هذا النهج فقط في مستوى الحرف، يمكنك بناء فقط نوع من نموذج شبكة الالتواء، ودعا GlyphNet.

2، واحد الساخنة ترميز (ترميز الساخنة واحد)

كود الساخن، هو حدسي كم عدد الدول وكم بت هناك، وحرف واحد فقط هو 1، والآخر ككل 0 الرموز. على سبيل المثال، رمز الساخن الدولة الترميز هي الدولة 6: 000001،000010،000100،001000،010000،100000. إذا كان رمز الأبجدية الإنجليزية، فإنك تحتاج إلى طول رمز حالة من 26. وأكبر ميزة هي أن شفرة الساخن يشفر تحتاج فقط للمقارنة بين حالة المقارنة عندما قليلا، بحيث منطق فك يتم تبسيط إلى حد ما. ولكن من الواضح، إذا كان عدد الأحرف تحت كبيرة جدا (لغات CJK)، وطول رمز رمز الساخن سوف تكون كبيرة جدا. ومع ذلك، في هذه المقالة، والكتاب النظر طريقتين لحل هذه المشكلة: الأول هو أن كل من النص (UTF-8)، وسلسلة من البايتات، المشفرة في مستوى البايت، الذي بني الإلتواء نموذج الشبكة يسمى مستوى البايت OnehotNet، والثاني هو نص روما، أي مشفرة في الأبجدية الإنجليزية (وتجدر الإشارة إلى أنه في هذه الطريقة ما يعادل مستوى البايت يتم ترميز في النص اللاتيني)، ودعا بناء نموذج شبكة التلافيف بالحروف اللاتينية OnehotNet. ميزة معالجة على مستوى البايت في أنه يمكن تطبيقها على أي لغة التي، بغض النظر عن اللغة في الأحرف أو عدد من الكيانات على مستوى الخط، بحيث يمكن أيضا بسهولة أن يطبق عليهم كجك اللغات.

3، وجزءا لا يتجزأ من الترميز (التضمين)

ما يسمى التعليمات البرمجية المضمنة، يتم تمثيل أي كل كيان من قبل ناقلات طول ثابت. على سبيل المثال، لسلسلة من مثل "ABACBFG"، ربما نصل في النهاية: A ناقلات المقابلة هو ، B هو متجه المقابلة (قيم فقط تخطيطي هنا) . لأن هذا هو عشوائي تمثيل متجه التهيئة، وهي ليست كما صارمة كرمز الساخن وحده، بالمقارنة مع واحد الساخنة الشفرة بحيث سيكون أصغر في الذاكرة. ميزة أخرى هي أنه يمكن تطبيقها على أي مستوى الترميز. لذلك، في هذه المقالة، مؤلف باستخدام جزءا لا يتجزأ من الترميز لترميز مقارنة مستويات مختلفة من ترميز بايت، الأحرف والكلمات والحروف بالحروف اللاتينية، والكلمات، وما إلى ذلك من روما، هي جزء لا يتجزأ في رمز طول الموجه 256.

ويسمى نموذج الشبكة التلافيف التي شيدت في هذه الطريقة EmbedNet. هذا النموذج يمكن ترميز بشكل منفصل في الأحرف، بايت، وشخصيات بالحروف اللاتينية، والكلمات، وكانت كلمات بالحروف اللاتينية خمسة مستويات، ما مجموعه خمسة نماذج.

وخلاصة القول، أي ما مجموعه (1 + 2 + 5) * 2 = 16 نوعا من نموذج شبكة التلافيف.

ثالثا، النموذج الخطي وfastText نموذج

بالإضافة إلى نموذج شبكة الالتواء، في هذه الورقة، اختار الكتاب أيضا الخطية نموذج (النموذج الخطي) تتم مقارنة ونموذج fastText.

1، والنموذج الخطي (النموذج الخطي)

الطريقة التقليدية في عملية تصنيف النص يهدف بشكل مصطنع بعض الميزات، واستخراج ملامح من المستند الأصلي، ومن ثم تحديد المصنفات مثل LR، SVM، نموذج تدريب للتصنيف النص. أكثر كلاسيكية ميزة طريقة استخراج مثل التردد (ممثلة المادة سهل)، TF-الجيش الإسرائيلي وما شابه ذلك. عدد ما يسمى تردد اسم الأسلوب يوحي بأن رقما قياسيا وإحصاءات لكل كيان النص (مثل حرف، كلمة، كلمة بالحروف اللاتينية) التوزيع، من أجل تصنيف. ولكن بعض الكلمات مثل "أ"، "ب"، وعلى الرغم أكثر عدد من الحوادث، ولكن في الواقع لا معنى له. حتى انه اقترح البديل نموذج خطي TF-الإسرائيلي. TF هذا التردد المدى، لا يزال يمثل تواتر العناصر التي تظهر في النص، ولكن انضم الوزن الجيش الإسرائيلي (معكوس ثيقة تردد)، وكلما يظهر التردد في جميع الوثائق، أصغر الجيش الإسرائيلي المدى في العينة. إحصاءات ذلك TF * الجيش الإسرائيلي يمكن استخدام نتيجة لهذا المشروع، الذي هو أبسط من الإحصاءات تردد أكثر دقة.

2، نموذج fastText

نموذج fastText 2016 Joulin، الذي قدم نموذجا تصنيف سريع. هذا النموذج يتضمن ملامح softmax التجزئة الهرمية وغيرها من التقنيات، وهذا النموذج يمكن معالجة إدخال النص بمعدل عدة أوامر من نموذج ConvNets الحجم. fastText نموذج جوهرها غير الخطية لا علاقة تماما طبقة الشبكة العصبية 2.

في ما سبق نموذجين، اختارت الكتاب الطابع، كلمة، بالحروف اللاتينية ثلاث الترميز كلمة مستوى، ولكن هناك لم يتم حل مشكلة، وهذا هو، كم الإحصائي وحدة / القاضي؟ وهذا ينطوي على مفهوم: ن-غرام. وهذا يعني أن النص نظرا إلى طول البند (المدى) ن من التسلسل. على سبيل المثال، "تركت اليوم بعد"، في 2 غرام هم: "هل الآن، اليوم، أيام العطلة، والإجازات، وهمية، وحتى الان." اختيار الخطية نموذج 1 غرام و 5 غرام نوعان، اختر 1 غرام، 2 غرام ونموذج 5 جرام هو fastText المؤلف.

وباختصار، شيدت الكتاب ما مجموعه 3 * 2 * 2 = 12 نوعا من النماذج الخطية و 3 * 3 = 9 أنواع نموذج fastText.

رابعا، نتائج

لأكثر من أربع لغات، الصينية واليابانية والكورية ومجموعه مشترك من 11 مجموعات البيانات، كل مجموعة بيانات له 37 النماذج؛ الانجليزية ثلاث مجموعات البيانات، ولكل منها 22 نماذج. ما مجموعه 473 نماذج للمشاركة في المقارنة. تمثيل البيانات في الجدول نسبة الخطأ التدريب.

قضى وقتا كل نموذج ليست هي نفسها، أن حجم والفرق كبير جدا. تم الحصول مؤلف من مليون عينات من مجموعات البيانات شيئين مشتركة من خلال تدريب البيانات المقارنة التالية. هذه المقارنة فقط كمرجع، فإن الوضع يختلف تبعا لبيئة محددة الحوسبة.

V. الخاتمة

وبمقارنة الجدول نسبة الخطأ هي فوق خلص الباحثون إلى أن:

1، fastText نموذج نتائج العلاج، اليابانية، الكورية النص (CJK لغة النص) المشفرة في فئة شخصية أفضل، وأفضل النص الانكليزي هو نتيجة لمستوى معالجة النصوص الترميز.

2، لنموذج الخطي وfastText، ترميز مستوى الكلمة اللغات CJK في القضية رقم تقسيم الكمال فعالة جدا.

3، ونظام أفضل الترميز هو بايت التلافيف على مستوى الشبكة المشفرة الساخنة (على مستوى البايت ترميز الساخنة واحد). وهذا يدل على أن الشبكة يمكن أن نفهم النص التفاف من التمثيل على مستوى أدنى، ويوفر وسيلة متسقة وموحدة للتعامل مع لغات متعددة.

4، مقارنة fastText إلى شبكات التفاف هم أكثر ميلا إلى أكثر من المناسب، بالمقارنة مع النموذج الخطي أيضا لم تظهر المزيد من القدرة على تمثيل (سعة التمثيل).

وبطبيعة الحال، على الرغم من أن الكتاب في هذا العمود للمقارنة بين 473 نوعا من النماذج، ولكن لا يزال ليس كل شيء. مثل ورقة نموذج التعلم عمق سوى نموذج شبكة الالتواء، ولكن في الواقع هناك بعض نماذج أخرى مثيرة للاهتمام، مثل شبكة الدورية (شبكات المتكررة) وهلم جرا. ويبدو أن المؤلف قد خططت للدراسة بعد شبكة الدورية، في حين أيضا تحسين نماذج شبكة الالتواء، نرى أي نوع من التأثير سيكون.

وقال لى فنغ شبكة الأخبار إلى ورقة تستخدم في شفرة المصدر ومجموعات البيانات ثم يتم نشرها بالكامل.

مقالات: الشبكي: //arxiv.org/pdf/1708.02657.pdf

طريق الحرير

يان ليكون عمل جديد ل 473 نوعا من النموذج النقيض كبير، في اليابان وكوريا الجنوبية التي ترميز لاستخدام تصنيف النص في نهاية المطاف؟

مجموعة بيانات (مجموعات البيانات)

ثانيا، على مستوى الترميز (ترميز مستوى)