جامعة سنغافورة للتكنولوجيا وتصميم: استنادا إلى انتشار الشائعات المدونات الصغيرة وجدت دراسة هيكل النووي

ACL 2017 ورقات قصيرة

وبناء على المدونات الصغيرة الشائعات انتشرت من وجدت دراسة هيكل النووي

لا عدد، توقع نهج! تلقائي إلى المعاجم ثقة التعلم عن نص قصير

جامعة سنغافورة للتكنولوجيا والتصميم

جامعة سنغافورة للتكنولوجيا والتصميم

خلاصة وصفنا وسيلة فعالة لالشبكات العصبية لمعرفة تلقائيا القاموس العاطفي، دون الاعتماد على أي موارد اليدوية. مستوحاة من الأسلوب أسلوب NRC، الذي يتم إعطاء أفضل النتائج باستخدام دفعة كبيرة في النص التعبيرات SemEval13، وذلك باستخدام يعرف قيمة PMI بين الكلمات وتويتر الكلمات العاطفية السمات العاطفية. وتبين لنا أنه من خلال استخدامها للتنبؤ علامة سقسقة العاطفية يمكن أن تتعلم إلى القاموس أفضل. باستخدام الشبكة العصبية بسيطة جدا، وتحت نفس كمية البيانات طريقة NRC يمكن تحقيق أداء أكثر كفاءة. تبين التجارب أنه بالمقارنة مع أفضل طريقة الحالية، قاموس متعدد اللغات لدينا على دقة تحسنت بشكل ملحوظ.

1 مقدمة

يحتوي العاطفي الانفعالي العاطفي القاموس كثافة القطبية و / أو كلمات أو عبارات (Baccianella، الخ 2010، تابوادا وآخرون، 2011؛ تانغ وآخرون، 2014a، رن وآخرون، 2016a). وقد استخدمت في يرتكز على القانون (تابوادا وآخرون، 2011). وغير خاضعة للرقابة (تيرني، 2002؛ هو جين تاو وليو 2004؛ Kiritchenko وآخرون، 2014). أو الإشراف (محمد وآخرون، 2013؛ تانغ وآخرون 2014b، فو تشانغ، 2015) تحليل المشاعر على أساس تعلم الآلة. لذلك، وبناء الثقة المعجم هو موضوع البحوث الهامة من تحليل المشاعر.

لبناء الثقة معجم أنه تم اقتراح العديد من الأساليب. الطريقة التقليدية اليدوية من وضع علامات على سمات العاطفية كلمة (هو جين تاو وليو، 2004؛ ويلسون وآخرون، 2005؛. تابوادا وآخرون، 2011.). ميزة واحدة من القاموس وهذا هو ذات جودة عالية. من ناحية أخرى، وهذه الأساليب هي مضيعة للوقت، تتطلب معرفة واللغة المجالات المتخصصة. في الآونة الأخيرة، وقد تم استخدام الأساليب الإحصائية لمعرفة تلقائيا القاموس العاطفي (Esuli وSebastiani، 2006؛. Baccianella وآخرون، 2010؛ محمد وآخرون، 2013). هذه الطرق الاستفادة من مصادر المعرفة (برافو-ماركيز وآخرون، 2015) أو البيانات المسمى المشاعر (تانغ وآخرون، 2014a)، مقارنة مع القاموس اليدوي، قد تحسنت بشكل ملحوظ التغطية.

في طريقة تلقائية، محمد وآخرون (2013) توصي باستخدام الرموز أو سقسقة مع الهاشتاج عن بيانات التدريب. والميزة الرئيسية هي غنية في بيانات التدريب، يمكنك تجنب الشرح اليدوي. على الرغم من أن المشاعر أو موضوع العاطفي في وصف العلامة سقسقة قد تكون صاخبة، ولكن الأبحاث الحالية (العودة وآخرون، 2009؛. باك وباروبيك 2010، أغاروال، وآخرون، 2011؛. Kalchbrenner وآخرون، 2014؛ رن آخرون الناس، 2016b) أثبتت أن البيانات عن فعالية المصنف عاطفة إشراف.

يتم احتساب محمد وآخرون (2013) لجمع عاطفة القاموس المعلومات المتبادلة (PMI) من قبل نقطة بين الكلمات والمشاعر. المفردات مما أدى يعطي أفضل النتائج (Nakov وآخرون، 2013) في SemEval13 المعيار. في هذه الورقة، وتبين لنا أن القاموس يمكن أن يتعلم بشكل أفضل عن طريق تحسين دقة التنبؤ مباشرة إلى القاموس كما المدخلات والمخرجات المشاعر. العلاقة بين أسلوبنا محمد وآخرون (2013) وتوزيعها وزعت على نحو مماثل بين الكلمات يمثله "التنبؤ" و "الكونت" الارتباط (الباروني وآخرون، 2014) ..

ونحن نتابع Esuli وSebastiani (2006) باستخدام اثنين من سمات بسيطة لتمثيل كل كلمة العاطفة، والعاطفة التنبؤ باستخدام الشبكة العصبية بسيطة جدا من Mikolov وآخرون (2013) إلهام. هذه الطريقة يمكن استخدام نفس البيانات ومحمد وآخرون (2013)، وبالتالي الاستفادة من حجم وأبعاد الاستقلال. تبين التجارب أن النموذج العصبي يعطي أفضل النتائج بلغات المعايير القياسية. قاموسنا رمز ومتاحة للجمهور في https://github.com/duytinvo/acl2016.

2 الأعمال ذات الصلة

الأساليب القائمة التلقائي معجم المشاعر التعلم يمكن أن تقسم إلى ثلاث فئات. في الدرجة الأولى مع المعلومات العاطفية الحالية لزيادة القاموس القائمة. على سبيل المثال، Esuli وSebastiani (2006) وBaccianella وآخرون (2010) باستخدام الصفوف (tuple) (نقاط البيع، NEG، NEU) لتمثيل كل كلمة، ونقاط البيع، NEG وNEU تمثل الدافع والسلبية والحياد من خلال من وردنت استخراج ميزات لتدريب هذه الخصائص. هذه الأساليب التقليدية تعتمد على هيكل تصنيف القاموس يقتصر على لغة محددة.

الطريقة الثانية يمتد القاموس القائمة، وعادة علامات يدويا. على سبيل المثال، تانغ، وآخرون. (2014a) من الشبكة العصبية يمثل العاطفة التعلم صغيرة تدل فيما بعد ضغط من أجل الكلمات، ومن ثم توسيع من خلال مجموعة من الكلمات البذور ناقلات عاطفة الفضاء قياس المسافة بين الكلمات. برافو-ماركيز وآخرون (2015) يدويا باستخدام كلمة ميزة تصنيفها توجيه القاموس القائمة. يكون هذه الأساليب أيضا موارد محدودة في مجال الشرح اليدوي واللغة.

طريقة القسط الثالث من خلال تجميع إحصاءات عن البيانات لبناء من نقطة الصفر على قاموس كبير. تيرني (2002) المقترحة لتقدير كلمة عن طريق حساب PMI بين البذور والبحث ضرب معنويات قطبية. محمد وآخرون (2013) طريقة لتحسين عشرات المشاعر تحسب باستخدام بيانات الإشراف عن بعد من الغمز فيه بدلا من البذور. ويمكن استخدام هذه الطريقة لاستخراج قاموس متعدد اللغات المشاعر تلقائيا (سلامة وآخرون، 2015؛. محمد وآخرون، 2015)، من دون استخدام البيانات الشرح الاصطناعية، مما يجعله أكثر مرونة من طريقتين الأولى. نحن نعتقد أن هذا هو معيارنا.

نحن نستخدم ومحمد وآخرون (2013) نفس مصدر البيانات لتدريب القاموس. ومع ذلك، ونحن نستخدم أساليب التعلم آلة لتحسين دقة التنبؤ من الرموز، بدلا من الاعتماد على PMI. للاستفادة من كميات كبيرة من البيانات، ونحن نستخدم الشبكة العصبية بسيطة جدا لتدريب القاموس.

لدينا نموذج تخطيطي من FIG 1

3 خط الأساس

محمد وآخرون موجود باللغة اليابانية (2013) باستخدام الرموز دفعة والعلامات المرتبطة بها العلامة تويتر العاطفة. وبالنظر إلى مجموعة من الرسائل دفعة والتسمية، كلمة w من درجة الانفعال (SS) وتحسب على النحو التالي:

التي تمثل نقاط البيع التسمية الأولى، يمثل NEG التسمية سلبية. PMI المعلومات المتبادلة بين نقاط التمثيلية، وهي

هنا التكرار (ث، ونقاط البيع) هو عدد تكرارات إلى الأمام كلمة نص دفع ث في، التكرار (ث) ومجموع تردد الإحضار كلمة ث في، التكرار (نقاط البيع) هو العدد الكلي للكلمة الأمام دفع هنا، N هو العدد الكلي للكلمات الإحضار نحت. يتم احتساب مؤشر مديري المشتريات (ث، NEG) بطريقة مشابهة. وهكذا، المعادلة 1 تساوي:

4 نموذج

ونحن نتابع Esuli وSebastiani (2006)، واستخدام الصفات الايجابية والسلبية لتعريف القاموس. على وجه الخصوص، شكل كل كلمة ث = (ن، ع)، حيث n يمثل سلبية، يمثل ص إلى الأمام (ن، pR). 1، إعطاء دفعة ضعت TW = W1، W2، ...، سفل، ويستخدم الشبكة العصبية بسيطة للتنبؤ الأبعاد ذ لها تسمية العاطفي، حيث هو سلبي، هو تويت إيجابية. توقع احتمال العاطفي تويتر ذ يحسب على النحو التالي:

هو ثابت حيث W على مصفوفة قطري (WR2X2).

ونحن نتابع العودة وآخرون (2009) لتحديد التسمية التي كتبها المشاعر تويت العاطفية. كل علامة أولا ثم تدرب على يد تهيئة سلبية عشوائية والنتيجة السمة الإيجابية التي تعلم إشراف. يستخدم الخطأ عبر الكون باعتباره دالة الهدف:

تعلم العكسي ل(ن، ع) عن كل كلمة. قواعد التحديث استخدام AdaDelta (زيلر، 2012)، وافقت على استخدام العشوائية الأمثل التدرج النسب. جميع نماذج تدريب أكثر من 5، حجم دفعة إلى 50. نظرا لبساطته، وهذا الأسلوب هو سريع جدا، في Intelr Core من وحدة المعالجة المركزية i7-3770 @ 3.40 غيغاهرتز، 35 دقيقة في التدريب مستديرة أكثر من 9 ملايين قواميس المشاعر تويتر.

5 تصنيف المشاعر

القاموس الناتجة يمكن استخدامها لتصنيف غير خاضعة للرقابة والعاطفة تحت إشراف المصنف العاطفي. ويتحقق السابق (تابوادا وآخرون، 2011؛ Kiritchenko وآخرون، 2014) من خلال تلخيص كل كلمة عشرات عاطفة معينة الواردة في الوثيقة. إذا الإجمالي أكبر درجة ثقة من 0، تصنف الوثيقة بأنها إيجابية. هنا يتطلب سوى سمة إيجابية لتمثيل القاموس، ونحن نستخدم الفرق بين السمات الإيجابية والسلبية (ع ن) والنتيجة.

تحت إشراف طريقة استخدام المعجم المشاعر كسمة من تصنيف تعلم الآلة. وبالنظر إلى ملف D، ونحن نتابع تشو وآخرون (2014) وطريقة استخراج الخصائص التالية:

عدد من العلامات العاطفي D، حيث التسمية في القاموس العاطفة عاطفة النتيجة غير الصفر كلمة العلامة؛

توثيق النتيجة المشاعر التقييم:

.

أعلى درجة:

.

D في كلمة سلبية إيجابية خارج.

D الكلمة الأخيرة نتيجة الانفعال.

مرة أخرى، ونحن نستخدم

حيث أن كل كلمة واي النتيجة العاطفية، لأن هذه الأساليب تعتمد على قيمة درجة ثقة واحدة من كل كلمة.

تجربة 6

6.1 الإعداد التجريبية

بيانات التدريب : من أجل الحصول على بيانات التدريب تلقائيا، ونحن نستخدم API للمطورين تويتر من فبراير 2014 إلى سبتمبر 2014 الزحف الانجليزية والرموز العربية. نحن (2009)، لإزالة جميع الرموز المستخدمة للبيانات التدريب جمع من تغريدات وفقا العودة وآخرون، وتانغ وآخرون (2014b)، وأقل من سبعة تجاهل كلمة سقسقة. تم استخدام تويتر بلغة (Gimpel وآخرون، 2011) ليمهد للمعالجة جميع التغريدات. أقل سيتم حذف من 5 مرات في المفردات النادرة. كانت الروابط HTTP وأسماء المستخدمين < HTTP و < المستخدم استبدالها. تدريب الإحصائيات المعروضة في الجدول 1.

مجموعة التدريب القائم على جدول الرموز 1

الجدول 2 Semeval13 من النتائج الإحصائية

المصنف المشاعر : نحن نستخدم LibLinear (فان وآخرون، 2008.) وتصنيف إشراف على مجموعات البيانات القياسي. C معلمات بحث الشبكة باللغة الإنجليزية على مجموعة البيانات (هسو وآخرون، 2003) لتطوير مجموعة دقيقة من التعديلات، وحملت خمس مرات ورقة العمل العربي عبر التحقق من الصحة.

تقييم : نتابع Kiritchenko وآخرون (2014) دقة (P)، نذكر (R) وF1 قيمة (F) لتقييم تصنيف غير خاضعة للرقابة. ونحن نتابع هسو وآخرون (2003) واستخدام الدقة (ACC)، وضبط معايير لتقييم تصنيف إشراف.

رمز والقاموس : لدينا لتحقيق الإعمال نموذجنا وما ينجم عنها من القاموس بيثون العاطفي من قبل https://github.com/duytinvo/acl2016.

الجدول 3 SemEval13 النتائج على مجموعة البيانات (الإنجليزية)

تقسيم الجدول مستوى 4 ASTD

الجدول 5 ASTD (عربي) النتائج

الجدول 6 مثال عشرات العاطفة، * يشير قطبية غير صحيحة

قاموس اللغة الإنجليزية 6.2

تم استخدام إشارة SemEval13 تويتر (Nakov وآخرون، 2013)، وتعيين اختبار اللغة الإنجليزية. من أجل تقييم طرق غير خاضعة للرقابة والإشراف عليها، ونحن نتابع تانغ وآخرون (2014b) وKiritchenko وآخرون (2014) الأسلوب، تويت حذف محايدة. وتظهر الإحصاءات في الجدول 2. قارنا لدينا القاموس وNRC (محمد وآخرون، 2013)، HIT القاموس (تانغ وآخرون، 2014a) وWEKA (برافو-ماركيز وآخرون، 2015). كما هو مبين في الجدول رقم 3، القسم 5 باستخدام تصنيف المشاعر غير خاضعة للرقابة (UNSUP)، بالمقارنة مع شركائنا في القاموس عدد NRC القاموس، والتي تبين نتائج أفضل. في كلتا الحالتين، بالمقارنة مع الطرق الأخرى، قاموسنا تنتج أفضل النتائج.

6.3 القاموس العربية

نحن نستخدم معيار العربية تويتر بيانات ASTD، الذي يحتوي على حوالي 10000 لدينا تويت 4 علامات التبويب (نبيل وآخرون، 2015): الهدف (الكائنات)، سلبية (NEG)، إيجابية (نقاط البيع) وذاتية المختلط (خلط). ويبين الجدول 4 معيار تقسيم ASTD. ونحن نتابع (2015) بيانات نبيل وآخرون من خلال الجمع بين التدريب والتحقق من صحة نموذج التعلم. قارنا مفرداتنا وفقط NRC المفردات (سلامة وآخرون، 2015)، منذ تانغ وآخرون (2014a) وبرافو-ماركيز وآخرون (2015) يعتمد على الموارد البشرية، وهي ليست متوفرة. كما هو مبين في الجدول رقم 5، في قاموسنا متوازنة والبيانات غير المتوازنة وضع عرضت على الدوام على أفضل أداء، والتي تبين "التنبؤ" ميزة "عدد" من.

6.4 تحليل

ويبين الجدول رقم 6 لدينا (2013) ومثال على أساس القاموس التنبؤ استنادا محمد وآخرون القاموس حساب. أولا، يمكن القاموس اثنين تعكس بدقة قوة معجم المشاعر (مثل سيئ، سيئ وأسوأ)، مشيرا إلى أن لدينا وسيلة يمكن أن تتعلم بفعالية كما PMI ارتباط إحصائي. ثانيا، وجدنا أنه في كثير من الحالات قاموسنا يعطي القطبية الصحيحة (مثل الاقتضاء، كسول)، ولكن القواميس محمد وآخرون (2013) لم يفعل ذلك. من أجل مقارنة كميا المفردات التي نستخدمها هو جين تاو وليو (2004) اليدوية علامات المفردات كمعيار الذهب لحساب دقة قطبية بهم (أي المسمى) ل. نحن قاموس التلقائي مع هو جين تاو وليو (2004) تقاطع كمجموعة الاختبار الذي يحتوي على 3270 كلمة. دقة القطبية من قاموسنا هي 78.2، في حين محمد وآخرون (2013) مقابل القاموس هو 76.9، مما يدل المزايا النسبية لنهجنا. ثالثا، من خلال وجود خاصيتين (ن، ع) بدلا من خاصية، لدينا تركيبة من حيث القاموس أفضل (على سبيل المثال،

).

7. الاستنتاجات

نحن نستخدم الشبكة العصبية ذات كفاءة عالية تلقائيا بناء القصير معجم المشاعر النص، مما يشير إلى أن التدريب هو أفضل مما كان متوقعا على أساس التهم التدريب من أجل التعلم من تويت كبيرة مع الرموز في. في مستوى التقييم، مقارنة مع دولة تقوم على الفرز، ويوفر طريقة أفضل دقة في لغات متعددة.

ورقة رابط التحميل:

هناك AI الفاعل، ولكن أيضا لمعرفة ما يذكر اللحوم حصيرة اللعب؟

مقارنة متعة مقياس الألوان؟ من الأفضل أن ننظر في اختبار الأسد الصغير ~

سيلعب الهواتف الذكية، 03 ثواني فهم طوق غرام آلة سيارة الوسائط المتعددة

استمرار IP الابتكار البرنامج! "يي يان كلمتين" طرق جديدة لتحقيق كأس آسيا

الصوت الأساسي اليوم | طلاب مدهش! محلية الصنع "الروبوتات إعادة التأهيل"

كيف نحكم الخاصة قناة الصغرى واحدة تم حذف؟ هذه الأساليب يمكن التحقق سرا

أكثر من 20 مليون الفاخرة سيارات الدفع الرباعي، إلى سيارة أودي Q3 ذكر، المالك: استهلاك الوقود سوبر حقا مفاجأة

المعرفة تشجيانغ | نقطة انطلاق جديدة، وهانغتشو الأعمال تفتح فصلا جديدا في تطوير الفوز

صاح الإعلان التفاح: لا شيء P الصور الشخصية للتجرؤ؟ الأصدقاء: أنا، في عداد المفقودين فون X

بيتكوين غاب عن حمى البحث عن الذهب؟ هيا بواسطة سلسلة كتلة كسب القليل من المال!

مدينة الأمور تشجيانغ | صغيرة التخفيضات الضريبية للمشاريع الصغيرة ثم قم بتوسيع حولها! 7 الصفقة الجديدة التخفيضات الضريبية أرباح الشركات التي تشجيانغ؟

نصائح | حذار! ساعة واحدة غاضبة ما يعادل ست ساعات العمل الإضافي، وهناك ثمانية المخاطر القاتلة ......