ستانفورد NLP تفسير ACL 2018 الورق - نماذج NLP ليعادل غويا لتصحيح قواعد المعارضة

تقنية مراجعة AI حسب: في الآونة الأخيرة، أصدرت مجموعة معالجة اللغات الطبيعية ستانفورد بلوق وظيفة، وركزت على ريبيرو، ماركو توليو، سمير سينغ وكارلوس Guestrin أوراق الكتابة "قواعد الخصومة تعادل غويا من أجل التصحيح نماذج البرمجة اللغوية العصبية" (NLP من أجل التصحيح النموذج يعادل غويا حكم المعارضة). ورقة هي ACL نشرت 2018 ورقة في عام 2018، المجلد 1 "جمعية اللسانيات الحاسوبية 56 السنوي قائع المؤتمر": ورقات طويلة. AI تقنية مراجعة هذا الفيلم بوين جمعت تلخيصها على النحو التالي.

متانة هو مشروع القضية الجوهرية. كما الجسر المتحرك كما انها تحتاج لتحمل الرياح القوية، لذلك لا ينهار كما ضيقة كجسر تاكوما. ويحتاج أيضا إلى أن يكون مثل مفاعل النووي التسامح مع الخطأ، حتى أن أول محطة للطاقة النووية في حادث فوكوشيما لن يكون قد حدث.

كما أننا نعتمد بشكل متزايد على تكنولوجيا - عند الجسر المتحرك، والطاقة النووية، أو نموذج البرمجة اللغوية العصبية، ويجب علينا رفع مستوى الثقة في التكنولوجيا. قوة بالضبط ما نحتاجه في هذه الأنظمة.

أظهرت الدراسات المبكرة جيا ويانغ في عام 2017 أن نماذج NLP عرضة للتدخل البشري في النص الصغير - ببساطة إضافة أو إزالة نموذج يمكن كسر، وإجبارهم على إنتاج أجوبة لا معنى لها. دراسات أخرى، مثل belinkov الأبحاث والبحوث بسك، إبراهيمي وآخرون، ويبين عدم استقرار النظام، وهذا هو، وإزالة أو استبدال حرف ما يكفي لتدمير هذا النموذج. الضوضاء المقدمة في البيانات تسلسل ليس دائما أمرا سيئا: شيه آخرون 4 أظهرت أن العمل في وقت مبكر، واستخدام كلمة أو اضطراب على مستوى حرف (الضوضاء) الترجمة الآلية أو لغة نموذج التدريب هو في الواقع يحسن الأداء.

ومع ذلك، فإن المفهوم الأصلي إيان غودفلوو، فمن الصعب بالانزعاج هذه الأمثلة المشار إليها بأنها "مثال المواجهة." وتقترح هذه الورقة طريقة لوصفها من قبل اثنين من الخصائص في واحدة مثال معاكس نص:

جملتين من دلالات مساواة : SemEq (س، س ')

التنبؤ تسمية اضطراب : F (خ) و (خ ')

في مناقشاتنا، ولوحظ أنه، من وجهة نظر لغوية، من الصعب تحديد "ما يعادل غويا" لأننا لم يكن لديك تعريف دقيق وموضوعي "معنى". وبعبارة أخرى، حتى لو كان جملتين يمكن أن تنتج نفس التأثير على مهمة معينة، فإنها لا تحتاج إلى أن يكون مرادفا. في "ما هو أعادة الصياغة" يمكن العثور عليها في مناقشة أكثر دهاء من تفسير اللغة الإنجليزية؟ هذا هو بهجت وHovy نشرت في عام 2012 مقالا في النص، ويعتبر التكافؤ الدلالي أن يكون الحكم البشري "ما يعادلها."

صعوبات التكافؤ الدلالي (مثل البحار)

ريبيرو، الذين يعتقدون أن تلبي سوى سلسلة من هذين الشرطين هو نص الأمثلة معارضة حقيقية. أنها تستخدم هذه الوظيفة مشيرا إلى الظروف الانتقالية للاتصال في شكل:

"التمحور" هو الإحصائية تكنولوجيا الترجمة الآلية Bannard وكاليسون-بورتش المقترحة في عام 2005. تفسير إمكانية متعددة اللغات ورقة تفسير أطروحة Lapata، الذين في عام 2017 نشرت محددة لقياس التكافؤ الدلالي. إذا سلسلتين الإنجليزية E1 و E2 يمكن ترجمتها إلى اللغة الفرنسية بسلسلة و، فإنه يمكن أن يفترض أن معنى السلسلتين هي نفسها.

الشكل (1)

الشكل 2

وصف البرنامج المحوري من النموذج توليد FIG 1، على افتراض الاستقلال بين وجود E1 و E2، نظرا و: ص (E2 | E1، و) = ص (E2 | و). يصف الشكل 2 نموذج Multipivot: سوف يترجم الجمل الإنجليزية في جمل متعددة في الفرنسية، ثم ترجمت إلى اللغة الإنجليزية وتوليد إعادة التفسير. يمكن multipivoting الترجمة العكسية تكون بسيطة فك المتوسط - كل سلسلة فك باستخدام الناتج الإجمالي الفرنسية والإنجليزية احتمال أن كل علامة فك وجود احتمال مرجح.

تفسير احتمال إعادة الترجيح

لنفترض أن نموذج تفسير المنطق denormalization (س '| خ)، وتعطى مجموعة من نموذج تفسير x يفترض يمكن أن تتولد نظرا العاشر، ثم يتم تمثيل احتمال وجود تفسير معين على النحو التالي:

علما بأن في القاسم، عن الجمل ولدت (بما في ذلك الحكم الأصلي ولدت) مشاركة هذه الاحتمالات. إذا كان الحكم مع العديد من المعاني ولدت بسهولة (المشار إليها ارتفاع قيمة )، ثم ص (س | خ) وجميع ص الأخرى (س '| خ) ستكون صغيرة جدا، مع ع (س' | خ) مقسوما ص ( س | خ) سوف تحصل على قيمة كبيرة (ما يقرب من 1). لتفسير الجملة الصعب، ص (س | خ) يجب أن تكون أكثر من ص (س '| خ) هو أكبر من ذلك بكثير، وهذه المرة مع ع (س' | خ) مقسوما ص (س | خ) سوف تحصل على أصغر القيمة (وثيقة إلى 0).

وبناء على هذا الحدس، ريبيرو وآخرون توصية درجة حساب الدلالي S (س، س ') كمقياس لجودة الترجمة الشفوية:

طريقة توليد بسيطة يرضي الجملة المعادلة 1 هو العكس: الجملة التفسير يتطلب تفسير الجيل نموذج س. يمكنك محاولة هذه الصيغة لمعرفة ما إذا كانت توقعات ستغير نتائج النموذج: و (خ ') و (خ).

التكافؤ الدلالي ضد قواعد (سيرز)

التقييمات البيئية العدائية إيراد أمثلة على ذلك مثالا واحدا من كل من ولدت بشكل مستقل. في هذه الخطوة، وضعت الكتاب هذه البحار المحلية خطوة إلى قواعد عالمية (سيرز) من. على النحو المحدد هنا هو قاعدة بسيطة من منفصلة تحويل ص = (أ ج). على سبيل المثال، ص = (فيلم فيلم) قد تصبح ص ( "عظيم الفيلم!") = "فيلم عظيم!".

إعطاء النص (س، س)، حيث SEA (س، س ') = 1، ريبيرو وآخرون اختيار السينية لس' الحد الأدنى نص يمتد مستمرة، بما في ذلك المجاور سياق (بما في ذلك كلمة قبل وبعد النص) ، وتسلسل المشروح وPOS (جزء من الكلام) علامة. والخطوة الأخيرة هي لتوليد كلمات وتركيبات جديدة منها POS المنتج التسمية، والأمثلة التالية يمكن أن ينظر إلى أن خطوة بخطوة كيفية القيام بذلك:

"ما هو لون علبة؟" - >  "ما هو لون علبة؟"

الخطوة 1: (ما - >  التي)

الخطوة 2: (ما لون - >  أي لون)

الخطوة 3: (ما لون - >  أي لون)، (ما نون - >  التي نون)، (WP اللون - >  أي لون)، (ما لون - >  اللون WP)

لأن يتم تطبيق هذه العملية على كل زوج (س، س)، ونحن نفترض أن الناس على استعداد فقط لحكم B، ريبيرو وغيرها يوصي فحص من قبل | R | B، ثم المعيار سيكون:

احتمال الحكم جدا أي ما يعادل غويا عالية: يتم ذلك عن طريق صيغة

المراد قياسها. ببساطة، من خلال تطبيق هذه القاعدة، فإن الغالبية من مجموعة x يمكن أن تترجم إلى تفسير ما يعادل غويا. في ورقة، = 0.1.

تفسير متعددة رقم : حكم R يمكن أيضا تغيير التفسير يجب أن تتولد تنبؤات النموذج. وعلاوة على ذلك، يجب أن يكون تفسير التشابه الدلالي بين بعضها البعض مرتفعة جدا، قد يكون

تقييمها.

لا التكرار : قواعد ينبغي تنويع والغطاء كما الكثير السينية.

من أجل تلبية المادة القياسية المذكورة أعلاه 3، ريبيرو وآخرون المقترحة هدف تحسين النماذج الفرعية التي يمكن أن يتحقق مع خوارزمية الجشع هي نظريا الحل الأمثل لضمان عاملا ثابتا.

وصف عام الخوارزمية كما يلي:

اختبار والتحقق

المؤشرات الرئيسية ريبيرو، الذي يشعر بالقلق من أن نسبة التمديد، انها تعرف بأنها مجموعة التحقق من صحة، وكم من الأمثلة من المتوقع بشكل صحيح، ولكن بعد استخدام القاعدة التنبؤ هو الخطأ.

وخلال المناقشة، تعليقات على هذا المقياس هو أنه لا تشير إلى عدد من الأمثلة التي تأثرت بهذه القاعدة. على سبيل المثال، في مجموعة البيانات VQA، قد يكون "اللون" تغيير قواعد "لون" معدل مستاء من 2.2، ولكن هذا قد يكون بسبب التحقق VQA تتركز فقط 2.2 من الحالات التي تحتوي على كلمة "لون". وهكذا، في الواقع، هذه القاعدة لديها نسبة نجاح 100 في توليد سبيل المثال عدائية.

تقدم هذه الورقة بعض القواعد المنفصلة جيدة جدا، والتي هي مثال النص عدائية يمكن أن تتولد على النحو التالي:

الناس المشاركة في التجربة

ريبيرو، الذي أجرى التجارب على البشر. جلبت التجربة البشرية لها غرضين: لتحديد ما إذا كانت القواعد التي يمكن للانسان ان تنتج حقا عبارات (ما وراء نموذج التسجيل الدلالي Lapata وغيرها المقدمة)؛ ما إذا كان التدخل الناجمة عن البشر يمكن أن يحكم قواعد الامر منطقيا.

لأول مرة تقييم جودة SEA: على سبيل المثال التحقق يركز 100 توقع بشكل صحيح، وأنشأوا ثلاث مجموعات: 1) التي تم إنشاؤها من قبل البشر تماما، 2) التي تم إنشاؤها بالكامل من طراز SEA؛ 3) من خلال خوارزمية لتوليد SEA، ولكن مع البشر تشابه معايير التحكيم S بدلا من (خ، س ').

وتظهر النتائج، والنتائج SEA ما يزيد قليلا على الإنسان (18 VS 16)، ولكن الجمع بين الحكم البشري والأداء HSEA أبعد البشرية (24 VS 13).

ثم قاموا بتقييم قواعد عالمية سيرز . هذه المرة، انها دعوة "الخبراء" لإنشاء قاعدة عالمية باستخدام واجهة الويب التفاعلية. وسوف تكون على النحو المحدد شارك خبراء في دورة على مستوى الدراسات العليا في البرمجة اللغوية العصبية أو ML الطلاب والمعلمين. بالمعنى الدقيق للكلمة، ينبغي أن يكون خبراء طالب اللغويات.

يمكن أن الخبراء يرون ردود فعل فورية على القواعد التي تم إنشاؤها: أنهم يعرفون أن في 100 الأمثلة، هناك أمثلة التدخل كم فقا للقواعد، بالانزعاج عدد من التسميات أمثلة المتوقعة. للمقارنة عادلة، طلب منهم إنشاء كما العديد من القواعد، ولاختيار أفضل 10. وبالإضافة إلى ذلك، كل خبير لديها نحو 15 دقيقة لإنشاء القاعدة. طلب منهم أيضا لتقييم سيرز وانتخاب تبقى 10 أزواج معظم قواعد التكافؤ الدلالي كبيرة.

النتائج ليست مفاجأة، وكان أداء سيرز أفضل بكثير من حيث النسبة المئوية التوصل الى التمديد عالية. نتائج الجمع بين الإنسان والآلة من رجل فقط أو الآلات. كما أنها مقارنة متوسط الوقت اللازم لإنشاء قواعد وتقييم الخبراء للآلة من إنشاء القاعدة (ق).

وأخيرا، فإن ورقة يعطي طريقة بسيطة لحل هذه الأخطاء: أنها يمكن أن تستخدم هؤلاء الناس لقبول قواعد للتدخل في مجموعة التدريب، ويمكن أن تخفض من 12.6 إلى 1.4 في VQA على معدل الخطأ في تحليل المشاعر على انخفضت من 12.6 إلى 3.4.

ملخص

في هذه الورقة، ونموذج التفسير لتقييم التشابه الدلالي والجمل ولدت يعادل غويا. كما هو موضح هنا، فإن التفسير على أساس الترجمة الآلية تتسبب فقط في اضطراب المحلي الجملة، وسوف خلق الإنسان الجملة تعادل غويا يكون التدخل أكثر أهمية.

ويستند الحد آخر على سبيل المثال التدرج الخصومة ولدت الأكثر تثقيفا، والطريقة المقترحة يبدو أن محاكمة بسيطة وأسلوب الخطأ (الجيل المستمر تفسير، حتى التنبؤ التدخل نموذج التفسير). من ناحية أخرى، وهذه الطريقة لا تنطبق على نموذج الصندوق الأسود التدرج في الوصول، وبالتالي أكثر تنوعا من الأساليب تقوم على التدرج.

وتنص هذه المادة إطارا واضحا وضعت بشكل واضح إلى الأمام الخصائص سبيل المثال نص المواجهة التي ينبغي اتباعها. ومن الأمثلة على هذه المواجهة تعريف ورؤية الكمبيوتر متوافق جدا. ومع ذلك، هذا الإطار المثالي لا يغطي سوى نوع معين من العداء. ومن الأمثلة الواضحة على هذا العداء ليس ذي صلة لإضافة أو حذف جملة مثل، وهو أمر مهم جدا لنموذج الهجوم QA.

المراجع:

  • جيا، روبن، وبيرسي ليانغ "أمثلة الخصومة لتقييم نظم الفهم في القراءة." أرخايف ورقة أرخايف :. +1707.07328 (2017).

  • Belinkov، يوناتان، ويوناتان بسك "الاصطناعية والضوضاء الطبيعية على حد سواء كسر الترجمة الآلية العصبية". أرخايف ورقة أرخايف :. +1711.02173 (2017).

  • ابراهيمي، جاويد، وآخرون. "HotFlip: أبيض بوكس الخصومة أمثلة عن تصنيف النص". أرخايف ورقة أرخايف: 1712.06751 (2017).

  • شيه، Ziang، وآخرون "بيانات الإشاعة كما تجانس في نماذج لغة الشبكة العصبية." أرخايف ورقة أرخايف :. +1703.02573 (2017).

  • غودفلوو، إيان J.، جوناثان Shlens، وكريستيان Szegedy "شرح وتسخير أمثلة الخصومة (2014)." أرخايف ورقة أرخايف :. 1412،6572.

  • . مالينسون، جوناثان، ريكو Sennrich، وميريلا Lapata "مقتبسا النظر مع الترجمة الآلية العصبية." وقائع المؤتمر 15 من الفصل الأوروبي لجمعية اللسانيات الحاسوبية: .. المجلد 1، طويل أوراق المجلد 1. عام 2017.

  • كولن Bannard وكريس كاليسون-بورتش. 2005. أعيد هنا صياغة العبارة مع المجاميع الموازي ثنائي اللغة. وفي وقائع الاجتماع السنوي 43 لجمعية اللسانيات الحاسوبية، الصفحات 597-604، آن أربور، ميشيغان.

  • عن طريق:

    https://nlp.stanford.edu/blog/reading-group-blog-semantically-equivalent-adversarial-rules-for-debugging-nlp-models-acl-2018-/

    انقر على قراءة العرض الأصلي تقارير ستانفورد

    ولكزس RC200t يكون RC300 إعادة تسميته، لا يزال مجهزة 2.0T

    جهاز اي فون X لا يتأثر؟ أصدرت أبل إشعار: مشاكل مسة تحدث اي فون X

    90 بوذا تدفق الناس في حياة المرء

    شجرة الدفن، والزهور الجنازة، جنازة ...... برج هذه النظم الإيكولوجية على الجنازة هو الطريقة أنت تعرف ذلك؟

    يانغ السماح لهذا المعرض الأول من برنامج العلوم والتكنولوجيا، وقرر العلماء لمحاربة عصر جديد من المعبود

    هذا شراء العديد شخصية مع 150،000 مشترك SUV، لن تذوق الفرق!

    بصمة الجانبية وأضاف حزمة الفاخرة: سامسونج W2019 رسميا

    الموقع | سوبر أنيقة XueZhiQian IP للمساعدة كيفية اللعب مجموعة واسعة أمام إلى آفاق جديدة؟

    وقد أظهرت تجربة غير عادية العادية للاحتفال بالذكرى 15 فقط لفيوس علامات

    لم تعد مغلقة بيانات المركبات الذاتية، اوبر جديد مفتوح المصدر نظام التصور البيانات | التنمية

    اثنين من أحد عشر عضوا إلى شراء جهاز كمبيوتر، ثم فاز بالجائزة الكبرى؟

    ومن شحنات كبيرة؟ ! الأزرق زيبرا Yeezy 350 دفعة V2 بيع المحل لنظرة هنا!