UCSB العمل الجديد: "الشكل القص" في نظام التقييم الحالي ستفشل

شبكة لى فنغ AI تقنية استعراض: في الآونة الأخيرة في جامعة كاليفورنيا في سانتا باربرا البروفيسور وانغ وليام نشر فريق ورقة عن أرخايف "لا القياسات هي مثالية: مكافأة الخصومة التعلم أو القص البصري". وأشارت الصحيفة إلى أنه في "الشكل القص" هذا هو مهمة أكثر ذاتية، نظام التقييم الحالي (على سبيل المثال METEOR، BLEU، وما إلى ذلك) سوف تفشل. وهكذا جعلوا ضد إطار التعلم مكافأة، للحصول على وظيفة أفضل مكافأة عن طريق التعلم عن تعزيز عكسي. وقد اظهرت النتائج أنه في نظام التقييم التلقائي في هذه الطريقة يمكن الحصول عليها GAN، لتعزيز الطراز نفسه أو نتيجة للتعليم العالي قليلا؛ وفي نظام التقييم اليدوي، وهناك أفضل بكثير من نتائجها.

في الوقت الراهن، ورقة قد تؤدي الطبيعية اللغة تجهيز مؤتمر ACL 2018 القبول.

الكلمات، وضعت قبل عامين، "المكونات الكلام" (تعليق البصرية، فيجوال السفلية) هو التركيز على البحوث الناس أكثر حماسا، والآن كانت هناك العديد من "الشكل القص" (القص البصري، البصرية القص) من بحث. صعوبة المهمة والفرق بينهما واضح. هذا عدد من الشخصيات في المثال التالي:

"كلمات الشكل" المطلوبة للكشف تظهر الناس والأشياء في الصورة، ومن ثم استخدام اللغة الطبيعية للتعبير عن ذلك. للصورة فوق انتاجها هو:

(A) صبي صغير وطفلة يجلسون معا.

(B) طفلين يجلس على الشرفة مع حقائبهم على.

الأطفال الصغار (C) اثنين مع الظهر يجلس على الشرفة.

(D) اثنين من الأطفال الصغار التي هي قريبة جدا من بعضها البعض.

(E) صبي وفتاة تبتسم للكاميرا معا.

في الشكل "القص" الحاجة إلى أبعد من ذلك، فمن الضروري لاستخراج الأفكار الرئيسية من الصورة، ثم محتويات عدة صور متتالية في القصة كلها متماسكة. وهذا يعني ليس فقط لوصف الصور الكائن، فإنه يحتاج أيضا "الخيال" القول ليس هناك تعبير واضح عن المعلومات في الصورة، مثل مزاج الشخص، والأشياء الأخرى المحتملة (مثل لون الخط هو مبين أدناه). إخراج لاكثر من خمس سلسلة الصورة على النحو التالي:

قصة # 1: وكان أخ وأخت استعداد لليوم الأول من المدرسة. ومتحمس وهم للذهاب الى يومهم الأول والتعرف على اصدقاء جدد، وقالوا أمي على مدى سعادتهم. وقالوا انهم ذاهبون لجعل الكثير من الأصدقاء الجدد، ثم صعدوا وحصلت على استعداد للحصول على السيارة.

قصة رقم 2: وقال إن شقيقه لا يريدون التحدث إلى أخته، والأشقاء تتكون، حيث بدأ الحديث والابتسامة أظهر آباؤهم يصل. لقد كانوا سعداء أن نراهم

على ما يبدو "الشكل القص" الذاتية العظيمة التي أسفرت أيضا عن عدم وجود مهام قالب القياسية، مثل ما ورد أعلاه جمعت مجموعة من الصور يمكن أن يكون اثنين من قصة مختلفة تماما.

النتائج في وقت مبكر (في الواقع، وأيضا 16 و 17 سنة) دراسة السرد البصري أساسا من بداية ناجحة لترجمات البصرية، لا يزال لتعظيم احتمالات البيانات الملاحظ من خلال التدريب، والذي يحدث بسبب قاعدة البيانات نمط التعبير محدودة، مما أدى السرد هو أيضا نتيجة بسيط جدا وسهل. لحل هذه المشكلة، في حين تولد أكثر إنسانية مثل وصف للقصة، ريني، الذي اقترح إطارا لتعزيز التعلم. ولكن نظرا لمهمة السرد البصري، وتعزيز المشترك أساليب التعلم تقوم أساسا على مطابقة سلسلة اليد مكافأة (BLEU، METEOR، ROUGE، عصير التفاح، الخ)، والتي تتمثل في تعزيز استراتيجية البحث إما منحازة أو مجرد جدا متفرق. على سبيل المثال، في المادة التباين المؤلف، عندما تعلم استخدام استراتيجيات لتعزيز نقاط ROUGE لها كمكافأة، وجدوا أنه عندما يسجل ROUGE تحسنت بشكل ملحوظ، وكسور أخرى (على سبيل المثال BLEU، عصير التفاح، الخ) ولكن لن تتحسن حتى يمكن خفضه إلى الصفر.

(سوف يستند منتصف النص على أربعة خطوط يكون تحدث عن بعد تعزيز نموذج التعلم اليدوية مكافأة، XE-SS وAREL (نموذج ورقة اقترح)).

أمثلة على تتبع المواجهة:

كان لدينا وقت كبير لديهم الكثير من وكانوا أن يكون من وكانوا ليكون في. ووكان ليكون، و، وكان أن يكون.

متوسط درجة من 40.2 METEOR، ولكن النتيجة الأخرى هي منخفضة جدا. وهذا يدل على أن هذه التقليدي غير كفء اليد مكافأة الشكل "القص" نظام المكافأة مهمة.

لحل هذه المشكلة، والكتاب من قبل كاي في "تعزيز التعلم معكوس"، المقدمة ضد التعلم مكافأة (مكافأة الخصومة التعلم، AREL) الإطار. بالمقارنة مع الطرق السابقة ومختلفة فهو أن هذا لم يعد استخدام مكافأة اليدوية التقليدية، ولكن انضم نموذج مكافأة، وهذا النموذج لمكافأة مكافأة وظيفة تعليمية ضمنية على سبيل المثال البشر، وبالتالي تحسين نموذج استراتيجية يولد النتائج. إطار FIG AREL على النحو التالي:

ثم الإطار النموذجي هو جيد حقا؟

استخدمت الكتاب 2016 تينغ هاو K. هوانغ وآخرون، التي نشرتها البصرية القص (VIST) للقيام مجموعة بيانات الاختبار. مجموعة البيانات VIST هو أول متتابعة المهام الرؤية إلى لغة (بما في ذلك المهام السرد البصرية) مجموعة البيانات، والذي يحتوي على 10117 ألبومات فليكر (ألبومات الويب) و210819 صورة واحدة منفصلة.

جيدة أو سيئة يعتمد على معايير التقييم. ل"السرد البصري" يستخدم هذه المهمة تقليديا BLEU (B)، METEOR (M)، خشنة-L (R)، وعصير التفاح (C) عشرات حيث أن مؤشر التقييم. في المقابل، إضافة اختيار هوانغ وآخرون، ويو وآخرون اثنان نتيجة المقارنة، كما المحدد الآن أفضل النماذج اثنين، واحد XE-SS، والنموذج الآخر هو GAN. نموذج AREL المستخدمة في هذه الورقة مع نموذج XE-SS من نفس الاستراتيجية، إلا أن نموذج XE-SS باستخدام وظيفة عبر الكون كمكافأة، ولكن AREL دينا نموذج مكافأة التعلم خاص.

وكما يتبين من النتائج التجريبية، عند استخدام مؤشر التقييم التقليدية القيام به، وصلت AREL في المعايير أقل دولة من الفن، حتى تحسن طفيف.

لكن واضعي يبدو أن لديها قلب لم يعودوا يؤمنون مهمة "السرد البصري" في هذه المؤشرات التقليدية يمكن أن تكون معايير التقييم جيدة، هم أكثر ميلا للاعتقاد أنها ينبغي أن يسمح هذا العمل الإبداعي في البشر إلى القاضي جيدة أو سيئة. لذلك اختاروا لتقييم اثنين من تجارب مختلفة على البشر في الأمازون الترك الميكانيكية: اختبار تورينج (اختبار تورينج) وزوج من التقييم البشري (زوجيا تقييم الإنسان).

في اختبار تورينج، فإن كل المقيمين (عامل) أيضا إعطاء الشرح اليدوي عينة وعينة المولدة آليا، واسمحوا له أن تقرر أي هو الإنسان / المولدة آليا. الكاتب لXE-SS، BLEU-RL، CIDEr- RL، GAN وAREL خمسة نماذج مصنوعة بشكل مستقل اختبار تورينج:

كما يمكن أن يرى، فإن النتائج AREL نموذج الأداء البشري في تقييم النتائج هو أعلى بكثير من النماذج الأخرى، فإن نسبة فوز + غير متأكد من بالفعل قريبة جدا من 50.

لمزيد من مقارنة الاختلافات بين خوارزميات مختلفة مقال الدلالي، أجرى مؤلف أربعة زوجيا التجارب المقارنة: المقارنة بين BLEU-RL، عصير التفاح، RL، GAN AREL على التوالي XE-SS،. عملية المقارنة هو: حين تقديم قصة اثنين ولدت لتقييم الموظفين، ويطلب منهم لتنفيذ ثلاثة جوانب (تكوين الجمعيات والتعبير والخصوصية) التصويت. على سبيل المثال - هذه العينة (أي تجربة قصة الإنسان خلق، يظهر هنا بالرجوع):

في تكوين الجمعيات والتعبير محددة لثلاثة أطفال، (AREL: XE-SS: رسم) وكانت نتائج التصويت 5: 0: 0،4: 0: 1، 5: 0: 0. نتائج التجربة هي كما يلي:

وتشير هذه النتائج الساحقة التي (على الأقل تظهر تجريبيا)، AREL الجيل نموذج من القصة هو أكثر ممتازة في تكوين الجمعيات والتعبير وجوانب محددة، والذي يقيس تلقائيا التقييم لم ينعكس بشكل واضح.

يجب أن نؤكد على ما يلي: إن النتائج المذكورة أعلاه أيضا من الجانب، والتقييم التقليدي في مهمة أكبر من الذاتية (مثل السرد البصري) القياسية إلى حد لا يمكن الاعتماد عليها. لذلك، من ناحية استخدام المعايير التقليدية تقييم التلقائية في هذه المهمة، إلى توخي الحذر، ومن ناحية أخرى، حتى إذا كنت تحصل على درجة عالية جدا لا يعني بالضرورة أن النموذج الخاص بك هو جيدة.

وقد لخص شبكة لى فنغ يصل أهمية هذه الورقة:

1، وتشير الصحيفة إلى شيء واحد: أن يكون مهمة أكثر ذاتية، المقاييس التقليدية تلقائيا، سواء في مجال التدريب أو تقييم سوف يست مناسبة بالضرورة.

2، والمشاكل المذكورة أعلاه، يقترح المؤلفان إطارا ضد التعلم مكافأة، إطار من هذا القبيل في البشر اختبار تقييم أداء جيدا.

عنوان ورقة: الشبكي: //arxiv.org/abs/1804.09160

ملخص

وعلى الرغم من النتائج الباهرة الأخيرة في مهمة الترجمة البصرية، ولكن تيار الصورة الناتجة مهمة القصة مجردة لا يزال يمثل مشكلة. وخلافا للترجمات، القصة لديه أسلوب أكثر اللفظي، وتحتوي على العديد من مفهوم خيالية لا وجود لها في الصورة. ولذلك يعمل التحديات خوارزمية استنساخ. وبالإضافة إلى ذلك، بسبب القيود المفروضة على التقييم التلقائي للمؤشرات الجودة من القصة، ومن ناحية مكافأة طريقة تعزيز التعلم في الحصول على الأداء الكلي تواجه أيضا صعوبات. لذلك، نقترح إطار التعلم المواجهة مكافأة (AREL) لدراسة وظيفة مكافأة ضمنية من مثال الإنسان، ومن ثم استخدام هذه الوظيفة لتعلم استراتيجيات البحث الأمثل مكافأة. على الرغم من أن يظهر تقييم الآلية التي لدينا وسيلة من طريقة عادل فن الأداء (SOTA) في زيادة طفيفة في السلوك خبير الاستنساخ، ولكن يظهر تقييم الأداء الإنسان أن نهجنا من أنظمة SOTA يعزز إلى حد كبير جيل من أكثر إنسانية مثل قصة .

شبكة لى فنغ عبر AI تكنولوجي ريفيو

طريق الحرير

UCSB العمل الجديد: "الشكل القص" في نظام التقييم الحالي ستفشل | ACL 2018

ملخص

أفضل فيلم أبوة "ألفا: الذئب الطريق رفيق الوراء،" جميع أفراد الأسرة معا للتمتع رحلة غريبة عصور ما قبل التاريخ

تشانغ بو، وقال تشو فرق آخر ورقة: عمق نموذج الضمني نماذج رسومية احتمالي + = الرسومية-GAN

أبل تعترف اي فون 6S مشكلة إيقاف التشغيل التلقائي: يحتاج المستخدمون إلى استبدال البطارية بشكل مشروط

أصدر تشنغ كاي وثيقة تسمى ملكة جمال الألعاب النارية @ الصين الحريق: يجب أن يصاحب الأطفال شخص بالغ التفريغ

القاري التعرض العلامة التجارية سعر اسم النطاق قليلا، والبائع "فقدت" 100 مليون دولار ليس آسف؟

الأزرق سحر تأكيد اسم الجهاز الجديد: سحر اللون الأزرق X والآخر إطلاق المنتجات الغموض في 30 نوفمبر

"إن زراعة محاكي العظمى" برنامج أعلن التحديثات المستقبل

جديد وون، وي بينغ في وقت مبكر القلب! KEF R سلسلة أبواق عالية تجربة جديدة

ختام ناجح: "المحقق كونان الصفر منفذي" غناء الدبلجة الصينية نظرة فجر البن كبيرة

التعرض الأرنب لينوفو ZUK حافة مفصلة التكوين: تشغيل فرعي لأكثر من الحافة!

مرحبا، وهذا هو الخاص بك "الذئب" ذلك؟

كيفية بيع أسماء النطاقات في جميع أنحاء العالم؟ قراءة المقال مع نطاق أسواق اسم الخارج الخاص بك!

"الله آكلى لحوم البشر 3" سيكون 11 يوليو الهبوط تحويل منصة

أظهرت السحر قفزة المهارة الحقيقية ونشر أنظمة AR الطريق 16 تجريبي

بالحبال الشرطة ميلو 11 لغة الهوى السنة الجديدة شو اليانغتسى مرة أخرى على CCTV

6 لغة تسرب سعيد تطور فيلم "الشاي عمة لي" القصة؟

السيارات المستقبل تبدو وكأنها؟ من أبل براءات الاختراع على التنبؤ سيارة بدون سائق أبل!

سوار المجد 4 نسخة NFC قادمة! يمكن 165+ المدن فرشاة المترو الحافلة، ليوان فقط 249

توازن الفن: Hopoo مع "مغامرة المطر"

يو تشنغ دونغ النبوءة قد تحققت: مبيعات الهاتف المحمول هواوي في الربع الثالث، والنهج أبل

مع تشنغ يي IPO طويل قريبا، من اسم نطاق والعلامات التجارية لرؤية المفاجآت تخطيط علامتها التجارية!

"بريداتور"، "بيلونا" منغ الحيوانات الأليفة سحر لا يمكن تخليص أنفسهم في مستنقع

ملخص

الأحكام ذات الصلة