[استعراض فاز جي الجديدة اليوم، أصدرت جوجل مجموعات البيانات مشكلة الطبيعية الرائجة (أسئلة الطبيعي)، ويحتوي على 300000 الأسئلة والأجوبة التي تحدث بشكل طبيعي المفسرين البشري، و 16،000 الأمثلة، وأنظمة إطلاق تحدي مسابقة على أساس مجموعة البيانات هذه. ومن المتوقع أن يصبح مجال فهم اللغة الطبيعية فرقة!
الأسئلة المجال مفتوح للإجابة (QA) هي مهمة القياسية من فهم اللغة الطبيعية (NLU) في، والغرض منه هو لمحاكاة كيفية العثور على البشر المعلومات، للعثور على إجابات لأسئلتك من خلال قراءة وفهم الوثيقة بأكملها.
على سبيل المثال، ونظرا ل باستخدام مشكلة اللغة الطبيعية "لماذا السماء زرقاء؟" ( "لماذا السماء زرقاء؟")، وينبغي أن يكون النظام قادرا على QA الصفحة مقروءة (مثل "الإشعاع السماء منتشر" صفحة ويكيبيديا) وترجع الإجابة الصحيحة حتى لو كان الجواب معقد إلى حد ما وطويلة.
ومع ذلك، لا يوجد التدريب والتقييم على نطاق واسع يمكن استخدامها لنموذج QA، جمهور قضايا (أي القضايا التي أثارها معلومات الشخص الذي يسعى) التي تحدث بشكل طبيعي والأجوبة البيانات.
وذلك لأن بناء مجموعة بيانات عالية الجودة لمهمة QA يتطلب الكثير من المصدر الحقيقي للمشكلة ويتطلب الكثير من القوى العاملة ل العثور على الأجوبة الصحيحة لهذه الأسئلة .
من أجل تعزيز تقدم البحوث في مجال QA، وجوجل صدر اليوم مجموعة البيانات مشكلة الطبيعية (أسئلة الطبيعية، NQ) هذا هو الجديد، الإحضار على نطاق واسع للتدريب ونظام تقييم الأسئلة والأجوبة الحقول المفتوحة، وأول للعثور على إجابات على أسئلة عملية نهاية جسم الإنسان من تكرارها.
أسئلة الطبيعية مجموعات البيانات
NQ حجم كبير جدا، تحتوي على 300000 الأسئلة التي تحدث بشكل طبيعي، وكذلك المفسرين البشري الإجابة من صفحة ويكيبيديا لتدريب نظام QA.
وبالإضافة إلى ذلك، يتضمن NQ الإحضار أيضا 16000 سبيل المثال كل سبيل المثال عن طريق توفر 5 مذكرات مختلفة إجابات وهذا مفيد (لنفس المشكلة) لأداء أنظمة ضمان الجودة لتقييم التعلم.
أسئلة الطبيعية مجموعة البيانات المثالي
نظرا لالإجابة على الأسئلة أكثر من الأجوبة في NQ أسئلة تافهة (هذه الأسئلة لأجهزة الكمبيوتر هي بالفعل من السهل جدا على حل) الحاجة إلى فهم أكثر عمقا، وأطلقت غوغل أيضا تحديا على أساس مجموعة البيانات هذه، للمساعدة في تحسين اللغة الطبيعية الكمبيوتر التفاهم.
NQ التحدي المتصدرين
يحتوي NQ مجموعة التدريب البيانات 307K سبيل المثال، 8K و8K أمثلة تطوير عينة الاختبار.
حاليا، تصنيفات فقط NQ التحدي جوجل بيرت ونموذج DecAtt-DocReader نتائج النموذج. في ورقة، وثبت جوجل أن أفضل الإنجاز البشري في مهمة الجواب طويل المحدد هو 87 F1، واختيار الإنسان على المهمة في الجواب القصير إلى أفضل درجة من 76.