1 جي فاز تجميع جديد
أوراق العنوان: http: //people.csail.mit.edu/regina/my_papers/wiki.pdf
معهد ماساتشوستس للتكنولوجيا علوم الحاسوب ومختبر الذكاء الاصطناعي للباحثين تلقائيا خلق توفر مادة نظرة عامة متعددة فقرة ملخص شامل لمهام الموضوع تمت دراستها. هذه الملخصات تشير إلى - السير الذاتية نجمة الخطوط العريضة ويكيبيديا بالاضطرابات سبيل المثال --IMDB. إنتاج الصناعي من هذه النصوص هو كثيفة العمالة، وخصوصا عندما تنتشر المعلومات ذات الصلة في مصادر الإنترنت المختلفة. هدف الباحثين هو لأتمتة هذه العملية لإنشاء موضوع (مثل متلازمة 3-M، أدناه) التي حددها تجمع بذكاء مقتطفات ذات الصلة من الإنترنت.
كنقطة انطلاق، يمكن للباحثين استخدام متعدد اعتماد الملخصات وثيقة. ومع ذلك، هذه المهمة هناك تحديات أكثر الفنية في التخطيط المحتوى. توليد تتطلب المادة نظرة عامة شاملة استراتيجيات فعالة لجمع المعلومات ذات الصلة، مثل البحث في الإنترنت. وبالإضافة إلى ذلك، عند إنشاء تناقش وثيقة طويلة العديد من الموضوعات، والحفاظ على القراءة يتحدى يتم تضخيمه الناتج أيضا.
في الطريقة المستخدمة من قبل الباحثين، تناقش المادة دليل شامل عن كيفية كتابة وثيقة الهندسة المعمارية على مستوى عال لصنع شكل جيد. واستخدم الباحثون مناطق محددة من القوالب المحتوى الذي تم إنشاؤه تلقائيا تحديد المعلومات ذات الصلة لهذه المادة. على سبيل المثال، قد تحتوي هذه المادة على قالب المرض التشخيص والأسباب والأعراض والعلاج. نظام الباحثين لتقديم هذه النماذج من خلال تحليل بنية حقل نمط الكتابة في الأدب الإنساني. ومن ثم يولد مادة جديدة عن طريق اختيار من كل جزء من شبكة الإنترنت عن محتوى القالب.
الميزة الرئيسية لهذه الطريقة بنية الفائدة شقين:
-
تلقائيا إنشاء قالب: يمكن إنشاء قالب في وثيقة من إنسان مكتوبة تلقائيا، بسبب محتواه يأتي من واسعة وموارد الإحضار متنوعة على شبكة الإنترنت، تأكد من أن اتساع هذا ملخص المحتوى في السؤال.
-
المحتوى المشترك تقدير المعلمة اختيار: جميع المعلمات المشاركين في قوالب موضوع يتعلمون في نفس الوقت، فإن عملية يحسن نفسها لكل الاتساق العالمي الموضوع وأهمية المعلومات المادة بأكملها.
قيم الباحثون العملية من خلال خلق المقالات في مجالين اثنين هما: الممثل والمرض. واستخدم الباحثون قاعدة بيانات من ويكيبيديا، أنه يحتوي على طول المقالات واتساع المحتوى ويأمل الباحثون لتوليد أصناف مماثلة. واحدة من مزايا قاعدة البيانات هو مماثل لقوائم مقالة ويكيبيديا قسم الموضوعات، ويمكن أن تساعد في التحليل البنيوي. النتائج التي توصلوا إليها تؤكد أساليب أخرى تفشل موضوع النمذجة الهيكلي للبنية طريقة الفائدة متفوقة من حيث اختيار المحتوى.
الباحثون ابتكار خوارزمية نموذج مشترك في جميع أنحاء الدراسة التي أجراها المحتوى المحدد معين طريقة الموضوع مستخرج. في إطار التصنيف الموحد يمكن بسهولة معرفة واحد مستخرج محددة الموضوع. ومع ذلك، واختيار الموضوعات المختلفة قالب مترابطة، على سبيل المثال، في متعدد موضوع المقال، موضوع محتويات عبر قد تتكرر. في الوقت الذي تعلم جميع المواد الدراسية من اختيار المحتوى، وتمكن الباحثون أن يحدد بوضوح الروابط بين هذه المواضيع.
وصمم الباحثون المهمة كما تصنيف منظم. واستخدم الباحثون لتعزيز صحيحا البرمجة الخطية (ILP) المستقبلات خوارزمية صيغة لتقدير معالم النموذج، ومجموعة من التدريب في مجال معين لتشغيل الخوارزمية المستخدمة في المقال.
خلاصة القول:
درسنا طريقة لخلق نظرة شاملة عن نص الموضوع (نظرة عامة شاملة نصية)، وهذا ملخص المعلومات المستخرجة من مكونات الإنترنت. نحن نستخدم الهيكل الرفيع المستوى للإنسان هو مؤلف النص، تلقائيا إدخال قالب مجال معين لبنية موضوع جديد المبين. الخوارزمية المبتكرة من عملنا هو وسيلة لتعلم موضوع معين مستخرج لمحتويات القالب المحدد. نحن نستخدم صحيح العالمي البرمجة الخطية الصيغ (عدد صحيح العالمي البرمجة الخطية صياغة) لتعزيز خوارزمية تصور القياسية (المعيارية خوارزمية المستقبلات)، لتحسين مطابقة المعلومات المحلية في كل موضوع، وكذلك نظرة شاملة للتعاونية كامل. نتائج التقييم لدينا تؤكد فوائد المعلومات الهيكلية في عملية اختيار المحتوى.
انقر هنا لقراءة المقال الأصلي لمعرفة التفاصيل، ونأمل أن تتمكن من الانضمام ~