AI اقول لكم كيف جعلت الفريق المقالة؟ KDD قدمت 2018 ورقة لوصف نوع من التعلم مجموعة من أساليب متعدد المتغيرات

لى فنغ شبكة AI تقنية مراجعة من قبل: بيانات أعلى الحفر القادم سيكون ACM SIGKDD وزارة 2018 من جامعة الكمبيوتر من فريق البحث نوتردام DM2 (مختبر DM2، CSE، جامعة نوتردام) من الورق "متعدد نوع Itemset التضمين للتعلم السلوك النجاح "لن يتم قبول الرب. الكاتب هو فريق البحث القائم على الحاسوب DM2 في السنة الثالثة طالب الدكتوراه وانغ جامعة Daheng نوتردام، جامعة نوتر دام قسم الحاسب الآلي المعلم هو أستاذ مساعد جيانغ خداع.

متعدد نوع Itemset التضمين للسلوك التعلم النجاح (ACM SIGKDD 2018)

DM2 مختبر، CSE، جامعة نوتردام (نوتر إدارة جامعة سيدة من فريق البحث الحاسوب DM2)

يؤدي إلى مشاكل

لطلاب الدكتوراه، والبحث في كيفية تحسين نوعية وكان العائد موضوعا مركزيا في العمل الأكاديمي. بالمقارنة مع طالب الدكتوراه عالية الجودة، والبحث ودخلت للتو مجال المنخفضة للدرجة غالبا الدكتوراه بسبب عدم وجود قدر كاف من المعرفة والخبرة المتراكمة لاحتمال التقديرات ومشاريع ورقات لمعرفة معدل الزيادة في مشروع النهج يبدو غير كاف . أنا فقط عبروا نفسه بأنه طالب الدكتوراه من السنة الثانية، هذه النقطة هي تجربة عميقة للغاية.

من الناحية المثالية، عندما نبدأ ورقة جديدة نشرت في المشروع البحثي المنحى، نحن نريد أن يكون الفريق المناسب (والذي يتضمن مهارات متعددة متكاملة من العلماء والخبراء)، واضحة أسئلة بحثية كافية والعلمية والعقلانية طرق البحث، فضلا عن أهداف تحديد المواقع المناسبة لقائه. ولكن في الواقع، ونحن غالبا ما تكون صعبة في البداية لتحقيق هذا التكوين. حتى نتمكن من استخدام الذكاء الاصطناعي لبناء النماذج التنبؤية من عدد كبير من التجارب الناجحة (أوراق الناجحة السابقة) التي تساعد لنا أن نحكم عليه؟ وعلاوة على ذلك، إذا يمكننا أن نجعل طريقنا إلى خوارزميات الذكاء الاصطناعي مشروع ورقة التوصية يمكن تحسينه؟ ودعوة كلياتهم بين أستاذ آخر المعنية سوف تكون قادرة على زيادة كبيرة في احتمال نجاح المشروع؟ أو ما مادة جيدة تستحق القراءة، حتى يجب أن يقرأ من أجل تحسين مسودة ورقة؟ وهذه هي مسألة عملية جدا ومثيرة للاهتمام.

قضية الصعوبات

من الناحية الموضوعية، كل ورقة الأكاديمية هي نتاج سلوك معقد جدا، بما في ذلك مجموعة متنوعة من أنواع مختلفة من المعلومات السياقية. أوراق نجاح المشتركة عموما مؤلفين متعددين، سوف البحوث بعض الصناديق وقضايا محددة الكلمات الرئيسية، والكثير من المراجع الأدب، ومعلومات المؤتمر المنشورة. لذلك، لنحكم بدقة ورقة في جلسة الرماية مشكلة صعبة للغاية. وتحديد أكثر مع المهارات التكميلية للباحثين أوصى لنا من آلاف البيانات البديلة، هو أكثر صعوبة. ما نحتاج إليه هو الناقل ورقة يمكن أن تمثل المعلومات على نحو فعال السلوك وسياقها.

الطريقة التقليدية هو استخدام مصفوفة أو موتر التحلل للحصول على بيانات تمثيل كائن أدنى الأبعاد. وهذا هو، يمكننا أن نبني مصفوفة هائلة، والذي يحتوي على جميع الأوراق والسياق المعلومات البند، ومن ثم الحصول على ورقة من قبل التحلل من هذه المصفوفة يمثل أدنى الأبعاد البند السياق. ولكن هذا لا ينطبق على حالة من نفس النوع من البند متعددة السياقات، على سبيل المثال، هناك العديد من المؤلفين وردت في ورقة. وعندما يصبح حجم البيانات لدينا أكبر عند مصفوفة واحدة كبيرة لتمثيل مجموعة البيانات بالكامل هو واضح ليس خيار فعال.

طرق لتميز التعلم توفر بعض الأفكار جيدة بالنسبة لنا: إذا كان يمكننا أن نتعلم أن المواد والعناصر التي تحتوي على ناقلات سياق توصيف، ثم والتنبؤات ويوصي ستحل اهتماماتنا. ومن الجدير بالذكر أنه في السنوات الأخيرة الإنترنت أكثر شعبية جزءا لا يتجزأ من عملية التعلم. وتستند هذه الأساليب على فكرة التقريب بين العقدة التخزين وعقدة، والعقد في الشبكة، ويمكن أن تتعلم بسرعة لتوصيف النواقل. عندما يكون عقدة ناقل التوصيف، يمكننا بسهولة أن تحسب باستخدام قطعة من التشابه بين العقدة وناقلات عقدة لمساعدتنا لاستكمال عقدة حافة المهام التنبؤ التصنيف. ولكن التعلم شبكة الأسلوب جزءا لا يتجزأ من لا تنطبق على حالتنا: ما يهمنا هو ما إذا كان يمكن نشر بنجاح من قبل مجموعة من الأوراق التي تتكون من أنواع متعددة من البند السياق في المستقبل، بدلا من ما إذا كانت الأوراق وبعض الكتاب في النت تشابه عالية.

نهجنا

لهذه المشاكل، نقترح طريقة جديدة لدمج التعلم. أولا وقبل كل شيء، علينا جميعا أن ينظر إليه باعتباره السلوك الهيكلي للمجموعة متعددة من نوع. على سبيل المثال، يمكن أن ينظر إلى الورقة وبالمؤلف، الكلمة، تحقيق الهدف، مثل مجموعة من بنية مرجعية مكونة من أربعة أنواع؛ مما المؤلف، والكلمات الرئيسية، والمراجع تسمح متعددة البند السياق، ولديه ورقة واحدة فقط البند السياق.

وهكذا، وشملت ناقلات تميز السلوك يمكن وصف البند سياقها الجمع المرجح.

علينا مواصلة (تأخذ قيمة شرط القطعي) التي حصل عليها نسبة نجاح ثانية وضع السلوك أجل السلوك تشغيل ناقلات طويلة.

بعد ذلك، ونحن تحسين السلوك الفعلي التدرج أصل معدلات طريقة النجاح العشوائية موزعة بين السلوك المتوقع للتوزيع نسبة نجاح المسافة، تتركز البيانات النهائية للسلوك مكتسب، وجميع ناقلات الأبعاد المنخفضة تميز البند السياق.

هنا نحن بحاجة إلى التأكيد أمرين: 1 من الفضاء لدينا جزءا لا يتجزأ من خصائص توفير السلوك الناجح (متعدد نوع جمع هيكل إطار البند) في البلدان المنخفضة الدخل الأبعاد؛ (2) أكثر من مرة، مجموعة البيانات لدينا يشمل وحظ فقط. لا يتضمن نجاح السلوك، والفشل البيانات السلوكية. ولذلك، فإننا بحاجة أيضا أمثلة سلبية جديدة عن طريق عينات سلبية للتدريب بناء. ولهذه الغاية، نقترح اثنين مبتكرة متعددة نوع العنصر السياق مجموعة من طريقة أخذ العينات سلبي.

في أول طريقة أخذ العينات سلبية، ونحن بحاجة لتوليد المطلوبة تجسيد السلبي لديهم نفس العدد مع هذا البند السياق الموافق أمثلة إيجابية. وبهذه الطريقة، يمكننا تجنب المثال السلبي لأخذ العينات العشوائية تماما سببها غير عقلاني. ومرات عديدة، ونحن سوف تجد بعض من نوع العنصر السياق مع بعض الميزات. على سبيل المثال، قد تتوافق مقال لأكثر من مؤلف واحد، ولكن عادة له هدف واحد فقط من المؤتمر. نحن هنا تصميم العينات سلبية الدقيقة الثانية لدينا: الوقت اللازم لتوليد سبيل المثال السلبي لتجسيد يتبع التوزيع إيجابي نوع التردد. وبهذه الطريقة، كنا قادرين على توليد تجسيد أكثر مماثلة، ولكن هناك أي حالات سلبية إيجابية للتدريب.

النتائج التجريبية

لقد جمعنا ما يقرب من عشرة آلاف مجال المواد ذات الصلة بالحاسوب نشرت لإجراء التجارب.

بين مهمة التنبؤ، تفوقت نموذجنا كل شبكة جزءا لا يتجزأ من نموذج التعلم (الخط، DeepWalk، Node2Vec، Metapath2Vec) والنموذج الكلاسيكي الإفلات الأبعاد من PCA. حيث السلبية سلبية الثانية من أخذ العينات الأولى لطرق أخذ العينات (PN) (حزب العمال). وعندما وضعناها الوزن العالي نسبيا لنوع مقدم البلاغ، يمكننا الحصول على أفضل النتائج الإجمالية.

في مهمة التوصية، يمكن أن نحصل على نفس النتيجة، نموذجنا أيضا أفضل من النماذج الأخرى. خاصة بالنسبة للمهمة استشهاد نسبيا مهمة صعبة ويوصي الباحثون بضرورة الموصى بها (المجموع 12300 و18971، على التوالي)، ونموذج لديه مزايا أكثر وضوحا.

للقوة نموذجنا، واتباع نهج أكثر بديهية هو لاختبار الحالات في المواد حقيقية ومقالات كاذبة في البلدان المنخفضة الدخل الأبعاد الفضاء التضمين تصور ذلك. ويمكننا أن نرى ناقلات الحقيقي من ورقة يقم تمديد ملحوظ في الفضاء؛ وأوراق ناقلات كاذبة بالقرب من الأصل. مثل هذا منذ فترة طويلة، واحدة مقالة قصيرة ناقلات معارضنا نماذج التنبؤ لديها القدرة على التعرف على الفرق بين أوراق أوراق صحيحة وكاذبة، وذلك لتوفير التنبؤ بدقة نسبة بالنسبة لنا.

الاكتشافات مثيرة للاهتمام

وبالإضافة إلى ذلك، قد تجربتنا أيضا بعض النتائج المثيرة للاهتمام.

وبالإضافة إلى ذلك جمعنا اختبارا حقيقيا أوراق الدعوى من الباحث العلمي من Google في عدد من المراجع. من هذا الرقم يمكن أن نحصل جدت أوراق أعلى معدل إصابة توقع في نموذجنا بالمقارنة مع التوقعات كانت أقل بكثير رقة معدل إصابة استشهد أكثر من مرة. ويبدو هذا الاستنتاج تقريبا في كل سنة من السنوات 2001-2015 بين.

وأخيرا، نأمل النتائج التي توصلنا إليها والبحث لمساعدتك.

يرجى الرجوع إلى الورقة الأصلية:

وانغ، D.، جيانغ، M.، تسنغ، Q.، ابرهارت، Z.، وتشاولا، NV (2018 يوليو). متعدد نوع Itemset التضمين للسلوك التعلم النجاح. وفي وقائع مؤتمر ACM SIGKDD الدولية 24 على اكتشاف المعرفة والتنقيب عن البيانات (ص 2397-2406). ACM.

أوراق المكان الأصلي يمكن أن شبكة لى فنغ موارد المجتمع AI Yanxishe تحميل المنطقة.

هواوي nova4، واتجاه الشباب اختيار

نقاط القطع الأثرية على الملك! أحدث قائمة شياو 835 هاتف أوصت

مشاركة حكمة المنزلية هيسنس في الاجتماع التحضيري للجنة الفنية للجمعية الصينية لفحص الجودة قفل شركة

مع السماء في مكانه؟ ارتداء ريبوك Floatride الفضاء التمهيد SB-01 الله حقا؟

النسخة الكهربائية جديد فولكس واجن جولف للحياة الجاسوس هو أكثر من 200km

على "المخبر بو"، "سرعة هذا" سعيدة السنوات صغيرة جدا ليست أسطورة قديمة جاكي شان لمرافقة الاحتفال الخاص بك!

شاشة كاملة لسوق العمل في منشط: فيفو X20 الرائد الذهب الأسود أراضي مكافأة

2018 ساعة قفت صناعة طيار النهائي

مكانة عالمية في التاريخ والمعارض الفنية المجيدة، من ناحية الرئيسي ولكن غير معروفة!

الجديد فولكس واجن باسات مدرجة رسميا للبيع 189900 فصاعدا

FaceID 2018 الافراج عن اي فون الجديد سيعتمد بالكامل: كو مينغ جي

أقول لكم، ولعب بشكل جيد مع سيقان طويلة المحظية يو شيانغ يو كان الشقيقة