كيفية تبرز من لعبة استخراج البيانات؟ ويأتي حصول على إعلانات خوارزمية الروتينية الوصيف علي ماما الآن!

شبكة لى فنغ AI Yanxishe الصحافة، ورقة IJCAI 18 حلول الوصيف علي ماما مسابقة البحث الإعلان الخوارزمية. هذه المادة التي قدمها المؤلف في الصفحة جيثب لها، شبكة لى فنغ AI Yanxishe له طبع المرخص.

أولا، قدم فريق

الكابتن: BRYAN

الممارسين استخراج البيانات، والبيانات المحلية التعدين بطل المسابقة، والعلماء بيانات تيانتشى، IJCAI 17 بطل. ولقد أكدنا مرارا الشهير في البطولة الترتيب في الداخل والخارج.

اللاعبون: سانغ يو

الممارسين استخراج البيانات، واستخراج البيانات المحلي بطل المسابقة، البيانات الرئيسية تيان، IJCAI 17 بطل. ولقد أكدنا مرارا الشهير في البطولة الترتيب في الداخل والخارج.

اللاعبين: العاصفة عاصفة لي

الممارسين استخراج البيانات، واستخراج البيانات المحلي بطل المسابقة. صرح تسنغ CCF- اللباس النمل الذهب - مكان بطل مول المواقع والعديد من الأحداث المحلية والأجنبية الأخرى المعروفة.

ثانيا، التحليل الأساسي وفهم القضايا سباق

هذه اللعبة بعنوان مشكلة تحويل إعلان بحث المقدرة، عينة تحتوي على النقرات ذات الصلة المستخدم (المستخدم)، تحت الكلمات الرئيسية (الاستعلام)، والمحتوى السياقي (السياق)، متجر (متجر) وغيرها من المعلومات شروط البنود الترويجية (الإعلان) احتمال (pCVR) توقعات لتوليد سلوك الشراء والإعلانات، والتعريف الرسمي هو: pCVR = P (تحويل = 1 | الاستعلام المستخدم، الإعلان، السياق، المحل). يمكن استخراج المشكلة كما تصنيف ثنائي، مع التركيز على المستخدم، والبضائع، ومصطلحات البحث، والسياق، ومحلات ميزة تصوير لتدريب النموذج.

الثالثة، الأفكار الأساسية

(1) تحليل البيانات

من خلال تحليل البيانات، وجدنا أن 7 أيام قبل تحويل بيانات التدريب ويحتفظ بنحو 1، ولكن معدل تحويل منخفض في رقم 6 في الصباح توقع معدل التحويل من اليوم رقم 7 أكثر من 4، لذلك هذا هو يوم من العروض الترويجية الخاصة المشاكل السلوكية وتوقعت. التركيز يحتاج لوصف مستخدمي المعلومات الحرج، والبضائع، ومخزن، ومصطلحات البحث مثل السلوك توقعت في وقت سابق تاريخ سبعة أيام، قبل يوم من السلوك المتوقع، ويتوقع سلوك من اليوم.

أيضا عينة رقم (7) أكثر بكثير من متوسط عينة في اليوم السابق هو أننا بحاجة إلى تركيز الاهتمام الفاصل الزمني. نموذج الرئيسي هو التدريب، وتدريب سبعة أيام أمام البيانات المساعدة على أساس العينة رقم 7 في الصباح. لأن الوقت المقدر ل07:00، الميزات التي تعتمد على الوقت لا يمكن تدريب في الصباح، لتعويض صباح 7 من التدريب هو جعل البيانات وفقدان المعلومات، يستخدم فريقنا بطريقتين: نموذج يستخدم الأيام السبعة الأولى من التدريب احتمال تقدر الحصول على 7 كسمة جديدة، واحد هو التدريب قبل رقم 7 ورقم 7 في الصباح ومن المرجح كامل المبلغ من نموذج التدريب.

(2) تحليل العضو

من هذا الرقم يمكن رؤية معظم المستخدمين تتركز في خمس نقرات أو أقل، في غضون ثمانية أيام انقر إلى 5 مرات، وذكر أن هذا هو سيناريو انخفاض الطلب.

في الشكل التالي يمكنك أن ترى أن معظم المستخدمين لا يشترون السلوك، وشراء عدد قليل من المستخدمين، وهذا الهدف المنافسة التنبؤ ما إذا كان المستخدم لشراء كمية صغيرة من سلوك الشراء يشكل بيانات الوضع توزيع الذيل طويل.

هذا الرقم هو عدد المرات التي ينقر المستخدم وشراء العلاقة يضرب المحور الأفقي، المحور الرأسي عدد من الشراء. يمكنك ان ترى الاتجاهات في البيانات في شكل توزيع الزاوية اليسرى السفلى، أن سلوك الشراء في حالة وجود كمية صغيرة من النقرات، مشيرا إلى أنه هو مصلحة حظة في السيناريوهات المستهدفة. نحن بحاجة إلى تشكيل والتركيز الوضع الحالي للمستخدم.

من التحليل المستخدم، وجدنا أنه بمجرد تحتل ينقر المستخدم على نسبة كبيرة من هذا الجزء لا يمكن أن يصور توصيف ملامح السلوك التاريخي، لذلك المعلومات الاستعلام هي المفتاح لهذا الجزء من توصيف للمستخدم، وفي الوقت نفسه، فإن معظم المستخدمين لم يحدث سلوك الشراء، لذلك كانت العينة تحتوي على سلبية على كمية كبيرة من المعلومات، مؤشر تقييم إضافي هو logloss، والحاجة إلى التنبؤ بدقة احتمال الشراء، لذلك لم أكن عينة سلبية للعينة إلى ضرر تجنب لتوزيع العينات الإيجابية والسلبية.

(3) ما قبل المعالجة

ملء القيم المفقودة: الهوية باستخدام الطبقة القطاعين العام وملء مميزة، حيث القيمة المتوسطة للتعبئة

التعدين المعلومات الخفية: لعمود item_property_list، وعدد من الممتلكات الحوادث الإحصاءات، والإبقاء على عدد من الحوادث TOP1 ~ TOP10 معرف كسمة جديدة؛ لخلاف predict_category_property، مباشرة من أجل الحفاظ على فئة TOP1 ~ TOP10 معرف كسمة جديدة. لعمود item_category_list، وهو نفس الفئة الأولى، الفئة الثانية تؤخذ على أنها ميزة الطبقة هوية جديدة.

(4) مقسوما على خط

ويرجع ذلك إلى عدد محدود من تقديم على الانترنت، لذلك، لإنشاء خط مستقر الفوز مفتاح. لتعزيز الحظ لتكوين خوارزمية جهدنا لكفاءة الأمثل، والحد من النتائج الخط، خوارزمية لدينا مع تجنب الإفراط في الاعتماد على جمع البيانات على الانترنت، ونحن اختبار بعناية الخط، على التوالي، لاتخاذ الساعتين الأخيرتين في صباح يوم 7 و 7 في صباح يوم 15 عشوائية من البيانات للتحقق، وهما فقط في أثارت على الانترنت، ونحن إجراء تقديم على الانترنت. لذلك، ونحن دائما تأكد من ان تحقق من التحسين على الانترنت على الانترنت في تحسنت بشكل ملحوظ.

(5) تصميم نموذج

نحن نستخدم ثلاثة أنواع من البيانات في تدريب نموذج الوضع، 7 صباحا ويستخدم نموذج البيانات الرئيسية كعينة التدريب والبيانات رقم 31-5، رقم 6، رقم 7 استخراج الميزة. كل نموذج البيانات العالمية باستخدام العينات وعينات تدريب مع التسمية، واستخدام كافة الميزات استخراج البيانات. البيانات في الوقت باستخدام المعلومات نموذج إلى تدريب عينة أرقام 31-6، 31-6 لاستخراج البيانات الميزة. نموذج المعلومات وقت التدريب في اليوم 7TH التنبؤ عينة، والتنبؤ (يحمل المعلومات في الوقت) يضاف كميزة جديدة إلى النموذج السابق، للتعويض عن ضيق الوقت أمام نموذج يصور.

(6) أعمال ميزة

الهندسة هي سمة أساسية من سمات النقاط نموذج المذكورة، وضعنا أساسا لمتلازمة من البسيط الى المعقد، ميزة مجموعة متنوعة من متلازمة تحويل مجموعة، في المرتبة متلازمة، والتي تتميز نسبة من المجموعة، متلازمة الدرجة، متلازمة المنافسة، مجموعات الأعمال وغيرها من الخصائص، سلوك المستخدم وتوصيف مفصل.

بعض التوسع بسيطة والإحصاءات على أساس الميزات الأصلية، لأن سلوك المستخدم هو ضئيل للغاية، أسعار التحويل استخراج عند القيام على نحو سلس، والآخر للمستخدم لشراء نقرة النشاط الترميز. في الاستعلام التفاعلية، والتفاعل مع المستخدم، والمنافسة مجموعة ميزة، كمية كبيرة من الحساب، واستخراج باستخدام بطريقة متوازية، وتحسين الكفاءة.

لتحسين الكفاءة، ونحن اختبار باستخدام وضع مجموعة من الميزات للتحقق من على خط المرمى. حيث كانت المجموعة متلازمة الأرجواني حيث overfitting، حاليا المعلقة، على الانترنت دون المتوسط. والسبب هو لأن هذه الميزات في صباح يوم من البيانات الإحصائية، حتى لو كنا استخدام استخراج تتقاطع، في محاولة لتجنب عبور البيانات، لأن الخلافات توزيع البيانات في فترة ما بعد الظهر في الصباح، فإنه لا يزال لا تناسب جيدا للتغلب على .

(7) نموذج التكامل

نماذج مختلفة جيدة ومختلفة هو المفتاح لتعزيز التكامل بين أعضاء فريق العمل لدينا وقدمت ثلاث عشرات النماذج، ولكل والاختلافات في خصائص العينة، وبالتالي، من خلال دمج تعزيز النتائج. أفضل نموذج لا يزال قادرا على الحفاظ على النتائج TOP2 واحدة.

الرابع، وتعظيم الاستفادة الهندسة

من أجل جعل نموذج الأعمال أكثر واقعية، ونحن قد تم تحسين رمز، بما في ذلك الجوانب الأربعة التالية:

1) معرف استنادا الميزة، مباشرة كسمة، وعمق من طراز شجرة قدمت -1 ذاكرة تجنب onehot مكثفة، والتأثير العملي هو onehot تماما إعادة ترميز.

2) بيانات موازية، والنموذج الرئيسي 2 ساعة ميزة وحدة استخراج تماما. منذ الثعبان متعددة عملية، فإن عملية طفل بنسخ الدولة الأم، إذا كانت البيانات مباشرة إلى كتلة ومن ثم استخدام عمليات متعددة يمكن أن يؤدي إلى الذاكرة ارتفاعا كبيرا، لذلك لدينا الحل هو البيانات الأولى كتلة حفظ كملف القرص، وبعد ذلك في عملية متعددة المهام هي قراءة كل البيانات استخراج ميزة، وأخيرا دمج ميزة، والحد من فعالية أثر الذاكرة.

3) بيانات جنبا إلى جنب مع ميزات استخراج بيانات التدريب التنبؤ. مباشرة اليوم، الساعة، الخ التدريب الميداني تقسيم والتحقق، مجموعة الاختبار بعد الانتهاء من ميزة الاستخراج. تحسين استخراج ميزة، وكفاءة عملية الاختبار، وعلى الانترنت التنبؤ حاليا.

4) يتميز على دفعات، لتحسين الكفاءة. منذ مباراة أكبر من البيانات، وإذا كانت الطبقة باستخدام مشوه ميزة اختيار الأسلوب سوف تضيع الكثير من الوقت، ونحن اضغط متلازمة على دفعات، والخصائص الأصلية لوضع ملامح + اختبار للتحقق من الخط، وتتميز في كمية صغيرة من تكرارية سريع التحقق.

5) رمز المفتاح في استخراج ميزة الموازي

تخزين البيانات كتلة

ميزة استخراج

ميزة دمج

خامسا، لعبة ملخص تجربة

(1) فهم عميق لقضايا العرق

للحصول على لقب البطولة التحليل الدقيق والعقلاني والتفكير شامل ومعمق، للقيام بالبحث المناسب لفهم المكان.

(2) تحليل البيانات المفصلة

البيانات من رصد دقيق وتحليل الأبعاد المختلفة، وحفر خارج قاعدة مهمة.

(3) القداس تتسم

استخراج ميزات فعالة متعددة زاوية والبناء عالية الجودة ويتميز محيط شاسع، وضمان أن لا تبتعد المعلومات المفيدة.

(4) نموذج قوي

تدريب مجموعات متعددة من أساليب مختلفة لأخذ العينات والنماذج قوية مع خصائص مختلفة، وإدماجها في القوة الهائلة للنموذج النهائي.

(5) التفكير لم تنته

والبطولة المحولة تقديرات عنوان البحث، وبيانات يمكن استخدامها الخلفية مباشرة من قبل المستخدم النقر على البيانات، يمكننا في الواقع الحصول على المنشار المستخدم، ولكن لم النقر على البيانات للمساعدة في التدريب. سوف استعلام يكون سلعة متعددة، يمكن للمستخدم النقر فقط على واحد منهم، وكيفية الحصول على المستخدمين لمعرفة ما غيرها من السلع الأساسية؟ والمفتاح هو في الاستعلام، إذا كان هناك مستخدمين آخرين لنفس استعلام البحث وانقر على المنتجات المختلفة، ثم من المرجح أن ينظر إليها في المستخدم الآخر لا فوق هذا المنتج.

(6) الفجوة بين اللعبة والعمل الفعلي

في هذه اللعبة، ونحن نستخدم الكثير من الميزات ونموذج التكامل الذي هناك نوعان من القضايا التي سيتم مناقشتها. الأولى هي ميزة، ونحن نستخدم الجزء سمة من سمات الوضع الحالي للمستخدم، مثل الفاصل الزمني من آخر نقرة، انقر فوق الفاصل الزمني في المرة القادمة. الميزة الأولى في مجال الأعمال التجارية الفعلية، فمن الضروري لاستخراج في الوقت الحقيقي، في الوقت الحقيقي الإطار إلى ميزات تصميم الحوسبة، ويمكن أداء مواكبة تحتاج إلى النظر فيها القضايا. الميزة الثانية من نقرة واحدة في فترة زمنية، حتى هذا الاستخلاص ميزة أساسية أقل مما كانت عليه في الأعمال التجارية الفعلية، والمستقبل ينتمي إلى المعلومات، ولكن في السباق لتكون قادرة على استخدامها. إذا بيانات المستخدم للتنبؤ فترة زمنية للتكيف إلى مستخدم مرة واحدة فقط، ثم هذه المشكلة لا يمكن حلها.

المشاكل المصاحبة الأخرى هي أن المستخدم مرة واحدة فقط، لا يمكن الاعتماد على الحالة الراهنة من الميزات غير المستخدمة أخرى المستخدم في الحصول على المعلومات المستقبل، والاحصاءات مثل مخازن البضائع ليس تماما، يمكن أن يسبب مشاكل عدم وجود المعلومات. فكيف لموازنة درجة من بيانات الاستخدام في اللعبة وهو حاجة عمل حقيقية للنظر في القضية. مشكلة أخرى هي تصميم نموذج، ورجال الأعمال الفعلي يكاد يكون من المستحيل كومة برنامج دمج نموذج سيتم استخدام مثل تعقيد النموذج والتكلفة الحسابية لجعل تكلفة خط الزمن التقريبي قد يتجاوز نموذج الانصهار مع الأداء إلى الأرباح، قد يكون التكامل المرجح الفعلية أعمال بسيطة لاختيار أكثر من مرة.

البطولة اخترنا نموذج LightGBM لأن بيانات أقل، قطار سريع، يمكنك الانترنت بسرعة التكرار. في العمل الفعلي، وأكثر النماذج قد تكون تستخدم نموذج LR، بعثة تقصي الحقائق، DNN مثل بيانات العمل الفعلي هو ضخمة، وهذه النماذج لمعرفة المعلمات أكثر قوة واستقرارا، والتقديرات بشكل أسرع. كما أن نسبة العينات الإيجابية والسلبية التفاوت، والنظر في كفاءة التدريب، ويمكن في الواقع أخذ عينات بعد التدريب على عينات سلبية، مثل بعد التدريب نموذج LR خلال إدخال تعديلات على اعتراض، يمكن للبيانات لا تزال تحافظ على تقدير واقعي للتوزيع.

السادسة، ويسلط الضوء على فريق

(1) تشكيلة قوية

جمع البيانات التعدين المسابقة ثلاثة لاعبين المعلقة.

(2) هدف مشترك

اللاعبون هدف في البطولة واضحة متفق عليها (على الرغم من النهاية لم تصل).

(3) التواصل الجيد

وتناقش لاعبين لمشاكل المسابقة في كثير من الأحيان في الوقت المناسب ومزامنة تقدمهم.

(4) مثاليا

اللاعبون كانوا يتدربون نماذج مختلفة، والاختلافات النموذجية في بعضها البعض إلى حد كبير، ومناسبة خاصة بالنسبة لل

التكامل.

(النهاية)

عنوان جيثب: الشبكي: //github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

"بحر الملك" بقدر بطلا "عبء المعبود،" جيمس وان لبناء غواصة "tachykinin

أدناه 1500 يوان الذكي خيار جديد: الدخن و 360 على حد سواء واردة!

الدخن 6، واستقرارا! أنفقت سامسونج الكثير من التوسع شياو 835

الحرف الخامس: اللاعبون لا يمكن العثور على قبو الصبر؟ علامات هذا المسؤول يعطي عونا كبيرا!

شو تعزيز مرحلة التعرض في منطقة المدخل العمل سلك في المدينة الذين "يطير"

BMW M2 هامان نسخة معدلة من جديد صغير مع الخردل

القلب ذلك؟ نايك SF-AF1 منتصف "الفطر" قدم على القائمة!

تيان يى سحابة الفوز في 2018 أجهزة الدولة المركزية الحوسبة السحابية منتجات الخدمات: 1500000 أقل من عطاء مشروع المجانية المقبل

VB اللغة أو القضاء عليها، وزيادة المدارس الابتدائية IT تعليم اللغة بيثون!

ثم المشورة لا يكفي! "عشرون" التعرض النوم جزء الحب

APL بطولة دولية، منظمو الفريق الكوري تعرض للضرب لا معنى لها، 04:00 ليست أقوى فريقك؟

6T ماكلارين لحل نسخة مخصصة بالإضافة إلى: السرعة النهائية