قراءة مادة واحدة تكهن بأن نموذج السببية ميل (مع أمثلة)

العنوان الأصلي: الميل النمذجة، الاستدلال السببي، واكتشاف العوامل الدافعة للنمو

الكاتب: ادوين تشن

ترجمة: تشانغ يى

التقييم من قبل: لو Miaomiao

أطروحة 5400 كلمة، اقترح القراءة 9 دقائق .

توضح هذه المقالة طريقة تقدير السببية على سبيل المثال بالنسبة لك، والسائقين تميل إلى النمذجة والنمو.

قبل النص، تصور مثل هذا المشهد.

كنت بدأت للتو على وظيفة جديدة، ولكن أيضا قرأت مؤخرا "الكسول الحرب العالمية" الفيلم، في حالة الشك في الحياة. منذ وقت ليس ببعيد، زائد اثنين المبتدئة بسبب عدم وجود بيانات لن فتح، لذلك ما تراه لم يتم ارضاء جدا للعين.

لقد بدأت أول من نظر في الآثار المترتبة على فريق المبيعات. أنها تجلب في نهاية المطاف هو مقدار الدخل الإضافي؟ تلتقي مندوبي المبيعات يقولون انهم بيع 90 من الزبائن يشترون منتجات الشركة، ولكن كنت لا تزال تشعر شك: هؤلاء العملاء، في النهاية كم الائتمان ويرجع ذلك إلى بائع قبل اتخاذ قرار الشراء؟

لذلك ترى سجل العمل، ولاحظت بعض الشيء المثير للاهتمام: في الأسبوع الماضي هو أسبوع الإختراق، لأن نصف من بائع لاستدعاء المعلومات جمع ولا مجال لتفريغ، ولكن هذا الأسبوع معدل التحويل العملاء ليست تغيير.

أنا في حيرة عندما جاء زميل له الى طاولة المفاوضات. حصل على تنويه Soylent الشراب، وكنت أريد أن أحاول. شرب تبدو جيدة جدا، لذلك لحسن الحظ، ما سألت زملائي، وقال زملاؤه صديقه سوف تكون قادرة على تشغيل الماراثون شرب هذه المشروبات بعد بضعة أشهر. إلى هذا الحد؟ بدأوا في تشغيله؟ - بالطبع لا، والناس سوف تكون قادرة على تشغيل الماراثون في العام الماضي!

الاستدلال السببي (السببية الاستدلال)

العلاقة السببية بين الأشياء هي بلا شك مهمة جدا، ولكن الكذب صعوبة في كيفية تحديد هذه العلاقة.

النظر في المسائل التالية:

  • جسد المريض بعد تناول حالة المخدرات قد تحسنت، ويرجع ذلك إلى دور المخدرات هذا التحسن أو كان جسمه في الانتعاش؟

  • فريق المبيعات الخاص بك لا تلعب دورا، أو أنها مجرد كان من المفترض لبيعها للعملاء الذين يشترون البضائع؟

  • Soylent المشروبات الشراب (أو الإعلان الاستثمارات الخاصة بالشركة ضخمة) يستحق كل هذا العناء؟

في عالم مثالي، طالما نحن سعداء، يمكننا القيام بالمزيد من التجارب للتحقق من هو أفضل مستوى من اختبار السببية --- الاختبار. ولكن الحقيقة هي أننا لا نستطيع أن نفعل ذلك. تأخذ فقط تلك الأمثلة، لا يمكنك ترك المرضى الذين يتناولون دواء وهميا أو المخدرات لم تختبر، فمن غير أخلاقي. ومديري الشركات وربما لا ترغب في المكاسب المحتملة قصيرة الأجل إلى التركيز على العملاء عشوائي. وبالمثل، فإن أولئك الذين يعتمدون على المبيعات فريق المبيعات والحصول على مكافآت ضدها.

فهم العلاقة السببية تحت فكيف ينبغي لنا في أي حال من الأحوال اختبار A / B؟ هذا هو النمذجة ميل (الميل النمذجة) وغيرها من التقنيات السببية الاستدلال في اللعب.

الميل النمذجة (الميل النمذجة)

اقتداء المشروبات Soylent، فإننا نميل إلى استخدام تقنيات النمذجة لتحليل المشروبات الشراب soylent في النهاية ما الدور. لشرح هذا المفهوم، وفي اليوم التالي لبدء تجربة فكرية.

نفترض أن براد بيت لديه شقيق توأم، التي الإخوة هي نفسها: Brad1 وBrad2 معا، وتناول الأشياء نفسها، ونفس كثافة لممارسة الرياضة البدنية وهلم جرا. يوم واحد، براد 1 حدث للحصول على مشروب آخر من الشارع من عشرة المروجين Soylent هناك، ولكن براد 2 لا يوجد مثل هذا الحظ. حتى Soylent تظهر فقط على وصفة Brad1. في هذه الحالة، يعتبر أن أي اختلافات في سلوك التوائم ومنذ ذلك الحين هناك هذا سببه شرب.

وهذا السيناريو جلب العالم الحقيقي، ونحن نستخدم الطريقة التالية لتقدير تأثيرات على صحة Soylent:

  • لكل الشخص الذي شرب Soylent، وإيجاد جميع جوانب شخص قريب له لا تشرب هذه المشروبات. على سبيل المثال، فإننا سوف تشرب Soylent من جاي زي وكاني والشراب Soylent من كمجموعة، أو شرب الشراب Soylent المزاوجة بين كيرا نايتلي Soylent هذا.

  • ثم نلاحظ الفرق بين الاثنين هو قياس أثر soylent.

ومع ذلك، العثور اثنين من التوائم متشابهة جدا في ممارسة من الصعب جدا، إن جاي زي كاني متوسط النوم أكثر من ساعة، ثم كيفية ضمان أن كلا حقا إغلاقه؟

النمذجة ميل (الميل النمذجة) هو تبسيط هذه العملية مطابقة التوأم. نحن لسنا وفقا لجميع المتغيرات التي تتناسب مع الشخصين، ولكن لتتناسب مع جميع المستخدمين مع رقمية بسيطة ----- وفقا لاحتمال وقوعها من شرب soylent ( "الميل")

ما يلي هو الميل إلى وضع تفاصيل التحليل:

  • أولا وقبل كل شيء، بعض متغيرات مختارة كسمة (مثل نوع الطعام الذي نأكله، والنوم، ومكان الإقامة، وما إلى ذلك)

  • وبناء على هذه المتغيرات وضع نموذج احتمال (أي الانحدار اللوجستي) للتنبؤ ما إذا كان الناس سوف تشرب Soylent. على سبيل المثال، مجموعة التدريب لدينا يتكون من مجموعة من الناس، والتي يوجد منها بعض الناس في الأسبوع الأول من مارس 2014 أمر Soylent، فإننا سوف تدريب المصنف إلى نموذج الذي سوف تشرب Soylent.

  • سيبدأ نموذج احتمال الشرب تقديرات Soylent المستخدم يسمى "عشرات الميل"

  • وهناك عدد معين من "دلاء" مثل ما مجموعه عشرة مستويات (يمثل المجموعة الأولى نزعة للشرب هو 0،0-0،1، 0،1-0،2 المجموعة الثانية، وهلم جرا)، وجميع البيانات التجريبية في يتوافق مع "دلو" في.

  • وأخيرا، مقارنة كل الشراب دلو ولا تشرب البيانات النموذجية المشروبات (مثل قياس في وقت لاحق من اللياقة البدنية، والوزن، أو أي مؤشرات صحية أخرى) لتقدير تأثير المسببة للSoylent.

على سبيل المثال، لديها التوزيع العمري الشرب خيالية من السكان ولا تشرب Soylent. يمكننا أن نرى أن شرب سن الحشد Soylent لتكون أكبر قليلا. هذا المزيج هو حقيقة أن واحدا من الأسباب التي لا يمكن ببساطة تحليل الارتباط.

بعد التدريب الجيد Soylent ميل تقدر نموذج وتعيين المستخدم إلى دلو المقابلة أدناه يبين هذا الرقم من التأثير على حركة الأميال شخص Soylent كل أسبوع.

في الرسم البياني أعلاه (افتراضية)، يمثل كل صف على مستويات مختلفة الميل الحشد، يمثل بداية الأسبوع الأول من شهر مارس، وهذه المرة في السيطرة على المجموعة تلقت المشروبات Soylent بهم. قبل هذا الاسبوع، يمكننا أن نرى فارق كبير بين المجموعتين من المسارات البيانات، ولكن السيطرة على المجموعة بعد بدء المقرر الشرب Soylent والأسبوعية زيادة المسافات الطويلة، والتي شكلت تقديراتنا للتأثير السببية من المشروبات.

بالطبع، هناك طريقة أخرى تقدير السببية. وفيما يلي يتحدث اثنان من بلدي المفضل:

الانحدار الانقطاع (توقف الانحدار)

هذا المثال هو:

التي قرة مؤخرا لإظهار شارة على الصفحة الرئيسية لكبار الكتاب، فإننا نريد أن نعرف وهذه الوظيفة في النهاية تنتج أي نوع من التأثير. (لنفترض الآن أن وظيفة وكان على الخط، أنها ليست A / B اختبار). وبشكل أكثر تحديدا، نريد أن نعرف هذه الوظيفة لن تظهر شارات للمستخدمين إضافة المزيد من الأتباع على الصفحة الرئيسية؟

لتبسيط التحليل، فإننا نفترض أن في عام 2013 لمدة سنة كاملة للحصول على زان عدد أكثر من 5000 مستخدم للاستفادة شارة. وبالتالي فإن التركيز هو عودة هؤلاء الذين ينتهكون فقط الحق في الحصول على شارة (أي 5000 تشان) وأولئك الذين المؤهلين تقريبا (للحصول على زان 4999)، والفرق بينهما هو أكثر أو أقل عشوائي. يمكننا استخدام هذه العتبة لتقدير تأثير السببية.

على سبيل المثال، في همية الرسم البياني التالي، 5000 هل أعجبتك هذه الاستمرارية في حدود تشير إلى أن الكتاب سوف تحصل على ميدالية أن يكون أكثر حول متوسط أكثر من 100 مشجع.

تجربة طبيعية

ومع ذلك، فهم دور شارة أعلى الكاتب لا يعني أي شيء، انها مجرد لتوضيح هذا المفهوم يشير مثال بسيط. أجدر من مواصلة استكشاف السؤال هو: عندما اكتشف المستخدم حديثا ما يحدث بعد مؤلف المفضلة لديك؟ حول ما إذا كان تحفيزهم على كتابة بعض من المحتوى الخاص بهم، لاستكشاف المزيد من نفس المضمون، وإدارة لجعلها أكثر المشاركين في الموقع؟ وبعبارة أخرى، فإنها إقامة صلة بين هؤلاء المؤلفين قوية ولا تتم مقارنة مهم جدا مع المستخدم لتصفح عشوائي وظيفة؟

لمزيد من المناقشة، دعونا أولا الحصول على هذه الحالة خيالية قرة أسفل. نلقي نظرة على مشكلة مشابهة عندما أدرس العمل في جوجل.

على سبيل المثال، فإن العديد من الناس يختارون البقاء في المنزل للتعافي تحديث يلة الأحد ربة منزل، بعد مشاهدة الدراما، قد يتوقف الناس على هذه القناة لإيجاد برامج أخرى لمشاهدة.

المشكلة هي هذه: الآن نريد أن نعرف المستخدم يطابق "قناة يوتيوب كاملة" ماذا سيحدث بعد، ويوصى هذه القيمة أين؟

  • المستخدمين يحبون قناة جديدة للقناة سيجلب شيء أبعد نفسه الاهتمام؟ لأن مستخدمي YouTube قد تعود وتبقى مخصصة لقناة جديدة لمشاهدة المزيد من البرامج. (الأثر المضاعف)

  • مثل ما إذا كان القناة الجديدة سوف تزيد النشاط على هذه القناة؟ (تأثير إيجابي)

  • إذا كانت يستبدل قناة جديدة للتفاعل الموجودة على موقع يوتيوب؟ بعد كل شيء، المستخدم غير قادر على قضاء الكثير من الوقت (أثر محايد) على الموقع

  • قناة مثالية حقا يقلل من الوقت يقضيها المستخدمون على الموقع؟ لأنه بمجرد أن تعرف كيف تجد سرعان ما تريد مباشرة أن نرى شيئا، وأنا لن شنق لفترة طويلة (تأثير سلبي) على الموقع.

وبالمثل، أداء اختبار A / B غير واقعي في هذه الحالة، لأنهم لا يستطيعون إجبار يحب المستخدم أو منعهم من تصفح قناة معينة (يمكننا أن نجعل التوصيات، ولكن لا يمكن ضمان أن المستخدمين شرائه).

حل واحد هو استخدام تجربة طبيعية (في هذا السيناريو، كانت التجربة نفسها مهمة عشوائي مماثل.) لدراسة هذا التأثير. وفيما يلي طرق محددة:

تنظر مستخدم في كل يوم أربعاء لتحميل شريط فيديو جديدا. وبعد شهر، لأن الذهاب الى السفر، لذلك فهو إعلام الأعضاء الآخرين مشاهدة هذه القناة المقبل الأسابيع القليلة لن يكون هناك تحميل الفيديو.

أن هؤلاء المستخدمين تتفاعل هذه المرة؟ لأن هذا هو القناة الوحيدة قادرة على الوصول يوتيوب، بحيث لا تكون يوم الاربعاء على موقع يوتيوب حتى الآن؟ لا يزال ليس لديها أي تأثير لأن المستخدم لا تظهر إلا تلك أشرطة الفيديو على الصفحة الأولى عندما سيشير لفتح لمعرفة؟

تخيل، إذا قمت بتغيير القناة لتحميل أشرطة الفيديو كل أسبوع خمسة، لن يستمر هؤلاء المستخدمين تولي اهتماما للذلك؟ منذ أن تم الوصول إلى موقع يوتيوب، أنها ليست سوى لفيديو جديد، ربما مجرد زيارتهم أدى إلى سلسلة من البحث والمحتوى ذات الصلة؟

وتبين أن هذا يحدث في كثير من الأحيان. المثال التالي هو قناة شعبية لتحميل أشرطة الفيديو التقويم. كما ترون، في عام 2011، هو مثل تحميل مقاطع يومي الثلاثاء والجمعة، ولكن في نهاية العام تغيرت الأربعاء والسبت.

لهذا التحول بمثابة تجربة طبيعية، هو مثل "عشوائي" لوضع وقت محدد من قناة شعبية نقله إلى يوم آخر. من هذه، يمكننا أن نفهم أهمية توصية جيدة.

وكمثال على هذا على رأس تجربة طبيعية قليلا معقدة للغاية، من أجل أكثر وضوحا توضيح هذه النقطة، لنفترض أننا في حاجة إلى فهم تأثير الدخل على الصحة العقلية، ونحن لا يمكن أن تجبر السماح لبعض الناس يصبحون أثرياء أو أي مبلغ من المال، ويرتبط البحوث غير كاف بشكل واضح. يصف (//opinionator.blogs.nytimes.com/2014/01/18/what-happens-when-the-poor-receive-a-stipend/ صلة: HTTPS) تجربة طبيعية أن مجموعة هذه المقالة سوف شيروكي الهنود عند توزيع أعضائها مما أدى الأرباح مفتوحة كازينو، يكون "عشوائي" السماح لبعض من لهم للخروج من الفقر.

في بلدي السيناريو أعلاه، افترض أنه خلال الأسبوع وليس هناك برمجة خاصة. ومثال آخر هو استخدام الأسبوع البرمجة، لأنها يمكن أن تكون عشوائية بالمثل "توقف" أداة لفريق المبيعات لاستكمال عملهم.

القوة الدافعة لاستكشاف

الميل العودة دعونا النمذجة المشكلة.

لنفترض الآن أننا أصبحنا فريق التطوير في الشركة، والمهمة الحالية هو معرفة كيفية تحويل هؤلاء المستخدمين عشوائي لتصبح النظامي.

ثم يمكنك أن تأخذ النمذجة طريقة الميل. نختار بعض الميزات (مثل الهاتف المحمول APP، معلومات تسجيل الدخول، والتركيز على مستخدم معين، الخ) وإنشاء نموذج ميل لكل ميزة. ثم، يمكننا رتبة كل ميزات المشاركة في تقديرات السببية مع قائمة مرتبة من الميزات لتقرر مجموعتنا المستهدفة المقبلة. (أو نستخدم البيانات أبلغ الفريق الذي نحتاج المزيد من الموارد). وتشارك هذه التركيبة في نموذج الانحدار (أو فقدان نموذج الانحدار) والتحقق من وزنها ميزة لكل الوزن قليلا نهج أكثر تعقيدا.

ولكن حتى أنني كتبت هذا المنصب، وأنا أيضا لا حريصون على الفن للعديد من التطبيقات تميل إلى أن تكون على غرار. (أنا لا أعمل في المجال الطبي، لذلك لا أستطيع ضمان أنه في نهاية المطاف ما فائدته، ولكن أعتقد أنه قد لا تزال تتطلب وجود اتجاه لمقارنة النمذجة في هذا المجال)، حتى لو كان في المرة القادمة مشهد مماثل، وسوف تحتفظ أكثر وجهات النظر. بعد كل شيء، السببية الاستدلال من الصعب جدا، ونحن لا يمكن التحكم في جميع العوامل المحتملة التأثير، وهذه العوامل فقط يحقق نتائج التحيز. وبالإضافة إلى ذلك، لا بد لنا ميزة اختيار ليتم تضمينها في النموذج بين (تذكر، وبناء ملامح وقتا طويلا جدا وصعب جدا). وهذا يعني أن ما إذا كان من المفيد أن يكون لدينا حكم واضح على هذه الميزات، ولكن كنا نريد حقا القيام به هو العثور على تلك الدوافع الخفية.

حتى ذلك الحين كيف يمكنك أن تفعل؟

على سبيل المثال، إذا كان المستخدم يريد أن يعرف لماذا بعض المستخدمين سيكون عمق الموقع، لماذا لا نحن فقط نطلب منهم؟

على وجه التحديد، يمكننا أن نفعل ذلك:

  • مئات اختيار أول من مجموعات المستخدمين للتحقيق

  • في الاستبيان، فإننا سوف نطلب من المستخدمين، مقارنة مع العام الماضي، وزاد مدى مشاركتهم في موقع معين، انخفض أو لم يتغير؟ ثم، يطلب من المستخدم لماذا هذا التغيير بحيث يصف الوضع الماضي المتصفحون لهذا الموقع، أو السماح لهم لإضافة بعض التفاصيل (مثل المعلومات الديموغرافية).

  • وأخيرا، وضعنا في العام الماضي زيادة كبيرة في مشاركة تعليقات المستخدمين فحصهم (إذا بدلا من ذلك، يمكنك اختيار انخفاض كبير في عدد السكان)، وتحليل الأسباب التي يقدمونها.

على سبيل المثال، وهنا هو ردود فعل مثيرة للاهتمام حصل عندما أجريت الدراسة على موقع يوتيوب.

"موسيقاي هو مسحوق الثقيلة، ومدمن مؤخرا إلى العزف على الغيتار، لذلك سوف يكون هناك بعض الوقت لإلقاء نظرة على بعض من الحفلات الموسيقية وغيرها من مقاطع فيديو ذات صلة الموسيقى على موقع يوتيوب، وبطبيعة الحال، بما في ذلك العديد من الغيتار فيديو تعليمي (URL غير www.justinguitar كوم) "

من هذه الملاحظات، وجدنا أن: المستخدمين لديها السطر التالي هواية جديدة، ومن ثم سيتم تمريرها إلى هواية على موقع يوتيوب. ويفهم هذا جيدا، على سبيل المثال، تريد أن تبدأ الطهي في المنزل للبحث عن الأشخاص الذين سيتم الطبخ الدروس على موقع يوتيوب، المستخدمين تريد أن تبدأ لعب التنس أو غيرها من الألعاب الرياضية سوف تجد أشرطة فيديو تعليمية، والطلاب سوف تجد بعض مماثلة قناة خان الأكاديمية لمساعدة التعلم. وبعبارة أخرى، فإن الأنشطة تحت خط تؤثر على السلوك على الانترنت. في هذه الحالة، نحن لسنا بحاجة لتخمين ما المستخدمين المهتمين في نهاية المحتوى (على سبيل المثال، ما مثل المادة على الفيسبوك، الذين كانوا يطاردون العصي على تويتر، ما مثل المادة على رديت)، ولكن سيتم التركيز على نقطة في كيفية تحول هذه التفضيلات واقع الحياة في العالم الرقمي.

هذا "هواية تحت خط" بالتأكيد لن تكون فكرتي إلى ميزة تشارك في أي وضع، حتى لو كان فقط بسبب هذه الميزة هي صعبة لتوليد. (كيف نعرف ما هو الفيديو مثل العالم الحقيقي المقابل لذلك؟)

ولكن منذ نشك في أنه هو سائق النمو المحتمل ( "المحتمل" لأن التحقيق لا تمثل بالضرورة)، التي يمكننا مواصلة استكشاف هذه القضية.

خاتمة

لتلخيص: في حالة عدم وجود حالة التجارب العشوائية، والميل هو تقنيات النمذجة قوية لتحديد تأثير السببية.

تحليل الارتباط النقي، ولكن هذا يبني على الدراسات الرصدية قد تنتج مضللة. كمثال المفضلة: كلما وجدنا أن شرطة المدينة، القضايا الجنائية قد تكون أكثر --- ولكن هذا لا يمكن أن يعني أننا ينبغي أن تخفض من أجل خفض عدد أفراد الشرطة الجنائية، أليس كذلك؟

مثال آخر، عملت غيلمان على دراسة العلاج بالهرمونات البديلة التوصل إلى استنتاجات متناقضة جعلت وظيفة في دراسة لصحة الممرضات هارفارد '(الأصدقاء الذين ترغب أن ننظر في التفاصيل، وهنا لا يبدأ التحدث بصراحة) (HTTP: // andrewgelman. كوم / 2005/01/07 / could_propensit /)

وبعبارة أخرى، فقط ما يكفي من البيانات ذات جودة عالية، وسوف تحصل على نموذج أفضل . ولكن علينا أيضا أن من الصعب وضع كل المتغيرات الخفية تؤخذ بعين الاعتبار، ومن المرجح أن تصميم عقلك من نموذج في ممارسة النتيجة ليست أفضل بكثير من نموذج عشوائي. لذلك، نرى ما إذا كان هناك طرق أخرى، سواء كان من السهل أن نفهم السبب وتحليل تأثير، أو ببساطة لبحث المستخدم، وحتى أن التجارب العشوائية حاليا أكثر من الصعب تحقيقه، وهلم جرا، وهذه سوف تكون الأخيرة أن يكون البحث الخاصة بك مساعدة.

الرابط الأصلي: HTTP: //blog.echen.me/2014/08/15/propensity-modeling-causal-inference-and-discovering-drivers-of-growth/

مقدمة المترجم

تشانغ يي جامعة الاتصالات في الصين في قراءة المبتدئين، وتخصص في تكنولوجيا الوسائط الرقمية. علم البيانات مليء الفضول، والشعور خلقت في العالم الجديد. حاليا قيد الاستكشاف والتعلم، أريد شجاعة وحماسة، وعلوم المعرفة الأكثر إثارة للاهتمام بهم، ودفع معظم مثل التفكير الأصدقاء.

دو فو مسقف المنزلية تواجه ألف الخط نصب في ضيف شيان يانغ بو البيت

رئيس الوزراء لديه انعكاسي كلاسيكي من ميدان المعركة! 1-3 إلى 4-315 دقيقة، 91 دقيقة قبل تقاليد مهاجم مانشستر يونايتد

علمتك كيف لخلق منتجات البيانات (مع رمز) مع نموذج seq2seq

البحر الهندي؟ والواقع مما كنت اتصور القاسية!

كأس الأبطال الدولية - سجل إيدير مرتين في اصابة في الظهر بين 2-0 بايرن ميونيخ فرانك ريبيري

AI بدلا من القاضي؟ فهمت بناء وتطبيق الحكمة القضائية منه

كأس الأبطال الدولية - قدمت تان تان فقط ثلاثة أهداف الاسترليني كسر موجة العالم أوسكار مانشستر سيتي 4-1 ريال مدريد

تطوير AI: التطبيقات والفرص المتاحة في القطاع المالي (مع الفيديو وPPT)

2017 إدارة الصحة القراءة خدمات مشروع طاقة الرياح

انخفضت التكاليف 2017 عنصر الطيار الآلي الأساسية، وجدنا المتمردين

2-0 بداية جيدة! ريال مدريد 3 بطل الجنون على وجهها سولاري، زين الدين زيدان 3 تغيير فوري

وسجل هيجوين هدفين لكسر ماركيزيو يوفنتوس 3-2 تقاليد باريس - كأس الأبطال الدولية