ساذج A / B اختبار النتائج التي تفقد! نرى هذه الإجراءات، منتجاتك للفوز

[صيد الشبكة السحابية (مايكرو إشارة: ilieyun)] 18 أكتوبر التقرير (المترجمة: الأبيض)

ملاحظة المحرر: A / B اختبار لانتاج اثنين أو أكثر من إصدارات واجهة ويب أو تطبيق أو عملية، في نفس البعد الزمني، على التوالي، حتى أن نفس المجموعات المكونة للزوار الوصول العشوائي هذه الإصدارات، كل مجموعة تم جمعها تجربة المستخدم والبيانات التجارية وتحليلها وتقييمها وأخيرا أفضل نسخة من اعتماد رسمي. الشركات باستخدام هذه الطريقة اختبار، عادة من أجل تحسين تصميم المنتجات والمستوى التشغيلي، وابتكار المنتجات لتوفير الحماية.

في تقرير عن A / B اختبار، قال مارتن و qubit جودسون: معظم نتائج A / B الاختبارات ليست دقيقة جدا. شبكة الفنون أندريه موريس هو أكثر مباشرة، قائلا :. "هذه 90 من نتائج الاختبارات ليست صحيحة".

إذا وجهات نظرهم صحيحة، ثم تطوير العديد من هذه القرارات مبنية على تجارب صحيحة، وهذا يساعد أيضا في تفسير السبب في كثير من مديري ضابط المخاطر غير كبير يشككون في استدامة A / B نتائج الاختبار .

لذا، لماذا نتائج بعض التجارب A / B ليست صالحة حتى الآن؟ نحن يمكن أن تتحول هذه المهام؟

1. التأكيد التحيز:

يعتقد أندريه موريس أن التحيز تأكيدا أدى إلى عدد كبير من ايجابيات كاذبة. وذلك لأن أبتيميزر بشكل طبيعي مع المواقف الخاصة بهم والأفكار كأساس لاختبار الفرضيات، ووالمعلومات تجاهل مع هذه الأفكار المتضاربة. والنتيجة هي أنه بمجرد أن اختبار البرمجيات أنهم على حق، وأنها سوف تصبح أيضا تعتمد عاطفيا على تصميمها، وأي اختبار آخر.

قبل لم يتم التوصل إلى المعلومات الإحصائية لوقف اختبار قد يؤدي إلى تضليل للغاية، لأنه لا يدعم دورة عمل طويلة. أيضا، تحتاج أيضا إلى النظر فيها على وجه الخصوص مصادر حركة المرور، والأنشطة التسويقية الحالية. إذا كان ذلك ممكنا، يجب تشغيل لمدة سنتين على الأقل دورات الأعمال للاختبار، من أجل التوسط التقلبات اليومية والتغيرات في سلوك عطلة نهاية الأسبوع. ولذلك، يجب تشغيل الاختبار 2-4 أسابيع على الأقل، وهذا يتوقف على التصميم الخاص بك والأعمال دورات الاختبار.

2. نجا الانحراف:

وسائل التحيز الناجين أننا نميل إلى التركيز على الطريق الذي نجا (مثل العملاء أو الزبائن المهمين بزيارة العودة)، في حين تجاهل العملية التي شهدت أثرت خصائصها وسلوك هذه الحقيقة. حتى عودة الزبائن، لا يمكن أن تمثل أنها لم تعرض تجربة المستخدم السلبية. عملاء VIP قد يكون معظم المستخدمين مربحة، لكنها ليست ثابتة الزوار ونوايا إنفاقهم غالبا ما تكون أعلى من المستخدم العادي الخاص بك.

أين يكمن الخطر في ذلك، على سبيل المثال، الصفحة المقصودة اختبار A / B، إذا أضيف إلى العودة للمستخدمين، وسلوكهم على أبدا زار الموقع من سلوك المستخدم الجديد مختلف جدا. للاختبار بالنسبة للمستخدمين الحاليين، باستثناء القيم المتطرفة يمكن للعملاء VIP لحد من تأثير على نتائج الاختبار، ولكن إذا كان العملاء VIP لا يمكن أن تمثل للمستخدم العادي، فإنه ينبغي النظر فيها استبعاد تماما من هاتفك A / B اختبار.

3. تأثير الإحصائية:

وهو يشير إلى قوة الإحصائية للاختبار، واحتمال تحديد الفروق الحقيقية بين التجربتين. من أجل تحقيق مستوى عال من القدرة الإحصائية، يجب أن نقرر حجم عينة كافية. ومع ذلك، والشركات التجارية، والناس عادة حريصة على الحصول على نتائج سريعة، وتذهب إلى الاختبار التالي. لسوء الحظ، فإن هذه الممارسة في كثير من الأحيان، يمكن أن يقوض عملية الاختبار.

قبل بدء الاختبار، يجب أن التقديرات الأولية للوصول إلى مستوى عال من القدرة الإحصائية (عادة 90) من كمية العينة المطلوبة. وهذا يعني أن 10 الاختلافات اختبار حقيقي يجب أن تكون قادرا على تحديد تسعة. ونظرا لعينة عشوائية ومراقبة التغيرات في الطبيعة، ونحن نعلم أن الاختبار في حد ذاته سوف تسفر عن نتائج إيجابية كاذبة. تقليديا، يتم تعيين هذه النسبة عادة إلى 5.

ووفقا للتحليل على 1700 A / B اختبار covert.com القيام بها، بلغت حوالي 10 فقط من الاختبار إحصائيا تحسنت بشكل ملحوظ. وهذا يعني أنه إذا كنا إجراء 100 اختبارات، منها سوى حوالي 10 الاختبارات تحسن حقيقي. ومع ذلك، وبالنظر إلى المستوى الحالي للحركة كل موقع، ونحن نقدر أن كل اختبار يحتاج إلى تشغيل شهرين لتصل إلى 80 من الطاقة الإحصائية. وهذا بدوره يعني أنه، من الناحية النظرية، ينبغي أن نكون قادرين على التعرف على تحسن 90 أو تسعة الاختبارات. قيم P بنسبة 5، ثم نتوقع الحصول على خمس نتائج إيجابية كاذبة. لذلك، يمكن اختبار لدينا تنتج ما مجموعه 14 تجربة ناجحة.

الخطر هنا هو أن الناس في كثير من الأحيان ليس لديهم الصبر والانتظار لاختبار لتشغيل بدوام كامل لمدة شهرين، حتى تظهر الاختبارات أي تحسن. وبالإضافة إلى ذلك، كما أنها تميل إلى أسبوعين بعد أن توقفت الاختبار. المشكلة مع ذلك هو أن عينة صغيرة جدا يقلل من قوة الإحصائية للاختبار، فمن المحتمل أن يقلل من 90 إلى 30 أو أقل من ذلك. في هذه الحالة، فإننا سوف تحصل على ثلاث تحسين حقا، وخمس نتائج إيجابية كاذبة. وبعبارة أخرى، لا تحسن 63 من نتائج الاختبار حقا.

قبل تشغيل الاختبارات، فمن الأفضل استخدام حجم آلة حاسبة العينة، وتقدير قوة الإحصائية التي تحتاج إليها للحصول على الوقت. إذا قررت لتقصير وقت الاختبار، وهذا يمكن أن تسمح لك معرفة الوقت بسبب تأثير يجلب الاختبار. إذا كنت قبل نهاية الاختبار، لديك خطر كبير من النتائج إيجابية كاذبة.

4. سمبسون مفارقة:

بعد بدء الاختبار، تأكد من عدم تغيير الإعدادات، متغير أو السيطرة التصميم، ولا تتغير تم تعيين متغير التدفق إلى مسار التجربة. تعديل المتغير خلال توزيع تدفق اختبار يمكن أن تقوض نتائج الاختبار، والذي يرجع إلى ظاهرة تعرف باسم "مفارقة سمبسون" غير المناسب. عندما مجموعتي توحيد البيانات، عند الاتجاه من مجموعات البيانات المختلفة تختفي، سوف تنتج هذه الظاهرة.

وقد واجهت المجربون مايكروسوفت هذه المشكلة. عندما الجمعة، أنها اختبار فقط المتغيرات خصصت 1 من حركة المرور، وإلى اليوم السبت، في تدفق بدوره ارتفع إلى 50، ثم ظهرت مفارقة سمبسون. الموقع يحتوي على مليون زائر يوميا. على الرغم من أن الجمعة والسبت يومين، ارتفاع معدلات التحويل من المتغيرات السيطرة، ولكن عندما يتم تجميع البيانات لإعطاء متغير معدل التحويل الكلي ويبدو أن تصبح أقل.

يحدث هذا لأننا سوف تستخدم المتوسط المرجح. السبت، وانخفاض معدل التحويل، وكما في اليوم المعين لمعدل التدفق المتغير هو 50 مرة الجمعة والسبت معدل التحويل أكبر تأثير على النتائج الإجمالية.

يجب أخذ العينات غير موحدة، يحدث تغير التناقض سمبسون. وبالتالي تجنب استخدام مزيج من بيانات مجمعة فرعية (مثل أنواع الأجهزة المختلفة أو مصادر حركة المرور) لاتخاذ قرار. وهذا يشير إلى أن الفوائد من الاختبارات الموجهة، على سبيل المثال، المعنية فقط مع مصدر زيارات واحد أو نوع الجهاز.

عندما تحتاج مصادر متعددة للزيارات أو مستخدم اختبار جزء المدى، فمن الأفضل تجنب استخدام البيانات الكلي، وكل المصدر / صفحة تتم معالجتها باعتبارها متغيرات اختبار منفصلة. بعد ذلك، يمكنك تشغيل اختبار لكل متغير، حتى تحصل على النتائج التي تريدها الإحصاءات.

خلال تدفق اختبار التغييرات توزيع سيجعل النتائج تحيد عن التوقعات الخاصة بك، لأنه سيغير العودة عينة عملائك. منذ توزيع تدفق سيؤثر فقط المستخدمين الجدد، وحصة حركة التغيير لن يكون بسبب الاختلافات في عدد من عودة الزبائن الناجمة عن توزيع التدفق الأولي والتغيير.

وغير مؤكدة اختبار البرمجيات الخاصة بك A / B:

في بعض الأحيان، لم يقم بتأكيد الشركة بشكل صحيح، وهذا هو إجراء تقييم دقيق للمؤشرات الرئيسية جميع التجارب المستخدم، حريصة على بدء استخدام A / B اختبار البرمجيات. منذ منصة والتسجيل والإلغاء من قبل فرق إدارة مختلفة، اختبار البرمجيات قبل بدء الاختبار لم موحدة، ظاهرة متكاملة هو أمر شائع جدا.

في عملية التكامل، ولكن أيضا يجب التأكد من الاختيار المزدوج التي تم إدراج جميع المستخدمين المختلفين، لأن الناس يميلون إلى الاعتقاد أنها ستكون معظم طريقا هاما في المقام الأول. ومع ذلك، سلوك المستخدم الذي نادرا ما يجتمع ميل "مسار سعيدا".

عند الانتهاء من التكامل، فمن الضروري للتحقق ويمكن التأكد من نتيجة التكامل عن طريق تشغيل مؤشرات تقييم صحيح سواء A / A اختبار أو محلل شبكة. بطبيعة الحال، فإن أسلم طريقة للتحقق أيضا ما إذا كان اختبار البرمجيات وتحليل الشبكة تتفق مع مستودع البيانات الخاصة بك. إذا كان هناك أي اختلافات، وجدت أفضل بكثير من تقديم نتائج الاختبار إلى الإدارة العليا قبل الاختبار.

6. الانحدار إلى الوسط:

بعد أيام قليلة بعد اختبار تشغيل، ونتائج الاختبار عندما تجد زيادة كبيرة (أو نقصان) يبدو، ونقول فورا رئيسك في العمل أو أعضاء الفريق الآخرين، وهذا النهج غير مسؤول تماما. سمع الجميع لا بد الخبر السار إلى أمل إشعال أو يتوقع، بعد ذلك سوف يطلب منك وضع حد للاختبار في أقرب وقت ممكن، وذلك للحد من الخسارة أو الربح من الصعود. ولكن في كثير من الأحيان، أيام أو أسابيع بعد هذه الترقية كبيرة في اختبار مبكر سوف تختفي تدريجيا.

هو، لا تقع المشورة في هذا الفخ، لأن ثم ترى شيئا ولكن الإنقلاب المتوسط. وهذا هو، إذا كان نتيجة لمؤشرات بالغة في التقييم الأول، ومراقبة المتابعة، فإن متوسط مؤشر تميل تدريجيا للتحرك. على وجه الخصوص، وإنتاج نتائج عينة صغيرة جدا بسهولة، لذلك يجب الحرص على عدم أي نتائج في بداية البيانات اختبار الإنتاج سيتم تفسيره على أنه معدل التحويل التي تم الحصول عليها.

7. المؤشر القائم على دورة الباطل:

معظم A / B اختبار البرمجيات باستخدام الاختبارات الإحصائية القياسية لتحديد ما إذا كان أداء متغير تختلف اختلافا كبيرا من السيطرة على المجموعة.

ومع ذلك، إذا كنت تستخدم مؤشرات الدورة مستوى، مثل تحويل كل دورة، سيكون لديك مشاكل. A / B اختبار البرمجيات وتعيين المستخدم إلى مجموعة A أو B، لمنع نفس متغيرين ترى الزائرين والمستخدمين وضمان الاتساق. ولأن المستخدم يمكن أن يكون جلسات متعددة، وبالتالي الدورة ليست مستقلة.

يظهر تحليل Skyscanner لأنه إذا كان للزوار أكثر من جلسة واحدة، ثم وارتفاع احتمال وقوعها التحويل. من ناحية أخرى، إذا كان المستخدم جلسة متعدد المستخدمين، وتحويل يولد جلسة واحدة قد تكون منخفضة نسبيا. مع Skyscanner محاكاة كيفية هذه الظاهرة سوف تؤثر على معدل التحويل توقع بهم، وعدم استقلال هذا القلق. ووجد الباحثون أنه عندما تم اختيارها عشوائيا بدلا من الدورة المستخدم، A / B اختبار يظهر أكبر بكثير مما هو مفترض حساب التباين التباين.

وجدت Skyscanner ذلك، ويرجع ذلك إلى ارتفاع متوسط عدد الدورات، وأكثر وضوحا من تأثير في التجارب على المدى الطويل. وهذا يعني أنه عندما يحدث معدل التحويل المستندة إلى جلسة (أي عشوائية المستخدم)، و سعر انذار كاذب لهو متوقع عادة اختبار لمدة شهر ثلاث مرات. ومع ذلك، إذا كان الاختبار يعتمد على المستخدم (أي عشوائية جلسة بغض النظر عن المستخدم)، التباين التباين بما يتماشى مع أهمية تنبأ به الحساب.

وبالإضافة إلى ذلك، كلما كنت تستخدم مؤشر احتمال العشوائية لم تحدد، سوف تنشأ المشاكل المذكورة أعلاه. لذا، إذا كنت تستخدم المستخدم العشوائية الأزياء، وعرض الصفحة، انقر فوق أو من خلال النقر معدل وسوف تتأثر مؤشرات أخرى من نفس المشاكل المذكورة أعلاه. وقدم فريق Skyscanner ثلاث طرق لتجنب نتائج الاختبار المتضررين من هذه الظاهرة الإحصائية غير مضللة:

1) في المستخدم العشوائية، تأكد من اتباع مؤشرات مستوى المستخدم، بحيث يمكنك تجنب ارتفاع معدل انذار كاذب.

2) عندما يكون لديك لاستخدام الفهرس سوف تزيد من ميل من ايجابيات كاذبة، وهناك طرق التنبؤ بدقة حساب التباين وص القيم الحقيقية.

3) يجب حساب التباين الحقيقي وحساب دقيق من القيم ف ليس فقط معقدة وتستغرق وقتا طويلا جدا، ويمكنك فقط قبول معدل أعلى من ايجابيات كاذبة. ولكن يمكنك استخدام اختبار AA للتنبؤ حد لظاهرة المبالغة في التباين الإحصائي للمؤشر.

الخلاصة:

عندما كنت في محاولة لتجنب المزالق من اختبار A / B المذكور أعلاه، والمفتاح هو أن تقوم بتطوير وتشغيل الاختبارات لديك، عملية صلبة قوية. إطارا جيدا للتأكد من أن اختبار الافتراضات تستند إلى أدلة بدلا من الحدس، وكان لديك المعلمات اختبار قبل الموافقة عليها. تأكد من حصولك على حساب حجم العينة المطلوبة، والمدة التي تريد لتشغيل اختبار على الأقل أن تكون قادرة على الحصول على القوة الإحصائية التي تحتاج إليها.

في الواقع، على المدى اختبار اكتمال هناك تكلفة الفرصة البديلة، حتى في بعض الأحيان قد ترغب في إنهاء الاختبار في وقت مبكر. إذا كنت لا يمكن أن يقبل من خطر انخفاض مستوى الثقة الإحصائية وكاذبة ارتفاع معدل انذار، ونهاية الاختبار مقدما دون مشاكل. في الواقع، هناك أدلة على أن، طالما أن تستمر في تشغيل الاختبار، فإنه يمكن أن يعوض عن زيادة معدل من ايجابيات كاذبة على برنامج كبير.

أتى هذا المقال من شبكة الصيد سحابة، ينبغي للطبع، يرجى الإشارة إلى المصدر: HTTP: //www.lieyunwang.com/archives/373284

بناء اللاعبين الكبار، تريد رفع السوق المحلية سحابة بت C المعركة

الأخبار | 5G، قابلة للطي لاول مرة شاشة MWC معا حقبة جديدة من الهواتف الذكية تأتي حقا؟

تبدو أكثر من هنا! هذه الموجة من اللوائح الجديدة التي تم تنفيذها منذ مارس لأول مرة قال لك عن المحفظة

الدوري الاسباني - اسبانيول يساعد أيضا فاز وو لي في دوري الدرجة الاولى الايطالي بعد 1-1 -00 + مراهق نقطة صنع دفع يوفنتوس 4-1

أسود فون 7 من الطلاء كيف نفعل؟ فنغ الأصدقاء يعلمك لإصلاح بسرعة

حريق منزل ممر الحنفية دون ماء! مدير الملكية القانون الاعتقال الإداري

مانشستر إمكانات لاعبين ملخص سجل لاعب خط الوسط الدفاعي، غادر نظرة الضغط الخلفي مندي

مدرب المنافس وو لي إلى نقاش حول: غياب هداف في المهاجم الاسباني لكن الصين هي أيضا جيدة جدا

هناك أيضا روح الدعابة قطعة شو عناء الملح النكهة

أكبر الساحة الآسيوية في الأماكن المغلقة، 20 ساعة الكرنفال، ضرب VAC مقطع الكهربائي مرة أخرى

ALIPAY توسيع سوق الالكترونيات الاستهلاكية الأجنبية ومريحة هو الكلمة الأخيرة

"الجمهور الركض مهرجان" والجماعات الوالدين والطفل، مجموعات شخصية مهلة 7 التطبيق مارس