الجاف | سريع طرق التقييم على الانترنت نموذج نظام توصية نيتفليكس --Interleaving

ويرد هذا المقال من رقم القناة الدقيقة العام: مذكرات التعلم الآلي وانغ زهي (ID: wangzhenotes)، وادي السليكون المؤلف هو أحد كبار المهندسين وانغ زهي، والاهتمام موضع ترحيب في المعرفة لها تقريبا الموضوع: الشبكي: //zhuanlan.zhihu.com/wangzhenotes

ها هو "مذكرات التعلم الآلي وانغ زهي" المادة الثامنة عشرة، اليوم ونحن نركز على اختبار وتقييم النماذج على الانترنت. يجب أن يكون من ذوي الخبرة المهندسين خوارزمية واضحا جدا في دورة تطوير نموذج، وهو ما يمثل الجزء الأكبر من عبء العمل هو في الواقع يتميز الهندسة ونموذج عملية التقييم وعلى الخط. في منصة آلة التعلم كانت ناضجة جدا الآن، تنفيذ وتعديل هيكل نموذج ولكن فقط بضعة أسطر من الأشياء التعليمات البرمجية. هكذا إذا كان يمكن تحسين كفاءة تقييم نموذج وخط AB اختبار، يجب أن يكون مهندس المحررة الأشياء خوارزمية فعالة .

اليوم في هذه المقالة سوف نقدم يتدفقون "فريدة أسرار التقييم على الانترنت" العملاقة نيتفليكس في --Interleaving.

تشو هو معروف، نيتفليكس يتدفقون هو الولايات المتحدة العملاقة لما له من المعروف جيدا ليس فقط بسبب أكثر من المعروف جيدا الدراما الأصلي، وارتفاع القيمة السوقية، في مجال توصية التقنية، فقد كان لها نيتفليكس في طليعة هذه الصناعة. نيتفليكس ثم دفع لتحقيق المهم نظام توصية الفني بسرعة الابتكار التكرارية هو أساليب التقييم السريع --Interleaving اليوم على الانترنت نحن نريد أن نقدم.

نيتفليكس مشاكل النظام توصية الخلفية

ينصح صفحات نيتفليكس تقريبا كل يحركها خوارزمية، كل خوارزمية الأمثل لتوصية سيناريوهات مختلفة. كما هو مبين، "الأعلى اللقطات خط" في الصفحة 1 يقدم توصيات شخصية استنادا إلى ترتيب للفيديو، في حين أن "الإمالة الآن خط" يحتوي على معظم الاتجاهات الحديثة. هذه السطر شخصية تشكل معا ما يقرب من 100 مليون آلاف الأعضاء نيتفليكس "من ألف وجوه" شخصية الصفحة الرئيسية.

الشكل 1: شخصية نيتفليكس سبيل المثال الصفحة الرئيسية. كل صف فئة الموصى بها، لصف معين، من اليسار إلى يتم تحديد النوع المناسب من الفيديو عن طريق خوارزمية محددة الفرز.

لخوارزمية نيتفليكس مدفوعة بقوة، والابتكار خوارزمية تكرارية، وبطبيعة الحال، فمن الضروري. من أجل تحقيق أقصى قدر من نيتفليكس الخوارزمية التي كتبها أهداف العمل (وهذه مؤشرات الأعمال، بما في ذلك شهريا اشتراكات المستخدمين، مشاهدة الطول الإجمالي وما إلى ذلك)، فإنه يتطلب الكثير من AB اختبار للتحقق من أن خوارزمية جديدة يمكن تعزيز فعالية هذه مؤشر مفتاح المنتج.

ويشكل هذا التناقض، وهذا هو، المهندسين خوارزمية والطلب المتزايد على الانترنت AB AB اختبار اختبار بين نقص حاد في الموارد والصراعات . لأن لا بد خط AB اختبار لتناول موارد قيمة حركة المرور على الإنترنت، قد يكون هناك ضرر على تجربة المستخدم، ولكن الموارد حركة المرور على الإنترنت يقتصر الواضح وفقط جزء صغير يمكن استخدامها لاختبار AB، وتطوير خوارزميات هذا الجانب سيناريو استخدام يحركها خوارزمية آخذ في الازدياد، الخوارزمية يحتاج إلى عدد كبير من المرشحين واحدا تلو الآخر اختبار AB. هذا التناقض بين البلدين تكثيف لا محالة. هناك حاجة ملحة لتصميم أساليب التقييم السريع عبر الإنترنت.

ولهذه الغاية، تم تصميم نيتفليكس اختبار عبر الإنترنت في مرحلتين (FIG 2).

1. المرحلة الأولى وهو ما يسمى التداخل طرق اختبار للكشف السريع للمرشح خوارزميات المرشح للخروج كمية صغيرة من "جيدة" خوارزمية الترتيب من الفكرة الأولية لعدد كبير.

2. يتم تخفيض المرحلة الثانية لمجموعة من الخوارزميات أداء AB الاختبار التقليدية لقياس تأثير طويل الأمد على سلوك المستخدم.

كان يجب أن يكون التقليدي طريقة AB اختبار كثيرا في المنزل، لذلك تركز هذه المقالة على كيفية إدخال نيتفليكس وأجرت على الانترنت عن طريق التداخل طرق الاختبار السريع.

الشكل 2: انتر ترك اختبار سريع على الانترنت. خوارزمية المصابيح مرشح التمثيلية. من بينها، وأفضل خوارزمية الفوز أظهرت باللون الأحمر. يمكن التداخل المسارعة خوارزميات المرشح الأولية خفضت مقارنة AB الاختبار التقليدية لتحديد خوارزمية أفضل بشكل أسرع.

مشاكل AB الاختبار التقليدي

بالإضافة إلى AB الاختبار التقليدي هناك كفاءة، لا تزال هناك بعض الاختلافات الهامة في مسألة الإحصاءات. هنا مع نموذجية الأسئلة AB اختبار سيتم شرحه.

هنا تصميم AB اختبار للتحقق من أن مجموعات المستخدمين إلى "كوكا كولا" و "بيبسي" هناك ميل إلى الذوق. حسنا، وفقا للنهج التقليدي، وسنقوم بعد ذلك قسمت عشوائيا إلى مجموعتين اختبار كان "أعمى"، أي اختبار من دون علامة تجارية الكولا واعية. وتوفر المجموعة الأولى فقط كوكا كولا، بيبسي فقط في المجموعة الثانية، ثم لاحظ أن الناس أصبحوا أكثر مثل "كوكا كولا" أو الاستهلاك "بيبسي" الكوك وفقا للجميع خلال فترة زمنية معينة.

هذا الشعور العام التجربة هو في الواقع الفعلي، مرات عديدة نحن أيضا أن تفعل ذلك. ولكن لديها بعض المشاكل المحتملة:

1. مجموع السكان الاختبار، وبالتأكيد لعادات استهلاك الكولا تختلف، من لا شرب الكولا تقريبا إلى شرب الكثير من الكولا يوميا من الناس.

2. فحم الكوك هو بالتأكيد حساب جماعات المستهلكين الثقيلة لجزء صغير فقط من السكان اختبار، لكنها قد تكون مسؤولة عن نسبة كبيرة من استهلاك المشروبات الغازية بشكل عام.

هذا يؤدي إلى سؤالين، حتى لو المستهلكين الكولا شديد الاختلال صغيرة قد يكون لها أيضا تأثير غير متناسب على AB المبرمة بين المجموعتين .

في سيناريوهات الإنترنت، وجود هذه المشكلة أيضا. نيتفليكس السيناريو كما يلي، وعدد المستخدمين النشطين هي نادرة جدا، فإنه يمثل نسبة كبيرة من المشاهدة طويلة مساهماتها، وبالتالي نيتفليكس AB اختبار المستخدمين النشطين في المجموعة الأولى وينقسم في عدة أو متعددة كان في المجموعة B، و يكون لها تأثير أكبر على النتائج، لإخفاء الأثر الحقيقي للنموذج.

حتى كيفية حل هذه المشكلة؟ طريقة واحدة خاطئة مجموعة سكانية الاختبار، ولكن لجميع المختبرين أحرار في اختيار بيبسي وكوكا كولا (الاختبار حتى الآن أي تسميات العلامة التجارية، ولكن يمكن التمييز بين اثنين من الكولا مختلفة). بعد نهاية التجربة، فإن نسبة إحصاءات الاستهلاك لكل شخص كوكاكولا وبيبسي، ثم بلغ متوسط للحصول على نسبة الاستهلاك بشكل عام.

وميزة هذا الاختبار هو إلى:

1. القضاء على مشكلة التوزيع غير المتكافئ للالخاصة للاختبار مجموعة السمة AB.

2. من خلال إعطاء وزن متساو لكل وزن الشخص، والحد من التأثير المفرط للمستهلكين الثقيلة من النتائج.

ينطبق هذا الاختبار لفكرة المشهد نيتفليكس والتداخل.

تقييم سريع خط نيتفليكس --Interleaving

3 يصور الفرق بين اختبار AB والتداخل.

في اختبار AB التقليدي في، سيحصل المشتركون نيتفليكس اختيار مجموعتين: مجموعة تلقي خوارزمية الترتيب والنتائج توصية، ومجموعة أخرى تلقت توصية نتيجة خوارزمية الترتيب ب.

التداخل في الاختبار، فقط مجموعة من المشتركين، سوف تتلقى إنشاء المشترك بالتناوب من خلال ترتيب الترتيب خوارزمية ألف وباء الاختلاط.

وهذا ما يسمح يمكن للمستخدمين في وقت واحد أيضا رؤية نتائج توصية خوارزميات A و B في سطر واحد (لا يمكن للمستخدم تمييز عنصر واحد أوصت به خوارزمية A أو خوارزمية توصية B). في المقابل، يمكن قياس مؤشرات أخرى لمشاهدة الحوسبة طويلة في نهاية المطاف هو جيدة أو أفضل خوارزمية خوارزمية A B.

الشكل (3): AB اختبار التقليدية والتداخل في AB اختبار التقليدية، وتنقسم المستخدمين الاختبار إلى مجموعتين، تعرضت مجموعة واحدة إلى خوارزمية الترتيب A، يتعرض خوارزمية B إلى مجموعة أخرى، للعرض ومؤشر التقييم الأساسية طويلة مقارنة بين المجموعتين . من ناحية أخرى، كل اختبار التداخل تعرض المستخدم إلى خوارزميات الترتيب مختلطة ألف وباء، ومؤشر المقابلة لخوارزمية ثم قارن هذا البند

وبطبيعة الحال، عند اختباره مع طريقة التداخل، يجب عليك أن تنظر إلى وجود انحراف الموضعية، لتجنب خوارزمية فيديو من الإجمالي في المقام الأول. فمن الضروري لجعل المساواة احتمال خوارزمية ألف وخوارزمية B بالتناوب زمام المبادرة. وهذا مشابه للمعارضة عندما لعب كرة السلة، واثنين من النقباء لتقرر من الذي يجب أن ينتخب الناس، ثم عضوا احتياطيا للعملية الانتخابية عن طريق رمي عملة واحدة.

الشكل 4: استخدام "اختيار قائد" وسيلة لمزج درجتين الفيديو خوارزمية الترتيب. كان خوارزميات الترتيب A و B قائمة أشرطة الفيديو الموصى بها. يحددها إرم عملة هو عشوائي خوارزمية الترتيب A أو B مساهمة أول فيديو. ثم، تم تحديد المنعطفات الخوارزمية من ألف وباء من ارتفاع في نهاية الفيديو.

في طريقة التداخل واضح ومن ثم لا تزال بحاجة للتحقق من هذا التقييم في نهاية المطاف لا يمكن أن يكون بديلا للAB الاختبار التقليدي، فإنه لن رسم استنتاجات خاطئة. التحقق نيتفليكس من جانبين، واحد التداخل "حساسية"، والثاني هو التداخل "صحة".

التداخل مقارنة حساسية لAB اختبار التقليدية

أمل نيتفليكس في هذه المجموعة من التجارب للتحقق من أن التداخل طريقة مقارنة AB الاختبار التقليدي، كيف تحتاج العديد من العينات لتكون قادرة على التحقق من مزايا الخوارزمية ألف وباء من الخوارزمية. أكدنا مرارا وتكرارا اختبار التوتر قبل الموارد على الانترنت، لذلك هنا نريد بطبيعة الحال إلى الاستفادة من الموارد على الانترنت أقل التداخل، أقل من المستخدمين اختبار لتقييم حل المشكلة. وهذا ما يسمى "مقارنة حساسية".

الرقم 5 هو نتيجة التجريبية، والمحور الأفقي هو عدد العينات المشاركين في التجربة، والمحور الرأسي لم نيتفليكس لا تعطي تفسيرا دقيقا جدا، لكننا يمكن أن يفهم على أنه قرار خوارزمية A جيدة "الخطأ" احتمال من خوارزمية B. ويمكن ملاحظة أن طريقة التداخل باستخدام 10 ^ 3 عينة يمكن تحديد ما إذا كانت الخوارزمية هو أفضل من B، ومطلوب اختبار AB قبل 10 ^ 5 عينات نسبة الخطأ يمكن أن يكون أقل من 5. يعني ذلك باستخدام مجموعة من الموارد AB اختبار، يمكننا أن نفعل 100 تجارب مجموعة التداخل. وهذا مما لا شك فيه أن يعزز كثيرا من قدرة الاختبار على الانترنت.

FIG 5: التداخل مؤشرات الحساسية وAB الاختبار التقليدية. بالمقارنة مع معظم المؤشرات الحساسة من AB اختبار التداخل الحاجة مشتركين فقط سوف تكون قادرة على عينة 1/100 خوارزمية لتحديد يفضل المستخدمين

علاقة التداخل المؤشرات ومؤشرات AB اختبار

بالإضافة إلى استخدام عينة صغيرة خوارزمية تقييم سريع، ونتيجة لحكم التداخل يتفق مع AB اختبار، تحقق أيضا ما إذا كانت المرحلة الأولى على الانترنت التداخل لتقييم رئيسي AB اختبار استبدال.

6 يبين الشكل العلاقة بين التجريبية ومؤشر المؤشرات التداخل AB اختبار. تمثل كل نقطة بيانات خوارزمية الترتيب. لقد وجدنا علاقة قوية جدا بين مؤشر ومؤشر تقييم التداخل AB الاختبار، الذي صادق على التجارب الفائزة في التداخل الخوارزمية هو أيضا من المرجح جدا أن يفوز في اختبار AB بعد.

الشكل 6: مؤشر التداخل والمؤشرات ذات الصلة AB اختبار. تمثل كل نقطة نتيجة التجريبية للخوارزمية الترتيب. AB اختبار وجود التداخل المؤشرات ومؤشرات وجود علاقة قوية

استنتاج

ونحن نعرف بالفعل من خلال تجارب التداخل هي قوية وفعالة طريقة التحقق الخوارزمية، الذي يسرع الابتكار تكرارية نيتفليكس جميع أنواع خوارزمية الترتيب.

ولكن يجب أن نكون واضحين أن طريقة التداخل أيضا بعض القيود، وعلى رأسها نقطتين التالية:

1. إطار تنفيذ المشروع من AB الاختبار التقليدي معقدة. بسبب التداخل التجريبية المنطق ومنطق الأعمال متشابكة، لذلك قد تكون منزعجة منطق الأعمال. ومن أجل تحقيق التداخل، فإنه يتطلب كمية كبيرة من البيانات التكميلية تشير إضافة إلى خط أنابيب البيانات بالكامل، وهو صعوبة تنفيذ المشروع؛

2. التداخل بعد كل شيء، سوى مقياس نسبي لدرجة خوارزمية النتائج توصية تفضيل المستخدم، الخوارزمية لا يمكن التوصل إلى الأداء الكامل. على سبيل المثال، نريد أن نعرف فإن المستخدم خوارزمية تكون قادرة على مشاهدة طول زيادة عدد، استخدم التداخل غير قادر على رسم هذه الاستنتاجات. لهذا السبب تم تصميم نيتفليكس التداخل + AB اختبار اثنين من هيكل التجريبية، وتحسين الإطار العام للاختبار عبر الإنترنت.

وأخيرا مناقشة العديد من القضايا بشكل روتيني مع لكم، وأنا آمل أن تبادل وجهات النظر ومناقشة المعرفة الحقيقية:

1. نص حساسية الاختبار في النهاية هو ما يتم تنفيذ الاختبار؟ المحور الرأسي هو القيمة P ذلك؟ (وصلة الأصلي يمكن أن يشير إلى نهاية النص)

2. بالإضافة إلى AB اختبار والتداخل، كنت تعمل أو طرق الاختبار المستخدمة التي الخط؟

3. في رأيي، التداخل بالإضافة إلى عيوب اثنين وأخيرا، هناك مشاكل أخرى محتملة، وكذلك ما رأيك؟

وأخيرا، أرحب اهتمام الجميع الصغرى قناة رقم العام: مذكرات التعلم الآلي وانغ زهي (wangzhenotes) ، تتبع حسابات الإعلان، وأنظمة التوصية وغيرها من مجال المتطورة من تعلم الآلة.

أود أن مزيدا من تبادل الطلاب يمكن استكشاف مع القضايا الفنية من خلال عدد الجمهور بالإضافة إلى رسالتي الجزئي.

ملاحظة: تستند هذه المادة إلى حد كبير على بلوق التكنولوجيا الأصلي نيتفليكس الرسمي ل(https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55) ترجم ونفذ تكملة فعالة.

-انتهى-

2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات

2019 نيان 12-14 يوليو ، ينظمه اتحاد عموم الصين للكمبيوتر (CCF)، شبكة لى فنغ وجامعة هونغ كونغ الصينية في رعاية (شنتشن)، وشنتشن، الذكاء الاصطناعي، ومعهد بحوث الروبوتات لشركة 2019 قمة العالمية حول الذكاء الاصطناعي والروبوتات (يشار إلى أن CCF-GAIR 2019) وشنتشن يكون الستار رسميا.

بحلول ذلك الوقت، الحائز على جائزة نوبل JamesJ. هيكمان، أكاديمي أجنبي، رئيس القمة العالمية، المعروفة زميل، وعدد من الضيوف في الوزن الثقيل سوف شخصيا Zuozhen ، لمناقشة الذكاء الاصطناعي والمجال المعقد من الوضع الروبوتات البقاء على قيد الحياة والإنتاج والاستثمار وهلم جرا.

انقر على قراءة النص الأصلي عرض: جيثب توصية المشروع - RecQ - بيثون إطار نظام توصية

طريق الحرير

الجاف | سريع طرق التقييم على الانترنت نموذج نظام توصية نيتفليكس --Interleaving

ديناميكية | المندوبية مختبر 12 ورقات مختارة لأعلى في العالم مؤتمر الحاسوب الرؤية CVPR 2019

وسائل الاعلام الاجنبية تقديم يتعرض غالاكسي ملاحظة 10+

دفعت أبل دائرة الرقابة الداخلية 12.4 بيتا 6؛ هواوي أول هاتف 5G أو في السوق في شهر أغسطس، إطلاق سوني الجهاز الجديد يهمس معرض وسجل الفينيل شو 24 ساعة

190614 تشو Zhengting الجسم الأسود نظرة الخروج من الأقراط المطار جلب أخيرا للخروج من الشمس

ارتبط Jingdong مدخل، بدءا من بكين مقعد الأسماك المتحدث C1 AI

CVPR 2019 | بدأت الرياح الخفيفة تايوان أكبر بيانات تتبع هدف واحد في العالم LaSOT

تصميم أبل الأول، مسرعات تطوير رسميا في شنغهاي

التبديل لايت نينتندو أعلن رسميا: 20 سبتمبر بيع

هذا هو طعم الحب يا، الذكية محاكمة متر تجربة الرقبة والكتف تدليك

دوائر | قدم معهد AI بيركلي جديدة الخوارزميات تعزيز البيانات، أقوى من AutoAugment الدماغ جوجل! | ICML 2019

اتبع 618، مهلا تصل معنا

هونغ كونغ: العثور على لحظة استرخاء في كل مكان بين | يوم واحد

190614 رجل لوهان على التوالي لمقاومة! برو بالكاد، ولمس الفم هو قطعا لا

CVPR 2019: مكاسب الشركات الصينية العديد من العناوين، شهد النجم ياو الصينية لحظة

190614 "شنغهاي القلعة"، وأحدث تقرير: "المجتمع البشري من مصير" في مشاعر الصينيين

حقا جعل الرجال الأجانب حمام تجربة الاسمنت، وصعوبة التنفس، وفقدان ما يقرب من حياتهم

البالغ من العمر 10 سنوات صبي أفريقي وزنها 180 جنيه، بسبب المعاناة من مرض غريب نادر، ودائما جائع

YG يانغ هيون سوك تنحى من جميع المناصب، بارك يوم واحد بالسجن لمدة عام ونصف

CVPR 2019 | في كل خطوة! تحسين الجودة من خلال تكرارية فائقة الدقة توقعات طمس النواة

بول خارج الضوء: 5207

KDD | جهة نظر المستخدم لرؤية العالم: اقترح تينسنت مفهوم نظام التعدين مفهوم، أوصى مساعدة بحث

قوه جي لي يانغ شيويه جون، وكان على رأس درع أصفر استكشاف تطوير مستقبل الذكية ذكي الكونغرس عالم الكمبيوتر، 2019 عقدت بنجاح

الأحكام ذات الصلة