ورقة ليست هي نفس التفسير: 2018 KDD أفضل ورقة "التضمينات في عبر Airbnb"

تقنية مراجعة AI حسب: الكاتب وو هاى بو، ورقة البداية لمعرفة تقريبا، AI تقنية مراجعة طبع المرخص له.

عبر Airbnb في الوقت الحقيقي التخصيص باستخدام التضمينات لبحث الترتيب في المادة عبر Airbnb استغرق أفضل ورقة KDD ADS المسار هذا العام، و 16 عاما من W & D هي مماثلة لجوجل، لا يتوهم، ولكن عمليا جدا، تستحق القراءة. والخبر السار هو، بقدر ما أعرف، ومستوى ممارسة فريق الخط الأول المحلي ليس أسوأ من وصفها في ورقة، والتي W & D، هي أيضا فريق قبل لا تأتي ورقة من وجعلت يمكن رؤية نتيجة مماثلة في الموصى بها مثل هذا السيناريو، الجميع في خط أفقي. أمل أن المنزل مستقبل الشركة، أدلى أيضا بعض ورقة مفيدة حقا، وليس بالضرورة بصدد ارسال يتوهم الأصوات.

منذ Word2vec من تطبيقها بسرعة إلى مختلف المجالات، وقليل من وصف مبالغ فيه، كل شيء JIEKE التضمين. في البرمجة اللغوية العصبية، وصعوبة واحدة هي كيف تصف الكلمات، هناك التقليدية، ن غرام واحد الساخن، وما إلى ذلك بطرق مختلفة، لكنها من الصعب للتعبير عن العلاقات الدلالية بين الكلمات والكلمات، ببساطة، أي المسافة بين الكلمات العلاقات. نحن تضمين متجه من كل كلمة لفهم مكانها في الفضاء كلمة الجدول، أن الكلمات التي يمكن أن تصف موقف المتعلقة المسافة، التي لا ترتبط الكلمات.

لسيناريوهات الإنترنت، مثل مزودي الكهرباء والأخبار، وعلى قدم المساواة، فمن الصعب العثور على جهاز كمبيوتر التعبير مناسبة لفهم معنى هذه الكيانات. الطريقة التقليدية لإعطاء علامات كيان العامة، مثل الأخبار والترفيه، والرياضة، والقيل والقال وهلم جرا. ناهيك عن بناء تكلفة نظام علامة الجودة، من حيث التطبيق العملي، ويمكن فقط يمكن اعتبارها باهتة. وبالمثل NLP، يمكنك أن تكون المنتج نفسه أو الأخبار نفسها تضمين احتياجات الكيان. عندما نطبق برنامج التضمين، عموما لديك لمواجهة الأسئلة التالية:

1. تضمين ترغب في التعبير عن ما هذا الاختيار الذي سيلة لبناء جسم

2. كيفية جعل التضمين ناقلات تعلم شيئا

3. كيفية تقييم تأثير ناقلات

4. كيفية استخدام الانترنت

نحن هنا الجمع بين وجهات نظر ورقة الإجابة على الأسئلة أعلاه يقتصر، في حالة الخطأ، يرجى الإشارة إلى.

ما أعرب تضمين الأمل

في وقت سابق ذكرنا تضمين ناقلات النهائي للتعبير عن العلاقة بين المسافة المادية في داخل الفضاء، ولكن لم يقل ما هذا الفضاء نعم. في مجال البرمجة اللغوية العصبية، لا تحتاج إلى إجابة على هذا السؤال، هو الفضاء الدلالي، ومجموعة واسعة من تكوين جسم النص الحالي. في سيناريوهات أخرى، المورد الكهرباء، على سبيل المثال، فإننا سوف تفعل ID السلع مباشرة التضمين، الإحضار التدريبية من السجل سلوك المستخدم، لذلك هذا الفضاء هو نقطة المستخدم من مكونات الفائدة. أنواع مختلفة من السجلات السلوك، إبداء الاهتمام هي أيضا مختلفة، مثل سلوك النقرة وسلوك الشراء، أعرب مستخدمين مختلفين الفائدة. المنتج النهائي بحيث تضمين ناقلات الدور، موقع مصلحة المستخدم في التعبير عن الفضاء السلع المختلفة.

العديد من الطلاب يقضون الكثير من الوقت في محاولة مختلف البديل word2vec، في الواقع، وتفاصيل وقضاء بعض الوقت في جسم بناؤها. أولا وقبل كل شيء، إلى أن تكون أكثر الإحضار، وذكرت الصحيفة أن أمضوا 800 مليون جلسات نقرات البحث، في ممارسة ونحن نحاول التضمين، والمثول على الأقل على مدى مائة مليون المستوى سوف تلعب دورا في ذلك. ثانيا، تعريف جلسة مهم جدا. word2vec في حساب متجه كلمة والعلاقات سياقها هي كبيرة جدا، على عكس سلوك المستخدم سجل جسم النص، بما يتفق مع وجود علامات الترقيم، والفقرات، وما إلى ذلك لتحديد كلمة حساسة للسياق.

على سبيل المثال، افترض أن نستخدم مثل الإحضار ينقر المستخدم، عندما وصلنا التاريخ اضغط على سلوك المستخدم، مثل قائمة (المنتج A، المنتج B، والمنتج C، والمنتج D)، ومن المرجح أن يكون للمستخدمين البضائع B أخيرا، وبعد تفتيش نقطة سلعة من اللباس، في حين أن السلع C هو يبحث المستخدم عن هاتف النقر على المنتج، وإذا كنا لا تميز، ونموذج B و C وسوف ينظر يعاقب السياق.

تعريفات محددة جلسة قادمة، ليس هناك من جواب القياسية وفقا لمتطلبات أعمالهم، مثل المثال أعلاه، إذا لم تحويل التعبير عبر نقاط المستخدم من الفائدة، وأنه من الممكن، ورقة يعطي عبر Airbnb القواعد:

بدء جلسة جديدة كلما كانت هناك فجوة زمنية تزيد عن 30 دقيقة بين ينقر المستخدم على التوالي.

ومن الجدير بالذكر أن بنقرة السلوك نيابة عن الفائدة الورق وعلى المدى القصير في حجز ينوب عن طويلة المدى الفائدة، وشيدت ناقلات التضمين. الفائدة على المدى القصير والطويل، وناقشت هذه الصناعة كثيرا، وأنا أفهم أن أكثر استقرارا الفائدة طويلة الأجل، ولكن مباشرة مع سلوك المستخدم واحد هو ضئيل للغاية، وليس التدريب المباشر، فإن المستخدم عادة لا تجمع إعادة التدريب.

كيفية جعل التضمين ناقلات تعلم شيئا

تفاصيل نموذجية

في ظل الظروف العادية، ونحن مباشرة Word2vec، وتأثير جيد جدا. والكتاب على أساس الخصائص الأعمال عبر Airbnb، فإن نقطة التحول، وركز على تفاصيل دالة الهدف، مقارنة اللون. أول نظرة على الخريطة:

والفكرة الرئيسية هي لإضافة سياق عالمي، word2vec العاديين في عملية التدريب، سياق الكلمات، مع التغييرات نافذة انزلاق، والسياق العالمي لم يتغير، وصفت الأصلي على النحو التالي:

كلاهما مفيد من وجهة نظر التقاط التشابه السياقية، ودورات ومع ذلك تم حجز يمكن أن تستخدم لتكييف الأمثل بحيث في كل خطوة نتوقع ليس فقط القوائم النقر المجاورة ولكن حجزت في نهاية المطاف القائمة على النحو أيضا. هذا التكيف لا يمكن أن يتحقق عن طريق إضافة حجز القائمة على النحو السياق العالمي، بحيث ستكون دائما توقع بغض النظر إذا كان هو ضمن إطار السياق أم لا.

نظرة على ذلك الصيغة أسهل للفهم:

لاحظ الفرق بين الماضي واحد وصيغة ما تقدم اثنين في علامة الجمع التالية لم يتم تغيير الحد D. ما أفهمه هو، خوارزمية word2vec، بعد كل شيء، غير خاضعة للرقابة، والمستخدم عبر Airbnb نهاية العمل هو الأمل الحجز، إضافة القيد، وقادرة على معرفة الأهداف ناقلات الأعمال التضمين أفضل وثيقة. وهناك صيغة، والفكرة هي مماثلة، وليس تكرارها.

يمكن أيضا أن يفهم هذه الفكرة باعتبارها استراتيجية الانصهار متعدد الاهداف بسيطة آخر، علي، مقالة أخرى بقيمة قراءة ورقة اقترح أيضا نموذجا متعددة المهام كاملة الحجم (كامل الفضاء نموذج متعدد المهام، ESMM) إلى عزيمة.

تشح فيها البيانات هو النواة الصلبة

خوارزمية Word2vec ليست سحرية، لا تزال تعتمد على وتيرة وقوع كيان، لا يمكن جعل الطوب دون قش، إذا كان الكيان نفسه نادرا ما تظهر في الجسم، هي أيضا جيدة جدا لتعلم تعبير جيد. علي مرة واحدة والطلاب تحدثت إلى التحليل على خط مرة واحدة تأثير التضمين، بهذا المعنى التعبير عنها من منتصف السلع، وليس الناس على فهم ذيل طويل من البضائع. رئيس السلع ويرجع ذلك إلى كمية وفيرة من البيانات، يمكن الخوارزمية I2I مماثلة معرفة جيدة، والذيل لأن البيانات ضئيل للغاية، وعموما لا تعلم جيدة، التكنولوجيا حتى التضمين من أجل الحصول على دخل جيد، يجب أن يكون هناك عدد في منتصف البضائع.

وذكرت الصحيفة أيضا أنها سوف كيان ليكون مرشح تردد، وشروط التصفية في 5-10 الحوادث. ومن المثير للاهتمام، وزملاء الدراسة السابقين وعناوين تحدث عن هذه المسألة، بل هي أيضا هناك مثل هذا التردد، فإن جانبنا سيكون أكبر. لا يوجد أي لا مفصل للغاية، ولكن للوصول الى الجزء السفلي من آثار التغيرات في قيمة الأثر، إذا كان لدى الطلاب خبرة في هذا المجال، نرحب بذلك.

طريقة أخرى هي أيضا شائعة جدا، وهذا هو معرف متفرق أن تكون عملية التجميع، طلبت ورقة القاعدة، ولكن العمل واقتران عبر Airbnb عميق جدا، من الصعب توجيه تطبيقات الأعمال الأخرى، ولكن يمكن الاستفادة من الأفكار. الشرط المسبق علي لقيادة sixhot الترميز، للتخفيف من حدة هذه المشكلة، لا أعرف كيف يعمل. يمكن أيضا أن تكون التجزئة مباشرة، شخصيا أشعر أن هذا من شأنه أن يضر، ولكن الموقع الرسمي للدروس tensorflow، والأعمدة ميزة هناك قسم في العمود حاشد نقوله هو ضياع:

في هذه المرحلة، قد تعتقد بحق: "هذا جنون!" بعد كل شيء، نحن إجبار قيم الإدخال مختلفة لمجموعة أصغر من فئات وهذا يعني أن اثنين من المدخلات ربما لا علاقة لها سيتم تعيين لنفس الفئة، ويعني بالتالي. نفس الشيء للشبكة العصبية يوضح الشكل التالي هذه المعضلة، وتبين أن وأدوات المطبخ والرياضية على حد سواء الحصول المخصصة لفئة (التجزئة دلو) 12:

كما هو الحال مع العديد من الظواهر الحدس في تعلم الآلة، اتضح أن تجزئة غالبا ما يعمل بشكل جيد من الناحية العملية، وهذا تقدم لأن فئات التجزئة نموذج مع بعض الانفصال. هذا النموذج يمكن استخدام ميزات إضافية لمزيد من أدوات المطبخ منفصل عن الرياضة.

كيفية تقييم فعالية متواجد حاليا

منهجية تقييم ناقلات، وأساليب تستخدم أساسا المجموعات، عالية الأبعاد tnse التصور مثل والأفكار وصفها في ورقة وبلدي وغيرها المقال  تضمين الممارسات ناقلات نذكر في شارع الفطر (Https://zhuanlan.zhihu.com/p/35491904) أشبه. عندما أدوات عبر Airbnb للقيام بعمل أفضل، والتنفيذ المباشر للنظام للمساعدة في تقييم.

ومن الجدير بالذكر أن هذه الورقة تقترح أيضا طريقة التقييم للقيام الفرز عن طريق دمج نواقل، وإلى مقارنة البيانات تعليقات المستخدمين الحقيقي، عبر Airbnb يعرف إشارة مباشرة تقريبا لوصف الرواية الرسمية:

وبشكل أكثر تحديدا، على افتراض نحصل على قائمة المرشحين سرد قوائم النقر مؤخرا، والحاجة إلى نوع، بما في ذلك المستخدم النهائي الى القائمة الكتاب، حساب عن طريق النقر القوائم وقوائم المرشحين جيب التمام التشابه في الفضاء جزءا لا يتجزأ، ونحن قد يكون أمر قائمة المرشحين، ولاحظ أخيرا قوائم كتاب في ترتيب المواقف.

ويمكن رؤية هذا الرقم، كتاب D32 + NEG أفضل.

كيف الانترنت

أوراق في التخصيص في الوقت الحقيقي المذكورة مرارا وتكرارا ليست صعبة، طالما أن نظام دعم المستخدمين من جمع السلوك في الوقت الحقيقي، وهناك العديد من البرامج لتحقيق في الوقت الحقيقي التخصيص، ومعظم بسيطة هي الجهة الأقرب إلى ينقر المستخدم تضمين تسلسل ناقلات القيام الأوزان متوسط، ثم مجموعة مرشح والمسافة جيب التمام الكيانات حساب المسؤولة عن الفرز. تفاصيل الانترنت باستخدام أكثر، وأكثر من لون الورق هناك نقطتين:

  • متعددة كيان تضمين ناقلات مشكلة الاتساق الفضاء

هذه هي مشكلة التغاضي عنها بسهولة، عندما كيانات متعددة التضمين، لرعاية سواء في الفضاء، أو حساب المسافة سوف تصبح غريبة جدا. عبر Airbnb عند بناء الفائدة طويلة الأجل المستخدم وقائمة لم تجمع، وصف كذا:

لمعرفة user_type وlistin_type التضمينات في الفضاء ناقلات نفسه نحن دمج user_type في جلسات الحجز.

التي وضعها مباشرة داخل الجسم من التدريب، وضمان الفضاء. وهكذا، حساب المسافة جيب التمام له أهمية عملية.

  • ردود الفعل السلبية

إما النقرات أو السلوك الصفقة، وردود الفعل الإيجابية للمستخدم، يحتاج المستخدمون إلى دفع تكلفة أكبر، وغيرها من ردود الفعل السلبية ضمنيا، فإننا نادرا ما تستخدم (أساسا الضوضاء أيضا). التيار الحالي من التخصيص وانتقدت أكثر من غيره هو محتوى مماثل للحصول على معا. محتوى دفع للمستخدم مشابه، فقد تم التحقق من صحتها على نطاق واسع استراتيجية، لكننا لم نتمكن من إدراك فعال سواء مصالح المستخدم قد تغيرت، مما يؤدي إلى تلف تجربة المستخدم. ولذلك، فإن ردود الفعل السلبية هو فكرة جيدة، وعبر Airbnb يعطي استراتيجية listing_ids تخطي.

أوراق العنوان:

https://www.kdd.org/kdd2018/accepted-papers/view/real-time-personalization-using-embeddings-for-search-ranking-at-airbnb

360 الاستثمار كولومبا، كولومبا الفلفل الاستثمار، تشو جراحة المناورات العاصمة المسرحية التي مجموعة؟

مجد ماجيك 2 كيف Daitao، تشاو تعطي جوابا الرسمية: كيف لا؟

استمتع الثلوج والسيطرة الجليد ميشلان تشي 3+ قائمة جديدة

جيجي بعد انقطاع دام 22 عاما مع الإطار قريب، إيكن تشنغ السيدات مفتوحة دائما المكونات آه!

فك "نشيد الفرح 2" OST: تكلفة أقل من 1، من الملايين من الكورية إلى أي مدى؟

ثنائي الشاشة، ملء الشاشة لتعطيك تجربة في نهاية المطاف! النوبي X جولة مصورة

وكنت قد نفد من آلام أسفل الظهر؟ الأطفال سوف تجعلك غبي؟ الولادة مؤلمة ليست حتى الآن من الإرهاب

ملخص | معهد بكين للارصاد الجوية من مروحة المياه في المناطق الحضرية يونغ: إدخال التنبؤ العددي بالطقس

من المبتدئ إلى المتقدم الطريق كاتب السيناريو مليون الراتب السنوي، منصة سحابة وإقامة كيف هوليوود؟

فيفو صورة المدن التي تسعى إلى الوصول إلى سيشيل جدت الأسطورية "جنة عدن" مع X23

المخزون في 201910 داقانغ إنتاج الأفلام: آه سا للفيلم الحرب بعد آخر لبيع أجسادهن؟

العام المقبل YEEZY POWERPHASE فقط $ 90؟ ! وهناك سيتم الإعلان عن اللون خفية!