نموذج الدلالي العمق وتطبيقه في تاوباو بحثا عن

التقليدي البحث عن النص نموذج الارتباط، مثل الاستعلام الوثيقة BM25 عادة تحسب درجة مصطلح النص مطابقة. منذ الفجوة الدلالي بين الاستعلام والوثيقة، قد يكون هناك الكثير من المواد المرتبطة غويا، ولكن الوضع لا يتطابق مع النص. من أجل حل مشكلة مطابقة الدلالي، والكثير من LSA، LDA وغيرها يظهر النموذج الدلالي.

الأصل: HTTP: //click.aliyun.com/m/41653/

التقليدي البحث عن النص نموذج الارتباط، مثل الاستعلام الوثيقة BM25 عادة تحسب درجة مصطلح النص مطابقة. منذ الفجوة الدلالي بين الاستعلام والوثيقة، قد يكون هناك الكثير من المواد المرتبطة غويا، ولكن الوضع لا يتطابق مع النص. من أجل حل مشكلة مطابقة الدلالي، والكثير من LSA، LDA وغيرها يظهر النموذج الدلالي. مع ظهور تطبيق NLP في دراسة متعمقة في IR وQA (سؤال الرد) في الكثير من العمق نموذج للاستعلام وثيقة العصبي تضمين الشبكة، يتم تعيين إلى تمثيل متجه الفضاء كثيف، ومن ثم حساب ما إذا كان هو ذات الصلة، وجعل نتائج جيدة للغاية. تبحث هذه المقالة بعض مايكروسوفت، IBM Waston مختبر، وجوجل وغيرها من الأعمال في هذا المجال، ويقدم لنا القيام بعملية بحث على تاوباو بعض العمل.

1.DSSM، CDSSM، سلسلة LSTM-DSSM والأعمال ذات الصلة

مايكروسوفت DSSM ونموذج سلسلة ذات الصلة هو عمق نموذج الدلالي أكثر تأثيرا. هناك DSSM توزيعها داخل الجماعة لتحقيق PS، ولكن أيضا على عدد من تطبيقات الأعمال.

DSSM أول الاستعلام وثيقة تمثل كناقل BOW ناقلات البعد عالية الأبعاد، ومتفرق وهذا هو حجم القاموس، كل البعد الوسائل التي يظهر المصطلح في الاستعلام أو وثيقة في وتيرة، وإذا كان متجه مباشرة مع كل كلمة، وسوف تظهر الأبعاد عالية جدا، وبالنسبة لبعض الكلمات غير المعروفة لا يمكن التعامل معها. لقد قام المؤلفون مفيدة جدا خدعة كلمة التجزئة: كل كلمة ممثلة سلسلة من أحرف ثلاثي غرام، على سبيل المثال: قطع الصبي إلى # -bo، الصبي، oy- #، ثم كنسبة أحرف الثلاثية ناقلات غرام. إضافة ما يصل كل كلمة ناقلات أي متجه يمثل النص بأكمله.

ثم، وطبقات كاملة من اتصال الشبكة حتى هذه الأبعاد عالية ناقلات متفرق ضغط في ناقلات الأبعاد منخفضة كثيفة داخل هذا الفضاء ناقلات، ويقاس عن طريق حساب درجة الارتباط وثيقة cosin التشابه الاستعلام النواقل. والهدف من هذا التدريب هو اتخاذ انقر على وثيقة لنفس الاستعلام على عينة إيجابية بشكل عشوائي 4 ثيقة لا النقر على عينة سلبية، دعونا تميز بين العينات الإيجابية والسلبية كبيرة بقدر الإمكان:

منذ DSSM النص تضمين أي اعتبارات المدى تسلسل المعلومات، ولكن أيضا عن طريق وضع المقترحات لاستخدام الإلتواء وLSTM تضمين النص، يمكنك الحفاظ على معلومات ترتيب الكلمات. حيث، يتم التوصل إلى الإلتواء عن طريق الاستعلام أو جزء اتخذت ثيقة نافذة انزلاق حجم ثابت، أو يمثل ناقلات ثيقة الاستعلام كامل عن كل جزء من النص ضمن النصوص التجزئة + DNN بواسطة الضغط، ومن ثم يتخذ تجميع كحد أقصى.

وبالإضافة إلى ذلك، فإن كلا من النص تضمين هذا الإلتواء أو LSTM، ترتبط ناقلات ناقلات جملة أو كلمة الناتجة عن جزء جزئي، واتخاذ نهج بسيط نسبيا المبلغ الإجمالي مباشرة، كحد أقصى متوسط أو ما شابه ذلك. جعل العلماء مايكروسوفت المزيد من التحسينات المقترحة آلية استخدام الاهتمام لمعرفة كل عبارة الجملة الجمع بين ناقلات الوزن من وزنه. وفي مثال LSTM-DSSM، خرج LSTM في كل خطوة الزمن (الأجل) ناقلات الضمني H، لإدخال انتباه شبكة ق (ح) ق (ح)، والأوزان الناتج softmax التطبيع، ثم كل كلمة ضمنية المتوسط المرجح ناقلات لدت ناقلات الجملة. الصورة (ح) ق (ح) وأهمية معايير معينة من القطار معا. اهتمام هذه الآلية هي أيضا ضعيفة نسبيا، لأن استعلام مختلفة على وثيقة مع نقطة "قلق" قد لا تكون هي نفسها، وبهذه الطريقة فقط يمكن أن تولد فقط متجه من الوثيقة

في الآونة الأخيرة، اقترح العلماء مايكروسوفت أيضا فكرة: درجة الاستعلام علاقة وثيقة غير مطابقة دقيقة بمصطلح الاستعلام في وثيقة والنص، والاستعلام قرار مشترك درجة مطابقة ثيقة الدلالي والدلالي. وعلاوة على ذلك، موقف مباراة على المدى الطويل في وثيقة وضيق يحمل علاقة أوثق. ولذلك، فإنها تستخدم نموذج محلي للتعبير عن مصطلح درجة مطابقة أو توزيع دلالات نموذج مطابقة درجة، وهذه النماذج الفرعية اثنين من المدربين على نفس الطراز. توزيع نموذج مماثل لDSSM لمعرفة العلاقة مطابقة الدلالية. إدخال نموذج المحلي هو كيو * ndnq * الثانية مصفوفة ملم، nqnq هو عدد مصطلح الاستعلام، ndnd ثيقة هو عدد المصطلح، موقف م (ط، ي) = 0or1m (ط، ي) = 0or1 ممثلة في الاستعلام إذا كانت ط عشر كلمة تطابق وثيقة في ي-عشر كلمة، واستخراج ملامح مصفوفة المدخلات عن طريق التفاف قياسها كميا. ووفقا للنتائج التجريبية، وتأثير هذا المصطلح بالتزامن مع المعلومات نموذج مطابق وما شابه ذلك متفوقة على DSSM نموذج الدلالي.

2. جوجل الأعمال ذات الصلة

قدمت جوجل الباحث مع CDSSM كمية موجهة النص التفاف مقارنة بعض التحسينات. الإلتواء نال Kalchbrenner الطريقة المرجعية وغيرها من الطرق للقيام النص تصنيف الإلتواء.

أولا، كل كلمة في الجملة للقيام التضمين، ومن ثم تضمين كلمة CONCAT لهم دمجها في مصفوفة، عن صورة مشابهة الى حد ما. بعد ذلك، في هذه المصفوفة خريطة مختلفة استخلاص المميزات ميزة، ومن ثم يولد متجه البعد تجميع الجمل التعبير عنها. الاستعلام والدلالي الوثيقة ناقلات، ومن ثم عن طريق حساب التشابه الدلالي من طراز المترابط: سيم (XQ، XD) = XQ * M * xdsim (XQ، XD) = XQ * M * XD. وأخيرا، فإن التشابه الدلالي مع ميزات الفرز الأخرى ذات الصلة، وناقلات الاستعلام وثيقة وفرزها معا العوامل، وتدرب على يد نموذج DNN pointwise.

3. IBM Waston الأعمال المتعلقة المختبر

وهناك أنواع عديدة من مسألة النظام الإجابة، فيه مرشح معين سؤال وجواب، حدد الجواب أنسب من الإجابة مرشح، وهذه العملية من المعلومات نموذج ارتباط استرجاع هي مشابهة جدا. Waston تجربة معملية في البيانات InsuranceQA مجموعة مماثلة للنموذج المذكور أعلاه، وشاملة CNN وميزة LSTM، ويعرض العديد من نموذج للاهتمام الهجين:

تجميع-التلافيف (1) LSTM

كما هو الحال مع ثنائي LSTM طريقة كلمة التضمين، ثم أعرب في كلمة مصفوفة تضمين الأحكام CONCAT، والالتواء لاستخراج مجموعة من السمات، مثل ناقلات التعبير وanwser السؤال، وفقدان cosin ثم حساب.

LSTM أساس الإلتواء (2)

القبض على النص الأصلي لأول معلومات N-غرام التفاف جزئي، وعلى هذا الأساس مع ثنائي LSTM لمعرفة سياق الاعتماد على نطاق أوسع.

(3) منتبهة-LSTM

مقارنة LSTM-DSSM، المحرز في آلية الاهتمام بعض التحسينات، على مقربة من آلية NMT الاهتمام، أي: الإجابة متوسط عموما ناقلات بواسطة ناقل ولدت في كلمة الإجابة المرجح، وزن كل كلمة هو متجه الوزن والسؤال الكلمات ناقلات لاتخاذ قرار. مسألة ناقلات التعبير لا يزال كل الكلمات متوسط أو المبلغ، كحد أقصى لتمثيل.

4. عمل أخرى ذات صلة

فوق العمل التي تركز على أفضل السبل لتوليد ناقلات التعبير الوثيقة سؤال وكيفية تصميم وظيفة متجهين المقارنة لحساب التشابه هناك العديد من الأساليب. يلخص Shuohang انغ الطرق الستة: NN، NTN، EUCCOS، SUB، MULT، SUBMULT + NN. وثيقة الاستعلام وعلى التوالي تتضاعف حساب ناقلات والطرح والمسافة الإقليدية، cosin، المترابط، CONCAT، ومزيج من هذه الأنواع من العمليات الحسابية.

وبالإضافة إلى ذلك الفهم آلة القراءة، وهناك العديد من أعمال مماثلة، الموصوفة هنا لن تبدأ. مع الأعمال ذات الصلة لدينا هي كما يلي:

5. العمل لدينا

لقد فعلت الكثير من تاوباو البحث الدلالي كتابة، ومطابقة لا يقتصر على مطابقة المدى، وهنا البيانات من نموذج وإدخال عملنا.

5.1 نموذج عمق وعادة ما يكون كمية كبيرة من البيانات التدريب، والبحث عن أهميتها لهذه القضية البضائع لمجموعة واسعة من البيانات تدريبية عالية الجودة ليست سهلة. وعادة ما تستخدم البحث على شبكة الإنترنت مباشرة كتسمية فوق البيانات ذات الصلة، ليست فعالة جدا في البحث عن منتج: ينقر المستخدمون السلوك المرتبطة سعر العديد من العوامل، والصور، والتفضيلات الشخصية، وما إلى ذلك، يعتمد فقط على بيانات نقر ديك الكثير من عينات علاقة الضوضاء. استخدام البيانات الشرح الاصطناعية، فإن معدل دقة مرتفع نسبيا، ولكن في الوقت المناسب والتكلفة وعوامل أخرى تحد أكبر. مؤخرا الأكاديمية أدركت تدريجيا هذه المشكلة، BM25 وغيرها من نموذج غير خاضعة للرقابة يولد عدد كبير من العينات. الطريقة نحصل على بيانات التدريب هي:

(1) لإجراء البيانات أخذ العينات، والحصول على الكثير من (مائة مليون المستوى) دقة العدد المنخفض نسبيا من تدريب البيانات مع صورة مماثلة وسائل تكبير البيانات، أولا مع نموذج بيانات التدريب جيدة، هذه الأساليب ما يلي:

أ. خذ الاستعلام CTR منتج طبيعي كما العينة إيجابية، وانخفاض نسبة النقر إلى الظهور من متوسط المزيد من السلع كعينات السلبية

ب. يمكن الاستعلام يتذكر فئة السلع كعينات سلبية عينات بشكل عشوائي

ج. للاستعلام عن المدى للقيام ببعض التحول، مع النقر على السلع في إطار الاستعلام تحولت كما استعلام الأصلي عينة سلبية، مثل "ثوب أحمر بأكمام طويلة" إلى "الأزرق فستان بأكمام قصيرة،" و "الأزرق فستان بأكمام قصيرة "انقر البضائع تحت بأنها" سلبية العينات تحت ثوب طويل الأكمام الحمراء ".

(2) لإنشاء عدد كبير من العينات من طراز ارتباط عن طريق إعادة صياغة نموذج، توضح هذه المقالة قسم لاحق يمكن أن يكون على وجه التحديد.

 يتم الرمز (3) استخدام عدد صغير نسبيا (100W)، ودقة عالية للبيانات صقل مصطنعة من قبل اثنين من فوق الطرق pre_training نموذج جيدة.

وهناك عدة عوامل 5.2 تصميم نموذج للاعتبارات رئيسية:

(1) وجود عنوان سلعة تاوباو والكثير من سؤال كلمة ذيل طويل، وخاصة الكثير من الأرقام والجمع بين عدد ونوع، والقدرة، وما إلى ذلك، كلمة لا يمكن أن تكون شاملة. فقط عن طريق دمج سوف تفقد الكثير من المعلومات الاستعلام والعنوان بالكلمة، تحتاج إلى النظر فيها أبعاد شخصية.

(2) بالإضافة إلى لقب المنتج، وكذلك الصور والفئات والصفات وغيرها من المعلومات المتاحة.

(3) مشروع لتنفيذ الانترنت حساب خفيفة الوزن، مقارنة ظيفة للسيطرة على نواقل اثنين من التعقيد الحسابي.

يمكننا الآن استخدام النموذج على النحو التالي:

(1) سؤال وعنوان ناقلات نستخدم DNN + تشار-LSTM بطريقة مجتمعة: DNN تعلم بكفاءة كلمة تضمين TOP، تشار-LSTM للقبض على نهاية تركيبة أحرف طويلة. شار-LSTM بعد إدخال نموذج أكثر صعوبة في القطار، ونحن نستخدم الاستعلام وعنوان النص جسم ما قبل التدرب LSTM-AutoEncoder، والحصول على المعلمات الأولية جيدة، وفي الوقت نفسه تضمين كلمة TOP باستخدام التهيئة word2vec، يمكن للنموذج التقارب بصورة أسرع.

(2) إضافة فئة على المهمة الثانوية توقع من تضمين المنتج العنوان، بحيث فئات مختلفة من السلع هي أفضل التمييز في نموذج الفضاء ناقلات وتأثير سرعة التقارب قد رفع جيدة.

(3) على الانترنت ترتيب متطلبات الكمون مرتفعة نسبيا، بالإضافة إلى تحسين الهندسة، وهناك أيضا مساحة تحسين على النموذج. تم العثور عليه في بياناتنا مقارنة وظيفة في عمق وعرض طبقة الشركة بأكملها من تأثير كبير نسبيا على النموذج. حتى بعض من طبقة عرض كامل سيكون أفضل، ولكن سيكون لديك زيادة كبيرة في كمية حساب، ResNet السحب الكامل حتى طبقة أضيق التخلص منها ونموذج أعمق يمكن أن تضمن لها تأثير أكبر في الوقت نفسه تقليل كمية حساب.

ونحن عينات تجتاح الاستعلام جزء الانترنت نتيجة الترتيب، مرتبة TOP30 الاصطناعية جيد تقييم نسبة إلى نموذج وتعزيز 1.31.

5.3 الخطوات التالية

بالإضافة إلى العنوان والفئة من السلع، فإن الصورة هي أيضا مصادر هامة جدا من المعلومات، إضافة لاحقة للمعلومات الصورة، في حين تحاول أيضا أن تفعل مع استدعاء السلع والاستعلام ناقلات، لتحقيق استرجاع متعدد الوسائط.

وبالإضافة إلى ذلك، أثبتت آلية الانتباه أيضا إلى أن يكون نقطة الترقية كبيرة. تقتصر على متطلبات الكمون الترتيب على شبكة الإنترنت، فإنه من المستحيل بالنسبة لكل سلعة على حساب لها عنوان "انتباه" جزء فقا سؤال، ولكن بعض الأساليب الاهتمام الذاتي يمكن إدراج لتوليد متجه عنوان أفضل.

المراجع:

شين، Y.، و، X.، غاو، J.، دنغ، L.، وميسنيل، G. (2014). كامنة الدلالي نموذج مع التلافيف-تجميع هيكل لاسترجاع المعلومات (ص. 101-110 ) قدمت في هذا المؤتمر 23 ACM الدولية، نيويورك، نيويورك، الولايات المتحدة الأمريكية :. ACM الصحافة

الخدمات، E. U. C. (2014). التعلم العميق للهيكلة نماذج الدلالي لبحث الويب باستخدام نسبة النقر إلى الظهور البيانات، 1-8.

الجملة العميقة تضمين باستخدام قصيرة الأجل شبكات طويل الذاكرة: تحليل وتطبيق لاسترجاع المعلومات (2016) الجملة العميقة التضمين عن طريق قصير الأجل شبكات الذاكرة الطويل: .. تحليل وتطبيق لاسترجاع المعلومات، 1-25.

تشاي، S.، تشانغ، K.-H.، تشانغ، R.، وتشانغ، Z. M. (2016) DeepIntent :. الانتباه التعلم من أجل الاعلان على شبكة الانترنت مع الشبكات العصبية المتكررة

قدمت في المؤتمر 22 ACM SIGKDD الدولية، نيويورك، نيويورك، الولايات المتحدة الأمريكية (ص 1295-1304): .. ACM الصحافة

ميترا، B.، دياز، F.، وCraswell، N. (2016). تعلم المباراة عن طريق التمثيل المحلية والموزعة النص للبحث الويب، 1-9.

تحسين التمثيل التعلم عن جواب السؤال مطابقة. (2016). تحسين التمثيل التعلم عن جواب السؤال مطابقة، 1-10.

فنغ، M.، شيانغ، B.، الزجاج، M. R.، وانغ، L.، وتشو، B. (2015) تطبيق DEEP تعلم الإجابة اختيار :. دراسة AND AN فتح TASK، 1-8.

Severyn، A.، وMoschitti، A. (2015). تعلم الرتبة قصيرة أزواج النص مع الشبكات العصبية العميقة التلافيف (ص 373-382). قدمت في هذا المؤتمر الدولي 38 ACM مكتب المفتش العام، نيويورك، نيويورك، الولايات المتحدة الأمريكية: ACM برس.

Kalchbrenner، N.، Grefenstette، E.، وBlunsom، P. (2014). والتلافيف الشبكة العصبية للالجمل النمذجة

وانغ، S.، وجيانغ، J. (2017). A-COMPARE AGGREGATE نموذج لمتواليات مطابقة النص، 1-11.

لين، Z.، فنغ، M.، سانتوس، دوس، CN، يو، M.، شيانغ، B.، تشو، B.، وBengio، Y. (2017). وهيكلة SELF الاهتمام SENTENCE تضمين 1-15.

ميتشو فنغ شون تنفيذ "غابة مدينة غابة بناء كبير خليج إدارة النفايات منطقة" موضوع الحملة

حوار ذكي (1): أذكى AI عصر البحث! ذكاء تفسير ذكي للحوار عمق فني

مجموعة من أكثر من 10،000 البلدة اثنين من الثلاثي تمكين مكتبة الخدمة الذاتية

نظام المرور ارتفاع قطة كيفية القيام بذلك الشيء؟

رافق عاصفة من الرعد! وو جيانغ بلدة القيام بنشاط الإنقاذ الثقيلة وأعمال الإغاثة

ومكتبة فرعية الجدول دون أن يكون قادرا على القيام التوسع غير المحدود

الجهاز لا تعلم: عالية المتزامنة نظام IM ممارسة الهندسة المعمارية الأمثل

تأسست سنة وفقدان نصف 2.2 مليار القهوة حظا السويسرية إلى سوق الولايات المتحدة الأمريكية! يعيش منصة بيتا على المضي قدما

الدراما الهفوات TV، الكلاسيكية النصوص المسرحية ظهور الإنترنت، تشانغ يشان "الشفاء الذاتي"

الإنترنت عالية توفر الممارسة تكنولوجيا الهندسة المعمارية

بطل العالم للوزن الثقيل مفاجأة من KO، تشانغ جون لونغ لديها القوة لقيادة ارتفاع قوي من الملاكمة الصينية

"شين كونغ" من أين أنت؟ اختطاف فتى يبلغ من العمر فى قوانغتشو، والد يستقيل البائعين للعثور على طفل 14 عاما