البحث الصغرى القناة وعدد من القلق العام "نظام توصية الذكية"، أجاب "كتاب" للحصول على كافة التعليمات البرمجية المصدر.
وتستخدم على نطاق واسع أنظمة الموصى بها في مواقع التجارة الإلكترونية، وكيفية يوصي الأكثر ملاءمة لأذواقهم المنتج هو محور المستخدم. في هذه الورقة، على أساس معبر الكتاب مجموعة البيانات البحثية نظام توصية الكتاب، وشرح بالتفصيل الخطوات لبناء نظام توصية: تحميل مجموعة البيانات (كتب، المستخدم، لائحة الهدافين)، تحقق من كل مجموعات البيانات، وما إلى ذلك، وتنفيذها على أساس شعبية نظام توصية بسيطة وتعاونية تصفية أنظمة توصية إلى (استنادا إلى المستخدم والبند). من خلال قراءة هذا المقال، واعتقد انكم سوف تكون قادرة على فهم عملية بناء نظام توصية بسيطة.
وضع التحميل
لا قلق الرأي العام "نظام ذكي التوصية،" الرد راء الكواليس
كتب
بناء أنظمة توصية كتاب الطريق
نظام توصية على الانترنت هي التكنولوجيا الأساسية من العديد من مواقع التجارة الإلكترونية. الموصى بها نظام توصية الذي يناسب أذواقهم وخصائص المنتج إلى العملاء.
معبر كتاب مجموعة البيانات التي أدخلها تساى نيكولا زيغلر في عام 2004، ويحتوي على ثلاثة جداول للمستخدمين والكتب والنتيجة ورقة. أعرب تصنيف واضح على مقياس من 1 إلى 10 (تشير قيمة أعلى قيمة أعلى) ويمثلها القيمة الضمنية 0.
قبل بناء أي آلة التعلم النماذج والبيانات وفهم ما نريد تحقيقه ما هو ضروري. التنقيب عن البيانات يكشف عن اتجاهات ورؤى خفية، وجعل البيانات المتاحة للبيانات ما قبل المعالجة تعلم آلة الخوارزميات.
أولا، نحن تحميل مجموعة البيانات والتحقق من الكتب، وشكل ومجموعات البيانات تقييم الأعضاء على النحو التالي:
كتب
من بداية مجموعة بيانات الكتاب، يمكننا أن نرى العمود URL الصورة لا تظهر اللازمة لتحليل، لذلك يمكنك حذفها.
نحن الآن تحقق نوع بيانات كل عمود، والإدخالات الصحيحة في عداد المفقودين وغير متناسقة.
- نشرت
الآن علينا التحقق من قيمة هذه الخاصية.
نشرت هناك بعض إدخالات غير صحيحة. منذ ملف CSV بعض الأخطاء، وتبدو مثل 'DK النشر وشركة "و" دار غاليمار' اسم الناشر في مجموعة البيانات يتم تحميل خطأ تاريخ النشر. وبالإضافة إلى ذلك، بعض القيمة هي سلسلة، وفي بعض الأماكن في نفس النسبة المسجلة العام. هذه الخطوط سنقوم بعمل التصحيحات اللازمة، ويتم تعيين تاريخ نشر نوع البيانات إلى كثافة العمليات.
يمكنك الآن رؤية التاريخ المنشور هو من نوع int، قيمتها بين 0-2050. منذ أن تم إنشاء مجموعة البيانات هذه في عام 2004، وأفترض أن كل سنة بعد عام 2006 لاغية وباطلة والحفاظ على فارق سنتين، في حالة قد تم تحديث مجموعة البيانات. لجميع مداخل صالحة (بما في ذلك 0)، I تحويلها هو نان، ومن ثم استبدالها مع متوسط السنوات المتبقية.
- الناشر
في العمود "الناشر"، لقد تعاملت مع قيمتين نان، والاستعاضة عنها "الآخر"، لأنه بعد بعض الشيكات لا يمكن الاستدلال اسم الناشر.
مجموعة بيانات المستخدم
الآن نستكشف مجموعة بيانات المستخدم، أولا التحقق من حجم منه، والأعمدة القليلة الأولى، وأنواع البيانات.
- عمر
عند التدقيق قيمة، هوية المستخدم يبدو أن يكون صحيحا. ومع ذلك، فإن شريط العمر لديه نان وبعض قيمة عالية جدا. في رأيي، ليس هناك معنى كبير تحت سن 5 و 90 سنة من العمر، لذلك سيتم استبدال هذه بواسطة نان. ثم يتم استبدال كل متوسط عمر نان، يتم تعيين نوع البيانات إلى كثافة العمليات.
أنا لست هنا لتقديم أي صفقة مع موقف العمود. ومع ذلك، إذا كنت ترغب في معالجة بيانات موقعك، يمكن أن يكون مزيدا من الانقسام في المدينة والولاية والبلاد، واستخدام نموذج تجهيز النصوص بعض المعالجة.
مجموعة التقييمات البيانات
حجم والأسطر القليلة الأولى من لدينا مجموعة التفتيش البيانات النتيجة. فإنه يدل على عملائنا - كتب التهديف المصفوفة متفرق جدا، لأن حجم التهديف المصفوفة (عدد عدد المستخدمين الكتب) مقارنة مع التقييم الفعلي منخفض للغاية.
يجب أن يكون الآن يسجل مجموعة البيانات على هوية المستخدم وجود ISBN الجداول منها، وهذا هو والمستخدمين والكتب.
من الواضح، كانت بعض المستخدمين عشرات الكتب، وهذه الكتب ليست جزءا من البيانات الأصلية مجموعة من الكتب. ويمكن حساب تبعثر مجموعات البيانات على النحو التالي:
الصريحة والضمنية درجة تقييم 0 إلى الآن يجب أن يفصل 1-10 التمثيل. وسوف نوصي فقط كتب لبناء أنظمتنا باستخدام التصنيفات صريحة. وبالمثل، للمستخدمين الذين تنقسم إلى سجل التهديف واضح والسلوك الضمني.
الشكل التالي يبين مراجعة لكتاب، وهو معدل التهديف عالية هو أكثر شيوعا بين المستخدمين، تصنيفا أعلى رقم 8.
على أساس بسيط المفضلة من نظام توصية
عند هذه النقطة، يمكنك بناء نظام توصية بسيطة على أساس شعبية من الكتب استنادا إلى مختلف التهم درجة المستخدم. من الواضح، كتب جي كي رولينغ الكتاب تحظى بشعبية كبيرة.
وبناء نظام توصية تصفية التعاونية
من أجل القدرة على حساب الجهاز ومع مجموعة البيانات انخفاض حجم، ونحن حدد المستخدم لا يقل عن 100 كتاب لتصحيحها، ومعدلات لا يقل عن 100 كتابا.
يتم إنشاء خطوة مفتاح المقبلة لبناء نظام توصية استنادا CF-من تصنيف المستخدم الجدول - البند التهديف المصفوفة.
يرجى ملاحظة أن معظم القيم التهديف المصفوفة هي نان، يمثل النتيجة لا وجود لها، وبالتالي فإن متفرق البيانات. أيضا، يرجى ملاحظة أن هذا ننظر فقط إلى تصنيفات واضحة. وبما أن معظم خوارزميات تعلم الآلة لا يمكن معالجة نان، ونحن استبدالها 0 مما يدل على عدم درجة.
CF-بمستخدمين
وسوف تستخدم للسهم (https://towardsdatascience.com/collaborative-filtering-based-recommendation-systems-exemplified-ecbffe1c20b1) المذكورة في الدالة السابقة. findksimilarusers وظيفة هوية المستخدم وتسجيل المصفوفة، وعوائد ك التشابه المستخدم والرقم القياسي التشابه عشر.
وظيفة المستخدم Predict_userbased يسجل على أساس الجمع محددة المستخدم البند.
وظيفة RecommendItem باستخدام وظيفة الموصى بها الكتب يستند المستخدم أو طريقة (على أساس مزيج مختارة من الأساليب والمقاييس) المشروع بناء. إذا كان الكتاب هو مساوية أو أكبر من درجة توقع 6، كتب، ولم يتم حتى الآن وسجل، وتعطى المستحسن. يمكنك اختيار مقياس التشابه (جيب التمام / الاقتضاء) عند استدعاء هذه الوظيفة.
ويستند توصية بشأن الكتب المستخدم CF الشيكات طريقة أعلى 10 من 4385 للمستخدم.
بناء على البند CF من
وCF مكتوبة وظيفة مماثلة على أساس البند، يمكن ك تجد هذه الكتب مشابهة، ولكل كتاب يتنبأ تصنيفات المستخدم. وظيفة يمكن استخدام نفس التوصية أساليب الاختيار على أساس الكتب recommendItem البند والمقاييس. إذا كان الكتاب تنبأ أكبر درجة من أو يساوي إلى 6، وكتب غير مصنفة، ثم تقديم توصية.
وأوصى البند استنادا إلى الطريقة التالية من الشيكات CF الكتب أعلى 104385 للمستخدم. وهذا يختلف كثيرا عن النهج القائم على المستخدم.
في هذه المقالة، عبر التحقق من صحة الاختبار والتدريب تقييم انقسام النظام التوصية وغيرها من المجالات لم تتصل هذه المناطق تستحق الاستكشاف.
المراجع:
https://towardsdatascience.com/how-did-we-build-book-recommender-systems-in-an-hour-the-fundamentals-dfee054f978e
https://cambridgespark.com/content/tutorials/implementing-your-own-recommender-systems-in-Python/index.html
الروابط المرجعي:
https://towardsdatascience.com/my-journey-to-building-book-recommendation-system-5ec959c41847