يمكنك بناء نظام توصية كتاب الثقافي والتعليمي [تعلق] كل رمز الثعبان

البحث الصغرى القناة وعدد من القلق العام "نظام توصية الذكية"، أجاب "كتاب" للحصول على كافة التعليمات البرمجية المصدر.

وتستخدم على نطاق واسع أنظمة الموصى بها في مواقع التجارة الإلكترونية، وكيفية يوصي الأكثر ملاءمة لأذواقهم المنتج هو محور المستخدم. في هذه الورقة، على أساس معبر الكتاب مجموعة البيانات البحثية نظام توصية الكتاب، وشرح بالتفصيل الخطوات لبناء نظام توصية: تحميل مجموعة البيانات (كتب، المستخدم، لائحة الهدافين)، تحقق من كل مجموعات البيانات، وما إلى ذلك، وتنفيذها على أساس شعبية نظام توصية بسيطة وتعاونية تصفية أنظمة توصية إلى (استنادا إلى المستخدم والبند). من خلال قراءة هذا المقال، واعتقد انكم سوف تكون قادرة على فهم عملية بناء نظام توصية بسيطة.

وضع التحميل

لا قلق الرأي العام "نظام ذكي التوصية،" الرد راء الكواليس

كتب

بناء أنظمة توصية كتاب الطريق

نظام توصية على الانترنت هي التكنولوجيا الأساسية من العديد من مواقع التجارة الإلكترونية. الموصى بها نظام توصية الذي يناسب أذواقهم وخصائص المنتج إلى العملاء.

معبر كتاب مجموعة البيانات التي أدخلها تساى نيكولا زيغلر في عام 2004، ويحتوي على ثلاثة جداول للمستخدمين والكتب والنتيجة ورقة. أعرب تصنيف واضح على مقياس من 1 إلى 10 (تشير قيمة أعلى قيمة أعلى) ويمثلها القيمة الضمنية 0.

قبل بناء أي آلة التعلم النماذج والبيانات وفهم ما نريد تحقيقه ما هو ضروري. التنقيب عن البيانات يكشف عن اتجاهات ورؤى خفية، وجعل البيانات المتاحة للبيانات ما قبل المعالجة تعلم آلة الخوارزميات.

أولا، نحن تحميل مجموعة البيانات والتحقق من الكتب، وشكل ومجموعات البيانات تقييم الأعضاء على النحو التالي:

كتب

من بداية مجموعة بيانات الكتاب، يمكننا أن نرى العمود URL الصورة لا تظهر اللازمة لتحليل، لذلك يمكنك حذفها.

نحن الآن تحقق نوع بيانات كل عمود، والإدخالات الصحيحة في عداد المفقودين وغير متناسقة.

  • نشرت

الآن علينا التحقق من قيمة هذه الخاصية.

نشرت هناك بعض إدخالات غير صحيحة. منذ ملف CSV بعض الأخطاء، وتبدو مثل 'DK النشر وشركة "و" دار غاليمار' اسم الناشر في مجموعة البيانات يتم تحميل خطأ تاريخ النشر. وبالإضافة إلى ذلك، بعض القيمة هي سلسلة، وفي بعض الأماكن في نفس النسبة المسجلة العام. هذه الخطوط سنقوم بعمل التصحيحات اللازمة، ويتم تعيين تاريخ نشر نوع البيانات إلى كثافة العمليات.

يمكنك الآن رؤية التاريخ المنشور هو من نوع int، قيمتها بين 0-2050. منذ أن تم إنشاء مجموعة البيانات هذه في عام 2004، وأفترض أن كل سنة بعد عام 2006 لاغية وباطلة والحفاظ على فارق سنتين، في حالة قد تم تحديث مجموعة البيانات. لجميع مداخل صالحة (بما في ذلك 0)، I تحويلها هو نان، ومن ثم استبدالها مع متوسط السنوات المتبقية.

  • الناشر

في العمود "الناشر"، لقد تعاملت مع قيمتين نان، والاستعاضة عنها "الآخر"، لأنه بعد بعض الشيكات لا يمكن الاستدلال اسم الناشر.

مجموعة بيانات المستخدم

الآن نستكشف مجموعة بيانات المستخدم، أولا التحقق من حجم منه، والأعمدة القليلة الأولى، وأنواع البيانات.

  • عمر

عند التدقيق قيمة، هوية المستخدم يبدو أن يكون صحيحا. ومع ذلك، فإن شريط العمر لديه نان وبعض قيمة عالية جدا. في رأيي، ليس هناك معنى كبير تحت سن 5 و 90 سنة من العمر، لذلك سيتم استبدال هذه بواسطة نان. ثم يتم استبدال كل متوسط عمر نان، يتم تعيين نوع البيانات إلى كثافة العمليات.

أنا لست هنا لتقديم أي صفقة مع موقف العمود. ومع ذلك، إذا كنت ترغب في معالجة بيانات موقعك، يمكن أن يكون مزيدا من الانقسام في المدينة والولاية والبلاد، واستخدام نموذج تجهيز النصوص بعض المعالجة.

مجموعة التقييمات البيانات

حجم والأسطر القليلة الأولى من لدينا مجموعة التفتيش البيانات النتيجة. فإنه يدل على عملائنا - كتب التهديف المصفوفة متفرق جدا، لأن حجم التهديف المصفوفة (عدد عدد المستخدمين الكتب) مقارنة مع التقييم الفعلي منخفض للغاية.

يجب أن يكون الآن يسجل مجموعة البيانات على هوية المستخدم وجود ISBN الجداول منها، وهذا هو والمستخدمين والكتب.

من الواضح، كانت بعض المستخدمين عشرات الكتب، وهذه الكتب ليست جزءا من البيانات الأصلية مجموعة من الكتب. ويمكن حساب تبعثر مجموعات البيانات على النحو التالي:

الصريحة والضمنية درجة تقييم 0 إلى الآن يجب أن يفصل 1-10 التمثيل. وسوف نوصي فقط كتب لبناء أنظمتنا باستخدام التصنيفات صريحة. وبالمثل، للمستخدمين الذين تنقسم إلى سجل التهديف واضح والسلوك الضمني.

الشكل التالي يبين مراجعة لكتاب، وهو معدل التهديف عالية هو أكثر شيوعا بين المستخدمين، تصنيفا أعلى رقم 8.

على أساس بسيط المفضلة من نظام توصية

عند هذه النقطة، يمكنك بناء نظام توصية بسيطة على أساس شعبية من الكتب استنادا إلى مختلف التهم درجة المستخدم. من الواضح، كتب جي كي رولينغ الكتاب تحظى بشعبية كبيرة.

وبناء نظام توصية تصفية التعاونية

من أجل القدرة على حساب الجهاز ومع مجموعة البيانات انخفاض حجم، ونحن حدد المستخدم لا يقل عن 100 كتاب لتصحيحها، ومعدلات لا يقل عن 100 كتابا.

يتم إنشاء خطوة مفتاح المقبلة لبناء نظام توصية استنادا CF-من تصنيف المستخدم الجدول - البند التهديف المصفوفة.

يرجى ملاحظة أن معظم القيم التهديف المصفوفة هي نان، يمثل النتيجة لا وجود لها، وبالتالي فإن متفرق البيانات. أيضا، يرجى ملاحظة أن هذا ننظر فقط إلى تصنيفات واضحة. وبما أن معظم خوارزميات تعلم الآلة لا يمكن معالجة نان، ونحن استبدالها 0 مما يدل على عدم درجة.

CF-بمستخدمين

وسوف تستخدم للسهم (https://towardsdatascience.com/collaborative-filtering-based-recommendation-systems-exemplified-ecbffe1c20b1) المذكورة في الدالة السابقة. findksimilarusers وظيفة هوية المستخدم وتسجيل المصفوفة، وعوائد ك التشابه المستخدم والرقم القياسي التشابه عشر.

وظيفة المستخدم Predict_userbased يسجل على أساس الجمع محددة المستخدم البند.

وظيفة RecommendItem باستخدام وظيفة الموصى بها الكتب يستند المستخدم أو طريقة (على أساس مزيج مختارة من الأساليب والمقاييس) المشروع بناء. إذا كان الكتاب هو مساوية أو أكبر من درجة توقع 6، كتب، ولم يتم حتى الآن وسجل، وتعطى المستحسن. يمكنك اختيار مقياس التشابه (جيب التمام / الاقتضاء) عند استدعاء هذه الوظيفة.

ويستند توصية بشأن الكتب المستخدم CF الشيكات طريقة أعلى 10 من 4385 للمستخدم.

بناء على البند CF من

وCF مكتوبة وظيفة مماثلة على أساس البند، يمكن ك تجد هذه الكتب مشابهة، ولكل كتاب يتنبأ تصنيفات المستخدم. وظيفة يمكن استخدام نفس التوصية أساليب الاختيار على أساس الكتب recommendItem البند والمقاييس. إذا كان الكتاب تنبأ أكبر درجة من أو يساوي إلى 6، وكتب غير مصنفة، ثم تقديم توصية.

وأوصى البند استنادا إلى الطريقة التالية من الشيكات CF الكتب أعلى 104385 للمستخدم. وهذا يختلف كثيرا عن النهج القائم على المستخدم.

في هذه المقالة، عبر التحقق من صحة الاختبار والتدريب تقييم انقسام النظام التوصية وغيرها من المجالات لم تتصل هذه المناطق تستحق الاستكشاف.

المراجع:

https://towardsdatascience.com/how-did-we-build-book-recommender-systems-in-an-hour-the-fundamentals-dfee054f978e

https://cambridgespark.com/content/tutorials/implementing-your-own-recommender-systems-in-Python/index.html

الروابط المرجعي:

https://towardsdatascience.com/my-journey-to-building-book-recommendation-system-5ec959c41847

منتج النص قراءة دفن

هذه الدائرة من الأصدقاء، "وفقا لموحدة" مكشطة السامة؟ أصدرت صحيفة الشعب اليومية بيان ردا على

تقرير اتجاه تطوير الذكاء الاصطناعي العالمي لعام 2019

قتل كبير AMD هنا! حول AMD موضوع المسيل للدموع كل شيء هنا!

سطح الطريق يمكن أقوى من الناحية القانونية الذكية: أعلى سرعة تصل إلى 274km / ساعة

2018 أفضل عشرة كلمة وابل، وتعلمون ما ينبع ذلك؟

18 أحدث الموديلات من الهواتف المحمولة تدعم QC4 + تهمة، لا يوجد أي نظرة سريعة على الخاص

التكنولوجيا توصية ذكية وممارسة دفن

أقل مركزية باريس، هو كيفية الفوز في أولد ترافورد

تجربة هو الملك، وعلى نحو سلس هو الكلمة الأخيرة! AMD راديون RX VEGA سلسلة بطاقات الرسومات لاول مرة رسميا

حارب الكثير من الأحداث اللاحقة علة، وكوبونات تعويض 5 يوان الرسمية، والمستخدمين: لا صدق

أقل مركزية باريس، هو كيفية الفوز في أولد ترافورد