من النظرية إلى الممارسة العملية، والمادة شرح ثلاثة خوارزميات AI نظام توصية

مذكرة لى فنغ الشبكة: صاحب البلاغ الشمس أيهوا، على النحو الوارد في المؤلف الأصلي بلوق الشخصية أذن شبكة لى فنغ.

مقدمة

خلفية

مع طفرة في تطوير صناعة الإنترنت والحصول على المعلومات، والمزيد والمزيد من الناس أخذ زمام المبادرة للحصول على معلومات من أن يصبح القبول السلبي للمعلومات، وكمية المعلومات أيضا إلى كتابة هندسيا النمو الهائل. وكمثال على ذلك، PC عهد مع قارئ جوجل، وغالبا ما يكون الآلاف من تحديث بلوق غير مقروء، وعدد الجمهور قناة الصغرى اليوم، هناك الكثير من البقع الحمراء غير مقروء. المزيد والمزيد من البريد المزعج، مما تسبب في المستخدم للحصول على معلومات قيمة عن تكلفة زيادة كبيرة. لحل هذه المشكلة، وأنا شخصيا أخذت نهجا أكثر تطرفا: الدخول المباشر تجاهل كل رسائل دفع. ولكن في كثير من الحالات، للحصول على سرعة الفعالة للمعلومات في غاية الأهمية.

ويرجع ذلك إلى النمو الهائل للمعلومات، وظهرت بشكل طبيعي الحصول على معلومات عن فعالية الطلب المستهدفة. وجاء النظام الموصى بها إلى حيز الوجود.

شكل الموصى بها

أوصت الأشكال الشائعة من مزودي الكهرباء المواقع تشمل ثلاثة أنواع:

- بالنسبة للمستخدمين تصفح والبحث وغيرها من الأعمال التي توصية ذات الصلة؛

- جعلت قطع مشابهة عربة وفقا أو مجموعة من الكائنات من التوصية؛

- سلوك الشراء على أساس أعضاء السجلات التاريخية، أوصى استخدام آليات للقيام EDM أو التسويق التابعة لها.

أمام نوعين من مظهر غير أننا يمكن أن نرى على الموقع، ولكن بعد ثلاثة أنواع فقط من مظاهر تجربة لمعرفة، والبريد الإلكتروني، والرسائل النصية، ورسالة في غضون محطة ومظاهره.

سوف يكون تحت أشكال الأولين من الصينيين سوف يكون وصفا موجزا الأمازون:

من غير المستخدم بتسجيل الدخول، والأمازون الصين في فئة الرئيسية وشريط، لن تفعل استجابة الموصى بها تبعا لظروف كل فئة من أفضل الكتب مبيعا، والنموذج الرئيسي لها من الرسوم البيانية. تصفح وبحث صفحات شكل أوصى صفحة محددة المنتج يرتبط التوصية ( "البضائع التي تم شراؤها في كثير من الأحيان معا")، واستنادا إلى تشابه المجموعات تفضيلات يوصى به ( "الزبائن الذين اشتروا هذا البند اشتروا أيضا"، "قراءة هذا البند السلع "زبائن آخرين لشراء).

بالنسبة للمستخدم تسجيل الدخول، يتم إعطاء الأمازون الصين بطريقة مختلفة تماما الموصى بها، فإن الموقع سيكون التاريخ في شاشة تسجيل الدخول الشاشة الأولى لإظهار أوصى اليوم عمود استنادا إلى التاريخ للمستخدم، تليها التاريخ الحديث من السلع وأساس بنود معينة توصيات المنتج ( "أوصت لي وفقا لبضائع الاستعراض"، "مستخدم يتصفح XX XX المنتج سوف تشتري من احتمال")، ومن الجدير بالذكر أنه في أسفل كل صفحة من الموقع وسوف يتم وفقا لاستجابة السلوك التصفح الخاص بالمستخدم الموصى بها، إن لم يكن التاريخ سوف يوصي "نظام أكثر الكتب مبيعا" (صفحة 13، الفقرة 50 سلع).

بنية النظام الموصى بها

بنية النظام شيوعا النظام الموصى بها هي كما يلي:

وكما يتبين من الرسم التخطيطي، ويشمل نظام توصية بسيطة عادة ثلاثة أجزاء

1. مصادر البيانات

ويضم الجزء لا يقل عن ثلاثة أجزاء:

معلومات البند

معلومات المستخدم مثل تفضيلات المستخدم، وتاريخ التصفح، تاريخ الشراء، الخ

العناصر تفضيل المستخدم، مثل معدل سلعة، استعراض المنتجات، الخ

2. معالجة حسابي: نوع شائع من خوارزمية تشمل

التركيبة السكانية الموصى بها: تقوم أساسا على معلومات ملف تعريف المستخدم، وجدت درجة ارتباط العناصر

توصية محتوى المادة: بناء على تفضيلات المستخدم، يوصي بنود مماثلة للمستخدم

تصفية التعاونية: وفقا لهذا البند تفضيل المستخدم، المادة أو العثور على المستخدم الارتباطات، والتوصيات على أساس الارتباط، بما في ذلك: 1: 2 بناء على توصية المستخدم: توصية استنادا إلى المادة

SVD (تجزئ القيمة المنفردة): التعاونية يتوافق تصفية نموذج التشابه حساب يستند في المقام الأول على معلومات المستخدم والبند تشكل مصفوفة، مصفوفة القيمة هي تقييم الأعضاء من السلع، هذه المصفوفة هي عادة مصفوفة متفرق، من خلال SVD خوارزمية يمكن الحصول على ناقلات ميزة البند PU المستخدم (تفضيلات المستخدم)، PI (المادة التفضيل) التي حصل عليها PU * PI التنبؤ المادة التصويت

تظهر 3. النتائج: أظهرت النتائج الموصى بها

الخوارزمية الرئيسية ومقدمة

يصف هذا القسم تصفية التعاونية، خوارزميات SVD، K-وسائل ثلاثة

نموذج الترشيح التعاوني

نموذج مقدمة

ويوصى تصفية التعاونية التعاونية تصفية (CF) خوارزمية فرع كبير من الخوارزمية، والفكرة الأساسية هي مشابهة لهذا البند الموصى بها، أو توصي المستخدمين مماثل (ضمنا أو صراحة) قام بتقييمه هذه المادة. ويمكن تقسيم طريقة CF إلى فئتين: بناء على جاره الضمني ودلالات.

1. طريقة تعتمد على استخدام الحي "اثنين من المستخدمين من خلال بنود تقييم المشترك" (على المستخدم) أو "تقييم المستخدم المشترك مقالين" (على البند) بحساب التشابه بين التشابه بين المستخدمين والبنود درجة. تحسب التشابه مع جيب التمام تشابه، تشابه ويسمى بيرسون "بناء الاحتمال المشروط" للتشابه. معامل بيرسون جيب التمام مختلفة التشابه هو أن معامل بيرسون يمكن التقاط علاقة سلبية، سوء التصرف الأسلوب الثالث هو أن يرجع ذلك إلى أحجام مختلفة من كل حي سكني البند (شخص)، العناصر الشعبية أو سجل عدد أكبر من المستخدمين سبب المشاكل . وهكذا، فإن الممارسة العامة للبيرسون التشابه المرجح (P. 2). ولكن العيب في طريقة تقوم على حي: تقييم العضو لأن البيانات الفعلي هو متفرق جدا، ببساطة قد لا يكون نفس التعليقات بين المستخدمين، ومع أسلوب الكشف عن مجريات الأمور من الصعب النظر في جميع العلاقات بين المستخدمين والبنود.

2. طريقة ضمنية على أساس دلالات لا تعتمد على النتيجة المشتركة. والفكرة الأساسية هي أن مستخدمي الخرائط والبنود هي بعض المعنى الحقيقي للناقلات ميزة غير معروف. نيابة عن ميزة المستخدم لفئات مختلفة من درجة تفضيل المستخدم من الفيلم (مثل: تشغيل قطعة 5، فيلم 5)، التمثيل في المادة الأفلام الروائية هي أنواع عموما الفيلم (على سبيل المثال: 3 الرومانسية والكوميديا 5). ثم المستخدم لتحديد درجة تفضيل عنصر من قبل المنتج الداخلي للمتجهين الميزة. على الرغم من أن هذه الطريقة لا تتطلب درجة مشتركة، ولكن النظام الموصى بها لا تزال تواجه الكثير من المشاكل البيانات تناثر.

منطق الخوارزمية

CF كما الفئتين الأساسية، حي ذات الصلة نسبيا لم يعد يتم تقديم خوارزميات بسيطة، وهذه المادة يدخل في SVD، ولكن قبل إدخال SVD، أول من يكون وصفا بسيطا من K-وسائل

K-الوسائل

خوارزميات مقدمة

تستند معظم أنظمة توصية على كميات هائلة من معالجة البيانات والحوسبة، وتصفية التعاونية لتكون ذات صلة في هذه العملية سوف كميات هائلة من البيانات على أساس الكفاءة التشغيلية تكون منخفضة، من أجل التغلب على هذه المشكلة هو استخدام K-وسيلة لجمع البيانات اكتب من العملية، بصراحة، هو وفقا لبيانات سمة من قبل K-وسائل خوارزمية تنقسم أولا إلى عدة فئات من البيانات، ومن ثم اتخاذ توصية من حي دلالات خوارزمية أو ضمنا في كل فئة

منطق الخوارزمية

هناك العديد من وصف عبر الإنترنت من الخوارزمية K-وسائل شخصيا أشعر أن معظم من الصعب تنطق، ليس من السهل أن نفهم، دون بهذه الطريقة الرقم سبيل المثال، أشعر بمزيد من السهل أن نفهم

في المكتبة sklearn بيثون قد تم تنفيذه هذه الخوارزمية، إذا يمكن مهتما أيضا تنفيذ الخاصة K-وسائل خوارزمية.

K-وسائل خوارزمية هناك العديد من المشاكل أثناء تشغيل الفعلي

1. واكبر مشكلة هي: قيمة K تأثير أكبر على النتيجة النهائية، ولكن يتم تحديد قيمة من قبل المستخدم، ومجموعات مختلفة من البيانات، والقيمة غير المرجعي

2. حساسة للناشز نقاط البيانات، حتى لو كان عدد قليل من القيم المتطرفة يمكن أن يسبب تأثير أكبر على النتائج

3. حدد نقطة وسط خوارزمية تهيئة جيدة أو سيئة، وسوف تؤثر بشكل مباشر على كفاءة البرنامج النهائي

من أجل حل المشاكل المذكورة أعلاه، كانت هناك KMeans نصف الخوارزمية، يمكن للقراء المهتمين العثور على المعلومات ذات الصلة من تلقاء نفسها، وهذه المادة لا تصف بالتفصيل

SVD

خوارزميات مقدمة

القيم الذاتية من التحلل مصفوفة هو لطيف جدا طرق استخراج ميزة، ولكن الأهم من ذلك هو فقط على مصفوفة مربعة من حيث، في العالم الحقيقي، ونحن نشهد ليست مربع، على سبيل المثال، هناك N الطلاب كل الطلاب لديهم أداء قسم M، مصفوفة N * M شكلت بالتالي لا يمكن أن تكون مربعة، وكيف يمكننا وصف السمات الهامة لهذه المصفوفة شيوعا يفعل ذلك؟ تجزئ القيمة المنفردة يمكن أن تستخدم لتفعل هذا الشيء، هو وسيلة لتجزئ القيمة المنفردة يمكن تطبيقها على أي من التحلل المصفوفة.

منطق الخوارزمية

خوارزمية الصيغة:

الصيغة: A افترض هو N * M المصفوفة، ثم الناتجة N * N U هي مصفوفة مربعة (التي هي ناقلات متعامدة، وناقلات U وهو ما يسمى اليسار ناقلات المفرد)، هو N * [سيغما مصفوفة M (باستثناء العناصر قطري 0، العنصر يشار إلى قيم فريدة على قطري)، V '(V تبديل) هو مصفوفة N * N، وهو عمودي على ناقلات، ناقل V وهو ما يسمى ناقلات فريدة اليمنى)، لتعكس صورة من حجم الضرب مصفوفة من عدة صور متاحة أدناه

لذلك ترتبط القيم والقيم الذاتية فريدة معها هو كيف؟ أولا، لدينا مصفوفة تبديل * A A، وسوف تكون مصفوفة مربعة، ويمكن الحصول على هذه المصفوفة من نحن القيمة الذاتية:

هنا ناتجه الخامس، هو فوقنا ناقلات فريدة الحق. وبالإضافة إلى ذلك، يمكننا أيضا الحصول على:

حيث يقال فوق قيمة فريدة، يو فوق أن ناقلات فريدة اليسرى. مع قيم فريدة قيم متشابهة ميزة، وأيضا في الترتيب التنازلي للمصفوفة ، و هو خفض سريع بشكل خاص، في كثير من الحالات، وحتى أعلى 1 10 من قيم المفرد وتمثل كل القيم الفريدة 99 من مجموع ما ورد أعلاه. وبعبارة أخرى، يمكننا استخدام قبل الكبير ص القيمة المنفردة لوصف مصفوفة التقريبية المحدد هنا جزء من تجزئ القيمة المنفردة

ص هو أصغر بكثير من م، ن عدد، وهذا ضرب المصفوفات تبدو على النحو التالي

سوف ثلاثة جوانب من المصفوفة يكون نتيجة لضرب قريبة مصفوفة A، هنا، R & لتر أقرب، ن نتيجة ضرب أقرب A. وتبلغ مساحة هذه المصفوفات ثلاثة و(في نقطة التخزين للعرض، مصفوفة أصغر مساحة، أصغر كمية التخزين) هو أصغر بكثير من مصفوفة الأصلي A، إذا كنا نريد لضغط مساحة لتمثيل المصفوفة الأصلي A، ونحافظ على هنا المصفوفات ثلاثة: U، ، V بما فيه الكفاية.

في نمباي من linalg، وقد حقق SVD بالفعل، يمكن استخدامها مباشرة

نموذج التعليمات البرمجية

وظيفة عامة

ويستخدم هذا الجزء لتحميل البيانات نموذج التعليمات البرمجية

load_test_data صفر:

مصفوفة = ، ، ، >

عودة مصفوفة

باستخدام طريقة أوصى حي

# صيغة المسافة جيب التمام

cosdist صفر (vector1، vector2):

عودة نقطة (vector1، vector2) / (linalg.norm (vector1) * linalg.norm (vector2))

# KNN المصنف

# اختبار مجموعة: testdata، مجموعة التدريب: trainSet، فئة العلامات: listClasses، ك: عدد ك جيران

صنف صفر (testdata، trainSet، listClasses، ك):

dataSetSize = عدد خطوط إرجاع عينة # مجموعة trainSet.shape

مسافات = مجموعة (الأصفار (dataSetSize))

لindx في xrange (dataSetSize): # حساب المسافة بين مجموعة الاختبار ومجموعة التدريب: جيب التمام

المسافات  = Cosdist (testdata، trainSet )

# وجيب تمام الزاوية الناتجة عن ترتيب تنازلي، والنتيجة هي رقم فهرس

sortedDistIndicies = argsort (-distances)

classCount = {}

لأنني في مجموعة (ك): # الحصول على الحد الأدنى زاوية من الإدخالات ك أول من بند مرجعية

# عاد في ترتيب فرزها المقابلة لمجموعة عينة من التسميات الطبقة

voteIlabel = listClasses

# الاحالة ClassCount للقاموس، نفس المفتاح، بالإضافة إلى قيمته 1

classCount  = ClassCount.get (voteIlabel، 0) + 1

# تصنيف القاموس classCount من إعادة ترتيب قيمة

# التصنيف (data.iteritems، مفتاح = operator.itemgetter (1)، عكس = صحيح)

فرز استخدام # تم إصلاح هذه الجملة من قبل القيم القاموس

# ClassCount.iteritems: قاموس وظائف مكرر

# مفتاح: فرز المعلمات، operator.itemgetter (1): متعدد المستويات الفرز

sortedClassCount = فرزها (classCount.iteritems، مفتاح = operator.itemgetter (1)، عكس = صحيح)

العودة sortedClassCount # عوائد كحد أقصى تسلسل

إذا __name__ == '__main__':

# خوارزمية أن يوصي استخدام الحقل

recommand_by_distance

أن يوصي استخدام SVD

مواطنه comsSim (vecA، vecB):

eps = 1.0E-6

و= vecA

ب = vecB

عودة النقطة (أ، ب) / ((np.linalg.norm (أ) * np.linalg.norm (ب)) + EPS)

recommand_by_svd صفر:

ص = 1

بيانات = np.mat (load_test_data)

data_point = np.mat (>)

م، ن = np.shape (بيانات)

حد = دقيقة (م، ن)

إذا ص > الحد: ص = الحد

U، S، VT = np.linalg.svd (dataset.T) #SVD التحلل

V = VT.T

اور = U

قيمة # ص قبل اتخاذ U، S، V هو الأب = np.diag (S)

الواقع الافتراضي = V

testresult = data_point * * أور np.linalg.inv (الأب) # تنسيق حساب data_point

resultarray = مجموعة ( ) يحسب المسافة #

descindx = argsort (-resultarray)

طباعة descindx

# طباعة resultarray

resultarray طباعة

إذا __name__ == '__main__':

# ننصح باستخدام خوارزمية SVD

recommand_by_svd

TensorFlow والعصبية خوارزمية شبكة فئة التطبيق المتقدم "لبدء ذلك!

من المبتدئين وحتى المتقدمين وعملية نظرية +، وقفة واحدة عمق فهم TensorFlow!

تم تصميم هذا البرنامج لتطوير التعلم العميق، وتدرس TensorFlow كيفية حل مشاكل محددة من التعرف على الصور، تحليل النص. دورات تمتد من 10 أسابيع، من مبادئ TensorFlow والمهارات القتالية الأساسية تبدأ خطوة بخطوة كيفية بناء أستاذ طالب في TensorFlow CNN، ترميز النفس، RNN، GAN ونماذج أخرى، وأخيرا إتقان مجموعة على أساس عمق تعلم أن تفعل تطوير TensorFlow المهنية المهارات.

اثنين من المدرسين من دا تونغ، باي Fachuan كما ThoughtWorks، أحد كبار الخبراء الفنيين، لديها ثروة من منصة البيانات الكبيرة لبناء والتعلم العميق تجربة تطوير النظام.

الوقت: كل يوم ثلاثاء، مساء الخميس 20: 00-21: 00

ابتداء المدة: 20 ساعة مجموع ساعات، في 10 أسابيع لاستكمال، مرتين في الأسبوع، في كل مرة 1 ساعة

على الانترنت التدريس العنوان: http: //www.mooc.ai/

شبكة لى فنغ (عدد الجمهور: لى فنغ صافي) قراءة ذات صلة:

ممارسة تعلم آلة المهارات العملية K-وسائل تجميع خوارزمية

PRICAI 2016 ورقات مختارة | عفوية الاعتراف التعبير الصغرى على أساس قذرة خوارزمية K-SVD

المتشددين معركة هدير الجزيرة القطبية - "لعبة Far Cry" سلسلة من تاريخ التنمية

جامعة نانجينغ، الدكتور يانغ يو مليون كلمة في النص الكامل للخطاب: طليعة تعزيز التعلم (على)

مدينة مانجي في المدرسة تشينغهاى هايشي حدث هذا الزلزال في صباح أحد الأيام بعد تعليق آخر من فصول

التصويت مقابلة | "مائة ألف النكات السيئة 2" سلعتين CP التسرع اندلعت مدير الأخبار، والتسمم الضحك

مثل (سبيس اكس) المسك كما استهدفت الشركة مساحة جديدة

تصميم وتنفيذ عمق التخدير للكشف على أساس الروبوت

نفيديا الجمعية العامة GTC في اليوم الأول ووتش المشهد: رسومات على أساس الحوسبة، أكثر من الخيال | GTC 2017

EVA المألوف مجموعة مرة أخرى درجة، وهؤلاء الناس كمجرد مخالفة نموذج!

بايدو صوت "خطوة صغيرة"، قد يكون من تكنولوجيا الصوت "برنامج القمر" خطوة كبيرة

"توقعات عظيمة"، ثم يتعرض "الأوقات العصيبة Qunfang" نسخة من مقطورة العنبر كو تونغ لييا تحول جذور البطلة

المتورطين وقال الطبيب ياوتشنغ الشرطة "الباب وهمية" لإنهاء التحقيق أن الأحزاب لا يريدون ممارسة الطب

عقدت "شخصية 5" في العروض مسبقا، صدر HD المعاينة