البيانات الكبيرة تعلم خارطة طريق التنمية، أنت تعلم ذلك؟

الشروع في العمل

كتب أوصى

1، شونبرغ في "البيانات حقبة كبيرة".

2، بالا البرازيل "انفجر".

3، وبى "البيانات الكبيرة" طلاء الفرعية.

4، وو يونيو "عصر الذكية".

5 "كبير عالم الهندسة المعمارية بيانات الأعمال: من متطلبات العمل إلى الحلول التقنية"

مهارات أداة

1، hadoop: حاليا تستخدم عادة في البيانات الكبيرة معالجة معقدة

2، شرارة: تستخدم عادة في البيانات خارج خط تجهيز سريعة كبيرة

3، العاصفة: يشيع استخدامها في تجهيز الوقت الحقيقي على الانترنت من بيانات كبيرة

4، HDFS: نظام الملفات الموزعة Hadoop. HDFS لديه خطأ عالية يتميز التسامح، ويهدف إلى نشر على الأجهزة غير مكلفة. ويوفر الوصول إلى إنتاجية عالية بيانات التطبيق لتلك التطبيقات مع مجموعات كبيرة من البيانات.

5، Hbase: هو عمود قاعدة البيانات الموزعة، المنحى المصدر المفتوح. التكنولوجيا تأتي من ورقة Google والذي كتبه فاي تشانغ "جداول كبيرة: البيانات المهيكلة نظام التخزين الموزعة." مثل ميزة جداول كبيرة للتخزين البيانات الموزعة نظام الملفات جوجل (نظام الملفات) التي تقدمها نفسه، HBase يوفر قدرة جداول كبيرة مماثلة على رأس Hadoop. HBase هو فرعي من مشروع أباتشي هدوب. HBase خلافا لقواعد البيانات العلائقية، وتكييفه لقاعدة بيانات لتخزين البيانات غير منظم. HBase هو نموذج مختلف لا يستند على خط العمود.

6 خلية: الخلية هي البيانات استنادا Hadoop-أدوات التخزين، يمكنك تعيين هيكل ملف البيانات إلى جدول قاعدة البيانات، ويوفر وظيفة الاستعلام SQL بسيطة، يمكنك تحويل عبارة SQL لتشغيل المهام مابريديوس. ميزة هي انخفاض تكلفة التعلم، ويمكنك تحقيق بسرعة إحصاءات مابريديوس بسيطة عن طريق نوع من البيانات SQL، دون الحاجة إلى تطوير تطبيقات مابريديوس المتخصصة، مستودع البيانات هو مناسب جدا للتحليل الإحصائي.

7، كافكا: هو إنتاجية عالية من توزيع نشر الإشتراك نظام المراسلة التي يمكن التعامل مع كل عمل تدفق بيانات الموقع على نطاق والمستهلك. هذا الإجراء (تصفح الإنترنت، والبحث والعمل مستخدم آخر) هو عامل رئيسي في العديد من المناسبات الاجتماعية في الشبكات الحديثة. ويتم تحقيق هذه البيانات عادة بسبب الإنتاجية المطلوبة من قبل السجل عملية البلمرة والسجل. مثلا بمثل Hadoop وخارج الخط تحليل النظم بيانات السجل، ولكنها تتطلب القيود التجهيز في الوقت الحقيقي، وهذا هو الحل الناجع. الغرض كافكا هو Hadoop آلية موازية تحميل لتوحيد الانترنت والرسائل غير متصل، ولكن أيضا من خلال الكتلة من أجل توفير استهلاك الوقت الحقيقي.

8، رديس: رديس هو نظام تخزين المفتاح القيمة. وأعطها وبالمثل، فإنه يدعم نسبيا أكثر تخزينها نوع القيمة التي تضم سلسلة (سلسلة)، قائمة (قائمة)، SET (مجموعة)، zset (مجموعة فرزها - مجموعة مرتبة) والتجزئة (نوع التجزئة). ويدعم هذه الأنواع من البيانات دفع / البوب، إضافة / إزالة وعلى التقاطع والاتحاد، والاختلاف ثراء العملية، وهذه العمليات هم الذري.

عشرة خوارزميات التنقيب عن البيانات الكلاسيكية

1: C4.5

هو خوارزمية شجرة القرارات C4.5، بل هو شجرة القرار (قرار الشجرة التي هي بين العقد إلى اتخاذ قرارات مثل شجرة من نفس المنظمة، في الواقع، هو شجرة مقلوب) تحسين خوارزمية الأساسية ID3 الخوارزمية، لذلك فهم في الأساس ونصف من قرار شجرة طريقة البناء تكون قادرة على بناء عليه. كل طريقة البناء شجرة القرارات هو في الواقع ميزة جيدة وحدد نقطة الانقسام لأن ظروف تصنيف العقدة الحالية. C4.5 من ID3 مجالات التحسين:

ID3 حدد خصائص هو ربح المعلومات الشجرة (حيث يمكنك استخدام العديد من الطرق لتحديد المعلومات، ID3 باستخدام الانتروبيا (الانتروبيا) (الكون هو مقياس معيار النقاء لا))، أي التغيير في الكون، وC4 .5 استخدام نسبة الربح من المعلومات. وهذا هو أكثر من مجرد شيء معدل. عموما يتم أخذ معدل لتحقيق التوازن، وتباين دور يشبه هناك نوعان من العدائين ونقطة البدء هي 100M / ث شخص، وبعد ذلك 1S من 110M / ثانية، ومن سرعة شخص آخر غير 1M / ثانية، وبعد ذلك 1S من 11M / ثانية. إذا كنت تعول فقط على (مبلغ زيادة سرعة في وحدة الزمن) تسارع ثم اثنين هو نفسه، ولكن إذا كنت تستخدم سرعة زيادة معدل (نسبة زيادة السرعة) لقياس الفجوة بين شخصين على عظيم. هنا، فإنه يتغلب على قيمة التحيز والمزيد من الخيارات عند اختيار خاصية سمات مع عدم وجود ربح من المعلومات. تقليم عملية البناء شجرة، وأنا أكره هذه العقد معلقة عدة عناصر عند بناء شجرة القرار. لهذه العقدة، ببساطة لا نعتبر الأفضل، وإلا يؤدي بسهولة إلى overfitting. ليمكن التعامل مع البيانات غير منفصلة، وهذا هو في الواقع نمط واحد، للبحث عن قيمة مستمرة حيث الانقسام هو جيد. وهذا هو تتم معالجة استمرارية البيانات إلى قيم منفصلة. يمكن معالجة البيانات غير مكتملة، هذه المهمة والحيوية، في الواقع، وليس في غاية الأهمية، البيانات المفقودة باستخدام ملء بعض الطرق انها تريد.

2: السلة

السلة هي أيضا خوارزمية شجرة القرار! وفيما يتعلق بإعمال على العقد المشروط لديهم أشجار تصنيف متعدد المتغيرات الفرعية، سلة اثنين فقط شجرة دون تصنيف، من السهل جدا لتنفيذ أكثر من ذلك بقليل. لذلك السلة شجرة القرارات خوارزمية لتوليد هيكل شجرة ثنائي بسيط.

3: KNN (K أقرب الجيران)

هذا هو بسيط جدا، هو أن أراك حول الفرد K (عينة) التي الفئة من الناس تمثل أكثر، منها أكثر ثم أنا أكثر من ذلك. هو تنفيذ تدريب لكل عينة تحسب وتشابهها هي عينات تدريب الأعلى-K لمعرفة المزيد من هذه العينات K فيها هذه الفئة، الذين يزيد بينهم.

4: بايز ساذج

(ساذج بايز NB)

NB أعتقد ميزات فردية مستقلة، لا أحد الذين أغلقت الأشياء. ولذلك، فإن العينة (مجموعة من القيم ميزة، مثل "هيكل البيانات" تظهر مرتين، "ملفات" 1)، مضروبا في احتمال وجود فئة معينة كل معالمه ظهرت. على سبيل المثال، "تراكيب البيانات" يظهر 0.5 احتمال الطبقة 1 "الملفات" في احتمال الطبقة 10.3، ويمكن اعتبار احتمال أنها تنتمي إلى الطبقة 10.5 * 0.5 * 0.3.

5: دعم آلة المتجهات (SVM SVM)

SVM تبحث عن تصنيف معظم سطح "جيدة" خط تصنيف / تصنيف (بعض أنواع الأخيرة من العينة إلى "الخط" من الأبعد). وهذه ليست محددة للتنفيذ خلال المحاضرات الماضية، ومطالبات المعلمين أن أدرك SVM، يعجب روحهم من الدراسة المكثفة. أدوات شيوعا هو LibSVM، SVMLight، MySVM.

6: EM (تعظيم التوقعات)

وأعتقد أن هذا هو افتراض أنه عندما تتكون البيانات من عدة توزيع جاوس، والحجة الأخيرة هي لطرح توزيع جاوس قليلة. بافتراض أولا عدة قيم، ومن ثم عن طريق التكرار، وذلك للحصول على أفضل تناسب المطلوب.

7: نحو استدلالي

هذا هو أن تفعل مع قواعد تكوين الجمعيات. أنا لا أعرف لماذا، وأعتقد أن قواعد رابطة لتحسين البيانات سلة التسوق. إلا أن ذلك لم أدرك من قبل، ولكن أيضا يجب أن نفهم، هو أن العمل من خلال الدعم والثقة من المبلغين، ولكن لنحو استدلالي، والتي كتبها بعض القواعد itemsets متكررة (المتكررة فرعية بند من مجموعة يجب أن تكون مجموعات البند متكررة، الخ الأصدقاء، الخ) للحد من التعقيد الحسابي.

8: الموقع

على الموقع الشهير يجب عليك نعلم جميعا (جوجل من هذه الثروة براءات الاختراع، وثروة حقا لا يمكن أن يقول ذلك!). لهذه الخوارزمية ما أفهمه هو هذا: إذا كان لي أن أشير لك (العلاقة بين صفحة ويب) ثم أعترف لكم في حساب أهمية الخاصة بك عندما يقترن مع أهمية وجود جزء مني (في النهاية كم لديهم لرؤيتي وكم وكيف يمكن للناس العديد منهم اعترف لي). بتكرار مثل هذه الطريقة، يمكنك العثور على قياس مستقرة من قيمة كل (الويب) أهمية الفردية. ولكن يجب أن يتم ذلك للحد من (بداية الافتراضي أهمية الشخص هو 1)، أو سيتم تلك القيم تنمو أكبر وأكبر.

9: K-وسائل

K-وسائل هي واحدة من أكثر طرق التجميع الكلاسيكية والأكثر استخداما، على الرغم من وجود الكثير من رمي اليوم اقترح على أساس نموذج محسن من فيها. K-وسائل الفكرة مهمة بسيطة جدا لمجموعة (تحتاج إلى تحديد المسافات إلى عدة فئات، وفقا للمسار الطبيعي، فكرة أنه لا ينبغي أن تحتاج إلى تحديد عدد الطبقة، فإن المشكلة تكمن في قيمتها الحالية مهمة مجموعة البحث) المراكز الأولى تم اختيارها عشوائيا مجموعات K، ويتم تكرار العملية الحسابية التالية حتى جميع مراكز الكتلة لا تتغير (لا تغيير مجموعة من المجموعات) الأعلى: الخطوة 1: لكل كائن، وحساب تشابه كل مركز العنقودية، وهو المدرجة في الأكثر مماثلة في هذه المجموعة.

الخطوة 2: تحديث المراكز العنقودية، مركز الكتلة الجديدة تنتمي إلى جميع الكائنات التي حصلت عليها حساب قيمة متوسط من الكتلة.

K-وسائل خوارزمية تعمل العملية على النحو التالي: أولا، ك اختيار كمراكز الكتلة الأولية في أي من كائن من الكائنات ن البيانات؛ وترك للكائنات الأخرى، وفقا لتشابه منه مع مصالح مركز الكتلة (عن بعد)، أنها تم تعيينها على التوالي إلى معظم مماثلة (مراكز الكتلة ممثلة) العنقودية؛ ثم حساب مركز كل مجموعة حصلت كتلة جديدة (يعني كل الكائنات في الكتلة)، وتكرر هذه العملية حتى بداية CONVERGES وظيفة قياس القياسية. وهي تستخدم عادة كمقياس معياري وظيفة التباين في مجموعات ك بالخصائص التالية: كل مجموعة نفسها على أنها ضغط ممكن، إلى أقصى حد ممكن بين المجموعات المنفصلة.

10: AdaBoost

AdaBoost نعرف التصنيف العام، بل هو طريقة زيادة. هذا لا يمكن أن يقال أن تكون خوارزمية التي يجب أن تكون وسيلة، لأنه لا يمكن أن تعتمد على أي نوع من خوارزمية تصنيف، شجرة القرار يمكن أن يكون، NB، SVM وهلم جرا.

Adaboost هو خوارزمية تكرارية، والفكرة الأساسية هي نفسها لمجموعة التدريب المختلفة يتم تدريب المصنف (المصنفات ضعيفة)، ثم هذه المصنفات ضعيفة معا، تشكل المصنف النهائي أقوى (المصنف قوي). الخوارزمية يتحقق نفسها من خلال تغيير توزيع البيانات، تصنيف وفقا لما إذا كان صحيحا في كل تدريب مجموعة جلسة لكل عينة، فضلا عن دقة التصنيف العام السابق لتحديد وزن كل عينة. الأوزان منقحة من البيانات الجديدة لتعيين المصنف أقل يتم تدريب وأخيرا دمج أخيرا يتم تدريب كل المصنف باعتباره قرارا المصنف النهائي. استخدام التدريب المصنف adaboost يمكن القضاء على بعض البيانات غير الضرورية والبيانات الرئيسية على التدريب الرئيسي أعلاه.

الأساس الرياضيات التطبيقية

الجبر الخطي

1، المصفوفات العددية، ناقلات، وموتر

2، المصفوفة وناقلات الضرب

3 المصفوفة والمصفوفة عكسية

4، وعلاقة خطية ولتوليد الفضاءات الجزئية

5 القاعدة

6، نوع خاص من المصفوفة وناقلات

7، حيث تحلل

8، قيمة فريدة التحلل

9-مور بنروز الزائفة معكوس

10، وعملية التتبع

11، محددا

12. مثال: التحليل الأساسي المكون

الاحتمالات ونظرية المعلومات

1. لماذا استخدام الاحتمال؟

2، المتغيرات العشوائية

3، التوزيع الاحتمالي

4، احتمال هامشية

5، والاحتمال الشرطي

6، والاحتمال الشرطي للقاعدة السلسلة

7 واستقلالها واستقلال مشروط

8، التوقع، التباين والتغاير

9، احتمال مشترك التوزيع

10 خصائص مفيدة، وظائف شائعة الاستخدام

11، بايز 'القاعدة

12، والتفاصيل الفنية للمتغيرات المستمرة

13، ونظرية المعلومات

14، نموذج احتمالي منظم

العددية الحساب

1، تجاوز وتجاوز الحد الأدنى

2، الحالات المرضية

3، وهي طريقة الأمثل القائم على التدرج

4، وتحسين مقيدة

5، على سبيل المثال: خطي المربعات

وتحتاج هذه البيانات الكبيرة لتعلم المعارف التي تعلمتها ذلك؟

 أريد الحصول على المعرفة بيانات كبيرة تعليمي، يمكنك مشاهدة إلكتروني خاص ترسل لي "تعليمي" .

لم اندروز لا يأكل فطيرة؟ LOS طرف ثالث الأصلي الروبوت 9.0 نظرة

هواوي عطلة البفن AI كاميرا بانورامية من مربع مخطط الجولة: سوبر منغ آذان القط

فتح أبل اليوم على خصم كبير! الطلاب شراء جهاز كمبيوتر لإرسال يدق سماعات الرأس!

الآن عندما نكون في السن، QQ يمكن شطبها

عصر البيانات الكبيرة أية خصوصية؟

التي استخدمتها؟ الاستخفاف المخزون وسائل الإعلام الأجنبية 201810 الهواتف

ممن لهم، تم تحديث فيفو شقيقين الشعار، سوف فيفو رفع مصنع الأرجواني؟

جسر خليج هانغتشو: جسر الاستفادة من الدائرة الاقتصادية

انخفضت الذاكرة / SSD / الرسومات الجماعية مرة أخرى إلى ارتفاع أسعار تاريخيا: الربيع المثبتة قادم

استيقظت لتجد الرموز جناح مكتب تغيرت!

نصف - أياكس 0-0 ريال مدريد، النار تاديتش في العمود

1 سنة المرور 120G استخدام مجاني! الدخن لعب التقييم: متفوقة سعر ألف قيمة لون NO.1