العلوم البيانات نظرة عامة المادة بانوراما: قانون الخوارزمية، ونوع المشكلة ......

المؤلف: براديب مينون

الترجمة: روي شي

تم التعليق بواسطة: ليانغ فو تشى

هذه المقالة حول 3000 كلمة الوقت في القراءة الموصى بها 8 دقائق .

براديب مينون، وهو خبير مع تجربة غنية والنفوذ في البيانات الكبيرة والبيانات العلمية، ميدان الهندسة المعمارية البيانات. هذه هي السنة الأولى من حياته كتب سلسلة من المقالات وجيزة في البيانات العلمية، ونحن نقدم القوانين الأساسية للبيانات العلمية، وتستخدم عادة الخوارزميات ونوع المشكلة، والتي من القارئ لمحة عن بانوراما من البيانات العلمية.

عام 2016، عالم الرياضيات البريطاني، طلب تيسكو النادي المهندس كلايف بتواضع "البيانات هي الطاقة الجديدة" مثل هذا البيان. وهو يقول:

"البيانات هي طاقة جديدة لها قيمة عالية، ولكن الحاجة إلى استخدام المكرر مثل البترول، يجب تحويلها إلى الغاز، والبلاستيك أو المواد الكيميائية وغيرها، من أجل أن تلعب دورها الحقيقي؛ .. ولذلك، فإن البيانات فقط بعد استراحة أسفل وتحليل لها قيمة فقط ".

ثورة فون، حركة النمو الاقتصادي، وخلق فرصة مثالية لتطوير تكنولوجيا البيانات الكبيرة. في عام 2012، HBR (هارفارد تجارية (سابقا) مراجعة) نشرت مقالا، والعلماء بيانات دفعت إلى الطليعة. بعنوان "العلماء البيانات: جاذبية مهنة في القرن 21" (عالم البيانات: جاذبية الوظيفة من 21 سينتري) (https://hbr.org/2012/10/data-scientist-the-sexiest-job- من بين 21 قرن) لهذه "جديدة تولد" التسمية وصفت: مزيج من القراصنة البيانات والمحللين والإعلاميين ومصداقية الاستشاريين.

كل شركة تحاول حاليا لتصبح أكثر "(استنادا إلى البيانات) التي تعتمد على البيانات". آلة التقنيات التي توفر الكثير من المساعدة التعلم. هذا هو المكان الكثير من الأشياء محترفة جدا، من الصعب جدا أن نفهم. ولذلك، فإن هذه السلسلة تبسيط البيانات العلمية. المناهج الدراسية والكتب المدرسية الكتاب محاولة لمعرفة مقدمة إلى المرجع الإحصائي في جامعة ستانفورد (مقدمة في التعلم الإحصائي) ( / ~ غاريث / ISL /)، قدمت البيانات العلمية بطريقة بسيطة وسهلة الفهم شكل للقارئ.

علم البيانات هو حقل متعدد التخصصات، بما في ذلك:

  • المعرفة بالأعمال (المعرفة بالأعمال)

  • التعلم الإحصائي، المعروف أيضا باسم آلة التعلم (التعلم الإحصائية ويعرف أيضا باسم آلة التعلم)

  • برمجة الحاسوب (برمجة الكمبيوتر)

المسلسل يركز على تبسيط علوم المعرفة البيانات في مجال تعلم الآلة. هذا المقال يقدم لأول مرة القوانين الأساسية للبيانات العلمية، وتستخدم عادة الخوارزميات وأنواع السؤال.

القانون الأساسي ل

(صورة مستنسخة من (مينون، 2017))

غير بيانات مورد استراتيجي: هذا المفهوم هو التفكير التنظيمي. والسؤال هو: "هل نستخدم كافة البيانات التي نجمعها وتخزين المعلومات يمكننا حفر موارد لها ؟؟" أنا جدا من أن الإجابة على هذه الأسئلة هو "لا". شركات مقرها سحابة تعتمد على بيانات يحركها. لا بد أنهم لبيانات كمورد استراتيجي. ولكن هذا المفهوم لا ينطبق على معظم المنظمات.

معرفة كمية عملية منهجية: استخراج البيانات يتطلب عملية منهجية، والذي يتضمن خطوات واضحة، ولكل خطوة من أهداف واضحة يمكن تحقيقها. كما عبر معايير الصناعة عملية استخراج البيانات (CRISP-DM) (https://en.wikipedia.org/ يكي / Cross_Industry_Standard_Process_for_Data_Mining).

النوم مع البيانات: يجب أن الوكالات ذات الصلة خبراء الاستثمار المهتمة في البيانات. البيانات في الموارد ليس الخيمياء. العالم ليس الخيميائي العالمي. انهم بحاجة الى فهم قيمة البيانات والتعرف عليها وخلق موارد البيانات المؤمنين. ويمكن للمحترفين يرتبط معا البيانات والتكنولوجيا والتمويل في هذه المجالات.

يقبل الشك: علم البيانات ليست الرصاصة الفضية (المؤثرات الخاصة الاسلحة). وهي ليست كرة بلورية، ويمكن استخدامها للتنبؤ بالمستقبل. كما تقارير ومؤشرات الأداء الرئيسية، بل هو ميسر القرار. علم البيانات هو أداة وليس وسيلة لتحقيق غاية. انها ليست مطلقة، بل ينتمي إلى فئة من الاحتمالات. إدارة وصناع القرار بحاجة لقبول هذه الحقيقة. التي يحتاجونها ل عدم اليقين كميا وأضاف أن عملية صنع القرار. فقط عندما الوكالات ذات الصلة لاتخاذ تجارب زراعة، ويمكن تتعلم بسرعة من الفشل ، يمكن أن يعتمد على تنامي الشكوك بشأن.

قانون BAB في (الأعمال تحليلات الأعمال): وأعتقد أن هذا هو أكثر جزء هام من القانون. ومعظم البيانات العلمية في الأدب التركيز على النماذج والخوارزميات. المعادلة نفسها هي عدم وجود خلفية تجارية. BAB هي واحدة من قسم الأعمال البارزين. الخوارزمية وضع خلفية تجارية ومن الأهمية بمكان. مشاكل العمل المحددة حلها عن طريق التحليل، سوف يتم دمج الجواب النهائي في العمليات التجارية. ما يسمى BAB: عمل - تحليل - الأعمال التجارية، والعملية من هذا القبيل.

عملية

(صورة مستنسخة من (مينون، 2017))

القانون الثاني للمرجعية، وسوف يركز هذا القسم على يصف القسم عملية علم البيانات. ما يلي هو بيانات علمية نموذجية في جميع مراحل المشروع:

1. تحديد القضايا التجارية (تحديد المشكلة الأعمال)

قال ألبرت أينشتاين ذات مرة: "كل شيء تحتفظ جوهرها، يسعى معظم بسيطة." يمكن أن يقال هذا المرجع لتحديد مسألة تجارية رئيسية. وصف المشكلة يتطلب الهدف الآلات الدقيقة، ويجب أن تكون محددة بوضوح المطلوب لتحقيقه. في تجربتي، وفريق العمل هو مشغول جدا مع المهمة في متناول اليد، ولكن تحتاج إلى معالجة تجاهل التحديات. يمكن العصف الذهني الاجتماعات والندوات والمقابلات مساعدة في العثور على هذه التحديات، ووضع الفرضيات. على سبيل المثال، فإننا نفترض أن قاعدة عملاء شركة الاتصالات بسبب الحد من انخفاض الإيرادات من العمر بالرصاص. في هذه الحالة، يمكن تعريف المشاكل التجارية على النحو التالي:

  • تحتاج الشركات إلى تطوير قاعدة جديدة من العملاء، مع الحد من العملاء بعنف، لتوسيع قاعدة العملاء.

2. تحديد مهام التعلم الآلي (المهام تتحلل لآلة التعلم)

تعريف المشكلة الأعمال التي تحتاج إلى تخصيص لمختلف المهام تعلم الآلة. لالمثال أعلاه، إذا كانت احتياجات الشركة من خلال تطوير أسواق جديدة، والحد من العملاء بعنف، لتوسيع قاعدة العملاء، وكيف لنا أن كسرها نزولا إلى مشكلة تعلم الآلة؟ ما يلي هو مخطط التحلل:

  • تقليل العملاء زبد س.

  • تحديد جديد التسويق الهدف قاعدة العملاء.

3. إعداد البيانات (إعداد البيانات)

بعد تطور المشكلة الأعمال وكسرها إلى مهام تعلم آلة، ونحن بحاجة إلى فهم البيانات ذات الصلة، من أجل تطوير استراتيجية التحليلية المناسبة. أهم الأشياء تولي اهتماما لمصادر البيانات ونوعية البيانات، والبيانات الانحراف وهلم جرا.

4. تحليل البيانات الاستكشافي (تحليل البيانات استكشافية)

مثل رواد الفضاء لاستكشاف الكون في عالم احتياجات البيانات لاستكشاف وضع بيانات غير معروف، في العمق فهم معالمه خفية، وتسجيل الاكتشافات الجديدة. تحليل البيانات استكشافية (EDA) هو مهمة مثيرة. يمكننا أن نفهم على نحو أفضل البيانات، والتحقيق في الفروق الدقيقة، واكتشاف أنماط خفية، لتطوير ميزات جديدة، وتطوير نماذج الاستراتيجية.

5. النمذجة (النمذجة)

بعد تحليل البيانات استكشافية، ونحن سوف تكون على غرار. في هذه المرحلة، ركزنا على مشكلة تعلم محددة آلة، واختيار خوارزمية أنسب، مثل الانحدار المشترك (الانحدار)، شجرة القرار (قرار شجرة)، عشوائية الغابات (الغابات عشوائي) الخوارزميات.

6. نشر والتقييم (نشر والتقييم)

في النهاية، أنشأنا نموذجا نشر الخير، ومراقبتها بشكل مستمر، ومراقبة أدائها في واقع الأمر، واستهدفت المعايرة.

عادة، والنمذجة وقسم الانتشار 20 فقط من جميع الأعمال، و 80 من العمل المتبقي هو فهم البيانات البحثية والعمق.

أنواع من مشاكل التعلم الآلي

(صورة مستنسخة من (مينون، 2017))

باختصار، يتم تقسيم تعلم الآلة إلى فئتين: التعلم تحت إشراف والتعلم غير خاضعة للرقابة.

1. تعلم أشرف (التعلم أشرف)

مهمة التعلم تحت الملاحظة لديه أهداف محددة مسبقا. صانع التماثيل المستهدفة ومراقبة تأثير عملية التعلم آلة لتوليد نموذج، لتحقيق هدف محدد لها. التعلم تحت إشراف يمكن زيادة تنقسم الى فئتين:

  • الانحدار (الانحدار):

نماذج الانحدار شائعة جدا في تعلم آلة مهام والتقديرات والتوقعات لمتغير رقمي. وهنا مثالين:

  • يقدر المحتمل ايرادات الربع القادم هو كم؟

  • العام القادم عدد المعاملات التي يمكن أن تجعل؟

  • تصنيف (تصنيف):

وكما يوحي اسمها، نموذج التصنيف لفصل الأهداف وتغلي عليهم في عدة أنواع محددة. وهو ينطبق على جميع أنواع التطبيقات. وهناك أمثلة قليلة النموذجية:

  • باستخدام نموذج التصنيف لفلتر البريد المزعج، تلقى البريد الإلكتروني استنادا إلى خصائص معينة تصنف بأنها غير مرغوب فيها، ويمكن أن تلقي البريد.

  • زبد التوقع هو تطبيق مهم آخر من نموذج التصنيف. شركات الهاتف عموما على التنبؤ ما إذا كان سيتم خسر المستخدم (أي التوقف عن استخدام الخدمة) باستخدام نماذج الخسارة (زبد النموذجي).

2. بدون اشراف التعلم (بدون اشراف التعلم)

التعلم غير خاضعة للرقابة لا تحدد الهدف، وبالتالي فإن النتيجة هي صعبة لتفسير بعض الأحيان. مهام التعلم غير خاضعة للرقابة وهناك العديد من أنواع. الأكثر شيوعا هي لا الحصر:

التكتل (التجميع): تجميعها معا من قبل التشابه في الهدف. مثل تقسيم العملاء لاستخدام تجميع الخوارزمية.

جمعية (الرابطة): خوارزمية ارتباط استخدامها للعثور على المنتجات التي تتطابق مع بعضها البعض. تحليل سلة (تحليل السوق سلة) هو استخدام خوارزميات جمعية لحزم المنتجات.

التنبؤ الارتباط (رابط التنبؤ): من أجل العثور على اتصال ارتباط التنبؤ بين عناصر البيانات. مثل الفيسبوك، والأمازون و Netflix هذه المواقع على نطاق واسع باستخدام الرابط خوارزمية التنبؤية أن يوصي لاصدقائنا المرتبطة البضائع حرص والأفلام.

تخفيض البيانات (الحد البيانات): طرق الحد من البيانات للحد من عدد من الخصائص مجموعة البيانات. ومن سمات عدد كبير من مجموعات البيانات الكبيرة المقدمة مع عدد أقل من الخصائص.

آلة خوارزميات تعلم لنموذج المهمة ل

وبمجرد أن مشكلة الأعمال في مهمة التعلم الآلي، ويمكن واحد أو أكثر خوارزميات حل معين المهام تعلم الآلة. عادة، وهذا نموذج لاستخدام خوارزميات متعددة للتدريب. خوارزمية أو خوارزميات لتحديد أفضل مجموعة من نشر النتائج.

خوارزميات مايكروسوفت أزور آلة التعلم لديها أكثر من 30، ويمكن استخدامها بنيت قبل لتدريب نماذج التعلم الآلي.

(صورة مستنسخة من (مينون، 2017))

الغش ورقة أزور آلة التعلم لمساعدتك في استكشاف هذه الخوارزميات.

المزيد من المحتوى المثير، يرجى زيارة تسينغهوا - أكاديمية تشينغداو للعلوم بيانات رسمية العام رقم القناة الصغيرة "THU فصيل البيانات"

استنتاج

علم البيانات هو مجال واسع جدا. ومن مثيرة، هو العلم، هو أيضا فن. في هذه المقالة، نحن نستكشف سوى غيض من فيض. إذا ما استمرت في استكشاف طرق "كيف" لا يفهمون الوضع القائم في مبدأ "لماذا" لا معنى له. في مقالات لاحقة، وسوف نستمر في استكشاف طرق تعلم الآلة "كيف".

العنوان الأصلي:

العلوم البيانات المبسطة الجزء 1: مبادئ andProcess

الرابط الأصلي:

https://www.linkedin.com/pulse/data-science-simplified-principles-process-pradeep-menon (مينون، 2017)

المحرر: هوانغ Jiyan

GIF- والشباب القومي السابق والرئيسية وأفضل قادم جديد، 4 عدسة لرؤيته يلعب في السوبر تمتص

الأعمال جوجل السابقين بعد المضادة التي حصل عليها موظفي غوغل يمكن ان يعود الى ناديه السابق على استعداد؟

حصريا | منصة البيانات الكبيرة لبناء عملية النقل الذكية والتطبيقات (PPT تحميل

حصريا | قراءة المادة Adaboost

"ليتل بحيرة لونغ" للقيام مع النباتات المائية التقرير موضوع عنما، وتحويل دراسة بحثية دعا معلمه حماية البحيرة

الذي لعب المرأة المعجزة شنقا؟

حصريا | كيفية تفسير نموذج خصم الأرباح باستخدام لغة R (PPT تنزيل)

الحمل، هو في الحقيقة شيء خطير! هذا هو فيلم الخيال العلمي

حصريا | عصر يحترق: تقرير البيانات الكبيرة عازمة حملة وطنية للياقة البدنية

والمقصود الطموح جوجل الجديد لحل مشكلة وفيات بشرية و1500000000 $ انهارت باب الحياة والموت

"بلد الحب 11" YOUKU ضرب، أوبرا هو القوة الرئيسية بعد 90، وبعد 00

المخللات دونغبو "C-بت" لاول مرة تايمز سكوير في نيويورك