العلماء بيانات: أقذر العمل في القرن 21

النص الكامل 2311 الكلمات، وعندما يكون التعلم مدى المتوقع 7 دقيقة

المصدر: cfzyjsxy

في عالم البيانات الكبيرة، عالم البيانات احترامها من قبل الشعب، وأنها تستخدم أساليب الذكاء الاصطناعي أو عمق تعلم رؤى تجارية قيمة لصالح المجتمع.

"هارفارد بيزنس ريفيو" وقد وصف عالم البيانات - "ويشارك العلماء بيانات في اكثر من المألوف في العمل القرن 21".

بالنسبة لي، وإن كان في السنوات الخمس الماضية، لديها "عالم البيانات" العنوان، ولكن ما زلت غير الواضح تماما أي جزء من هذا العمل هو من المألوف جدا. قد أكون الجديدة يجعل الشعر الساخن لي تبدو مثل اوباما الكورية.

وبالفعل، فقد وجهت ظهور سحابة والمشاريع نحو اتجاه التنمية للإنترنت انفجار من البيانات. وقد ساهم ذلك إلى نقص في الطلب على العلماء بيانات في بعض القطاعات والمناصب.

ومع ذلك، يحتاج العلماء بيانات لتفعل ما عمل كل يوم؟

من خلال عمل تحليل نشر على LinkedIn، يمكنك العثور على الإجابة على هذا السؤال. وفيما يلي يلخص بعض متطلبات الوظيفة الشعبية:

فهم الأعمال والعملاء، والتحقق من فرضية

بناء نماذج التنبؤ وخطوط تعلم الآلة، وA / B اختبار

أصحاب المصالح التجارية لتحليل تصور

تطوير خوارزميات لتمكين القرارات التجارية

اختبار ودراسة تقنيات وأساليب جديدة لتحسين القدرات التقنية.

هذا كل الأصوات أنيقة جدا / طويل القامة، أليس كذلك؟

ما لم يتضمن العمل أيضا تجهيز مجموعات البيانات Kaggle، وإلا مجرد جزء صغير من الوصف الوظيفي العلماء بيانات العمل.

نتائج المسح التالية الصادرة عن CrowdFlower، يلخص الأنشطة اليومية للعلماء البيانات:

العلماء بيانات يقضى معظم الوقت شيء.

وكما يتبين من الجدول، أكثر من مرة العلماء البيانات جمع مجموعات البيانات، تنظيف وتنظيم البيانات.

القرن ال21 الخلاء البيانات عالية الأداء

بحيرة بيانات مركزية مخازن مستودع كافة البيانات من الشركة. الشركات تستخدم هذه البيانات لبناء لوحة أجهزة القياس ونماذج التعلم الآلي. للأسف، بعض الناس مجرد مكان البيانات كما تفريغ البيانات من البحيرة، أو محركات الأقراص الصلبة الكبيرة.

بدأت العديد من الشركات لتنفيذ بحيرة البيانات، حول كيفية التعامل مع البيانات التي تم جمعها شيئا. سيقول هذه الشركات: "دعونا جمع كل البيانات عليه." على الرغم من أن التركيز على البيانات من البحيرة هو كل بيانات الشركة في مكان واحد، ولكن لا تزال بحاجة إلى أن تصمم وفقا لمتطلبات المشروع المحددة. إذا كنت لا تجعل أي خطط، مثلك خلق جديد "بدون عنوان المجلد"، ومن ثم نسخ ولصق البيانات الشركة بأكملها في نفوسهم.

إذا اعتبر سطح المكتب كما تفريغ البيانات الميدانية

من وجهة نظر تاريخية، فإن خطة تجلب سيئة الفوقية الفوضى، الأمر الذي يجعل من الصعب على أي شخص للبحث أو العثور على البيانات المطلوبة. غالبا ما يحتاج العلماء بيانات لمختلف الإدارات الاتصال للحصول على البيانات. قد يحتاجون للحصول على معلومات حول البيانات من المالك بيانات مختلفة. تخزين البيانات فقط دون تصنيف هو خطأ كبير. بحيرة حاسمة لوضع بيانات فعالة هو لضمان حسن تصنيف الفوقية.

لأن الحكم البيانات وأصحاب البيانات مشغولون جدا، وأنها غالبا ما تكون قطاعات مختلفة من أصحاب المصلحة، وبالتالي الوصول إلى البيانات الهامة الامر قد يستغرق عدة أسابيع. بعد فترة من المراقبة، قد العلماء بيانات تجد في نهاية المطاف أن البيانات ليست مشاكل الجودة ذات الصلة أو خطيرة.

عندما جمع العلماء بيانات النهائي البيانات، فإنها تحتاج الى انفاق الكثير من الوقت لاستكشاف والتعرف على هذه البيانات، يجب تنظيم هذه الفوضى كتلة البيانات إلى جدول جديد يتماشى مع متطلبات المشروع.

مدير البيانات ارتفاع الطلب في القرن ال21

المصدر: data.lovedata

يجب أن يسمع كل المهنيين معالجة البيانات كلمة "القذرة". البيانات القذرة التي تؤثر على سلامة مجموعة البيانات. ميزات البيانات القذرة هي: غير مكتملة أو غير دقيقة، تتعارض وتكرار.

البيانات غير كاملة هو عند بعض الوظائف الأساسية فارغة، على سبيل المثال، يفترض المهمة أن نسبة التنبؤ. إذا كان "بيت موقف" لجعل التوقعات الجيدة أمر بالغ الأهمية، ولكن هذه البيانات لا. قد يصبح هذا أكثر تحديا ونتائج النموذج فقراء.

بيانات غير صحيحة ووسائل بيانات غير متناسقة أن قيمة صحيحة من الناحية الفنية، ولكن في سياق خاطئ. على سبيل المثال، يتغير موظف العنوان، ولكن لم يتم تحديث البيانات، أو عندما تكون هناك نسخ عديدة من البيانات، والبيانات التي حصلت عليها إصدارات العلماء بالفعل خارج التاريخ.

ازدواجية البيانات هي مشكلة شائعة. هنا لحصة حدثت قصة عندما كنت أعمل في شركة التجارة الإلكترونية. حسب التصميم، عندما ينقر الزائر "لكوبونات جمع" زر، الموقع سوف ترسل ردا على الخادم. وهذا يسمح لنا بقياس عدد مستخدمي جمعت القسائم.

وقد تم تشغيل موقع البئر، حتى يوم واحد كانت هناك بعض التغييرات، ولكن أعرف عنها شيئا. أمامي مطور يضيف رد آخر عندما يقوم شخص ما كوبونات جمع بنجاح، على أساس أن بعض القسائم قد تكون من المخزون. العلماء بيانات تريد أن تتبع زوار انقر على الزر، والزائر له كوبونات تم جمعها.

في هذه الحالة، أرسلت اثنين من الردود على جدول سجل نفسه. تحقق من أدوات الإبلاغ بلدي، تضاعف عدد كوبونات بين عشية وضحاها! قبل يوم من نشر نموذج، وأعتقد أن هذا النموذج الجديد هو ناجح جدا. أتذكر من هو هذا التصفيق نموذج قليلا، ولكن بعد ذلك أدركت أنه كان مجرد تكرار العملية الحسابية.

وبالإضافة إلى ذلك بعض البيانات في السنوات الخمس الماضية، كعالم البيانات، جمعت موظفي الشركة لإدخال يدويا. في جداول البيانات إكسل، والكثير من البيانات غير دقيقة أو ناقصة وغير متناسقة.

سواء تم إدخال البيانات يدويا أو يستخدم على نطاق واسع فرز بيانات السجل آلة في العالم الحقيقي. يجب العلماء البيانات التعامل مع هذه البيانات. من أجل التعلم تحت إشراف فعالة، ونحن بحاجة موثوق بها، تصنيف بيانات جيدة. ما لم البيانات علامة صحيحة، أو لم تتمكن من بناء النماذج التنبؤية. ولكن لا أحد يحب بمناسبة البيانات.

ووصف كثير من الناس كما ثمانية وعشرين القواعد. العلماء بيانات تنفق سوى 20 من وقتهم لبناء نموذج، في حين أن الأخرى 80 من الوقت لجمع وتحليل وتنقيح البيانات وإعادة الهيكلة. بيانات القذرة هو معالجة البيانات العمل الروتيني من العلماء في أكثر تستغرق وقتا طويلا.

المصدر: Pexels

ومن الضروري أن أوضح أن البيانات الحيوية التطهير، والبيانات لن فوضى يحقق نتائج جيدة، وكنت قد سمعت من "القمامة في القمامة خارج" هذه الجملة.

والواقع أن وجد العلماء البيانات عند تصفح البيانات، ولكن البيانات قبل العلماء يمكن أن تبدأ تدريب أي نموذج، يجب أن تصبح أول مسؤول البيانات. يحتاج البيانات المراد تنظيفها، ويحتاج أيضا إلى أن تكون علامة.

لذلك، ودعا العلماء البيانات عمال النظافة البيانات العالم الكبير، يجب علينا أيضا أن تكون مناسبة جدا ......

انتباه رسالة الابهام

معا نحن نشارك في التعلم وتطوير AI الجاف

مثل طبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

دروس أساسية: استخدام JupyterNotebooks التنمية الكاملة للمبتدئين في قانون VS

خمسة مجالات رئيسية هي: آلة تعلم كيفية تغيير التعليم في المستقبل القريب

البيانات في تعريف جديد من برامج أكاديمية العلوم

استخدم Raspberry Pi والتعلم الآلي لصنع قارئ لوحة ترخيص DIY

عين الذكاء الاصطناعي: استخدام التكنولوجيا للقضاء على العمى والوقاية منه

اليوم صوت الأساسية | الخاص بك الساخنة بخير؟ أبل دائرة الرقابة الداخلية 13 اعترف بوجود "النقاط الساخنة" مشكلة

تسريع وظيفة، يجب على كل مبرمج يعرف المكتبة القياسية Lru_cache بيثون

20 عظيمة بيانات علمية مجانية على شبكة الإنترنت، والتعلم الآلي والذكاء الاصطناعي الدرجة مو

سمعت تطبيق كبير (كتل) هو مستقبل تطوير البرمجيات؟

سر! كيف قابلة للطي شاشة مصنوعة من؟

كيف تسعة الى خمسة وظيفة لتصبح مبرمج فعالة؟

اليوم صوت الأساسية | ألغت تماما! جوجل I / O خط مؤتمر 2020 المطور لا