تسلق الجدران بين العلماء والمهندسين البيانات البيانات

الكاتب: بايرون آلن

الترجمة: تشن دان

تصحيح التجارب المطبعية: وو تشن دونغ

هذه المقالة حول 2400 كلمات القراءة الموصى بها 10 دقيقة

هذه المقالة هي أن أعرض الفجوة بين العلماء والمهندسين البيانات البيانات، ويوفر إنتاج ML كحل.

العلامات: آلة التعلم

تعلم الآلة، والتعليم، والتركيز على البحوث غالبا ما تركز على العملية العلمية تشييد نموذج البيانات، والتدريب، واختبار وتحسين. لهذه النماذج في الاستخدام، ونحن بحاجة إلى تعيين الخبرات الهندسية والهيكل التنظيمي، والتي المعيار غير موجود حتى الان. هناك إطارا لتوجيه فرق علم البيانات والهندسة وتتعاون من أجل آلة نشر نماذج للمستخدم النهائي التعلم، يسمح هذا المقال لمعرفة المزيد عن هذا الجانب.

المصدر: كريس Conzales.

اليوم واحدة من أكثر الأمور المثيرة تعلم آلة ليست دراسة متعمقة أو تعزيز صدارة التعلم، على الأقل أعتقد ذلك. في المقابل، فإن الشيء أكثر إثارة للاهتمام هو كيفية إدارة النماذج والبيانات، والعلماء والمهندسين البيانات كيفية التصرف كفريق عن التعاون الفعال. هذه قدما نحو اتجاه الأنسجة الموجهة قد تكون أكثر فعالية وتطبيق المستدام للتعلم الآلة.

للأسف، هناك فجوة بين "العالم" و "مهندس"، ويمكن القول أن يكون الجدار. أندي Konwinski وغيرها المؤسس المشارك ونائب رئيس Databricks المنتج الناس، مؤخرا أشار إلى بعض العقبات الرئيسية موجودة المادة على MLFlow بلوق وظيفة. وقال Databricks: "بناء آلة إنتاج تطبيقات تحدي التعلم، لأنه لا يمكن تشغيل أي طريقة قياسية لتجارب قياسية لضمان تكرار وإدارة ونماذج النشر.".

العديد من التحديات الرئيسية للتطبيق اليوم من تعلم الآلة (سواء كان المجتمع الفني والتجاري و) قضية، وبمرور الوقت، يكون هناك عدم توازن بين البيانات وإدارة واستخدام عنصر تعلم الآلة. نموذج لا يمكن أن يؤديها بشكل جيد للغاية، ولكن إذا لم يتم استخدام مكونات الانجراف البيانات الأساسية لتقييم الأداء، النموذج الخاص بك لن يتم تلخيصها بشكل جيد، فإنه لا يمكن تحديث بشكل صحيح. تنتمي هذه المشكلة يرتبط المنطقة الرمادية مع العلماء والمهندسين البيانات.

المصدر: بوراك kostak

 وبعبارة أخرى، فإن جوهر الرئيسي من الأكاذيب المشكلة في عدم وجود آلة التعلم CI / مؤتمر نزع السلاح. إذا لم يتم تقييم ظروفك التغيير (مثل إدخال البيانات)، ونموذج في سياق غرض بناء أساس منتظم، مما أدى إلى نموذج مع مرور الوقت وأهمية تفقد والقيمة، ثم يمكنك إنشاء جيدة حقا "الصندوق الاسود" النموذج ليس مهما. هذه هي مشكلة صعبة، وذلك لأن الشخص الذي يقدم بيانات - المهندسين، نموذج تصميم والناس - العلماء، وعلى الجانبين لم تشكل مجموعة أكثر إرضاء.

 التحدي هناك بعض الأمثلة المحددة. نفكر في كيفية العديد آلة التعلم والنبوة غبية هيلاري كلينتون تفوز في الانتخابات. من المركبات الذاتية لقتل المارة الأبرياء، منحازة للنظام الذكاء الاصطناعي، وهناك بعض الأخطاء الكبرى، وأعتقد أن هذه الإخفاقات التي تنتج عادة عن المنطقة الرمادية بين البيانات العلمية والهندسية.

المصدر: كايلا فيلاسكيز

 وبعبارة أخرى، سواء كان سلبيا أو إيجابيا، والتعلم الآلي تؤثر على مجتمعنا. لذلك، أمثلة أقل تجارية أكثر إيجابية، مثل خريطة الكهرباء باستخدام آلة التعلم لرسم قوة تأثير الرسم على البيئة في جميع أنحاء العالم، في أبحاث السرطان في تعلم الآلة تساعدنا الآن في وقت سابق والعثور على نحو أدق عدة أنواع من السرطان اكتب، يحركها الذكاء الاصطناعي استشعار تمكين الزراعة لتلبية الطلب العالمي المتزايد على الغذاء.

التقسيم بين البلدين

مع هذا في الاعتبار، والحصول على آلة مخرجات التعلم بشكل أكثر تحديدا، وإدارة نموذجية أمر ضروري. ومع ذلك، والعودة إلى هذا الموضوع، والعلماء والمهندسين البيانات البيانات لا يفهمون دائما كل منهما الأخرى.

لعلماء البيانات، فإنها لا أفهم كيف يجب أن يوجد نموذج في البيانات الجديدة واستيعاب باستمرار، تم دمج القانون الجديد، ويسمى المستخدم النهائي، وربما من وقت لآخر بطرق مختلفة (أي في بيئة الإنتاج) فشل، مثل ليس من غير المألوف. من ناحية أخرى، فإن العديد من مهندس البيانات لآلة التعلم لفهم ما يكفي، لا يكفي لجعلهم يفهمون ما وضعت في إنتاج المحتوى وتأثير ذلك على المنظمة نعم. .

وعلى الرغم من حرفين تشغل نفس المساحة، ولكنها في كثير من الأحيان لم يكن لديك ما يكفي للنظر في يد كل منهما في تلك العملية. "هذه ليست وظيفتي" ليس النهج الصحيح. لإنتاج منتج موثوق ومستدام وقابل للتكيف، يجب أن هذين الدورين العمل معا بشكل أكثر فعالية.

تسلق الجدار

الخطوة الأولى هي أن نفهم بعضنا البعض لإنشاء المفردات المشتركة - نوعا من توحيد دلالات، وبالتالي مناقشة التحديات أو قريب لمواجهة هذا التحدي هو كيف. وبطبيعة الحال، مما يشكل تحديا - نطلب فقط عدد قليل من الناس مختلفة ما هي البحيرة البيانات، وليس اذا كان لديك أكثر من إجابة واحدة، فعلى الأقل سوف تحصل على إجابتين مختلفتين.

لقد وضعت نقطة مرجعية مشتركة، ودعا ProductionML سلسلة القيمة وإطار ProductionML.

 وسوف نقوم بمعالجة ينقسم إنتاج تعلم الآلة إلى خمسة مفاهيم متداخلة، وغالبا ما تعتبر هذه المفاهيم بشكل منفصل. في حين أن إدخال إطار من هذا القبيل يبدو أن زيادة التعقيد والترابط العام - في واقع الأمر، والتعقيد والترابط بين هذه موجودة بالفعل - إذا تم تجاهلها، ثم المشكلة تدفع فقط لهذه الغاية.

من خلال النظر في مفهوم التصميم المجاور وإنتاج آلة التعلم في الطريق، وسوف تبدأ لإدخال بعيد المنال الموثوقية والاستدامة والقدرة على التكيف.

إطار ProductionML

ProductionML سلسلة القيمة وصفا رفيع المستوى من البيانات التشغيلية الفرق العلوم والهندسة المطلوب المحتوى، والغرض من ذلك هو نشر نموذج للمستخدم النهائي. وبطبيعة الحال سوف يكون هناك فهم أكثر التقني وتفصيلا - أدعو إطار ProductionML (البعض قد يطلق عليه المخابرات مستمر).

إطار ProductionML

هذا الإطار هو الأدوات بعد MLOps التجارية، والخيارات مفتوحة المصدر، وضعت عدة جولات من التجارب تطوير اضغط لتتحدث الداخلية. وهي مصممة لتوجيه تطوير مستقبل مشروع ML الإنتاج، لا سيما من حيث إدخال البيانات العلماء ProductionML والمهندسين في حاجة إليها.

علم البيانات هو البرتقالي، والهندسة البيانات / DevOps باللون الأزرق.

إذا كنت لم تكن مألوفة مع هذه الشروط، الرجاء الرجوع إلى معطيات العلم وعلامة الزرقاء البرتقالية وصفت هندسة البيانات / DevOps.

كما ترون، "تتبع أداء التدريب" آلية (على سبيل المثال، MLFlow) وآلية إدارة تقع في وسط العمارة. وذلك لأن كل جزء منه، بما في ذلك متري، المعلمات والرسومات يجب أن تحفظ في مرحلة التدريب والاختبار. وبالإضافة إلى ذلك، ما يسمى نموذج إدارة المرتبطة أساسا إلى استخدام نموذج إدارة من هذه المكونات.

آليات إدارة الأعضاء وقواعد العمل الجمع بين نموذج مناسب الأمثل لتعزيز (أو على نحو أدق، ومقدر) لاستيعاب الإنتاج، في حين نماذج أخرى وصفت مع تجسيد وفقا لقواعد محددة. ويعرف هذا النموذج أيضا التحكم في الإصدار، ولكن يتم استخدام مصطلح "الإدارة" لتفادي الخلط مع التحكم في الإصدار، وشدد على الدور المركزي في آلية الإشراف ونموذج الإدارة.

المسدس الذهبي؟

ونحن جميعا معا إلى الأمام. كنا نحاول كل لتسلق الجدار. هناك الكثير من أدوات عظيمة لدخول السوق، ولكن حتى الآن، لا أحد لديه بندقية ذهبية ...

المصدر: Mrgarethm الذهبي Gun- متحف التجسس الدولي.

في رأيي، MLFlow اتخذت خطوة كبيرة، فهو يجيب على بعض الأسئلة حول نموذج إدارة وأرشفة الشغل. المنتجات الأخرى أيضا حل مشكلة محددة نسبيا - على الرغم من أن بقية مزاياها قد ProductionML سلسلة القيمة. هذه يمكن أن ينظر إليها في Google Cloud ML المحرك وAWS Sagemaker في. في الآونة الأخيرة، والعروض GCP إصدار بيتا AutoML الجداول بيتا، ولكن حتى مع ذلك، على الرغم من أنه لا أقرب، ولكنها لا توفر جميع الأشياء اللازمة جاهزة.

مع الأخذ بعين الاعتبار هذه الاختلافات المستمرة، لإنشاء المفردات المشتركة والإطار بين العلماء والمهندسين أمر ضروري.

هذا الجدار مرتفع جدا حتى الآن؟ في تجربتي، فإن الجواب هو لا، ولكن هذا لا يعني أن ProductionML يست معقدة.

جيمس بوند:

M: حتى إذا سمعت بشكل صحيح، فر سكالا مانغا - يجلس في سيارة أجنحة نمت!

Q: أوه، هذا ممكنا تماما يا سيدي. في الواقع، ونحن الآن تصنيع.

ربما يجب إيقاف بحيث جدار ...

العنوان الأصلي:

تسلق الجدار الفاصل بين عالم البيانات والمهندس البيانات

الرابط الأصلي:

https://www.kdnuggets.com/2020/02/scaling-wall-data-scientist-data-engineer.html

تحرير: لتانغ كاي

تم التعليق بواسطة: Hongshu أكثر

مقدمة المترجم

تشن دان جامعة فودان القراءة الإعدادية، وتخصص في الطب الوقائي، والبيانات العلمية طفيفة. تحليل البيانات مليء الفائدة، ولكن دخول هذا المجال، وهناك العديد والعديد من احتياجات التقدم جهود الفضاء. الأمل في المستقبل كمية من القراءة العمليات المتعلقة الأدب يمكن أن تعمل في مجموعة الترجمة توسيع، وتعلم المزيد من المعرفة المتطورة، مع الاعتراف بأن هناك شركاء ضيق الأفق أكثر شيوعا!

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور "  منظمة العفو الدولية لإرسال البيانات  "أيتها الأخوات ولا". إرسال البيانات THU  "لرعاية المزيد من المحاضرات ونوعية المحتوى.

2020 AI لغات البرمجة، وانت تعرف ماذا؟

ما هو برنامج التشفير التلقائي؟ يعلمك كيفية استخدام التشفير التلقائي لتحسين صورة ضبابية

10 مفاهيم مهمة للذكاء الاصطناعي تعلمتها من Wu Enda AI For Everyone

فائقة المعمرين الخلايا الجسدية التيلوميرات استعادة كطفل رضيع! خلايا الإناث عمرها 114 عاما تعود إلى الخلايا الجذعية 0 سنة

كيفية اللعب بشكل جيد لمباراة لكرة القدم علميا!

PCA باستخدام K-وسائل والجينوم تحليل تسلسل COVID 19 ثم كيف الطفرات؟

يعلمك ppt من 46 صفحة كيفية دمج محرك القاعدة وتعلم الآلة!

إيطاليا شقيق طباعة صغيرة للمساعدة في 3D! وفي مواجهة خطر الملاحقة القضائية، والأصدقاء: الطبعة الإيطالية من "الطب الله"؟

تحت موجة جديدة من البنية التحتية، لنرى كيف عملاق التكنولوجيا للاستيلاء على المبادرة!

سوف أصدقاء يعود قريبا! القصة الكلاسيكية: الأصدقاء في النهاية أن أقول كم مرة يا إلهي؟

كيفية إنشاء مجموعة اختبار لتقدير مؤشرات الأعمال دون اتصال؟ (مع رمز ورابط)

مائة جهة Yunchuang المالية في جامعة تسينغهوا ناحية أصدرت تقريرا بحثيا، "اقتصاد الصين في وباء"