تويتر محة عن سلسلة المنتج، وكيفية العلماء بيانات للعب دور في الشركات المختلفة؟

العنوان الأصلي: ممارسة العلوم البيانات في تويتر

المؤلف: روبرت تشانج

الترجمة: الشمس تاو

تم التعليق بواسطة: سو جين ليو

طول هنا 6000 كلمات القراءة الموصى بها 12 دقيقة

روبرت تشانج من هذه المادة دخول مكتوبة تويتر عامين، يمكنك إما تويتر محة تشكل سلسلة المنتج كامل، ولكن تعلمت أيضا كيف أن يلعب دور البيانات العلمية في جميع أنواع الشركات.

حافز

17 يونيو 2015، كنت أعمل سنتين كاملتين في تويتر (https://twitter.com/search؟q=23twitterversary&src=typd). في وقت لاحق، شهدت تويتر العلم بيانات الشركات الكثير من التغييرات:

  • تويتر الكثير من المنتجات الأساسية التي لا تستند أصلا على آلة التعلم، والتعلم الآلي، والآن أنها تلعب دورا متناميا في (على سبيل المثال: كنت بعيدا، ونحن بالنسبة لك) (https://blog.twitter.com/official/en_us/a/2015 /while-you-were-away-0.html)

  • أدوات، تخلينا عن اللغة خنزير، أنتقل لكتابة كل خط أنابيب البيانات الجديدة مع السماط (https://github.com/twitter/scalding). ويستند السمط على سكالا DSL المتتالية، وسهلة لمسح مهمة Hadoop مابريديوس

  • خطوة خطوة، اخترنا نموذج جزءا لا يتجزأ، لأن العلماء بيانات للعمل مع فرق المنتجات والهندسة أقرب

ما سبق هذه ليست سوى عدد قليل من التغيير. الشخصية، والتوسع الأخير في عملي حقل من (جزء النمو) النمو لوزارة PIE (المنتجات والأدوات والتجريبية) لدراسة الأساليب الإحصائية الخاصة بنا A / B اختبار منصة.

تويتر يعمل في الدم واحد، لأنني كنت قادرا على مراقبة مباشرة ومعرفة كيف يمكن لشركة التكنولوجيا الكبيرة يستخدم البيانات والبيانات العلمية لخلق ميزة تنافسية.

في نفس الوقت، وأعتقد أن فكرة بيانات البحث العلمي قوية على نحو متزايد.

"البيانات الكبيرة مثل سن المراهقة الجنس: الجميع يتحدث عن ذلك، ولكن لا أحد يعرف كيفية التعامل الجميع يعتقدون أن تشارك الآخرين، حتى ادعى أيضا كانت تعمل في." ------ دان أرييلي

وهناك بالفعل العديد من المناقشات ( تركزت على كيفية يصبحوا علماء البيانات. هذه المناقشات كمية هائلة من المعلومات، والكثير من الناس تستفيد، وكان واحدا من المستفيدين. ولكن المناقشات الكثير من التركيز على التكنولوجيا والأدوات والتقنيات. وأعتقد انها كاملة من الروح القتالية ومضمون العلماء بيانات معرفة فرص العمل من القتال الفعلي هو الشيء المهم على حد سواء.

ولهذه الغاية، تركت عامين وصمة عار (المقالة) في لغو. وأود أن استخدام هذه المادة لتبادل تجربتي الشخصية، وآمل أن زملاء يمكن أن يتعلم من تجربتي إلى حد ما.

بيانات A فئة B البيانات الدرجة عالم عالم v.s.

وقبل انضمامه إلى تويتر، لدي انطباع أن العلماء البيانات التي يجب أن تكون مرنة، من الرياضيات / ستات (برامج التحليل الإحصائي) لCS (العميل / الخادم) / ML (آلة التعلم) / الخوارزمية، إلى أي بيانات ( تصور البيانات). بالإضافة إلى المهارات المهنية والكتابة ومهارات الاتصال هي أيضا مهمة جدا. وعلاوة على ذلك، والتحسين والإرشاد وإدارة تنفيذ المشروع ضروري في وقت لاحق في المشروع. أوه نعم، لديك لتعزيز ثقافة موجهة نحو بيانات. في الختام، أتمنى لكم حظا سعيدا!

دخول بضعة أشهر في وقت لاحق، وأرى شيئا، على الرغم من كل مستدير موجودة، وكثير من الناس يحاولون باستمرار ليصبح كل مستدير، ولكن، ليجتمع فورا جميع الشروط المذكورة أعلاه ليست واقعية. وتقريبا جميع البيانات المتعلقة البيانات هي جزء لا يتجزأ من العلم. كما الصاعد، أريد أن يجد لنفسه مكانا هناك خوف الخوف من القلب.

تدريجيا، وأنا أدرك أن هناك تصنيف واضح للبيانات بين العلماء. لم أفهم جيدا لاحق حتى مايكل Hochster (https://www.quora.com/profile/Michael-Hochster) أجابوا على قرة اسمحوا لي المستنير. له المجمعة خفية إلى:

  • A العلماء بيانات الطبقة: ويظهر تحليل (تحليل). تركز هذه الطبقة العلماء في المقام الأول على استخدام الأساليب الإحصائية لفهم ومعالجة البيانات. وهي تشبه جدا والإحصاء (يمكن اعتبار)، ولكنهم يعرفون أيضا تفاصيل الفعلية لمعالجة البيانات، وهذه ليست مدرجة في المنهج الإحصاءات، على سبيل المثال: تنقية البيانات طريقة للتعامل مع قواعد البيانات الكبيرة، والتصور، ومحددة معرفة عمق مجالات الخبرة والبيانات المتعلقة الكتابة.

  • العلماء بيانات من الفئة ب: يمثل B النمذجة (مبنى). A العلماء فئة مع نفس النوع من العلماء بيانات لديها بعض المعرفة الأساسية الإحصائية، لكنهم هم من المزارعين كود ممتازة ومهندسي البرمجيات حتى المدربين تدريبا جيدا. وركز العلماء بيانات من الفئة ب في المقام الأول على بيانات التطبيق في عملية الإنتاج. يبنون نماذج والتفاعل مع المستخدم، وغالبا ما المنتجات الموصى بها، والناس قد يعرفون، والإعلانات، والأفلام، ونتائج البحث.

كنت أتمنى لو كان يعرف. في الواقع، باعتبارها العلماء بيانات الطامحين، والقيام التخطيط الوظيفي، يجب علينا أن نأخذ الفروق بين هذه مهندس البيانات في الاعتبار.

متحدثا عن نفسي، يا الخلفية في الرياضيات، وبحوث العمليات والإحصاء. اعتقد انه فئة باحث البيانات، ولكن كما أقدر المشروع أكثر المرتبطة الفئة B والهندسة.

علم البيانات بدء الشركات، شركات النمو والشركات من حجم معين

عندما تبحث عن وظيفة التكنولوجيا الخيار الاكثر شيوعا هو الخيار للشركات الكبيرة أو الشركات الصغيرة (https://medium.com/the-year-of-the-looking-glass/start-ups-versus-big-companies- f275800e78e5). حول هذا الموضوع لديه الكثير من النقاش جيدة، ولكن المعلومات المكرسة لبيانات علمية قليلة جدا. هذا السؤال، في حالة وجود شركة يعتمد على حجم المرحلة ودور البيانات العلمية سيكون كيفية تغيير.

مراحل مختلفة من معدل توليد بيانات الشركة، ونوع وكمية البيانات مختلفة. التركيز على بدء الشركة المنتجات والأسواق مطابقة قد لا تحتاج Hadoop، وليس ذلك بكثير لأن الحاجة البيانات المراد معالجتها. شركات النمو والبيانات أقرب معا، ولكن من الممكن استخدام كيو (https://www.postgresql.org/) أو كان Vertica أكثر من كافية. ومع ذلك، والشركات الكبيرة مثل تويتر، وإذا كنت لا Hadoop خريطة-تقليل الإطار لا يمكن بكفاءة معالجة كافة البيانات.

على تويتر أفهم أعمق نقطة هي التطور من العلماء البيانات لاستخراج قيمة من قدرات البيانات ومنصة البيانات حيث يرتبط الشركة عن كثب. عليك أن ترغب في فهم المستقبل تريد أن تكون هذا النوع من العلماء بيانات لديهم لتقييم ما إذا كانت الشركة تحت دعم أهدافك. هذا ليس من الحكمة فقط، ولكن أيضا في غاية الأهمية لضمان ارتباط السليم بين الحق أعلاه.

بدء الشركة ركز التحليل الأساسي على تسجيل، يتم تأسيس إجراء ETL، نمذجة البيانات وتصميم نموذج، وذلك لتتبع وتخزين البيانات. الهدف هو التركيز على إنشاء أساس التحليل بدلا من تحليل السلوك نفسه.

شركات النمو: لأن الشركة تنمو، فمن الممكن أيضا أن زيادة كمية البيانات. لذا تحتاج منصة البيانات المراد تعديلها، ولكن على أساس تحليل القائمة، سيكون هناك انتقال من الطبيعي أن البصيرة. ما لم تكن نية الشركة لاستراتيجيات تمييز واستخدام البيانات العلمية ( وإلا وضعت الكثير من التحليلات حول KPI، مدفوعة بالنمو ونظرة لجهة النمو.

A حجم معين من شركة: عندما نطاق الشركة، والجوانب البيانات سوف تحجيم. تحتاج الشركات لاستخدام البيانات لخلق مزايا جديدة أو للحفاظ على المزايا الموجودة. على سبيل المثال، والحاجة إلى نتائج البحث الأمثل، تحتاج التوصيات أن تكون أكثر المرتبطة اللوجستية والعمليات تحتاج إلى أن تكون أكثر كفاءة - في هذه الفترة الزمنية، وجلسة العمل، وسيقوم مهندسون مثل تعلم الآلة، والمتخصصين الأمثل والمصممين وخبرة غيرهم من المهنيين تلعب دورا هاما.

عندما انضممت إلى التغريد، والتغريد لديها بالفعل بنية تحتية ناضجة جدا ومنصة البيانات مستقرة. مستودع نظيفة وموثوق بها، ويمكن البرنامج ETL بسهولة التعامل مع مئات الآلاف من خريطة-الحد من العمل كل يوم. الأهم من ذلك، لدينا مجموعة من العلماء بيانات الموهوبين إلى ممتازة، مضنية منصة أبحاث البيانات، والبصيرة المنتج، والنمو، والتجريب، والبحث / ذات الصلة وغيرها من مجالات التركيز.

رحلتي

كنت أول عالم للانضمام الجزء بيانات النمو. وفي الواقع، فإن بيانات المنتج والهندسة والعلمية معا لقضاء عدة أشهر، والسماح أخيرا العلماء البيانات تلعب دورا حيويا في العملية الشاملة. وبناء على خبرتي والعمل بشكل وثيق مع فريق المنتج، وتحمل المسؤولية بلدي ينقسم إلى أربعة مجالات هي:

  • انسايت المنتج

  • خط أنابيب البيانات

  • تجربة (A / B اختبار)

  • تصميم

سوف تغطي هذه الجوانب الأربعة من خبرتي والتعلم.

1. انسايت المنتج

العمل في واحدة من شركات التكنولوجيا فريدة من نوعها الموجهة نحو المستهلك هو أن نتمكن من استخدام البيانات لفهم والتكهن صوت العميل والأفضليات. عندما تفاعل المستخدم والمنتج، ونحن سوف يسجل معلومات مفيدة، تخزين أسفل لتحليلها لاحقا.

وهذا ما يسمى عملية التسجيل أو الأجهزة، ولكن المضمون هو تغيير دائما. العلماء غالبا ما تجد أن تحليلا للبيانات في غاية الصعوبة، وذلك لأن البيانات إما مشوهة، أو غير مناسب أو مفقودة. لذلك، قد بنيت العلماء البيانات والمهندسين علاقة عمل جيدة أمر مهم لأن البيانات يمكن أن يساعد العلماء يخططون للقيام المهندسين الأخطاء المؤكدة أو نظام وسط أفريقيا. وفي المقابل، يمكن للبيانات العلماء أيضا مساعدة مهندس حل "الثغرات في البيانات" المسألة، بحيث تكون البيانات أوفى، وأكثر أهمية وأكثر دقة.

هنا هو مثال تحليلي العديد من المنتجات بالتعاون تويتر:

  • تحليل دفع الإخطارات - كم يمكن للمستخدمين التمتع دفع الإخطارات؟ طوال العميل؟ أو عميل؟ كيف مختلف CTR دفع الاخطار؟

  • أسعار الرسائل القصيرة - كيفية حساب معدل رسائل تويتر أرسلت إلى الاعتماد على شركات مختلفة؟ أرسل لنا على معدل أقل في الدول التي الناشئة؟ كيفية تحسينه؟

  • حسابات متعددة - لماذا هي أكثر شيوعا في حالة بعض الدول لديها أكثر من حساب واحد؟ ما الذي يدفع الناس إلى عدة حسابات مفتوحة؟

تحليل متعدد الأبعاد يمكن أن تبدأ من - أحيانا تحتاج فقط إلى تقديم إجابة مباشرة (على سبيل المثال تحليل دفع الإخطارات) استنادا إلى بيانات بسيطة، وأحيانا لديك من أجل التوصل إلى طرق جديدة لحساب المهم معيار الحوسبة الجديد (أمثلة معدل SMS )، في نهاية المطاف قد تكون لديكم فهم متعمق للسلوك المستخدم (حسابات متعددة).

هل البصيرة قبل المنتج تحليل عملية تكرارية. فإنه يتطلب منك السؤال باستمرار رفعت القضايا، فهم بيئة العمل، وجعل قاعدة البيانات الصحيحة إلى الإجابة على الأسئلة. مع مرور الوقت، سوف تصبح جوانب البيانات الرئيسية، وفهم المعنى الحقيقي للبيانات. يمكنك أن تكون أكثر تقييم دقيق لتحليل كامل من الزمن الذي يستغرقه. الأهم من ذلك، سوف يتحول ببطء من حالة سلبية إلى حالة استباقية، وبدأ يوصي تحليل مثيرة للاهتمام من بعض القادة لا يتوقع. لأن هؤلاء القادة لا يعرفون البيانات لديها مثل هذا الدور المهم في تلك المناطق، ونحن لا نعرف يمكن لمصادر البيانات المختلفة تكمل بعضها البعض وبطريقة خاصة لدمج.

المهارات المستخدمة:

  • قطع الأشجار والأجهزة. تحديد العيوب البيانات. والمهندسين لإقامة علاقة جيدة.

  • السيطرة، والقدرة على التعرف على واستخدام قاعدة البيانات.

  • أنواع مختلفة من التحليل لفهم. تحديد أكثر دقة وصعوبة والوقت اللازم للتحليل.

  • كنت تعرف لغة الاستعلام الخاص بك. بيانات الكلاسيكية استخدام R أو بيثون تطهر التقنيات.

2. خط أنابيب البيانات

وعلى الرغم من الفئة (أ) عالم قد لا كتابة البيانات مباشرة إلى رمز العميل، ولكن من المدهش، فإنهم غالبا ما تبقي الشفرة في مستودع رمز لمعالجة البيانات خط الانابيب.

إذا كنت تعرف يونكس في رمز توجيه الإخراج "|" يستخدم لتحسين تنفيذ سلسلة من الأوامر، ثم سوف تعرف خط أنابيب البيانات أيضا بسيط جدا، هو الجمع بين سلسلة من العمليات، ونحن يمكن أن تساعد تلقائيا الحصول المتكررة، وتنظيف تكامل البيانات.

وقبل انضمامه إلى تويتر، عملي تحليل معظمها مؤقتة. كود لتشغيل على جهاز الكمبيوتر الخاص بي عدة مرات، ونادرا ما مراجعة، وليس مراقبتها. الآن ولادة خط أنابيب البيانات، ظهرت سلسلة من المشاكل الجديدة، مثل إدارة التبعية، وجدولة عملية، وتخصيص الموارد والرصد والإنذار ويتم إرسال ردود الفعل الخطأ.

ما يلي هو عملية نموذجية إنشاء خط أنابيب البيانات:

STEP1: يجب أن ندرك أننا إذا تولد مرارا وتكرارا على قاعدة البيانات، ثم سيتم تحسين العالم.

STEP2: بعد تحديد الاحتياجات، بدءا من تصميم المنتج النهائي، مثل تصميم قاعدة بيانات نموذج بيانات الناتج.

STEP3: الترميز، ويمكن استخدامها الخنزير، السمط وSQL أو بالاعتماد على البيانات المخزنة في هذا النموذج.

STEP4: قدمت رمز للقيام مراجعة التعليمات البرمجية. بعد تلقي ردود الفعل للقيام ببعض التعديلات الإضافية، إما لأن المنطق مهمتك قد تكون خاطئة، أو التعليمات البرمجية قد لا تكون الأمثل من حيث السرعة والكفاءة.

STEP5: تنفيذ الجافة تشغيل لاختبار ما إذا كان كل شيء يسير في الموعد المحدد.

STEP6: كود دمج لربان. نشر رمز وجدول المهام.

STEP7: خلق الإشراف والتقرير عن الخطأ والتحذير وظائف لتجنب أي أخطاء.

ومن الواضح أن خط أنابيب البيانات إلى أن يكون أكثر تعقيدا من المخصص التحليل، ولكن ميزة هي أن مهمة يمكن تشغيل من تلقاء نفسها، والبيانات التي تم إنشاؤها يمكن تفعيلها لوحة أجهزة القياس، وذلك لمشاركتها مع مستخدمين آخرين. النقطة الأهم من ذلك، يتم التغاضي عنه بسهولة هو أن هذا هو عملية تعلم جيدة. لقد تلقيت أفضل الأعمال والتدريب، ووضع الأساس للمستقبل ربما تحتاج إلى إنشاء خط أنابيب معين، مثل نماذج تعلم آلة (الجزء الأخير من هذا المقال سأناقش)، وA / B اختبار منصة.

المهارات المستخدمة:

  • التحكم في الإصدار، البرنامج الأكثر شيوعا هو بوابة

  • تعلم كيفية القيام مراجعة التعليمات البرمجية وتقديم التغذية الراجعة بكفاءة

  • كيف تعرف عندما فشل مهمة الاختبار، تفريغ وتشغيل تعديلات قانون

  • إدارة الاعتماد، وجدولة المهام، وتخصيص الموارد، والرصد، والأخطاء والتحذيرات أرسلت التقارير.

تجربة 3 (A / B اختبار)

الآن، كنت تستخدم تويتر التطبيقات ممكن، وسوف يكون الفروق الدقيقة. بعض الميزات الوظيفية قد تكون لديكم لم أستطع أن أرى. لأن هناك الكثير من مستخدمي تويتر، وبالتالي فإن الخلفية جعل جزء صغير من المستخدمين لتجربة بعض الميزات الجديدة لم تصدر بعد، لمراقبة وتحليل هذه التفاعلات المستخدم معينة، ووأولئك الذين لا يتمتعون الميزات الجديدة وتمت مقارنة. هذه هي A / B اختبار، والذي يستخدم لاختبار الوضع أفضل.

شخصيا أعتقد أن A / B اختبار هي واحدة من الفوائد الخاصة للعمل في الكبيرة شركات التكنولوجيا الموجهة نحو المستهلك. كعالم البيانات، لديك لتشغيل من خلال التجارب العشوائية، التي تسيطر عليها لإقامة علاقة سببية (باستخدام البيانات المرصودة من الصعب حقا أن تفعل ذلك). في تويتر، "ليس هناك يوم يمر دون تشغيل التجربة" - نائب رئيس AlexRoetter الهندسة قال. تم متجذرة إختبار أ / B في منطقتنا DNA وتطوير المنتجات دورات.

القيام A / B اختبار الإجراء هو الوضع الطبيعي: جمع عينات - > bucket- التوزيع > بدء معالجة - > القياسات - > تحليل مقارن . أصوات بسيطة؟ على العكس من ذلك، وأعتقد أن اختبار A / B هو الأكثر الاستخفاف وفي أشد الحاجة إلى تحليل المهارات. هذه المهارات لا يمكن تعلمها في المدرسة. لتوضيح وجهة نظري، دعونا نلقي نظرة على بعض من المشاكل العملية التي يمكن مواجهتها وفوق خمس خطوات:

  • جمع عينة - كم نحن بحاجة لعينة؟ كان كل دلو كيف العديد من المستخدمين؟ كيف يمكننا التأكد من أن تجارب مقنعة؟

  • توزيع دلو - من يستطيع المشاركة في التجربة؟ من أين تبدأ كود وضع دلو وبدء عرض النتائج المعالجة؟ ودلو وضع يؤدي إلى التخفيف من ما هي البيانات (على سبيل المثال، على الرغم من أن بعض المستخدمين التمتع كانت وظائف إضافية لم يتم العثور على)؟

  • العلاج بداية - هل هناك وتحاول الفرق الأخرى أيضا إلى التطبيق القبض في نفس "إقليم"؟ كيفية حل هذه التجربة الصراع؟ وكيفية التأكد من أن البيانات ليست ملوثة؟

  • نتائج القياس - ما الافتراض التجارب؟ ما هي التجربة معايير النجاح؟ ويمكن تتبع ذلك؟ وكيف لتتبع؟ يتعين علينا القيام به تسجيل إضافي ذلك؟

  • تحليل مقارن - لنفترض نجد المستخدمين المسجلين باستخدام "#" في زيادة كبيرة في وتيرة، وهو الضوضاء المعلومات سبب ذلك؟ كيف يمكننا تحديد النتائج ذات دلالة إحصائية؟ حتى إذا كان هناك دلالة إحصائية، وأنه له أهمية حقيقية؟

لحل هذه المشاكل، وكان بارعا في مجال الإحصاء. حتى إذا كنت صارمة جدا في تصميم التجربة، عندما سمح بول الآخرين السحب. قد يميل مدير المشروع إلى قبل الأوان قراءة البيانات أو مجرد اختيار النتيجة المرجوة (وهذا هو الطبيعة البشرية). قد ينسى المهندسين على المعلومات الخاصة بتسجيل المستخدمة لحساب معايير النجاح. ويمكن أيضا تجربة كود هي أيضا خاطئة، مما أدى إلى تشكيل تحيز غير مقصود.

كعالم البيانات، يجب أن يكون "من الصعب إرضاءه" فريق إدارة صارمة. أخطاء التصميم التجريبية بسبب الوقت الضائع لا تعوض. مما زاد الطين بلة، قرار خاطئ بناء على بيانات خاطئة أكثر تدميرا من أي شيء.

المهارات المستخدمة:

  • فرضية الاختبار: اختبار إحصائي، P، ذات دلالة إحصائية، القوة الإحصائية، حجم التأثير، والاختبار متعددة

  • مخاطر التجربة: تأثير تأخر، وفحص المعياري، التخفيف ودلو البيانات غير طبيعية

4. النماذج التنبؤية والتعلم الآلي

تويتر في العمل، أول مشروع بلدي كبير في زيادة مجموعة المنتجات الحالية من القواعد إعلام بريد التعب، بحيث يمكن للمستخدمين الحصول على أقل البريد المزعج. على الرغم من أن هذا هو تماما طويل القامة، ولكننا نعرف أيضا أن دفع البريد الإلكتروني هو الإبقاء على أكبر مستخدم السحر (فعلنا وقد اختتمت هذه التجربة)، وبالتالي فإن الحل يكمن في تحقيق توازن بين الاثنين.

بعد فهم هذه النقطة الحرجة، قررت بسرعة للتركيز على تطوير رسالة تشغيلها. يحدث التفاعل الوحيد، فإن رسالة تصل إلى صندوق البريد الوارد الخاص بالمستخدم. كما تطمح والعلماء الشباب والبيانات مصممة لإثبات قيمتها، وأنا قررت إنشاء نماذج التعلم آلة فريدة من نوعها للتنبؤ المستخدم الإلكتروني من خلال النقر معدل. I الانفجار، مع خنزير جمعت الكثير من الميزات على مستوى المستخدم، وإنشاء نموذج غابة عشوائية للتنبؤ النقر البريد. فكرتي الأساسية هي أنه إذا كان المستخدم بالنقر فوق وقتا طويلا للحفاظ على معدل منخفض جدا، ثم يمكننا أن نتأكد من فنغ تينغ هذه الرسالة.

ولكن هناك مشكلة - تتم جميع المهام المذكورة أعلاه على الكمبيوتر مع اللغة R نفسي. على الرغم من أن الناس يقدرون عملي، لكنهم لا يستطيعون استخدام طراز بي. لأن بلدي النتائج لم تجاريا بعد، والبنية التحتية لا يمكن أن يكون طراز بي متوافقة. ما هو الدرس المؤلم!

وبعد ذلك بعام، وكان لي فرصة جيدة جنبا إلى جنب مع اثنين آخرين جزءا النمو العلماء بيانات من نموذج التنبؤ إنشاء زبد. لأنه قبل إنشاء البيانات التي تراكمت لديها خبرة في خط الانابيب، وهذه المرة وجدت أن إنشاء آلة خط أنابيب التعلم هو في الواقع كثيرا نفسها - يجب أن يكون مرحلة التدريب، ونموذج يمكن أن تكون خارج خط تحديثها بشكل دوري من قبل بيثون، ويجب أن توقع وصلات، يكون لدى المستخدمين لدمج ميزات يوميا ، دعونا تظهر التنبؤ قبضة لضرب كل درجة زبد المستخدم.

قضينا بضعة أسابيع لإنشاء خط أنابيب لوضع اللمسات الأخيرة لها تأثير التنبؤي جيد، وتطبيقها على Vertica من النتيجة، HDFS ومانهاتن (تويتر الخاصة المحلات التجارية الهامة). منذ نموذجنا يسمح المحللين، هم أكثر عرضة ليسجل العلماء البيانات والخدمات الهندسية، ولا شك في الدعاية والترويج لاستخدام نموذجنا. وهذا هو ما تعلمته على إنشاء النموذج الصناعي من الدرس الأكثر أهمية.

لقد ناقشت الآن إنشاء عمدا عدم ذكر الخطوات الأخرى اللازمة لنماذج تعلم آلة - تحديد المشاكل، وتحديد التسمية، بيانات التدريب جمع وفحص مهندس، وبناء نموذج أولي والتحقق الموضوعي. وهذه بطبيعة الحال مهم جدا، لكني أشعر أن هذه المعرفة قد درست بدقة جدا، وحول هذه الموضوعات، وهناك العديد من النصائح الجيدة (

أعتقد أن معظم العلماء المتميزين من البيانات، ولا سيما العلماء بيانات فئة A لديهم مشكلة عكس ذلك. وهم يعرفون كيفية القيام بذلك، ولكن غير متأكد من كيفية تطبيق هذه النماذج على النظام البيئي. اقتراحي هو أكثر من تبادل العلماء والبيانات الفئة B لديه خبرة واسعة في هذا المجال، من أجل العثور على المهارات التي يحتاجونها لتحقيق انفراجة، ومهارات شحذ. وبالتالي فإن الوقت هو مناسبة ناضجة، يمكنك الذهاب على المشروع. اسمحوا لي أن أقتبس من الكلمات التالية لتلخيص هذا القسم:

"تعلم آلة ليست يعادل النصي لغة R يقوم على الرياضيات تعلم الآلة، والترميز للتعبير، ثم عليك أن تكون تجميعهم في مهندس البرمجيات، وتعلم لكتابة التعليمات البرمجية للقراءة يمكن استخدامها مرارا وتكرارا: إن التعليمات البرمجية يكون الآخر يقرأ الناس مرارا وتكرارا، وأكثر بكثير من الخاصة بك، لذلك لتعلم القراءة الآخرين بطريقة لكتابة رمز. " --Ian وونغ، من محاضرة ضيفه في فئة العلوم البيانات كولومبيا.

المهارات المستخدمة:

  • التعرف على الأنماط: تحديد هذه المشاكل يمكن حلها عن طريق تقنيات النمذجة

  • جميع النمذجة والجهاز الأساسي التعلم: تحليل استكشافية البيانات، وميزات إنشاء، واختيار ميزة، واختيار النموذج، / التحقق / اختبار وتقييم نماذج التدريب

  • المرحلة الانتقالية: كل الأشياء المذكورة أعلاه ذكرت من خط أنابيب البيانات. تعيين قيمة الانتاج الخاص بك، بحيث يمكن للآخرين الوصول وغيرها من الخدمات.

بعض المتابعة التفكير ......

لتصبح عالما البيانات هو مثير. ووجد الباحثون أن نتيجة معينة هي فكرة لا مثيل لها في الفرح. خطوة بخطوة من الصفر لإنشاء أنبوب البيانات أو سوف نماذج التعلم آلة تجعل الناس الحصول على الارتياح العميق. في اختبار A / B، هناك متعة "اللعب الله". بالطبع، هذا الشائكة الطريق، من الصعب، كي لا نقول من السهل جدا. ومع ذلك، هناك طريقة، وتلك المثل العليا المتحمسين والموهوبين تكون قادرة على أورانج جزيرة والإقصاء تشيو هوي فانغ.

الرابط الأصلي:

https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6

حصريا | AI معززة إدارة المباني فعالة

وفتح؟ بعد أن انفجر المنام مع 60 امرأة جميلة والركل يوفنتوس 02/10 حو أخذ أربعة على التوالي!

هايو: الافتراضية التحكم عن بعد العالمي، يمكن أن تجعل المنزل الذكي لفتة للاستماع لأوامرك

= دوري أبطال أوروبا بقعة على وجهها! C لو نسخ احتفال سيمون ومانشستر يونايتد خائن بائسة جدا!

حصريا | بيانات حركة صحة الشعوب من أول صيني يفوز تجربة منافسات الفرق للسهم (عنوان مشترك سباق نموذج مفصل

سوف جرذ الأرض خنق التوقعات الموسمية حقا؟ انظر "يوم جرذ الأرض" في الأصل

[قسم المالية] أسبوع واحد: 5 سهم المسؤول عن التمويل، حرب وشيكة

انتقلت! C لوه إنشاء عودة معجزة من الليل، جورجينا هامش الدموع!

فرشاة الثناء، انتقل إلى السجن؟ إيطاليا الحكم من العالم أول شبكة من الاستعراضات وهمية حالة

عمالقة التكنولوجيا 2016: يبدو أن سامسونج هي حقا أسوأ

الإصلاح قصة رائد 21: "90 عاما من جياو يولو" هونغ "

حصريا | مجال البيانات الكبيرة أدلة الذكاء الاصطناعي من الصاعد للتأهل لأعلى اللاعبين