الجاف | "لقائي الاول العلماء تجربة التدريب البيانات."

المعلم أندرو نغ والتلميذ

تقنية مراجعة AI حسب: يمكن وصف "العلماء بيانات" كموقف شعبية في السنوات الأخيرة، والكثير من تعلم الرياضيات والمعلومات وطلبة المهنية ذات الصلة بالحاسوب يتوقون للتعبير عن ذلك. درس Admond لي والفيزياء، وكان قد شارك في السويدية CERN (CERN) مخيم البدني، والآن وقد شرعت في مسار من العلماء البيانات. ومؤخرا الكاتب يشير له العلماء بيانات تجربة التدريب، يلي AI تقنية مراجعة تجميعها و.

Admond لي:

في هذه اللحظة، ما أقوم به في اليوم قبل الأخير من العلماء بيانات المتدرب في الكم الاختراع. في هذه اللحظة، جلست أمام شاشة الكمبيوتر المحمول، يعود للتفكير في عملية التعلم في الأشهر القليلة الماضية، من الصعب جدا ولكن كامل من الشعور بالإنجاز.

هناك دائما نهاية الرحلة، ولكن المشكلة إلى الأبد

---- ماذا تعلمت؟ هل هذا ما تريد؟

كشخص الذين شاركوا في المادية، يرجى أن يغفر لي دائما طرح الأسئلة المناسبة من أجل الإجابة بشكل صحيح إلى البحث عن الحقيقة.

في الواقع، كعالم البيانات، طرح الأسئلة الصحيحة المهم بلا شك (سيتم شرحه لاحقا ...)

تحت مقدمة عامة لكم، وتنقسم هذه المقالة إلى ثلاثة أجزاء (قبل الممارسة، أثناء ممارسة وبعد ممارسة) ليحكي قصة من واقع خبرتي التدريب الرحلة. يمكن اعتمادا على مرحلة التعلم الحالية القفز إلى أي قسم. واسمحوا تبدأ الرحلة!

شكرا لك! عند أول مقالة لي نشرت في المتوسطة، مشاعري ومتأججة. لأنه كان الدعم القوي من عدد كبير جدا من الناس، بسبب خصائصها وحتى نشرت في towardsdatascience.com. أصبح حقا حافزي على الاستمرار في تبادل الخبرات والتعلم التي أجريتها مع عدد أكبر من الناس، لأنه ببساطة تعلم متعة مساعدة الآخرين وتصبح أفضل!

قبل الممارسة

ما زلت أتذكر بوضوح، في نوفمبر 2017 بعد انتهاء امتحاناتي النهائية، بدأت قراءة كتاب "دخول التطبيقية اللغة -R الإحصائي تعلم الآلة". وهذا هو أول تجربة لي للتعلم وإحصاءات الجهاز للمستوى الأساسي الأول.

وبمجرد أن يتقن هذه المفاهيم، لقد بدأت لمعرفة مسار الشعبية التي أندرو نغ يدرس دروسا في مو "تعلم الآلة" بالطبع. بداية بالطبع ليس الجميع يتوقع من السهل جدا، ولكن كان أندرو نغ قادرة انتزاع اهتمام الجميع ل، على الرغم من أن العديد من المفاهيم معقدة، لكنه يمكن أن تكون مبسطة لتسهيل فهم الهضم، يبدو أن لا أحد يستطيع أن يفعل ذلك. أعتقد أن هذا ما أنا حقا تعلمت لماذا تعلم الآلة. أراهن عليك أن تعرف أن هذه محاولة شعبية المفردات تعلم الآلة ليست صعبة كما يبدو.

في نفس الوقت، كما أنني تعلمت مجال التركيز ---- دراسة متعمقة آخر من الذكاء الاصطناعي. يذكر أن هذه اللغة على ما يبدو الخارجية ما معناها، انظر شرح الشبكات العصبية والشبكات العصبية يمكن أن تستخدم لحساب أي وظيفة. حسنا، بعد القراءة الموصى بها إذا كانت المادة، أيضا مثلي، تحتاج دائما نوعا من التصور لفهم كيفية عمل الأشياء، ثم الرجاء زيارة اضغط على "اللعب" زر، يستريح، والاسترخاء، ونلاحظ كيف الشبكات العصبية تستخدم لتصنيف والانحدار. بارد، أليس كذلك؟

كل من القراءة والتعلم وظائف على استعداد لتدريب عملي في ديسمبر كانون الاول عام 2017.

خلال فترة التدريب

تقدمت بطلب للحصول الكم الاختراع وتلتزم الشركة باستخدام جناح متكامل لها من تطبيقات التنقل والخدمات اللوجستية والاستخبارات منصة تحليل توفير التنقل للمستهلكين والشركات والحكومات. وكنت أول من الانضمام إلى فريق R & D وتحليل المتدرب عالم البيانات.

في الأيام القليلة المقبلة، والتقيت العديد من زملائي، وأنا تعلمت كل أنواع من المصطلحات، والمشروع المثير مستمر. التدريب بلدي الشيء المفضل هو الثقة والحرية، كمتدرب أنا حرة في اختيار المشاريع التي أهتم بها ويذهب كل خارجا!

لدهشتي، وأدركت أنني كنت أحد الذين بدأوا هذا المشروع، لأن أحدا لم يفعل ذلك قط من قبل. حين لم يكن أحد قد فعلت شيئا، تحتاج إلى دراسة، وهذا هو المكان وأنا ممتن، على الرغم من عدم اليقين والصعوبات مع. لماذا؟ فقط لأن لدي الفرصة لتجربة العملية برمتها من البيانات الصفر العمل العلمي (إن لم يكن كلها).

واسمحوا لي أن قائمة اشهده هذه سير العمل، لأنها بناء العلوم البيانات الخاصة بي. أنا آمل أن تجد أنه في يوم من الأيام مفيد.

1. فهم القضايا التجارية

المشاريع المختارة هي على المدى القصير توقعات وقت السفر السريع. يبدو بسيطا جدا، ولكن كما قلت، طرح الأسئلة المناسبة للعلماء البيانات مهم جدا. قبل الانتهاء من المشروع، أثارت الكثير من الأسئلة لفهم حقا القضايا التجارية الحقيقية، بما في ذلك الهدف النهائي من مصادر البيانات، ومشروع (حتى بعد أن ترك) وهلم جرا. أساسا، وهدفنا هو التنبؤ بالمستقبل وبضع دقائق تقدير أكثر دقة من خط الأساس الحالي في سنغافورة وقت السفر السريع.

2. جمع البيانات

مستوحاة من المشروع الجديد، بدأت في جمع البيانات (المشي أساسا حول في المكتب، وطرح الأسئلة، ومصادر البيانات) من قاعدة البيانات والزملاء هناك. جمع البيانات الصحيحة مماثلة لاستخراج البيانات من مجموعة متنوعة من مختلف البيانات بيانات الموقع تجهيزها ثم الظروف. وهذا أمر مهم جدا، فإنه يمكن أن يؤثر على دقة النموذج الذي بني في وقت متأخر.

3. تجهيزها البيانات

العالم الحقيقي هو قذر. لا يمكننا أن نتوقع هذا النوع من تنسيق البيانات كما Kaggle تقديم نظيفة والضجيج لا. ولذلك، البيانات وتجهيزها (بعضها الآخر قد يطلق عليه نوع من البيانات أو تنظيف) مهم جدا، لذلك اضطررت إلى التأكيد على أهمية ذلك في بعض الأحيان. وهي أكثر مرحلة مهمة، لأنها يمكن أن تمثل 40 إلى 70 من الوقت في جميع أنحاء سير العمل، فقط لتنظيف البيانات للنموذج الذي تستخدمه.

أنا مثل البيانات العلم هو شيء واحد يجب أن تكون صادقا مع نفسك. عندما كنت لا تعرف ما كنت لا تعرف متى سوف تبدأ في الشعور كافيا البيانات قبل نظيفة وجاهزة للاستخدام في النموذج الخاص بك، ثم هناك مخاطر استخدام بيانات خاطئة في محاولة لتحديد النموذج الصحيح.

وبعبارة أخرى، والتشكيك نفسها باستمرار، مع العلم حقول البيانات لديك ما إذا كان من الصحيح من الناحية الفنية، وبيانات تفتيش دقيق صارم والتأكد من تركيز أي ناشز آخرين في البيانات بالكامل، في عداد المفقودين أو غير متناسقة البيانات.

مرة واحدة، وأنا تغذية نموذج بيانات خاطئة، ولكن بسبب خطأ بسيط في خطوة تجهيزها، واحرص بشكل خاص بعد ارتكاب هذا الخطأ.

4. نموذج

بعد الدراسة، أقترح الانحدار الدعم الموجه (SVR)، متعدد الطبقات المستقبلات (MLP)، قصيرة وطويلة شبكة الذاكرة على المدى (LSTM) والشبكة العصبية مساحة الدولة (SSNN) وأربعة النماذج المستخدمة في مشروعي. لا توسع في التفاصيل هنا، يمكنك أن تجد شرح مفصل من كل نموذج البيانات في العديد من المواقع.

لشخص مثلي لا تزال التعلم الدورات والكتب المدرسية مو رأي العملاء، من الصفر لبناء مجموعة متنوعة من نماذج مختلفة هي طريق التعلم حاد. لحسن الحظ، Scikit تعلم وKeras (باستخدام Tensorflow كما في نهاية الظهر) يكون واحدا من مخلصي، لأنها تجعل من السهل بالنسبة لك أن تتعلم بسرعة ويتم تنفيذ نموذج أولي في بيثون. وبالإضافة إلى ذلك، تعلمت أيضا كيفية تحسين المعلمات السوبر موديل واستخدام مجموعة متنوعة من التقنيات لصقل كل نموذج.

5. تقييم نموذج

لتقييم أداء كل نموذج، أنا أساسا استخدام بعض التدابير التالية:

1. الخطأ المطلق يعني (MAE)

2. الخطأ مربع يعني (MSE)

3. معامل التحديد (R2)

في هذه المرحلة، فإن الخطوة المذكورة أعلاه-3-5 يتكرر (تبادل) حتى دقة تقدير على نموذج الأساس يمكن تحديد أفضل نموذج.

بعد الممارسة

آه، والممارسة أثبتت عززت شغفي البيانات العلمية، وأنا ممتن جدا لتدريب عملي، فإنه يجلب بعض الزخم للعمل مستقبلي. في مرحلة البحث والتطوير، وتتطلب مهارات الاتصال الحديث لمختلف أصحاب المصلحة، والفضول والحماس، الخ، وذلك باستخدام البيانات لحل مشاكل الأعمال قد زادت اهتمامي في هذا المجال.

صناعة العلوم البيانات لا تزال صغيرة جدا، انها الوصف الوظيفي لدينا لمثل هذه الباحثين عن عمل قد يبدو غير واضحة. لا يملك كل المهارات اللازمة أمر طبيعي جدا، لأن معظم من الوصف الوظيفي والمثالية لأفضل توقعاتهم.

عندما تكون في شك، فقط من الطبقات مو والكتب والمواد (أنا لا تزال تفعل) تعلم المبادئ الأساسية، ومن ثم تطبيق ما تعلمته من خلال المشاريع الشخصية الخاصة بك أو التدريب. كن صبورا. رحلة التعلم يستغرق وقتا طويلا. المذاق لبدء رحلة تعلم الآن. وذلك لأن ...

هناك دائما نهاية الرحلة، ولكن المشكلة إلى الأبد

---- ماذا تعلمت؟ هل هذا ما تريد؟

أشكركم على القراءة. توضح هذه المقالة بإيجاز بعض العمليات فضلا عن رحلتي للتعلم عن البيانات العلمية. إذا وجدت هذا مفيدا، يمكنك مشاركة بحرية للآخرين، أو يوصي هذا المقال! =) إذا كان لديك أي أسئلة، وأنا مجرد إضافة، دعونا دردشة أو زيارة موقع شخصي لي ( لمزيد من المعلومات على LinkedIn.

عبر towardsdatascience.com، AI تقنية مراجعة الانتهاء مترجم.

نعم، نحن تجنيد الناس، لمعرفة؟

BAT العليا خوارزمية مهندس ودورات التطوير الحصرية

معظم مقربة من الحياة والعمل من المرح التطبيق العملي للمشروع

إدارة الصف مساعد الطالب المهنية Q & A

تطبيق معارفهم لاتخاذ العرض، وهي استكمال يوصي التوظيف

انقر لقراءة رمز المسح أو النص لمعرفة!

(^ 0 ^) تقاسم ترحيب، أراك غدا!

صور الجهود "Onmyouji" وراء، عام واحد فقط من تقدير العمل هناك 1.8 مليار؟

الجمعية | قراءة ورقة بابا ICLR: الشبكة العصبية على أساس دوري طريقة الاتجاه بالتناوب من تكميم متعددة بت

من "الحي الصيني هولمز 2"، استشرافا للمستقبل، الفيلم لا يمكن التفكير في معدل ممتاز تشن سي تشنغ عالية جدا!

من من الحق، لا يخاف من ذلك على أي حال

كسر 1.7 مليار! من "العمل ميكونغ" إلى "عمل البحر الأحمر" هذا الشخص في موقف!

2017 معرض فرانكفورت للسيارات: أنا الرؤية حيوية

وليس ذلك بكثير كيف الله؟ تكنولوجيا الأرز الصينية، بيتا: أنا آسف، لقد الخروج

الجاف | UT أوستن الدكتوراه شين يان ياو: بناء على عمق الاعتراف كيان اسمه التعلم النشط

يقود الموضة والصحة: LOGO فيفو PHONE tushang

وانغ باو تشيانغ مع "الحي الصيني هولمز 2" إلى الممثل خامس أعلى الاطلاق، نلقي نظرة على رأس خمسة من آخر!

50 مليار لبناء "هنغديان" الجديد "سور الصين العظيم" والإعانات الأخرى ملصقات، لين جيان والد ذلك الخندق؟

نسخة الأحداث من "X- الرجال"؟ "قصة غريبة" المعركة التي تبدو جيدة!