حصريا | يأخذك قراءة ملامح مادة واحدة يعمل!

الكاتب: Bhalchandra Madhekar

الترجمة: تشن يان

تم التعليق بواسطة: تشانغ لينغ

هذه المقالة حول 1800 كلمة وأوصت القراءة 7 دقائق.

توضح هذه المقالة العمليات القياسية عبر الصناعة التقليدية القائمة على التعلم آلة الأنابيب القياسية، وصناعة التعدين بيانات نموذج عملية القياسية.

بغض النظر عن حجمها وحجم البيانات قد تصبح الأصول على مستوى المؤسسات والشركات والمنظمات الحديثة. أي نظام ذكي يحتاج إلى تعتمد على البيانات، مهما كانت معقدة. كل الأنظمة الذكية الأساسية، واحد أو أكثر الخوارزميات استنادا إلى بعض البيانات، مثل آلة التعلم، والتعلم العميق أو الأساليب الإحصائية التي تستخدم البيانات لتوليد المعرفة، وتقديم نظرة ذكية على مر الزمن التعلم.

الخوارزمية نفسها هي عامة جدا، ولكن لا يمكن ان تلعب دورا فعالا في البيانات الخام العام. لذلك، استخراج ميزات مفيدة من البيانات الخام سوف نكون قادرين على فهم واستخدام البيانات.

أي بيانات ذكية إلى حد كبير بحلول نهاية نظرة ثاقبة مكونات نظام الأنابيب:

  • أولا للحصول على البيانات الأصلية .
  • ثم كومبيوتر التقنيات، من هذه البيانات الاستحواذ، وتجهيز، واستخراج سمات وخصائص مفيدة .
  • وأخيرا، وعادة ما تستخدم النماذج الإحصائية أو غيرها من نماذج التعلم الآلي التقنية هذه الخصائص النمذجة .

إذا لزم الأمر، كما أننا بحاجة إلى نشر نموذج يجب حلها وفقا لهذه القضية في متناول اليد لاستخدامها في المستقبل.

بعد الحصول على البيانات الخام، التي بنيت مباشرة على الجزء العلوي من نموذج البيانات غير متهور، لأننا لا نستطيع الحصول على النتائج المرجوة أو الأداء من البيانات الخام العادية، ولكن الخوارزمية في حد ذاته لا استخراج ميزات ذات مغزى تلقائيا. في الشكل أعلاه جوانب أشار إعداد البيانات، بعد البيانات الخام التنظيف الضروري، قبل التحليل، فإنه يمكن استخدام أساليب مختلفة لاستخراج سمات أو خصائص ذات مغزى. مشروع ميزة هو فن وعلم، وهذا هو السبب العلماء قبل نمذجة البيانات عادة ما تكون 70 من الوقت الذي يقضيه في إعداد البيانات.

 "يتميز هذا المشروع من قبل عملية تحويل البيانات الخام من الميزات، هذه الميزات يمكن وصف أفضل للمشاكل المحتملة لنماذج تنبؤية لتحسين دقة النموذج وأية بيانات."

-Jason الدكتور براونلي

وهذا يعطينا نظرة ثاقبة لماذا خصائص المشروع هو سمة من سمات البيانات في عملية إدخال نموذج التعلم الآلي، وبعبارة أخرى، ذات جودة عالية تتميز مساعدة في تحسين الأداء العام ودقة النموذج. يرتبط المشكلة الأساسية مع ميزة إلى حد كبير.

لذلك، حتى لو المهام تعلم الآلة في سيناريوهات مختلفة قد تكون هي نفسها، مثل أحداث الأشياء تصنف على أنها سلوك طبيعي وغير طبيعي، تصنيف العاطفي أو العملاء، ولكن كل مشهد ملامح المستخرجة ستكون مختلفة جدا.

ما هي الخصائص؟

عادة ما تتميز استنادا إلى البيانات الخام يمثل معين، بل هو خاصية يمكن قياسها منفصلة، والتي تمثل الأعمدة مجموعة البيانات. لمجموعة البيانات ثنائية الأبعاد العام، تمثل كل ملاحظة من قبل الخط، ويتم تمثيل كل من ميزة، على كل ملاحظة وجود قيمة محددة.

وهكذا، والشيء نفسه كما في المثال الشكل أعلاه، يمثل كل صف واحد متجه ميزة عادة، كل من الميزات التي لوحظت في كل شكل مجموعة من مصفوفة ميزة ثنائية الأبعاد، كما يشار إلى مجموعة الميزة. هذا هو مماثل لالبيانات المستخدمة لتمثيل البيانات الإطار أو جدول بيانات ثنائية الأبعاد. خوارزميات تعلم الآلة تعمل عادة مع هذه المصفوفة العددية أو الموترة، وبالتالي سمة من سمات معظم التقنيات الهندسية وتحويل البيانات الخام إلى بعض التعبير العددي، من أجل فهم الخوارزمية.

واستنادا إلى بيانات توصيف وضع يمكن تقسيمها إلى فئتين:

  • الخصائص الكامنة في النص الأصلي ويتم الحصول عليه مباشرة من مجموعة البيانات، أي تلاعب بيانات إضافية.
  • خصائص مستمدة حصلت عموما من الميزات الهندسية، يتم استخراج من البيانات السمة ميزة موجودة.

لنأخذ مثالا بسيطا: التاريخ الحالي بطرح تاريخ النظام، يمكنك إنشاء جديد "تلبية الطلبات التاريخ" من أجل يحتوي على بيانات "تاريخ الطلب" مجموعة. من ناحية أخرى، على عمق معين في خوارزمية التعلم، وعادة ما تتميز بسيطة نسبيا، لأن خوارزمية نفسها داخليا بيانات التحويل. يتطلب هذا الأسلوب فإن كمية البيانات تكون كبيرة نسبيا، وتكلفة التضحية التفسيرية. ومع ذلك، في حالات معالجة الصور أو استخدام معالجة اللغة الطبيعية، مثل هذا الحل الوسط هو في كثير من الأحيان بالاهتمام.

بالنسبة لمعظم حالات الاستخدام الأخرى التي تواجه الشركة، مثل التحليلات التنبؤية، ومشروع تنسيق الميزة لتحويل البيانات إلى احتياجات التعلم الجهاز. تحديد الميزات والأداء حاسمة لنموذج توضيحي. إذا لم يكن هناك عمل ميزة، والشركات الكبيرة اليوم لن تكون قادرة على نشر نظام التعلم الآلات الدقيقة.

ميزات المشروع

وعادة ما يتم وصف البيانات الرقمية في شكل القيم العددية لاحظ، أو سجل البيانات المقاسة. هنا، نحن نتحدث عن البيانات العددية تشير إلى البيانات المستمرة، بدلا من البيانات المعتادة المستخدمة لتمثيل البيانات تصنيف منفصلة. قد يكون قيمة البيانات العددية، حيث قد تمثل كل قيمة أو كيان ناقلات ميزة معينة. صحيح رقمي المستمر والعائمة بيانات نقطة هي الأكثر شيوعا والمستخدمة على نطاق واسع نوع من البيانات الرقمية.

بل قد تكون البيانات الرقمية مدخلا مباشرا نماذج التعلم الآلي، وقبل بناء هذا النموذج، لا تزال بحاجة إلى تصميم الميزات المرتبطة المشهد، وقضايا ومجالات . وبالتالي، فإن الطلب على الخصائص الهندسية لا تزال موجودة.

العنوان الأصلي: ميزة الهندسة

الرابط الأصلي: الشبكي: //dzone.com/articles/feature-engineering-1

مقدمة المترجم

تشن يان، جامعة جياوتونغ بكين، الاتصالات والدراسات العليا هندسة التحكم، ودرجة الماجستير في الهندسة، وشغل منصب والبرمجيات ونظم المهندس سور الصين العظيم الحاسوب، داتانغ الدقيقة مهندس، وترجم الحالي متفوقة بكين والتكنولوجيا المحدودة تشارك حاليا في تدريس تشغيل نظام الترجمة ذكية والصيانة، والتي تراكمت لديها بعض الخبرة في دراسة متعمقة من الذكاء الاصطناعي وشروط معالجة اللغة الطبيعية (NLP). الترجمة وقت الفراغ خلق المفضلة، وتشمل أعمال الترجمة: IEC-ISO 7816، ومشاريع النفط العراقية، والضرائب الجديدة البيان وغيرها، حيث تم نشر الترجمة الإنجليزية العمل "نيو الضرائب البيان" في GLOBAL TIMES. يمكن ترجمة تدخر الوقت للانضمام مجموعة من المتطوعين THU إرسال منصة البيانات، ونأمل أن حصة مع تبادل التقدم المشترك.

يرجى تحديد مستنسخة بيانات الإرسال THU

أفراد العمليات: ران هيل

حصرية | الصين والولايات المتحدة خلفية حرب تجارية، وجوجل AIvs بايدو AI إرم مجموعة

عندما سجل الاولمبية الصينية 4 أهداف، مساعد التدريس الذي أشار إلى أن الفلبين هذه الخطوة واحدة: حقا يائسة

الجاف | جامعة نيويورك، وتشن شي: التطور الفني AlphaGo صفر حتمية (مرفق PPT)

لعب خلال اليوم أكثر من 600 مليون "غزاة يان شى" لرؤية النمط موقع الفيديو (مع رمز)

GIF- الاولمبية الصينية لعب مجنون! 9 دقائق ازدهار حتى ثلاثة أهداف، الفلبين حظة ورطتها

جرد | 2018 تكنولوجيا الذكاء الاصطناعي اختراق العالمية TOP10 (تقرير)

ديزني معا! اثنين من المساعدات الخارجية في الدوري الممتاز السابقة، وجهت تيانجين الصداقة من ألمانيا!

"ملك الكون" جولدمان تقاطع في التاريخ، لدينا الآلي آلة شامل

من صفر إلى | المطلوب 14 AI إدخال دفتر قائمة القراءة (مرفق رابط PDF)

الشعب الصيني فقط سوف تمرير وو لي أيضا 32 سنة، وكان وطني الماضي مايسترو خط الوسط لكرة القدم؟

بيع 1 سنة 100،000! "واتهم حقيبة" بعيدا فاز 20 مليون $ الجولة B التمويل

توعية المواطنين النار شهر تجربة حية "النجدة" هو أقصر في ثواني فقط 19