حصريا | تفسير بيانات الأداء توليف النص في تقنيات التعلم الآلي

الكاتب: اريك لو فورت

الترجمة: جيانغ يو تشانغ

التقييم من قبل: لو Miaomiao

هذه المقالة حول 3200 كلمة، القراءة الموصى بها 12 دقيقة.

هذه المقالة سوف أعرض من خلال نموذجين التوزيع، وتطبيقها على عملية البيانات التوليف، لتحليل بيانات الأداء في تركيب تقنيات التعلم الآلي المختلفة.

فكرة

مقارنة لعدد محدود من البيانات "العضوية"، وبتحليل ما إذا كان تقييم البيانات الاصطناعية لتحقيق التحسينات.

حافز

كنت متشككا حول مدى فعالية البيانات الاصطناعية - نموذج التنبؤ يمكن أن يكون إلا جيدة مثل مجموعة البيانات المستخدمة للبيانات التدريب. هذه الشكوك مضاءة أفكاري الداخلية، وهذا هو لدراسة هذه البديهيات من خلال التحقيق الموضوعي.

تحتاج إلى المعرفة

وينبغي أن يكون قراء هذا المقال في المستوى المتوسط من فهم نظرية التعلم الآلي، ويجب أن تكون على دراية الموضوعات التالية من أجل أن نفهم تماما هذا المقال:

  • علم الاحصاء الأساسية، مثل "الانحراف المعياري" معنى كلمة
  • الشبكات العصبية مألوفة، SVM وشجرة القرارات (إذا كنت معتادا على واحد أو اثنين فقط منهم، قد يكون على الخط)
  • تعلم أساسيات المصطلحات تعلم الآلة، مثل وسيلة "للتدريب / اختبار / مجموعة التحقق من صحة"

البيانات الأساسية الاصطناعية

اثنين من طريقة شائعة لتوليد البيانات توليفها هو:

  • قيم تآمر من بعض مجموعة التوزيع أو التوزيع
  • النمذجة نموذج قائم على وكيل

في هذه الدراسة، وسوف ندرس الفئة الأولى. من أجل ترسيخ هذه الفكرة، دعونا تبدأ مع مثال على ذلك!

تخيل، في حالة النظر فقط حجم والوزن، وكنت في محاولة لتحديد حيوان هو الفئران، الضفدع أو حمامة. ولكن لديك مجموعة واحدة فقط البيانات، واثنين فقط من كل البيانات المأخوذة من الحيوانات. ذلك لسوء الحظ، لا يمكننا تدريب نموذجا جيدا مع هذه مجموعة بيانات صغير!

الجواب على هذا السؤال هو لتجميع المزيد من البيانات لتقدير توزيع هذه الميزات. بداية دعونا مع مثال على ضفدع

الرجوع إلى هذه المقالة ويكيبيديا:

https://en.wikipedia.org/wiki/Common_frog، معتبرا الضفادع فقط الكبار.

الميزة الأولى، أي متوسط طولها (7.5CM 1.5CM )، التي يمكن استخلاصها من التوزيع الطبيعي هو يتم إنشاء متوسط قيمة وقيمة الانحراف المعياري من 7،5-1،5. ويمكن استخدام تقنيات مشابهة للتنبؤ وزنهم. ومع ذلك، لدينا حيازة المعلومات لا تشمل مجموعة نموذجية من وزن الجسم، لا يعرفون سوى أن ما معدله 22.7 غرام. والفكرة هي أن استخدام 10 (2.27g) من أي انحراف معياري. للأسف، هذه ليست سوى نتيجة من محض تكهنات، لذلك قد لا تكون دقيقة.

توافر، وبناء على هذه الميزات للتمييز بين الأنواع في ضوء المعلومات المتعلقة بها ميزة سهولة، والتي قد تكون كافية لتطوير نموذج جيدة. ومع ذلك، عند ترحيل لفارق التوقيت مع المزيد من الميزات وأنظمة غير مألوفة أكثر دهاء، توليف بيانات مفيدة أكثر صعوبة.

معطيات

يستخدم هذا التحليل نفس القياس التي نوقشت أعلاه الفكرة. سنقوم إنشاء بعض مجموعات البيانات مع 10 الميزات. سوف تحتوي على مجموعة البيانات فئتين مختلفتين من تصنيف، وهو نفس عدد العينات لكل فئة.

البيانات "العضوية"

وسيكون لكل فئة تتبع التوزيع الطبيعي فيها بعض من كل ميزة. على سبيل المثال، لالسمة الأولى: متوسط قيمة العينة الأولى من فئة 1500، انحراف معياري من 360، والمتوسط من الفئة الثانية هي 1300 العينات، والانحراف المعياري من 290. ميزات المتبقية التوزيع كما يلي:

الجدول هو مكثفة جدا، ولكن يمكن تلخيصها على النحو التالي:

  • هناك أربع خصائص يكاد يكون من المستحيل التمييز بين الفئتين،
  • هناك أربع ميزات وتداخل كبير، ولكن في بعض الحالات يمكن تمييزها، و
  • هناك ميزات اثنين فقط من بعض التداخل، وعادة ما يمكن تمييزها.

وهذا يخلق مجموعتين من البيانات، مجموعة بيانات من 1000 عينة سيتم الاحتفاظ لمجموعة التحقق من صحة، وضعت بيانات عينة أخرى 1000 يمكن أن تستخدم للتدريب / اختبار.

وهذا يخلق مجموعة من البيانات، ويصبح تصنيف يكفي قوية.

تجميع البيانات

الآن الأمور بدأت للحصول على اهتمام! وتجميع المعطيات متابعة واحدة من توزيع مخصصة اثنين. الدعوة I الأولى "توزيع المسامير" . ويتميز هذا التوزيع باستخدام يسمح فقط تركيب بعض القيم المنفصلة وجود احتمال معين من كل قيمة. على سبيل المثال، إذا كان متوسط التوزيع الأصلي وانحراف معياري من 3-1، ثم ذروة (سبايك) قد تحدث في 2 (27)، 3 (46) و 4 (27).

العادة الثاني توزيع المكالمات I "توزيع الهضاب" . هذا الزي قطاع التوزيع فقط. احتمال طبيعية منصة مركز توزيع تستمد احتمال نقطة على نحو سلس. يمكنك استخدام أي عدد من المسامير أو منصة، عند إضافة أكثر من ذلك، فإن التوزيع يكون أقرب إلى وضعها الطبيعي.

لتوضيح بوضوح اثنين من توزيعات، هو موضح في الشكل (17):

(ملاحظة: لا وظيفة الذروة توزيع كثافة الاحتمال)

في هذه المشكلة، فإن عملية تجميع البيانات تصبح فرضية مهمة جدا، بل هو يفضي إلى البيانات الاصطناعية أقرب إلى البيانات "العضوية". والافتراض هو أن كل ميزة / صحيح يعني والانحراف المعياري وفئات معروفة. في الواقع، إذا كانت البيانات الاصطناعية مع هذه القيم بعيدا جدا، وسوف تؤثر تأثيرا خطيرا على دقة النموذج التدريب.

حسنا، ولكن لماذا استخدام هذه التوزيعات؟ كيف لا تعكس الواقع؟

أنا سعيد لأنك سألت هذا السؤال! في مجموعة البيانات محدودة، وكنت قد لاحظت، لفئة، وهي ميزة تحتل فقط قيمة صغيرة. تخيل هذه القيم هي:

(50،75،54،49،24،58،49،64،43،36)

أو ما اذا كنا نستطيع فرز هذا العمود:

(24،36،43،49،49،50،54،58،64،75)

لتوليد البيانات من هذه الميزة، يمكنك أن تكون تنقسم إلى ثلاثة أجزاء، والجزء الأول أن يكون الحد الأدنى 20، وسوف يكون 60 في منتصف الجزء الثاني، والجزء الثالث سيكون 20 من الحد الأقصى. ثم استخدام هذه الأجزاء الثلاثة، يمكنك حساب متوسط القيمة، والانحراف المعياري: على التوالي (30،6.0)، (50.5،4.6) و (69.5،5.5). إذا كان الانحراف المعياري منخفض جدا، مثل حوالي 10 أو أقل الموافق المتوسط، ويمكن اعتبار المتوسط حيث بلغت قيمة الذروة من هذا الجزء. خلاف ذلك، قد ينظر إليها على أنها جزء من المنصة، وهو ضعف العرض من جزء من الانحراف المعياري وقيمة متوسط كجزء من المركز.

أو بعبارة أخرى، أنهم قاموا بعمل جيد في محاكاة تجميع البيانات ناقصة.

وسوف تستخدم هذه التوزيعات خلق اثنين من 800 عينة مجموعة البيانات - باستخدام مسمار، استخدم منصة أخرى. وسوف تستخدم أربع مجموعات بيانات مختلفة لتدريب نموذج، وذلك لمقارنة جدوى من كل مجموعة البيانات:

  • ثلاثي (الكامل)  - العينات 1000 كاملة قواعد البيانات العضوية (لفهم الحد)
  • ريال مدريد (ريال)  - 20 فقط من مجموعة البيانات عينة العضوية (حالة البيانات التناظرية دون إضافة الاصطناعية)
  • ارتفاع (سبايك)  - "الحقيقي" مجموعة البيانات ارتفاع جنبا إلى جنب مجموعة البيانات (1000 عينة)
  • منصة (الهضاب)  - "الحقيقي" مجموعة البيانات مجموعة البيانات في تركيبة مع منصة (1000 عينة)

الآن الجزء المثير!

تدريب

لاختبار قوة كل مجموعة البيانات، وسوف تستخدم ثلاث تقنيات مختلفة التعلم الآلي: متعدد الطبقات المستقبلات (في MLP)، آلة الدعم الموجه (SVM) وشجرة القرارات (الأشجار القرار). للمساعدة في تدريب، وذلك بسبب ضخامة بعض من ملامح أكبر بكثير من أي ميزة أخرى، وذلك باستخدام ميزة التكبير لتوحيد البيانات. باستخدام بحث الشبكة على المعلمات تعديل النماذج، من أجل تحقيق أقصى قدر من احتمال الوصول إلى أفضل مجموعة سوبر المعلمات.

باختصار، تدربت 24 نماذج مختلفة في ثماني مجموعات البيانات المختلفة، من أجل فهم تأثير البيانات الاصطناعية على نتائج التعلم.

رمز ذات الصلة على الموقع: https: //github.com/EricLeFort/DataGen

نتيجة

بعد ساعات قليلة على ضبط معايير ويسجل قياسات فائقة الدقة، وكانت هناك بعض النتائج غير بديهية! مجموعة كاملة من النتائج التي يمكن أن تكون موجودة في الجدول التالي:

متعدد الطبقات المستقبلات (MLP)

آلة الدعم الموجه (SVM)

شجرة القرارات (الأشجار القرار)

في هذه الجداول، "سبايك 9" أو "الهضبة 9" يشير إلى عدد من توزيع واستخدام المسامير / منصة. يستخدم القيمة في الخلية المقابلة بيانات التدريب / اختبار لتدريب نموذج / اختبار، ومع دقة النهائي المصادقة مجموعة التحقق من الصحة. تذكر أيضا أن "كاملة" (الكامل) الفئة يجب أن يكون الحد الأقصى النظري من الدقة، "الحقيقي" (ريا،) الفئة هي لا يمكن أن يتحقق بيانات خط الأساس لدينا في غياب الظروف التوليف.

وهو عامل مهم هو أن (تقريبا) في كل مرة تدريب محاكمة / اختبار دقة هي أعلى بكثير من التحقق من دقة. على سبيل المثال، على الرغم من أن النتيجة MLP سبايك 5 كان 97.7، ولكن في نفس المحاكمة كانت نقطة بيانات التدريب / اختبار 100 و 99. عندما تستخدم في العالم الحقيقي، وهذا قد يؤدي إلى المبالغة في تقدير فعالية نموذج.

استكمال يمكن العثور على جيثب هذه القياسات:

https://github.com/EricLeFort/DataGen

دعونا نلقي نظرة فاحصة على هذه النتائج.

أولا، دعونا ننظر في في الاتجاهات بين النماذج (أي التعلم أنواع مجموعة البيانات الاصطناعية التكنولوجيا في جميع أنواع الآلات). على ما يبدو لإضافة المزيد من السنابل / منصة ليست بالضرورة مواتية للتعلم. يمكنك ان ترى التحسن العام في ثلاثة أزواج بين 05:00 ارتفاع / الإنترنت، ولكن عندما ترى خمسة أزواج 9، ثم إما بالارض أو تميل قليلا.

بالنسبة لي، يبدو أن هذا الحدس. مع زيادة المزيد من السنابل / منصة، وأنا تقريبا نتوقع أن نرى استمرار التحسن، لأن ذلك سيؤدي إلى أكثر مشابهة لتوزيع التوزيع الطبيعي لتجميع البيانات.

الآن، دعونا ننظر في الاتجاه في نموذج (أي تأثير مجموعات البيانات الاصطناعية مختلف عن معين تقنيات التعلم آلة). لMLP، المسامير أو ما إذا كان سيتم منصة تحقيق أداء أفضل ويبدو أن تفتقر إلى القانون. لSVM، والمسامير ومنصات يبدو أن أداء جيد على قدم المساواة. ومع ذلك، فإن شجرة القرار، ومنصة لفائز واضح.

بشكل عام، عند استخدام مجموعات البيانات مجتمعة، فإنه دائما لوحظ تحسن كبير!

عمل المستقبل

عامل مهم هو أن نلاحظ أن نتائج هذه الدراسة، في حين أن من المفيد في بعض النواحي، ولكن لا يزال المضاربة تماما. ولذلك، فإن تحليل ما زالت هناك حاجة زوايا عديدة من أجل جعل أي استنتاجات نهائية بأمان.

الافتراض الذي أدلى به هنا هو أن كل فئة ليس لديها سوى "نوع" واحد، ولكن في العالم الحقيقي ليس هو الحال دائما. على سبيل المثال، دوبيرمان وتشيواوا كلب، لكنها تبدو توزيع الوزن مختلفة جدا.

علاوة على ذلك، هو في الأساس نوع واحد فقط من مجموعة البيانات. وثمة جانب آخر للنظر هو محاولة تجارب مماثلة، بالإضافة إلى وجود أبعاد مختلفة من ميزة مجموعات البيانات الفضائية. وهذا قد يعني 15 أو 10 حيث بدلا من مجموعات البيانات صورة التناظرية.

أخطط لمواصلة توسيع نطاق البحث لهذه الدراسة، لذلك ضبطها البقاء!

نبذة عن الكاتب

اريك حاصل على درجة الماجستير والبكالوريوس في هندسة البرمجيات وتعلم الآلة. وهو حاليا في تورونتو، كندا كمهندس تعلم الآلة. وقال انه LSTM المستخدمة، CNN، وجمع شجرة، والعمل على حل المتعلقة NLP، نظم المعلومات التجارية ومشاكل في الرؤية الكمبيوتر مثل SVM!

إذا كنت ترغب في مزيد من المعلومات عنه، يرجى زيارة موقعه على الانترنت (

العنوان الأصلي:

أفكاري على بيانات الاصطناعية

الرابط الأصلي:

https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss

مقدمة المترجم

جيانغ يو تشيونغ، القراءة صغار جامعة هونغ كونغ للفنون التطبيقية، وتخصص في مجال المعلومات الجغرافية وقاصر في علم الحاسوب، ويعمل حاليا في دراسة بحثية لاستكشاف العلاقة بين الأنشطة الحضرية والبشرية من خلال البيانات العلمية وغيرها من الأساليب. الأمل لجعل البيانات أكثر علمية إلى الأصدقاء المهتمين، لمعرفة المزيد من المعرفة المتطورة وتطوير آفاقهم الخاصة.

يرجى تحديد مستنسخة بيانات الإرسال THU

أفراد العمليات: ران هيل

ما الفيلم تبادل لاطلاق النار، والذكاء الاصطناعي لها الكلمة النهائية؟

سوف مدرب تايلاند ان يخرج بعد كأس الصين؟ الأصل لا تسمح لكرة القدم خسر مدرب!

الموسيقى أول مهرجان اللوز ميلان رائع يا يصم الآذان

جمع | الأكثر استخداما محلل بيانات 10 آلة خوارزميات التعلم! (حل المرجعي)

سعى السياح الصينيين بعد من قبل الجزيرة الراقية من جزر تاهيتي إطلاق دليل APP الصينية

من السهل فهم التعلم الآلي! 3 حالات شرح مفصل للتجميع ، الانحدار ، خوارزمية التصنيف

كما يفعل الرومان! بعد أن تقدم اللاعب بودولسكي إلى اليابان سقطت فعلا في حب هذه الرياضة!

بدأت 15 عاما بتكلفة قدرها 80 مليار المشترين الانتحار: أكبر المشاريع التي لم تكتمل في العالم في دبي "جزيرة العالم"

دانيال يريد أن يكون البيانات العلمية؟ عليك أن تبدأ (وصلات) من بلوق

CCTV بث الليلة التركيز على الحرب المانيا VS هولندا، أن فان دايك كسر أربعة أهداف نوير التوالي؟

الغرب كأس السوبر: C + أحمر لوه كسر ريال مدريد 3-1 في مباراة الذهاب من برشلونة! يوفنتوس 2-3 بالاحباط كأس السوبر

العلوم الإنسانية تشيلو | لاو شه راكوغو "هاوى" وزارة Xiaofan من الجامعة الصينية تشيلو