شبه أشرف ثورة التعلم: ليأخذك للخروج من مستنقع البيانات الخالي من الملصقات

النص الكامل 1707 الكلمات، وعندما يكون التعلم مدى المتوقع 4 دقيقة

المصدر: Pexels

لمهندس تعلم الآلة، وغالبا ما تواجه هذه الحالة: الحاجة إلى الحصول على كميات كبيرة من البيانات، ولكن فقط القليل من الموارد لرفع ذلك. وسيكون لكل شخص في هذا المأزق في هذه المسألة في نهاية المطاف تجربة: عندما يكون هناك يقتصر بيانات الرصد، ولكن هناك الكثير من البيانات لم يتم وضع علامة، ماذا تفعل؟ هذا ويعرض المقالة حلا: شبه يشرف التعلم شبه supervisedlearning.

تاريخيا، كنوع من خلال "طقوس"، والتعلم شبه إشراف كان واحدا من "أرنب هول" كل مهندس من خلال الذهاب، فقط لتجد أن الناس على البيانات القديمة عادي علامة فهم جديد. تفاصيل كل مشكلة فريدة من نوعها، ولكن بشكل عام فإنه كثيرا ما يمكن وصفه:

في نظام البيانات منخفضة، والتدريب شبه إشراف لا تساعد على تحسين الأداء. ولكن في بيئة الفعلية، وأداء يميل لتسقط من مستوى "سيئة وغير صالحة للاستعمال" إلى "أقل سوءا ولكن لا تزال غير متوفرة تماما." أساسا، عندما لا يكون للمهندس البيانات في التعلم شبه إشراف المساعدة عندما بيئة البيانات، وهو ما يعني أيضا في المصنف سيئة للغاية، لا بيئة استخدام العملية.

وبالإضافة إلى ذلك، وشبه بإشراف عادة يست حرة، ولكن في نفس أسلوب التعلم تحت إشراف شبه يشرف التعلم في كثير من الأحيان لا توفر البيانات ارتفاع حالة التقدمية - على سبيل المثال، بيانات غير المسماة قد يعرض التحيز.

في عمق المبكر للتعلم، شعبية جدا طريقة التعلم شبه إشراف هو أن نتعلم أولا إلى البيانات غير المسماة ترميز النفس، ومن ثم وضع علامات على البيانات لصقل. لا أحد تقريبا فعلت ذلك، لأن التعلم من خلال تمثيل ترميز الذاتي للتجربة في كثير من الأحيان لحد من التدريجي صقل. ومن المثير للاهتمام، على الرغم من أن طريقة الجيل الحديث قد تحسنت بشكل كبير، والوضع ليس الكثير من التحسن، فقد يكون ذلك بسبب جيل جيدة نموذج ليس بالضرورة أن يكون المصنف جيد.

لذلك، عندما نرى المهندسين اليوم صقل النموذج، وعادة من التعلم على الإشراف على البيانات يشير إلى بداية - نعم، هذا النص هو من الإشراف على بيانات لنموذج لغة. في أي حالة، ونقل التعلم من نموذج ما قبل التدريب الآخر هو نقطة انطلاق أقوى، وطرق شبه أشرف من الصعب تحقيق نتائج أفضل.

وهكذا، فإن تعلم آلة نموذجية رحلة مهندس صعبة في التعلم "مستنقع" شبه إشراف هي هذه:

1: كل شيء سيء، في محاولة شبه تشرف عليها تعلمها (بعد كل شيء، وهذا هو العمل الهندسي، أكثر إثارة للاهتمام من علامة ...... البيانات)!

2: انظروا، ترتفع أرقام! ولكن كما سيئة. ويبدو أن يكون لا يزال لتسمية البيانات ......

3: بيانات أفضل، لكنني حاولت تجاهل آلة شبه أشرف ما يمكن أن يحدث؟

4: أنت تعرف، وهذا هو في الواقع أسهل وأفضل. يمكنك حفظ الكثير من الوقت والديون الفني من خلال تخطي 2 و 3 نقاط.

إذا كنت محظوظا، قد يكون لديك مشكلة من هذا النوع خصائص الأداء:

في هذه الحالة، لا يوجد نظام بيانات الضيق، وهي ليست رهيبة شبه أشرف، ولكن أيضا تحسين كفاءة البيانات. وفقا لتجربة، وهذا نادرا ما يحقق أفضل حالة. مع الأخذ بعين الاعتبار تكلفة إضافية، والتعقيد، والتفاوت الملحوظ في كمية البيانات لا عادة عدة أوامر من زيادة حجم الإيرادات، بينما تتناقص أيضا، والذي هو تماما لا حاجة، ما لم يكن ذلك للتنافس على أساس الأكاديمي.

وهلم جرا، وهذه المادة لا يتحدث عن "ثورة صامتة شبه أشرف" ذلك؟

اتجاه المثير للاهتمام هو أن احتمال التعلم شبه إشراف قد تكون أكثر من هذا القبيل:

سيؤدي ذلك إلى تغيير كل شيء. أولا، هذه المنحنيات تتفق مع الفكر الإنساني، يجب أن طريقة وهي شبه إشراف القيام به: بيانات أفضل. حتى في بئر تحت إشراف تعلم بيانات أداء النظام، وينبغي أن تكون الفجوة بين إشراف شبه إشراف وإيجابي بدقة. هذا الوضع يحدث أكثر وأكثر، وليس هناك أي تكلفة، تعقيد إضافي صغير جدا. انخفاض نقطة انطلاق "منطقة سحرية"، على حد سواء أهمية، فإنه لا يقتصر نظام بيانات عالية.

؟ ما هو جديد لك العديد: العديد من طرق ذكية لتعبير عن الذات وفقدان البيانات والشروح، مما يجعلها متوافقة مع تدخل من المعلومات وانحراف محتمل من التسمية. الأمثلة الأخيرة كتابين التقدم الذي أحرز مؤخرا، مشيرا إلى الأدبيات ذات الصلة:

MixMatch: A HolisticApproach إلى التعلم تحت الإشراف نصف وبدون اشراف DataAugmentation.

في عالم التعلم شبه إشراف، وتغيير جوهري آخر هو إدراك أنه قد تلعب دورا هاما للغاية في الخصوصية تعلم الآلة. على سبيل المثال، طريقة PATE (لشبه يشرف تعلم عمق نقل المعرفة من البيانات الشخصية من التدريب، واستخدام PATE تكون دراسة خاصة قابلة لل)، التي تشرف يفترض أن تكون البيانات الخاصة، والطلاب لديهم نموذج قوي لحماية الخصوصية باستخدام تحمل اسما فقط و(يفترض أن تكون عامة) بيانات التدريب. الخصوصية المعرفة الحساسة طرق الاستخلاص والتعلم أصبحت واحدة من المروجين الرئيسيين للتعليم الاتحادية المشتركة. وتلتزم التعلم المشترك لتوفير التعليم توزيعها بكفاءة، دون الاعتماد على بيانات نموذج وصول المستخدم، ويوفر حماية قوية الخصوصية الرياضية.

هذه لحظات مثيرة لإعادة النظر في قيمة التعلم شبه إشراف في بيئة عملية. نرى منذ فترة طويلة الافتراضات تحدى، هو جعل مؤشرا هاما التقدم المدهش في هذا المجال. وهذا الاتجاه هو ظاهرة حديثة، يجب علينا أن ننظر إلى هذه الأساليب يمكن أن تصمد أمام اختبار الزمن، ولكن هذا التقدم يمكن أن يؤدي إلى إحداث تغيير جوهري في التعلم الآلي الهندسة المعمارية أداة، وهي مثيرة جدا للاهتمام.

انتباه رسالة الابهام

معا نحن نشارك في التعلم وتطوير AI الجاف

ترحب منظمة العفو الدولية انتباه منصة الشنق كله من الطبقة سائل الإعلام "قراءة التقنية الأساسية"

بايدو خسر امام علي؟ لى هاى فنغ، خسارة كل منهما في أول استعراض أكاديمي جولة

إذا نظرنا إلى الوراء على موظفي الصين AI تدريب: بدأت المعلمين يطالب بايدو "مجداف الطائرة" التدريب

آلة تعلم هذه القضايا الأساسية، يمكن أن الرياضيات لا تحصل

اليوم صوت الأساسية | اليوم؟ 5G الرخص التجارية الصادرة يوم 6 يونيو

السماح المتعلمين على تقدير! تايلاند التدفئة الدراسة، فرص العمل غير مؤكدة

إطلاق هواوي FusionData، نقطة الألم البيانات الكبيرة تختفي

آخر التايلاندية مكشطة الإعلانية، والآباء والأطفال الأصلي تريد أن تفعل

فهو 19 سنة طالبة جامعة تشجيانغ، وثلاثة أشهر من المكاسب WWDC 19 منحة دراسية

الصيف مساء نسيم لمرافقة لك أن تذهب إلى أحلام اليراع

مقابلة دائما يموت في بروتوكولات الشبكة، كيف يمكنني أن أفعل؟

25 حقائق مثيرة للاهتمام، والفكرة من تايلاند! ليس سرا، ولكن أكثر من رائع

أراد تايلاند أن يأتي إلى العمل والحياة، وهذا الخمس الساحلية المدن الأنسب! بعد قراءة القلب