BasicFinder منصة التسمية عالم بيانات وو هاو: من القطاعات الحصول على البيانات ووضع العلامات البيانات العلائقية وعمق التعلم (ملخص سهم)

حققت لى فنغ شبكة AI مراجعة على مستوى القسم من عمق هذا النموذج في مناطق كثيرة من آلات التعلم نجاحا كبيرا، ولكن أيضا جعل المواد الخام لخوارزميات التدريب البيانات المزيد من المطالب. لتطوير خوارزميات عالية المستوى، وجمع البيانات ذات جودة عالية، والتنظيف، وتجهيز، وهكذا سوف يكون لها تأثير مباشر على نتائج الخوارزمية.

شبكة لى فنغ في المستقبل القريب AI Yanxishe على الانترنت تقاسم الدورة، العلماء بيانات من BasicFinder علامة بونغ منصة للتعريف العلاقة بين حجم البيانات، ونوعية البيانات وعمق خوارزميات التعلم، وكذلك القيام ببعض البيانات التجريبية التي أعدت للخوارزمية .

وو هاو، وتخرج من جامعة جياوتونغ فى شانغهاى، وتخرج من جامعة نيويورك، ويعمل حاليا العلماء بيانات منصة التسمية BasicFinder، ركزت أبحاث السياسة العامة على حزم البيانات، وجمع البيانات نموذج التعلم العميق والحلول وضع العلامات الاستشارات والتحسين.

حصة المحتوى:

مرحبا بالجميع، اسمي وو هاو. تخرج من طلاب الدراسات العليا جامعة جياوتونغ فى شانغهاى تخرج من جامعة نيويورك. كان لي خوارزميات الأبحاث التي أجريت لمدة عامين تقريبا، لدينا منصة BasicFinder الشركة أساسا لتوفير بعض الجوانب من خدمات البيانات، بما في ذلك جمع، ووضع العلامات، والتنظيف، ومعالجة إضافية أخرى وهلم جرا. أشارك موضوع الجوانب اليوم بيانات منظمة العفو الدولية.

وينقسم الدليل هنا هو مشترك اليوم إلى أربعة أجزاء:

  • البيانات على نطاق

  • جودة البيانات

  • التعلم غير خاضعة للرقابة والتعلم نقل

  • ملاحظة خوارزمية للقيام R & D من حيث إعداد البيانات

البيانات على نطاق

نظرة على حجم البيانات، وحجم ونموذج خوارزمية بيانات السعة هو أكثر أهمية في الواقع. وأكبر خوارزمية نموذج القدرات، فهذا يعني أن خوارزمية ويمكن التعبير عن العلاقة أكثر تعقيدا نسبيا.

عندما يكون حجم البيانات كبيرة نسبيا، في عملية التدريب أقل عرضة للتعلم (underfitting). من ناحية أخرى، في نطاق البيانات هو نسبيا صغيرة جدا، فإنه سيكون قد تم التعلم (overfitting).

في السنوات الأخيرة، يمكن أن شعبية نموذج التعلم العميق لديهم قدرة كبيرة جدا، العصبية خوارزمية الشبكة المستخدمة عادة النموذج، يمكنك زيادة عدد الطبقات، يمكن لكل طبقة يوان بزيادة عدد العصبية، ثم نموذج المهارات سوف تزيد. وفيما يلي مثال على ذلك. وبالإضافة إلى ذلك الأوساط الأكاديمية وأيضا القيام ببعض الأبحاث الجديدة لزيادة القوة التعبيرية للنموذج. على شكر ناحية أخرى إلى GPU، وسوف يكون التدريب نماذج أكثر تعقيدا من ذلك بكثير أسرع من أي وقت مضى.

هناك مشكلة، والمزيد من البيانات، ثم تأثير سيكون أفضل، وبعد ذلك فقط كيف جيدة؟ أوراق جوجل مرة أخرى لحل هذه المشكلة.

هذه مجموعة البيانات ImageNet مئتي مرة. مع الزيادة في عدد مجموعات بيانات العينة، وضعت النتائج على COCO من البيانات السابقة أعلى ثلاث نقاط على الأقل، بينما في الجوانب الأخرى من الخوارزمية ليست تغييرات كثيرة جدا. ويمكننا أن نرى تأثير زيادة حجم البيانات لتحسين خوارزمية واضحة تماما.

في القطاع الصناعي، وحجم البيانات أسهل لتصبح عاملا رئيسيا في تطوير الخوارزميات. إذا كان لديك المزيد من البيانات، يمكنك استخدام أكبر، ونماذج أكثر تعقيدا، والخوارزميات الحصول على أفضل. عندما قد تكون البيانات الكبيرة إلى حد ما بين البيانات والخوارزميات متكررة، وتشكيل الحواجز للشركة لتوفير تنافسية.

جودة البيانات

جودة البيانات سوف يؤثر على النتائج الخوارزمية.

للحصول على جودة العامة للبيانات، مثل البيانات المستمدة من الزواحف، وتنظيفها، بعد العلاج، وسوف تحسن كثيرا من تأثير الخوارزمية. إذا كانت نوعية البيانات عالية بالفعل، للذهاب إلى تحسين جودة البيانات، وتعزيز تأثير الخوارزمية محدودة.

أيضا أن تأخذ في الاعتبار التكاليف والفوائد المترتبة على المقايضات: ترغب في الحصول على بيانات ذات نوعية أفضل، فإن التكلفة ستكون أعلى.

ثم الحديث عن تقييم جودة البيانات. ويشمل تقييم جودة البيانات جانبين، واحد هو الأصلي نوعية الحصول على البيانات، والثاني هو نوعية تسمية البيانات.

هنا هو تقييم الأصلي نوعية البيانات التي يتم جمعها:

  • الصور، والفيديو: القرار، والحدة، والضوء واللون

  • صوت: وضوح، والصوت الخلفية، الخ

  • النص: هل اللغة الطبيعية، سواء المهنية، والمواضيع ذات الصلة، الخ

وصفت ما يلي لتقييم جودة البيانات:

  • وضع العلامات دقة (البيانات الفئة)

  • دقة الشرح (نقطة في الوقت المناسب تنسيق، وعدد، والنص، وما إلى ذلك)

  • شهد اكتمال (سواء التسرب، وإذا مكررة)

  • اتساق ملحوظ (قبل وبعد القواعد هي نفسها)

بمناسبة دليل البيانات على نطاق واسع عادة ما تحتوي على الضوضاء، وبعض مجموعة البيانات الكلاسيكي يحتوي أيضا على الضوضاء، مثل وجوه LFW، MS COCO وهلم جرا، فإنه أمر لا مفر منه، ولكن ضمن الحدود المقبولة على الخط.

التعلم غير خاضعة للرقابة والتعلم نقل

ثم الحديث عن التعلم غير خاضعة للرقابة والتنقل والتعلم، ودراسة الهجرة لديها مجموعة كبيرة نسبيا من البيانات كأساس، ثم وضع علامة على جزء صغير من البيانات الجديدة يدويا.

للتعلم غير خاضعة للرقابة، أساسا أنها لا تتطلب علامات اليدوية، وعلى رأسها دراسة توزيع خصائص البيانات نفسها. على سبيل المثال، تجميع الخوارزمية، ونحن نحاول العثور على مركز لتوزيع مجموعة البيانات، حتى انه لم يكن في حاجة الشرح اليدوي.

حاليا هذه الصناعة لا تزال نتائج جيدة نسبيا عن طريق التعلم تحت إشراف من، وكثير منهم تتطلب الشرح اليدوي لكميات كبيرة من البيانات. التعلم غير خاضعة للرقابة والتعلم نقل أو أن تكون البحوث الأكاديمية في المستقبل لتبدو أكبر اختراق. وبالإضافة إلى ذلك، في حالة من المستقبل لتعزيز حجم البيانات، والتعلم غير خاضعة للرقابة، وسوف تعلم نقل يكون أكثر جدوى.

بعض جوانب تجربة إعداد البيانات

وأخيرا، بعض من خبرتنا في إدارة الأعمال.

إعداد البيانات بداية من الحصول على البيانات، يتم تقسيم البيانات التي حصل عليها أيضا في العديد من الحالات، أكثر شيوعا هو الوصول إلى الإنترنت المفتوح (مجموعات البيانات العامة، والزواحف، وغيرها)، بالإضافة إلى الحصول على البيانات المهنية. عندما المهنية جمع البيانات، ونحن بحاجة إلى النظر وضع الاستحواذ: أولا، جمع المحتوى، حجم جمع، والميزانية، والثاني هو محاولة لعملية جمع وسيناريوهات الاستخدام الفعلي متسقة، وثالثا هو النظر في متطلبات مجموعة البيانات، مثل التنوع؛ الرابعة إذا كان الحصول على الخصوصية، والحقوق الفردية مثل حقوق الصور وحقوق الطبع وهلم جرا.

وأخيرا، هناك متطلبات اكتساب الوقت.

ثم يتم تنظيف البيانات. جمع البيانات للعديد منهم في حاجة إلى تنظيف، مثل الزواحف وفيديو للمراقبة وهلم جرا.

وسيجري وضع علامات البيانات من بعد تنقية البيانات، يجب أن تبقى قواعد وضع العلامات على النحو المفصل وثيقة والحاجة إلى إعطاء أمثلة واضحة. المهنية عملية وضع العلامات، وعموما مرحلة الاختبار القياسية، الأمر الذي يتطلب معرفة مفصلة وتحديد الاحتياجات. وبالإضافة إلى ذلك، فإن الكائن اختبار ورسميا ميزت عملية تواجه وضعا غير مؤكد، والحاجة إلى الاتصال في الوقت المناسب، وإلا فإنه قد يؤثر على جودة العلامة الكلية.

للحصول على بيانات ملحوظ الطريق، وتنسيق الإخراج النهائي، تحتاج خوارزمية للمطورين لتطوير، إن أمكن، أو محاولة استخدام الأساليب والأشكال المشتركة.

بعد أن تم الموسومة البيانات البيانات التي تم استعراضها. جعلت المرجع الرئيسي لمراجعة متطلبات جودة البيانات (الدقة والدقة والاكتمال والاتساق، وما إلى ذلك). طرق المراجعة هي الضوابط، مؤشر التحقيق الخاصة، واستخدام ميزات معينة لاستكشاف هذه الأنواع من القيم المتطرفة.

خلصت إلى ما يلي: بالنسبة للالخوارزمية، وبيانات أفضل، وأكثر اتساعا كلما كان ذلك أفضل، كلما كان ذلك أفضل المحتملين. في ظل الظروف الحالية، والتعلم تحت إشراف هو أفضل من غير خاضعة للرقابة التعلم التعلم / نقل.

لى فنغ شبكة AI تكنولوجي ريفيو.

صور شو تشانغده الطوارئ التدريب الإنقاذ يلقي كبير، "النار الرجل الحديدي"

ما شكل في مراقبة جيدة، وارتفاع تكلفة نسبيا أقل من 20W سيارة هناك؟

CI مكبرات الصوت المخصصة من تجربة الشمال داني PHANTOM S180 كاملة

التصور التدرج الصعود تلفيفي العصبية الشبكة

غنيمة عيد الميلاد هذا العام الكامل! صدر الراب ستار ناس تصميم الشخصية للمنتج واحد

تشارليز ثيرون الاستبداد الأطفال الملكة فان فوز الثناء فاز الشارع: يبدو حارسا شخصيا لجعل امرأة صغيرة

وجاء 2019 اليوم الأول في الغالب تخزين الأعضاء

الاستثمار الصاعد، والتعب لاحق تقرير --2017 كتلة اتجاهات الاستثمار سلسلة، أصدرت سلطة رؤى CB

سيارة المجردة 15-20W، سيارة عائلية، شراء أيهما أفضل؟

لأن لعبت بشكل جيد جدا، "ساحة المعركة 5" المطورين "العمليات السوداء 4"، كما شنقا عنوان

هذا الأسبوع اختبأ تماما Chunxindangyang، والسماح للشقيق مطرقة كما أجرينا "تظهر على ما يرام."

ني ني تنورة بريق ذهبي الولايات المتحدة إلى ابتسامات المتطرفة، ويأتي مع أسلوب مزاجه ممتاز