الموارد | 25 دراسة متعمقة عشر من فتح مجموعة بيانات المصدر، والمتعة!

الكاتب: PRANAV DAR

الترجمة: نقولا

تصحيح التجارب المطبعية: فنغ يو

أطروحة 4000 كلمة، اقترح القراءة 8 دقائق.

توضح هذه المقالة معالجة الصور، ومعالجة اللغة الطبيعية، وكذلك الصوت / صوت تجهيز ثلاثة 25 مفتوحة مجموعة بيانات المصدر.

مقدمة موجزة

التعلم العميق الرئيسيين (أو يعيش في معظم المناطق) هو ممارسة الرياضة. قضايا ممارسة - من معالجة الصورة إلى التعرف على الكلام. كل مشكلة لها ظلال وأساليب فريدة من نوعها.

ولكن أين يمكن الحصول على البيانات؟ في هذه الأيام ترى الكثير من الأوراق البحثية عموما ليست مفتوحة للاستخدام مجموعات البيانات الملكية للجمهور. وأصبح هذا إذا كنت تعلم وتطبيق الخاص بك العقبات المهارات المكتسبة حديثا.

إذا كنت قد واجهت هذه المشكلة، لدينا الحلول المتاحة لك. اخترنا مجموعة من مجموعات البيانات المتاحة للجمهور لتقرأ.

في هذه المقالة، نحن سرد سلسلة من مجموعات البيانات ذات جودة عالية، كل عمق يمكن لهواة تعلم تطبق وتحسين مهاراتهم. وسوف تستخدم هذه مجموعات البيانات تمكنك من أن تصبح عالما بيانات أفضل، وكنت قد تعلمت وحياتك المهنية توليد مساعدة لا تقدر بثمن. لقد قمنا بإدراج أيضا نتائج الأوراق أحدث التقنيات (SOTA) بالنسبة لك لتصفح وتحسين النموذج الخاص بك.

كيفية استخدام هذه مجموعات البيانات

 أول شيء يجب القيام به - هذه مجموعات البيانات ذات سعة كبيرة! لذا تأكد من الشبكة هو سرعة عالية، لا يوجد الكثير من حركة المرور أو تنزيل البيانات.

هناك العديد من الطرق التي يمكن استخدام هذه مجموعات البيانات. يمكنك استخدامها لتطبيق مختلف المهارات دراسة متعمقة. يمكنك أيضا استخدامها لصقل المهارات الخاصة بك، وتعلم كيفية تحديد وبناء على كل سؤال، واعتقد حالات استخدام فريدة من نوعها، وتبين أنها لجميع النتائج الخاصة بك، بحيث يمكن لأي شخص أن نرى!

وتنقسم مجموعة البيانات إلى ثلاث فئات - معالجة الصور، ومعالجة اللغة الطبيعية، ومعالجة الصوت / الكلام.

دعونا تبدأ مع فهم أفضل!

معالجة الصور

  • MNIST

MNIST هي واحدة من أكثر مجموعة البيانات التعلم العميق شعبية. هذه هي مجموعة البيانات الرقمية بخط اليد، ويحتوي على مجموعة من 60000 مجموعة التدريب ومثال على مجموعة من اختبار مجموعة من 10،000 العينات. هذه محاولة لتعلم تقنيات وقواعد البيانات عمق جيدة لتحديد أنماط في البيانات الفعلية، بينما كان يحاول معرفة كيفية قضاء الحد الأدنى من الوقت والجهد في البيانات وتجهيزها.

الحجم: ~ 50 MB

عدد قياسي: مقسمة إلى 10 فئات 70000 الصور

SOTA: دينامية التوجيه بين كبسولات

  • MS-COCO

COCO هي واسعة النطاق والكشف عن وجوه الأغنياء، وتجزئة ومجموعات البيانات الترجمة. لها العديد من الميزات:

  • تجزئة الكائن

  • التعرف على النص

  • ينقسم فائقة بكسل مادة

  • صورة 330K ( >  200K علامة)

  • 1500000 مثيلات الكائن

  • 80 فئات الأجسام

  • 91 المادة الفئة

  • كل تعليق على الصورة 5

  • 250000 الناس لديهم نقاط رئيسية

الحجم: ~ 25 GB (مضغوطة)

عدد قياسي: صورة 330K، 80 فئة من الكائنات، كل صورة خمسة ألقاب، 250،000 الناس لديهم نقاط رئيسية

SOTA: قناع R-CNN

  • ImageNet

ويستند ImageNet على وردنت التنظيمي بيانات الصورة التسلسل الهرمي. وردنت يحتوي على حوالي 100،000 العبارات، ImageNet يوفر في المتوسط حوالي 1000 صورة لتوضيح كل عبارة.

الحجم: ~ 150GB

عدد قياسي: إجمالي عدد الصور: ~ 1500000، كل لديه تعددية وثاب صناديق وتسمية الطبقة المقابلة

SOTA: تجميعها المتبقية التحولات عن الشبكات العصبية العميقة

  • صور مفتوحة الإدراجات

صور مفتوحة هو يحتوي على ما يقرب من 9 ملايين URL مجموعات البيانات صورة. تم وضع هذه الصور الآلاف الحدود التسمية على مستوى صورة من الفئات. مجموعة البيانات يتألف مجموعة من تدريب الصور 9011219 ورقة، 41260 ورقة من مجموعة التحقق من صحة الصورة واختبار مجموعة 125436 ورقة من صورة.

الحجم: 500 GB (مضغوطة)

عدد قياسي: 9011219 تشانغ أكثر من صورة 5K التسمية

SOTA: Resnet 101 نموذج تصنيف الصور (التدريب على البيانات V2): الحاجز النموذجي، حاجز التمهيدي، رمز الاستدلال.

  • VisualQA

VQA هو مجموعة البيانات التي تحتوي على أسئلة مفتوحة حول الصورة. يجب أن تكون مفهومة ولغة بصرية هذه القضايا. هذه مجموعة من البيانات لديها بعض الميزات للاهتمام:

  • 265016 صور (COCO ومشاهد مجردة)

  • كل صورة لها لا يقل عن ثلاثة قضايا (بمتوسط 5.4 مشاكل)

  • كل الإجابات الواقع القائم على الأسئلة 10

  • كل سؤال ثلاثة المعقول (ولكن لا تبدو صحيحة) الجواب

  • مؤشر التقييم التلقائي

الحجم: 25 GB (مضغوطة)

عدد قياسي: 265016 الصور، كل صورة لا يقل عن ثلاثة أسئلة، كل 10 الإجابات الواقع القائم

SOTA: النصائح والخدع لسؤال الرد البصرية: معرفة من 2017 التحدي

  • أرقام شارع عرض البيت (SVHN)

هذا هو العالم الحقيقي مجموعة بيانات الصورة لتطوير خوارزميات الكشف عن وجوه. وهذا يتطلب سوى الحد الأدنى من تجهيزها البيانات. هو مذكور في هذه القائمة مجموعة البيانات MNIST مشابه، ولكن مع مزيد من العلامة البيانات (أكثر من 600،000 صور). وهذه البيانات هي من أرقام المنازل لعرض جوجل ستريت فيو التي تم جمعها.

الحجم: 2.5 GB

عدد قياسي: 10 دورات من 6،30،420 الصور

SOTA: التوزيعية تجانس مع الظاهري التدريب الخصومة

  • CIFAR 10

 وهذا هو صورة مجموعة البيانات تصنيف آخر. أنه يحتوي على 10 فئات من 60،000 الصور (يتم تمثيل كل فئة في الصف الشكل أعلاه). ما مجموعه 50000 الصور التدريب و 10،000 صور الاختبار. وتنقسم مجموعة البيانات إلى ستة أقسام - 5 دفعات ودفعات التدريب الاختبار. كل مجموعة من 10،000 الصور.

الحجم: 170 MB

عدد قياسي: 10 فئات 60000 الصور

SOTA: ShakeDrop تسوية

  • أزياء MNIST

أزياء MNIST يحتوي على 60،00010،000 الصور والصور التدريب الاختبار. وكانت مماثلة قاعدة بيانات المنتج الأزياء MNIST. ويعتقد المطورين قد يبالغ MNIST، ولذلك MNIST ذلك كبديل مباشر. كل صورة في عرض الرمادي، ومع 10 فئات من العلامات المرتبطة بها.

الحجم: 30 MB

عدد قياسي: 10 فئات 70000 الصور

SOTA: عشوائية محو بيانات تكبير

المعالجة الطبيعية للغة

  • IMDB التعليقات

هذا هو فيلم عشاق حلم البيانات. وهذا يعني تصنيف العواطف الازدواجية، ولديه المزيد من البيانات من أي البيانات السابقة المنصوص عليها في هذا المجال. بالإضافة إلى أمثلة التدريب والاختبار والتقييم، كما تتوفر كذلك أكثر بدون تصنيف البيانات. تضم حقيبة من الكلمات وشكل النص المعالجة.

الحجم: 80 MB

عدد قياسي: 25000 يستعرض الفيلم متباينة للغاية للتدريب، واختبار 25000

SOTA: تعلم التمثيل نص الهيكلية

  • عشرون مجموعات أخبار

وكما يوحي اسمها، مجموعة البيانات يحتوي على معلومات حول مجموعات الأخبار. لتحديد مجموعة البيانات هذه، واختيار من المقالات الإخبارية 1000 من 20 مجموعات الأخبار المختلفة. هذه المواد لها خصائص معينة، مثل موضوع الخط والتوقيع والمراجع.

الحجم: 20 MB

عدد قياسي: 20 رسالة من 20،000 مجموعات الأخبار

DOTA: جدا شبكات التلافيف العميق لتصنيف النص

  • Sentiment140

مجموعة البيانات Sentiment140 متاح لتحليل المشاعر. ومجموعات البيانات الشعبية، والبرمجة اللغوية العصبية هي مثالية لبدء رحلتك. تمت إزالة المشاعر سابقا من البيانات. مجموعة البيانات النهائية لديه الخصائص الستة التالية:

  • القطبية تغريدات

  • تغريدات ID

  • تاريخ تغريدات

  • مشكلة

  • اسم المستخدم تغريدات

  • تغريدات هي النص

الحجم: 80 MB (مضغوطة)

عدد قياسي: 160000 تويت

SOTA: تقييم دولة من بين الفن ثقة نماذج على دولة من بين الفن مجموعات البيانات المعنويات

  • وردنت

مركزية ImageNet البيانات المذكورة أعلاه، وردنت هو مجموعة المرادفات كبير. Synsets كل وصف المفاهيم المختلفة للجماعات مرادف. هيكل NLP وردنت يجعل منه أداة مفيدة للغاية.

الحجم: 10 MB

عدد قياسي: 117000 مجموعات مرادف بمقدار صغير "، ومفهوم العلاقة" المرتبطة مجموعة أخرى من المرادفات.

SOTA: Wordnets: دولة الفن وجهات نظر

  • التعليقات الصرخة

هذا هو مجموعة من البيانات مفتوحة المصدر الصرخة لأغراض التعلم والافراج عنهم. ويشمل تعليقات من قبل الملايين من المستخدمين، والعقارات التجارية وأكثر من 200،000 صور من أكثر المناطق الحضرية. هذا هو شائع جدا التحديات العالمية مجموعات البيانات NLP.

الحجم: 2.66 GB JSON، 2.9 GB SQL و 7.5 GB صور (كل ضغط)

عدد قياسي: 5،200،000 استعراض، 174،000 قطعة من العقارات التجارية، 200000 والصور، والمناطق الحضرية 11

SOTA: منتبهة الإلتواء

  • ويكيبيديا كوربوس

هذه مجموعة البيانات هي عبارة عن مجموعة من النص الكامل للويكيبيديا. أنه يحتوي على ما يقرب من 19 مليون الكلمات من أكثر من 400 مليون مقال. NLP يجعل هذه مجموعة بيانات قوية هو أنه يمكنك البحث عن طريق جزء من كلمة أو عبارة أو فقرة نفسها.

الحجم: 20 MB

عدد قياسي: 4400000 المواد و 19 مليون كلمة

SOTA: كسر Softmax Bottelneck: A عالية الرتبة RNN لغة نموذج

  • مدونة التأليف كوربوس

هذه مجموعة بيانات يحتوي على مجموعة من الآلاف من المدونين من blogger.com بلوق وظيفة. كل بلوق كملف منفصل متاح. كل بلوق تحتوي على ما لا يقل عن 200 الكلمات الإنجليزية الشائعة.

الحجم: 300 MB

عدد قياسي: 681288 وظيفة، أكثر من 140 مليون كلمة

SOTA: على مستوى الحرف ومتعدد القنوات الشبكات العصبية التلافيف على نطاق واسع التأليف نسب

  • الترجمة الآلية للغات مختلفة

هذه مجموعة من البيانات يحتوي على أربعة أنواع من لغات التدريب البيانات الأوروبية. المهمة هنا هي لتحسين أساليب الترجمة الحالية. يمكنك المشاركة في أي من مجموعات اللغات التالية:

  • الإنجليزية - الصينية والصينية - الإنجليزية

  • الإنجليزية - جمهورية التشيك و- الإنجليزية

  • الإنجليزية - الأستونية والإستونية - الإنجليزية

  • الإنجليزية - الفنلندية والفنلندية - الإنجليزية

  • الإنجليزية - الألمانية والألمانية - الإنجليزية

  • الإنجليزية - الكازاخستاني والكازاخستاني - الإنجليزية

  • الانجليزية - الروسية والروسية - الإنجليزية

  • الإنجليزية - التركية والتركية - الإنجليزية

الحجم: ~ 15 GB

عدد قياسي: وعن أحكام 30،000،000 ترجمة

SOTA: الانتباه هو كل ما تحتاجه

الصوت / معالجة الصوت

  • الحرة الأرقام المنطوقة الإدراجات

آخر في هذه القائمة هي MNIST مصدر إلهام لإنشاء مجموعات البيانات! هذا هو لمعالجة عينات الصوت الرقمي عن طريق الفم لتحديد وخلق. هذا هو مجموعة من البيانات المفتوحة المصدر، لذلك آمل الوقت الذي يواصل فيه الناس للمساهمة مزيد من العينات لمساعدتها على الاستمرار في النمو. في الوقت الحاضر، فإنه يحتوي على الميزات التالية:

  • 3 رئيس

  • 1500 سجل (كل رقم لكل متكلم قراءة 50)

  • نطق الانكليزية

الحجم: 10 MB

عدد قياسي: 1500 عينات الصوت

SOTA: تصنيف الصوت الخام الموجي المستندة إلى طريق على مستوى عينة CNN البنى

  • الموسيقى الأرشيف مجانا (FMA)

FMA هو التحليل الموسيقي لمجموعة البيانات. ويشمل مجموعة بيانات كاملة الطول والصوت HQ، ميزة تحسب قبل، والمستخدم، والبيانات الوصفية على مستوى المسار. وهي عبارة عن مجموعة من البيانات مفتوحة المصدر المستخدمة لتقييم بعض المهام من MIR. وفيما يلي قائمة من مجموعات البيانات ملف CSV وما تحتويه:

  • tracks.csv: كل الفوقية المسار، مثل الهوية، العنوان، الفنان، والنوع، والتسمية والمسرحيات، أي ما مجموعه 106574 المسارات

  • genres.csv: جميع انواع الاساليب 163 من ID مع اسم وأصل (تستخدم للاستدلال مستوى أعلى هذا النوع والنوع).

  • features.csv: السمات المشتركة المستخرجة مع librosa.

  • echonest.csv: المقدمة من Echonest (الآن سبوتيفي) هي مجموعة فرعية من ملامح المسار الصوتي 13129 أولا.

الحجم: ~ 1000 GB

عدد قياسي: حوالي 100،000 المسارات

SOTA: تعلم الاعتراف النوع الموسيقية من الصوت

  • قاعة رقص

يحتوي هذا مجموعة البيانات حلبة الرقص الرقص الملفات الصوتية. ويوفر عددا من أساليب الرقص على أساس صيغة الصوت الحقيقي لبعض من مقتطفات الميزات. وهنا بعض من خصائص مجموعة البيانات:

  • إجمالي عدد الحالات: 698

  • المدة: 30 ثانية

  • المدة الإجمالية: حوالي 20940 ثانية

الحجم: 14GB (مضغوط)

عدد قياسي: حوالي 700 عينات صوتية

SOTA: A متعدد نموذج نهج للتغلب على تتبع وبالنظر إلى أنماط غير المتجانسة الموسيقى

  • مليون كلمات الإدراجات

مليون كلمات الإدراجات هو ميزة الصوت الحر مليون المعاصرة المقطوعات الموسيقية الشعبية وجمع بيانات التعريف. والغرض منه هو:

  • توسيع الخوارزمية على نطاق تجاري لتشجيع البحث

  • توفير مجموعة من البيانات المرجعية للدراسات التقييم

  • كما مجموعات كبيرة من البيانات باستخدام API لإنشاء اختصار (على سبيل المثال، عش صدى)

  • مساعدة الباحثين الجديد بدأ العمل في مجال MIR

مجموعة البيانات الأساسية هو واحد مليون أغنية ميزة التحليل والبيانات الوصفية. لا يحتوي هذا مجموعة البيانات أي صوت، ولكن تستمد وظيفة. ويمكن الحصول على أمثلة من الصوت من الخدمات 7digital وغيرها باستخدام التعليمات البرمجية التي تقدمها جامعة كولومبيا.

الحجم: 280 GB

عدد قياسي: PS - انها واحدة مليون أغنية!

SOTA: دراسة أولية على نظام المزكي للمليون أغاني الإدراجات التحدي

  • LibriSpeech

مجموعة البيانات هو جسم كبير من خطاب اللغة الإنجليزية من حوالي 1000 ساعة. هذه الكاسيت البيانات من المشروع LibriVox. وقد تم تقسيمها ومحاذاة بشكل صحيح. إذا كنت تبحث عن نقطة البداية، تم تدريب الاختيار في kaldi-asr.org كان نموذج اللغة النماذج الجاهزة والصوتية، وهذه النماذج هي مناسبة للتقييم في

الحجم: ~ 60 GB

عدد قياسي: 1000 ساعة من المحاضرة

SOTA: التعرف على الكلام إلكتروني القائم مع طريق بوابة ConvNets

  • VoxCeleb

VoxCeleb تحديد المتكلم هو ومجموعات البيانات على نطاق واسع. أنه يحتوي على حوالي 100،000 كلمات عن 1251 شخصيات بارزة من الفيديو يوتيوب. معظم البيانات هو التوازن بين الجنسين (55 ذكور). هذه الشخصيات عبر مختلف اللهجات والاحتلال والعمر. لا يوجد تداخل بين مجموعات التطوير والاختبار. للمستقلين وتحديد النجوم المميزة التي الصوت، وهذا هو حالات الاستخدام مثيرة للاهتمام.

الحجم: 150 MB

عدد قياسي: 1251 المشاهير من 100،000 الكلمات

SOTA: VoxCeleb: على نطاق واسع بيانات التعرف علي متحدث

قضايا عملية تحليل فيديا: لممارسة الخاص بك، ونحن نقدم أيضا مشاكل من واقع الحياة ومجموعات البيانات بحيث يمكنك ممارسة في الواقع. في هذا القسم، نحن قائمة القضايا العملية التعليمية عميقة على منصة DataHack لدينا.

  • تويتر ثقة تحليل

الكراهية نوع خطاب العنصرية والتمييز على أساس الجنس في شكل خطاب أصبحت مشكلة على تويتر، من المهم أن هذه الملفات قياسا مع الآخر بعيدا. في هذه المشكلة العملية، كما نقوم بتوفير العادية نوع البيانات تويتر والكراهية تويت. مهمتك كعالم البيانات هي تحديد ما هو نوع من الكراهية تويت تويت، والتي ليست كذلك.

الحجم: 3 MB

عدد قياسي: 31962 تويت

  • كشف العمر من الجهات الهندية

أي لعشاق التعلم العميق، وهذا هو التحدي رائعة. مجموعة البيانات على آلاف من صورة الممثل الهندي، مهمتك هي لتحديد سنهم. ويتم اختيار يدويا جميع الصور وقطع من إطار الفيديو، مما يجعل نطاق، لفتة، وتعبيرات الوجه، مضوائية، والعمر، والقرار، ومنع ارتفاع التدخل ماكياج.

الحجم: 48 MB (مضغوطة)

عدد قياسي: 19906 صورا لمجموعة التدريب واختبار مجموعة من الصور 6636

SOTA: على أيدي مع ديب التعلم - حل لمشكلة العمر كشف الممارسة

  • تصنيف الصوت الحضري

هذه مجموعة بيانات يحتوي على أكثر من 8000 مدينة و10 فئات من مقاطع الصوت. هذه الممارسة في السؤال من أجل أن أعرض لكم لنظام تصنيف مشترك معالجة الصوت.

الحجم: مجموعة التدريب -3 GB (مضغوطة)، مجموعة الاختبار - 2 GB (مضغوطة)

عدد قياسي: من 10 فئات من 8732 تميزت مقطع صوت المدينة صوت ( < = 4S)

إذا كنت تعرف من مجموعات البيانات مفتوحة المصدر أخرى يمكن استخدامها ليوصي الآخرين لبدء عمقها التعلم / غير منظم مجموعات البيانات الرحلة، من فضلك لا تتردد في أن يوصي لنا وإرفاقها ينبغي أن تشمل سبب هذه مجموعات البيانات.

إذا كان السبب هو جيد، وأنا إدراجها في القائمة. ونحن نرحب بكم لإعلامنا في المنطقة تعليقات لاستخدام تجربة هذه مجموعات البيانات. وأخيرا أتمنى لكم التعلم سعيد!

العنوان الأصلي: 25 مجموعات البيانات المفتوحة لديب تعلم كل عالم البيانات يجب العمل مع

الرابط الأصلي: الشبكي: //www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

مقدمة المترجم

تشن يان، جامعة جياوتونغ بكين، الاتصالات والدراسات العليا هندسة التحكم، ودرجة الماجستير في الهندسة، وشغل منصب والبرمجيات ونظم المهندس سور الصين العظيم الحاسوب، داتانغ الدقيقة مهندس، وترجم الحالي متفوقة بكين والتكنولوجيا المحدودة تشارك حاليا في تدريس تشغيل نظام الترجمة ذكية والصيانة، والتي تراكمت لديها بعض الخبرة في دراسة متعمقة من الذكاء الاصطناعي وشروط معالجة اللغة الطبيعية (NLP). الترجمة وقت الفراغ خلق المفضلة، وتشمل أعمال الترجمة: IEC-ISO 7816، ومشاريع النفط العراقية، والضرائب الجديدة البيان وغيرها، حيث تم نشر الترجمة الإنجليزية العمل "نيو الضرائب البيان" في GLOBAL TIMES. يمكن ترجمة تدخر الوقت للانضمام مجموعة من المتطوعين THU منصة البيانات الإرسال، ونأمل أن حصة مع تبادل التقدم المشترك

تشانغ باو شنغ: تأملات في النظام القانوني لمنظمة العفو الدولية (مرفق PPT)

"صنع في ألمانيا" المنافسة، ومن المرجح أن تصبح ييوو

لاعبين | المتسلقين شياو هوا يانغ، سفير الخيرية على المنحدرات (على)

السنة الجديدة واحدة مسحوق 8 | "فو شياو فنغ": البرغموت عقد ثروة جيدة من العام

واحد الوردي السنة الصينية الجديدة 7 | "عدسة": يعلمك للقيام كعكة عموم السنة الجديدة، لذيذ وبسيط

ML: يعلمك لبناء التكتل ونموذج عملية التعلم البيانات (مجموعات البيانات المرفقة)

دوري الدرجة الاولى الايطالي 1 بالفعل المنافسة البيضاء الساخنة! المخضرم البالغ من العمر 36 عاما يقود 21-19 C لوه، بشرت في نبأ عظيم!

كان تأييد سبعة نوبل السبب الرئيسي للأدوية المضادة للشيخوخة وتساءل بشدة

واحد وردي السنة الجديدة 5 | "الصحراء حور 1249": ماسامي الزهور تتفتح، والانتظار للعام الجديد

كأس الأبطال الدولية - إيفان بيريسيتش كسر الفوز كوندرسي فابيا سوبر الصيني الاسود انتر ميلان 2-1 تشيلسي

صواريخ يمكن إجراء، عنصرين فقط

إدارة البيانات وتحليلها للاتجاهات التي تغير العالم