أوصى تصنيف وسهلة لفهم: العلوم البيانات والبيانات الكبيرة أداة المهنية الماهرة

علوم البيانات وتكنولوجيا البيانات الكبيرة هو الانضباط التحيز التطبيقية، بحيث أصبح أداة جزءا هاما. في العملية، والعلماء البيانات إذا اخترت أداة فعالة لتحقيق تأثير مضاعف. بشكل عام، يجب أن يكون العلماء بيانات قواعد البيانات التشغيلية، كومبيوتر وتصور البيانات وغيرها من المهارات ذات الصلة، وهناك الكثير من الناس ما زالوا يعتقدون أن مهارات الكمبيوتر ضرورية أيضا، ويمكن تحسين كفاءة العمل العلماء البيانات.

مجتمع المصادر المفتوحة على مر السنين، البيانات العلمية له مساهمة كبيرة في مجموعة تطوير، والذي يسمح البيانات لمواصلة التقدم في المجالات العلمية. نحن هنا جمعت بعض في قواعد البيانات، لغات البرمجة، تعلم الآلة، والتصور، والكمبيوتر وغيرها من أدوات مفتوحة المصدر. نأمل أن تساعد المزيد من البيانات للعلماء والمهتمين في هذا المجال.

هنا أعتقد أن هناك العديد من الطلاب يرغبون في الدراسة بيانات كبيرة، ويمكنك معرفة تنورة + البيانات الكبيرة: 957205962 ، يمكنك الحصول على مجموعة مجانية من أنظمة الدروس البيانات الكبيرة

1. قاعدة بيانات

1.1 MongoDB

MongoDB هي عالية الأداء وتطويره مع قاعدة بيانات NoSQL المعروفة. ويوفر بديلا قويا لقواعد البيانات التقليدية والبيانات ومحددة تكامل تطبيق أسهل. مناسبة خاصة لبناء تطبيقات الويب على نطاق واسع.

1.2 أباتشي HBase

أباتشي HBase (قاعدة بيانات Hadoop) هو الموزعة، قابلة للتخزين البيانات الكبيرة. العلماء بيانات تحتاج للبيانات عشوائية كبيرة، في الوقت الحقيقي للقراءة / الكتابة الوصول، يمكنك استخدام هذه الأداة مفتوحة المصدر.

2. لغة برمجة

2.1 R

R هي لغة برمجة لمعالجة البيانات والرسومات تجهيز والعلماء البيانات والمحللين استخدام أداة شعبية. وفقا للعلماء، لغة R هي واحدة من أسهل للتعلم، لأن هناك الكثير من الحزم والتوجيه متاح للمستخدمين.

2.2 بيثون

الثعبان هو عالم البيانات في لغة استخداما آخر، بل هو لغة البرمجة العامة الغرض، تركز على القراءة والبساطة. وهناك العديد من الثعبان يمكن أن تستخدم لمعالجة البيانات، وآلة التعلم رمز قاعدة البصرية.

* البيانات التي يشيع استخدامها في مكتبة المادة العلمية انظر: الشبكي: //mp.weixin.qq.com/s/dLrZWsqrZW7XqG6phS3R7g

2.3 سكالا

سكالا هو عامة لغة برمجة للأغراض التي تعمل على منصة جافا. انها مناسبة لمجموعات كبيرة من البيانات، وذلك أساسا لأباتشي سبارك و Apache كافكا وغيرها من أدوات البيانات الكبيرة. هذا النمط برمجة وظيفية يجلب السرعة وزيادة الإنتاجية، والتي سوف يكون تدريجيا تكييف يؤدي إلى المزيد والمزيد من الشركات على البيانات الخاصة بهم كجزء مهم من عدة علوم.

2.4 SQL

SQL هي لغة برمجة مخصصة للبيانات المخزنة في قاعدة بيانات علائقية من. SQL لتحليل البيانات أكثر الأساسية يمكن أداؤها تنظيم ومعالجة البيانات أو استرداد البيانات من المهام قاعدة البيانات. في أداة علم البيانات، وهي واحدة من أفضل الأدوات لتصفية وبيانات مختارة في قاعدة البيانات.

2.5 جوليا

جوليا هي لغة البرمجة الديناميكية لالحوسبة التقنية. لم يتم استخدامه على نطاق واسع، ولكن بسبب مرونته والأداء والتصميم وشعبية متزايدة في أدوات علم البيانات.

3. استخراج البيانات

3.1 RapidMiner

RapidMiner هو أداة تحليل التنبؤية مع قدرات النمذجة البصرية والإحصائية. البرنامج الأساسي هو ستوديو RapidMiner، وهو منبر حر مفتوح المصدر.

3.2 تذوب البيانات

تذوب البيانات هو برنامج رياضي مع حسابات رياضية متقدمة، والتحليل الإحصائي وقدرات استخراج البيانات، ويمكن أن تستكمل لغات البرمجة، حتى يشمل مكتبة البرنامج التعليمي واسعة النطاق.

وعلاوة على ذلك، بايثون، وR لديهم الكثير من قواعد البيانات لاستخراج البيانات، وليس تكرارها هنا.

4. آلة التعلم

4.1 WEKA

هو مكتوب في جاوة WEKA من جامعة وايكاتو برامج تعلم آلة. فهو يستخدم لاستخراج البيانات، مما يتيح للمستخدم التعامل مع مجموعات كبيرة من البيانات. بعض خصائص WEKA يتضمن تجهيزها، والتصنيف، والانحدار، والتجميع والاختبار وسير العمل التصور.

4.2 TensorFlow

TensorFlow هي مكتبة البرمجيات لحوسبة العددية، التي تسمح للمبرمجين لتطبيق التعلم العميق دون الحاجة إلى فهم بعض المبادئ خلف مجمع، وورد فيه على عمق آلاف الشركات استخدام الأدوات العلمية البيانات التعلم أ.

4.2 أباتشي محوت

أباتشي محوت هي آلة قابلة للبناء تعلم الخوارزميات البيئة. هو مكتوب الخوارزمية على Hadoop. تنفذ محوت ثلاثة مهمة تعلم الآلة رئيسية هي: تعاوني الترشيح، وتجميع وتصنيف.

4.3 أورانج

البرتقالي هو أداة بسيطة لبيانات علمية، انها ملتزمة جعل العلم أكثر البيانات إثارة للاهتمام وتفاعلية، فإنه يسمح للمستخدمين لتحليل البيانات وتصور دون الحاجة لترميز، ولكن أيضا للمبتدئين آلة خيارات التعلم.

4.4 MLBase

MLBase هو مشروع مفتوح المصدر التابع لجامعة كاليفورنيا، بيركلي AMP (الروبوتات خوارزمية) وضعت في المختبر. الفكرة الأساسية وراء ذلك هو ليتم تطبيقها على نطاق واسع من المشاكل التعلم الآلي من توفير حل بسيط.

5. التصور البيانات

5.1 D3

5.2 Axiis

في أداة البيانات العلمية، إطار Axiis التصور البيانات هو غير معروفة. وهو يتيح للمستخدمين في شكل معبرة وموجزة لمخططات بناء واستكشاف البيانات باستخدام مكونات بنيت قبل.

6. أدوات أخرى

6.1 لينكس

باش السيناريو هو أكثر الأدوات الأساسية لعلوم الكمبيوتر، وجزء كبير من البيانات العلمية يتطلب برمجة حزمة يجب التعامل مع بعض سطر الأوامر، وإدارة الإطار، متغيرات البيئة، مسار وصول ($ PATH)، الخ، لذلك فمن الضروري لينكس .

6.2 جيت

عندما الترميز في الفريق، ويمكن لأعضاء فريق الاستفادة بوابة لانتهاك قانون العزيمة وإصلاح الخلل، التحديث. عند إرسال الرمز إلى المصدر المفتوح أو الريبو الملكية (مثل جيثب)، يمكنك استخدام شيء مثل المآزر اختبار التعليمات البرمجية، فضلا عن المساعدة في كود انتشار في إنتاج أطر أخرى.

6.3 واجهات برمجة التطبيقات REST

REST واجهات برمجة التطبيقات تسمح نموذج التدريب المحلي والإجراءات المتاحة بسهولة. من خلال المكالمات API القياسية أو تطوير تطبيقات لجعل البيانات المتاحة تتنبأ النماذج العلمية الحقيقية. وهذا هو أيضا دورا كبيرا في العلوم البيانات الخاصة به.

6.4 عامل الميناء وKubernetes

عامل الميناء يسمح للمستخدمين الحصول على (إنتاج جاهزة) بيئة التطبيق جاهزة للإنتاج، لا تحتاج إلى التركيز على خادم الإنتاج تكوين كخدمة واحدة كل شوط. تحتاج إلى تثبيت نظام كامل التشغيل والأجهزة الظاهرية مختلفة، حاويات عامل ميناء تعمل على نفس النواة المضيفة، والكثير خفيفة الوزن. بعض المكتبات تعلم آلة متطورة (مثل Tensorflow) يتطلب تكوين محددة، فمن الصعب استكشاف أخطاء على بعض الجنود عامل ميناء هو خيار جيد.

Kubernetes (K8s) هو واحد من إدارة الحاويات على نطاق ونشر خدمة على منصات المضيف متعددة. أساسا، وهذا يعني أنه يمكنك لمد بسهولة من خلال مستوى عبر مجموعة والإدارة والحاويات عامل ميناء النشر.

6.5 أباتشي تدفق الهواء

تدفق الهواء هو أقلية صغيرة نسبيا من منصة بيثون، هناك يمكن استخدامها لإنشاء برنامج مخطط موجه احلقي (وDAG) والجدولة وسير العمل الرصد. انها تسمح لك لتحديد بسهولة في أي وقت كما بيثون حاجة أو البرمجة باش، وجدولة ومراقبة العمليات في واجهة المستخدم الرسومية سهلة الاستخدام.

6.6 Elasticsearch

أداة Elasticsearch هي أقلية صغيرة نسبيا. مرونة من قبل العميل بيثون يوفر كل ما يلزم لبسهولة، بحيث يمكن أن تكون بسهولة المتسامحة وسيلة قابلة للمؤشر وثائق البحث. لمزيد من البيانات لديك، وأكثر من العقد تبدأ، وسرعة تنفيذ الاستعلام بشكل أسرع. لديها العديد من الوظائف، وحتى يدعم محلل متعدد اللغات وغيرها من المكونات الإضافية المخصصة.

6.7 البيرة

البيرة هي أداة لأنظمة ماك OS، يمكن أن تساعد يتم تثبيت نظام التشغيل من خارج منطقة الجزاء عن طريق نظام قيادة المحطة التي يتم استخدامها لتعويض نظام OS دون إدارة حزمة عيب.

الحب يعطي معنى البيت التكنولوجيا الذكية لإنقاذ الناس على قيد الحياة

7.2.2 الإعاقة يمكن أن يبدو مسرح بانورامية لخلق الصوتيات "البديلة"

لعبة العمل عبر وكانت "المتمرد ميكانيكي" نسخة PC الصينية على الانترنت

فاز باو تشيانغ على جائزة أفضل مدير مخيبة للآمال، لقبول الجائزة بنفسه: أن أقول آسف للجمهور

"بلو رش" لوضع اللمسات الأخيرة على تاريخ العودة، في الذكرى 20 لهذا الزوج من الهواء Foamposite يجب أن نكافح سرعة اليد

الصين شو تشونغ يبدو المنزل الذكي Rongshida الصب الابتكار مهد مزدوج

"لولو آسيا استوديو" المخابرات الجديد: بي ياني نمت لتصبح المعلم آسيا لولو

أول ذهبية! وتشانغشا TIANMA جعل التاريخ للمحافظة أن يكون أول ميدالية ذهبية فازت اثنين من الأخضر

كوالكوم، ZTE وتشاينا موبايل تحقيقها بنجاح الأولى في العالم نهاية إلى 5G جديد واجهة نظام الهواء على العمل المشترك لتعزيز تشاينا تايمز 5G

أبرد "ثلاثة تسعة أيام،" أعضاء المدججين بالسلاح من الجمهور للتدفئة

أعلى قيمة الاحتفاظ SUV 2017 ماذا؟

البيانات الصحيحة كبيرة في مجال توسيع