دليل المبتدئين البيانات الكبيرة (جمع موصى به)

وان كلمة النص، وجمع الموصى بها

الخطوط العريضة:

الفصل الأول: التعارف Hadoop

الفصل الثاني: أكثر كفاءة WordCount

الفصل 3: الحصول على مكان آخر البيانات على Hadoop

الفصل 4: البيانات على Hadoop الحصول على مكان آخر

الفصل الخامس: الحصول على معها، SQL بلدي

الفصل 6: تعدد الزوجات

الفصل 7: المزيد والمزيد من المهام تحليل

الفصل 8: أريد أن البيانات في الوقت الحقيقي

الفصل 9: أريد أن بيانات خارجية

تعلم الآلة على الأجهزة سريع طويل القامة: الفصل X

مبتدئين كثيرا ما يسألني، وأنها ترغب في تطوير اتجاه البيانات الكبيرة، والتكنولوجيا لمعرفة ما لمعرفة أي نوع من الطريق، وأعتقد أن البيانات الكبيرة هو النار، وظائف جيدة، والأجور العالية. إذا تم الخلط فيه، لهذه الأسباب للتفكير الاتجاه بيانات كبيرة، يمكن أن يكون، ثم أود أن أسأل، ما هو مهنتك، لكومبيوتر / سوفت وير، ما هي تحبها؟ هو المهنية الكمبيوتر، المهتمة في نظام التشغيل، والأجهزة والشبكات والخادم؟ والمهنية وتطوير البرمجيات، والبرمجيات، البرمجة، كتابة التعليمات البرمجية التي الفائدة؟ أو الرياضيات، والإحصاء، مهتمة بشكل خاص في البيانات والأرقام.

في الواقع، وهذا هو الاتجاه الذي نريد أن نقول ثلاثة منصة البيانات الكبيرة لبناء / الأمثل / تشغيل وصيانة / مراقبة وتطوير البيانات الكبيرة / التصميم / الهندسة المعمارية، وتحليل البيانات / التعدين. من فضلك لا تسألني التي من السهل، وهو احتمال جيد، والذي المزيد من المال.

4V لسحب يتميز البيانات الكبيرة:

  • كمية كبيرة من البيانات، TB- > PB
  • العديد من أنواع البيانات، منظم، والنص غير منظم، سجل، الفيديو، الصور، موقع ومثل.
  • قيمة تجارية عالية، ولكن القيمة على أعلى كميات هائلة من البيانات المطلوبة، من خلال تحليل البيانات وآلة التعلم بشكل أسرع حفرها.
  • عالية التجهيز في الوقت المناسب، والبيانات الضخمة تجهيز متطلبات لم تعد محصورة لهم خارج الخط الحساب.

الآن، من أجل التعامل مع هذه الخصائص الشكلية للالبيانات الكبيرة، البيانات الكبيرة إطار مفتوح المصدر، وأكثر وأقوى، لسرد بعض تلك الشائعة:

تخزين الملفات: Hadoop HDFS، Tachyon، KFS حساب خارج الخط: Hadoop مابريديوس، سبارك تدفق، في الوقت الحقيقي حساب: عاصفة، سبارك الجري، S4، مالك الحزين K-V، قاعدة بيانات NOSQL: HBase، رديس، MongoDB إدارة الموارد: الغزل وMesos جمع السجل: المسايل، الكاتب، Logstash، Kibana نظام الرسالة: كافكا، StormMQ، ZeroMQ، RabbitMQ تحليل: خلية، إمبالا، خنزير، المعزوفة، وفينيكس، SparkSQL، الحفر، Flink، كيلين، الكاهن خدمة التنسيق الموزعة: حارس الحديقة إدارة المجموعة والرصد: امباري، العقد، Nagios، Cloudera مدير استخراج البيانات، والتعلم الآلي: محوت، سبارك MLLib مزامنة البيانات: Sqoop جدولة المهام: Oozie ......

الدوار، اليمين، فوق 30 نوعا منه، يتقن ناهيك عن، كل استخدام، واعتقد ليست كثيرة. بالنسبة لي شخصيا، فإن تجربة الرئيسية هي في اتجاه الثاني (تنمية / التصميم / الهندسة المعمارية)، والاستماع إلى نصيحتي ذلك.

الفصل الأول: التعارف Hadoop

1.1 تعلم بايدو وجوجل

بغض النظر عن أي مشاكل، أولا محاولة حل البحث الخاصة بهم.

فضل جوجل، وتسلق، ومجرد استخدام بايدو بار.

فضل 1.2 المراجع وثائق رسمية

خاصة بالنسبة للدخول، والوثائق الرسمية وسوف يكون دائما الخيار الأول للوثيقة.

وأعتقد أن هذا من المثقفين تعمل في الغالب، الارتجال الإنجليزية على الخط، لم أستطع الوقوف، يرجى الرجوع إلى الخطوة الأولى.

دعوهم تشغيل Hadoop 1.3

ويمكن اعتبار Hadoop بوصفها تخزين البيانات الكبيرة والحوسبة النسب، معظمهم الآن مفتوحة المصدر Hadoop إطار البيانات كبيرة أو تعتمد التوافق جيدة جدا معها.

حول Hadoop، كنت على الأقل بحاجة لمعرفة ما هي ما يلي:

  • Hadoop 1.0، 2.0 Hadoop
  • مابريديوس، HDFS
  • NameNode، DataNode
  • JobTracker، TaskTracker
  • الغزل، ResourceManager، NodeManager

بناء Hadoop الخاصة بهم، يرجى استخدام المرحلتين الأولى والثانية، والسماح لها لتشغيل حتى على خط المرمى.

فمن المستحسن استخدام سطر الأوامر لتثبيت حزمة التثبيت، لا تستخدم أدوات إدارة المثبتة.

أيضا: Hadoop1.0 أعلم أنه من خط، والآن مع Hadoop 2.0.

حاول استخدام Hadoop 1.4

HDFS قيادة عمليات الدليل. الأمر تحميل وتنزيل الملفات؛ إرسال مابريديوس تشغيل برنامج عينة.

فتح واجهة WEB Hadoop لعرض تشغيل الوظيفة، عرض سجل تشغيل الوظيفة.

أنا أعرف أين بتسجيل نظام Hadoop.

1.5 يجب أن نفهم مبادئهم من

مابريديوس: كيفية تقسيم والمادة. HDFS: أين هي البيانات، ما هو نسخة. الغزل في النهاية هو ما يمكن القيام به. NameNode في النهاية يفعلون. ResourceManager في النهاية يفعلون.

1.6 الكتابة برنامج مابريديوس

يرجى اتباع WordCount سبيل المثال، لكتابة (النسخة هي أيضا موافق) برنامج WordCount، وتعبئتها وتقديمها لتشغيل Hadoop.

فلن جافا؟ شل، بيثون يمكن أن يكون، هناك شيء يسمى Hadoop الجري.

إذا كنت جادا الانتهاء من الخطوات السابقة، تهانينا، أنت قدم واحدة دخلت بالفعل.

الفصل الثاني: أكثر كفاءة WordCount

تعلم SQL 2.1 بار

أنت تعرف قواعد البيانات؟ SQL تكتب عليه؟ إذا لم يكن كذلك، من فضلك تعلم SQL ذلك.

2.2 SQL نسخة WordCount

في 1.6، تكتب (أو نسخ) من WordCount هناك بضعة أسطر من التعليمات البرمجية؟

أنت تنظر في وجهي:

كلمة SELECT، COUNT (1) من مجموعة wordcount BY كلمة.

هذا هو سحر SQL البرمجة عشرات المطلوبة من الخطوط، أو مئات بل من خطوط للقانون، لا بد لي من الحصول على هذه واحدة، واستخدام معالجة SQL وتحليل البيانات المتعلقة Hadoop، ومريحة وفعالة ودود، بل وأكثر هو الاتجاه. سواء المحسوبة أو خارج الخط في الوقت الحقيقي الحوسبة، بيانات أكثر وأكثر الكبيرة تجهيز الإطار هي تقدم بنشاط واجهة SQL.

خلية 2.3 SQL في Hadoop ل

ما هي الخلية؟ التفسير الرسمي المعطى:

البرنامج مستودع البيانات أباتشي خلية يسهل القراءة والكتابة، وإدارة قواعد البيانات الكبيرة المقيمة في التخزين الموزعة وشملهم الاستطلاع باستخدام بناء الجملة SQL.

لماذا خلية هو أداة تخزين البيانات، بدلا من أن يكون أداة قاعدة البيانات؟ بعض الناس قد لا يعرفون مستودع البيانات، مستودع البيانات هو مفهوم منطقي، وذلك باستخدام قاعدة البيانات الأساسية، ومستودع البيانات لديها اثنين من الخصائص: معظم البيانات التاريخية الشاملة (الكتلة)، مستقرة نسبيا، ما يسمى الاستقرار النسبي في اشارة الى قاعدة بيانات نظام عمل يختلف عن مستودع البيانات، سيتم تحديث البيانات بشكل متكرر، البيانات مرة واحدة في مستودع البيانات نادرا ما تحديثها وحذفها، سوف يكون هناك عدد كبير من الاستعلامات. في الخلية، وأيضا هذه الخصائص اثنين، وبالتالي، خلية مناسبة للبيانات كتلة من البيانات أدوات التخزين، بدلا من أن يكون أداة قاعدة البيانات.

2.4 تثبيت تكوين خلية

يرجى الرجوع إلى 1.1 و 1.2 من تكوين التثبيت الخلية. خلية يمكن أن تدخل عادة سطر الأوامر.

حاول استخدام خلية 2.5

يرجى الرجوع إلى 1.1 و 1.2، إنشاء جدول wordcount في خلية وتشغيل العبارة 2.2 SQL. مهمة SQL للعثور فقط تشغيل Hadoop واجهة ويب.

ترى نتائج الاستعلام SQL وإذا كانت النتائج متسقة في مابريديوس 1.4.

2.6 خلية هو كيف يعمل

كتب على ما يبدو SQL، انظر ماذا Hadoop واجهة WEB هي مهمة مابريديوس؟

2.7 تعلم الأوامر الأساسية للخلية

إنشاء الجدول حذف. تحميل البيانات في الجدول. تنزيل البيانات الجدول خلية.

انظر القسم 1.2 لمعرفة المزيد عن خلية وجملة الأمر.

إذا كنت قد اتبعت "البيانات الكبيرة مكتوبة لتنمية الكلمات مبتدئين" في تدفق الفصول الأولى من الثانية كامل ذهب محمل الجد مرة أخرى، ثم يجب أن يكون بالفعل المهارات والمعارف التالية:

  • 0 واختلاف Hadoop2.0.
  • مبدأ مابريديوس (أو هذا العنوان الكلاسيكية، حجم 10G من الملف، نظرا لحجم ذاكرة 1G، وكيفية استخدام برامج جافا تصل إلى 10 أضعاف عدد من الكلمات وإحصاءات تظهر)؛
  • HDFS القراءة وتدفق البيانات الكتابة؛ البيانات PUT إلى HDFS، تنزيل البيانات من HDFS.
  • سأكتب برنامج مابريديوس بسيط، ومشاكل تشغيل، تعرف من أين لعرض السجل.
  • الكتابة بسيطة SELECT، WHERE، GROUP BY والبيانات SQL الأخرى؛
  • تحويل الإجراء خلية SQL إلى حد كبير في مابريديوس.
  • بيان مشترك خلية: إنشاء الطاولة، طاولة الإسقاط، وتحميل البيانات في جدول والتقسيم، وتحميل البيانات في الجدول إلى المحلية؛

من الدراسة المذكورة أعلاه، كنت قد تعلمت، الإطار تخزين موزعة يتم توفيرها Hadoop HDFS، والتي يمكن أن تستخدم لتخزين كميات هائلة من البيانات، هو Hadoop الحوسبة الموزعة إطار المقدمة، ويمكن استخدامه مابريديوس على كميات هائلة من البيانات وHDFS التحليل الإحصائي في حين أن الخلية هي SQL على Hadoop، وتوفر خلية واجهة SQL والمطورين تحتاج فقط إلى كتابة عبارات SQL بسيطة ودود، المسؤولة عن SQL خلية ترجمتها إلى مابريديوس، قدمت لتشغيل.

عند هذه النقطة، ك "منصة البيانات الكبيرة،" هو هذا:

لذا فإن السؤال هو، كيف واسعة كميات من البيانات إلى HDFS ذلك؟

الفصل 3: الحصول على مكان آخر البيانات على Hadoop

هنا يمكن أيضا أن يطلق عليه الحصول على البيانات، والبيانات التي يحصل عليها إلى مصادر البيانات منها Hadoop.

3.1 HDFS PUT القيادة

هذا أمامك يجب أن تستخدم من قبل.

وضع الأمر في بيئة حقيقية غير شائع نسبيا، وعادة مع شركة شل، والثعبان وغيرها من لغات البرمجة للاستخدام.

سيد الموصى بها.

3.2 HDFS API

يوفر HDFS API لكتابة البيانات، فإنها تستخدم لغة برمجة لكتابة البيانات إلى HDFS، وطرح الأمر نفسه أيضا استخدام API. عادة بيئتهم الفعلية باستخدام عدد أقل من API برمجة لكتابة البيانات إلى HDFS، وعادة ما تكون تعبئتها الأطر الأخرى الأسلوب. على سبيل المثال: خلية في بيان INSERT، شرارة saveAsTextfile وهلم جرا.

فهم مبادئ الاقتراحات والكتابة تجريبي.

3.3 Sqoop

Sqoop هو إطار مفتوح المصدر الرئيسي لتبادل البيانات بين Hadoop / خلية قاعدة بيانات علائقية التقليدية أوراكل / ماي / سيكلسرفير مثل.

كما ترجم خلية SQL إلى مابريديوس، مثل، Sqoop لترجمة المعلمات التي تحددها في مابريديوس، Hadoop عاملة المقدمة لإتمام تبادل البيانات بين Hadoop وقواعد البيانات الأخرى.

تحميل وتكوين Sqoop الخاصة بهم (ينصح باستخدام Sqoop1، Sqoop2 أكثر تعقيدا).

تحديد معلمات التكوين المشتركة وأساليب Sqoop.

الانتهاء Sqoop باستخدام الخلية إلى البيانات تزامن من HDFS. Sqoop تستخدم لاستكمال البيانات التزامن من الجدول الخلية خلية.

PS: إذا تم تحديد اختيار اللاحقة باستخدام Sqoop كأداة تبادل البيانات، فمن المستحسن لسيده، وإلا، سيتم استخدامها لفهم وتجريبي يمكن أن يكون.

3.4 المسايل

المسايل هو ضخم جمع سجل ونقل إطار توزيعها، لأن "حيازة ونقل إطار"، لذلك ليست مناسبة لجمع البيانات وقواعد البيانات العلائقية انتقال.

المسايل من بروتوكول الشبكة، نظام الرسائل، في الوقت الحقيقي سجلات نظام الملفات التي تم جمعها وإرسالها إلى HDFS. لذلك، إذا كان لديك بيانات الأعمال من مصادر البيانات هذه، والحاجة إلى جمع في الوقت الحقيقي، ثم يجب عليك أن تنظر باستخدام المسايل.

تحميل وتكوين المجرى.

المسايل باستمرار مراقبة ملف باستخدام بيانات إضافية، ونقل البيانات إلى HDFS.

PS: مواصفات المجرى واستخدام أكثر تعقيدا، وإذا لم يكن لديك ما يكفي من الاهتمام والصبر، يمكنك تخطي المجرى.

3.5 علي المصدر المفتوح DataX

السبب في هذه المقدمة، لأن الأداة Hadoop والبيانات قاعدة بيانات علائقية نحن حاليا استخدام الصرف، ويستند على DataX التي سبق وضعها، من السهل جدا استخدام.

يمكنك الرجوع إلى بلدي بلوق "غير متجانسة مصادر البيانات أداة تبادل البيانات كتلة -Taobao DataX تحميل والاستخدام."

لديها DataX الآن إصدار 3.0، ويدعم العديد من مصادر البيانات.

يمكنك أيضا القيام تطوير الثانوية فوقه.

PS: يمكن للأطراف المهتمة بدراسة واستخدامها، ومقارنتها مع Sqoop.

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

الفصل 4: البيانات على Hadoop الحصول على مكان آخر

رأينا كيف أن البيانات التي تم جمعها إلى مصدر بيانات Hadoop، بعد صدور بيانات يوم Hadoop، خلية ومابريديوس يمكن استخدامها لتحليل. فإن السؤال التالي هو كيف النتائج من تحليل Hadoop كامل متزامنة على الأنظمة والتطبيقات الأخرى تذهب؟

في الواقع، وأساليب هنا والفصل الثالث في الأساس نفسه.

4.1 HDFS GET القيادة

الملفات على HDFS GET محليا. تحتاج لإتقان.

4.2 HDFS API

مع 3.2.

4.3 Sqoop

مع 3.3.

استخدام Sqoop ملف كامل عن HDFS مزامنة إلى الخلية. الانتهاء خلية Sqoop باستخدام بيانات متزامنة إلى طاولة الخلية.

4.4 DataX

مع 3.5.

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

إذا كنت قد اتبعت عملية الفصل الثالث والرابع "، وكتب 2 الكبيرة الكلمات مبتدئين تطوير البيانات" خطيرة كامل ذهبت مرة أخرى، ثم يجب أن يكون لديك بالفعل المهارات والمعارف التالية:

ونحن نعرف كيفية جمع البيانات الموجودة على HDFS، بما في ذلك حاليا جمع واقتناء الوقت الحقيقي.

تعلمون sqoop (أو هناك DataX) هو أداة لتبادل البيانات بين HDFS ومصادر البيانات الأخرى.

تعلمون المسايل يمكن أن تستخدم كمجموعة سجل في الوقت الحقيقي.

من الدراسة السابقة، على منصة البيانات الكبيرة، كنت تعرف الكثير من المعرفة والمهارات اللازمة لبناء كتلة Hadoop،

البيانات التي تم جمعها إلى Hadoop، خلية ومابريديوس استخدمت لتحليل البيانات، وتزامن نتيجة تحليل لمصادر البيانات الأخرى.

والسؤال التالي هو، المزيد والمزيد من استخدام الخلية، وسوف تجد الكثير من أنواع الأماكن، خصوصا بطيئة،

في معظم الحالات، من الواضح لي كمية صغيرة من البيانات، يجب أن تطبق على الموارد لبدء تنفيذ مابريديوس.

الفصل الخامس: الحصول على معها، SQL بلدي

في الواقع، لقد وجدت أن استخدام مابريديوس خلية خلفية كمحرك التنفيذ، وإن كان بطيئا بعض الشيء.

لذلك، إطار SQL في Hadoop لأكثر وأكثر، وفقا لفهمي، والأكثر شيوعا تستخدم وفقا لشعبية كانت SparkSQL، إمبالا والمعزوفة.

هؤلاء الثلاثة إطار الذاكرة القائمة على الذاكرة نصف أو كاملة، ويوفر واجهة SQL للتحليل السريع للبيانات على Hadoop. حول المقارنة بين الثلاثة، يرجى الرجوع إلى 1.1.

ونحن في الوقت الحاضر استخدام SparkSQL، لماذا SparkSQL، فإنه اسباب حول ما يلي:

سبارك أيضا استخدام أشياء أخرى يجب القيام به، وعدم إدخال الكثير من الإطار؛

ومتطلبات الذاكرة إمبالا نشرت كبيرة جدا، وليس الكثير من الموارد؛

حول سبارك 5.1 و SparkSQL

ما هو شرارة، ما هو SparkSQL. يثير بعض المفاهيم الأساسية والمصطلحات. SparkSQL وشرارة ما هي العلاقة، SparkSQL وخلية ما هي العلاقة. SparkSQL لماذا تعمل بشكل أسرع من الخلية.

5.2 كيفية نشر وتشغيل SparkSQL

التي سبارك موديل نشر لديكم؟ كيفية تشغيل SparkSQL على غزل؟ الجداول الاستعلام استخدام SparkSQL خلية.

PS: شرارة ليست فترة قصيرة من الوقت سوف تكون قادرة على السيطرة على التكنولوجيا، ويقترح في فهم سبارك، يمكنك البدء SparkSQL بداية، وخطوة خطوة.

معلومات عن شرارة وSparkSQL، راجع

 

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

الفصل 6: تعدد الزوجات

لا يميل بهذا الاسم. في الواقع، أريد أن أقوله هو عبارة عن مجموعة من البيانات، واستهلاك متعددة.

في سيناريوهات الأعمال الفعلية، وخاصة بالنسبة لبعض سجلات الرصد، تريد فهم الفوري لبعض المؤشرات (على حساب الوقت الحقيقي، وسيتم عرض في وقت لاحق فصول) من سجل، هذه المرة، من تحليل HDFS بطيئة جدا، على الرغم من المسايل لا يمكن بدء الاستحواذ، ولكن المجرى لتمرير فاصل قصير جدا من خلال الملفات على HDFS، وهذا سوف يؤدي إلى العدد الكبير جدا من الملفات الصغيرة.

من أجل تلبية مجموعة من البيانات، واحتياجات المستهلكين متعددة، لقوله هنا هو كافكا.

6.1 معلومات عن كافكا

ما هو كافكا؟

جوهر مفهوم كافكا والمصطلحات.

6.2 كيفية نشر واستخدام كافكا

استخدام نشر مستقل كافكا، وأمثلة عملية ناجحة من المنتجين والمستهلكين يأتي.

كنت قد كتبت باستخدام برنامج جافا وتشغيل منتجي البرامج والمستهلكين.

يتم إرسال المسايل وكافكا التكامل، وذلك باستخدام سجلات مراقبة المسايل، وبيانات سجل في الوقت الحقيقي لكافكا.

حول كافكا، ويمكن الرجوع إلى

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

ثم، تم جمعها باستخدام بيانات المسايل، وليس مباشرة على HDFS، ولكن أولا لكافكا، يمكن كافكا تستهلك البيانات في وقت واحد من قبل المستهلكين المتعدد، الذي المستهلك هو لمزامنة البيانات إلى HDFS.

إذا كنت قد اتبعت V الفصول العملية والسادس من "مبتدئين تطوير البيانات الكبيرة 3 كلمات مكتوبة" خطيرة كامل ذهبت مرة أخرى، ثم يجب أن يكون لديك بالفعل المهارات والمعارف التالية:

  • لماذا سبارك أسرع من مابريديوس.
  • بدلا من استخدام SparkSQL خلية وأسرع تشغيل SQL.
  • استخدام كافكا جمع البيانات مرة واحدة كاملة، والعديد من العمارة المستهلك.
  • هل يمكن كتابة برنامج لإكمال المنتجين والمستهلكين كافكا.

من الدراسة السابقة، كنت تتقن الحصول على البيانات منصة البيانات الكبيرة، ومعظم تخزين البيانات والحوسبة، وتبادل البيانات وغيرها من المهارات، والتي في كل خطوة، ونحن بحاجة مهمة (برنامج) لإكمال، بين مختلف المهام وهناك تبعية معينة، على سبيل المثال، يجب الانتظار للقيام بهذه المهمة الحصول على البيانات وبنجاح، يمكن للبيانات أن تبدأ في تشغيل مهام الحوسبة. إذا فشلت المهمة، نحن في حاجة الى ارسال تنبيه إلى تنمية الكوادر التشغيل والصيانة، والحاجة إلى توفير سجلات كاملة لتسهيل حل المشاكل.

الفصل 7: المزيد والمزيد من المهام تحليل

ليس فقط مهام التحليل والحصول على البيانات، وتبادل البيانات هي أيضا واحدة من المهام. هذه المهام، وبعض الزناد توقيت، تحتاج إلى الاعتماد على غيرها من المهام قليلا لالزناد. عندما منصة هناك مئات الآلاف من المهام المطلوبة للحفاظ على ووقت التشغيل، غير كرونتاب وحده لا يكفي، ثم انهم في حاجة الى نظام للمراقبة والإشراف على فعل ذلك. نظام للمراقبة والإشراف هو العمود الفقري للنظام منصة البيانات بالكامل، على غرار AppMaster، المسؤولة عن تخصيص ومراقبة المهام.

7.1 أباتشي Oozie

1. Oozie ما هذا؟ ما هي الميزات؟ 2. أنواع Oozie ما من المهام يمكن جدولة (البرنامج)؟ 3. Oozie يمكن أن تدعم مهمة التي الزناد؟ 4. تثبيت تكوين Oozie.

7.2 مفتوح المصدر باقي نظام جدولة المهام

أزكابان:

https://azkaban.github.io/

ضوء المهام جدولة:

https://github.com/ltsopensource/light-task-scheduler

زيوس:

https://github.com/alibaba/zeus

وهلم جرا ......

وبالإضافة إلى ذلك، وهنا هو جدولة مهمتي ونظام الرصد وضعها على حدة من قبل، على وجه التحديد الرجوع إلى "منصة البيانات الكبيرة لجدولة المهام ونظام الرصد".

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

الفصل 8: أريد أن البيانات في الوقت الحقيقي

في الفصل السادس من كافكا ذكر بعض الوقت مؤشرات الحاجة في الوقت الحقيقي من سيناريوهات الأعمال، في الوقت الحقيقي ويمكن تقسيم أساسا في المطلق الوقت الحقيقي والقريب في الوقت الحقيقي، في الوقت الحقيقي متطلبات الكمون المطلق عادة في ميلي ثانية، ومتطلبات تأخير شبه الوقت الحقيقي عموما في ثوان، ومستوى دقيقة . ضرورة مطلقة في الوقت الحقيقي الساحة التجارية، مع أكثر من العاصفة، يمكن سيناريوهات الأعمال الأخرى شبه الوقت الحقيقي يكون العاصفة، فإنه يمكن أيضا أن يكون شرارة الجري. بالطبع، إذا كنت تستطيع، يمكنك أيضا كتابة البرامج للقيام بأنفسهم.

8.1 العاصفة

1. ما هي العاصفة؟ ما هي السيناريوهات المحتملة هناك؟ 2. العاصفة التي تتألف من المكونات الأساسية، كل ما هو الدور؟ 3. العاصفة تركيب بسيطة والنشر. 4. كتابة البرنامج التجريبي الخاص بك، استخدام العاصفة إلى البيانات في الوقت الحقيقي كاملة تتدفق حساب.

8.2 سبارك الجري

1. ما هو شرارة الجري، شرارة وهذا ما هي العلاقة؟ 2. سبارك الجري والعاصفة المقارنة، ما مزايا وعيوب؟ 3. استخدام كافكا + شرارة برنامج الجري، واستكمال تجريبي تحسب في الوقت الحقيقي.

إذا كنت تنفذ بجدية الدراسة المذكورة أعلاه والممارسة، في هذا الوقت، يجب بك "منصة البيانات الكبيرة" تبدو هذه:

في هذه المرحلة، وقد منصة البيانات الكبيرة الخاصة بك تشكيل بنية الأساسية، بما في ذلك جمع البيانات وتخزين البيانات والحوسبة (خارج الخط في الوقت الحقيقي و)، مزامنة البيانات، وجدولة ومراقبة هذه الوحدات الكبيرة. التالي هو الوقت المناسب للنظر في أفضل السبل لتوفير بيانات خارجية تصل.

الفصل 9: أريد أن بيانات خارجية

تقديم الخارجية عادة الوصول إلى البيانات (رجال الأعمال)، ويشمل عموما الجوانب التالية:

غير متصل: على سبيل المثال، في اليوم السابق ليوم تقديم البيانات إلى مصدر محدد البيانات (DB، FILE، FTP) وما شابه ذلك.

قد تكون استخدمت لتوفير متواجد حاليا بيانات Sqoop، DataX أداة الصرف متواجد حاليا بيانات أخرى.

في الوقت الحقيقي: على سبيل المثال، موقع على الانترنت للنظام التوصية، نحن بحاجة للحصول على البيانات في الوقت الحقيقي من النظام الأساسي إلى مستخدمي البيانات الموصى بها، الأمر الذي يتطلب منخفضة جدا الكمون (أقل من 50 مللي ثانية).

وفقا لمتطلبات الكمون الاستعلام والبيانات في الوقت الحقيقي الحاجة، وهناك سيناريوهات محتملة: HBase، رديس، MongoDB، ElasticSearch وهلم جرا.

تحليل OLAP: نموذج بيانات OLAP الأساسية بالإضافة إلى تتطلب أكثر موحدة، وعلاوة على ذلك، الاستعلام متطلبات سرعة الاستجابة تتزايد أيضا، البرنامج قد يكون لديك: إمبالا، المعزوفة، SparkSQL، كيلين. إذا قارنت حجم نموذج البيانات، ثم كيلين هو الخيار الافضل.

مخصصة الاستعلام: مخصصة الاستفسارات بيانات أكثر عارضة، وعادة من الصعب تحديد نموذج بيانات المشترك، لذلك هناك سيناريوهات محتملة: إمبالا، المعزوفة، SparkSQL.

أكثر من ذلك بكثير تنضج الأطر وتحتاج برامج لدمج احتياجات أعمالهم والتقنية الهندسة المعمارية منصة البيانات، حدد المناسب

A. إلا مبدأ واحد: وأكثر بساطة وأكثر استقرارا هو أفضل.

إذا كنت تعرف جيدا كيف خارجي (رجال الأعمال) لتوفير البيانات، ثم بك "منصة البيانات الكبيرة" ينبغي أن تبدو هذه:

تعلم الآلة على الأجهزة سريع طويل القامة: الفصل X

حول هذا، يمكن للشخص العادي أن يكون لي فقط وجيزة. أنا الرياضيات تخجل جدا تخرج، لم الأسف لا تعلم الرياضيات بشكل صحيح.

استخدام آلة التعلم لحل المشاكل في عملنا، لذلك ربما واجه ثلاث فئات:

  • تصنيف: بما في ذلك ثنائي ومتعدد تصنيف، تصنيف ثنائي هو حل مشكلة التنبؤ، فقط التكهن ما إذا كان البريد الإلكتروني غير المرغوبة، حل متعدد تصنيف هو إلى نص تصنيف.
  • تجميع المشكلة: من البحث المستخدم الكلمة الرئيسية ل، المستخدم ربما تصنف.
  • الأسئلة الموصى بها: التوصيات ذات الصلة تستند إلى تاريخ التصفح وانقر سلوك المستخدم.

معظم الصناعات، وذلك باستخدام آلة التعلم لحل، وهذا هو، هذه الأنواع من المشاكل.

خط بوابة التعليم:

أساس رياضي.

قتال تعلم الآلة (آلة التعلم في العمل)، بيثون أعلم.

يوفر SparkMlLib بعض خوارزمية تعبئتها، وتجهيز ميزة، وطريقة اختيار الميزة.

آلة التعلم الأجهزة سريع حقا طويل القامة، فمن أهدافي التعلم.

لذلك، يمكنك وضع وإضافة المقطع تعلم الآلة أيضا بك "منصة البيانات الكبيرة"، و.

البيانات الكبيرة اللازمة لتطوير الموارد دفع كامل [حرية الوصول]

المدير الفني أوراكل كبير لسنوات عديدة خلق بعناية نظام منهج شامل [البيانات الكبيرة] يجب أن نرى تطور الذكاء الاصطناعي، مساعدة شاملة تطوير البيانات الكبيرة صفر على المشاريع دخول + + + لتعزيز = الأجر عالية !

"إدخال البيانات الكبيرة صفر القائم".

"مكونات نظام العمارة البيانات الكبيرة"

"البيانات الكبيرة هو كامل حزمة التثبيت أدوات النظام".

أداة لا غنى عنها لجاوا

بيانات الكبير هو أداة أساسية

"صناعة البيانات الكبيرة المعلومات لا بد من معرفة."

"جودة البيانات الكبيرة من الحالات الفعلية".

"برنامج الإرشاد الكبير البيانات الوظيفي"

وأخيرا، والحديث عنها، والتي هي أكثر من الدروس الحصول على الطريق!

تلقي الأسلوب:

أو أن السنوات نفس القواعد القديمة

1. مراجعة، لا حدود كلمة، وكلمة واحدة تفعل!

2. أصبح من المعجبين سلسلة صغيرة أن يكون!

3. الرسالة تريسي الخاص: "دليل التنمية البيانات الكبيرة" يمكن أن يكون!

شكرا لكم، وأتمنى لكم التعلم سعيد! (تأكد من الحصول على دروس للتعلم، لممارسة أوه!)

دمج الحوسبة عالية الأداء والبيانات الكبيرة وتعلم الآلة

مستودع بيانات الخلية والتحسين على مستوى المؤسسة

تشانجان نظام PLUS مزدهر يضيف سيارة يات الخطوة PLUS، كان المشروع المشترك الوثوب

تطوير البيانات الكبيرة والبيانات الكبيرة والتكنولوجيات ذات الصلة

دراسة أكثر تفصيلا من مخطط البيانات الكبيرة

"ميكس الجافة" البيانات الكبيرة صعبة، صعبة للغاية؟ هذه صعوبات في التعلم تأخذ كتابا جيدة

أفق سيارة هاي ليانغ تشانغ: في النصف الثاني إبراز | تجاوز

وربما هذا هو معظم التاريخ الكامل ل"البيانات الكبيرة" ومصادر التعلم

برنامج التعلم البيانات الكبيرة (التحسين المستمر)

بويك مزرق تعزيز السر وراء 410KM الأساسية

دراسة فائقة مفصلة من أخطاء البيانات الكبيرة كلها في هذا! "تحصيل"

أودي ترون ه سعر السوق من 658800 الحالات، دفع أربعة استراتيجية الخدمة