استخدام صفعة كومة لتحليل البيانات السريع

الكاتب: MA شياو، جامعة تشجيانغ المالية تحليل البيانات والحوسبة كبيرة أستاذا زائرا. بعد الدكتوراه في الرياضيات في عام 2006 في جامعة بريمن، ألمانيا، وتعمل في مجال البحث والتدريس في معهد هندسة البرمجيات بجامعة دورتموند حتى عام 2011، وجاء الى الصين.

هذا المقال هو "مبرمج" اشتراك "مبرمج"

من البيانات الكبيرة إلى البيانات بسرعة

بالإضافة إلى القدرة على تحليل مجموعات البيانات الكبيرة في دفعة واسطة، يحتاج منظمة تعتمد على البيانات الحديثة أيضا لتوليد البصيرة من البيانات التي تم جمعها في أقرب وقت ممكن، وفي نهاية المطاف اتخاذ الإجراءات اللازمة. وفي هذا الصدد، كومة التقليدية Hadoop (HDFS كطبقة التخزين، أو مابريديوس تيز كإطار العملية، مدير غزل الموارد الكتلة) عدم وجود خطورة. للتخفيف من حدة هذه الحالة، تم اقتراح هذه الصناعة، مثل الهندسة المعمارية لامبدا (انظر "مبرمج" نوفمبر 2016 "لامبدا وكابا الهندسة المعمارية الحوسبة أرى" نص) وغيرها من البنى التحتية. في الهندسة المعمارية لامبدا، و "بطيئة" البيانات الكبيرة تجهيز إطار (مثل Hadoop كومة) جنبا إلى جنب مع إطار "سريع" تدفق العملية (على سبيل المثال، اباتشي العاصفة). أو لإبطاء إطار عملية إعادة دمجهم بشكل دوري من معالجة بيانات الإطار سريع أو التخلص منها تماما، والاستعاضة عنها بيانات الإطار معالجة باستخدام عملية بطيئة. بالطبع، هذا لا يخلو من المشاكل هيكل امدا من نوع، وأنها يمكن أن تؤدي إلى ازدواجية رمز والحاجة إلى إعادة تجهيز وتكامل البيانات.

صفعة المكدس

الصفعة هو ما يسمى كومة أصبحت ذات شعبية كبيرة في الهندسة المعمارية عام الماضية. أجزاء صفعة المكدس هي كما يلي:

  • شرارة كجنرال، ذاكرة سريعة وكبيرة ومحرك معالجة البيانات؛

  • Mesos كمدير الموارد العنقودية؛

  • عكا كإطار أساس سكالا التي تسمح لنا لتطوير المتسامحة، وزعت والتطبيقات المتزامنة.

  • كاساندرا باعتبارها طبقة التخزين الموزعة توفر عالية.

  • كافكا كما وزعت رسالة سيط / السجلات.

  • أولا سوف نناقش مكونات سريعة صفعة المكدس، مع إيلاء اهتمام خاص كاساندرا، لأنه يختلف عن بقية المكدس، على ما يبدو لم تستخدم على نطاق واسع في البلاد.

    سبارك أباتشي

    أصبح أباتشي سبارك "نظام البيانات الكبيرة." يتم تحميل البيانات إلى الكتلة وتخزينها في الذاكرة، ويمكن الاستفسارات المتكررة. وهذا يجعل من خوارزميات تعلم الآلة سبارك هي فعالة بشكل خاص. شرارة دفعة، وتدفق (دفعة واسطة الدقيقة)، تحليل الرسوم البيانية ومهمة التعلم الآلي لتوفير واجهة موحدة. هو مكتوب في سكالا ويفضح API سكالا، جافا، بيثون ولR. وبالإضافة إلى ذلك، يمكن سبارك تنفيذ استعلامات SQL على البيانات والمحللين هم أكثر ملاءمة لتعلم أدوات استقصاء المعلومات التقليدية.

    Mesos أباتشي

    أباتشي Mesos هو مفتوح المصدر العنقودية مدير، التي وضعتها جامعة كاليفورنيا، بيركلي. انها تسمح العزلة الفعالة وتقاسم الموارد عبر تطبيقات الموزعة. في Mesos، ويسمى مثل هذا التطبيق وزعت الإطار.

    عكا

    عكا الإطار هو بناء برامج المتزامنة تعمل على JVM. التأكيد على التوافق القائم الممثل والأسلوب: يتم التعامل مع الجهات الفاعلة كما بدائية، فهي فقط من خلال الرسائل دون إشراك الذاكرة المشتركة للاتصال. رسالة ردا على ذلك، يمكن الجهات الفاعلة خلق الفاعلين الجدد أو إرسال رسائل أخرى. إعداد نموذج الفاعل بواسطة لغة البرمجة إرلانج، أكثر شعبية.

    أباتشي كاساندرا

    وقد وضعت كاساندرا أصلا في الفيسبوك، وأصبح فيما بعد مشروع مفتوح المصدر أباتشي. إنها وزعت، الموجهة للعمود NoSQL تخزين البيانات، على غرار دينامو الأمازون وجداول كبيرة جوجل. وعلى النقيض من مخزن بيانات NoSQL أخرى، فإنه لا تعتمد على HDFS مثل نظام الملفات الأساسية لا يوجد لديه الهندسة المعمارية الماجستير، والسماح لها أن يكون لها قابلية خطية تقريبا، وسهلة لإنشاء وصيانة. ميزة أخرى هي دعم للنسخ المتماثل كاساندرا عبر مراكز البيانات (XDCR). تكرار مركز عبر البيانات يساعد فعلا أعباء العمل منفصلة والتحليل العنقودي. كاساندرا المؤسسة Edition يتوفر من DataStax (

    مفتاح التقسيم ثابتة، يتم تقسيم البيانات في عقدة نظام المجموعة كاساندرا. هندسته المعمارية تعني أنه لا يوجد لديه نقطة واحدة من الفشل. وفقا لنظرية CAP، يمكننا ضبط اتساق وتوفر على أساس لكل جدول.

    أباتشي كافكا

    صفعة في المكدس، كافكا المسؤولة عن نقل الحدث. تعمل مجموعة كافكا باعتبارها العمود الفقري الرسائل صفعة المكدس، رسائل مكررة عبر الكتلة، وحفظ بشكل دائم إلى القرص لمنع فقدان البيانات.

    قبل فهم مفصل لكيفية أجزاء مختلفة من كومة صفعة العمل معا، ونحن سوف يناقش تحليل نموذج البيانات كاساندرا السريع والتحديات التي واجهها في كاساندرا.

    نموذج بيانات كاساندرا

    مثل تخزين البيانات NoSQL أخرى، ينبغي ناجحة التطبيقات المستندة كاساندرا نموذج بيانات متابعة وضع "تخزين المحتوى الاستعلام الخاص بك". وبعبارة أخرى، خلافا لقواعد البيانات العلائقية، في قاعدة بيانات علائقية، يمكننا تخزين البيانات في شكل موحد. عندما نتحدث عن نموذج البيانات كاساندرا، لا تزال تستخدم الجدول المدى، ولكن تعمل أشبه نوعا من الجدول كاساندرا، تعيين الموزعة، تليها جدول قاعدة البيانات العلائقية.

    دعا كاساندرا لغة الاستعلام (CQL) دعم كاساندرا لتحديد الجداول وإدراج البيانات ولغة الاستعلام SQL.

    عند تعريف الجدول كاساندرا، نحن بحاجة إلى توفير مفتاح القسم الذي يحدد كيفية توزيع البيانات بين عقد نظام المجموعة، فضلا عن كيفية تحديد عمود مجموعة لفرز البيانات. عند استخدام الاستفسارات CQL، فإننا لا يمكن إلا أن الاستعلام (جملة WHERE) وفرزها وفقا لأعمدة متفاوت المسافات.

    دعونا ننظر سبيل المثال وثيقة كاساندرا، وعلى غرار وثيقة خدمات تبادل الموسيقى التشغيل (مثل سبوتيفي) هي:

    في هذا المثال، UUID (عالميا ID فريدة من نوعها، بين عدد وافر من الآلات لضمان فريد) مفتاح معرف التقسيم، song_order عمود العنقودية، (الهوية، song_order) ضرورة أن يكون فريدا عبر كافة الصفوف من الجدول. وعلاوة على ذلك، معرف القرار على الصفوف التي ذاكرة الجهاز، song_order تحديد الترتيب تخزين الصفوف على المضيف البدني. ويمكن أيضا أن تستخدم في مفتاح تقسيم مركب كاساندرا، ووضعها في.

    CQL الاستعلام على النحو التالي:

    يرجى ملء أي يظهر العمود في جملة WHERE لتكون جزءا من المفتاح الأساسي، أو يمكن تعريفها على المؤشر. وبالإضافة إلى ذلك، يمكن أن يحدث مفتاح التقسيم فقط في العملية على قدم المساواة (=). فقط عندما يتم تعيين الصف المحدد عند الاستعلام مجموعة المضيف هو ممكن ككتلة المستمر من الذاكرة. عن طريق تجميع SQL مثل الأعمدة والشرط LIMIT، CQL يدعم الطلب، ولكن لم يكن لديك وظيفة مماثلة مع GROUP BY.

    وفقا لعمود معين من الاستعلام، والحد من الحاجة إلى الوصول إلى القرص عشوائي، ولكن أيضا بقوة يحد من استخدام كاساندرا إلى تحليل قاعدة البيانات. "لديك استفسار تخزين محتوى" النموذج يتطلب بيانات دقيقة النمذجة بناء على الاستفسارات التي أجريت على قاعدة البيانات كاساندرا، مما يحد من القدرة على دعم الاستعلامات الجديدة. من أجل أداء البيانات المخزنة في التحليل كاساندرا، يجب أن يتم تحميل في إطار معالجة البيانات منفصل، اخترنا أباتشي إطار شرارة.

    1 وتشغيل FIG مجموعات مع تحليل مجموعة من العقد جنبا إلى جنب الفردية سبارك

    شرارة والاتصال كاساندرا

    شرارة كاساندرا الموصل (https://github.com/datastax/spark-cassandra-connector) يمكن الجدول كاساندرا كما RDDs شرارة، والشرارة RDDs كاساندرا طاولة الكتابة، وأداء أي استفسار تطبيق شرارة CQL. إذا ينبغي أيضا فحص باستخدام CQL جملة WHERE تصميم التوسيع لأسفل إلى عقدة خادم.

    من أجل تحقيق الاستفادة القصوى من الموصل بيانات الموقع كاساندرا شرارة الاستشعار عن وظيفة سبارك والعقد كاساندرا، ينبغي مصفف الكتلة. تكرار XDCR كاساندرا عبر مراكز البيانات في الواقع يسمح لنا لعزل التحليل العنقودي، عقدة سبارك كاساندرا العقدة جنبا إلى جنب مجموعة كاساندرا لعملية إعادة كتابة، يتم نسخ محتوياته تلقائيا إلى التحليل العنقودي. وبالتالي، فإن أي تحليل جدي من العملية لن تؤثر على أداء الكتابة الكتلة كاساندرا نقية. العملية (الكتابة الثقيلة) والكتلة فصل مجموعة التحليل يمكن أن توفر فوائد إضافية التالية:

  • مجموعتين يمكن زيادتها بشكل مستقل.

  • منذ بدء العملية من التحليل العنقودي وجود مختلف وضع القراءة / الكتابة، قد يكون الأمثل كل مجموعة لتحقيق الغرض المقصود.

  • كاساندرا التلقائي للبيانات معالجة النسخ المتماثل.

  • المعلومات المطلوبة فقط الأخرى (مثل جدول بحث أن تكون متصلا بها) وتخزينها في التحليل العنقودي.

  • العمارة Mesos

    Mesos صممت من الأساس للتعامل مع عبء العمل المعقد استثناء، وهذا هو ما يقال منذ فترة طويلة وظيفة دفعة ونوع المهام معالجة الحدث يمكن أن يكون مزيجا من معا القصير. تتكون Mesos مجموعة من نوعين من العقد:

  • عقدة رئيسية هي المسؤولة عن توفير الموارد والجدولة.

  • من العقدة، تشغيل المهمة الفعلية.

  • قد يتم تكرار عقدة رئيسية لتوفير وفرة عالية. في هذه الحالة، حارس الحديقة يمكن استخدامها لإجراء انتخابات القيادة واكتشاف الخدمة. عملية مهمة استخدام Mesos، اتبع الخطوات التالية:

  • الافراج عن الموارد المتاحة للعقدة رئيسية من العقدة.

  • عقدة رئيسية ينقل المورد إلى الإطار (التطبيق)؛

  • لا بد من المقرر جدولة المهام إطار الرد.

  • أرسلت البعثة سيد للعبد.

  • نحن نستخدم أداتين لخطة مساعدة Mesos العمل: أهداف ماراثون لترتيب الطويلة الأمد المهمة؛ كرونوس يتصرف مثل "كرون توزيعها"، وكرر المهام قصيرة على التوالي. يمكننا نشر سبارك / Mesos / كاساندرا العنقودية في الطرق التالية:

  • Mesos عقدة رئيسية والعقدة جنبا إلى جنب حارس الحديقة.

  • شرارة المحرك كاساندرا عقدة عقدة جنبا إلى جنب.

  • وFIG 2 كاساندرا سبارك نشر Mesos

    اتخذت عكا البيانات باستخدام

    بعد تحديد الدرجة التخزين المناسبة، والآن تحتاج إلى أن تقرر كيفية التعامل مع البيانات الواردة. امتصاص متطلبات البيانات طبقة هي:

  • الكمون المنخفض وإنتاجية عالية

  • مرونة

  • التدرجية

  • احداهما التعامل مع ارتفاع الحمل

  • أول ثلاثة تلبي تماما الفاعل، مثل معالجة كل حدث وارد من طلب HTTP ويخزنها في كاساندرا.

    كافكا المعالجة باستخدام

    عيوب التصميم عديمي الجنسية عكا: فاعل لا يمكن تنفيذ أي تجهيزها من البيانات. كاساندرا أيضا ليست مناسبة. شرارة شرارة الجري استخدام أو تنفيذ هذه قبل البلمرة ليست مثالية، لأن شرارة الجري العمارة دفعة صغيرة ليست مناسبة للتعامل مع الحدث بسرعة.

    أباتشي كافكا هو بديل مناسب. لذلك صفعة كومة، والجهات الفاعلة عكا توزع سجل يكتب البيانات preprocessed، مثل أباتشي كافكا. لقراءة البيانات من كافكا، ويمكن الاعتماد سبارك الجري، وتستخدم سبارك الجري لالنسخ الاحتياطي للبيانات المخزنة في HDFS أو كائن (على سبيل المثال، وOSS علي سحابة أو الأمازون S3)، في حين أنه يكتب مجموعة كاساندرا. هذا يعمل بشكل فعال كآلية النسخ الاحتياطي، وفقا للتجسيد، فإن تكلفة التخزين OSS / S3 قد تكون أقل بكثير من البيانات احتفظت في المجموعة كافكا. ويمكن استعادة باستخدام بيانات من سبارك مخزن كائن. يمنع أفريقيا الوسطى في مخزن كائن تخزين بيانات الموقع أيضا أي مركز من الدرجة البيانات أخطاء أو عيوب تأثير خطير على البيانات المنظمة.

    استنتاج

    صفعة كومة والمزايا التالية:

  • الأدوات بسيطة تدعم مجموعة متنوعة من البيانات معالجة المهام (تدفق، دفعة، نوع امدا العمارة)؛

  • الاعتماد على الإطار مفتوحة المصدر اختبار.

  • إدارة موحدة العنقودية.

  • سهلة لتوسيع وتكرار.

  • الشكل (3) صفعة المكدس العمارة نظرة عامة

    وعلاوة على ذلك، يجب كتابة التعليمات البرمجية الخاصة المكونات الرئيسية التطبيق (عكا، كافكا، سبارك) باستخدام سكالا يمكن برمجتها بحيث تسمح التبادل الفعال من أنواع كود منطق الأعمال في أجزاء مختلفة من الهندسة المعمارية.

    وهناك عدد من خطوط الحافلات فتحت الانترنت المفقودات يمكن استرداد رمز المسح الضوئي

    shidie 2 شهادة BMW غران كوبيه مرور تعريض السلائف وإدخال siquban

    بالإضافة إلى A Zimeng، علي، وو لي منافس خطير، وكذلك في كأس آسيا ذلك!

    2019 CES المعرض: سوف الابتكارات فاليو تؤدي التغييرات السفر المحمول

    ومن النباتات الحاوية، ولكن أيضا النعش بسيط | هذا التصميم العظيم

    تحسين القدرة التشغيلية لتعزيز التدريب على بناء فريق 2018 بكين العمود الفقري للمدرب الرياضي الاجتماعي الذي عقد

    اليوم، وتشينغداو IKEA بدأت رسميا! ومارس من العام المقبل سيكون قادرا على زيارة IKEA في المنزل، والمترو!

    دفع المسؤولين روما إحالة المنشعب الحديد غونغ الفيديو: أي لعبة لمعرفة يوم والبيض مطرقة بائسة

    سوف الشتاء للسيارات 2019 في أمريكا الشمالية للسيارات أصبحت تركز في الماضي على 11 نماذج من السيارات الجديدة وراء الكواليس

    أصدر فريق مكلارين نسخة قابلة للتحويل من خريطة مقطورة 600LT أو 16 يناير لاول مرة / طبعة محدودة 1 سنة

    كلا الانتهاء من محاكمة سبعة السعر يغطي MPV 100000-200000 يوان اقول لكم كيفية تحرير المختارة

    يمكن لأي شخص القيام بتطبيقات التعلم العميق: كتاب تمهيدي