عشرات الملايين من نشط يوميا، الهندسة المعمارية تطور 1000000000 APP بيانات كبيرة منصة التحليل

ميتو لديها من مليار مستخدم كل يوم، والملايين من المستخدمين في استخدام كل منتج ميتو، التي تراكمت لديها عدد كبير من بيانات المستخدم.

مع التوسع السريع في التكرار المستمر والمستخدم APP، والمنتجات، والعمليات والتسويق وغيرها تعتمد بشكل متزايد على البيانات لميزات المنتج الأمثل، وتتبع النتائج التشغيل، وتحليل سلوك المستخدم، تليها المزيد والمزيد من البيانات الإحصاءات وتحليل الاحتياجات.

فكيف نرد على وتلبية البيانات الآخذة في التوسع ومتطلبات التحليل الإحصائي؟ التطوير المستمر لقطاع الأعمال وكيفية تعزيز بنية التحول إلى تحقيق؟

هذه المقالة سوف أعرض واحدة من حركة البيانات الكبيرة المنتج تصادم والتكنولوجيا: الهندسة المعمارية تطور ميتو منصة تحليل البيانات الكبيرة والأمل من خلال هذه المشاركة نتمكن من جلب بعض الحلول التفكير والهندسة المعمارية من خدمات البيانات.

إذا كنت قد فعلت بيانات كبيرة تتعلق تطوير الطلاب يجب أن يكون على بينة من إحصاءات بل هو شيء صعب نوعا ما، وربما لا أول شيء المحتوى التقني للغاية بالنسبة للموظفين الفنيين المتزايد ليست جيدة جدا. والثانية أنها قد تكون الازدواجية المزيد من العمل للقيام به، ضرورة حل بعض الاحتياجات الازدواجية بسيطة.

ميتو الواقع، هناك الكثير من APP، سوف APP يكون أساسا للطلاب كل المقابلة عمليات المنتج والمبيعات وتحليل البيانات، وهؤلاء الطلاب وضع احتياجات مجموعة واسعة من البيانات الإحصائية، مثل البيانات المتطلبات أو تحليل بيانات التقارير. من ذلك بكثير تحليل أو الاحتياجات من البيانات الإحصائية في ميتو هو كيفية حلها؟

نريد أساسا لإدخال اليوم في حل ميتو، يتم تقسيم المحتوى إلى ثلاثة أجزاء:

  • العمل الإحصائي وتصطدم التكنولوجيا.
  • ميتو تحقيق العمارة منصة الإحصائية.
  • نقوم به وكذلك بعض تخطيط المستقبل.

العمل الإحصائي وتصطدم التكنولوجيا

وهذا هو الأساس تجربتي الشخصية، بدأت للتو رجل أعمال أن تفعل هذا واحد، سوف تواجه بعض النقاط المثيرة للاهتمام، يمكن في ثلاث مراحل:

  • في الأيام الأولى من المشروع، وكيف نرد على الطلب الأولي لبعض المنتجات.
  • عندما اندلاع المستخدمين، بعد مصادر البيانات التجارية تصل، نحن كيف التكرار.
  • كما السعي وراء القليل من المهارة، وكيفية جعل من الخاصة بهم من بعض الأعمال، والحصول على بعض النمو.

01

المشروع الأولي

هذه المرحلة هي خصائص واضحة جدا: الولايات المتحدة على أن تتخذ، على سبيل المثال، وكمية صغيرة من حجم البيانات الأولية عموما، الطلب الإحصائي صغير نسبيا، وذلك أساسا بعض المؤشرات الإحصائية الأساسية؛ التكرار من الناتج بسرعة كبيرة، ويتطلب بيانات المؤشرات الإحصائية إلى اللحاق بسرعة المنتجات سرعة التكرار.

الشكل (1)

هذه المرحلة من الحل يبدو الآن بسيط جدا: هو عمل من جانب الخادم قد يكون العقد متعددة لضمان توافر كل الخدمات عقدة خدمة سيلعب سجل المقابلة لقرص محلي، ثم سيمر إلى رسينك موحد سجل التزامن الطريق إلى عقدة تخزين البيانات.

وكتب على هذه العقدة قذيفة أو بعض PHP بسيط النصي لتحقيق منطق الإحصائي تكوينها لدوري تحريك المهام الإحصائية كرونتاب المقابلة، النتائج النهائية للبيانات المخزنة في الخلية تجعل المكالمات تقرير لطبقة العرض.

02

مرحلة التطور السريع

عندما اندلاع مفاجئ من المستخدمين، وسوف يستمر حجم البيانات إلى زيادة وعمليات المنتج، المزيد والمزيد من احتياجات تحليل البيانات.

وستشمل المرحلة الأولى من الحل المقابلة تكون هناك قضية أكبر، هناك الثلاثة التالية:

  • نقطة واحدة من السعة التخزينية محدودة جدا.
  • الحوسبة عنق الزجاجة سوف تواجه قريبا الاختناقات، وغالبا ما تؤدي إلى اختناقات في حساب التقارير الإحصائية لتقرير الناتج تأخير اليوم التالي.
  • نحن نستخدم وعاء أو PHP النصي لتحقيق منطق الإحصائي، وتكاليف الصيانة المتابعة الشاملة كبيرة نسبيا، الحاجة إلى ضبط منطق إحصائي أو إضافة بعض معايير الترشيح حتى أكثر ملاءمة.

الشكل 2

حيث قدمنا بعض التعديلات:

  • تطبيقات نظام الحصول على البيانات، هي المسؤولة عن القيام جمع البيانات سجل الخادم، وتخزين البيانات تقع في نهاية المطاف إلى HDFS.
  • ذكر في وقت سابق قال نقطة واحدة من التخزين والحوسبة المشاكل، لذلك نحن بنى لنفسه مجموعة Hadoop إلى حل نقطة واحدة من التخزين والحوسبة.
  • المنطق على حل الكتابة الكثير من الإحصاءات ذات الصلة كود خلية القائم.

03

السعي لتحقيق مبرمج

عندما توسع الطلب، والسعي مبرمج سوف تأخذ في الاعتبار كمية من التعليمات البرمجية مكررة إلى حد كبير، على الرغم من أننا قد حصلت على طبقة من خلية لكتابة الرمز المناسب، وجعل أخيرا طبقة من مرشح أو بعض تجميع البيانات.

في الواقع، كل الاحتياجات الإحصائية نحن جميعا بحاجة لكتابة تنفيذ جافا المقابلة، وحجم العمل مملة جدا، ويتكرر.

الشكل (3)

السعي لتحقيق مبرمج، قد لا تكون مستعدة للقيام بالمهام المتكررة كل يوم. لأن عادة الاتصال مع تنفيذ الأعمال، وفهم عميق لالإحصائي منطق العمليات التجارية غير متطابقة إلى حد كبير.

لذلك، معتبرا مثل هذا التدفق العملية التجارية شائع نسبيا مجردة، وتدفق هو إلى حد كبير سؤال من البيانات من مصدر البيانات، ثم القيام ببعض الأعمال البلمرة أو الترشيح، وأخيرا إلى مخزن البيانات DB.

التي جعلت مستوى الرمز لتحقيق طبقة من التجريد، والمجموعة الإحصائية للمكونات، بما في ذلك الاستعلام مجمع وDBStore، ومن ثم كانت هناك بعض تطبيقات مختلفة سؤال ومخزن مكان الحادث.

مثل طبقة من التجريد في المستقبل، مقارنة مع البرنامج السابقة، والإنتاجية أو الحصول على زيادة كبيرة نسبيا. كنت في يوم من الأيام أن تكون قادرة على القيام أربعة أو خمسة الاحتياجات الإحصائية، في حين الاستخلاص من اليوم للبدء في فهم احتياجات ربما تفعل ثمانية وسبعين تحقيق المتطلبات الإحصائية، والكفاءة الكلية لترقية جيدة.

ميتو منصة إحصائية تنفيذ العمارة

ما سبق هو ملخص، كما أن لديها الكثير من نقاط الضعف:

  • تعتمد على الأعمال التجارية، ونحن نفعل يعني هو الاحتياجات الإحصائية الأكثر هو أن تأخذ الوقت الكافي لفهم احتياجات تكلفة الجانب التجاري من البيانات الأساسية عن منتجاتها تبدو وكأنها أو ما عملياتها تفعل الأنشطة، وتكلفة عالية جدا خلفية الاتصالات التجارية .
  • حتى مع مجردة سيكون هناك بعض كمية من التعليمات البرمجية المقابلة لتكرار رمز، والحاجة للقيام عنصر حدد الاستعلام الإحصائي المناسب، DBstore المقابلة تجهيز وتخزين طبقة منطق الأعمال.
  • ، تحتاج تشغيل عالية وتكاليف الصيانة عندما تحتاج مهمة ينبغي القيام به على الانترنت لرزمة على الانترنت أيضا إلى تغيير بعض قذيفة البرمجة.
  • يتعلق الأمر نمو الشخصية، وعندما يكون الشخص لفترة طويلة في فعل شيء ما، ثم نمو التكنولوجيا الشخصية هو عنق الزجاجة واسعة نسبيا.

الشكل (4)

وبناء على النقطة السابقة من الألم، وعلينا أن نشرح كيف يمكننا حل هذه الأمور. نحن لا تنظر منصة لرجال الأعمال لاستخدام منصة لدينا، ونحن نقدم خدمات مثل.

الرقم 4 هو منصة أننا ربما كانوا يفكرون القيام به، مثل الجانب الأيسر من هذه الأعمال لديها الكثير من متطلبات الإبلاغ البيانات، قد يكون متطلبات البيانات أيضا مشاهد APP البيانات والإعلانات التجارية وما شابه ذلك.

ونأمل أن توفر مثل هذا المنبر، وخدمات البيانات المقاييس بيانات التكوين الطلب الجانبية يريدون في هذا المنبر، ومنصة الحوسبة عن البيانات وتخزينها، وأخيرا بصق البيانات المطابقة لبيانات الجانب التطبيقي.

وعلاوة على ذلك، في القيام بذلك منصة، قد نحتاج إلى النظر في النقاط الهامة التالية:

  • قد نحتاج لديها تفويض أكثر وضوحا لوصف الفوقية الإحصائية أن أصف حساب هذه العمل الإحصائي، ما كان عليه، ما نعم المشغل.
  • العمل الإحصائي، ومصدر البيانات من مكان، والاحتياجات من البيانات ليتم تخزينها الاستفسارات التجارية في مكان أكثر ملاءمة.
  • الحاجة إلى إيفاد مركز موحد لأداء جميع المهام الإحصائية.
  • للتأكد من أن المهمة الأخيرة أداء بشكل صحيح.

بناء على ما سبق هذه النقاط، والنظر في الحاجة إلى وجود بعض وحدات مختلفة ليكون مسؤولا عن ما سبق وقال عدة وظائف رئيسية.

لدينا على الارجح ثلاث وحدات تصميم:

  • وحدة JobManager، وذلك أساسا لتوفير منصة، مع جانب العرض هو من السهل جدا لتكوين وإدارة المهام المعلومات الوصفية، وغيرها من مستودع البيانات، وإدارة المعلومات الأخرى APP.
  • وحدة جدولة، هو المهمة المركزية للجدولة، هو المسؤول عن جدولة جميع المهام الإحصائية.
  • JobExecutor وحدة تنفيذ المهمة، المسؤولة عن مهمة من الاستعلام، وتجميع للنتائج النهائية لتخزين الأرض.

ثم يأتي في ظل هذه الوحدات الثلاث نقاط وظيفة التقريبية وبطريقة مفصلة.

01

وحدة JobManager

هذه الوحدة هي المهام الإحصائية المجردة، مهمة الوصفية للقيام إدارة تكوين موحدة.

5، والساحة الرئيسية إلى الحاجة لتوفير بيانات تكوين التطبيق يريدون في هذا المنبر، والنقطة الأخرى هي أننا بحاجة إلى دمج مستودع البيانات. مستودع البيانات المتكاملة في المقام الأول إلى الجانب التجاري قادرا على عرض المعلومات التي جدول الأعمال ذات الصلة.

الرقم 5

هذا هو أساسا وصفا للبيانات التعريف المناسب للمهمة الإحصاءات، فتتمثل في عدة أجزاء، على سبيل المثال، البيانات المصدر، المشغل الإحصائي للبيانات أو وسائل الإعلام تصفية وتخزين ما مشهد معين، والأبعاد، وتجميع ومهمة ووصفت تبعيات بين المهام.

02

جدولة المهام وحدة الجدولة

تنفيذ الحالي هو بسيط نسبيا، هو السبيل نقطة واحدة. قمنا بتنفيذ عدة نقاط:

  • ويمكن من المقرر وفقا لأولوية مهمة.
  • يمكن جدولة المهام على أساس توقيت الاستراتيجية.
  • قادرة على جدولة سير العمل، ومن المقرر التبعيات.

6

03

مهمة وحدة تنفيذ JobExecutor

6، وفقا لمصدر المعلومات من مهمة تجميع بركة المكونات سؤال ملموس التجمع، وطبقة استعلام معين (مثل خلية) المقابلة لتشغيل البيانات، وإلى القيام ببعض جوانب الترشيح، والبعد عن البلمرة.

الرقم 7

المعلومات المهمة الأخيرة لتجميع مكونات طبقة تخزين البيانات، ونتائج البيانات الإحصائية خطية إلى طبقة التخزين.

بعد ثلاث وحدات النهائية، دعونا ننظر هذا المنبر البنية التحتية الإحصائية. على اليسار هناك الفوقية إدارة JobManager، للقيام بعمل إحصائي، استنادا إلى معيار الفوقية العملية برمتها: الاستفسارات والفلاتر وأبعاد، والتجميع والتخزين.

مع هذا الإطار الأساسي في المستقبل، البيانات الأساسية لتغطية جزء من الإحصاءات من المشهد، ولكن إذا كان لدعم أكثر الإحصائي المشهد بيانات الأعمال، فإنه يحتاج إلى بذل المزيد من الجهد لتوسيع وظائف (الشكل 8).

الرقم 8

وهناك أربعة الاتجاه العام للتوسع وظيفة.

لمكان الحادث لأخذ الرقم المؤقت

جميع الأعمال لا تحتاج بالضرورة لتشغيل روتين منتظم، هناك الكثير من الرقم المؤقت تشغيل المشهد، مثل تحليل البيانات بحاجة الى ان نرى مؤقتا وظيفة المقابلة من APP أو أن المشغلين بحاجة الى ان ننظر في الأنشطة المنظمة بيانات مؤشر مؤقتة وهلم جرا، وعادة سوف تواجه المزيد من مناسبة لاتخاذ عدد من الطلب مؤقت.

لحل هذا واحد يأخذ عدد من الاحتياجات مؤقتة، لدينا اثنين من وظائف، هي واحدة هناك لملء لتوفير وظائف SQL مباشرة، للمستخدمين دعم وSQL لاستخراج البيانات مؤقتا.

هذا هو امتداد تقرير المصير، خلية التكامل ANTLR تأليف HOL الاعراب بعد تحليل بها، تحتاج إلى التحقق من مشروعية HOL، وذلك أساسا استبعاد شيء من هذا القبيل إدراج عمليات حذف، وكذلك الحد من عدد من وقت التشغيل من أجل تجنب الاحتلال لفترات طويلة من الحوسبة العنقودية الموارد.

محاولة مصدر بيانات غنية

في الطلب المعتاد، ونحن سوف تواجه المزيد والمزيد من الحاجة إلى الخلية استيراد الجانب التجاري البيانات للقيام إحصاءات بسيطة أو تاريخ العمليات الحسابية.

لذلك هذا واحد لدينا يستند إلى المكونات في Sqoop المتقدمة لدعم الاستيراد جداول قاعدة البيانات ماي إلى Hadoop.

والثالث هو نقطية، وليس لدينا التنمية الذاتية من الجمال النظام، وذلك أساسا لتسهيل متعددة الأبعاد ولا تضيف إلى الوزن، وهكذا احتفظت حساب المقابلة، ويستند مبدأ أساسا على العمليات بين الشيء الشيء.

متعدد مخزن

يتم تخزين معظم البيانات الحالية في MongoDB، بين قواعد البيانات العلائقية التقليدية وNoSQL، وذلك لتلبية المشهد الاستعلام معظم الشركات، ولكن يضمن أيضا أن تخزين البيانات الموزعة.

والثاني هو الحصول على بيانات التصدير المؤقت كبير نسبيا، والحاجة الجانب التجاري للحصول على كميات كبيرة من البيانات، ويمكن إدخالها HDFS أعلاه، ثم الأعمال المستهلك لتصدير البيانات من HDFS لتطبيقات الأعمال المختلفة.

كما يدعم الثالث بعض نص عادي، مثل CSV وهلم جرا. والرابع هو الخلية، وبدعم من بعض من الجدول نقاط سياسة التخزين الحالي. الجزء الأخير هو إثراء مشغل الإحصائي، لديها حاليا لتحقيق بعض الوزن، المصفوفات، TopN مشغل الإحصائي.

التصور البيانات

9، وذلك لأن تختلف طبقة التخزين ومتنوعة، والنهج الأصلي هو تطبيق لدينا طبقة تخزين البيانات الخلفية يتعرض مباشرة ل، حلها من طبقة تخزين البيانات لدينا استفسار.

الرقم 9

بهذه الطريقة هناك بعض يست لطيفة جدا، وأول واحد هو جدول البيانات شفافة إذا لم يفعلوا ذلك، ثم طبقة تخزين والمطورين طبقة العرض بحاجة إلى أن نتعلم Hbase، الخلية، مونجو، وما إلى ذلك، تكاليف دراسة كبيرة نسبيا.

والثاني هو اعتبارات أمن البيانات، أو إدارة موحدة لتخزين البيانات، هو مكان سيئ نسبيا، وبالتالي فإن مجموعة كاملة من موحد وراء API المشترك، وهناك مجموعة من بروتوكول بيانات مخصصة موحد لتسهيل طبقة العرض بيانات لرسو السفن موحدة للعرض.

ولكن بعد ذلك سيكون هناك بعض المشاكل، ونحن بحاجة إلى النظر منصة أمن البيانات، و10.

10

على سبيل المثال، في ظل الظروف العادية، فإن الولايات المتحدة لا يمكن إلا أن الحصول على النار مرة أخرى إلى الولايات المتحدة للفوز على البيانات ذات الصلة، ولكن لا تسمح للولايات المتحدة يمكن أن تتخذ وراء الكواليس للحصول على بيانات من الإعلانات التجارية APP الأخرى.

لذلك لدينا الوقت لتحقيق مركز التوثيق موحد CA، هي احتياجات الجانب التجاري للذهاب وراء الكواليس كاليفورنيا الحصول على إذن رمز المناسب، ومن ثم لطلب API مشترك موحد سيجلب رصا رمزية.

API العالمي باعتبارها الجانب خدمة المشترك، وسوف تذهب إلى المصادقة CA رمز غير شرعي، قانوني، بعد ذلك سوف الاستعلام عن البيانات المناظرة في طبقة التخزين، وعاد أخيرا إلى الجانب التطبيقي.

إحصاءات ميتو العمارة منصة الشاملة

هناك مركز مراقبة البعثة ارسال موحد جميع المهام الإحصائية، ثم يأتي JobExecutor المسؤولة عن البرنامج المساعد المناسب من التجمع، والقيام ببعض الاستفسارات وتصفية وهلم جرا.

11

يتم تخزين البيانات النهائية لDB، سيكون هناك طبقة تخزين حزمة API موحدة، ثم في بعض الاعتبارات الأمنية لدى وصول CA، النهائي وراء الكواليس بيانات فردية الالتحام API عام للقيام تظهر البيانات.

نقوم به والمستقبل للمرحلة صغيرة من التخطيط

12

هناك حاليا يفعلون اثنين، أو وصول لم تطلق بعد رسميا.

01

جدولة توزيع

أول واحد هو أمننا لتطوير جدولة توزيع، مجموعة مشتركة من جدولة منصة إرسال جزئي الرئيسية، وليس فقط مهمة إحصاءات جدولة والمتابعة يمكن جدولة كل متواجد حاليا الحوسبة المهام والمهام حاليا الإحصاءات.

وستكون المهمة المقبلة ستكون لترحيل كافة الإحصاءات على هذه المنصة المشتركة توحيد جدولة المهام جدولة توزيع، ببساطة استبدال الإصدار الحالي من نقطة واحدة من مركز التحكم. متابعة سيذهب لدعم العزلة والموارد جدولة الموارد.

02

التصور البيانات

كتلة الثاني هو التصور البيانات. شاهدنا في وقت سابق ان للتو، جميع احتياجات الظهر البيانات الجانب التجاري أن يتكرر مرارا وتكرارا موحدة الوصول إلى API هدفنا المشترك، هناك عدد كبير نسبيا من الازدواجية في العمل، يرتبط نقطة حساسة أخرى بالفعل لبعض من أكبر APP.

على سبيل المثال، اتخذت الولايات المتحدة الكثير من التقارير الإحصائية الشاملة، وأساسا الخلفية قد تكون على بعد مئات من هذه البيانات، إذا كان الطلب البيانات يود أن يرى البيانات الخاصة بها، ويذهبون من مئات المؤشرات البيانات لتحديد بيانات مؤشر على أمر صعب للغاية.

التصور البيانات هذه المنصة لهي حل هذه المشكلة، لا حاجة لي جميع الأطراف العمل الوصول إلى هذا API المشترك، يمكن للنفس المنصة تحديد مصدر البيانات المطلوبة أو تقرير مرئي الخاصة بهم، ومن ثم تقدم مؤشر البيانات الشخصية الخاصة بهم لا حاجة للذهاب جميع البيانات الخلفية مع تطبيقات بعقب API لدينا.

ثم القيام ببعض عرض الرسومات. لذلك هذا جزء من التصور البيانات يقوم به الإحصاءات، وتوفر تخصيص، شخصية تقارير البيانات، تشبه إلى حد ما نيتياس BDP علي dataV أو غيرها من المنصات.

الاثنان الآخران هي الفترة الزمنية القادمة، ونحن نخطط للقيام:

  • الأول هو محلل البيانات غالبا ما يشكون من أن هذه البيانات يمكن أن يكون أسرع الاستعلام، والنظر في ذلك بناء خدمات OLAP، مثل تلك التي تستند كيلين وهلم جرا إلى بناء.
  • والثاني هو الاحصاءات في الوقت الحقيقي، ويتحدث عن عادل امام إما توقيت الاحتياجات الإحصائية التقليدية، أو هي الاحتياجات الإحصائية المؤقتة، لا في الوقت الحقيقي. والنظر في ذلك أن هذا واحد أيضا يقول أن وراء هذه المنصة ترسو الاحتياجات الإحصائية في الوقت الحقيقي، وبسرعة أكبر الالتحام تلبية احتياجات المشهد الإحصائي في الوقت الحقيقي.

الإصدار الأصلي لعدد قناة الصغرى العامة - الفريق التقني البيانات ميتو (gh_feb1d206d92b)

أريد أن أصبح عالية؟ تشانغ تتعلم بسرعة الأولى، والسراويل الساق واسع القوس قمم، إلى حد كبير الساقين العمودية 51 م

الجهاز لا تعلم: DNN تطبيق نموذج العمق في المشهد توصية شخصية

البالغ من العمر 29 ب "الجمال تايوان أول"، وارتداء كلمة الكتف ضرب لون اللباس، وتبلغ من العمر 45 عاما إلى الولايات المتحدة البالغة من العمر 25 عاما

في ووهان الحديقة النباتية يمكن ان يتمتع الأزالية الزهور، وهناك 200 تذاكر مجانية للجمهور

التعلم العميق، وتعزيز التعلم، وعمق تعزيز التعلم، سخيفة لا يمكن أن أقول؟

رد: قوانغدونغ برج لقتل!

فاي هو أيضا الأوشحة شاطئ البحر، وتشانغ تسي يي لماذا يمكن للولايات المتحدة وكان لذيذ؟ العضو: الحيلة هي أن تبتسم

صحيح أن قيمة رانى يان الركوع، ترتدي ثوبا أزرق فاتح، الجلد الحساس أفضل من الفتاة البالغة من العمر 18 عاما

نظام التوصيات - ملخص التعلم

وقالت انها هي "التنين" في تشاو، وارتداء السراويل مع ركوب قطعة متقلب، متغير الثاني الفتاة العصرية

ANN في سلسلة تطبيقات التداول حسابي - بسيطة السلاسل الزمنية التنبؤ

ماسو حتى تنورة ضيقة تصر ارتداء في اعتصام أسفل البطن طبقات مقذوف، والقبيح حقا