Suning تشغيل وصيانة الممارسات الخادم التشكيل الآلي واسعة النطاق

مع ارتفاع في حركة المرور، وتوحيد الخادم تفحص نفسها، الدفعة نواة الترقية، عند إعداد كبيرة مؤيدة 11 مكررا، وتشغيل، وسوف صيانة الوصول إلى عدد كبير من توسع النظام، التكوين، وتعمل مثل متغير العالمي الذي يتوقع أن يصبح تطبيع تدريجيا، مئات الآلاف مجموعة من أعمال الصيانة العملية ولها ليس عن طريق نظام معقل يمكن القيام به بسهولة.

عملية التطور والصيانة

العملية الإنسان ومرحلة الصيانة

في صناعة تكنولوجيا المعلومات في وقت مبكر، وتشغيل الخادم والصيانة البنية التحتية أتمتة ذلك من خلال مجموعة متنوعة من القيادة المخصص شل أو النصي، والذي يعتبر مثاليا للبساطة، والعمل لمرة واحدة هو من السهل جدا، ولكن لمشاريع معقدة وطويلة الأمد، في وقت متأخر صيانة السيناريو هو مزعجة للغاية.

أدوات التشغيل الآلي مرحلة

في الوقت الحاضر، وشركات الإنترنت الكبيرة لديها بالفعل الآلاف من الخوادم، لمثل هذا كبيرة خوادم على نطاق وكتلة الجسم الذي في الماضي أن نهج الحركة العمالية الأصلية الأبعاد وعفا عليها الزمن بشكل واضح، وتشغيل الآلي وصيانة الخوادم واسعة النطاق بسرعة لا أصبح لا نناقش هذا الموضوع.

حاليا السلط، رئيس والعرائس ومثل Ansible كأداة إدارة التكوين هو عملية والصناعة الصيانة أدوات شعبية جدا التي تحدد قواعد النحو الخاصة بها لإدارة الخادم، ورمز لهذه الأدوات على تحديد والمخصص لغات البرمجة متشابهة جدا، ولكنها إلزامية القانون وقد ومنظم، بما يتفق ومعايير واضحة تسمية، فهي قادرة على إدارة عن بعد عدد كبير من الخوادم ومتوافق مع الإعلان النصوص السابقة خاصة.

مرحلة DevOPS

مع أدوات الصيانة الآلي وتكثر، وبعض الشركات الكبيرة لديها وضع ليصل إلى المستوى الاستراتيجي، وإدخال مجموعة متنوعة من الأدوات الآلية لتجميع مع أنظمة أعمالهم.

بناء عملية الأتمتة وصيانة منصة منصة ACM

مع زيادة في حجم الأعمال التجارية، والخادم نفسه موحدة المسح، نواة دفعة ترقية من التقليدي تحول الأعمال التجارية على الإنترنت من Suning، عند التحضير للالمزدوجة 11 الترويج كبيرة وتشغيل وصيانة والوصول إلى عدد كبير من توسع النظام، التكوين، وتحديد المتغير العالمي، الخ العمليات تدريجيا تصبح طبيعية، وتستضيف مئات الآلاف من أعمال التشغيل والصيانة لديها وليس عن طريق نظام معقل يمكن القيام به بسهولة.

مع PAAS وأنظمة العمل واقترح مجموعة متنوعة من الاحتياجات يمكن تخصيص وموحدة النشر اجهة إدارة تكوين الملقم. يمكن أن تتطور الخادم منصة إدارة التكوين المشترك يصبح عاجلة كتلة يصل.

حدد أداة الكامنة

حاليا في السوق معظم الأدوات الرئيسية مفتوحة المصدر العرائس / الشيف / Ansible / Saltstack أربعة أنواع على النحو التالي مرتبة في جيثب الحرارة عند اختيار:

وفي التطور الفعلي للالمختارة ذات الأولوية ستكون للنظر في النقاط التالية:

  • أولا، واختيار اللغة (الدمى / الشيف مقابل Ansible / Saltstack) العرائس، الشيف أساس تطوير روبي، Ansible، Saltstack على أساس بيثون (أواخر القيام تطوير الثانوية)، وتجاهل القديمة وسوء التوافق العرائس والشيف

  • ثانيا، تحديد السرعة (Ansible مقابل Saltstack) عملية إدارة التكوين والتركيز صيانة أسرع وأكثر استقرارا، نقل البيانات التي تعتمد على بروتوكول SSH Ansible، Saltstack zeroMQ باستخدام انتظار بيانات الرسالة الإرسال.

في اختيار Ansible، Saltstack، وهناك بعض الشركات على التخلي عن السبب الرئيسي Saltstack هو Saltstack حاجة لتثبيت العميل، في حالة الخادم لديه كمية معينة من المتاعب، ولكن Ansible لا تحتاج إلى تثبيت العميل. ومع ذلك، فإن Ansible الحالي الصعب لا يزال على حل المشاكل التالية:

  • يصعب الوصول إليها: ملامح والطلب الأعمال التجارية ذات الصلة غير منفصلة جدا (بعض مزايا الكفاءة في استهلاك الثقيلة، وبعض الانتباه إلى اكتمال هذه العملية، بعض المتطلبات العالية لسهولة الاستخدام)، بالإضافة إلى تنامي الطلب، ليس هناك مناسبة واجهات مفتوحة مشتركة توفير API راحة، مصطفة وظيفة سيلقي تراكم خطير.

  • ضعف الأداء: عندما يحتاج الخادم لأداء ترتيب العملية مرحلة حجم K، لمدة تصل إلى عدة عشرات من الدقائق استجابة Ansible، وهناك نسبة خطأ عالية نسبيا.

في SaltStack النقيض من ذلك، والذي يجمع بين رسالة خفيفة الوزن طابور (ZeroMQ) بناء وحدات طرف ثالث وبايثون. مع إدارة التكوين والتنفيذ بعد، والرصد وغيرها من المهام، لديها مزايا واضحة التالية:

  • بسرعة

  • التوافق

  • وثائق مفصلة، ومع مجتمع المصادر المفتوحة واصل أن تكون نشطة كما Ansible

اختبار سرعة

وكما يتبين من الجدول Ansible وSaltStack اختبار الأداء، واختبار الأداء وSaltStack Ansible في تنفيذ الأوامر وتوزيع الملفات، ملفات للقراءة وتنفيذ البرامج النصية دفعة وأخرى عملية الآلي وصيانة المشهد من البيانات تستغرق وقتا طويلا يمكن أن ينظر إليه Ansible SaltStack أبطأ من سرعة استجابة حوالي 10 مرات.

وبعد النظر في مظاهرة شاملة، والاختيار النهائي في المجموعة على نطاق واسع، وتطبيق أقوى SaltStack كأداة إدارية أساسية Suning كافة الملقمات.

الحفاظ على الاستقرار

لأن الإصدارات السابقة من الاستقرار Saltstack ليست عالية، هناك قضايا التوافق بين مختلف الإصدارات، الحفاظ علة لضمان إصدار متوافق مع الإصدارات السابقة عندما كان الفريق الترقية بعد التحقق من صحة واختبارات مكثفة سوف تجد تقرير للمجتمع، من خلال التواصل الدائم والتشاور، والمجتمع اعترفت أخيرا وقبلت اقتراحنا لتعديل الفريق الحالي كما تشارك بنشاط في اختبار المضبوطات وصيانة النسخة الجديدة من الملح، وضمان فعالية استقرار منصة الأساسية.

بناء واجهة وWEB العامة منصة الخارجية

منذ المجتمع Saltstack لا يوفر واجهة إدارة WEB، جميع العمليات إلا من خلال سطر الأوامر، واستدعاء API سيعرض اسم المستخدم وكلمة المرور إلى نظام خارجي، والأمن ماستر لا يمكن أن تكون مضمونة. صيانة وترقية البرامج النصية هي مزعجة للغاية.

حتى بعد أدوات إدارة الكامنة في حاجة أيضا إلى وضع مجموعة من ACM اختيار منصة العليا، والتعبئة واجهة مشتركة لتوفير الخدمات، ويوفر واجهة مرئية لتشغيل المضيف وفريق الصيانة.

تقدم ACM نظام WEB للتشغيل والصيانة المديرين لتصور إدارة التشغيل والصيانة. لتحقيق صفحة من الأداة النصي لتحديد وجدولة الوظائف، تنفيذ المهمة، تنفيذ الأمر، وتقديم التقارير، والتحليل وغيرها من المهام.

ومن ثم لا يمكن نظام خارجي أن يتحقق عن طريق ACM اجهة API دعوة مفتوحة للملح الأساسي، هي التي شنت الملح المحبوب المعبود وكيل على تكوين الجهاز والإدارة.

وعلى سلامة التصميم، يوفر منصة لمراجعة الحسابات، والقيادة القائمة السوداء، وإدارة القناة، التكوين وكيل والأدوار المستخدم، وإدارة الحقوق، وتسمح سمحت فقط الوصول إلى الأنظمة الخارجية من خلال ACM.

تطور بنية النظام

الهندسة المعمارية 1.0

الأوائل الكتيبة + النقابية + المحبوب المعبود ثلاث طبقات نموذج العمارة، ثم كلها Suning OS الجهاز الظاهري + العدد الإجمالي للخوادم المادية في حوالي 10000، ويمكن الملح العمارة المحلية تدعم بالكاد.

ولكن مع الارتفاع السريع في إعادة هيكلة المجموعة مستمرة، حركة المرور على الإنترنت، وتشجيع عدد كبير من الخوادم على خط الجبهة ارتفع أيضا بمعدل يوميا ما يقرب من ألف، والوصول إلى أنظمة ACM من اثنين فقط أو ثلاثة يوميا مبلغ مجموعه مئات الطلبات، ارتفع بسرعة إلى عشرات النظم وهناك ما يقرب من عشرة آلاف مهام التكوين يوم واحد، وهذا الوقت مشكلة نظام تتكشف شيئا فشيئا، مثل عودة بطيئة للمهمة، وتحتاج إلى وقت تنفيذ المهمة تزامن استدعاء أكثر من 5 ثواني. تحت العمارة المحلية الكتيبة المهام المتزامنة عندما كمية كبيرة من ضغط النظام مرتفعة للغاية، ونسبة الفشل مهمة أكثر من 10.

وأمضى الفريق الكثير من الوقت للتعامل مع الزبائن كل يوم بائس، اشتكى الجانب التجاري في كثير من الأحيان نظرا لحجم الأعمال لتعزيز القسري، السلط المحبوب المعبود المجموعة هو الأساس الوحيد لتشغيل وصيانة الافتراضي وكيل، إلا لا أحد منا يستطيع تحمل تكوين أتمتة إدارة. منذ ACM إعادة تصميم النظام بأكمله.

2.0 انشقاقات العمارة مستويين

بعد الكثير من البحث مع المظاهرة، قد ACM بدور الكتيبة تتحول إلى دور مباشر، عندما مهام تكوين من مركز الخدمة، ACM يمكن تسجيل مباشرة إلى الاستعلام عن طريق تثبيت جبل على المحطة التي المحبوب المعبود الرئيسي، مباشرة على احتياجات الدعوة ماستر بدأت، فإن المهمة إذا آلات متعددة، وأيضا النتائج بعد البلمرة التي كتبها ACM.

كما ACM نفسها جبوس العنقودية، لا لذلك لا حل إلا أمر المازر عبء ثقيلة جدا واحد من المشاكل، ولكن أيضا إلى التعجيل بشكل كبير وزمن الاستجابة للطلب، من الأصلي خمس ثوان + استجابة رفع إلى الاستجابة ميلي ثانية واحدة لحل مسؤول العمارة الأصلي يجب أن وقت الانتظار النقابية في سماء المنطقة.

الهندسة المعمارية 2.1 السلط ماجستير عالية التوفر

في بيئة الإنتاج الفعلي في حالة حدوث بعض الأوضاع تايوان الملح ماستر التوقف، ولكن عن 2K آلة تخرج عن نطاق السيطرة، والانتعاش الصناعي سيدنا تصل إلى عشرات من الدقائق، لبعض يدعو رجال الأعمال ليست مقبولة.

لذا ماستر حاجة ماسة لتوافر عالية من التحول، وعملية التحول، ونحن بحاجة أيضا إلى معالجة المسائل التالية:

  • كيفية الكشف عن المحبوب المعبود الرئيسي هو أسفل، والتحول السريع.

  • العميل كيفية اكتشاف عند التبديل الرئيسي إلى النسخ الاحتياطي أسفل ماجستير ماجستير.

  • كيفية حل المشكلة بين النسخ الأساسية والاحتياطية ماستر السلط الرئيسي، وخصوصا عندما جمعية رئيسية جديدة المحبوب المعبود ماجستير في المحبوب المعبود الجديد السلط الرئيسي كيفية مزامنة لإعداد الماجستير.

  •  السيناريو 1

    باستخدام الأصلي Saltstack توفر تجسيد، Mutil وماستر + التجميع-المحبوب المعبود.

    • Mutil وماستر : Saltstack بدعم من الإصدار 0.16.0، وتوفير خصائص متعددة الوظائف المحبوب المعبود ماستر يمكن توصيلها.

    • الفشل-المحبوب المعبود : المحبوب المعبود ماستر توفر الفحص الدوري، عندما وجدت ماستر غير متوفر، ثم في وقت معين تحولت إلى الاستعداد ماستر.

    عناصر التكوين الرئيسية على النحو التالي:

    # موضوع ماجستير الماجستير: - 10.27.135.188 - 10.27.135.189 # مجموعة إلى الفشل المحبوب المعبود Master_type: الفشل سيد الفاصلة # كشف، في ثوان Master_alive_interval: < ثواني >

    وتستند ميزة هذا النظام على توفر عالية مواليد الدعم SaltStack، نفذت من دون دعم برامج محفظة أخرى، من الناحية النظرية، ويمكن تحقيق توافر عالية ماستر، ولكن بعد التحقق من صحة الفعلية والاختبار، وهناك بعض أوجه القصور واضحة:

  • Minon عند بدء التشغيل ربط عشوائيا على درجة الماجستير، وماجستير، إذا كان هذا الوقت هو فقط بانخفاض الصدد، المحبوب المعبود تقم بتحديد عشوائيا ماستر بعضها البعض، مما أدى إلى حالة عدم الاتصال.

  • العميل فترة الكشف، وفقا لتحديد الوقت Master_alive_interval، فإن العميل ماستر أخذ زمام المبادرة للاتصالات TCP الموجودة شيك لمعرفة ما إذا كان رد السيد. إذا تم تعيين الفاصل الزمني الكشف فترة طويلة جدا، والتسليم قد تؤثر على الشيخوخة، وإذا كان فترة التحقيق هو قصيرة جدا، في سيناريو الخادم على نطاق واسع، وطلبات الشبكة في وقت قصير المفرط، ويكون له تأثير هائل على المضيف والنطاق الترددي للشبكة ماستر ، أي ما يعادل هجوم DDOS.

  • إذا كنت بحاجة إلى استبدال ماجستير IP أو إضافة ماستر جديد من IP، تحتاج إلى تكوين كل من يغير Minon تحت درجة الماجستير، وحتى أكثر إثارة للخوف هو المحبوب المعبود الحاجة إلى إعادة تشغيل نافذة المفعول.

  • تزامن الملح مفتاح لا توفر حلا.

  •  السيناريو 2

    بعد عدة تجارب من دون توقف، ووجدت أن ماستر يمكن أن توفر الخارجي الملح VIP Keepalived التي تحتفظ بها الخدمة، وعادة ما تكون مرتبطة VIP ماستر الرئيسي، عندما الانجراف VIP الرئيسي وصولا الى إعداد ماجستير ماجستير، السيد والعبد ماستر lsyncd تتقاسمها ملف السلط الرئيسي.

    ملاحظة: البرنامج Keepalived هو تحقيق وظائف توفر عالية من خلال بروتوكول VRRP. VRRP هي مختصر لراوتر الظاهري RedundancyProtocol (الظاهري بروتوكول تكرار راوتر)، والغرض من ذلك هو حل VRRP تظهر ساكنة التوجيه نقطة واحدة من مشكلة الفشل، فإنه يمكن ضمان أنه عندما يذهب عقدة الفردية إلى أسفل، الشبكة بالكامل يمكن تشغيل دون انقطاع .

    لذا، Keepalived جهة لفس ظائف إدارة التكوين، ولكن أيضا لديها الوظائف التالية لفحص طبي عقدة LVS، من ناحية أخرى يمكن أن تحقق وفرة عالية من شبكة ظائف نظام الخدمات .

    في التشغيل الفعلي، والمحبوب المعبود أخذ زمام المبادرة لماستر (VIP) تسجيل كل 5 دقائق للكشف عن اتصال مع TCP ماستر، إذا كان الاتصال من التوجه إعادة بدء TCP مصافحة لتأسيس اتصال TCP طويلة، وعندما وقوع ماستر الرئيسي من التوقف، Keepalived بعد الكشف عن التحول إلى VIP ماستر احتياطية، VIP ماستر المحبوب المعبود تصل بعد 5 دقائق من النسخ الاحتياطي ستبدأ طلب اتصال TCP، والاتصال، ومهمة إعادة تعليق انتظار طويلة بدأت ماستر.

    يحتاج البرنامج لتثبيت يتم الكشف عن إضافي يدعم البرنامج توافر ماستر من قبل أسفل Keepalived، lsyncd ضمان السلط المفتاح عن طريق التزامن في الوقت الحقيقي. الاستفادة من هذا النهج هو تجنب الكثير من النواقص 1. أولا، المحبوب المعبود نهاية الاعتراف إلى عنوان IP الظاهري للماجستير، وبالتالي تغيير عنوان IP للماجستير في نهاية الجزء السفلي من المحبوب المعبود ليس الإدراك، المحبوب المعبود هو لا تتطلب تغييرات التكوين لا تحتاج إلى إعادة تشغيل؛ وثانيا، Keepalived آلية التفتيش هو العيش فئة D عنوان لهذا الجزء، يتم الكشف عن، وتعيين معرف فريد لتوجيه الظاهري، وفترات كشف في غضون 5 ثوان، وشبكة لن يؤثر على الجماعة؛ متزامنة أخيرا من قبل lsyncd السلط مفتاح، وذلك لضمان الأمن، ولكن أيضا يتجنب مشكلة تزامن السلط الرئيسي بين ماستر متعددة.

    وهكذا، عن طريق خلط الحلول المذكورة أعلاه، وتحقيق النجاح من الملح ماستر التوقف من حلول توفر عالية تلقائيا الكشف عن هجرة بيئة الخادم الحالية في نيوبورت كلها قد استولت عليها بنية الملح توظف مجموعة المتاحة للغاية.

     ملخص

    ACM لديها الآن أساسا تلبية مجموعة في كل يوم فضلا عن كميات كبيرة من الدعوة المؤيدة للنطاق:

    • لديها ACM حاليا أكبر دعم استدعاء متزامن خدمة من الدرجة K

    • ACM مهمة تزامن بسيطة من استدعاء متوسط تكلفة وقت حول 200MS.

    • وكان متوسط منصة حجم المكالمات اليومية يقرب من 50 مليون مرة

    • طلب نسبة نجاح 99.99

     توقعات

    مع ضمان موثوقية النظام، والوصول إلى نظام وحجم المكالمات ستكون أعلى وأعلى، بعد كيفية التعامل مع المهام اليومية تدعو الملايين من عشرات الملايين أيضا على جدول الأعمال.

    AIOps مستقبل ارتفاع الطلب ACM التكوين الأساسي من هذا المنبر الخدمة سوف تثار، لأنه عندما أمر نظام مراقبة - جمع البيانات اللازمة لاتخاذ القرارات، تحليل جعل، بعد قرار، ACM تحتاج إلى أدوات لتنفيذ الإجراء لمواجهة، واستخدام الآلي مخطوطات / الأوامر لتنفيذ القرارات AI الدماغ.

    حاليا Saltstack تمكنت 150000 + الخادم، عندما فشلت الملح المكالمة، ربما لأن الجهاز نفسه باستمرار، القيود جدار الحماية، يتم قطع شبكة سبعة، وتحميل النظام مرتفعة للغاية، والقرص ممتلئ، وهلم جرا مجموعة متنوعة من هذه الأسباب مما أدى إلى نداء ملح فشل، ونأمل أن تقدم لمشاكل فشل الملح الإنذار المبكر والاستخبارات لتحديد المشكلة وإصلاح المشكلة.

    تنفيذ الملح دفعة الرأس عندما يكون هناك احتمال معينة من النتائج فقدان الوظيفة، ولأن احتياجات العملاء للعودة النتائج لكافة المهام دفعت بشكل استباقي مرة أخرى إلى الخادم، عندما كميات كبيرة من البعثة، عدد قليل من عوائد الجهاز سوف يتم فقدان نتيجة.

    مؤتمر الشعب الوطني لي Chunkui: جنوب الصين لتصبح العلامة التجارية الأولى لي هش

    أوصى المعلمين تحرير ألعاب الدم لاختيار هذه الهواتف على غير ما يرام

    جوجل I / O مؤتمر توقعات: عليك أن نتطلع إلى ذلك

    العودة إلى الماضي، وحكم مقاهي الانترنت هي لعبة ما؟ أي واحد هو المفضل لديك؟

    تشكيلة الخالدة! الممثل البريطاني تشكيلة كاملة للانضمام إلى موضوع الحرب في فيلم "1917"، وسيكون آخر "دونكيرك" ذلك؟

    MaxScale: الخلية قراءة منفصلة والكتابة وتنفيذ موازنة أداة الوسيطة

    الطيار الآلي أرجل صعوبة في المشي، والاحتياجات التعاون الكامل من المركبات على الطرق الوعرة

    وبالإضافة إلى رصد مفتوحة كومة التكنولوجيا مصدر ELK، هناك InfluxData وTICK

    المنبع ما يكفي من أخبار رائعة! أخبار المنبع ملعب مكشطة السوبر

    التخطيط للتلفزيون لبناء AI رقاقة، كبيرة ترقية بارد نظام مفتوح، 4k المحتوى: SKYWORTH والتغيير

    الدجاج، LOL، CF، الخ معركة ترنيمة من هذه الألعاب هي ما؟ ما هي الأغنية تحب أفضل؟

    هناك العديد من الجودة وتحرير متعة تجربة أودي A4L جديد