تطبيق تقنية سبارك الذكي في Jingdong التنبؤ سلسلة التوريد

الكاتب | يانغ دونغ تشان قوه جينغ أكثر

تحرير | الرماد

هذه المقالة سوف أعرض Jingdong سلسلة ذكية العرض وأساليب التنبؤ فيه دور قطاع الأعمال ونظام التنبؤ الهندسة التقنية، وسبارك في استخدام نظام الأساسي وأخيرا المؤلفون الكتب: فصول "تكنولوجيا الرسم شرارة الأساسية وحالة حقيقية من" يعرض التطبيق في التنبؤ ونظام التحسين.

خلفية

منذ بعض الوقت Jingdong الكشف عن التخطيط الاستراتيجي للسنتين الثانية، أعرب Jingdong سوف تكون موجهة بالكامل نحو التكنولوجيا، وتطوير الذكاء والروبوتات الصناعية تكنولوجيا التشغيل الآلي، سيتم ترقية تماما في الماضي بالطريقة التقليدية لمصلحة بناء. Jingdong قسم Y المثلية المعمول بها، فإن قطاع التجزئة بمثابة النواة للعموم، والتركيز على بناء القدرة على العرض من المخابرات، مهمتها الأساسية هي استخدام الذكاء الاصطناعي لدفع الابتكار التجزئة.

Jingdong سلسلة التوريد

Jingdong حاليا 256 مشغلي مخازن كبيرة في جميع أنحاء البلاد، وفقا للمهام يمكن تقسيمها إلى RDC، FDC، مستودع كبير المركزي والمخازن الصناعية الكبيرة، والكتب المخازن والمستودعات المدينة، وهلم جرا. RDC (مركز التوزيع الإقليمي) التي هي مركز التوزيع الإقليمي، تفهم على أنها مستودع، وشراء وإعطاء الأولوية لموردي السلع أرسل هنا، تعيين عادة في وسط المدينة، وتغطية كبيرة. FDC (إلى الأمام مركز التوزيع) التي هي مركز العمليات الإقليمية، ومن المفهوم أنه مستودعين، تشمل عددا من المدن المتوسطة والصغيرة والمناطق النائية، غالبا ما تقوم على الطلب على السلع سيأتي من نشر RDC.

جنبا إلى جنب مع الذكاء الاصطناعي والتقنيات البيانات الكبيرة مثل Jingdong أول عملية شراء من المورد، حيث قدر معقول من البضائع إلى RDC، ومن ثم توزيعهم على الجهات الأربع وفقا للاحتياجات الفعلية ومن ثم شحنها إلى محطات التوزيع الأقرب إلى العملاء، وسوف ساعي تجلب أخيرا البضاعة العملاء . هذا هو مجرد Jingdong نظام سلسلة التوريد في مشهد عادي، ولكن بسبب عدم وجود نظام من هذا القبيل، مما يجعل استجابة Jingdong إلى سرعة المستخدم تحسنت كثيرا، يعزز كثيرا من تجربة المستخدم.

Jingdong سلسلة التوريد الأمثل

تعزيز تجربة المستخدم ويرافق أيضا من خلال زيادة الاستثمار ويكلف الكثير من المال، ويجب أن يقدموا التكاليف تحت السيطرة، والنظام برمته من أجل لعب أكبر قيمة، وبالتالي تحسين سلسلة التوريد يصبح أساسيا.

في الواقع، وبحوث العمليات الأمثل هو المشكلة، والنظر في كيفية تحقيق التوازن الاستفادة القصوى بين مختلف هدف صنع القرار، في حاجة عملية للنظر في العديد من القضايا، هذه الاعتبارات واضحة ويسهل حل المشكلة. وهناك أمثلة قليلة بسيطة:

  • التجديد المنتج: ينظر في وقت ما، ما هي المنتجات التي RDC الشراء، شراء كمية هو كم؟

  • توزيع السلع: النظر في وقت ما، ما هي المنتجات التي FDC نشر والمخصصات مبلغ وإلى أي مدى؟

  • مشغلي مستودع: تعزيز كبير قادم، المستودعات ومحطات التوزيع لزيادة عدد الموظفين، مع عدد من الشاحنات؟

على الرغم من أنه يبدو هذه الأسئلة من السهل الإجابة، ولكن التفكير ولكن من الصعب إعطاء إجابة، والسبب هو أنك تريد أن تكون دقيقة وليس من السهل جدا، واستغرق التجديد، ويشكلون أكثر من اللازم زيادة المخزون التكلفة، والقليل جدا سوف تشكل الزيادات في التكاليف نقص، سوى تكملة معقول شحنات من أجل تحقيق بأقل تكلفة.

دور التكنولوجيا في التنبؤ Jingdong سلسلة التوريد

تم منهجي تعلم الآلة، والبيانات الكبيرة وغيرها من التكنولوجيات ذات الصلة، في العديد من المشاكل سلسلة التوريد الأمثل Jingdong، توصيات التحسين نظرا تلقائيا من قبل النظام، وتوصيلها إلى نظام الإنتاج، لتحقيق أتمتة عملية الكامل. هنا وهناك تقنية على مستوى منخفض يلعب على حيوية دور مساند - تكنولوجيا التنبؤ. ووفقا لتقدير تقريبي، وهو تحسن بنسبة 1 في دقة التنبؤ يمكن أن ينقذ العديد من تكاليف التشغيل.

كيف نفهم دور التنبؤي في تحسين سلسلة التوريد في ذلك؟ خذ البضائع التجديد على سبيل المثال، وهي شركة لضمان أن وزارة الخزانة ليس من المخزون، قد يكون التجديد المتكرر لكميات كبيرة من البضائع من الموردين هناك، وفعلت ذلك، وإن لم يكن من المخزون، ولكن قد سوف يسبب المزيد من السلع غير المباعة تراكمت في المستودعات، بحيث دوران السلع انخفضت، وزيادة تكاليف المخزون. على العكس من ذلك، هي الشركة من المرجح أن تجعل السعي من الصفر المخزون وعدد أقل من السلع، ولكن قد تحدث هذه المشاكل نقص شديدة، حتى أن سعر الصرف السائد هو انخفاض، يؤثر تأثيرا خطيرا على تجربة المستخدم، وزيادة تكلفة النقص. لذلك يصبح السؤال، وكم البضائع غير المناسبة للتعويض، في أي وقت التجديد، الأمر الذي يتطلب المقايضات، والهدف النهائي هو جعل تكلفة نقص المخزون من حيث التكلفة وتحقيق التوازن.

النظر في القضية المتطرفة، مثل تجديد المخزون تنخفض إلى الصفر، ثم المورد سوف استلام البضائع تجديد إخطار إلى مستودع. لكنه لا يفعل ذلك ليس هناك مشكلة، لأن عملية النقل تستغرق وقتا، وهذه المرة في وزارة الخزانة من المخزون. كيف ينبغي لنا أن نفعل بعد ذلك؟ هو استخدام تقنيات التنبؤ. يمكننا حساب باستخدام مبيعات المستقبل المتوقع للسلع خلال ذلك الوقت حول مدى في طريق، ومن ثم ندع مستودع للتأكد من أن هذا المبلغ هو أقل من أعطى مبلغ الصادرة المورد التجديد سابق إنذار، لذا يتم حل المشكلة. الكل في الكل، لعبت تقنيات التنبؤ هنا دورا هاما باعتباره حلقة رئيسية.

نظام التنبؤ Jingdong

التنبؤ مقدمة النظام

نظام التنبؤ في جميع أنحاء نظام سلسلة التوريد في أدنى مستوى، وبمثابة دعم لدعم وافر من نظام القرار الأمثل العلوي، وهذه النظم تستخدم دقيقة بيانات التنبؤ القرار الأمثل ملزمة حصلت القرار الأمثل بحوث العمليات والتقنيات، ويوفر نتيجة لنظام تنفيذ الأعمال أكبر أو الجانب التجاري مباشرة.

في الوقت الحاضر، ونظام التنبؤ بشكل رئيسي لدعم ثلاثة أعمال: توقعات المبيعات، والإسقاطات واحد توقعات GMV. حيث الدعم الرئيسي لمبيعات السلع تجديد التوقعات، توزيع السلع، والتنبؤ إدارة واحدة كبرى عمليات دعم المستودع، والموقع، وتوقع GMV في المقام الأول يدعم تخصيص خطة المبيعات.

توقعات المبيعات يمكن تقسيمها إلى أبعاد مختلفة وفقا لتوقعات الشراء RDC، وتخصيص FDC يتوقع، يتوقع تخصيص مستودع المدينة الكبيرة توقعات تجديد Jiancang، والإسقاطات وشراء العالمي وبيع الكتب وغيرها من التنبؤ الترويجية، التنبؤ يمكن تقسيمها إلى توقعات وزارة الخزانة واحدة واحدة، التنبؤ واحد مركز التوزيع ومحطات التوزيع التنبؤ احد (هنا "مجلد واحد" لا يشير إلى كمية من أوامر وضعت من قبل المستخدم، ولكن النظام لتقسيم تدفق واحد بعد كمية من مستودع واحد، على سبيل المثال يتألف النظام المستخدم البند 3، حيث قطعتين كبيرة من السلع ومقال صغير، في سلسلة التوريد jingdong اثنين من المنتجات الضخمة التي قد تشكل بن واحد كبير لخدمة، وأن قطع صغيرة من فرد واحد قطع صغيرة تعمل على بن، يشير المبلغ مبلغ واحد بعد واحد تقسيم)، وGMV لدعم توقع حجم المنتج.

التنبؤ نظام العمارة

البناء الشامل من أعلى إلى أسفل هي: مصدر البيانات طبقة المدخلات، وتجهيز طبقة قاعدة البيانات، وخدمة الطبقة الأساسية، ونظام إخراج البيانات وطبقة المصب. البيانات يكتسب الأولى من خدمة مصدر البيانات الخارجية نحتاج إليه، على أساس معالجة البيانات والغسيل، ومن ثم معالجة وتحليل البيانات في سلسلة زمنية من خلال تقنيات الذكاء الاصطناعي، تعلم الآلة، وأخيرا حساب نتائج التنبؤ من قبل مختلف طرق دفع نظام المصب.

مصدر طبقة إدخال البيانات: البيانات Jingdong الأعمال تخزين البيانات التي نحتاجها أكثر من المستودع، مثل معلومات النظام، ومعلومات عن المنتجات ومعلومات الجرد، وهلم جرا. أما بالنسبة للبيانات خطة التسويق هي في معظمها من التعدين نظام المعلومات موظفي المبيعات من خلال دخول الويب. وبالإضافة إلى ذلك هناك كمية صغيرة من البيانات التي تم تحميلها مباشرة في النص الذي HDFS.

معالجة البيانات طبقة الأساس: في هذه الطبقة في خلية الرئيسية من قبل بعض معالجة البيانات على أساس التنظيف لإزالة الحقول غير الضرورية وتصفيتها والبيانات غير المرغوب فيها بعد غسلها في السؤال.

طبقة رجال الأعمال الأساسية: هذه الطبقة هي جوهر النظام، ويمكن تقسيمها إلى ثلاث عرضية راجع: حيث البناء، وتجهيز النتائج وخوارزمية التنبؤ التنبؤ. عموديا يتكون من عدد وافر من خطوط الخدمات، لا يحدث التقاطع مع بعضها البعض.

  • يتميز البناء: وتنظيفها قبل اتخاذ أي خطوة إلى الأمام من معالجة تحويل البيانات الأساسية إلى بيانات سمة من سمات شكل موحد، لاستخدامه لاحقا من الخوارزمية نموذج.

  • خوارزميات الأساسية: استخدام تحليل السلاسل الزمنية، والتعلم الآلي، والمبيعات تكنولوجيا الذكاء الاصطناعي، توقعات مجلد واحد، ونظام التنبؤ هو جوهر الجزء.

  • قد لا تفي توقع النتائج المتطلبات الخاصة للشكل وعدد من نظام المصب، لذلك لا بد من معالجتها وفقا للحالة الفعلية، ومعلومات إضافية مثل الانحراف المعياري، والشعار الترويجي: التنبؤ معالجة النتائج.

وتوقع النتائج طبقة إخراج: سيتم مزامنة النتيجة النهائية إلى Jingdong مستودع البيانات التوقعات، الخلية، HBase أو جعلها في واجهة JSF إلى أنظمة أخرى للمكالمات لمسافات طويلة.

نظام المصب: بما في ذلك مهمة المصب تدفق أنظمة الويب المصب وغيرها من النظم.

نظام التنبؤ الأساسية عرضه

التنبؤ طبقة نظام اختيار التكنولوجيا الأساسية

ينقسم التنبؤ نظام الطبقة الأساسية التكنولوجيا إلى أربع طبقات: طبقة الأساس، طبقة الإطار، طبقة من الأدوات والخوارزميات طبقة.

طبقة الأساسية:

HDFS تستخدم لتخزين البيانات، واستخدام الخيط لجدولة الموارد، BDP (منصة البيانات الكبيرة) هو Jingdong البحث والتطوير لمنصة البيانات الكبيرة الخاصة، ونحن أساسا استخدامها لجدولة المهام.

طبقة الإطار:

، شكلت برنامج مابريديوس إلى سبارك RDD، سبارك SQL، خلية المستندة لجزء صغير، هو إرث الأصلي، الآن تحل محلها تدريجيا RDD شرارة. اختر سبارك بالإضافة إلى النظر في الأداء، ولكن أيضا أن تنظر في تطوير برنامج سبارك ذات الكفاءة العالية، وميزات متعددة اللغات، وتقديم الدعم لخوارزميات تعلم الآلة. شرارة في تطوير اللغة اخترنا بيثون، وهناك ثلاثة أسباب:

  • الثعبان لديه الكثير من الحزم خوارزمية التعلم آلة جيدة يمكن استخدامها، مقارنة مع دقة شرارة MLlib، الخوارزمية أعلى. فعلنا النقيض مع GBDT وجدت لتعزيز xgboost نموذج شجرة من المقدمة MLlib داخل دقة التنبؤ عالية حوالي 5 إلى 10. على الرغم من أن استخدام سبارك المباشر يأتي مع الإطار تعلم الآلة سيوفر تكاليف تطوير لدينا، ولكن دقة التنبؤ أمر بالغ الأهمية بالنسبة لنا، وزيادة بنسبة 1 كل دقة، فإنه قد يؤدي إلى خفض التكاليف بشكل كبير.

  • ويضم فريق مهندسينا ومهندس تطوير الخوارزميات، مهندس الخوارزمية أنها تستخدم بايثون أفضل في تحليل البيانات، لن يكون هناك تكلفة صغيرة لتعلم جافا أو سكالا.

  • بالمقارنة مع لغات أخرى، نجد أن استخدام كفاءة تطوير بيثون هو أعلى، والوافد الجديد لتعلم بيثون أسهل من تعلم لغات أخرى.

طبقة الأداة:

من جهة سنقوم الجمع بين عملياتها التي تستهدف تطوير بعض الخوارزميات، من ناحية أخرى سوف نستخدم بشكل مباشر على صناعة ناضجة الخوارزميات والنماذج، يتم تغليف هذه الخوارزميات في حزمة بايثون طرف ثالث. نحن حزمة تستخدم عادة لديه xgboost، نمباي، الباندا، sklearn، scipy وhyperopt وهلم جرا.

  • Xgboost: هو التدرج تعزيز جهود آلة هو تطبيق C ++، xgboost أكبر ميزة هي قدرته على تلقائيا للاستفادة من خيوط متعددة متوازية وحدة المعالجة المركزية، في نفس الوقت تحسين دقة إلى تحسين في الخوارزمية.

  • نمباي: بيثون هو امتداد الحساب العددي مفتوحة المصدر. هذه الأداة يمكن استخدامها لتخزين وعملية المصفوفات كبيرة، من بيثون بنية قائمة متداخلة في حد ذاته هو أكثر كفاءة (بنية يمكن استخدامها لتمثيل المصفوفة).

  • الباندا: نمباي هو أداة، أداة لحل مهام تحليل البيانات التي تم إنشاؤها على أساس. وشملت الباندا مكتبة كبيرة ويقدم بعض نموذج البيانات القياسية الأدوات اللازمة لتعمل بكفاءة مجموعات كبيرة من البيانات.

  • sklearn: بيثون هو آلة مهمة الدعم التعليمي مكتبة، بما في ذلك التصنيف والانحدار، والتجميع والحد من البعد من أربع خوارزميات تعلم الآلة. تضم أبعد ميزة استخراج ومعالجة البيانات ونموذج تقييم ثلاث وحدات.

  • scipy: زيادة عدد وظائف مكتبة الرياضيات والعلوم والهندسة الحسابية التي تستخدم عادة على أساس مكتبة نمباي. مثل الجبر الخطي، الحل العددي للمعادلات التفاضلية العادية، ومعالجة الإشارات، ومعالجة الصور ومثل مصفوفة متفرق.

مستوى الخوارزمية:

نموذج الخوارزمية التي نستخدمها كثيرا، لأن فئات المنتجات Jingdong كاملة، والأعمال المعقدة، نحن بحاجة إلى الخوارزميات المختلفة النموذج اعتمادا على الظروف. لدينا نظام منفصل لإقامة علاقة بين النموذج خوارزمية المطابقة والسلع، وبعض من رجال الأعمال التنبؤ أكثر تعقيدا تحتاج أيضا إلى استخدام نماذج متعددة. الخوارزمية العامة يمكن تقسيمها إلى ثلاث فئات التي نستخدمها: السلاسل الزمنية، والتعلم الآلي وتطوير الأعمال جنبا إلى جنب مع بعض خوارزميات فريدة من نوعها.

1. خوارزميات تعلم الآلة بما في ذلك GBDT، لاسو وRNN:

GBDT: خوارزمية تكرارية هي شجرة القرار، وتتألف خوارزمية متعددة تكوين أشجار القرار، وإبرام جميع الأشجار لا تضيف ما يصل الجواب النهائي. نستخدمها للتنبؤ مبيعات عالية، ولكن قوانين التاريخ ليست بضائع واضحة.

RNN: الحالة الداخلية للشبكة مثل هذه يمكن أن تظهر في السلوك الديناميكي للتوقيت. شبكة ال feedforward مختلفة عن السابق، يمكن RNN استخدام الذاكرة الداخلية لمعالجة تسلسل المدخلات من أي تسلسل، التي يمكن أن تجعل من السهل التعامل معها، مثل التنبؤ السلسلة الزمنية، التعرف على الكلام.

لاسو: هذا الأسلوب هو تقدير الضغط. انها وظيفة الجزاء التي حصل عليها بناء نموذج من أكثر دقة، بحيث يضغط بعض المعاملات، في حين تعيين عدد من المعاملات الى نقطة الصفر. وهكذا يحتفظ مزايا مجموعة فرعية من الانكماش، بيانات المشترك خطي معالجة معقدة وجود تقديرات منحازة. استخدامها للتنبؤ انخفاض حجم المبيعات والسلع مستقرة البيانات التاريخية على نحو أفضل.

2. بما في ذلك سلسلة زمنية ARIMA وشتاء هولت:

ARIMA: الاسم الكامل لصناعة السيارات في الرجعية المتكاملة المتوسط المتحرك نموذج، وقت المعروفة طريقة التنبؤ سلسلة المقترحة في 1970s في وقت مبكر، ونحن أساسا استخدامها للتنبؤ مبلغ مماثل هذا المستودع واحد على نحو سلس التسلسل.

الشتاء هولت: المعروف أيضا باسم مكعب خوارزمية تجانس الأسي، هي سلسلة زمنية الكلاسيكية الخوارزمية، نستخدمها للتنبؤ بالاتجاهات الموسمية واضحة والبضائع.

3. الخوارزمية الملكية مع تطوير الأعمال، بما في ذلك WMAStockDT، SimilarityModel وNewProduct مثل:

WMAStockDT: المخزون نموذج شجرة قرار يتوقعون تأثير أكبر من المخزون من البضائع.

SimilarityModel: منتجات مماثلة نموذجية، منتجات مماثلة باستخدام البيانات المحددة للتنبؤ المبيعات مستقبل سلعة.

NewProduct: نموذج جديد، وكما يوحي اسم يستخدم للتنبؤ المبيعات من المنتجات الجديدة.

التنبؤ العمليات الأساسية نظام

وتشمل العمليات الأساسية التنبؤ فئتين: آلة التعلم العمليات القائمة على خوارزمية وعملية على أساس تحليل السلاسل الزمنية.

1. آلة التعلم القائم على عملية الخوارزمية كما يلي:

  • يتميز البناء: اختبارات تحليل البيانات، ونموذج لتحديد السمة الرئيسية، والبيانات ميزة الناتجة عن سلسلة من المهام في شكل موحد.

  • اختيار نموذج: المنتجات المختلفة لها خصائص مختلفة، الاجتماع الأول لذلك، والسلع القديمة الجديدة، والحساسية مهرجان همية وعوامل أخرى لتعيين نموذج خوارزمية مختلفة استنادا على مستوى المبيعات من السلع.

  • اختيار ميزة: عدد من الميزات لتصفية تصفية من الخصائص غير المرغوب فيها، وخصائص مختلفة من أنواع مختلفة من السلع.

  • تقسيم العينة: حزم البيانات التدريب، وتنقسم الى عدد وافر من مجموعات من العينات، لإنشاء ملف نموذج لكل مجموعة من عينات من التدريب الحقيقي. وعادة ما يتم تجميع نفس النوع من السلع، مثل فئة تجميع البعد، وهذا يعتبر الموازاة، ودقة النموذج.

  • معالم النموذج: اختيار أفضل معالم النموذج، سوف المعلمات المناسبة تحسين دقة هذا النموذج، وذلك بسبب الحاجة لمجموعات مختلفة من المعلمات لتدريب نموذج ويتوقع على التوالي، لذلك هذه الخطوة جدا كثيفة الاستخدام للموارد.

  • تدريب نموذجي: أن تكون الميزات، نماذج، ويتم تحديد العينات بعد يمكن تدريب نموذجا جيدا، وتدريب غالبا ما يستغرق وقتا طويلا، بعد نموذج التدريب سوف تولد الملفات المخزنة في HDFS.

  • التنبؤ موديل: قراءة الملف نموذج التنبؤ تنفيذها.

  • متعدد نموذج الجدارة: تحسين دقة التنبؤ، قد نستخدم نماذج متعددة الخوارزمية، ويختار نظام تنبؤ الأمثل من عند إخراج كل التوقعات النموذج من قبل بعض القواعد.

  • القيمة التنبؤية لاعتراض غير طبيعي: لقد وجدنا أن أكثر تعقيدا وصعوبة في شرح خوارزمية للتنبؤ قيمة حالات قليلة جدا عالية بشكل غير عادي عرضة، وهذا التنبؤ لا يمكن الجمع بين عالية جدا مع التفسير التاريخي للبيانات، ولذا فإننا سوف تمرير بعض من هذه القيم المتطرفة قواعد أغلقت، وبدلا من استخدام قيمة أكثر تحفظا.

  • نموذج التقييم: حساب دقة التنبؤ، ونحن عادة استخدام mapd وذلك في مؤشر التقييم.

  • خطأ تحليل: توزيع خطأ تم الحصول عليها في الأبعاد المختلفة عن طريق تحليل دقة التنبؤ، من أجل توفير إشارة إلى خوارزمية الأمثل.

2. عملية تحليل التنبؤ سلسلة زمنية مستندة كما يلي:

  • تاريخ جيل توقيت: تاريخ البيع، والأسعار، المخزون وغيرها من البيانات لتوليد بيانات السلاسل الزمنية وفقا للشكل المحدد.

  • العوامل العطل: العلاقة بين المبيعات تحسب والعطلات، وتستخدم للتخفيف تأثير عطلة على المبيعات.

  • العوامل الأحد: احسب من الاثنين إلى الأحد العلاقة لمدة 7 أيام مع المبيعات، وتستخدم للتخفيف من تأثير مبيعات الأحد.

  • عوامل الترويج: العلاقة بين تعزيز محسوبة والمبيعات لتمهيد تأثير على ترويج المبيعات.

  • تمهيد عامل: التاريخ مبيعات غير مستقر، تتأثر الأعياد، والترقيات، وغيرها، لالتنبؤ في هذه الحالة صعبة جدا، لذلك مطلوب حساب قبل استخدام عوامل مختلفة على تجانس البيانات التاريخية.

  • التنبؤ سلسلة: التنبؤ بواسطة خوارزمية في بيانات مبيعات مستقرة نسبيا.

  • عامل تراكب: مجموعة من العوامل القادمة العطلات والخطط الترويجية لضبط النتائج المتوقعة.

شرارة في التنبؤ طبقة الأساسية

نحن نستخدم SQL سبارك وRDD سبارك مجتمعة لكتابة برامج لمعالجة البيانات عام، ونحن نستخدم طريقة سبارك لا تختلف عن الآخر، ولكن لتدريب نموذج، يحتاج إلى استدعاء هذه التنبؤ المنطقي واجهة خوارزمية سوف تحتاج إلى النظر في الموازاة المشكلة. متوسط كمية البيانات ونحن نتعامل مع مهمة تدريبية ليوم واحد في حوالي 500G، على الرغم من أن حجم البيانات ليست كبيرة بشكل خاص، ولكن تنفيذ خوارزميات بيثون وحزم خوارزمية عملية واحدة. حسبنا أنه إذا كنت تستخدم الاحتياجات التدريبية آلة لجميع فئات البيانات في الوقت لمدة أسبوع، والتي لا يمكن أن تصل، لذلك نحن بحاجة إلى مساعدة سبارك مثل هذا الإطار وزعت الحوسبة المتوازية إلى انتشار حساب على العقد متعددة للمعالجة المتوازية .

لدينا طريقة بسيطة جدا لتحقيق، أول حاجة لتثبيت حزم بيثون كامل المطلوبة على كل عقدة من الكتلة، ومن ثم النظر في اعتماد قواعد معينة عند كتابة برنامج سبارك قسم البيانات، مثل أبعاد الفئة، بيانات التشغيل مرة أخرى بواسطة groupByKey أقسام، كل قسم عبارة عن مجموعة منفصلة من العينات والتدريب من أجل تحقيق الموازاة. معالجة كما هو مبين أدناه:

الزائفة رمز على النحو التالي:

يتم توفير طريقة أي بنية RDD منطقية repartitionBy إعادة تقسيم العائد (K، V)، وسيلة لتدريب تدريب البيانات، القطار في الطريقة التي يدعو اجهة حزمة بايثون الخوارزمية. saveAsPickleFile سبارك بيثون هي عملية عمل فريدة من نوعها، وسيتم تجهيز الدعم لإنقاذ RDD إلى sequnceFile شكل تسلسل من الوثيقة في عدد من الطرق في عملية متسلسلة 10، حفظ الملف نموذج يصلح للغاية.

على الرغم من أن بسيطة من حيث المبدأ، ولكن هناك صعوبة، وهذا هو ما هي القواعد تقسيم المناطق، وينبغي أن يكون مفتاح كيفية إعداد. لحل هذه المشكلة نحتاج إلى النظر في عدة جوانب، الأول هو ما ينبغي تجميع البيانات في التدريب معا، والثاني هو كيفية تجنب البيانات انحراف.

بالنسبة للسؤال الأول كننا النظر في النقاط التالية:

  • كان في بيانات تقسيم لديها تشابه معين، وبالتالي فإن التأثير سيكون تدريب أفضل، مثل فئة التقسيم هو مثال نموذجي.

  • خصائص المنتج، وفقا لخصائص مجموعة مختلفة من النموذج، مثل المبيعات نموذج التنبؤ ارتفاع السلع وانخفاض المبيعات من السلع ليست هي نفسها، حتى لو كان سمة مميزة للنموذج نفسه المستخدمة قد تكون مختلفة، مثل المواد الحساسة الترويجية سيتطلب أكثر الميزات والترقيات متعددة ذات الصلة، والبضائع نفس النموذج نفس الخصائص تميل الى ان تكون مقسمة في قسم.

بالنسبة للسؤال الثاني فقد اعتمدنا على النحو التالي حول:

  • لكمية كبيرة من البيانات تم اختيارها عشوائيا التقسيم.

  • لأقسام البيانات يمكن أيضا أن يتم تقسيم الثانوي كبير جدا، مثل كمية فئة البيانات أكبر بكثير من الكتب فئة الخيال أخرى، بحيث يمكن تحليلها تحت فئة فرعية توزيع فئة الرواية من كمية البيانات، ودمج فئة فرعية جديدة عدة أقسام.

  • لهذه الحالة، فإن كمية البيانات صغير جدا لا بد من النظر في عدة أقسام هي البيانات المدمجة.

وباختصار يمكن تشغيله بشكل منفصل عن المعاملتين بعد اعتماد مهمة سبارك على أساس منتظم، وحفظ هذه القواعد تقسيم المناطق.

شرارة يوضح ملزمة للتطبيقات، والتحسين

ملاحظة: "سبارك الرسم: التكنولوجيا الأساسية والقضية الحقيقية"، كما صاحب هذا المقال.

"التوضيح سبارك: التكنولوجيا الأساسية والقضية الحقيقية"، وهو الكتاب المراد كتابتها نسخة Spark2.0 القائمة على نظام إدخال تكنولوجيا المكونة شرارة الأساسية ونظامها الإيكولوجي. يتضمن محتواه النظام البيئي سبارك، والهياكل بيئة قتالية ونماذج البرمجة، مع التركيز على جدولة الوظائف، وتنفيذ المتسامحة والرصد والإدارة، وإدارة التخزين والهيكل التشغيلي، كما عرض مكونات النظام البيئي ذات الصلة سبارك، بما في ذلك سبارك SQL مخصصة الاستفسارات ، سبارك تدفق في الوقت الحقيقي تجهيز تيار، MLlib تعلم الآلة، GraphX نظر عملية وAlluxio توزيع نظام الملفات الذاكرة. وإليك كيف Jingdong نظام التنبؤ لجدولة الموارد، ويصف كيفية استخدام شرارة المعرفة نظام التخزين الأمثل.

نظام ملزم

في الفصل السادس من الكتاب يصف العمارة التشغيلية شرارة شرارة الرسوم البيانية، وينقسم قدم سبارك جدولة مورد كتلة عموما في وسائط الحبيبات غرامة والحبيبات الخشنة جدولة جدولة. تضم خشن الحبيبات Mesos مستقل وضع ونموذج الحبيبات الخشنة، وفي هذه الحالة آلة صرف بأكمله كوحدة ولأداء هذه المهمة، يتم تقليل الاستفادة من هذا الوضع بسبب عقد طويل الأجل من الموارد الموارد جدولة الوقت في سماء المنطقة، والعيب هو أن نمط غير قادر على تغيير المعنى في استخدام الموارد، ويمكن أن يؤدي بسهولة إلى موارد النظام الخمول، مما أدى إلى إهدار الموارد.

غزل تضم الحبيبات غرامة ووضع التشغيل ووضع التشغيل Mesos ميزة الحبيبات من هذا الوضع هو أن موارد النظام يمكن الاستفادة منها بشكل كامل، والعيب هو هذا الوضع كل احتياجات مهمة لاكتساب من مدير الموارد، وتأخير جدولة كبير، والنفقات العامة من ككل.

منذ Jingdong مجموعات سبارك ينتمي إلى منصة اساسية، وتبادل هذه الموارد داخل الشركة، لذلك تستخدم الكتلة وضع التشغيل غزل، لإدارة مرنة من الموارد في هذا الوضع وفقا لاحتياجات النظام المختلفة. في وضع غزل-العنقودية، عندما يقوم المستخدم بإرسال غزل تطبيق كتلة، والغزل مجموعة مرحلتين تشغيل التطبيق:

المرحلة الأولى هي شرارة SparkContext كما طلب ماستر غزل تبدأ أولا في الكتلة، والمرحلة الثانية هي التطبيقات التي تم إنشاؤها من قبل التطبيقات ماستر، ومن ثم تنطبق الموارد من أجل أن مدير الموارد، وتبدأ المنفذ لتشغيل مجموعة مهمة في حين رصد العملية برمتها لحين اكتمال العملية. ويبين الشكل غزل العنقودية عملية التنفيذ وضعية التشغيل التالية:

جنبا إلى جنب مع نظام الأمثل

ونحن نعلم جميعا أن البيانات الكبيرة تجهيز عنق الزجاجة في IO. مع شرارة يمكننا وضع بيانات عملية تكرارية في الذاكرة، مقارنة مابريديوس مكتوبة إلى سرعة القرص بنسبة ما يقرب من أوامر من حجم، بالإضافة إلى معالجة البيانات المراوغة تجنب مثل بكثير ممكن، وتصفية البيانات لا يمكن تجنبها، وإذا أمكن قبل المراوغة، والحد من كمية خلط ورق اللعب البيانات؛ وأخيرا، فإن تسلسل هو استخدام وكفاءة خوارزمية ضغط. نشر Jingdong تحسين نظام التنبؤ بشكل رئيسي حول هذه الروابط، التخزين ذات الصلة شرارة المعرفة بمبادئ يمكن العثور عليها في الوصف التفصيلي من الفصل الخامس من سبارك كتاب التوضيح.

بسبب القيود المفروضة على الموارد، حجم الكتلة سبارك خصص لنظام التنبؤ ليست كبيرة، مع الموارد المحدودة لتشغيل التطبيق سبارك هو في الواقع تحديا، لأنه في هذه الحالة، هذه الإجراءات غالبا ما تحدث الحوسبة وقت طويل جدا، لا يمكن العثور منفذ وغيرها من الأخطاء. علينا أن نعدل المعلمات، تعديل تصميم وتعديل برنامج منطق الأمثل ثلاثة جوانب:

تعديل المعلمة

  • الحد من الأسطوانات، منفذي، لنقل كبيرة منفذ الذاكرة، وهذا الهدف هو المنفذ لديها ذاكرة كافية يمكن استخدامها.

  • عرض جدت سجل ليس هناك مساحة كافية لتحليل متغير البث المخزن بسبب بيانات ذاكرة التخزين المؤقت ركض جدا من الذاكرة، ولذا فإننا سوف تصل قيمتها إلى المستوى المناسب ذاكرة التخزين المؤقت MEMORY_ONLY_SER وDISK_ONLY.

  • بالنسبة لبعض المهام مغلقة آلية تكهن، بسبب حدوث بعض المهام مؤقتا لا يمكن أن تحل مشكلة البيانات انحراف، لا تظهر مشكلة العقد.

  • ضبط تخصيص الذاكرة لالمراوغة العديد من المهام، وضعنا أسفل مخبأ نسبة تخصيص الذاكرة، وزيادة نسبة الذاكرة المراوغة و.

تعديل تصميم

على الرغم من أن المعلمات تعديل السهل القيام به، ولكن في كثير من الأحيان غير فعالة، وهذه المرة من وجهة نظر يحتاج إلى النظر فيها لتحسين تصميم:

  • وسيتم في البداية قراءة التاريخ الأصلي من أشهر تدريب البيانات السابقة أو حتى سنوات من البيانات، دمج هذه البيانات سلسلة من معالجة معقدة، والتحويل، وبالتالي توليد البيانات مميزة. ونظرا لكمية هائلة من البيانات، والمهمة في بعض الأحيان سوف يشكو. بعد يوم واحد من تعديل يوم فقط من البيانات العلاج، وحفظ النتائج إلى تاريخ القسم التالي، اضغط يتطلب عدد الأيام على قراءة البيانات من أقسام متعددة يمكن أن يتم تشغيل النقابة خلال التدريب.

  • في "تدريب نموذج" تعديل أسبوعيا إلى رحلات يومية من تنفيذ تنفيذ "نموذج اختيار المعلمة" المسرحية تنفيذ الشهري من أسبوع على التكيف مع. لأن هذه المهام والموارد للغاية تستغرق وقتا، ولا تحتاج إلى تنتمي إلى المدى المتكرر، وعلى الرغم من ذلك دقة ستنخفض قليلا، ولكن ضمن نطاق مقبول.

  • أيضا يمكن أن يكون حلا جيدا لمشكلة عدم كفاية الموارد من المهام تقسيم. ويمكن تقسيم أفقيا، مثل أصلا بيانات 100 فئة في مهمة تدريبية، بعد التعديل إلى فئات المقدمة مرة واحدة كل 10 سبارك التدريب المهني. على الرغم من أن وقت التنفيذ الكلي وقتا طويلا، ولكن لتجنب إجراءات الخروج غير طبيعية لضمان أن المهمة يمكن تنفيذها بنجاح. بالإضافة إلى الانقسام الطولي الجانبي ويمكن أيضا، أي في سبارك المرحلة 10 يتألف المهمة انقسم الى اثنين من المهام، كل تتألف المرحلة 5، وتخزينها في البيانات الوسيطة إلى HDFS.

تعديل منطق البرنامج

لمزيد من تحسين كفاءة البرنامج، لتحسين الأداء عن طريق تعديل منطق البرنامج، لا سيما من حيث التحسينات التالية: قضايا المراوغة، ومعالجة البيانات ونقل البيانات المفرطة التي تتطلب تجنب الميل يقلل المراوغة.

1. تجنب المراوغة المفرطة

يوفر شرارة ثروة من عملية التحويل، حتى نتمكن من استكمال جميع أنواع معالجة البيانات المعقدة، ولكن أيضا بسبب هذا اننا قد تواجه فخ عند كتابة برنامج شرارة، وهذا هو لجعل رمز يصبح بسيط الإفراط في الاعتماد RDD عملية التحويل، بحيث كان من الممكن تغيير عملية مرة واحدة فقط مرات تنفيذ المراوغة. التزمنا كان يمكن القيام به مثل هذا الخطأ جراء عملية groupByKey كان يستخدم مرتين.

منطق الأعمال هو: لدينا تباع ثلاثة جداول (ق)، السعر (ع)، والمخزون (الخامس)، كل جدول على ثلاثة مجالات: معرف المنتج (sku_id)، فئة معرف (الفئة) وبيانات السلاسل الزمنية التاريخية (البيانات)، وسوف تحتاج الآن إلى الصحافة sku_id ق، ص، بيانات دمج الخامس، ثم اضغط على فئة معاد مرة واحدة تنسيق البيانات النهائي هو: . تبدأ، سنقوم بإجراء فئة groupByKey + كما sku_id لمتابعة الرئيسية، شكل بيانات التحويل إلى ، ثم اضغط على مفتاح فئة مرة أخرى groupByKey.

في وقت لاحق نحن تعديل مفتاح وفقا لفئة مرة واحدة فقط groupByKey، فقط لأن جزءا من فئة sku_id، وبالتالي فإن خريطة تحويل اللاحقة التي تحتاج إلى كتابة بعض من مجموعة التعليمات البرمجية نفس sku_id من الصورة، ص، البيانات الخامس معا على ذلك. الوضع اثنين groupByKey:

بعد تعديل الوضع يصبح groupByKey من:

الانضمام متعددة الجدول، إذا كانت القيم الأساسية متطابقة، ويمكن استخدامها في شكل اتحاد + groupByKey + flatMapValues. على سبيل المثال: المبيعات والمخزون والأسعار، وتسويق الخطط والاحتياجات من المعلومات المنتج لتكون مرتبطة معا من خلال رمز السلع الأساسية، وتحويل تبدأ باستخدام انضمام العملية عدة RDD الانضمام مع بعضها البعض. تبين لاحقا أن ذلك يعمل ببطء شديد، ثم تحل محل الاتحاد + groypByKey + flatMapValue شكل، القيام بذلك مرة واحدة فقط المراوغة والسرعة وهذا التعديل هو أسرع بكثير من ذي قبل. رمز المثال:

إذا كان ذلك مطلوبا اثنين RDD انضمام العملية بعد groupByKey، يمكن استخدام cogroup عملية التحويل بدلا من ذلك. على سبيل المثال، بيانات المبيعات التاريخية حسب الفئة ودمج، ومن ثم إلى الانضمام العمليات مع ملف نموذج، العملية هي على النحو التالي:

بعد استخدام cogroup، يمكن أن تكتمل المراوغة من خلال عملية من خطوتين، وتحسين كبير في الأداء.

2. كمية البيانات يقلل المراوغة

  • عملية المراوغة قبل صدور بيانات قدر الإمكان لتصفية غير المرغوب فيها.

  • استخدام comebineyeByKey يمكن تنفيذ أي منطق معقدة البلمرة كفاءة.

comebineyeByKey تابعة لعملية الدرجة الكلية، نظرا لأنه يدعم الخريطة نهاية البلمرة ذلك أفضل من أداء groupByKey، ولكن أيضا بسبب نهاية خريطتها وخفض الجانب ويمكن ترتيب يست نفس المنطق، وهو يدعم المشهد من reduceByKey، والتي تم تعريفها على النحو التالي:

educeByKey وgroupByKey الداخلية دعا فعلا comebineyeByKey،

قبل لدينا الكثير من المنطق تجميع معقدة لا يمكن أن يتحقق مع reduceByKey تتم بواسطة groupByKey، ثم استبدل كل الأداء comebineyeByKey تحسنت كثيرا.

3. البيانات معالجة الانحراف

أحيانا بعد سلسلة من عمليات تحويل البيانات تصبح يميل جدا، وفي هذه الحالة RDD لاحق الكفاءة الحاسوبية ستكون سيئة جدا، خطأ إجرائي خطير. هذا عادة باستخدام اجه هذه العملية التحول من إعادة تقسيم RDD إعادة تقسيم إعادة تقسيم البيانات يتم توزيعها بالتساوي في أقسام مختلفة، لتجنب الانحراف البيانات. إذا كان القسم للحد من استخدام تتجمع يمكن أيضا أن تكون فعالة، ولكن بالمقارنة مع تخصيص كافية إعادة تقسيم أنها ليست موحدة بذلك.

كتب في الماضي

وبالرغم من أن Jingdong نظام التنبؤ عملية مستقرة لفترة طويلة من الزمن، ولكننا نرى أيضا أن النظام نفسه، لا تزال هناك العديد من المجالات التي تحتاج إلى تحسين، فإننا سوف تحسين دقة التنبؤ، أداء النظام الأمثل، دعم متعددة الخدمات لتحسين الراحة. المستقبل، مع بيانات كبيرة، وذلك باستخدام تقنيات الذكاء الاصطناعي في Jingdong إدارة سلسلة التوريد أكثر وأكثر، ونظام التنبؤ وأيضا أن تلعب دورا أكبر لأعمال البحث والتطوير نظام التنبؤ Jingdong سيكون أيضا مليئة بالتحديات والمرح.

في النهاية فوائد خفية

عندما الصناعات التقليدية يجتمع التكنولوجيا المبتكرة، ستؤثر أي نوع من الشرارة؟ عندما مبتكرة التكنولوجيا في الصناعات التقليدية، وسوف تنتج أي نوع من قيمة؟ نمو الأعمال التجارية وكيف جلبت تكنولوجيا ألف مرة للمشروع؟

قيمة قمة G + التكنولوجيا العالمية 19 ابريل، بكين. جامعة لي مشتركة Jingdong مستشارين فنيين الفخرية، بينغ آن تقنية COO وCTO هو جين وى، مدير عام النمل التكنولوجيا العالمية لباس الذهب التعاون والتنمية، التي يملكها بارك وقادة الصناعة الآخرين نقطة قرحة السري مع تجربة التحول الشركة التقليدية للإنترنت.

كزة "قراءة النص الأصلي" تعرف على المزيد!

عدد اليوم الموصى بها

المواضيع البيانات الكبيرة ل

ونحن نركز على البيانات الكبيرة والتعلم الآلي، ونشر مقالات ذات جودة عالية والتقنية والحالات أصلية أخرى كل يوم وجود تدفق مستمر من البضائع الجافة. المزيد الدقيقة المجتمع الفصول الدراسية، على أمل أن عليك أن تكون هنا لحصة التكنولوجيا المتطورة، والتبادل التفكير العميق.

WeChat ID: BigdataTina2016

نص اليوم الموصى بها

انقر أدناه لقراءة الصورة

مبرمج، وهذا هو زعيم التكنولوجيا تريد؟

نوفمبر 2016 هونغ كونغ لخدمة PS + الأعضاء ألعاب مجانية

وقال فاي متعة تناول العشاء مع الأصدقاء، ولكن صديقاتها كان هذا السلوك ليس اسلوب أيام

اي فون على، ولكنه يمكن أن تحسن بشكل كبير من النصائح الرفاه غير معروفة

"المنغولي الزفاف الجماعي" مظهر Jinshanling سور الصين العظيم

وجه تكنولوجيا التعرف على 315 حزب المذكورة، ما التطبيقات؟

الحموله المفقودة - "ستار المواطن" الطريق الوعر (ج)

TVB الممثل جمدت الشيخوخة مقاومة؟ ماركو نجاي البالغ من العمر 51 عاما ولكن إذا كان اثنان الدهون

الغربية: الفريق الأول، "شرطة المدينة بسرعة" لاول مرة فينيكس

كان يا ما كان خطاب شهير، هو أنيتا صديقها السابق، وذلك لأن سبب دوني ين الذي سجله في الممثل صافي

"المفاوض" بنار هواتشن يو بنار شين تنغ، إلا أنه لم يكن هناك النار!

و"تتحرك" التفسير إلى أقصى الحدود، وهذا هو لاعب سوني الموسيقى DMP-Z1

"2 الأنهار،" وانغ كاي "احتياطي" لعب كلمات Yunhui البالغ من العمر 60 عاما: حسن المظهر عمري ما