الأفق هو أول تطبيق لتعلم استخدام التعزيز (RL) لتحسين نهاية نظام منصة مفتوحة المصدر في بيئة الإنتاج على نطاق واسع.
ويستند سير العمل والخوارزميات الواردة في هذا البيان على إطار مفتوح شيدت على أساس --PyTorch 1.0، Caffe2 وSpark-- تقديم أي على نطاق واسع استخدام البشري RL يمكن استخدامها من قبل الأفق.
في العام الماضي، قمنا بفتح الأفق الداخلي المستخدمة في تطبيقات متعددة، بما في ذلك مساعدة تخصيص M الاقتراح، وإرسال الإخطارات أكثر وضوحا وتحسين تدفق جودة الفيديو.

اليوم، نفتح الأفق، ووضع حد لتطبيق نهاية منصة تعزيز التعلم، RL لتحقيق الاستخدام الأمثل للمنتجات والخدمات التي يستخدمها مليارات من الناس. قمنا بتطوير هذا البرنامج لتعويض تأثير RL المتنامي في مجال البحث والفجوة بين مناطق الإنتاج تاريخيا نطاق ضيق من التطبيقات. وخلال العام الماضي، قمنا بنشر الفيسبوك الأفق، وتعزيز قدرة منصة لنهج صنع القرار بناء RL إلى استخدام تطبيقات واسعة النطاق. على الرغم من أن الناس في تطوير تطبيقات التعلم المعزز، ولكن الأفق هي الأولى من نوعها لإنتاج منصة RL مفتوح المصدر.

على الرغم من أننا نبذل كل أنواع المشاريع تعزيز التعلم أن استخدام التغذية الراجعة لتحسين الأداء، ومع ذلك، الأفق القلق الرئيسي هو RL المستخدمة في النظم الكبيرة. يتضمن هذا الإصدار بيئة العمل المحاكاة وقبل العلاج والتدريب وإنتاج نموذج التصدير من المنصات الموزعة. فقد وجهت منصة مزايا الأداء لالفيسبوك، بما في ذلك إرسال إشعار أكثر أهمية لتحسين تدفق معدل بت الفيديو، والتوصيات M رسول التحسن. ومع ذلك، في الأفق تصميم مفتوح ومجموعة أدوات من الممكن أيضا لأشخاص آخرين لفائدة في هذا المجال، وخصوصا تلك المهتمة باستخدام RL تطبيق استراتيجيات من عدد كبير من الفرق المعلومات والأبحاث التعلم. الأفق يدل ليس فقط على استمرار الاستثمار في مجال RL، وثبت أيضا هذا المجال واعدة للبحوث الذكاء الاصطناعي يمكن الآن تطبيقها على التطبيقات العملية.

القرارات على نطاق واسع: الأفق RL كيفية تطبيقها على بيئة الإنتاج

آلة التعلم (ML) أنظمة توليد عادة التنبؤ، ولكن بعد ذلك المهندسين حاجة لتحويل هذه التنبؤات لسياسة (أي استراتيجيات العمل). من ناحية أخرى، تم إنشاء نظام RL لاتخاذ القرارات، اتخاذ الإجراءات اللازمة، ومن ثم إجراء تعديلات على أساس التغذية المرتدة. وبهذه الطريقة من الممكن تحسين مجموعة من القرارات دون الحاجة إلى وضع استراتيجيات يدويا. على سبيل المثال، RL نظام تقدير الدولة وفقا لمنطقة عازلة الفيديو وغيرها من النظم ML، تحديد بشكل مباشر على معدل بت عالية أو انخفاض معدل بت لتشغيل الفيديو بشكل خاص.

على الرغم من أن إمكانات التحسين استراتيجية RL في الدراسة أظهرت نتائج جيدة، ولكن المجتمع الذكاء الاصطناعي من الصعب استخدام والاحتياجات الفعلية لمختلف جدا في هذه البيئة الإنتاج تجهيز نموذج. مع الأفق، ونحن نركز على كيفية نوعين مختلفين تماما من التطبيقات إتصال: معقدة ولكن في نهاية المطاف محدودة البيئة البحثية محاكاة، ونظام ML لتحسين إستراتيجية تعتمد يعتمد على الضوضاء الأصيل، متفرق، والتوزيع العشوائي لل البيانات. ويجوز لمحدودة ويمكن التنبؤ بها، وقواعد تكرار لعبة تقوم على RL ردود فعل مختلفة الروبوتية، من الصعب سيناريوهات تقليد الحقيقي للحياة، وكانت ردود الفعل أكثر صعوبة لدمج نشر المدونة، مما كانت عليه في بيئة معملية، أي تغييرات في كثير من الأحيان تحتاج إلى أن تكون أكثر حذرا.

مثل التعلم العميق ثورة التطبيق كما الشبكات العصبية، مثل مشروع الأفق هو ممكن لتعريف العلماء والمهندسين كيفية تطبيقها على بيئة الإنتاج باستخدام استراتيجيات لتأثير الأمثل RL. على وجه الخصوص، الأفق تعتبر بيئات الإنتاج محددة، بما في ذلك ميزات موحدة والتدريب توزيعها ونشرها على نطاق واسع والخدمات، ومجموعة من البيانات مع الآلاف من أنواع وخصائص التوزيع المختلفة، فضلا عن مساحة عمل متواصل منفصلة عالية الأبعاد.

ويضم الأفق خط أنابيب ثلاثة عناصر هي:

(1) توليد محور الزمن، التي تعمل على آلاف وحدة المعالجة المركزية.

(2) التدريب، عبر GPU متعددة.

(3) الخدمة، والتي تمتد آلاف من الآلات.

وهذا ما يسمح لاصق لالفيسبوك الأفق تمديد مجموعة البيانات. استراتيجيات للتعلم (على سبيل المثال، وذلك باستخدام OpenAI رياضة)، قد الأفق اختيار لتوفير عملية التدريب مباشرة في حلقة مغلقة في البيانات.

كما يتناول الأفق التحديات الفريدة لبناء واسعة النطاق ويجلب نشر نظام RL. RL عادة على الانترنت تدريب يبدأ النظام من العمل تم اختيارها عشوائيا، ومن ثم تحديثها في الوقت الحقيقي. نظرا لحجم وتأثير هذه النظم في الفيسبوك، العشوائية وفي الوقت الحقيقي تحديثها ليست حاليا خيارا. على العكس من ذلك، بدأ نموذجنا من استراتيجيات التدريب في تصميم مهندس المنتج. يجب تدريب هذه النماذج حاليا، وذلك باستخدام خارج السياسة أساليب وتقييم السياسات المخالف (CPE) نموذج RL لتقدير ما سوف تفعله في صنع القرار الماضية. وبمجرد قبول نتيجة CPE، سنقوم بنشر نموذج RL في تجربة صغيرة، فإن النتائج التي تم جمعها من المعلومات. ومن المثير للاهتمام، وجدنا أن الاستقرار النسبي لأنظمة مختلفة من قبل، RL سوف تستمر في التعلم وتحسين مرور الوقت.

مجموعة بيانات الصناعة عادة ما تحتوي على مليارات من السجلات، وجود الآلاف من التشغيل المستمر الدولة توزيع التعسفية والفضاء عالية ميزة الأبعاد. من خلال البحث والمراقبة، وجدنا أن، بالمقارنة مع عمق التقليدية الشبكات، والتطبيقات، ونموذج RL هو أكثر حساسية للضوضاء والبيانات غير موحدة. الأفق باستخدام أباتشي سبارك بالتوازي مع هذه الدول وإجراءات المعالجة الخصائص، أدرجنا أيضا في نسخة مفتوحة قناة شرارة. بعد تجهيزها وبيانات التدريب، ونحن نستخدم موحدة والتدريب القائم على الرسومات تجهيز خوارزمية وحدة PyTorch.

في حين الأفق يمكن تشغيلها على GPU واحد أو وحدة المعالجة المركزية، ولكن تم تصميم منصة لالتركيز على مجموعات كبيرة، مرة واحدة موزعة على تدريب GPU متعددة، بحيث يمكن استخدام المهندسين الملايين من العينات إلى حل المشكلة، وأسرع التكرارات نموذجهم. نحن نستخدم بيانات موازية وزعت بيانات وظائف موازية للPyTorch التدريب وزعت في. وتتضمن النسخة شبكة Q عمق (DQN)، وحتمية نموذج عمق البارامترات DQN سياسات التدرج (DDPG). خلال التدريب، ونحن أيضا تشغيل CPE، وسيقيم النتائج المسجلة على TensorBoard. بعد الانتهاء من التدريب، وسوف تستخدم الأفق ONNX تصدير هذه النماذج من أجل تحقيق واسع النطاق وكفاءة الخدمة.

RL في العديد من المجالات، يمكنك قياس أداء هذا النموذج من قبل المحاولة. في الفيسبوك، ونحن نريد أن نتأكد من يتم اختبارها بدقة قبل النموذج نشر على نطاق واسع. منذ الاستراتيجية أفق للحل الأمثل مهمة والتدريب سير العمل أيضا تشغيل تلقائيا بعض من أكثر تقدير المتقدم استراتيجية تكنولوجيا، من بينهم اثنان توقيت تقييم سياسة قوية وMAGIC. مشتق مما أدى تقرير تقييم السياسات من الدفق والتدريب، يمكنك استخدام احظ TensorBoard. تقييم يمكن دمجها مع شذوذ كشف والسياسة قبل النشر العام، إن إعادة تكرار للأداء النموذج مع التكرار السابق يختلف كثيرا مقارنة، سوف تنبيه تلقائيا المهندس.

تعلم على وظيفة: التأثير على الأفق رسول، 360 أشرطة الفيديو، الخ

منذ أن بدأنا باستخدام الأفق داخليا، وقد أثبتت منصة RL مع ردود الفعل الفورية حول كيفية تحسين الأداء لاتخاذ القرارات التي يكون لها تأثير على إنتاج التطبيقات.

على سبيل المثال، الأفق حتى نتمكن من تحسين جودة صورة الفيديو في الفيسبوك 360 من خلال الأمثل في الوقت الحقيقي من المعلمة معدل بت. يأخذ منصة في الاعتبار كلا من عدد من عرض النطاق الترددي المتوفر، ولكنه يأخذ في الاعتبار أيضا عدد من الفيديو مخزنة لتحديد ما إذا كان من الممكن تحويل الفيديو عالية الجودة. تستغرق هذه العملية الاستفادة من القدرة على توليد مكافأة من RL في أي وقت، وذلك باستخدام بيانات جديدة غير خاضعة للرقابة - يعمل في شريط فيديو معين واللعب، وليس بعد بيانات الأداء إعادة تحليل وصفت بعناية.

يوفر تقييم السياسات المخالف التبصر في نموذج RL نشر مهندس في البيئة حاليا. هذا الرقم يقارن العديد من أسلوب CPE والسياسة السجل (الأولي توليد نظام التدريب البيانات). يسجل 1.0 سائل RL وتسجيل سياسة تلاءم الأداء. وتشير هذه النتائج إلى أن نموذج الفوز بالجائزة الكبرى RL حوالي ضعف نظام تسجيل.

ويبين هذا المخطط على مستوى عال من رد الفعل الأفق. أولا، نقوم بتنفيذ بعض البيانات الموجودة المسجلة مسبقا من قبل النظام. ثم، ندرب نموذج التحليل والنتائج الاستراتيجية المغاير في بيئة حاليا. وأخيرا، فإننا سوف نشر نموذج لمجموعة من الناس في، وقياس السياسة الحقيقية. ويتم تغذية البيانات من النموذج الجديد إلى التكرار التالي، ومعظم هذه الفرق هي بنشر نموذج جديد كل يوم.

أيضا الأفق تصفية رسول M المقترحة مساعد ذكي. قدمت M في الناس وحوار مفتوح مع توصيات محتوى ذات الصلة، وإثراء الطريقة التي يتواصل بها الناس، والعمل الذي أنجز في رسول. استراتيجيات التعلم الحوار الأفق باستخدام RL-- من نهج قائم على قواعد أكثر قابلة للوتطلعية، أكثر استجابة لتعليقات المستخدمين - مساعدة M تعلم تدريجيا. على سبيل المثال، إذا كان الناس أكثر انتظاما التفاعل مع اقتراح، M قد يكون أكثر لتقديم هذه النصيحة. مع مساعدة من الأفق، M يصبح أكثر ذكاء وشخصية للغاية، لأنها يمكن أن تساعد الملايين من الناس كل يوم على التواصل.

منصة أيضا تحسين الطريقة التي نستخدم الذكاء الاصطناعي لمساعدة لنا أن تقرر ما أرسلت إخطارا الفيسبوك للمستخدم، وعدد المرات التي أرسلت مرة واحدة. في الماضي، ونحن لم ترسل جميع الاخطار ممكن (تعليمات وظائف جديدة، والتعليقات، وما إلى ذلك)، ولكن استخدام نماذج ML لمساعدة يتوقع ما يمكن أن يكون الأكثر إثارة للاهتمام أو الأكثر أهمية، ومرشح من جهة أخرى. ومع ذلك، هذه النماذج تعتمد على التعلم تحت إشراف، لأنها لا تأخذ في الاعتبار قيمة طويلة الأمد لإرسال إعلامات. على سبيل المثال، الأشخاص الذين يزورون مرارا وتكرارا على منصة كل يوم قد لا تتطلب نظام الإخطار لأنها شهدت آخر، والناس أقل نشاطا يمكن أن تستفيد من الإعلام، والتي تضمن أنها لا تدع العائلة والأصدقاء المنشورة المشاركات جديرة بالملاحظة.

إلى عنوان أفضل هذه الإشارات على المدى الطويل - العمل كما هو متوقع وإعلام، وتوفير قيمة للجميع على منصة - نستخدم إجراءات منفصلة الأفق تدريب DQN نموذج لإرسال دفع الإخطارات. عندما يشارك الشخص في الوظائف التي قد غاب، وهذا نموذج يحصل على هذه الجائزة، ويرسل سيتم معاقبة إعلام. نموذج RL فقط في القيمة للمستخدم (على سبيل المثال، وجعلها على بينة من القلق المشاركات صديق أو الإفراج عنهم من أفراد الأسرة) أعلى من قيمة جزاء (تحذيرات إضافية المنبثقة على أجهزتهم) السماح فقط الإخطار. نموذج أيضا تحديثها بانتظام عدد كبير من انتقال الدولة، لتمكينهم من تحسين تدريجيا، وأخيرا ضبط عدد من الإخطارات. منذ يتم استبدال نحن أشرف من قبل النظام القائم على التعلم بعد الإصدارات التي تستند إلى الأفق، لاحظنا أن الإخطار المقدم من العلاقة تحسنت، ولكن لم تزد يتم إرسال عدد من الإخطارات. والإخطار عن طريق النقر أو النقر لتحديد أهمية مختلفة، ونحن يمكن أن يكون أكثر اتساعا، أكثر تعمقا ضوء المعلومات للتأكد من أنها توفر فائدة حقيقية.

بحيث يمكن لأي شخص نشر أدوات RL في بيئة الإنتاج

وتبرز هذه الفوائد الأشياء RL قادرة على توفير هذه الصناعة، والتي يمكن أن تجمع عينات مباشرة من الاستراتيجيات دون المستوى الأمثل السابقة، وتعلم السياسة الأمثل. على الرغم من أننا قد حددت سيناريو محدد جدا لRL والتطبيقات، ولكن هذا ليس سوى بداية رحلة مثيرة. نظرا للموهبة والإبداع الجماعي من المجتمع الذكاء الاصطناعي، ونحن لا يمكن أن ننتظر لنرى الأفق وحي الإبداع والقدرات والقرابين.

يمكن لأي شخص يستخدم آلة التعلم محاولة لاتخاذ قرار الأفق. وتتمثل الخطوة الأولى لتسجيل ميل (لاتخاذ احتمال العمل) والخيارات (الإجراءات الأخرى الممكنة). الأفق والميل إلى بدائل استخدامها لفهم أفضل عندما يمكن اتخاذ الإجراءات اللازمة. ثانيا، تحديد وتسجيل مكافأة (لتأخذ قيمة العمل التي تم الحصول عليها). بعد جمع هذه البيانات، يمكنك تشغيل دورة تدريبية الأفق، لجعل قرارات جديدة للتصدير وتعظيم العائد الإجمالي للنموذج.

الأفق هي جزء من التزامنا بالتنمية مفتوحة من منظمة العفو الدولية - هو منصة الداخلية الفيسبوك، ونحن الآن مفتوحة المصدر، فإنه يستخدم الأدوات المتوفرة لدينا للمجتمعات المحلية، بما في ذلك PyTorch 1.0 و Caffe2. في حين تم تحسين الأفق للاستخدام في بيئة الإنتاج، ولكن تجربتنا مع البحث المنبر أيضا يكشف التكامل المهم مع الأنظمة الأخرى المتعلقة RL. نحن نستخدم منصة الأفق لاستكشاف التكنولوجيا الجديدة تقوم على نموذج RL و "خلق حوافز (تشكيل مكافأة)"، واستخدام منصة الفيسبوك أكثر على نطاق واسع لتطبيقات التعدين الأخرى، مثل تخصيص الموارد مركز البيانات والشهادات الفيديو. كما نخطط لإضافة المزيد من النماذج وسير العمل لمساعدة سيكون الآخرين التزام RL على المدى الطويل تترجم إلى إجراءات فورية.

لمزيد من المعلومات، يرجى قراءة ورقة بيضاء كاملة على تطوير والأفق حالة استخدام الداخلية: الشبكي: //arxiv.org/abs/1811.00260

بالإضافة إلى التأثير على التطبيقات خارج الجديد، يمكن الأفق أيضا تغيير الطريقة التي المهندسين ونماذج ML العمل معا. لم يعد الدافع وراء نموذج وفقا لقواعد الكتابة من الصعب فهم والمحافظة، ونحن نفترض أن هناك حوار في اتجاهين بين المهندسين ونموذج التي يستخدمونها، ويمكن للمهندسين تحديد أعلى هدفهم، والتعلم الآلي والتعاون من أجل تحقيق هذه الأهداف، فإنها ينطبق على بيئة اتخاذ القرار المتغيرة باستمرار. الأفق هو الخطوة الأولى في هذه الرحلة، ونحن ندعوك لتكرار دينا مستودع جيثب والمحاكمة.

عرض النص الانكليزي الأصلي:

https://code.fb.com/ml-applications/horizon/

طريق الحرير

الفيسبوك المصدر المفتوح الأفق: أول المنتجات على نطاق واسع والخدمات لمنصة التعلم

القرارات على نطاق واسع: الأفق RL كيفية تطبيقها على بيئة الإنتاج

تعلم على وظيفة: التأثير على الأفق رسول، 360 أشرطة الفيديو، الخ

بحيث يمكن لأي شخص نشر أدوات RL في بيئة الإنتاج

AirDots استخدام حصة

وهذا هو أول عدد من هذا الشهر سوف تستمع إلى الأغاني الهيب هوب، في أقرب وقت ممكن حتى يتسنى لك فهم الاتجاه الهيب هوب

أوصى الأفلام العشرة على الاقتصاد، بالمعنى الاقتصادي المشترك، وانت تعرف

كافكا تحليل التصميم (أ): يصف كافكا الخلفية والهندسة المعمارية

"المدمر" في المعدن السائل، وسوف يؤدي إلى "ثورة رقائق"؟

سنة لكسب مليوني الهيب هوب مغنية، والسيارات اللحن رائع اللعب

"EXO" "مشاركة" يشعر من 190330 الغذاء معالجة الموقف المهنية، ما هو إطباقي وحشي أليس كذلك؟

تنفق مليار دولار لشراء الفاخرة والسيارات الفاخرة في تغير مستمر، فهو ارفع عرض ثرواتهم من منتج موسيقى الهيب هوب

"ضعفي" "مشاركة" 190330 إلى العواطف الحزب وراء الكواليس الصورة هي أيضا "جميل جميل"!

10 الأفلام الكلاسيكية اخترنا، لتعلم اللغة الإنجليزية نقية

القيمة الصافية ديدي من 825،000،000 $، لتصبح واحدة من أكثر رجال الأعمال الناجحين في الدوائر الهيب هوب

"فاينل فانتسي 15 بريئة" لقطات يصفه المفرج عنهم، دبلجة يمكن أن يكون وسيم جدا

صوت للمستخدمين أفضل اللاعبين في العالم الهيب هوب الشعار، في المرتبة ايمينيم الثامن فقط

بايدو الشبكة العالمية للتنمية الأمامية من الحالات الفعلية حلها

سديم الأحمر الانحدار الكلاسيكي، والحديث ALIENWARE M15 التصميم الصناعي

الذهاب حدث أول حالة غش منظمة العفو الدولية، والبعض الآخر يكون وراء ذلك بكثير؟

انتقل على الفور إلى اليابان للعب نينتندو التبديل، والحديث عن الحالة المزاجية في الوقت الراهن

قطعة واحدة السنوي الجرجير يسجل من فيلم بلغة أجنبية عام 2018

المستخدمين صوت العشرة الأوائل جاذبية مغني الراب الإناث، انتخب الدجاج حار الأولى

الأصوات الحقيقية والطبيعية، دينون D5200 D9200 وسماعات

البالغ من العمر 3 سنوات الصبي الأسود مع خبرة الآباء والأمهات المطلقات أصبحت أخيرا نجم الهيب هوب انفجار الأحمر

بعد الليلة الماضية، وهما فرشاة "الدبور"، وجدت أن 15 بيضة

القرارات على نطاق واسع: الأفق RL كيفية تطبيقها على بيئة الإنتاج

تعلم على وظيفة: التأثير على الأفق رسول، 360 أشرطة الفيديو، الخ

بحيث يمكن لأي شخص نشر أدوات RL في بيئة الإنتاج

الأحكام ذات الصلة