فاز كاي يوان للNeurIPS العالم 2018 متعدد وكيل التعلم بطل المسابقة، ذكية يسلط الضوء على منصة صنع القرار قيمة

مذكرة لى فنغ شبكة AI تقنية الاستعراضي: في الآونة الأخيرة، واختتم المؤتمر الدولي حول الذكاء الاصطناعي أعلى NeurIPS عام 2018. أكثر من 8000 من الباحثين الذكاء الاصطناعي من مختلف أنحاء العالم تجمعوا في مونتريال، كندا، لمناقشة آخر التطورات في العام الماضي في جميع أنحاء العالم لحصة في جميع مجالات الذكاء الاصطناعي، عقد الاجتماع سلسلة من المسابقات لتشجيع الأوساط الأكاديمية والصناعية للعمل معا من أجل حل المشكلة الذكاء الاصطناعي الأكثر تحديا. باعتبارها واحدة من أقدم المناطق في مؤتمر الذكاء الاصطناعي، ويعتبر بالنتيجة مجال الذكاء الاصطناعي البحوث "دوارة". (ذكرت المادة تكنولوجي ريفيو شبكة AI لى فنغ إيجابية سوف نرى هنا)

التي، من خلال الدماغ جوجل، الفيسبوك، جامعة أكسفورد، ومنظمة العفو الدولية في المرموقة جامعة وصناعة لعبة في نيويورك وغيرها من المؤسسات التي نظمت بالاشتراك المنافسة متعدد وكيل - بطولات فريق بومبرمان (وNeurIPS 2018 مسابقة Pommerman)، وخاصة لافتة للنظر. من الصين تشى يوان العالم الدكتور بنغ بنغ، معهد الحاسبات مساعد باحث الدكتور بانغ مشرق وجامعة بكين للمعلمين، يوان يو فنغ يتألف فريق سباق، والولايات المتحدة، أوروبا، اليابان، 24 فريقا من الدرجة الأولى في الصين من المنافسة الشرسة، وبداية مقرها في نهاية المطاف يوان منصة قرار المخابرات التدريب Navocado عميل مزدوج لتعزيز قدرة مستقرة، فاز في المباراة بطل التعلم، أظهر فريق صنع القرار الذكي من الصين، مع قوة التقنية على مستوى العالم.

كاي يوان تأسست في عام 2017 هو عالم من صنع التكنولوجيا الذكية في صميم الشركة، التي بدأها العلماء علي، نيتفليكس، IBM السابق والمديرين التنفيذيين قرار المعرفي، ولديه مستشار المخصصة في بيركلي، وجامعة كارنيجي ميلون وغيرها من المؤسسات المعروفة. الكفاءات الأساسية الفريق إلى التعلم العميق، وتعزيز التعلم، وبالتوازي مع نطاق واسع الحوسبة القائم، مع تجربة ناجحة في العديد من المناطق الإنترنت، والألعاب، الخ

صنع القرار الذكي هو الآن المشاكل التقنية على مستوى العالم، وعملية صنع القرار في الدماغ البشري هو الأكثر وظائف معقدة. لأنه مع آفاق التطبيق كبيرة في اللعبة، والنقل، والطاقة وغيرها من المجالات، وأصبحت في السنوات الأخيرة عملية صنع القرار الذكي التركيز الاستخبارات البحوث الاصطناعي العالمي، ووضعت DeepMind، الفيسبوك، OpenAI، ومايكروسوفت وأمازون وغيرها من عمالقة التكنولوجيا بإنشاء مختبر للأبحاث. بالمقارنة مع وكيل واحد، يتم زيادة متعدد وكيل صعوبة اللعبة بشكل كبير. المنافسة NeurIPS متعدد وكيل هي أول متعدد وكيل اجتماع NeurIPS المنافسة مفتوحة، ويتركز السؤال الرئيسي تعاون متعدد وكيل، لعبة معلومات غير كاملة ومواصلة التعلم لبومبرمان هذه اللعبة، لتشجيع الباحثين المتميزين في جميع أنحاء العالم للانضمام حل التحديات التقنية .

يستخدم المنافسة NeurIPS متعدد وكيل شرسة آلية القضاء مزدوجة (مزدوج القضاء)، وقدمت 25 الفرق المشاركة يومين وكيل يشارك في البطولة 2V2. كل وكيل محاصرون الفرق المشاركة في البداية في فترة مغلقة، انفجرت وكيل فقط بالقرب من صندوق خشبي للحصول على مناطق أخرى؛ ورؤية ذكية ليس لديها سوى جزء من المنطقة بأسرها. بعد ما يقرب من جميع العقبات تم تنظيف، وكيل إلى مرحلة المواجهة، كل عامل حر في الأنشطة على الصعيد العالمي، والهدف الرئيسي من هذه المرحلة هو وكيل لتفجير الخصم.

الشكل 1: متعدد كيل المنافسة - بطولات فريق بومبرمان

عملية المنافسة يتطلب وكيل لإكمال: 1) إزالة العوائق، 2) تجنب القنابل الحارقة، 3) معدات شبكات الكمبيوتر الخاصة بهم، 4) تجنب الشعلة الخاصة بهم وغيرهم من الناس بالقنابل، 5) يزرعون القنابل لقتل المعارضين، 6) تجنب وضع قنابل تقتل زملائه. كامل عملية استخراج المعلومات المفيدة وكيل فحص فعالية، في حين أن المنطق المعلومات والافتراضات غير معروفة، فضلا عن التعاون متعدد وكيل جعلت متطلبات فنية عالية جدا.

Navocado كاي يوان منصة قرار المخابرات لتدريب عميل مزدوج في الجزء السباق من أداء أدناه:

معا بومبرمان مع الفريق، على كلا الجانبين من المعارضين يزرعون القنابل الاحتواء، بعد العاصفة دمرت خصومهم في الأرض الوسطى

قنبلة بومبرمان في الوقت المناسب لتجنب تتحرك من خلال مرونة

قنبلة بومبرمان في خصمه أخذ زمام المبادرة لتوجيه ضربة، الخصم المهزوم على وجه التحديد

بومبرمان تعلم مربع تفجير دقيق، وأكل تعزيز المخدرات تجد طريقها عبر أقصر الطرق

هناك شهرين لتدريب نموذج في كل سطر فريق السباق. كاي يوان القرار النهائي على أساس التدريب منصة الذكي هزم Navocado سكاينيت من كندا، وفاز بطل التعلم. من كندا ما يقرب من مائة شخص تحجيم سكاينيت فريق شركات التكنولوجيا Borealis.ai. من عملية المعركة، وكاي يوان الهجومية القدرة Navocado عامل نشط أقوى بكثير من الخصم. من الجمهور في الموقع الرسمي للنقطة تنفيذ عرض، وأضاف سكاي نت سكاي نت نموذج الكثير من التدخل اليدوي (مثل القيود المفروضة على الذين لا يستطيعون الذهاب إلى لهيب قنبلة) في عملية صنع القرار، هذا النموذج Navocado طوال التدريب وعملية صنع القرار دون تدخل بشري، وتعلم الذاتي للمهارات الطريق هناك فجوة كبيرة .

الشكل 2: عملية التدريب المستمرة وكيل Navocado لتعزيز تأثير منحنى

كاي يوان من عام 2017 لإنشاء منصة لاتخاذ القرارات الذكية لعبت دورا رئيسيا في تدريب وكيل للفوز هذا الحدث في. تعزيز التعلم باعتباره التكنولوجيا الأساسية لصنع القرار الذكي، ولكن أيضا تحد لطريقة تعلم الآلة. منذ ينطوي على التعلم تعزيز الصلة طويلة جدا، وخوارزمية تعزيز التعلم نفسها hyperparametric حساسة جدا لتطبيقات مختلفة الجميع في الأوساط الأكاديمية أو التكوين هو من السهل جدا لنتائج التدريب الرائدة ليست ظاهرة قابلة للتكرار. قد استنساخ، قد يكون تقنيات تعزيز التعلم هناك تحديات من حيث إعادة استخدام ومتانة.

مع قوة المنصة، كاي يوان قرار المخابرات تعلم استخدام منصة تعزيز لحل المشاكل القرار المعقدة، أثبتت جدوى تعزيز التعلم. كاي يوان ذكية منصة دعم القرار لبناء بنية تحتية لعبة متعدد وكيل، والقدرة على متعدد وكيل التعلم المستمر يمكن أن يتحقق عن طريق المنافسة. ويتضمن النظام الأساسي أيضا الدعم لجدولة الموارد التلقائي وتعديل المعلمة التلقائي للتعلم يوان، مما يجعل التدريب نموذج أكثر كفاءة.

قدم الدكتور بنغ بنغ كاي يوان العالم "، فريق كاي يوان من تعزيز التعلم في هذا المجال لديهم شغف كبير. هذه المرة نحن متعدد وكيل وكيل الفوز بالسباق في NeurIPS، ليس هناك تدخل الإنسان في كل مرحلة من مراحل العملية التدريبية، ومنحنى التعلم جدا جميلة، لإثبات فعالية ومتانة هذا النظام للتحقق من قيمة التعزيز تكنولوجيا التعلم ".

تصميم الهندسة المعمارية منصة لتنفيذ الأساسية من كاي يوان قد فعلت الكثير من مضنية العمل، والسعي لتحقيق الكمال في جميع الجوانب بما في ذلك محاكاة البيئة، نموذج الاستخبارات التنبؤية والتدريب والقرارات الأخرى ذات الصلة. قام كاي يوان فريق سباق بتصميم نظام الثواب وضبط المعلمات على أساس منصة صنع القرار فائقة ذكاء. في عملية استخدام صنع القرار الذكي للمنصة كاي يوان، يمكن للفريق سباق ترسل بسرعة الموارد اللازمة لمهمة نشر، تكوين معركة المطلوب وكيل، ومراقبة الوقت الحقيقي الحائز على حالة الحرب ومنحنيات من نماذج مختلفة في عملية التدريب، من أجل جعل أسرع التعديل.

الشكل (3): كاي يوان قرار منصة الاستخبارات العمارة

في هذه المسابقة NeurIPS متعدد وكيل، منصة قرار كاي يوان المخابرات توفر ثلاثة الطاقة:

أولا، والقدرة على دعم وكيل التعلم المستمر.

القدرة على مواصلة التعلم هو عامل رئيسي في حلقة التدريب. خلال مرحلة التدريب، والقنابل الذكية، سباق شعب الماضي على ضرورة الإبقاء على المهارات المكتسبة في عملية تعلم مهارات جديدة من أجل تحقيق مستوى عال جدا. ويتحقق كاي يوان منصة قرار المخابرات "الانتقاء الطبيعي"، وذلك لتحقيق التعلم المستمر عن طريق مباراة الفريق العامل الرياضية. في عملية تنافسية، الإبقاء على القوي والضعيف والقضاء عليها. بعد أن يتم القضاء على الضعيف، يتم استبدال موقف أخلتها استنساخ قوي، واستنساخ التطور المستمر القوي ومن المقرر وفقا لالفائقة مرجعية جديدة. في حالة الميزانية موارد الحوسبة الثابتة، كاي يوان منصة قرار المخابرات لاستكشاف جديدة قوية (التنقيب) من خلال هذه الآلية واجتثاث الاستخدام المتوازن للموارد الحوسبة بين القديم قوي (الاستغلال).

الثانية، ودعم المشهد متعدد وكيل معقدة من التدريب المشترك.

في مشاكل لعبة متعدد وكيل وضبط النفس المتبادل بين أجهزة الاستخبارات المختلفة هي أكثر شيوعا، وإمكانية التقارب معقدة للغاية. في بومبرمان المنافسة، وأنماط مختلفة وكيل فرق، بعض الهجوم جيدة، وبعض الحرس جيدة. واستنادا إلى "تأثير سمك السلور" الفكر (فإنه يشير إلى إدخال قوية وضعيفة إلى تأثير إثارة قوي)، كاي يوان قائم على قواعد منصة الاستخبارات لإدخال خصوم النظام العالي في المراحل الأولى من التدريب صنع القرار، لتحفيز وكيل ضعيفة في وقت مبكر وقوية مبارزة تعلم جميع المهارات الأساسية لرفع تصبح قوية، مع تعميق مرحلة التدريب، كاي قرار يوان منصة الاستخبارات في حين أن التدريب المتعدد وكيل، بحيث الكمال الذاتي في مواجهة شرسة مع بعضها البعض.

ثالثا، دعم واسع النطاق، والمحاكاة المتزامنة للغاية والتدريب على أساس كتلة السحابة الخاصة على نطاق واسع.

قرار سفر التكوين الذكي التعددية منصة العمارة من وحدات هو مبين في الشكل componentizing ومغلفة في وعاء. الإدارة من خلال سحابة الآلي الأزياء المئات من وحدة المعالجة المركزية والجرافيك الموارد وتحقيق ترتيب الحاويات، والحد من تكاليف إيفاد عشرات مهمة تدريب بومبرمان. على نطاق واسع، والمحاكاة المتزامنة للغاية وعلى نطاق واسع تدريب في وقت واحد في كتلة السحابة الخاصة. وبالإضافة إلى ذلك، يوفر كاي يوان منصة قرار المخابرات توزيع حلول التخزين، وتكوين لتجمع نموذج حصة لتوفير الدعم لاستمرار وحصة بومبرمان مجموعة نموذج الوكيل.

وقد استخدم كاي يوان قرار منصة الاستخبارات نسخة v0.8 لسيناريوهات الألعاب، المخابرات شبكة والمحاكاة. واستنادا إلى خدمات ذات قيمة مضافة عالية للعملاء، والعالم التجاري كاي يوان في 2018 على المروحية الصغيرة، حقق بالفعل إيرادات جيدة. 2019، وخطط لإطلاق الطبعة الأولى من العالم كاي يوان كاي يوان المنتجات الذكية المعتمدة على منصة صنع القرار، والمزيد من العملاء الصناعي، وتجربة المستخدم النهائي لتقديم خدمة عالية.

مزيد من التفاصيل حول برنامج المنافسة، كاي يوان العالم كتب أيضا التقرير الفني، يمكن القارئ المهتم الرجوع إلى https://arxiv.org/abs/1812.07297.

المشترك نظام صنع القرار الذكي على أساس التعلم تحت إشراف، ولكن قرارات ذكية تقوم على نظام تعزيز التعلم ليست شائعة. لى فنغ شبكة AI تقنية مراجعة مهتم جدا في كيف يرون والاستجابة إلى تعزيز التعلم الكامنة في سلسلة من التحديات التقنية. ترقبوا تقرير المتابعة لدينا.

[تشونغتشينغ] أخذ الغيمة معرض المدينة الرئيسية في هذا الجبل زهرة البرقوق، وأكثر ملائمة للعرض في نهاية هذا الاسبوع، انتقل!

! قوي بالإضافة إلى 6 منقسمة المبيعات العالمية من 100 مليون وحدة: للبيع فقط 22 يوما

أميرة ديزني مخزون كبير من | أجمل حلم الأميرة، والأكثر نقية القلب فتاة

شنشى الدراما الحديثة "لي يزهي" مرحبا بكم في مهرجان بكين

القوة مرة أخرى! أديداس أوريجينالز العاشر المدبر WORLD سلسلة مشتركة رسميا!

عملت الصقيع الجاد وشي وير لو شيان، يوان زي التوجيه موقع أنبوب، لماذا شخصين يمكن أن تشترك في الغرفة؟

خمسة الإصدار الجديد من ميزة اخفاء فوتوشوب لفهم المقبل

الرجعية أي أفكار جديدة؟ هذا لأنك لا ترى أديداس SPEZIAL 2017 الخريف والشتاء الأحذية جمع!

48 مليون بكسل MEIZU Note9 نظرة

"هذه الوحشية الفرح، وتنتهي في نهاية المطاف إلى وحشية"، "العالم الغربي" في سر!

وزير التعليم: الصينية ينبغي عكس ظاهرة "متعة في المدرسة الثانوية التي تتحدى الموت"

"ذكر وأنثى": هذا العالم هناك لقاء، ودعا مصيرها!