سر ستار كرافت 2 AI AlphaStar: العلماء DeepMind لرد على كل

25 صباحا، وكان الذكاء الاصطناعي AlphaStar واللاعبين المحترفين مانا غير مسبوقة "حرب بين الانسان والآلة": بينما AI الحرب عشرة Tokachi داخل قبل المباراة، ولكن المباراة على الهواء مباشرة، مانا الطرافة لندف منافسه، قدمت للبشرية النصر. بعد المباراة، DeepMind العلماء، رئيس المشروع AlphaStar أوريول Vinyals وديفيد الفضة على رديت للرد على الكثير من الأسئلة المثيرة للقلق. وفي الوقت نفسه، كان يعمل مع منظمة العفو الدولية للعب ضد اثنين من اللاعبين المحترفين، السائل عشيرة TLO كضيف مع مانا أجاب على بعض الأسئلة المثيرة للاهتمام.

على سبيل المثال: للباحثين AI، والقدرة للعب ستاركرافت 2 ليس أن تكون مكتوبة في استئناف؟

العضو NexYY: أود أن يكون اللعب ستار كرافت 2 كمهارة أن يكتب في السيرة الذاتية لإثبات أن كنت تطمح للمطورين AI تفعل؟ أحيانا أنا مدمن على لعب ستاركرافت، بدلا من تحسين القدرة على كتابة رمز، وبالتالي أنا في كثير من الأحيان في حيرة ......

أوريول Vinyals: في يوم السباق أنا ضربت الكثير من الكواكب القرص، وأنا يجب أن أقول أنها كانت تجربة جيدة جدا - ولا سيما بالنظر إلى أنه شكل لي من حيث قوة الذكاء الاصطناعي وعلوم الكمبيوتر، الخ حتى إذا كنت ترغب في الانتهاء من سيرة ذاتية جيدة، يرجى ستار كرافت 2 كهواية إلى الكتابة في ذلك، وأتمنى لكم حظا سعيدا!

25 يناير AlphaStar حرب بين الانسان والآلة ومانا، وبعض لقطات رائعة من الحرب السابقة. بث مباشر مباراة من الساعة 10:30 البداية.

Q: من إصدار سابق من pysc2 (والإصدار الرئيسي الحالي)، ويبدو أن طريقة تم تطويرها على أساس DeepMind تقليد تماما بالطبع البشري من اللعبة، مثل بوت لم أستطع الحصول على المعلومات خارج أي شيء شاشة عرض زاوية. وهذا الإصدار يبدو أن التخلي عن هذه القيود، لأن طبقة الميزة الآن "كاملة الحجم الخريطة"، وأضاف ميزات جديدة. هل هذا صحيح؟ إذا كان الأمر كذلك، وهو الحصول على البيانات الخام من API والمستخرجة إلى بسيطة البيانات المهيكلة كمدخل إلى الشبكة العصبية لديه أي فرق حقيقي سيجعل؟ بلوق DeepMind حتى تشير مباشرة البيانات الخام والسمة إدخال البيانات في قائمة الشبكة العصبية، التي يبدو أنها تشير إلى أنك لم تعد فعلا استخدام طبقات الميزة؟

أوريول Vinyals: في الواقع، مع (وليس على أساس العدسة) واجهة إدخال القائم على العدسة، وكيل يعلم ما تم بناؤه، وسوف يكون لأننا كقائمة (محول معالجتها مزيد من الشبكة العصبية) الإدخال. بشكل عام، حتى لو لم يكن لديك تلك القائمة، وكيل وسوف تعرف ما تم بناؤه، وذلك لأن وكيل الذاكرة سوف تتبع جميع الإجراءات التي حدثت من قبل، وموقع جميع وجهات النظر زار في الماضي.

س: متى يمكنني استخدام pysc2، وجدت أنه لفهم بنيت بالفعل أو قيد الإنشاء أو أنجزت شيء صعب جدا القيام به، لأنني قد بالغسل عرض الكاميرا إلى الحصول على هذه المعلومات. طريقة camera_interface هو كيفية حفظ هذه المعلومات؟ حتى في وضع camera_interface، الوصول إلى البيانات الخام (مثل عد unitTypeID والمباني وغيرها) من خلال كميات كبيرة من البيانات لا تزال متاحة بشكل كامل؟

أوريول Vinyals: نعم، ونحن حقا ترك من وجهة نظر الوكيل، والسبب الرئيسي هو بسبب قوة عامل - أي لعبة المحمول شاشة سيكون حوالي 1000 خطوات، ولكن هناك بضع خطوات شاشة اللعبة المحمولة ستكون 2-3 مرات في السابق. ونحن لم تستخدم مصغرة طبقات خريطة الميزة، ولكن للعرض على الشاشة، يمكنك التفكير في تلك القائمة عنصر معلومات "تحويل" ل. في الواقع، كما تبين، حتى في التعامل مع الصور، كان كل بكسل كقائمة مستقلة أيضا فعالة جدا!

س: كم للوصول إلى المستوى الحالي من الحاجة لعبة للعب؟ وبعبارة أخرى، في قضيتك، 200 سنة من زمن المباراة لعبت ما مجموعه كم اللعبة؟

أوريول Vinyals: إذا كان متوسط لعبة لكل لمدة 10 دقيقة، أي ما يعادل حوالي 10 مليون لعبة. علما، مع ذلك، أن ليس كل وقت التدريب وكيل وما يعادل 200 سنة من زمن المباراة، انها تدرب فقط ما يصل الى مبلغ تدريب كيل.

س: ما تعلموه إلى الهجرة إلى خريطة أخرى مدى فعالية؟ ذكر أوريول الفتنة أنه "نشط" على خريطة أخرى. نحن من الغريب جدا ما الأكثر فعالية على الخريطة، بحيث يمكنك الآن تكشف عن الجواب؟ وفقا لملاحظاتي الشخصية، AlphaStar يبدو إلى حد كبير يعتمد على المعلومات خريطة الذاكرة. ومن الممكن أن تؤدي جيدة جدار حالا أو الجبن الوكيل على الخريطة لم يسبق له مثيل؟ عندما يلعب على الخريطة الجديدة، ما هو الفرق المقدر في MMR؟

أوريول Vinyals: الرجوع إلى الإجابة أعلاه.

ديفيد الفضة (الشكل سوداء شخص) وأوريول Vinyals على الانترنت للرد على أسئلة الناس حول AlphaStar.

س: وكيل "توفير المال لX" لمعرفة مدى نجاح هذا المفهوم؟ هذه ليست مشكلة صغيرة، لأنه إذا كنت تعلم من التشغيل، والنظر في لاعب كإجراء مجانا (NOOP)، ويعتبر تعزيز خوارزمية التعلم عادة ما تكون أفضل القرارات عند نقطة المباراة NOOP مثالية من أفريقيا. فكيف تتعاملون مع "توفير المال لX"، وكذلك في التعلم المرحلة ما إذا كان استبعاد NOOP؟

ديفيد الفضة: في الواقع، كجزء من عملها، واختيار AlphaStar كم من تنفيذ NOOP مقدما. هذا من بداية المدرسة الثانوية للإشراف على البيانات لتعكس اللعب الإنسان، وهذا هو القول AlphaStar مماثلة عموما لاعبين الإنسان معدل "انقر". ثم تحسين من خلال تعزيز التعلم، واختيار لخفض أو زيادة عدد NOOP. لذلك، "توفير المال لX" يمكن قررت مسبقا من قبل عدد قليل NOOP أن يتحقق بسهولة.

Q: الخطوة النهائية التي نستخدمها هي كم؟ في بلوق كتبته يستخدم نجمة كل إطار من الفيديو كمدخل خطوة. ومع ذلك، ذكر أيضا أن متوسط طول فترة العلاج هو 50 ميلي ثانية، والذي هو أكثر من الوقت الفعلي (نظرا 22.4fps، الحاجة < 46 مللي ثانية). حتى ما إذا كنت تحتاج كل خطوة 1، أو كل خطوتين، ثلاث خطوات هي دينامية؟

أوريول Vinyals: نحن ديناميكية المطلوبة لكل خطوة، ولكن نظرا للتأخير، ستتم معالجة هذه العملية فقط (أي نحن عملية غير متزامنة) بعد هذه الخطوة. وثمة خيار آخر هو لقفل هذه الخطوة، ولكن سوف يؤدي إلى تجربة الألعاب لاعب هذا هو الفقراء.

Q: APM هو كيف يتم ذلك؟ لدي انطباع يقتصر SC2 LE قسرا إلى 180 وبم، ولكن أرى لك في اللعبة، فإن متوسط APM AS يبدو لفترة طويلة جدا من الزمن هي أكثر بكثير من هذا المستوى. عروض بلوق DeepMind والرسوم البيانية والأرقام على ذات الصلة، لكنها لم تفسر لماذا APM عالية جدا.

أوريول Vinyals: سؤال جيد، وهذا ما ننوي أن أشرح. تشاورنا عاصفة ثلجية TLO وآراء حول APM وإضافة لها من حد القرص الثابت. على وجه التحديد، أنشأنا في خمس ثوان APM خلال مدة أقصاها 600،15 ثانية في 400، 30 ثانية في 300320،60 ثانية. إذا كان العامل في المزيد من العمل الصادرة غضون ذلك، فإننا سوف حذف / تجاهل تلك الإجراءات. وتتخذ هذه القيم من إحصاءات لاعبين الإنسان. قامت APM عاصفة ثلجية قوية في حسابها من إجراءات معينة من عدة الحوسبة (وسائل المذكورة آنفا الرقمية "عمل وكيل" pysc2 في). وفي الوقت نفسه، تستخدم لدينا وكيل التعلم والتقليد، وهو ما يعني أننا كثيرا ما نرى بعض جدا "خردة" في العمل. وبعبارة أخرى، ليست كل الإجراءات هي إجراءات فعالة. وقد أشار بعض الناس إلى أن --AlphaStar APM الفعال (أو EPM) على رديت منخفضة جدا. ونحن سعداء لسماع ردود الفعل من المجتمع، لأننا استشارة فقط عدد قليل من الناس. سننظر في كافة الملاحظات.

Q: كيف العديد من الاحتياجات المختلفة الجسم PBT الذكية للحفاظ على التنوع بما فيه الكفاية لمنع كارثة نسيت؟ هذه هي الطريقة التي عامل مع الزيادة في عدد وملحقات؟ أو في حاجة الى عدد قليل سوف تكون قادرة على الحفاظ على قوة وكيل؟ هذا هو عادة استراتيجيات فعالة تفتيش التاريخ ما هو مشابه؟

ديفيد الفضة: علينا أن نحافظ على الإصدارات القديمة من كل وكيل كمنافس AlphaStar دوري. عادة ما يقوم وكيل الحالي على الخصم والفوز في سباق مع هؤلاء المنافسين. هذا يمكن أن تمنع بشكل جيد للغاية كارثية المنسية، لأن الجسم يجب أن يكون ذكية للتغلب على جميع الإصدارات السابقة. حاولنا أيضا عددا من استراتيجيات التعلم متعدد وكيل أخرى، وجدنا هذه الطريقة قوية جدا. وبالإضافة إلى ذلك، فإن الزيادة AlphaStar التنوع الدوري مهم جدا. حول تمديد الصعب إعطاء أرقام دقيقة، ولكن وفقا لتجربتنا، تساهم سياسة الفضاء البطولات الغنية على النسخة النهائية من وكيل أقوى.

س: من وجهة نظر وحدة المعالجة المركزية وTPU، الوقت الإجمالي حساب ما هو؟

ديفيد الفضة: لتدريب AlphaStar، ونحن نستخدم TPU جوجل V3 بناء، ونظام التدريب وزعت تدرجية عالية، والذي يدعم العديد من وكيل التعليم الموازي سبيل المثال من الآلاف من ستار كرافت الثاني. AlphaStar الدوري المدى لمدة 14 يوما، يستخدم كل عامل 16 TPU. وكيل AlphaStar النهائي من قبل معظم استراتيجية فعالة للعثور على تكوينها، ومن ثم تشغيلها على سطح المكتب GPU واحد.

Q: معدل استجابة منظمة العفو الدولية يبدو أقل استقرارا. الشبكات العصبية هي على GPU على التوالي في 50 ميلي ثانية أو 350 ميلي ثانية ذلك؟ أو أن هذه إشارة إلى أشياء مختلفة (VS القيود المفروضة على الحركة تسليم إلى الأمام)؟

ديفيد الفضة: شبكة العصبية نفسها يستغرق حوالي 50 ميلي ثانية لحساب الحركة، ولكن هذه ليست سوى لعبة والأحداث AlphaStar إلى الحدث لجعل أجزاء من هذه العملية خلال رد الفعل. أولا، لوحظ AlphaStar عبة بمعدل مرة كل 250 ميلي ثانية، وهي بالإضافة إلى العمل في حد ذاته لأن خارج الشبكة العصبية (التي يشار إليها أحيانا وقت العمل المجرد)، ولكن أيضا إلى الانتظار لاتخاذ بعض الاجراءات لعبة أخرى. يجب أن يتم تمرير الملاحظات العودة من ستار كرافت 2 ستار كرافت AlphaSTAR التوصل إليه، ثم عملية AlphaSTAR 2، وهذه المرة بالإضافة إلى عملية اختيار الشبكة العصبية، إضافة وقت 50 ميلي ثانية واحدة تأخير أخرى، مما أدى إلى متوسط زمن الاستجابة لل 350 مللي ثانية.

Q: اختبار تعميم فعلت ذلك؟ وكيل قد لا يلعب الأجناس الأخرى (وحدات متاح / عمل مختلف تماما، والهندسة المعمارية بل ليست هي نفسها)، ولكن على الأقل أنها يمكن تعميمها على خرائط أخرى، أليس كذلك؟

أوريول Vinyals: فعلنا جعل اختبار من هذا القبيل. لدينا تصنيفات الداخلية AlphaStar ليس لدينا يتم تعيين قائمة الخريطة لمحفز، ولكن فارغة. وهذا يعني أنه سوف تعمل على كل خريطة سلم الحالية. والمثير للدهشة، واصل وكيل لأداء جيدا، وإن لم تصل إلى المستوى الذي شهد أمس.

س: يبدو أن منظمة العفو الدولية ليست جيدة في اللعب رياحا عكسية؟ إذا كنت تقع خلف، بعد ذلك سوف تطغى، وهذا OpenAI AI على DOTA2 مشابهة جدا. إذا كان هذا هو المشكلة التي تسببها اصطناعية لعبة المصير؟

ديفيد الفضة: في الواقع هناك العديد من طرق التعلم المختلفة. وجدنا بسيطة الذاتي لعبة غالبا ما تقع في استراتيجية محددة في بعض الأحيان ننسى كيف الذكاء الاصطناعي سوف تغلب على الفهم السابق من التكتيكات. ويستند AlphaStar الجامعة أيضا على الذكاء الاصطناعي لجعل اللعبة الذاتي الأفكار، ولكن عدة عوامل التعلم ديناميكية وتشجيع المواجهة بين مجموعة متنوعة من الأساليب، وتظهر قوة أكثر قوة ضد تكتيكات غير عادية في الممارسة العملية.

س: في بليزكون مقابلة في نوفمبر الماضي، وقال Vinyals مرة واحدة سوف ستاركرافت 2 بوت فتح إلى السلم، والآن هناك مثل هذه الخطة؟

أوريول Vinyals: شكرا جزيلا دعم المجتمع المحلي، وسوف تدرج في العمل، لدينا عشر مباريات الإعادة هذا الجمهور، بحيث يراقب الجميع. الخطط المستقبلية في أي وقت إذا الجديدة علنا.

Q: كيف التعامل مع وحدات غير مرئية؟ لاعبا ولاعبة البشري في وحدات الشبح القريب جدا تجد (ملاحظة: في ستار كرافت 2، يتم عرض وحدات الشبح على الشاشة هو الخطوط العريضة قاتمة من تموجات مماثلة الخصم من الماء). ولكن إذا كان AI يمكن أن نرى، إذن، أن هناك القليل استخدام الشبح. ولكن إذا كان لا يمكن رؤيته، وسوف تعطي السياسات التنظيمية واسعة النطاق الشبح ميزة كبيرة، لأن المراقب يجب أن تكون موجودة من أجل رؤية الأشياء.

أوريول Vinyals: سؤال مهم جدا. في البداية كنا تجاهل "تموج المياه" وحدات غير مرئية. ويمكن للعامل لا تزال تلعب، لأنه يمكنك إنشاء كاشف، وبالتالي فإن الوحدة سوف تظهر على النحو المعتاد. ومع ذلك، فإننا في وقت لاحق أضاف "وميض" الميزة، إذا كان الموقع قد الحجب الأجهزة، يتم تنشيط هذه الوظيفة.

Q: من هذه التجربة، سواء كنت اكتسبت بعض الخبرة من الآخرين التفاعل بين الإنسان والكمبيوتر يمكن استخدامها لتعزيز مهمة التعلم؟

أوريول Vinyals: عندما نرى APM قيمة عالية أو النقاط مفتاح خاطئة لهذه القضية، ونحن نرى أن هذه قد تأتي من التقليد. في الواقع، ونحن كثيرا ما نرى بعض وكيل العمل يبدو السلوك زائدة عن الحاجة (غير مرغوب أوامر التحرك، وامض لقطة في بداية اللعبة).

ديفيد الفضة: مثل ستار كرافت، معظم التطبيقات في العالم الحقيقي للتفاعل مع الإنسان AI لديه مشاكل مع معلومات غير كاملة. وهذا يعني أنه لا يوجد أفضل الممارسات في بالمعنى الحقيقي، يجب أن يكون وكيل قادرة على الاستجابة بقوة لسلسلة من سلوك الإنسان لا يمكن التنبؤ بها التي يمكن اتخاذها. ولعل من ستار كرافت تعلمت الشيء الأكثر أهمية هو أننا يجب أن نكون حذرين للغاية للتأكد من أن خوارزمية التعلم يمكن أن تغطي جميع الحالات التي يمكن أن تنشأ. وبالإضافة إلى ذلك، وأعتقد أننا تعلمنا الكثير عن كيفية توسيع RL لمشاكل معقدة حقا، وهذه المشاكل لديها مساحة عمل واسعة ورؤية على المدى الطويل.

س: كثير من الناس يعتقدون هزيمة AlphaStar في الدور الماضي بسبب الخوارزمية الرؤية كانت محدودة في المباراة الأخيرة. أنا شخصيا أعتقد أن هذه الحجة ليست مقنعة، لأن منظور أضعاف القفز والخروج من ضباب الحرب، AI المقابلة لتوجيه قواتها تراجع إلى الأمام. يبدو تماما مثل وجود فجوة في فهم بدلا من القيود المفروضة على العملية. AlphaStar فقدت بهذه الطريقة، ما هو رأيك؟

ديفيد الفضة: وليس من الواضح لماذا نفقد (أو الفوز) لعبة، لAlphaStar صنع القرار معقدة للغاية، هو نتيجة لعملية التدريب المتعددة وكيل دينامية الذي تسببت فيه. مانا لعبة لعبت كبيرة، ويبدو أن تجد والاستفادة من ضعف AlphaStar - ولكن من الصعب أن تحدد بالضبط ما الذي سبب هذا الضعف: المنظور؟ تدريب الوقت لا يكفي؟ وكيل أو غيرهم من الخصوم وليس هو نفسه؟

Q: Alphastar من "ذاكرة" كم؟ وكم الاحتياجات من البيانات إلى الحصول عليها في حين لعب اللعبة؟

أوريول Vinyals: يستخدم كل وكيل على LSTM العمق، هناك ثلاث طبقات كل LSTM و 384 وحدة. AlphaStar في كل لعبة لجعل الحركة، وسيتم تحديث الذاكرة. كل لعبة وسوف يكون في المتوسط 1000 الحركات. لدينا شبكة من حوالي 70 مليون المعلمات.

Q: مثل AlphaGo وAlphaZero هذا العامل هو استخدام لعبة معلومات كاملة للتدريب. للألعاب المعلومات الناقصة مثل ستار كرافت، فإن وكيل التصميم بشكل مختلف؟ هل هناك AlphaStar قبل المواجهة مع "ذاكرة" الإنسان؟

ديفيد الفضة: ومن المثير للاهتمام، مثل AlphaGo وAlphaZero طريقة البحث على أكثر صعوبة التكيف مع اللعبة معلومات ناقصة. على سبيل المثال، على أساس ولاية تكساس هولدم خوارزمية (مثل DeepStack وLibratus) بحث التكهن يد الخصم بالإيمان في الدولة.

والفرق هو، AlphaStar تعزيز خوارزمية التعلم ليست النموذج يمكن الاستدلال بشكل غير مباشر المعارضين دولة من خلال دراسة سلوك معظم طرق فعالة للتغلب على الخصم، بدلا من محاولة لمعرفة ما النمذجة الخصم. ويعتقد أن هذا هو وسيلة فعالة للتعامل مع معلومات غير كاملة.

من ناحية أخرى، ناقصة لعبة المعلومات ليست هي الطريقة الأفضل على الأطلاق للعب، ولكن يعتمد على سلوك الخصم. هذا هو السبب في ستار كرافت هي رائعة جدا، مثل "الصخرة ورقة مقص"، مثل جميع القرارات لها مزايا وعيوب. هذا هو السبب في أننا نستخدم AlphaStar الدوري، والسبب في كل ركن من أركان سياسة الفضاء هي في غاية الأهمية - في هذه اللعبة العودة حيث هذا ليس مهما، يمكنك السيطرة على استراتيجية الأمثل لهزيمة جميع المعارضين.

س: ما هو أن معلما المقبل بعد ستار كرافت 2 أن يكون؟

أوريول Vinyals: تواجه منظمة العفو الدولية أيضا عددا من التحديات الهامة ومثيرة. أنا في الأكثر اهتماما هو "(ميتا التعلم) التعلم الفوقية"، فإنه أقل نقاط البيانات والتعلم بشكل أسرع نحو. هذه الفكرة يمكن تطبيقها على ستار كرافت الطبيعي 2 - كمية البيانات المطلوبة للتدريب وكيل يمكن أن تقلل من ذلك، ولكن أيضا يسمح لمنظمة العفو الدولية لأفضل التعلم والتكيف مع المنافسين الجدد، ولكن ليس "تجميد" الحق في الوزن AlphaStar.

تقنيات AlphaStar التي يمكن تطبيقها على مناطق أخرى من العلوم: Q؟

أوريول Vinyals: تكنولوجيا AlphaStar وراء يمكن تطبيقها في العديد من القضايا. هندسة الشبكات العصبية يمكن استخدامه لنموذج سلسلة طويلة - بناء على معلومات ناقصة، يمكن للزمن المباراة أن تصل إلى ساعة واحدة، ولكن هناك عشرات الآلاف من الخطوات. كل إطار تم فرزها ستار كرافت كمدخل الخطوة، يمكن للشبكة العصبية التنبؤ تسلسل المتوقع من الإجراءات في غضون الفترة الزمنية المتبقية في المباراة بعد كل إطار. مثل شوطا طويلا في حاجة ميدانية ليكون معقدا تسلسل البيانات للتنبؤ بالطقس ونمذجة المناخ، وفهم اللغة وذلك اعدة جدا.

بعض أساليب التدريب لدينا يمكن أن تستخدم أيضا لتحسين أمن ومتانة النظام الذكاء الاصطناعي، وعلى وجه الخصوص، وهو أمر ضروري من أجل حل القضايا العلمية المعقدة في مجالات رئيسية مثل أمن الطاقة.

مشاهدة الايجابيات

اثنين من التعامل مع AlphaStar ستار كرافت 2 لاعبين محترفين، TLO ومانا (حق الرقم مسكن).

س: بالنسبة للاعبين المحترفين، مثلك تماما في توجيه AlphaStar، فإنه يدل على اللعبة في ما يبدو لك مزايا وعيوب؟ الطريق إلى الفوز بها من قرارات أو العمليات؟

مانا: فمن الواضح أنه أقوى وحدات التحكم المحلية. في عدد لا بأس به من حالات كل من القوات، وقد فاز AI جميع الألعاب. والعيب الوحيد لعدد قليل من المباريات يمكننا أن نرى هو تقنيتها لالعناد. AlphaStar دينا ثقة في الفوز انتصارات تكتيكية، ولكن من الصعب أن تفعل أي شيء آخر، وفي نهاية المطاف لم الفوز في المباراة في هذا المجال. أنا لا أرى بوادر صنع القرار أكثر من اللازم، لذلك قلت منظمة العفو الدولية في فوز العملية.

Q: AlphaStar اللعبة وأي نوع من التجربة؟ إذا كنت لا تعرف من نحن نلعب، يمكنك تخمين بل هو آلة؟ ما هي التغييرات غير أن إدخال الذكاء الاصطناعي جلب ستار كرافت 2؟

مانا: AlphaStar وخلال السباق كنت عصبيا جدا، لا سيما وأنه هو آلة. وقبل ذلك، أنا أعرف القليل جدا منه. نظرا لعدم وجود معلومات، واضطررت الى في سباق الطريق غير مألوف. إذا لم تكن قد قيل من نحن نلعب، وأود أن نتساءل ما إذا كان هو الإنسان. تكتيكاتها والبشرية مثل، ولكن ليس الجزئية يمكن أي إنسان تحقيقه. بالتأكيد سوف تجد أنه ليس الإنسان، ولكن قد يستغرق أكثر من مجرد لعبة من المعلومات. وإنني أتطلع إلى المستقبل AlphaStar، وأنا لا يمكن أن تنتظر لتنفيذ ذلك والمزيد من الألعاب.

ستار كرافت 2 بين الانسان والآلة أحداث الحرب مراجعة

كان يوم أمس DeepMind ستار كرافت 2 وكيل AlphaStar لاول مرة. صدر DeepMind AlphaStar في ديسمبر من العام الماضي، وستار كرافت 2 اللاعبين المحترفين LiquidTLO، مانا لعبة فيديو، AlphaStar هي 5: 0 الانتصار على سجل ستار كرافت 2 لاعبين محترفين. حاليا، AlphaStar لعب فقط البروتوس، لكنه لا يزال واحدا من أقوى هزم البروتوس مانا 10 شخصا!

يوم أمس، كما نظمت DeepMind مشهد مبارزة مانا وAlphaStar. وقال مانا قبل المباراة، لديهم من أجل التوصل إلى "الانتقام". وقد ثبت أنه ناجح.

  • إعادة جميع المباريات 11: الشبكي: //deepmind.com/research/alphastar-resources/

في هذه اللعبة، يمكننا أن نرى عيبا AI: بالإضافة إلى تكتيكات محددة من الفجوة قواتنا، وليس هناك مفهوم توزيع قوة مرنة. هذا يذكرنا اللعب أجهزة الكمبيوتر ستار كرافت العصور القديمة، والمزارعين تبدأ في إرسال قاعدة لمهاجمة جهاز الكمبيوتر، والكمبيوتر الذهاب إلى مركز الشرطة كان الفلاح المزارع لقتلك. ويستخدم هذا النهج مانا مماثل، مع اثنين من قاعدة موشور ضخمة في AI بدون توقف التحرش، AlphaStar طار مرة واحدة على الفور مرة أخرى على الدفاع، والقوات AI أخرى تذهب على الفور وتستمر لمضايقة.

بعد فترة وجيزة من بداية، AlphaStar والهيمنة تدريجيا مطارد الأمامي مضايقة استخدام مانا اثنين من الألغام، ما زالت الظهر اثنين من الأنبياء لغزو الألغام. AI اظهار القوة للسماح أصبح المشهد المظلومين في حالة عصبية شديدة.

على الرغم من أن الذكاء الاصطناعي، وما إلى ذلك في حالة القوات في كل مرة ميزة، ولكن تكتيكات الهجوم الإنسانية جذب تدريجيا رئيسيا قوة AlphaStar نجاح مساعدة مانا ترحيل هجوم AI إيجابي. وفي وقت لاحق، وفاز مانا الجيش نصرا حاسما في وضع الألغام الخصم. لأول 12 دقيقة، البشرية رنين ورطتها عن بناء منظمة العفو الدولية ووون.

وAlphaStar تفسير الرسمية

يتم إنشاء السلوك AlphaStar من عمق الشبكة العصبية، البيانات الأصلية من واجهة الشبكة (قائمة الوحدة وخصائصها) تتلقى إدخال البيانات والمخرجات تسلسل التعليمات التي تشكل سلوك اللعبة. على وجه الخصوص، واستخدام الشبكات العصبية في خلية محول بمثابة الجذع، جنبا إلى جنب مع LSTM عميقة النووية، رئيس سياسة العودة التلقائية مع مؤشر وقيمة مركزية من خط الأساس الشبكة.

استخدام AlphaStar إلى خوارزميات التعلم متعدد وكيل جديدة. الشبكة العصبية الإنسان في البداية من قبل مجهولين لعبة فيديو عاصفة ثلجية الإفصاح في التدريب تحت إشراف التعلم. هذا يسمح للاعبين AlphaStar يمكن أن تتعلم سلم استراتيجية عملية قاعدة الجزئي والكلي من خلال التقليد.

الاتحاد AlphaStar. تدرب في الأصل من قبل اللاعبين الإنسان الاعاده ألعاب الفيديو، ثم التدريب على القتال والمنافسين الآخرين. كل تكرار لمباراة الخصم الجديد، وتجميد الخصم الأصلي، احتمال مباراة الخصم وفائقة المعلمة يحدد وظيفة أهداف لكل وكيل المستخدمة، وأكثر صعوبة في الحفاظ على التنوع في نفس الوقت التعلم. يتم تحديث المعلمات وكيل من خلال تعزيز التعلم. وكيل النهائي من الاتحاد ناش أخذ العينات توزيع (لم يتم استبدال).

مع اللعبة الذاتي، AlphaStar تطورت تدريجيا تكتيكات متطورة على نحو متزايد. وقال DeepMind عملية الاكتشاف ولاعبين الإنسان من تكتيكات مماثلة: تكتيكات جديدة للفوز باستمرار التكتيكات القديمة.

لتدريب AlphaStar، فإن معظم شرائح متقدمة دراسة TPU V3 عمق DeepMind استخدام جوجل لبناء التكوين تدريب تدرجية عالية، وزعت، ودعم الآلاف من بالتوازي التدريب معركة الحوسبة. AlphaStar الدوري في 14 يوما، كل عضو باستخدام 16 AI TPU. على وقت التدريب، كل عامل ما يعادل 200 سنة لعبة التدريب البشر الوقت. وأخيرا، وذلك باستخدام مزيج من صب AlphaStar كل وكيل في تكتيكات الفوز أعلى الاحتمالات، ويمكن تشغيلها على GPU جهاز كمبيوتر واحد ل.

الرابط الأصلي:

https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/

المصدر: تقريبا الإنسان

"قبل الولادة، والدة اختيار لي في السماء": هؤلاء الأطفال لحظة، ومشاهدة عدد لا يحصى من الآباء يثلج الصدر صرخة!

الدخول المبكر من الخزف الصقيل

تعرف على سرطان نفس واحد والامتيازات

كرواتيا C-بت لاول مرة، من آخر؟

فقط نظرت إلى تاريخ أوروبا (1)

الشعر | الشعر قراءة الأبراج مع لي شانغ يين، وأنت ماذا؟

العاصمة السويسرية زيوريخ أو جنيف؟ لا! هذا هو البلدة القديمة التاريخية منخفضة المفتاح!

جيانغشى ابن عم لإظهار عمق التغيير في مصير الاصلاح والانفتاح، نائب القيادة الاقليمية للرواية الرائجة، وأثارت جدلا واسعا

خريطة الغذائية | سيبو هارب كبير السلع الغذائية

فقط نظرت إلى تاريخ أوروبا، مقطورة

وقال جندي لمدة 16 عاما الطهي لمدة 16 عاما قبل تقاعده لا يشعر بأي ندم

هنا هو بروفانس شرقية، تتحول إلى الجنة الصيف الأرجواني، هو لا ينبغي تفويتها جزيرة رومانسية