هزيمة الشطرنج الإنسان في الحرب العالمية الثانية، يريد الآن أن يستعيد مجلس على العاب الفيديو | أرخايف البصائر

شبكة لى فنغ: مثل التعلم الآلي والذكاء الاصطناعي، فقط لتجد مملة من الصعب على ممارسة الصعب أيضا لقتل الوقت؟ أنابيب قناة أرخايف البصائر أسبوعية خاصة، من وجهة النظر الفنية، وعمق التعلم معك بسهولة.

ترجمة / تساو تشن

التدقيق / جيانغ فان

التشطيب / لياو يينغ

شبكة لى فنغ تغلب على هذه المشكلة المادة أرخايف البصائر بعنوان "أبحاث في لعبة فيديو معلومات مسبقة الإنسان" (التحقيق رؤساء أديرة الإنسان للعب ألعاب الفيديو) التي. القضية الأساسية التي أثارتها الورقة هو: لماذا البشر متخصصة في التخليص الجمركي ألعاب الفيديو؟ ووجد الباحثون أن واحدا من النقطة الأساسية هي أن البشر يمكن الاستفادة من قدرات قوية لبداهة السريع صنع القرار، والتخليص الجمركي.

تفسير الفيديو

1 دقيقة آلة لعبة تخليص الإنسان يأخذ 37 ساعة

ل"انقاذ الاميرة" لعبة اللغز، على سبيل المثال، ألعاب للتخليص الجمركي ورجال الانقاذ المطلوبة تسلق السلم للوصول إلى القمة، عبرت العدو لانقاذ الاميرة، للاعبين العاديين، العملية كلها تستغرق سوى 1 دقيقة. ولكن إذا كانت اللعبة مع المرحلة الأكثر تقدما من التعلم تعزيز الخوارزمية، حتى الخوارزمية الطبقة الأكثر فعالية كما يأخذ حوالي 4 لتدريب مليون شخص. (إزالة لتكون بشكل مستمر، وعدد من الإطارات ضروري)

ونحن الآن في وحدات من الزمن، لحساب عدد من الإطارات. نفترض أن اللعبة كنت يركض 30 لقطة في الثانية الواحدة، أي ما يعادل أربعة ملايين شخص يلعب باستمرار اللعبة حوالي 37 ساعة. في القيام بذلك، فإنه يأخذ آلة الزمن حوالي 2000 مرة الوقت اللازم لتمرير من خلال الإنسان.

لماذا البشر جيدة في التعامل مع البيئة الجديدة والمعقدة؟

من الواضح أن أقول لكم أن هذا هو لأن البشر لديهم الكثير من المعلومات المعروفة مسبقا. على سبيل المثال، نحتاج إلى معرفته لتسلق سلم، حتى نتجنب سلم. ولكن المشكلة الرئيسية ليست هي كمية المعلومات، ولكن بدلا من درجة أهمية وتأثير المعلومات: سوف معلومات مسبقة مختلفة من الأهمية أن تكون مختلفة؟ يمكننا قياس أثر هذه المعلومات السابقة أحدثت؟

في السنوات الأخيرة، جعلت تعلم الآلة تقدما كبيرا جدا وتعزيز التعلم حققت تقدما كبيرا أيضا. معظم هذه التطورات تأتي من جوجل مثل DeepMind OpenAI والمتطورة البحوث في مجال الذكاء الاصطناعي في جامعة الشهرة.

وتشير هذه التطورات التي نحن قادرون على تدريب وكيل، بحيث يمكن أن تتعلم في بيئة ديناميكية إلى سلوك معقد جدا. يستخدم عامل إشارة، فإننا ندعو إشارة مكافأة . وهو يختلف عن التعلم تحت إشراف، تحتاج إلى إبلاغ وكيل في حالة معينة ما هي الإجراءات التي ينبغي اتخاذها. هذا العامل يمكن ان تتحرك بحرية في البيئة وفقا لطريقتها المقصود. ولكن لديها إشارة، إشارة إلى أن الأجر المذكور في وقت سابق، في محاولة لإشارة مكافأة على مر الزمن، باستمرار تحسين عامل، للوصول إلى القيمة الأمثل.

هذه الخوارزميات في مجموعة متنوعة من سيناريوهات، أداء جيدا للغاية. هذا الإنجاز حتى الكثير من الناس اقترح أننا قد نرى تعميم برعم الذكاء الاصطناعي في وقت مبكر. وإن كانت هناك بعض الإنجازات الهامة، لجعل الجهاز تصل إلى مستويات مماثلة من قدرة الإنسان على التعلم، لا يزال هناك طريق طويل لنقطعه.

آلة تعلم ما الفرق في ماذا؟

الخوارزمية الحالية هي جيدة في تعلم التعميم (التعلم العام) ولكن وجدت عينة استخدام (الكفاءة عينة) الفقراء. هذه المشكلة وسائل أنهم قادرون على التمييز بين ما هو مطلوب السلوك قبل البيئة الحالية، يجب أن تعطي وكيل الكثير من إطارات التدريب. وتجدر الإشارة أيضا، باستثناء الخوارزميات والأداء البشري، لم معظم الباحثين لم يذكر المعرفة جزءا لا يتجزأ من (المعرفة جزءا لا يتجزأ) أن الناس تجلب المهام المعرفة الجديدة. هذه المعرفة تسمح لنا لإيجاد الحل الأمثل يمكن أن يكون مشكلة معينة هي أسرع من أي خوارزمية لدينا اليوم.

إذا كان لديك بعض الفهم لعلم النفس، ونحن نعلم أن الأطفال حديثي الولادة فعلا ميل لتقليد. إذا كان الأب الشائكة لسانه بها، على الرغم من أن الأطفال لا يدركون ما حدث، لكننا كثيرا ما نرى الأطفال تقليد هذا الإجراء. حقيقة أن جزءا لا يتجزأ من بعض المعلومات في جيناتنا. وبالمثل، لدينا ميل قوي إلى الالتفات إلى وجهه. وهكذا، للأطفال حديثي الولادة، إذا لمنحه الكثير والكثير من الصور، فإنها تبدو دائما في وجه يحدق في البداية.

وهناك لا يتم تخزين بعض بداهة المعلومات في الجينات البشرية فينا، ولكننا لن نذهب للتعلم في سن مبكرة. حالة واحدة هي دوام الكائن (الدوام كائن). وتشير الدوام كائن حقيقة: إذا كان لديك كائن معين، الكائن إخفاء فجأة، ونحن لا يزالون يعتقدون أن الكائن هناك.

مفهوم الديمومة الكائن في الرضع الإنسان في كثير من الأحيان عن حجم شهرين. ومع ذلك، الشمبانزي والقرود الأخرى، حدوث ظاهرة بسرعة أكبر في وقت سابق. هكذا ترون، القرد والإنسان أطفال في نفس العمر، على القرود، وقد تبين الكائن الدوام المفهوم. من أجل الكشف عن وجود ونفوذ معلومات مسبقة مختلفة من البشر، وصمم الباحثون اللعبة، التي حلت محلها عمدا لعبة بعض الكائنات مع هيكل عشوائي. والفكرة هي في الواقع، إذا ما تم تناوله بمهارة، يمكنك إخفاء الواقع شكل من أشكال المعلومات المسبقة. ومن ثم التمييز بين التغيرات في الأداء البشري من قبل اللاعبين، والتي في شكل معرفة مسبقة إكمال فعلا اللعبة أمر بالغ الأهمية.

البشر وون، يعتمد على معلومات مسبقة

قبل المتابعة، أريد كل واحد منكم للعب مع حولها هذه اللعبة، ومحاولة واحدة من النسخة المعدلة للعبة، لمعرفة ما إذا كان لديك أي معلومات مسبقة، كيف أنه من الصعب أن يلعب هو نعم. لا إعادة رسم خريطة أي من الهيكل الأصلي للمباراة، يمكن للشخص العادي يستغرق حوالي 1.4 دقيقة لاختراق حاجز.

اخذ الباحثون في اعتبارهم المباراة الاولى هو تغيير دلالات كائن، وسوف تكون قادرا على رؤية باب مفتاح أو بديل، يمكن للاعب ترى مجرد مربعات لون موحد. في الواقع، ذلك هو أن أخذنا معرفة مسبقة عن خصائص الكائن. فمن الواضح أن نتمكن من العثور عليها، في النسخة الأولي من المباراة، وجميع اللاعبين في حاجة للذهاب إلى المفاتيح، ومن ثم فتح الباب. في وضع خرائط جديدة للهيكل من اللعبة هو ليس كذلك. وهذا يبين بوضوح أن الناس يستخدمون معرفتهم السابقة حول الكائن لتوجيه سلوكهم.

في بنية اللعبة الخارطه، ارتفع متوسط زمن المباراة من 1.4 دقيقة إلى حوالي 4.4 دقيقة. في النسخة الثانية من التسوية اللعبة، قرر الباحثون ببساطة على أساس نسخة، ومن ثم إخفاء مكان وجود الكائن. حتى الآن، جميع اللاعبين يمكن أن تتحرك بحرية موقف تم اخفاء الساحات اللون موحدة تصل. في هذا الإصدار من اللعبة، واللاعبين من خلال كسر الحاجز بين الإنسان العادي اللازمة ليرتفع إلى 9 دقائق. ونحن لا نعرف من أين الكائن، لكننا لا تزال واضحة جدا أي نوع من التضاريس، مثل منصات حيث أننا نعرف، ونعرف ما دور شعرية نعم.

في الإصدار الجديد من اللعبة، وإعادة تعيين كل هذه الهياكل، فإننا ندعو يسمى هذا السلوك إزالة وظيفة الرؤية (إزالة Affordance). هذا يثبت أن الرؤية وظيفة إزالة ليس سيئا كما تتم إزالة دلالات كائن. وأخيرا، قرر الباحثون في محاولة وضع لعبة المتشددين، ولذلك سوف تكون استدارة 90 درجة الجاذبية الاستشعار، والتحول من اليسار واليمين من على مفتاح التحكم. بالإضافة إلى أنها إعادة رسم خريطة كل ملامح هيكل مرئية.

وهذا يدل على أننا قد وجدت في النقاط الرئيسية، وبالتالي فإن النسخة تأثير المباراة مقارنة كمية من هذه التعديلات لجلب الناس لاختراق حاجز الزمن، سرد الباحثون بعض المعلومات السابقة بشرية لم يعرف، وهذه المعلومات قبل حل أهمية مهمة التحدث.

يمكننا أن يستشف من نتائج، مثل كائن حكم بسيط لحل بيئات معقدة أمر بالغ الأهمية. بعد ذلك، فعلت الباحثون الشيء المثير للاهتمام للغاية: انهم يستخدمون معظم خوارزمية تعزيز التعلم متقدمة تسمى A3C (غير المتزامن ميزة ممثل الناقد)، بعد التعديل في محاولة للافراج عن اللعبة من قبل نفس خوارزمية العلاج - هذه الإصدارات هي شهدت قبل لاعبين الإنسان. وأظهرت النتائج المحسن وكيل التعلم دون أي مشاكل، بغض النظر عن إصدار التعديل، حتى لو كان لكافة إصدارات بنية الهدف من اللعبة تم تعيين إعادة، وكيل تعزيز التعلم يتطلب تقريبا نفس الكمية من تدريب الإطارات إلى حل هذا جزء من المشكلة.

وعموما، استخدام البشري معلومات مسبقة قوية جدا، وتمكينهم من العثور بسرعة على أفضل الحلول في حالات يلتق قط من قبل. التي هي حاليا في تعزيز الخوارزمية التعلم، يفتقد معظم الشيء المهم، لأن خوارزمية لا قبل تأسيس المعرفة عن كيفية عمل هذا العالم.

المعلومات المسبقة ليست حلا سحريا، وأحيانا حجر عثرة

آخر شيء هو أن نلاحظ أن لفهم موضوع معرفة مسبقة قد لا تكون دائما شيء جيد. أعتقد أنني ناقشت في وقت سابق نظام AlphaGo، يمكنك أن ترى بوضوح أن هذه الخوارزمية المدربين من الصفر، تحتاج إلى تفقد بعض المعلومات السابقة على أساس المعرفة الإنسانية وحقوق اللعبة، وهذه المعلومات السابقة يمكن أن تجعل حقا خوارزمية أداء أفضل.

وهناك مثال آخر، إذا قمت بتغيير خطورة اللعبة، ثم الناس سوف اتخاذ قرارات سيئة للغاية، وجعل أسوأ من أي إدخال في المعرفة مسبقا من الأشياء المادية المحددة وكيل الهدف. هذه تظهر أنه على الرغم من البشرية قد تكون معلومات مسبقة مفيدة في حل المهام الجديدة في البيئة الجديدة، ولكن هذه المعلومات السابقة قد تعرقل هذه الدور للعب.

في هذه الحالة نرى في إرادة فيزياء الكم. المعرفة البشرية من خلال سنوات عديدة من البحث العلمي وتجربة الحياة الطبيعية في العالم. ومع ذلك، كانت هذه فيزياء الكم انتهكت قواعد غريبة، الذي بالنسبة لنا هو غير متناسقة جدا مع قوانين الطبيعة، فمن الصعب جدا أن يقبل ويفهم.

الموقع الورقات:

https://openreview.net/pdf؟id=Hk91SGWR-

النسخ الورقية من الرابط:

https://high-level-3.herokuapp.com/

https://openreview.net/pdf؟id=Hk91SGWR-

أنتجت شبكة لى فنغ (مجموعة لى فنغ ترجمات). إضافة بريد إلكتروني الصغير: مجموعة لى فنغ ترجمات (leiphonefansub)، والانضمام إلينا.

السنة في الصفحة مراجعة على خط Xbox لأشكر اللاعبين، يرافقه 18 مليار ساعات

"عالم الحيوان" لي يي فنغ هذا هو محاربة حقا! معركة من أجل البقاء الحياة التجسد مهرج معلق بخيط رفيع

مرة أخرى في الصيف من الشتاء، سوف نفيديا تأتي في الهجرة شبكة يدوية | 2 ورقة Fenzhong

والاس تشونغ، لا يمكننا العبث

"يان اليوم" مقطورة التعرض البيض، نتائج آية Ueto تاكومي سايتو SM يمكن أن يقال لتكون حلوة قليلا

إزالة كاى قه الدروع

أصبحت نظرة الأخبار المنبع عادة كل يوم للاستماع الى وطنهم "الانطباع المنبع"

العصبية الترميز الترجمة الآلية - فك جعلت العمارة تقدما جديدا، على وجه التحديد كيفية تكوين؟

مدير العلامة التجارية الأعلى ترك؟ قادرة على منع العلامة التجارية المشتركة الأخيرة باستمرار! | تشاو ون الوجبات السريعة

الشمال جاهزة للبلوتوث 5

مصبوغ الأخضر مدة عام التنين تشي الانتهاء من تشغيله، حاول القادمة Blorange (الوردي)؟

"قصة تحت الماء" الذي صدر في مقطورة في نهاية المطاف والغواصات وأسماك القرش غواصة فريق فتحت مغامرة