الكلب ألفا ثم تطورت: العصاميين المدرسة ثلاثة أيام 100: 0 الانتصار على كلب كبير في السن | المرفقة: ورقة تفصيلية التفسير

بالتوقيت المحلي لندن في الساعة 18:00 يوم 18 أكتوبر (الساعة 19:00 بتوقيت جرينتش 01:00 ري)، AlphaGo صعد مرة أخرى أعلى مجلة في العالم العلمية - "الطبيعة".

قبل أكثر من عام، AlphaGo هو 28 يناير 2016 غطاء قصة الفترة الحالية، أصدرت شركة Deepmind برنامج الذكاء الاصطناعي يدخل الورق الثقيل الذي تغلب على نفرح الأوروبي العودة بطولة مروحة.

في مايو من هذا العام إلى 3: كه جي بعد اللاعبين الصينيين للفوز في النتيجة 0، أعلن AlphaGo تقاعده، ولكن لم شركة DeepMind لا البحوث إيقاف. لندن بالتوقيت المحلي يوم 18 أكتوبر، أعلن فريق DeepMind أقوى نسخة AlphaGo، التي أطلق عليها اسم AlphaGo صفر. في غش فريدة من نوعها، هو "العصاميين". التعلم وعلاوة على ذلك، بدءا من ورقة فارغة، الصفرية، في ثلاثة أيام فقط، لتصبح أفضل اللاعبين.

وقال الفريق مستوى AlphaGo صفر تجاوز كافة إصدارات AlphaGo قبل. في الفوز ضد لاعبين من كوريا الجنوبية لديها هذا الإصدار من الوقت لي شيشي AlphaGo، أدلى AlphaGo صفر 100: 0 الساحقة قياسية. وسيقوم فريق DeepMind البحوث على AlphaGo صفر في شكل ورقات، التي نشرت في مجلة "الطبيعة" من 18 أكتوبر.

"AlphaGo في غضون عامين لتحقيق النتائج مروعة. الآن، AlphaGo صفر هو أقوى نسختنا، وتحسنت كثيرا .Zero تحسين الكفاءة الحاسوبية، ولم تستخدم للذهاب أي بيانات الإنسان،" والد AlphaGo، DeepMind المؤسس المشارك والرئيس التنفيذي لشركة داي ميس الاحساء Bies (ديميس حاسابيز) قال: "في النهاية، نحن نريد أن استخدامه لكسر خوارزمية، للمساعدة في حل المشاكل الملحة في العالم الحقيقي، مثل البروتين للطي أو تصميم مواد جديدة. إذا نحن نمر AlphaGo، ويمكن إحراز تقدم في هذه القضايا، ثم انه لديه القدرة على تعزيز فهم الحياة، وبطريقة إيجابية تؤثر على حياتنا ".

لم تعد تخضع لقيود المعرفة الإنسانية، فقط 4 TPU

كان AlphaGo الإصدار السابق، جنبا إلى جنب مع الملايين من خبراء الشطرنج البشري العودة، وتعزيز الرقابة وتعلم التدريب الذاتي.

قبل البشر الضرب يذهب خبراء متخصصين، والتي بعد عدة أشهر من التدريب، والاعتماد على آلات متعددة و48 TPU (جوجل خصيصا لDNN لتسريع البحث والتطوير من الحوسبة رقائق الطاقة).

القدرة AlphaGo صفر على كان هذا الأساس تحسنا نوعيا. أكبر الفرق هو أنه لم يعد يتطلب بيانات البشري. وبعبارة أخرى، بل هو بداية، لا يوجد اتصال مع الشطرنج البشري. فريق R & D مجرد السماح لها أن تكون حرة للعب الشطرنج على متن الطائرة، ثم لعبة أنفسهم. ومن الجدير بالذكر أن AlphaGo صفر أيضا للغاية "منخفض الكربون"، يستخدم جهاز واحد فقط وأربعة TPU، وفورات كبيرة في الموارد.

الشطرنج AlphaGo صفر في تعزيز التعلم الذاتي

بعد أيام قليلة من التدريب، أكملت AlphaGo صفر على لعبة النفس 5 ما يقرب من مليون، وبالفعل وراء الإنسان، وهزم جميع الإصدارات السابقة من AlphaGo. وقال فريق DeepMind على بلوق الرسمية، صفر الشبكات العصبية وتحديثها إعادة هيكلة خوارزمية البحث، والتدريب لتعزيز أداء النظام عن طريق قليلا تقدما يذكر. أداء لعبة النفس يتحسن، في حين تصبح الشبكة العصبية أكثر دقة.

AlphaGo صفر عملية اكتساب المعرفة

"والسبب هذه التفاصيل التقنية أقوى من النسخة السابقة هو أننا لم تعد تقتصر المعرفة البشرية، يمكن أن تذهب إلى الأعلى اللاعبين في مجال --AlphaGo تعلمهم." قائد الفريق AlphaGo ديفيد سيلفا (ديف الشظية) قال.

ووفقا للقدم ديفيد سيلفا، وتعزيز AlphaGo صفر التعلم باستخدام الطريقة الجديدة بحيث تصبح معلمة. لا يبدأ نظام يعرفون حتى ما تذهب، ولكن بدءا من الشبكة العصبية واحدة، والشبكة العصبية من خلال خوارزمية بحث قوية، والشطرنج الذاتي.

مع زيادة لعبة الذاتي، والشبكات العصبية ضبط تدريجيا وتعزيز القدرة على التنبؤ الخطوة التالية، والفوز في نهاية المطاف لعبة. أكثر قوة، مع التدريب المتعمق، ووجد فريق DeepMind، AlphaGo صفر اكتشف أيضا بشكل مستقل قواعد اللعبة، والخروج من استراتيجية جديدة، وجلبت رؤى جديدة لهذه اللعبة القديمة من العودة.

النفس ثلاثة أيام، للفوز على نسخة قديمة AlphaGo

وبالإضافة إلى هذه الاختلافات، AlphaGo صفر لا يزال ثلاثة جوانب مع النسخة السابقة هناك اختلافات كبيرة.

الجدول الزمني للتدريب AlphaGo-صفر

أولا، AlphaGo صفر فقط الحجارة السوداء والبيضاء على متن كمدخل، وميزة المدخلات السابقة تتألف من جزء صغير من تصميم مصطنع.

ثانيا، AlphaGo صفر فقط الشبكة العصبية واحدة. في الإصدارات السابقة، وتستخدم AlphaGo "استراتيجية الشبكة" لتحديد طريقة الخطوة التالية، واستخدام "شبكة قيمة 'للتنبؤ الفائز بعد كل خطوة. في الإصدار الجديد، والشبكات العصبية اثنين الى واحد، بحيث يمكن أن يكون التدريب والتقييم أكثر كفاءة.

ثالثا، AlphaGo صفر لا تستخدم بسرعة، عشوائي المشي طريقة طفل. في الإصدارات السابقة، AlphaGo باستخدام الأطفال للذهاب طريقة سريعة للتنبؤ أي لاعب سوف نفوز بالمباراة في ظل الوضع الراهن. بدلا من ذلك، الإصدار الجديد هو الاعتماد على جودة شبكتها العصبية لتقييم الوضع في لعبة الشطرنج.

AlphaGo عدة إصدارات التصنيف العالمي

ووفقا قدم الاحساء Bies وسيلفا نسخة جديدة من هذه تختلف مساعدة AlphaGo على النظام قد تحسنت، تغيير خوارزمية يسمح النظام لتصبح أقوى وأكثر فعالية.

بعد ثلاثة أيام فقط من التدريب الذاتي، AlphaGo صفر لهزيمة إرث قوي لانتصار السابق على لي شيشي AlphaGo، سجل 100: 0. بعد 40 يوما من التدريب الذاتي، AlphaGo صفر وهزم نسخة AlphaGo ماستر. "ماستر" لقد هزم لاعبين أعلى الشطرنج في العالم، بما في ذلك رقم واحد في العالم وحتى كه جي.

الأداة المثلى لعن أمله في أن استخدام الذكاء الاصطناعي لمهمة لتعزيز التقدم للمجتمع البشري هي DeepMind، العودة لا AlphaGo نهاية المطاف مقصور على فئة معينة، وكان هدفهم دائما لخلق الاستعمال الشائع AlphaGo، لاستكشاف الكون. AlphaGo صفر ترقية، دعونا نرى DeepMind انفراجة في استخدام تكنولوجيا الذكاء الاصطناعي لتغيير مصير البشرية. وهم الآن يعملون بنشاط مع المؤسسات الطبية البريطانية والكهرباء في قطاع الطاقة، وتحسين الرعاية الطبية وكفاءة الطاقة.

 وأعادت الصحيفة على خلفية مقال على عمق التفسير، سيتم تكرار جزء من محتويات في القسم السابق

عمق أوراق تفسير

الكاتب: المستنير الطبيعة مكتب شنغهاي

اللاعبين AI قد هزم AlphaGo اثنين من كبار اللاعبين على لي سي دول وكه جي. بعد اجتاحت هذه العاصفة العنيفة عبر العالم، AlphaGo وأعلنت أنه لا يوجد رجل لعب الشطرنج. لكن خالقه لم تتوقف، AlphaGo لا تزال تنمو، اليوم كما نشرت Deepmind ورقة جديدة على AlphaGo في مجلة "الطبيعة".

نشرت Deepmind اول ورقة عن AlphaGo في مجلة نيتشر في 28 كانون الثاني عام 2016، وغوردون

وAlphaGo هذه الورقة هو جديد، وهي ليست لهزيمة أقوى ماستر كو نظيفة، ولكن هذا هو الأخ التوأم. انه دعا AlphaGo صفر. وبالمقارنة مع AlphaGo سابقة ما يلي:

لمعرفة من الصفر، دون أي خبرة الإنسان

استخدام أقل المشغلين القوة للحصول على نتائج أفضل

اكتشاف العودة-مجموعة جديدة

قيمة استراتيجية تعزيز الشبكة والشبكة

استخدام شبكة المتبقية عميقة

نظرية السبورة (راسا اللوح)

ويتحقق AlphaGo صفر أكبر اختراق نظرية السبورة. نظرية السبورة هي معروفة وجهات النظر حول فلسفة أن الطفل قد ولد في لائحة بيضاء، من خلال التدريب المستمر، والوصول إلى المعرفة والنمو الفكري.

كشركة رائدة في مجال AI، وتستخدم تورينج هذه الفكرة. المقترح في الشهير "اختبار تورينج"، ورقة، وقال انه بدأ من طفل لائحة فارغة، طالما أن الجهاز يمكن أن تستخدم لخلق طفل مماثل من منظمة العفو الدولية، ثم تدريبهم، يمكنك الحصول على المخابرات الكبار تقريبي، وحتى أبعد الذكاء البشري منظمة العفو الدولية.

العلم الحديث المستفاد هو ليس كذلك، فإن بعض الأطفال الذين يولدون لديهم القدرة الفطرية، وأنهم يفضلون ذات السعرات الحرارية العالية الغذاء والجوع، والأمل البكاء فإنه سيتم الحصول على لاحظ. هذا هو الكائن الحي في الملايين تطور سنوات إلى المدرسة.

أشرف مقابل التعلم التعلم غير خاضعة للرقابة

الكمبيوتر هو مختلف تماما، أنه ليس لديه الملايين من السنين من التطور، لذلك ليس هناك معرفة مسبقة من هذه، هي حقيقية "لائحة بيضاء". أشرف التعلم (التعلم أشرف)، والتعلم غير خاضعة للرقابة (بدون اشراف التعلم) وجهان من المرآة، سواء يريدون حل نفس المشكلة - كيفية الحصول على الجهاز من الصفر إلى الحصول على ذكية؟

التعلم تحت إشراف يظن الناس يضعون خبراتهم لتعليم آلة. خذ التمييز AI القط والكلب، تحتاج إلى إعداد الآلاف من الصور، ومن ثم يدرس الجهاز - الذي الصورة هو القط الذي الصورة كلب. الجهاز سوف يتعلم التمييز بين تفاصيل الكلاب والقطط، من الشعر إلى عيون الى الاسماع، ثم عن طريق القياس يجب أن أذهب إلى أحد القضاة أنه لم يسبق له مثيل صور القطط أو الكلاب.

بدون تعتبر آلة التعلم تحت إشراف للذهاب بطريقتهم الخاصة، اكتشفوا القانون. التجربة الإنسانية قد تساعد على التحكم في آلة ذكية، ولكن ربما معيب التجربة الإنسانية، فمن الأفضل السماح للآلة اكتشف قوانين جديدة وأفضل. التجربة الإنسانية لوضعها جانبا.

من الجهل الذي لا يقهر

مثل هذه الورقة الجديدة هو عن ذلك. AlphaGo صفر هو نتاج التعلم غير خاضعة للرقابة، ولها توأم شقيق ماجستير هو أسلوب التعلم تحت إشراف. بعد التدريب لمدة 72 ساعة AlphaGo صفر قادرة على هزيمة إلى هزيمة لي سي دول من AlphaGo لي، مقارنة التدريب AlphaGo لي لعدة أشهر. وبعد مرور 40 يوما، انها ليسجل 89:11، وماجستير هزم من كل خلف سيد البشرية.

AlphaGo صفر 0 ابتداء من منحنى التعلم، هذا الإصدار من الشبكة العصبية تتكون من 40 وحدات.

تورينج فرضية السبورة على الرغم من أنها لا يمكن استخدامها في البشر، ولكن ثبت AlphaGo صفر، لوحة بيضاء يمكن تدريب AI لتجاوز الماجستير الإنسان.

تعزيز التعلم

تعزيز التعلم (تعزيز التعلم) هو وسيلة لنماذج تقليد من التعلم الإنساني، والنهج الأساسي هو: إذا كان الجهاز سوف تكون قادرة على الحصول على نتيجة جيدة ليكافأ، وإذا كنت تحصل يعاقب النتائج السيئة. AlphaGo صفر ولا إخوة أو أخوات مثل قبل، مثل تلقى تعليمه العودة المعرفة الإنسانية. انها مجرد نسخة مختلفة من نفسه ولعب الشطرنج، ثم فكرة لتدريب الفائز في الإصدار الجديد، وكرر ذلك.

مبتدئين AlphaGo الصفر تماما مثل البشر، في حاجة للذهاب من خلال بعض الوقت لاستكشاف. لعبة الشطرنج الذات ثلاث مراحل مختلفة في التدريب

من خلال هذا النهج، AlphaGo صفر الطريق تماما الخاصة بها من البداية، والنهاية، وذلك على مجموعة المعرفة قبل المعروفة للإنسان، العودة، وعملت أيضا إلى صورة نمطية جديدة.

الخوارزميات والأداء

كيفية الحصول على الاستخدام الفعال والمعقول لموارد الحوسبة؟ هذه الخوارزمية هي قضية مهمة يجب حلها. AlphaGo لي تستخدم 48 TPU، (هزم فان هوي نسخة من) في وقت سابق AlphaGo مروحة يستخدم 176 GPU، في حين أن السيد وAlphaGo صفر في TPU أربعة فقط، جهاز كمبيوتر يعمل بما فيه الكفاية!

بسبب التقدم في الأجهزة والخوارزميات، AlphaGo تصبح أكثر كفاءة.

AlphaGo صفر يمكن تجاوز خلال 72 ساعة AlphaGo لي تظهر أيضا خوارزمية ممتازة لا يمكن إلا أن الحد من استهلاك الطاقة، ولكن أيضا يمكن أن تحسن كثيرا من كفاءة. وبالإضافة إلى ذلك أيضا يظهر أن تعقيد المسائل العودة لا تتطلب استخدام على نطاق واسع قوة الحوسبة، بل هو مجرد مضيعة.

AlphaGo صفر واثنين من تحسين خوارزمية الأساسية: مزيج من شبكة السياسة (اندلع حساب الاحتمال) وشبكة قيمة (تحسب نسبة الفوز) من هذه الشبكات العصبية اثنين، في الواقع، في اول ورقة الفصل AlphaGo، وقد استخدمت الشبكتين بنية مماثلة. وبالإضافة إلى ذلك، وإدخال عمق الشبكة المتبقية (ديب المتبقية شبكة)، مقارنة مع متعدد الطبقات تأثير الشبكة العصبية قبل نحو أفضل.

بالطبع Deepmind

ليست هذه هي المرة الأولى أوراق Deepmind الإرسال على "طبيعية"، ونشرت أيضا الطبيعة "مع عمق الشجرة البحث والشبكة العصبية لتصبح ماجستير في العودة" و "استخدام عمق دراسة مكثفة لتحقيق مستوى من اللاعبين الإنسان" (الرسالة الرابط: http: //rdcu.be/wRDs) و "المختلطة باستخدام النموذج الحسابي للشبكة العصبية وذاكرة خارجية ديناميكية" ثلاث ورقات، في الطبيعة وعلوم الاعصاب، أدلى Deepmind أيضا عددا من الأوراق.

يمكننا الحصول على لمحة من الأفكار Deepmind، وجدوا أن البشر لا يفهمون مبادئ اللعبة، لعبة مقارنة لمشاكل العالم الحقيقي هو أبسط من ذلك بكثير. وبعد ذلك اختار طريقين، طريق واحد هو لتحسين خوارزمية، طريقة أخرى هي السماح للآلة لا يتأثر خبرة الإنسان مسبقة.

الطريقين تتلاقى في النهاية، وهذا هو حقا وراء الإنسان منظمة العفو الدولية.

خاتمة

هذا هو AlphaGo النهائي، ولكن أيضا بداية جديدة، وسوف تستخدم التكنولوجيا ذات الصلة لصالح البشرية، فهم البروتين للطي للعلماء مساعدة إنتاج الأدوية لعلاج الأمراض المستعصية، وتطوير مواد جديدة، من أجل إنتاج أفضل المنتجات.

هذا SUV ستة مثل التوائم، وسعر مماثل رفيعة المستوى، يمكن أن تختار فقط المظهر الجيد!

2017 الصين إلكترونيات معرض NB-تقنيات عمليات تكامل تطبيق منتدى الابتكار والتكنولوجيا

كل بلدة في مقاطعة جيانغسو هنا، وكثير منهم مجانا، واذهبوا إلى عطلة صغيرة، وسرعان ما المفضلة

الجديد أرخص تبحث من النماذج القديمة، والتي تسمح لأصحاب تذهب حيث المنطق؟

أكثر من "على الطريقة الصينية الطريق 66" وخبى هذه الأماكن 30 الولايات المتحدة حروق في العينين!

400000 لشراء ما؟ الرجال على السيارة العضلات، كه Mailuo والبرية ما Duigang

أسود العلوم والتكنولوجيا على السيارة، والشركات الثلاث من ذلك بكثير!

مع أفضل قيمة مقابل المال للذهاب إلى أوروبا، إخفاء البحر الأبيض المتوسط "الجزيرة" من الصين أيضا تأشيرة مجانية عند الوصول

انضمامه إلى الاعتماد على إنجازاتهم | AMKOR المدرسة تجنيد 2018 المحاضرات ستكون على الخط اليوم

واحد وخمسون يكفي سفر وهمية في جميع أنحاء، واختيار مكان للفقراء من السفر إلى الخارج

جرد "الدجاج" لعبة النماذج الأكثر تمثيلية، وانت تعرف ذلك؟

آخر الأخبار: السقوط في قاع النهر! تم انتشال تشونغتشينغ سقوط نهر خط الحافلات 22 حافلة من على جثتين، وزارة الأمن العام والمشهد الآخر