"الطبيعة" إن أحدث الأبحاث: يتم توزيع توجد آلية تعزيز التعلم في الدماغ

الكاتب | DeepMind ترجمة | AI تكنولوجي ريفيو

 ملاحظة المحرر: هناك علاقة عاجزة ومتشابكة بين الذكاء الاصطناعي وعلوم الأعصاب / الدماغ. من بداية ولادة الذكاء الاصطناعي، والذي يتأثر بشكل كبير عن طريق البحث في علم الأعصاب، بما في ذلك الشبكات العصبية الاصطناعية، وغيرها الكثير من خوارزمية تعزيز التعلم؛ الحوسبة وأكثر حداثة الطبقة النار الدماغ، يقترح "الدماغ يلهم" هذه الفكرة. ومع ذلك، فإننا كثيرا ما نسمع، بحوث الذكاء الاصطناعي التي كتبها علم الأعصاب / الدماغ وحي، لذا، علم الأعصاب / الدماغ البحوث العلمية مستوحاة من الذكاء الاصطناعي يمكن أن تفعل؟ نموذج DeepMind التي نشرت مؤخرا في "الطبيعة" المادة هو هذا، وتعزيز تلهم التعلم في توزيعها وفقا، درسوا الآليات الفسيولوجية للخلايا الدوبامين لدى الفئران ووجدوا أن الدماغ هو أيضا في استخدام "توزع تعزيز التعلم." مثل هذه الدراسات، وفي الوقت نفسه تعزيز تطوير علم الأعصاب، من ناحية أخرى أيضا التحقق من أبحاث الذكاء الاصطناعى على الطريق الصحيح.

التعلم والدافع من الداخل، مدفوعا المكافآت الخارجية. العديد من سلوك كل يوم على التنبؤ أو التكهن ما إذا كان فعل سيكون له إيجابية (أي فائدة) النتائج كدليل.

بافلوف في كتابه معظم التجارب الشهيرة، وتدريب الكلب بعد يدق الجرس سيكون رد فعل تتوقعه الطعام، هذه الكلاب قبل الروافد الطعام بدأ تدفق اللعاب لسماع الصوت، مشيرا إلى أن تعلموه للتنبؤ المكافأة. في التجارب الأولية، والتي تقدر بافلوف عن طريق قياس المبلغ المطلوب من اللعاب التي تنتجها لهم. ولكن في العقود الأخيرة، فقد بدأ العلماء فك الأعمال الداخلية للدماغ لمعرفة كيف يمكن لهذه التوقعات.

والأعصاب البحوث في نفس الوقت، علماء الكمبيوتر أيضا لا تزال النظم الاصطناعية لتطوير خوارزميات تعزيز التعلم، هذه الخوارزميات تجعل نظام AI معقدة لا يتطلب استراتيجية التوجيه الخارجية (ولكن تسترشد التنبؤ مكافأة) يمكنك أن تتعلم.

DeepMind نشرت مؤخرا في مجلة نيتشر مستوحاة عمل جديد من أحدث الأبحاث في علوم الكمبيوتر (تحسينات كبيرة في خوارزمية تعزيز التعلم) من قبل، بعض الميزات غير المبررة من قبل المكافأة في الدماغ لهم للتعلم يوفر عمقا وبسيطة التفسير، وبالتالي فتحت طرقا جديدة لدراسة نظام الدوبامين في الدماغ. ويمكن وصفها بأنها نموذج للبحوث الذكاء العلوم بتمويل علم الأعصاب / الدماغ الاصطناعي.

سلسلة التنبؤ: الزمان تعلم الفرق

تعزيز التعلم الذكاء الاصطناعي وعلم الأعصاب دمج الشكل الأكثر "القديم" وقوي الفكر، ظهرت مرة أخرى في أواخر 1980s. في ذلك الوقت الباحثين علوم الكمبيوتر تحاول تصميم خوارزمية لالثواب والعقاب في عملية التعلم كإشارة ردود الفعل على الجهاز، والغرض من ذلك هو السماح للآلة لأداء السلوكيات المعقدة تلقائيا. السلوك مكافأة يمكن أن تعزز سلوك الجهاز، ولكن من أجل حل مشكلة معينة يجب أن نفهم كيف أن السلوك الحالي من الجهاز لتحقيق عوائد المستقبل؛ العائد الإجمالي من أجل التنبؤ بالمستقبل هو جعل فعل، فإنه عادة ما يكون من الضروري اتخاذ العديد من المستقبل التدابير.

وقت ظهور وجدت الفرق خوارزمية (TD) على حل مشكلة كمية من اختراق التنبؤ مكافأة، يستخدم TD تقنية رياضية، بدلا من التفكير المعقد للمستقبل من خلال عملية التعلم بسيطة جدا، ولكن أيضا للحصول على نفس النتائج. ببساطة، TD خوارزمية لا تحسب أن إجمالي عوائد المستقبل تحصل، ولكن يتوقع المكافآت والحوافز المباشرة الوحيدة المتاحة إلى الخطوة التالية. ثم، عندما تحين اللحظة القادمة ظهور معلومات جديدة وتوقعات جديدة يقارن مع السلوك المتوقع. إذا كانت مختلفة، ثم خوارزمية بحساب الفرق بينهما، وتستخدم هذا "الفارق الزمني" لتوقعات القديم تعديلها لتوقعات جديدة. تعديل باستمرار بحيث التوقعات والواقع لمباراة، حتى أن سلسلة كاملة تصبح تدريجيا أكثر تنبؤ دقيقة.

حول أواخر 1980s وأوائل 1990s، علماء الأعصاب لدراسة سلوك الخلايا العصبية الدوبامين، ووجدت أن هذا التفريغ العصبية والمكافآت لديهم نوع من العلاقة، وهذه العلاقة تعتمد على المدخلات الحسية، وإذا كانت أهداف البحث ( مثل الحيوان) أصبح أكثر خبرة، ثم هذه العلاقة سوف تتغير في وظيفة واحدة.

و-1990s منتصف، مجموعة من العلماء في نفس الوقت علم الأعصاب والذكاء الاصطناعي يجيدون جدا. لاحظوا: مكافأة خطأ التنبؤ وسائل ردود الفعل أن بعض الخلايا العصبية الدوبامين، على سبيل المثال، إذا ما قورنت مع التدريب هو متوقع، عندما تصبح هذه الحيوانات الكثير أو مكافأة صغيرة جدا، وسوف أداء هذه الإشارات الدوبامين. العلماء ثم اقترح خوارزمية TD يستخدمها الدماغ، وهذا هو، معتبرا ردود الفعل الدوبامين، وتستخدم لتعليم القيادة. بعد هذا الدوبامين مكافأة نظرية خطأ التنبؤ (التوقع مكافأة نظرية الخطأ الدوبامين) التحقق في آلاف من التجارب، وأصبحت واحدة من النظرية الكمية للعلم الأعصاب الأكثر نجاحا.

توزيع التسليح التعلم

وقال إن وتيرة علماء الكمبيوتر لا تتوقف عند هذا الحد، إذ 2013 منذ بدأ عدد متزايد من الباحثين ل اهتمام عمق تعزيز التعلم، خوارزمية تعزيز التعلم المستخدمة في هذه الشبكة العصبية لمعرفة عمق التمثيل يمكن أن يكون حلول فعالة للغاية لمشاكل معقدة.

الشكل 1: احتمال تشير إلى احتمال مكافأة المستقبل التي تم الحصول عليها، كما هو مبين أعلاه، والأحمر يشير إلى نتيجة إيجابية، والأخضر يشير إلى نتيجة سلبية.

توزيع تعزيز التعلم هو واحد من الممثلين، لأنها تتيح تعزيز التعلم للعب له تأثير أكثر ممتازة. في كثير من الحالات العشوائية (وخصوصا في العالم الحقيقي)، ومستقبل يكافئ إجراءات محددة الناشئة. كما هو مبين في الشكل من "الشرير" كما هو مبين أعلاه ليس من المعروف عبر الفجوة، أو الوقوع، بحيث يظهر التوزيع الاحتمالي توقعات مكافأة الرسم التوقعات اثنين: واحد للهبوط، نيابة عن عبور ناجح. وتستخدم الطريقة التقليدية في خوارزمية TD التنبؤ متوسط قيمة المكافآت المستقبل، الذي من الواضح أنه لا يمكن الحصول على اثنين من قمم توزيع مكافأة (رفعت)، وهذه المرة توزيع تعزيز التعلم يمكن توقع كل الاحتمالات.

التشاؤم / التفاؤل الطيف التنبؤ

أسهل توزيع خوارزمية تعزيز التعلم TD القياسية أراد أن تغلق، هذه الخوارزمية يعرف أيضا باسم TD الموزعة. والفرق هو: TD تعلم خوارزمية التنبؤ معيار واحد أو التنبؤ القيمة المتوقعة، ويتم توزيع TD تعلم مجموعة مختلفة من التنبؤ، ومجموعة من التنبؤ في كل من طريقة التعلم TD القياسية. لكن العامل الرئيسي هو أن كل مؤشرا سيتم تطبيق التحولات المختلفة للخطأ التنبؤ أجرهم.

FIG 2: أ: "متشائمة" خلية تضخيم الجوائز حافز إيجابي سلبية أو ضئيلة، وخلايا إيجابية تضخيمها إلى الأمام تتجاهل حوافز سلبية أو المكافآت، ب: مكافأة التوزيع التراكمي؛ ج: مكافأة الشخصية كاملة

هو مبين أعلاه لذلك، عندما الخطأ التوقع هو مكافأة إيجابية بعض مؤشرا انتقائي "تكبير" أو خطأ "مشفرة" التنبؤ مكافأة (RPE). الجزء العلوي من تخصيص المقابل مكافأة، وهذا النهج يسمح للتنبؤ تعلم لمكافأة توقعات أكثر تفاؤلا. أيضا كما هو مبين أعلاه، وتتضخم مؤشرات اخرى خطأ التنبؤ مكافأة السلبي، وبالتالي تعلم التنبؤ أكثر تشاؤما. وباختصار، تحتوي على جوائز المتشائمة والمتفائلة مؤشرا قادرة على رسم الشخصية مكافأة الكامل.

بالإضافة إلى بسيطة وزعت تعزيز فائدة أخرى من التعلم هو، وعمق الشبكة العصبية دمج عند استخدامها، وسوف تكون قوية جدا. في السنوات الخمس الماضية، استنادا إلى عمق DQN كيل تعزيز خوارزمية التعلم الأصلي حققنا تقدما كبيرا، وغالبا ما يتم تقييمها على المؤشر مجموعة أتاري-57 أتاري 2600 مباراة.

الشكل (3): عمق تعزيز التعلم توزيع الكلاسيكية وتعزيز التعلم مقارنة، تطبيع في إشارة أتاري-57 درجة متوسط (أتاري-57-عشرات تطبيع الإنسان)

الشكل 3 يقارن وافر من خوارزميات القياسية RL RL وتوزيعها من خلال نفس التدريب وتقييم الأوضاع في نفس المرجع. وزعت تعزيز كيل التعلم الموضحة باللون الأزرق ويمكن رؤية التحسن الكبير الذي أحرز. ثلاثة من هذه الخوارزميات (QR-DQN، IQN وFQF) هو البديل من الخوارزمية TD توزيع كنا المناقشات.

لماذا وزعت خوارزمية تعزيز التعلم هي فعالة جدا؟ وإن كان هذا لا يزال موضوع البحث النشط، ولكن من المفهوم أن توزيع الجوائز سيوفر إشارة أقوى إلى الشبكة العصبية، بحيث بطريقة أكثر صرامة للتغيرات البيئية أو تغييرات على تشكيل استراتيجياتهم التمثيل.

الدوبامين توزيع كود

ونظرا لاختلاف وظيفة الوقت في زعت الشبكات العصبية الاصطناعية قوية بحيث مسألة علمية ثم يطرح نفسه: يمكن تطبيقها الفارق الزمني الموزعة إلى الدماغ تفعل؟ هذا وقد بدأ الباحثون الدافع الأولي لدفع هذه "الطبيعة" ورقة العمل.

في هذه الورقة، DeepMind بالتعاون مع جامعة هارفارد أوشيدا لاب، بتحليل سجلات خلايا الدوبامين في الفئران. هذه سجل لتسجيل القدرة على التعلم من الفئران عرضها في المهمة، المهمة، فإنها تحصل على الكثير من مكافأة غير متوقعة (صور ملونة في FIG 4 أدناه):

FIG 4: في هذه المهمة، أعطيت الفئران عشوائيا العزم، متغير المكافآت المياه الحجم وتتراوح حجم (يحدده النرد حجم المكافأة) ل20ul 0.1ul الدوبامين من الخلايا التناظرية في :( أ) الكلاسيكية نموذج TD رد فعل من 7 أحجام مختلفة مكافأة؛ (B) TD توزيع نموذج، كل صف يناظر خلايا الدوبامين النقطة، كل لون يتوافق مع حجم مكافأة مختلفة، يمثل اللون منحنى خدد الاستيفاء البيانات. "نقطة عكس" خلية (خطأ التنبؤ خلية مكافأة، وقيمة سعر صرف التقاطع في 0) والتوصل إلى خلية معينة سوف يكافأ "لحن" لمكافأة المتوقع، على سبيل المثال، منذ خلية المكافآت الحجم المطلوب، لذلك معدل التصريف بالمقارنة مع المعدل الأساسي لها لا أقل، (C) حيث لخلايا الدوبامين التنبؤ الفعلية من مختلف الأحجام رد فعل مكافأة، وهي قريبة جدا من النموذج TD الموزعة. يبين الرسم التوضيحي ثلاثة أمثلة من الخلايا لديها مقياس نسبي يختلف من الخطأ الإيجابية والسلبية التنبؤ مكافأة.

قيم الباحثون نشاط الخلايا العصبية الدوبامين لا يزال أكثر اتساقا مع "الفرق بين التوقيت الصيفي" و "فرق التوقيت الموزعة."

كما هو موضح أعلاه، والفرق وقت توزيعها يعتمد على مجموعة مختلفة من مكافأة التنبؤ. لذلك، السؤال الرئيسي للدراسة هو، إذا كان يمكنك العثور على مجموعة متنوعة من هذه التنبؤ مكافأة الحقيقي في البيانات العصبي.

في الأعمال السابقة، علم الباحثون أن خلايا الدوبامين تتغير معدل التصريف، وظهرت تشير إلى خطأ التنبؤ، وهذا هو، عند الحيوانات مما كان متوقعا للحصول على مكافأة أكثر أو أقل، وهو ما حصل توقعات خطأ. عندما خلايا اكتساب توقع بالضبط تعادل لثوابه، وخطأ التنبؤ هو صفر، بحيث أن أي تغيير في معدل التصريف لا يحدث.

فإن الباحثين قررت أن خلايا الدوبامين في كل بئر لا تغيير حجم معدل التصريف الأساس مكافأة، والذي وصفه الباحثون "نقطة تحول" الخلايا. أنها تريد أن تعرف، "نقطة تحول" بين الخلايا والخلايا المختلفة.

في الشكل 4C، والكتاب يبرهن على وجود فرق كبير بين الخلايا، وبعض الخلايا توقع مكافأة كبيرة جدا، والبعض الآخر توقع مكافأة خلية صغيرة جدا. هذه الاختلافات تتجاوز درجة الاختلاف من السجل المتوقع حدوث بعض التغير العشوائي في السهول الوسطى، انظر.

في فارق التوقيت الموزعة، هذه الاختلافات مكافآت مشتق التنبؤ إلى الأمام من خطأ التنبؤ بشكل انتقائي مكافأة أو التضخيم السلبي. سيؤدي تكبير مكافأة إيجابية خطأ التنبؤ في التنبؤ مكافأة التعلم أكثر تفاؤلا، تضخيم سلبي خطأ التنبؤ مكافأة، وسوف تجلب منافع التوقعات تشاؤما.

ولذلك، فقد قام الباحثون بقياس درجة النسبية الإيجابية القادمة من التضخيم من خلايا مختلفة تظهر الدوبامين مختلفة والتنبؤ السلبي. بين الخلايا، ووجد الباحثون موثوق بعد غير قادر على شرح تنوع الضوضاء. ووجد معظم مهم، الباحثون أن الخلية نفسها تضخم إيجابي خطأ مكافأة التنبؤ، ولكن أيضا نقطة انعكاس أعلى (4C، و الحق السفلى خريطة زاوية)، وهذا يعني أنها سوف تعديل نقطة من الواضح العكسي لمبلغ المكافأة أعلى من المتوقع.

وأخيرا، فإن النظرية تتنبأ بأن توزع فارق التوقيت، ويجب أن الفرق بين الخلايا "نقطة تحول"، مكافأة عدم تناسق توزيع مختلف من مشفرة معا للتعلم. لذا فإن السؤال الأخير هو، سواء على أساس سعر صرف خلايا الدوبامين في فك توزيع مكافأة.

الشكل 5: خلايا الدوبامين كما يبلغ عدد سكانها، علم شكل توزيع مكافأة ترميز: يمكن إعطاء مكافأة معدل التصريف توزيع الترميز، ومنطقة مظللة رمادية والمهام توزيع حافز حقيقي واجه. كل أثر الضوء الأزرق تظهر مثال على أداء عملية فك. يشير الأزرق الداكن الجزء المسار مزرق المتوسط منطقة رمادية تجاوزها.

5، ووجد الباحثون أن فقط معدل التصريف خلايا الدوبامين، فمن الممكن لإعادة مكافأة كاملة توزيع (تتبع الأزرق)، التي تخول مكافأة توزيع الفعلية (المنطقة الرمادية) قريبة جدا من المشاركة الماوس.

يعتمد هذا التفسير على معدل التصريف خلية الدوبامين إعادة تشكيل وخطأ التنبؤ مكافأة توزيع الوقت فرق نموذج التوزيع والاستدلال نماذج لتحديد توزيع نعلم بالفعل.

ملخص

وفي الختام، وجد الباحثون أن كل من الخلايا العصبية الدوبامين في الدماغ وتم نقله إلى درجة مختلفة من إيجابية أو سلبية. إذا كانت جوقة التي تغني لم ملاحظة، ولكن التجانس الغناء، فهي مثل باس أو السوبرانو المغني بما يتفق مع الحبال الصوتية الخاصة بهم.

في نظام تعزيز التعلم اصطناعية، هذا التنوع من التعديلات لإنشاء إشارة تدريب أكثر ثراء، الذي يتسارع بشكل كبير على سرعة التعلم من الشبكات العصبية، وخلص الباحثون إلى أن الدماغ هو أيضا من هذا الاعتبار بعيدا مع هذا التنوع طريقة التعديل.

الدماغ تعزيز التعلم الموزعة، القائمة لمنظمة العفو الدولية وعلم الأعصاب لها تأثير مثيرة جدا للاهتمام. أولا وقبل كل شيء، ويتم التحقق من توزيع هذه النتيجة تعزيز التعلم، دعونا أكثر قناعة: أبحاث الذكاء الاصطناعى يجري على الطريق الصحيح، لأن توزيع خوارزمية تعزيز التعلم طبقت لنا أن الكيانات الأكثر ذكاء: الدماغ.

ثانيا، فإنه يثير أسئلة جديدة لعلم الأعصاب، ويقدم منظورا جديدا لفهم الصحة النفسية والدوافع. إذا دماغ الشخص انتقائي "الاستماع" الخلايا العصبية الدوبامين متفائل أم متشائم، ماذا سيحدث؟ هذا يمكن أن يؤدي إلى الاكتئاب التسرع أو العاطفي؟ هذه القدرة القوية للتعبير عن ذلك، وزعت التعلم في نهاية المطاف هو كيف تشكلت - الكذب ميزة في الدماغ في قدرتها تمثيل قوي؟ عندما تعلم الحيوانات توزيع مكافأة، وكيفية استخدام هذا في تمثيلها المصب؟ بين خلايا الدوبامين مختلفة تعبر عن إيجابية، ماذا يهم لأشكال أخرى من التنوع في المخ يعرف حتى الآن؟ هذه لديها حتى الآن لمواصلة استكشاف.

نأمل الحصول على مزيد من الباحثين لطرح والإجابة على الأسئلة مثل، وذلك لتعزيز التقدم في علم الأعصاب، وبالتالي السماح لصالح أبحاث الذكاء الاصطناعى، وتشكيل حلقة فاضلة!

ورقة اليوم | الوجه خصوصية البيانات؛ العصبية المنطق الرمزي، عمق التعلم مثل بوت

AAAI 2020 | أتمتة: صفر المتبقية طريقة التعلم عينة على أساس البصرية المواجهة الخصائص

جوجل GAN منح براءات الاختراع، ومجموعة من شبكة التدريب على القتال في الحقيبة

AAAI 2020 | CHINA: الاهتمام تتفكك الشبكة للحصول على التعرف على النص

ورقة اليوم | افتراضية محاولة الشبكة، وأساس عدد السكان؛ الدولارات الاتحادية تعلم، الكشف عن الهدف

إعلان الحرب Deepfake

تأسست معهد بحوث الذكاء الاصطناعي الشمالية: دمج الموارد المدرسة AI، وبناء نموذج "الهندسة الجديدة"

للتعلم المستمر عبر الشبكة: خوارزميات الذكاء الاصطناعي جديدة تسمح "النسيان كارثية" لا أكثر

ورقة اليوم | الملابس وصورة الجسم ولدت محاولة الافتراضية، قوية التعلم العميق؛ نمط الهجرة الصورة

ICLR 2020 من الورق | إضافي هدف مسبق الضبابي للتخفيف من الجهل التنوع سلبية

موثوقة كبار من معظم العلماء تأثيرا في العالم قائمة AI 2000، يسلط الضوء على أبحاث الذكاء الاصطناعى عدم الصينية

AAAI 2020 | جامعة بكين: خوارزمية تعلم متعددة المراحل بإشراف ذاتي في الالتفاف على الرسم البياني