يتحدث ليو تيان عن التعلم الآلي: يتماشى الكثير من الناس مع التدفق ، ونحن بحاجة للتفكير | يتعلم ملايين الأشخاص الذكاء الاصطناعي

Ding dong ~ لقد تضررت من الرفاهية! من الآن فصاعدًا ، أصبحت 299 تذكرة لـ "2020 AI Developers Conference" مجانية! انتقل إلى صفحة التسجيل [2020 AI Developers Conference (Online Live Tickets) -IT Training Live-CSDN Academy] ، انقر على "سجل الآن" ، واستخدم رمز الخصم "AIP1410" أثناء التسوية ، وسيصبح السعر "0" يوان!

يحظى الذكاء الاصطناعي باهتمام متزايد ، والدافع الأكبر وراء هذه الموجة من الذكاء الاصطناعي هو "التعلم الآلي". ما هي أحدث التقنيات التي يحتاج ممارسو التعلم الآلي إلى إتقانها اليوم؟ بالنظر إلى المستقبل ، ما هي الاتجاهات التكنولوجية التي نتطلع إليها؟

في الآونة الأخيرة ، دعا AI Technology Base Camp و Huazhang Technology بشكل خاص الدكتور Liu Tieyan ، نائب رئيس Microsoft Research Asia ، لمشاركة فصل مفتوح عبر الإنترنت ، مما يقدم لنا أحدث نتائج الأبحاث لمعهد أبحاث Microsoft واحتمال اتجاهات التنمية المستقبلية في هذا المجال التعلم الآلي.

فيما يلي المحتوى المثير لهذا الفصل المفتوح ، الذي نظمه معسكر قاعدة تكنولوجيا الذكاء الاصطناعي.

مرحبًا بالجميع ، اسمي Tieyan Liu من Microsoft Research Asia. اليوم ، يشرفني جدًا أن أشارككم بعضًا من أحدث نتائج أبحاث Microsoft Research في مجال التعلم الآلي.

كما نعلم جميعًا ، كان التعلم الآلي شائعًا للغاية في السنوات الأخيرة ، وتم إحراز الكثير من التقدم. يلخص هذا الشكل أحدث الأعمال في مجال التعلم الآلي ، مثل ResNet ، و Capsule Network ، ونموذج Seq2Seq ، وآلية الانتباه ، و GAN ، والتعلم العميق المعزز ، والمزيد.

عززت هذه الإنجازات التطور السريع في مجال التعلم الآلي ، لكن هذا لا يعني أن مجال التعلم الآلي ناضج جدًا ، في الواقع ، لا تزال هناك تحديات تقنية كبيرة جدًا. على سبيل المثال ، تحتاج خوارزميات التعلم الآلي السائدة الحالية إلى الاعتماد على كمية كبيرة من بيانات التدريب وموارد الحوسبة من أجل تدريب نماذج التعلم الآلي بأداء أفضل. في الوقت نفسه ، على الرغم من شعبية التعلم العميق ، فإن فهمنا للتعلم العميق ، وخاصة الفهم النظري ، لا يزال محدودًا للغاية. لماذا يعتبر التعلم العميق فعالاً ، وما هو سطح وظيفة الخسارة المحسّن من خلال التعلم العميق؟ ما هو مسار التحسين لخوارزمية التحسين الكلاسيكية؟ في الآونة الأخيرة ، قام العلماء بالعديد من المحاولات المفيدة في هذا الاتجاه ، مثل مناقشة الشروط التي بموجبها يمكن أن تجد طريقة التدرج العشوائي الحل الأمثل العالمي ، أو وجود علاقة بين الحل الأمثل المحلي والحل الأمثل العالمي الذي حصل عليه طريقة نزول التدرج العشوائي. أي نوع من العلاقة.

كمثال آخر ، مؤخرًا ، بدأ العديد من العلماء في استخدام الأساليب الآلية لمساعدة التعلم الآلي ، وخاصة التعلم العميق ، لضبط المعلمات الفائقة والبحث عن بنية الشبكات العصبية. ويسمى المجال المرتبط بالتعلم التلوي. الفكرة الأساسية هي استخدام خوارزمية واحدة للتعلم الآلي لتوجيه عملية التدريب تلقائيًا لخوارزمية أخرى للتعلم الآلي. لكن يجب أن نعترف بأن التعلم التلوي لا يخرج فعليًا عن الإطار الأساسي للتعلم الآلي. السؤال الأكثر إثارة للاهتمام هو ، كيف يمكن لخوارزمية تعلم الآلة أن تساعد خوارزمية أخرى في اختراق الحدود الحالية للتعلم الآلي وتحسين التعلم الآلي؟ هذه كلها أسئلة نحتاج للإجابة عليها. إلى جانب هذه التحديات ، أجرى Microsoft Research Asia بعض الأبحاث الأكاديمية الاستكشافية خلال السنوات القليلة الماضية.

يعالج التعلم المزدوج اعتماد التعلم الآلي على البيانات ذات التسميات الضخمة

أولاً ، ننظر إلى التعلم المزدوج. يهدف التعلم المزدوج بشكل أساسي إلى حل المشكلة المتمثلة في أن أساليب التعلم العميق الحالية تعتمد كثيرًا على بيانات التدريب. هل لا يزال بإمكاننا القيام بتعلم آلي هادف عندما لا يكون لدينا بيانات تدريب مصنفة؟ في السنوات القليلة الماضية ، تم إجراء العديد من المحاولات ، مثل التعلم غير الخاضع للإشراف ، والتعلم شبه الخاضع للإشراف ، وما إلى ذلك. ولكن على أي حال ، يجب أن يكون كل شخص واضحًا في قلوبهم أن التعلم الفعال لا يمكن تحقيقه إلا من خلال الإشارات والتعليقات. إذا كنا لا نعرف أي شيء عن العالم ، فلن يمكننا التعلم بشكل فعال.

على طول هذا الخط الفكري ، نفكر: بالإضافة إلى التسميات المصطنعة ، هل هناك إشارات أخرى فعالة للتغذية الراجعة يمكن أن تشكل حلقة تعليمية مغلقة؟ وجدنا أن العديد من مهام التعلم الآلي لها بالفعل ثنائيات هيكلية ويمكن أن تشكل حلقات مغلقة طبيعية.

مثل الترجمة الآلية. من ناحية ، سنهتم بالترجمة من الإنجليزية إلى الصينية ، ومن ناحية أخرى ، يجب أن نهتم أيضًا بالترجمة من الصينية إلى الإنجليزية ، وإلا فلن يكون التواصل السلس بين مجموعتي اللغتين ممكنًا. مثال آخر هو معالجة الكلام. عندما نهتم بالتعرف على الكلام ، يجب أن نهتم أيضًا بتركيب الكلام ، وإلا فلن تكون هناك طريقة لتحقيق حوار حقيقي ثنائي الاتجاه بين البشر والآلات. هناك أيضًا فهم للصور ومحركات حوار ومحركات بحث وما إلى ذلك ، في الواقع ، تحتوي جميعها على زوج من المهام بهيكل مزدوج.

كيف نحدد الازدواجية البنيوية للذكاء الاصطناعي بشكل أكثر دقة؟ نقول: إذا كان إدخال المهمة الأولى هو ناتج المهمة الثانية ، وكان ناتج المهمة الأولى هو إدخال المهمة الثانية ، فهناك نوع من البنية بين المهمتين "الازدواجية ". سيشكل تجميعهم معًا حلقة تعليمية مغلقة ، وهي الفكرة الأساسية لـ "التعلم المزدوج".

مع وضع هذه الفكرة في الاعتبار ، يمكننا وضع المهمتين المزدوجتين معًا للتعلم ، وتقديم إشارات ردود فعل فعالة. بهذه الطريقة ، حتى لو لم يكن هناك العديد من العينات ذات العلامات ، فلا يزال بإمكاننا استخراج إشارات فعالة للتعلم.

هناك تفسير رياضي صارم وراء التعلم المزدوج. عندما تكون مهمتان مزدوجتان مع بعضهما البعض ، يمكننا إنشاء العلاقة الاحتمالية التالية:

هنا X و Y يتوافقان مع مساحة الإدخال ومساحة الإخراج لمهمة معينة ، على التوالي.هناك طريقتان للتحليل عند حساب التوزيع الاحتمالي المشترك لـ X و Y ، والتي يمكن أن تتحلل إلى P (x) P (y | x ؛ و) ، أو يمكن أن تتحلل إلى P (y) P (x | y ؛ g). هنا ، P (y | x ؛ f) يتوافق مع نموذج التعلم الآلي. عندما نعرف الإدخال x ، يمكن توقع احتمال الناتج y من خلال هذا النموذج. نسمي هذا النموذج نموذج التعلم الآلي للمهمة الرئيسية ، P (x | y؛ g) هو العكس ، يطلق عليه نموذج التعلم الآلي للمهام المزدوجة.

من خلال هذا الاتصال الرياضي ، يمكننا القيام بكل من التعلم الفعال غير الخاضع للإشراف والتعلم والاستدلال الخاضعين للإشراف بشكل أفضل. على سبيل المثال ، يمكننا استخدام هذا الاتصال لتحديد مصطلح عادي ، مما يجعل التعلم الخاضع للإشراف يتمتع بقدرة تعميم أفضل. على سبيل المثال ، وفقًا لـ P (x) P (y | x ؛ f) ، يمكننا الحصول على نتيجة مستنبطة ، وبالمقابل ، باستخدام صيغة Bayesian ، يمكننا أيضًا الحصول على الاستدلال بواسطة النموذج العكسي g ، والجمع بين استنتاجين ، يمكننا الحصول على نتائج أكثر دقة. طبقنا تقنية التعلم المزدوج المذكورة أعلاه على الترجمة الآلية ، وحققنا نتائج جيدة للغاية ، متجاوزين مستوى البشر العاديين في مهمة ترجمة الأخبار الصينية-الإنجليزية.

حل مسألة اعتماد التعلم الآلي على كميات كبيرة من العمليات الحسابية

تعلم الآلة خفيف الوزن

كانت هناك بعض المشاعر السيئة في مجال التعلم الآلي مؤخرًا. ستستخدم بعض الأوراق الكثير من موارد الحوسبة ، مثل مئات بطاقات GPU أو حتى المزيد من موارد الحوسبة التي سيتم استخدامها في كل منعطف. يصعب إعادة إنتاج مثل هذه النتائج ، وهي تؤدي إلى حد ما إلى احتكار البحث الأكاديمي وتأثير ماثيو.

لذلك قد يطرح الناس السؤال التالي: هل يتعين على التعلم الآلي استخدام الكثير من موارد الحوسبة؟ هل يمكننا تدريب نماذج تعلُّم آلي ذات مغزى بأوامر من موارد حوسبة أقل؟ هذا هو هدف البحث للتعلم الآلي الخفيف.

على مدى السنوات القليلة الماضية ، صنعت مجموعة البحث الخاصة بنا العديد من نماذج التعلم الآلي خفيفة الوزن للغاية والمثيرة للاهتمام. على سبيل المثال ، نموذج lightLDA المنشور في 2015 هو نموذج موضوع فعال للغاية. قبل ذلك ، ما هي موارد الحوسبة التي كانت تُستخدم عمومًا لنماذج الموضوعات واسعة النطاق في العالم؟ على سبيل المثال ، يستخدم LDA من Google عشرات الآلاف من نوى وحدة المعالجة المركزية للحصول على 100000 موضوع من خلال عشرات الساعات من التدريب. من أجل تقليل الطلب على موارد الحوسبة ، قمنا بتصميم خوارزمية جديدة لأخذ العينات بناءً على التحليل المضاعف لتقليل متوسط تعقيد أخذ العينات لكل رمز مميز إلى O (1) ، مما يعني أن تعقيد أخذ العينات لا يتغير مع عدد الموضوعات. متنوع. لذلك ، حتى لو استخدمنا نموذج الموضوع هذا لإجراء تحليل موضوعي واسع النطاق للغاية ، فإن تعقيده الحسابي منخفض جدًا. على سبيل المثال ، نحن نستخدم فقط أكثر من 300 مركز معالج ، أي حوالي 8 آلات رئيسية ، لتحقيق تحليل موضوعي لأكثر من مليون موضوع.

يخبرك هذا المثال أنه في بعض الأحيان لا نحتاج إلى استخدام القوة الغاشمة لحل المشكلات. إذا تمكنا من تحليل الآلية الكامنة وراء هذه الخوارزميات بعناية وإجراء ابتكارات في الخوارزميات ، فيمكننا توفير العديد من الموارد الضخمة في موارد الحوسبة. نموذج.

لقد طبقنا نفس الفكرة على الشبكات العصبية ، وخوارزمية LightRNN المنشورة في عام 2016 هي التطبيق الأكثر كفاءة للشبكات العصبية المتكررة حتى الآن. عندما نستخدم LigthtRNN كنموذج لغة واسع النطاق ، يكون النموذج الناتج أصغر بعدة مرات من نماذج RNN التقليدية. على سبيل المثال ، عندما يكون حجم النموذج التقليدي 100 جيجابايت ، فإن نموذج LightRNN يكون 50 ميجابايت فقط ، ويتم تقصير وقت التدريب بشكل كبير. ليس ذلك فحسب ، بل إن الارتباك في نموذج LightRNN أفضل من نموذج RNN التقليدي.

قد يكون لدى بعض الطلاب أسئلة: كيف يمكن أن تكون صغيرة وجيدة؟ في الواقع ، يأتي هذا من تصميمنا المبتكر في خوارزمية نموذج لغة الشبكة العصبية المتكررة. قمنا بتغيير تعبير المفردات من بعد واحد إلى ثنائي الأبعاد ، وسمحنا بمشاركة جزء معين من التضمين بين كلمات مختلفة. بالنسبة للأجزاء التي تتم مشاركتها وأيها لا تتم مشاركتها ، فإننا نستخدم خوارزمية مطابقة للرسم البياني ثنائي الأجزاء لتحديدها.

تسمى الخوارزمية الثالثة للتعلم الآلي خفيفة الوزن LightGBM ، وهذه الأداة هي إلى حد بعيد التطبيق الأكثر كفاءة لخوارزمية GBDT. يوجد خلف LightGBM ورقتان من NIPS ، والتي تحتوي أيضًا على العديد من الابتكارات التكنولوجية ، مثل أخذ العينات من جانب واحد على أساس التدرج ، والذي يمكن أن يقلل بشكل فعال من الاعتماد على العينات ؛ تجميع الميزات الحصرية ، والتي يمكن أن تجمع بين بعض الميزات المختلفة عند وجود العديد من الميزات. يتم لصق الميزات في أقلية كثيفة نسبيًا من الميزات ، مما يجعل الرسوم البيانية لميزات البناء فعالة للغاية. في الوقت نفسه ، نقترح أيضًا آلية موازنة قائمة على التصويت ، والتي يمكن أن تحقق تسريعًا جيدًا للغاية. تتحد كل هذه الحيل لتجعل LightGBM عالية الكفاءة والدقة العالية.

التعلم الآلي الموزع

على الرغم من أننا قمنا بالكثير من خوارزميات التعلم الآلي خفيفة الوزن ، عندما تكون بيانات التدريب ونماذج التعلم الآلي كبيرة جدًا ، فقد لا يتم حل المشكلة بالكامل. في هذا الوقت ، نحتاج إلى دراسة كيفية استخدام المزيد من عقد الحوسبة لتحقيق الآلات الموزعة دراسة.

لقد نشرنا للتو كتابًا جديدًا - التعلم الآلي الموزع: الخوارزميات والنظرية والممارسة ، ملخص جيد جدًا للتعلم الآلي الموزع ، ووصفًا تفصيليًا للعديد من نتائج أبحاثنا في هذا الكتاب. أدناه ، أختار عددًا قليلاً منهم وأشاركهم معك.

مفتاح التعلم الآلي الموزع هو كيفية تقسيم البيانات الضخمة أو النماذج الكبيرة لمعالجتها وإجراء تدريب موازٍ على أجهزة متعددة. بمجرد وضع هذه البيانات والنماذج في عدة عقد حوسبة ، يتم تضمين مشكلتين أساسيتين: أولاً ، كيفية تنفيذ الاتصال والمزامنة بين الأجهزة المختلفة حتى يتمكنوا من التعاون لتدريب نماذج التعلم الآلي. ثانيًا ، بعد أن تتمكن كل عقدة حاسوبية من تدريب نموذج محلي ، وكيفية تجميع هذه النماذج المحلية لتشكيل نموذجًا موحدًا للتعلم الآلي.

تجزئة البيانات

يبدو تجزئة البيانات أمرًا بسيطًا ، ولكن هناك بالفعل العديد من الطرق. على سبيل المثال ، الطريقة الشائعة هي تقسيم البيانات بشكل عشوائي. على سبيل المثال ، لدينا الكثير من بيانات التدريب ، والتي يتم تقسيمها عشوائيًا إلى أجزاء N ، ويتم وضع أحدها على عقدة عامل محلي للتدريب. هل هناك أي ضمان نظري لهذا التقسيم؟

نحن نعلم أن التعلم الآلي له افتراض أساسي ، أي أن البيانات في عملية التعلم يتم أخذ عينات منها بشكل مستقل وموزعة بشكل مماثل ، لذلك هناك ضمان نظري. لكن تجزئة البيانات المذكورة أعلاه ليست في الواقع عينات بيانات عشوائية. بمعنى ما ، أخذ عينات IID هو أخذ العينات مع الاستبدال ، بينما يتوافق تجزئة البيانات مع أخذ العينات دون استبدال. السؤال النظري المثير للاهتمام للغاية هو ، عندما نقوم بتجزئة البيانات ، هل يمكننا الحصول على ضمان نظري معين لعملية التعلم مثل أخذ العينات مع الاستبدال؟ لم يتم الرد على هذا السؤال بشكل كامل من قبل المجتمع الأكاديمي حتى تم نشر دراستنا.

لقد أثبتنا أنه إذا قمت بترتيب البيانات على مستوى العالم أولاً ، ثم قمت بتجزئة البيانات ، فإن معدل التقارب لأخذ العينات العشوائية مع الاستبدال هو نفسه بشكل أساسي. ولكن إذا تمكنا من إجراء خلط البيانات المحلية فقط ، فستكون هناك فجوة في معدل التقارب بين الاثنين. لذلك إذا كان بإمكاننا إجراء خلط البيانات المحلية فقط ، فلا يمكننا تدريب الكثير من العصور ، وإلا فسوف تنحرف كثيرًا عن التوزيع الأصلي ، مما يجعل تأثير التعلم النهائي غير جيد.

الاتصال غير المتزامن

بعد الحديث عن تقسيم البيانات ، دعنا نتحدث عن الاتصال بين كل عقدة عاملة. كما نعلم جميعًا ، هناك العديد من الأطر الموزعة الشائعة ، مثل MapReduce ، التي يمكنها تحقيق الحوسبة المتزامنة بين العقد العاملة المختلفة. ومع ذلك ، في عملية التعلم الآلي ، إذا كانت هناك حاجة للاتصال المتزامن بين الأجهزة المختلفة ، فسيكون هناك عنق زجاجة: بعض الآلات تتدرب بشكل أسرع ، وبعض الآلات تتدرب بشكل أبطأ ، وسيتم حظر الكتلة بأكملها بواسطة أبطأ آلة في الكتلة. اسحب لأسفل. لأن الأجهزة الأخرى يجب أن تتزامن معها قبل أن تتمكن من متابعة التدريب.

لتحقيق التعلم الآلي الموزع الفعال ، هناك تركيز متزايد على الاتصال غير المتزامن لتجنب انهيار المجموعة بأكملها بواسطة أبطأ آلة. في عملية الاتصال غير المتزامن ، بعد أن تكمل كل آلة التدريب المحلي ، فإنها تدفع النموذج المحلي أو التدرج المحلي أو تحديث النموذج إلى النموذج العالمي ، وتستمر في عملية التدريب المحلية دون انتظار الآلات الأخرى.

لكن كان لدى الناس دائمًا مخاوف طويلة بشأن الاتصال غير المتزامن. لأنه عند إجراء اتصال غير متزامن ، تعمل بعض الأجهزة بشكل أسرع ، وتعمل بعض الأجهزة بشكل أبطأ. وعندما تقوم الآلة ذات التشغيل الأسرع بتركيب تدرجها المحلي أو تحديث النموذج على النموذج العام ، يتم تحديث إصدار النموذج العام. ، وتحولت إلى نموذج جيد . ومع ذلك ، بعد فترة من الوقت ، ستقوم الآلة ذات التشغيل الأبطأ بتحديث التدرج أو النموذج القديم وتثبيته على النموذج العالمي ، مما سيؤدي إلى تدمير النموذج الأصلي الذي كان يعمل بشكل أفضل. يسمي الناس هذه المشكلة "التحديثات المؤجلة". ومع ذلك ، قبل دراستنا ، لم يكن أحد قد وصف كميًا تأثير هذا التأخير.

في العام الماضي ، نشرنا في ICML بحثًا باستخدام توسعة تايلور للتوصيف الكمي للفجوة بين نزول التدرج العشوائي القياسي ونسب التسلسل العشوائي المتوازي غير المتزامن ، ويرجع ذلك أساسًا إلى التحديثات المتأخرة. إذا استخدمنا SGD غير المتزامن ببساطة وبقسوة ولم نتعامل مع التحديثات المتأخرة ، فنحن في الواقع نستخدم مصطلح الترتيب الصفري في توسعة تايلور كتقريب حقيقي. نظرًا لأن الفجوة بينهما تكمن في عدم وجود شروط عالية المستوى ، إذا كانت لدينا القدرة على تعويض هذه الشروط ذات الترتيب الأعلى من خلال بعض الخوارزميات ، فيمكننا تجديد تدرجات التأخير التي لا معنى لها. هذا هو هبوط التدرج العشوائي المقترح مع تعويض الكمون.

يبدو هذا الشيء بسيطًا ، لكنه صعب جدًا في الممارسة. لأن المصطلح الأول في توسعة تايلور لوظيفة التدرج يتوافق في الواقع مع مصطلح الدرجة الثانية لوظيفة الخسارة الأصلية ، وهو ما يسمى بمصفوفة هيسيان. عندما يكون النموذج كبيرًا ، ستكون الذاكرة والحساب المطلوبان لحساب مصفوفة Hessian كبيرًا جدًا ، مما يجعل هذه الخوارزمية غير عملية. في ورقتنا ، تم تقديم تقريب فعال للغاية لمصفوفة هس. لا نحتاج حقًا إلى حساب مصفوفة Hessian عالية الأبعاد وتخزينها ، ويمكننا تحقيق تقريب دقيق إلى حد ما لمصفوفة خيار البحر بتكاليف حسابية وتخزينية صغيرة نسبيًا. على هذا الأساس ، يمكننا استخدام توسع تايلور للتعويض عن تدرج التأخير الأصلي. نظهر أن معدل التقارب لنسب التدرج العشوائي غير المتزامن مع تعويض التأخير أفضل بكثير من معدل نزول التدرج العشوائي غير المتزامن العادي ، كما تُظهر التجارب المختلفة أن تأثيره يلبي توقعاتنا.

تجميع النموذج

بالإضافة إلى الاتصال غير المتزامن ، بعد أن تحسب كل عقدة محلية نموذجًا محليًا ، فإن كيفية تجميعها تعد أيضًا مشكلة تستحق التفكير فيها. الطريقة الأكثر شيوعًا في الصناعة هي ببساطة متوسط معلمات كل نموذج محلي مختلف. ومع ذلك ، من الناحية النظرية ، فإن متوسط المعلمة معقول فقط في المشكلات المحدبة. إذا كان لديك بعض الفهم لخصائص الوظائف المحدبة ، فأنت تعلم أنه إذا كان النموذج محدبًا ، فلن يكون أداء النموذج الذي تم الحصول عليه من خلال حساب متوسط معلمات النموذج المحدب أسوأ من متوسط أداء كل نموذج.

ولكن عندما نتعامل مع نماذج غير محدبة بشدة مثل الشبكات العصبية العميقة بهذه الطريقة ، لم يعد هناك أي ضمان نظري. أشرنا إلى عدم وجود هذه النظرية في هذه الأوراق عام 2017 ، وأشارنا إلى أنه لا ينبغي عمل متوسط معلمات النموذج ، بل متوسط مخرجات النموذج ، وذلك للحصول على ضمان الأداء ، لأنه بالرغم من نموذج الشبكة العصبية غير محدب ، لكن وظائف الخسارة شائعة الاستخدام هي نفسها محدبة.

لكن حساب متوسط ناتج النموذج يعادل القيام بمجموعة من النماذج ، مما يجعل حجم النموذج أكبر عدة مرات. مع استمرار التعلم الآلي في التكرار ، يمكن أن تؤدي مجموعة النماذج هذه إلى انفجارات بحجم النموذج. من أجل الحفاظ على فوائد التحدب دون التعرض للانفجار في حجم النموذج ، لا نحتاج فقط إلى تكامل النموذج ، ولكن أيضًا ضغط النموذج الفعال طوال عملية التعلم الآلي.

هذه هي حلقة ضغط المجموعة النموذجية المقترحة. مع مجموعة النموذج ، نحافظ على فوائد التحدب ، ومع ضغط النموذج ، نتجنب انفجار حجم النموذج ، لذلك ننتهي بحل وسط جيد جدًا.

استكشاف نظرية التعلم العميق

بعد ذلك نتحدث عن كيفية استكشاف الحدود النظرية للتعلم العميق. نعلم جميعًا أن التعلم العميق فعال للغاية ، فأي وظيفة مستمرة يمكن تقريبها جيدًا عن طريق شبكة عصبية عميقة معقدة بدرجة كافية. لكن هذا لا يعني أن الآلات يمكنها بالفعل تعلم نماذج جيدة. لأنه عندما تكون واجهة الوظيفة الموضوعية معقدة للغاية ، فقد نقع في فخ الحدود الدنيا المحلية ولا نحصل على أفضل نموذج نريده. عندما يكون النموذج معقدًا للغاية ، فإنه يكون أيضًا عرضة للإفراط في التجهيز ، والذي قد يكون جيدًا في عملية التحسين ، ولكن عند تطبيق النموذج الذي تم تعلمه على بيانات اختبار غير معروفة ، فقد لا يكون التأثير جيدًا جدًا. لذلك ، من الضروري إجراء بحث متعمق حول عملية تحسين التعلم العميق.

ز- الفضاء

في هذا الاتجاه ، قمنا هذا العام بعمل مثير للاهتمام يسمى g-Space Deep Learning.

الهدف من هذا العمل هو فئة كبيرة من الشبكات العصبية العميقة المستخدمة بشكل شائع في مهام معالجة الصور ، وظيفة التنشيط لهذه الشبكات هي وظيفة ReLU. ReLU هي دالة خطية متعددة التعريف تأخذ القيمة 0 على المحور النصف السالب ودالة خطية على المحور النصف الموجب. الميزة المعروفة لشبكات ReLU هي ثبات النطاق الإيجابي ، لكن فهمنا لتأثير هذه الميزة على تحسين الشبكة العصبية محدود للغاية.

إذن ما هو مقياس الثبات الموجب؟ لنأخذ مثالا. هذا جزء من الشبكة العصبية ، بافتراض أن وظيفة التنشيط للعقد المخفية الوسيطة هي وظيفة ReLU. عندما نقوم بضرب الأوزان على طرفي المدخلات من هذه العصبون في ثابت c ، ونقسم الأوزان على حواف المخرجات بنفس الثابت c ، نحصل على شبكة عصبية جديدة ، لأن معلماتها حدثت متنوعة. لكن إذا نظرنا إلى الشبكة العصبية بأكملها كصندوق أسود كامل ، فليس هناك تغيير في هذه الوظيفة ، أي بغض النظر عن نوع المدخلات ، يبقى المخرج كما هو. هذا هو مقياس ثوابت موجبة.

هذا الثبات في الواقع مزعج للغاية ، فعندما تكون وظيفة التنشيط هي وظيفة ReLu ، فإن العديد من الشبكات العصبية ذات المعلمات المختلفة تمامًا تتوافق في الواقع مع نفس الوظيفة. يوضح هذا أنه عندما نعبر عن الشبكة العصبية بالمعلمات الأصلية للشبكة العصبية ، فإن مساحة المعلمة هي مساحة زائدة للغاية ، لأن المعلمات المختلفة قد تتوافق مع نفس الشبكة. لا يمكن لهذه المساحة الزائدة عن الحاجة أن تعبر بدقة عن الشبكة العصبية. في الوقت نفسه ، قد يكون هناك العديد من النقاط القصوى الخاطئة في مثل هذه المساحة الزائدة ، والتي تنشأ عن التكرار المكاني وليست النقاط القصوى الحقيقية للمشكلة الأصلية. ترتبط العديد من ظواهر تقليل التدرج وانفجار التدرج التي نواجهها عادةً في عملية تحسين الشبكة العصبية بالتعبيرات الزائدة عن الحاجة.

نظرًا لأن التكرار في مساحة المعلمة له عيوب كثيرة ، فهل يمكننا حل هذه المشكلة؟ إذا لم نفعل نزولًا متدرجًا في مساحة المعلمة ، لكننا قمنا بالتحسين في مساحة تعبير أكثر إحكاما ، فهل يمكننا حل هذه المشكلات؟ هذه الرغبة تبدو رائعة ، لكنها في الواقع صعبة للغاية. نظرًا لأن الشبكة العصبية العميقة هي وظيفة معقدة للغاية ، فهي تتطلب أساسًا رياضيًا قويًا للغاية وقدرة تعبير هندسي للتعبير عنها بدقة وبشكل مضغوط. لقد قام الباحثون في مجموعتنا بالكثير من العمل الشاق ، واستغرق الأمر أكثر من عام لعمل وصف كامل لهذه المساحة المدمجة ، والتي نسميها g-Space.

يتكون g-Space بالفعل من مجموعة من المسارات المستقلة خطيًا في الشبكة العصبية. ما يسمى بالمسار هو مسار غير عائد من المدخلات إلى المخرجات ، أي مجموعة الاتصال لبعض الحواف. يمكننا إثبات أنه إذا تم تشكيل هذه المسارات في الشبكة العصبية في فراغ ، فإن التعبير المكون من القواعد في هذا الفضاء هو في الواقع تعبير مضغوط عن الشبكة العصبية.

بمجرد أن نحصل على g-Space ، يمكننا حساب التدرجات فيه ، ويمكننا أيضًا حساب المسافات في g-Space. من خلال هذه المسافة ، يمكننا أيضًا تحديد بعض المصطلحات العادية في g-Space لمنع الشبكة العصبية من التخصيص.

يوضح ورقتنا أن التعقيد الحسابي للقيام بالنزول المتدرج في المساحة المدمجة الجديدة ليس مرتفعًا ، تقريبًا مثل إجراء عملية BP نموذجية في مساحة المعلمة. بعبارة أخرى ، قمنا بتصميم خوارزمية بارعة لم يزداد تعقيدها ، ولكنها تجنبنا العديد من المشكلات في مساحة المعلمة الأصلية ، وحصلنا على تمثيل مضغوط لشبكة ReLU ، وقمنا بحساب التدرج الصحيح لتحقيق المزيد من تحسين النموذج الجيد.

من خلال هذه الأشياء ، شكلنا إطارًا جديدًا لتحسين التعلم العميق. هذه الطريقة عامة جدًا ، فهي لا تغير الوظيفة الموضوعية أو هيكل الشبكة العصبية ، إنها فقط تغير مجموعة من طرق التحسين ، والتي تعادل فقط تغيير الطبقة السفلية في مجموعة أدوات التعلم الآلي بأكملها. النموذج القادم.

حدود التعلم التلوي

اتجاه البحث الرابع مثير للاهتمام أيضًا ، نحن نطلق عليه "تعلم التدريس" ، لم أكن أتوقع ترجمة جيدة بشكل خاص باللغة الصينية ، تسمى الآن "التدريس والتعلم".

يعتمد اتجاه البحث الخاص بنا `` تعلم التدريس '' على التفكير في قيود أطر التعلم الآلي الحالية. على الرغم من أن هذه الصيغة تبدو بسيطة ، إلا أنها يمكن أن تصف فئة كبيرة أو معظم مشاكل التعلم الآلي. ماذا تعني هذه الصيغة؟ الأول (س ، ص) هو عينة التدريب ، والتي يتم أخذ عينات من مجموعة بيانات التدريب د. f () هو النموذج ، على سبيل المثال قد يمثل شبكة عصبية. نطبق f () على عينة الإدخال x ، ونحصل على تنبؤ لعينة الإدخال. بعد ذلك ، يمكننا تحديد دالة الخسارة L من خلال مقارنة النتيجة المتوقعة مع تسمية الحقيقة الأساسية y.

معظم التعلم الآلي في الوقت الحاضر هو لتقليل وظيفة الخسارة في مساحة النموذج. إذن ، هناك ثلاث كميات في هذه الصيغة ، وهي بيانات التدريب D ، ودالة الخسارة L ، ومساحة النموذج . هذه الكميات الثلاث كلها معلمات فائقة ، وهي مصممة بشكل مصطنع وثابتة. تتمثل معظم عملية التعلم الآلي في التحسين في ظل هذه الظروف الثلاثة المعينة للعثور على الأفضل ، حتى نتمكن من تقليل وظيفة الخسارة المحددة بشكل مصطنع في مجموعة بيانات التدريب. حتى ما وراء التعلم أو التعلم 2learn المقترحة في السنوات الأخيرة لم يقفز من هذا الإطار. نظرًا لأن إطار عمل التعلم الآلي نفسه لم ينص أبدًا على أن عملية التصغير يمكن فقط استخدام طريقة النسب المتدرج ، يمكنك استخدام أي طريقة ، ولن تتجاوز الإطار الذي تعبر عنه هذه الصيغة.

ولكن لماذا يجب تحديد مجموعة بيانات التدريب D ووظيفة الخسارة L ومساحة معلمة النموذج بشكل مصطنع؟ كيف سيبدو الأمر إذا لم يتم تنفيذ المعطيات ، ولكن تم تعديلها ديناميكيًا أثناء عملية التعلم الآلي؟ وهذا ما يسمى تعلم التدريس. نأمل أن نعدل تلقائيًا مجموعة بيانات التدريب D ، ووظيفة الخسارة L ، ومساحة معلمة النموذج من خلال الوسائل الآلية ، من أجل توسيع حدود التعلم الآلي الحالي ومساعدتنا في تدريب نماذج أكثر قوة للتعلم الآلي.

لتحقيق ذلك ليس بالأمر السهل ، نحتاج إلى استخدام أفكار ووجهات نظر جديدة. لقد نشرنا ثلاث مقالات على التوالي هذا العام ، وأجرينا بحثًا منهجيًا للغاية حول الطريقة التلقائية لتحديد بيانات التدريب ، ومساحة الوظيفة ووظيفة الخسارة.

اسمحوا لي أن أقدم لكم وصفًا مرئيًا لبحثنا. على سبيل المثال ، كيف يمكننا استخدام طريقة آلية لتحديد البيانات الصحيحة؟ إنه أمر سهل حقًا. بالإضافة إلى نموذج التعلم الآلي الأصلي ، لدينا أيضًا نموذج المعلم. سيأخذ هذا النموذج عملية التعلم الآلي الأصلية ، والمرحلة ، والتأثير كمدخلات ، وإخراج اختيار بيانات التدريب للمرحلة التالية. يقوم نموذج المعلم هذا باختيار بيانات التدريب الأكثر ملاءمة بشكل ديناميكي بناءً على تقدم نموذج التعلم الآلي الأصلي لتحقيق أقصى قدر من الأداء. في الوقت نفسه ، سيستخدم نموذج المعلم أيضًا تأثير التعلم الآلي على مجموعة التحقق من الصحة مثل التعليقات والتعلم الذاتي والتحسين الذاتي.

وبالمثل ، يوجد أيضًا نموذج مدرس في حلقة التدريس النموذجي ، والذي سيحدد مساحة الوظيفة المناسبة وفقًا لمرحلة عملية التعلم الآلي الأصلية وتأثير التدريب ، بحيث يمكن للتعلم الآلي الأصلي توسيع نطاق البحث الخاص به. هذه العملية هي أيضًا قابلة للتكيف وديناميكية. نموذج التعلم الآلي الأصلي الذي نسميه نموذج الطالب ، والتفاعل بين نموذج المعلم ، نموذج التدريس الذي قدمناه ، يمكن أن يدفع عملية التعلم إلى مستوى جديد.

وبالمثل ، يمكن لنموذج المعلم أيضًا تعديل الهدف ديناميكيًا ليتم تحسينه بواسطة نموذج الطالب الأصلي. على سبيل المثال ، يمكن أن تتراوح أهداف التعلم لدينا من السهل إلى الصعب.في البداية ، سيسمح لنا هدف التعلم البسيط بتعلم شيء ما بسرعة ، ولكن قد يكون هدف التعلم هذا بعيدًا عن معايير التقييم لمشكلتنا النهائية. نستمر في الاقتراب من الهدف البسيط والسلس للوظيفة المتقطعة المعقدة لتقييم المشكلة ، والتي ستوجه نموذج الطالب لتحسين قدرته باستمرار ، وفي النهاية تحقيق تأثير تعليمي جيد.

باختصار ، عندما يكون لدينا نموذج المعلم ، الذي يمكنه تصميم مجموعة بيانات التدريب ديناميكيًا ، وتغيير مساحة النموذج ، وضبط الوظيفة الموضوعية ، فإنه سيجعل تدريب "نموذج الطالب" الأصلي أوسع وأكثر فاعلية ، سيتم تكبير الحدود. نقدم نتائج تجريبية على العديد من مجموعات البيانات المختلفة في ثلاث ورقات.

أنا شخصياً أعتقد أن تعلم التدريس ينطوي على إمكانات كبيرة وهو يدفع بحدود التعلم الآلي التقليدي. أوراقنا الثلاث هي فقط لإعطاء لمحة وإخبار الجميع أنه يمكن القيام بذلك ، ولكن لا يزال هناك طريق طويل لنقطعه.

لقد شاركت معك حتى الآن بعض نتائج الأبحاث التي أجرتها شركة Microsoft Research Asia في مجال التعلم الآلي في العامين الماضيين. إنها مجرد مجموعة فرعية صغيرة من نتائج أبحاثنا ، لكنني أعتقد أن هذه القليل منها. الاتجاه هو مثيرة جدًا للاهتمام ، وآمل أن تلهم الجميع لإجراء المزيد من الأبحاث المفيدة.

يتطلع إلى المستقبل

المؤتمرات في مجال التعلم الآلي تزداد تضخمًا هذه الأيام ، وهو أمر غير منطقي إلى حد ما. مع وجود الكثير من الأوراق كل عام ، لا أعرف حتى أيها أقرأ. عندما يكتب الناس أوراقًا ويجرون أبحاثًا ، فإنهم في بعض الأحيان لا يعرفون أين يركزون. على سبيل المثال ، إذا كانت الأوساط الأكاديمية بأكملها تقوم بمهمة "Learn2learn" ، فهل يجب أن أقوم بعمل ورقة "Learn2learn"؟ كل شخص يقوم ببحث معماري عصبي بطريقة آلية ، هل يجب أن أقوم بعمل بحث واحد أيضًا؟ الآن هناك الكثير من هذا النوع من العقلية للذهاب مع التيار ونسخ ما يقوله الآخرون.

في الواقع ، يجب أن نفكر: هل تغطي النقاط الساخنة التي ينتبه لها الجميع الآن جميع القضايا التي تستحق البحث؟ ما هي الاتجاهات الهامة التي يتم تجاهلها بالفعل؟ اسمحوا لي أن أقدم مثالاً ، مثل التعلم الآلي الخفيف ، مثل تعلم التدريس ، مثل بعض الاستكشافات النظرية للتعلم العميق ، هذه الجوانب ليست متضمنة في مجال البحث الساخن اليوم ، ولكن هذه الاتجاهات مهمة جدًا في الواقع. فقط من خلال فهم عميق جدًا لهذه الاتجاهات يمكننا حقًا دفع حدود التعلم الآلي. آمل أن يتمكن الجميع من التركيز على تلك الاتجاهات البحثية التي تعتقد أنها مهمة ، حتى لو لم تكن الاتجاه السائد للاهتمام الأكاديمي في الوقت الحالي.

بعد ذلك ، سنضع بعض الاحتمالات للتطور المستقبلي للتعلم الآلي. قد تكون هذه الاحتمالات غير واقعية ، لكنها تحتوي على بعض التفكير الفلسفي الهادف ، على أمل إلهام الجميع.

الاحصاء الكمية

يتعلق الجانب الأول بالعلاقة بين التعلم الآلي والحوسبة الكمومية. الحوسبة الكمومية هي أيضًا نقطة ساخنة جدًا للبحث ، ولكن عندما يواجه التعلم الآلي الحوسبة الكمية ، ما نوع الشرر الذي سينتج؟ في الواقع ، هذا سؤال جدير بالاهتمام بالنسبة لنا للتفكير فيه.

أحد الاهتمامات الأكاديمية الحالية هو كيفية استخدام القوة الحاسوبية للحوسبة الكمومية لتسريع عملية تحسين التعلم الآلي ، وهو ما يسمى بالتسريع الكمي. لكن هل هذه هي القصة كلها؟ يجب على الجميع التفكير في الأمر ، بصفته باحثًا في مجال التعلم الآلي ، هل من الممكن لنا أن نساعد الحوسبة الكمومية؟ أو ما هي الشرارات الجديدة التي ستظهر عندما يتقدم التعلم الآلي والحوسبة الكمومية بشكل منفصل ويلتقيان معًا؟

في الواقع ، هناك بعض القضايا الأساسية المهمة جدًا في الحوسبة الكمومية ، على سبيل المثال ، علينا تقييم أو توقع الحالة الكمية (الحالة الكمية) ، ومن ثم يمكننا إخراج نتائج الحوسبة الكمومية. تم إثبات هذه العملية في النظرية التقليدية ، وفي أسوأ الحالات نحتاج إلى أخذ عينات أسية لعمل تقدير جيد للحالة الكمية. لكن هذا الأمر سيكون له تأثير سلبي ، فعلى الرغم من أن الحوسبة الكمومية سريعة جدًا ، إلا أنه إذا استغرق الأمر وقتًا طويلاً لأخذ عينات من الحالة الكمية ، فإنها ستسحب تأثير التسارع الأصلي ، وفي النهاية لن تحقق أي تسارع.

نحن نعلم أن العديد من المشكلات المعقدة للغاية في أسوأ الحالات ، مثل مشكلات NP Complete ، يمكن حلها من خلال طرق التعلم الآلي ، والتي يمكن أن تحقق بالفعل نتائج جيدة جدًا بالمعنى المتوسط. عملنا الذي فاز بأفضل ورقة في ACML هذا العام هو حل مشكلة البائع المتجول باستخدام أساليب التعلم الآلي ، وتحقيق نتائج أكثر كفاءة من التحسين التوافقي التقليدي. على طول هذا الخط الفكري ، هل يمكننا استخدام التعلم الآلي للمساعدة في التعامل مع المشكلات في الحوسبة الكمية ، مثل التنبؤ بالحالة الكمية ، هل يمكننا الحصول على تقدير جيد إلى حد ما دون أخذ العينات الأسية على الإطلاق؟ يمكن أن يساعد التعلم عبر الإنترنت والتعلم المعزز وما إلى ذلك في هذا الصدد.

وفي الوقت نفسه ، عندما تتعارض نظريات التعلم الكمومي والآلي ، يحدث شيء مثير للاهتمام للغاية. نحن نعلم أن الكم غير مؤكد ، وأحيانًا لا يكون عدم اليقين هذا بالضرورة أمرًا سيئًا ، لأنه في مجال التعلم الآلي ، نأمل عادةً في عدم اليقين ، وأحيانًا نضيف ضوضاء إلى البيانات بشكل متعمد. تتم إضافة الضوضاء أثناء التدريب إلى الحصول على أداء تعميم أفضل.

بهذا المعنى ، هل يمكن أن يساعد عدم اليقين في الحوسبة الكمومية التعلم الآلي على تحقيق أداء تعميم أفضل؟ إذا وضعنا عدم اليقين في الحوسبة الكمومية وتعميم التعلم الآلي معًا لتشكيل إطار نظري موحد ، فهل يمكن أن يخبرنا أين هي المقايضة؟ ألا نحتاج لأن نكون قاسيين جدًا في اكتشاف الحالات الكمومية؟ لأنه كلما كان الاكتشاف صعبًا ، كان من الأسهل التجهيز الزائد. هل هناك حل وسط أفضل؟ في الواقع ، هذه أسئلة مثيرة للاهتمام للغاية ، وهي تستحق الاستكشاف معًا لسنوات عديدة من قبل باحثي الحوسبة الكمومية وباحثي التعلم الآلي.

بسيطة للحكم معقدة

الاتجاه الثاني مثير للاهتمام أيضًا ويتضمن كيف يجب أن ننظر إلى بيانات التدريب. التعلم العميق هو عملية للتغلب على التعقيد ، ومن أجل التعامل مع بيانات التدريب المعقدة للغاية ، فإنه يستخدم نموذجًا أكثر تعقيدًا تقريبًا. ولكن هل هو حقا يستحق كل هذا العناء؟ هل يتوافق مع الطريقة التي أدرنا بها العلوم الأساسية في العقود الماضية أو حتى مئات السنين؟

في مجالات الفيزياء والكيمياء والبيولوجيا ، يتبع الناس قوانين بسيطة وجميلة للعالم. سواء كانت فيزياء الكم أو الروابط الكيميائية أو حتى الاقتصاد أو علم الوراثة ، فإن وراء العديد من الظواهر المعقدة هي في الواقع معادلة تفاضلية جزئية من الدرجة الثانية ، مثل معادلة شرودنجر ، مثل معادلات ماكسويل ، وما إلى ذلك. تخبرنا جميع هذه المعادلات أن النموذج الرياضي وراء العالم الذي يبدو معقدًا هو في الواقع بسيط وجميل. تختلف أفكار تبسيط المجمع اختلافًا كبيرًا عن التعلم العميق.

يجب أن يفكر علماء التعلم الآلي في الأمر أيضًا ، فهل التعلم العميق حقًا صحيح؟ نحن نعتبر البيانات بمثابة الله ونستخدم مثل هذا النموذج المعقد لتلائمها ، فهل طريقة التفكير هذه حقًا صحيحة؟ هل كانت صفعة على الوجه قليلاً؟ في الماضي ، لم تكن فكرة استخدام البساطة للتحكم في التعقيد تعتبر البيانات هي الله أبدًا ، فهم يعتقدون أن القوانين التي تقف وراءها هي الله ، والبيانات هي مجرد مظهر.

ما نحتاج إلى تعلمه هو قانون توليد البيانات ، وليس البيانات نفسها ، هذا الاتجاه يستحق التفكير فيه. لإجراء بحث جيد في هذا الاتجاه ، نحتاج إلى علماء التعلم الآلي لتوسيع معارفهم ومعرفة المزيد عن الأنظمة الديناميكية أو المعادلات التفاضلية الجزئية ، فضلاً عن الأدوات الرياضية المختلفة في العلوم التقليدية ، بدلاً من مجرد استخدام نموذج غير خطي لتناسب البيانات.

التعلم الارتجالي

الاتجاه الثالث يتعلق بكيفية تعلمنا نحن البشر بالضبط. حتى الآن ، فإن نجاح التعلم العميق في العديد من المجالات يؤدي في الواقع إلى التعرف على الأنماط. يبدو التعرف على الأنماط مذهلاً ، لكنه في الواقع أمر بسيط للغاية. يمكن لجميع الحيوانات تقريبًا التعرف على الأنماط. السبب الذي يجعل الناس يتمتعون بذكاء عالٍ ليس لأننا نستطيع التعرف على الأنماط ، ولكن لأننا نمتلك المعرفة والفطرة السليمة. بناءً على هذا المفهوم ، لدى Yann LeCun اتجاه بحثي جديد يسمى التعلم التنبئي. ما هو فكرها؟ أي ، حتى لو لم نر الصورة الكاملة للأشياء ، لأننا نملك الفطرة السليمة والمعرفة ، فلا يزال بإمكاننا اتخاذ درجة معينة من التنبؤ واتخاذ القرارات بناءً على هذا التوقع. هذه المسألة أكثر ذكاءً من التعرف على الأنماط التقليدية ، وستشمل الأشخاص الذين يستخدمون المعرفة والفطرة السليمة لعمل تنبؤات.

لكن ، فكر في الأمر بالعكس ، هل يمكن توقع عالمنا حقًا؟ ربما يمكن التنبؤ ببعض الأنماط الدنيوية ، لكن يمكن لكل واحد منا أن يختبر أن حياتنا وعالمنا لا يمكن التنبؤ بها إلى حد كبير. لذا فإن القول المأثور جيد جدًا ، الشيء الوحيد الذي يمكن توقعه عن الحياة هو عدم القدرة على التنبؤ بها.

نظرًا لأننا نعيش في عالم لا يمكن التنبؤ به ، فكيف نتعلم بالضبط من هذا العالم ونصبح أقوى؟ ما يلي هو مجرد كلمات للعائلة .. نعتقد أن البشر يفعلون شيئًا يسمى الارتجال ، فماذا يعني ذلك؟ أي أن كل واحد منا يقاتل في الواقع ضد هذا العالم من أجل البقاء. ما نتعلمه من العالم كل يوم هو التعامل مع الحالات الشاذة المجهولة في المستقبل. كيف يمكننا البقاء على قيد الحياة عندما يحدث شيء مؤسف؟ في الواقع ، نظرًا لأن لدينا معرفة كافية بالعالم ، فسوف نستخدم معرفتنا الحالية لتطوير خطة ، مما يسمح لنا بتجنب المخاطر والتغلب على هذه العقبة.

نأمل أن تتناقص إنتروبيا العالم في أعيننا. كلما عرفنا عنها أكثر ، كلما انخفضت إنتروبياها في أعيننا. في الوقت نفسه ، نأمل أنه عندما تتغير البيئة ، كما هو الحال عند وقوع حادث ، تكون لدينا القدرة على الارتجال للتعامل معها. إن إطار التعلم المرتجل الموضح في هذا PPT هو قدرتنا على التفاعل مع البيئة ، وإجراء تجارب فكرية مختلفة ، والتعلم الذاتي للتعامل مع الحالات الشاذة غير المعروفة بطريقة غير خاضعة للرقابة.

بهذا المعنى ، تختلف هذه العملية فعليًا عن التعلم التنبئي والتعلم المعزز ، لأنه لا يوجد لديه قواعد تعلم وأهداف تعلم ثابتة ، ويتفاعل مع البيئة ، على أمل التعامل مع البيئة المجهولة في المستقبل. في الواقع ، هذا هو نفس كل واحد منا يراكم المهارات ، من أجل رفع القوات لآلاف الأيام واستخدامها لفترة من الوقت. عندما يحدث شيء ما ، كيف يمكنني استخدام قدرتي على العيش. هل يمكن وصف هذه العملية بلغة رياضية؟ هل يمكن أن يصبح التعلم الارتجالي اتجاهًا بحثيًا جديدًا للتعلم الآلي؟ الأمر يستحق التفكير فيه.

الحكمة الجماهيرية

يتضمن الاحتمال الأخير تكهنات أكثر فلسفية: هل السبب في أن الذكاء البشري مرتفع جدًا لأننا أقوياء جدًا كأفراد ، أم لأننا أقوياء جدًا كمجموعة؟ معظم أبحاث الذكاء الاصطناعي اليوم ، بما في ذلك التعلم العميق ، تقلد في الواقع دماغ الأفراد الأفراد ، على أمل تعلم قدرة التعلم لدى كل فرد من البشر. لكن اسأل نفسك ، هل قدرة التعلم لدى الفرد البشري أعلى بعدة مرات من قدرة الأقارب البشرية مثل الغوريلا؟ من الواضح أن الإجابة لا ، ولكن مستوى تطور الحضارة البشرية اليوم يختلف اختلافًا كبيرًا عن مستوى التطور الحضاري في المجتمعات التي تعيش فيها القرود والغوريلا.

لذلك ، نعتقد اعتقادًا راسخًا أنه بالإضافة إلى الذكاء الفردي ، يمتلك البشر شيئًا أكثر خصوصية ، وهو البنية الاجتماعية والآلية الاجتماعية ، مما يجعل ذكائنا يتقدم بسرعة فائقة. على سبيل المثال ، أصبح توليد الكلمات والكتب حاملة للمعرفة ، بحيث يمكن نشر المعرفة بالعالم التي يكتسبها شخص معين بسرعة إلى أشخاص آخرين في جميع أنحاء العالم. هذه الآلية الاجتماعية مهمة للغاية وستسرع من تطورنا .

علاوة على ذلك ، سيسمح التقسيم المختلف للعمل في المجتمع للجميع بتحسين أهدافهم وتقوية أنفسهم. لكل مجال أسياده ، والدور التكميلي لهؤلاء السادة يجعل مجتمعنا يزدهر.

لذلك ، فإن تنوع المجتمع ، والمنافسة الاجتماعية ، والتطور ، والثورة ، والابتكار ، قد تكون هذه هي الأسباب التي تجعل البشر يتمتعون بمثل هذا الذكاء العالي اليوم. وهذه الأشياء في مجال التعلم الآلي اليوم ، قلة قليلة من الناس يقومون بعمل نماذج جيدة جدًا. نعتقد اعتقادًا راسخًا أنه فقط من خلال إجراء بحث متعمق للغاية حول هذه الأشياء ، يمكننا فهم الذكاء البشري حقًا ، وفهم التعلم الآلي حقًا ، ودفع أبحاثنا إلى آفاق جديدة.

الميادين والشوارع لرضا بناء الشعب "الملكية الأحمر"

السلطة "أربعة" حرجة، خدمة استأنفت إنتاج المجمع! أكاديمية ياوتشنغ للعلوم الزراعية في العمل

اختراق حاسم، والنضال يونغ من الدرجة | قد تومض تسوي بلدات السكتات الدماغية الصلبة، حقيقية، تكتيكات جديدة

لضمان سلامة المعلمين والطلاب! ظروف المدرسة نفذت هذا العمل التحقق في شاندونغ

المعترف بها طول العمر "عادات جيدة" تعال وانظر ما تفعله لعدد قليل؟

وصل الربيع، والجلد مرارا الحكة والتورم والألم، هل هناك أي طريقة يمكن التخلص من خلايا النحل؟

كنت تستهلك، وتشانغشا مقاطعة تدفع! 5000000 النص واء الانتظار بالنسبة لك لتلقي كوبونات

عائلة لين تونغ أربعة جنبا إلى جنب مع المجتمعات المحلية "العدوى" مرت أجمل "الوطن" القوة

لوو من "حزمة الصحة" استؤنفت أربع ضربات مساعدة إنتاج معقدة

تصور رسالة السنة الصينية الجديدة غير عادية من الرئيس الصيني شي جين بينغ

مع اسلوب جيد توحيد المعركة والفوز القوة مهيب - - 2019 مع الرفيق شي جين بينغ باعتبارها جوهر للجنة المركزية للحزب الشيوعى الصينى وتنفيذ أحكام المركزية الثامنة، لتعزيز بناء أسلوب وثائقي

دعونا الأمين العام للمخاوف شيء الفقر شو التربة واحد "المغذيات" حزب الشعب - الصناعات الخاصة الفقيرة تستفيد آلاف الأسر