"التاريخ" تاريخ موجز لـ 60 عامًا من تكنولوجيا الذكاء الاصطناعي

أعيد طبعه من AI Technology Base Camp

المؤلف: لي لي ، نائب رئيس مركز أبحاث الذكاء الاصطناعي شون ، عشر سنوات من معالجة اللغة الطبيعية وتجربة البحث والتطوير في مجال الذكاء الاصطناعي. ترأس تطوير العديد من أنظمة الأسئلة والأجوبة والحوار الذكية للأجهزة ، وكان مسؤولاً عن تصميم وتطوير المنصة المفتوحة للتحليل الدلالي الصيني Huanxin والروبوتات الذكية Huanxin.

إن تاريخ التطور التطوري للبشرية هو تاريخ صنع الإنسان واستخدام الأدوات ، وتمثل الأدوات المختلفة مستوى التطور البشري. من العصر الحجري والعصر الحديدي وعصر البخار والعصر الكهربائي وعصر المعلومات الحالي ، نستخدم أدوات أكثر تقدمًا وملاءمة لتغيير الإنتاج والحياة.

الغرض من الأداة هو توسيع وتوسيع قدرات البشر. لا يمكننا الركض بسرعة ، ولكن يمكننا السفر آلاف الأميال يوميًا بالركوب والقيادة. لا يمكننا القفز عالياً أو الطيران ، ولكن يمكننا الوصول إلى السماء بمساعدة صواريخ الطائرات. بشكل عام ، يمكن تقسيم الأدوات إلى فئتين: الأدوات التي توسع القوة الجسدية البشرية والأدوات التي توسع قوة العقل البشري.

قبل اختراع أجهزة الكمبيوتر ، كانت معظم الأدوات التي صنعها البشر هي الأولى ، والتي يمكن أن تساعدنا في تقليل العمل البدني. على سبيل المثال ، يعد استخدام الماشية أو الجرارات لزراعة الأرض أكثر كفاءة. بالطبع ، هناك أيضًا عدد قليل من الأدوات لتقليل العمل العقلي ، مثل العداد ، بما في ذلك الكلمات - يمكنه زيادة سعة ذاكرة البشر بشكل كبير ، والآن يمكن القيام بالعديد من الأعمال العقلية الميكانيكية بواسطة أجهزة الكمبيوتر. لكن برامج الكمبيوتر التقليدية يمكن أن تساعدنا فقط في توسيع ذاكرتنا وإتمام العمليات الحسابية الميكانيكية البسيطة. لدينا ذاكرة ذات سعة أكبر وسرعة أكبر ، ويمكننا تجميع البرامج المالية للمساعدة في المحاسبة المالية.

لا يمكننا تحقيق أشياء تتطلب "ذكاء" لإنجازها ، على سبيل المثال ، لا يمكن استخدام أجهزة الكمبيوتر لقيادة السيارات ، وأجهزة الكمبيوتر غير قادرة حاليًا على التواصل مع البشر بلغة طبيعية مثل البشر ، والهدف من الذكاء الاصطناعي هو جعل أجهزة الكمبيوتر تتصرف مثل البشر. حل هذه المشاكل المعقدة بذكاء. تمكن نظام الذكاء الاصطناعي الحالي من هزيمة بطل العالم البشري في Go ، وتمكن نظام التعرف على الكلام الحالي من تحقيق دقة التعرف على الإنسان في سيناريوهات معينة محددة ، كما تم تجريب السيارات بدون سائق على الطريق في أماكن معينة. فوق. في المستقبل ، سيكون للذكاء الاصطناعي المزيد من سيناريوهات التطبيق. وهدفنا النهائي هو صنع آلات مماثلة للذكاء البشري أو تتجاوزه.

تاريخ موجز للذكاء الاصطناعي

يمكن إرجاع أول استكشاف للذكاء الاصطناعي إلى Leibniz ، الذي حاول إنشاء آلة قادرة على الحساب الرمزي التلقائي ، لكن مصطلح الذكاء الاصطناعي بالمعنى الحديث وُلد في دارتموث في عام 1956 لقاء .

هناك العديد من التعريفات للذكاء الاصطناعي ، والذي هو بحد ذاته تقاطع العديد من التخصصات ، وأشخاص مختلفين انتباه لها جوانب مختلفة ، لذلك من الصعب إعطاء تعريف يوافق عليه الجميع. دعونا نفهم عملية الذكاء الاصطناعي على أي حال من خلال سياق الوقت.

الفترة الذهبية (1956-1974)

هذا هو العصر الذهبي للذكاء الاصطناعي ، ويتم استخدام الكثير من الأموال لدعم البحث والتطوير في هذا التخصص. تضمنت الأبحاث المؤثرة خلال هذه الفترة أداة حل المشكلات العامة وأول برنامج محادثة آلي ELIZA. يعتقد الكثير من الناس أن ELIZA الذين يتحدثون معهم هو شخص حقيقي ، لكنه ببساطة يولد ردودًا بناءً على القوالب المطابقة (العديد من روبوتات الدردشة الحالية في السوق تستخدم بالفعل تقنية مماثلة). كان الناس متفائلين للغاية في ذلك الوقت ، على سبيل المثال ، أكد HA Simon في عام 1958 أن أجهزة الكمبيوتر ستهزم البشر في لعبة الشطرنج (الدولية) في غضون 10 سنوات. حتى أنه قال في عام 1965 إن "أجهزة الكمبيوتر ستكون قادرة على فعل كل ما يستطيع البشر القيام به خلال عشرين عامًا"

أول شتاء بارد (1974-1980)

بحلول هذه الفترة ، لم يتم الوفاء بالتأكيدات السابقة ، لذلك ظهرت جميع أنواع الانتقادات ، ولم تعد الدولة (الولايات المتحدة) تستثمر المزيد من الأموال ، ودخل الذكاء الاصطناعي في فصل الشتاء البارد الأول. كانت هذه الفترة أيضًا الفترة المظلمة للربطية. في عام 1958 ، اقترح فرانك روزنبلات Perception ، والذي يمكن اعتباره أقدم بحث عن الشبكات العصبية. ومع ذلك ، لم يكن هناك الكثير من البحث والتقدم في الاتصال في السنوات العشر التالية.

فترة الازدهار (1980-1989)

استفاد ازدهار هذه الفترة من شعبية الأنظمة الخبيرة. كما تطورت الشبكات العصبية الوصلة ، بما في ذلك شبكة هوبفيلد التي اقترحها جون هوبفيلد في عام 1982 ، واكتشفت خوارزمية الانتشار الخلفي في نفس الوقت ، لكن الطريقة السائدة لا تزال تعتمد على أنظمة الخبراء الرمزية.

الشتاء البارد الثاني (1989-1993)

كان من الصعب نجاح نظام الخبير الناجح سابقًا تجاريًا بسبب التكلفة العالية وأسباب أخرى ، ودخل الذكاء الاصطناعي الشتاء البارد مرة أخرى.

فترة التطوير (1993-2006)

خلال هذه الفترة ، كان الاتجاه السائد للذكاء الاصطناعي هو التعلم الآلي. أدى تطوير نظرية التعلم الإحصائي وشعبية أدوات SVM إلى إدخال التعلم الآلي في فترة من التطور المطرد.

فترة اندلاع (2006 - الآن)

هذه المرة تطور الذكاء الاصطناعي مدفوع بشكل أساسي بالتعلم العميق ، أي الشبكات العصبية العميقة. في الثمانينيات والتسعينيات ، على الرغم من أن الشبكات العصبية حلت مشكلة XOR النظرية من خلال وظائف التنشيط غير الخطية ، فإن خوارزمية الانتشار العكسي جعلت من الممكن أيضًا تدريب الشبكات العصبية الضحلة. ومع ذلك ، نظرًا لمحدودية موارد ومهارات الحوسبة ، كان من المستحيل تدريب شبكات أعمق في ذلك الوقت ، ولم يكن التأثير الفعلي أفضل من أساليب التعلم الآلي التقليدية "الضحلة" ، لذلك لم يكن هناك الكثير من الأشخاص. انتباه هذا الاتجاه.

حتى عام 2006 ، اقترح هينتون شبكات الإيمان العميق (DBN) ، والتي جعلت من الممكن تدريب شبكات عصبية أعمق من خلال التدريب المسبق. في عام 2009 ، استخدم Hinton و DengLi شبكة عصبية عميقة (DNN) لتدريب نموذج صوتي لأول مرة في نظام التعرف على الكلام ، وتم تقليل معدل خطأ الكلمات (WER) للنظام النهائي بشكل كبير.

ما جعل التعلم العميق مشهورًا في الأوساط الأكاديمية هو تقييم ILSVRC لعام 2012. قبل ذلك ، كان أفضل معدل خطأ في تصنيف Top5 أكثر من 25 .في عام 2012 ، استخدمت AlexNet شبكة تلافيفية عميقة في المنافسة لأول مرة وحققت معدل خطأ بنسبة 16. بعد ذلك ظهرت نتائج جيدة جديدة كل عام ، ففي عام 2014 كانت GoogLeNet و VGG ، وفي عام 2015 كانت شبكة ResNet المتبقية ، وكان معدل الخطأ في تصنيف أفضل 5 نظام حاليًا أقل من 5. ما يجعل المزيد من الناس (خاصة الصينيين) يدركون حقًا التقدم في التعلم العميق هو أن AlphaGo الذي طورته Google DeepMind في عام 2016 هزم بطل العالم البشري Li Shishi بنتيجة 4-1. لذلك ، دخل الذكاء الاصطناعي فترة ازدهار أخرى ، وتتنافس رؤوس أموال مختلفة على الاستثمار ، وحتى خطط تطوير الذكاء الاصطناعي على المستوى الوطني تم تقديمها.

تقدم كبير في المجالات الفرعية من عام 2006 حتى الوقت الحاضر

دعونا نراجع التقدم الرئيسي للتعلم العميق في مجالات رؤية الكمبيوتر والسمع ومعالجة اللغة الطبيعية والتعلم المعزز منذ عام 2006 ، ونحلل اتجاهات التطوير المستقبلية المحتملة وفقًا لعملية التطوير. نظرًا للقيود المفروضة على مستوى المؤلف ونقاط الاهتمام ، إليك قائمة ببعض المقالات التي يعرفها المؤلف ، لذلك ستفوت بالتأكيد بعض الأعمال المهمة.

رؤية الكمبيوتر

تدريب مسبق غير خاضع للإشراف

على الرغم من أن العديد من نماذج التعلم العميق "الحديث" ، مثل DNN و CNN و RNN (LSTM) ، قد تم اقتراحها في وقت مبكر جدًا ، لم تكن هناك طريقة لتدريب العديد من طبقات الشبكات العصبية قبل عام 2006. لذلك ، التعلم العميق والتقليدي لا يوجد فرق كبير في التعلم الآلي.

في عام 2006 ، اقترح هينتون وزملاؤه في الورقة البحثية "خوارزمية التعلم السريع لشبكات المعتقدات العميقة" طريقة التدريب المسبق طبقة تلو الطبقة الجشعة وغير الخاضعة للرقابة (DBN) وطريقة الضبط الدقيق الخاضعة للإشراف لأول مرة. من أجل تدريب شبكة عصبية متعددة الطبقات (خمس طبقات). منذ ذلك الحين ، أصبحت نقطة البحث الساخنة هي كيفية استخدام تقنيات مختلفة لتدريب الشبكات العصبية العميقة. وستستمر هذه العملية تقريبًا حتى عام 2010. الفكرة الرئيسية هي استخدام طرق مختلفة للتدرب المسبق غير الخاضعة للرقابة ، بالإضافة إلى DBN ، تم اقتراح آلات بولتزمان المقيدة (RBM) وآلات ديب بولتزمان (DBM) ونماذج إزالة الضوضاء التلقائية خلال هذه الفترة.

تشمل المقالات التمثيلية "الحد من أبعاد البيانات مع الشبكات العصبية" المنشورة على Nature بواسطة Hinton et al. ، و "التدريب الجشع للطبقة الحكيمة للشبكات العميقة" الذي نشره Bengio et al. على NIPS 2007 ، و Lee et al. تم نشره في ICML 2009 نشر فينسنت وآخرون "شبكات المعتقدات التلافيفية العميقة للتعلم القابل للتطوير للتمثيلات الهرمية" ، "مكدس تقليل الضوضاء التلقائي: تعلم تمثيلات مفيدة في شبكة عميقة بمعيار تقليل الضوضاء المحلي" في عام 2010.

في ذلك الوقت ، كان تدريب شبكة عصبية أعمق أمرًا صعبًا للغاية. لذلك ، هناك أيضًا "فهم صعوبة تدريب الشبكات العصبية العميقة التغذية الأمامية" بواسطة Glorot وآخرون. قد تواجه طريقة تهيئة Xavier عند استخدام أدوات التعلم العميق. مؤلف الطريقة هو Xavier Glorot. في ذلك الوقت ، كان نوعًا من "التكنولوجيا السوداء" لتكون قادرًا على تحديد المعلمات الفائقة بحيث يمكن تدريب نموذج جيد. أتذكر أنه كان هناك كتاب سميك "الشبكات العصبية: حيل التجارة" ، والذي قدم على وجه التحديد الحيل المختلفة.

الشبكة العصبية التلافيفية العميقة

يحب الجميع التعلم العميق انتباه سبب كبير هو أن AlexNet التي نفذتها AlexNet حققت نتائج جيدة جدًا في مسابقة ImageNet LSVRC-2012. منذ ذلك الحين ، تم استخدام الشبكات العصبية التلافيفية ومتغيراتها على نطاق واسع في مختلف المهام المتعلقة بالصور. من عام 2012 إلى عام 2016 ، ستنتج مسابقة LSVRC السنوية نماذج أعمق ونتائج أفضل.

بدأت ورقة Alex Krizhevsky لعام 2012 بعنوان "تصنيف ImageNet مع الشبكات العصبية التلافيفية العميقة" هذه الرحلة التنافسية "العميقة".

بطل عام 2014 هو GoogleNet ، من الورقة البحثية "التعمق في التلافيف" ، والتي اقترحت هيكل Inception ، والذي من خلاله يمكن تدريب 22 طبقة من الشبكات العصبية العميقة. المركز الثاني في نفس العام كان VGGNet لم يتغير كثيرًا في بنية النموذج ، ولكنه استخدم فقط بعض التقنيات لجعل الشبكة التلافيفية أعمق (18 طبقة).

بطل عام 2015 هو ResNet ، من الورقة البحثية "التعلم المتبقي العميق للتعرف على الصور" بواسطة He Yuming وآخرين. من خلال تقديم الهيكل المتبقي ، يمكنهم تدريب شبكة مكونة من 152 طبقة. مقالة عام 2016 "Identity M تطبيق تقوم "عمليات في الشبكات المتخلفة العميقة" ببعض التحليلات النظرية والمزيد من التحسينات على الشبكة المتبقية.

في عام 2016 ، اقترح Szegedy et al من Google بنية شبكة تدمج الاتصالات المتبقية وهيكل Incpetion في الورقة البحثية "Inception-v4، inception-resnet وتأثير الاتصالات المتبقية على التعلم" ، مما أدى إلى زيادة تحسين تأثير التعرف.

يوضح الشكل التالي تأثير هذه النماذج على منافسة LSVRC ، ويمكننا أن نرى أنه مع تعمق الشبكة ، يتناقص معدل تصنيف الأخطاء الخمسة الأولى تدريجياً.

الصورة: مسابقة LSVRC

كشف الكائن وتجزئة المثيل

يعتبر النموذج السابق بشكل أساسي مهمة تصنيف الصور ، كما أن اكتشاف الكائنات وتجزئة المثيلات من المهام الشائعة جدًا في رؤية الكمبيوتر. من الطبيعي جدًا تطبيق شبكات عصبية تلافيفية عميقة على هاتين المهمتين ، لكن هذه المهمة لا تتطلب فقط معرفة الأشياء الموجودة في الصورة ، ولكن أيضًا تحديد موضع هذه الكائنات بدقة. من أجل استخدام الشبكات العصبية التلافيفية لمثل هذه المهام ، يجب القيام بالكثير من أعمال التحسين.

بالطبع ، من الطبيعي جدًا استخدام CNN لاكتشاف الهدف ، وأسهل طريقة هي تحديد موقع الهدف أولاً باستخدام الطرق التقليدية ، لكن تأثير تحديد الموقع ليس جيدًا. اقترح Girshick وآخرون. نموذج R-CNN في ورقة "تسلسل هرمي للميزات الغنية لاكتشاف الكائنات الدقيقة والتجزئة الدلالية" في عام 2014 ، باستخدام اقتراح المنطقة لإنشاء عدد كبير من المناطق المرشحة ، وأخيرًا باستخدام CNN لتحديد ما إذا كان هذا هو الهدف ، ولكن بسبب الحاجة إلى التصحيح يتم تصنيف جميع المرشحين والحكم عليهم ، لذا فإن سرعته بطيئة جدًا.

الصورة: R-CNN

في عام 2015 ، اقترح Girshick وزملاؤه Fast R-CNN ، والذي يستخدم طبقة RoI Pooling لحساب ميزات جميع المناطق المرشحة في نفس الوقت من خلال عملية حسابية واحدة ، والتي يمكن أن تحقق حسابات سريعة. ومع ذلك ، فإن الاقتراح الإقليمي بحد ذاته بطيء للغاية. في ورقة العام نفسه "أسرع R-CNN: نحو اكتشاف الكائنات في الوقت الفعلي مع شبكات اقتراح المنطقة" ، اقترح رين وآخرون R-CNN أسرع ، باستخدام شبكة شبكات مقترحات المنطقة (RPN). استبدل خوارزمية اقتراح المنطقة الأصلية لتحقيق خوارزمية اكتشاف الهدف في الوقت الفعلي. من أجل حل مشكلة المقاييس المختلفة للأجسام المستهدفة في صور مختلفة ، اقترح لين وآخرون شبكات هرم الخصائص (FPN) في الورقة البحثية "الشبكات الهرمية المميزة لاكتشاف الكائنات".

الصورة: Fast R-CNN

الصورة: أسرع R-CNN

نظرًا لأن R-CNN لها تأثير جيد على مهام اكتشاف الهدف ، فمن الطبيعي استخدام Faster R-CNN للتجزئة على سبيل المثال. ومع ذلك ، سيكون لتجميع العائد على الاستثمار انحراف كبير نسبيًا عند استخدامه للتجزئة على سبيل المثال ، لأن كلاً من اقتراح المنطقة وتجميع العائد على الاستثمار بهما أخطاء كمية في التقريب. لذلك ، اقترح He Yuming وآخرون نموذج Mask R-CNN في عام 2017.

الصورة: قناع R-CNN

من هذه السلسلة من المقالات ، يمكننا أن نرى عملية تطبيق التعلم العميق على مشهد أكثر تعقيدًا: يتم استخدام الجزء الأول من الشبكة العصبية العميقة في عملية معقدة ، وأخيراً يتم تنفيذ جميع العمليات من البداية إلى النهاية باستخدام الشبكات العصبية .

بالإضافة إلى ذلك ، اقترح Redmon وآخرون "أنت تنظر مرة واحدة فقط: اكتشاف الكائنات في الوقت الفعلي الموحد" نموذج YOLO (بما في ذلك YOLOv2 و YOLOv3 اللاحقين ، وما إلى ذلك) ، و SSD: Single Shot MultiBox Detector الذي اقترحه Liu et al. والغرض من ذلك هو تسريع سرعة الكشف مع الحفاظ على معدل الدقة.

النموذج التوليدي

إذا كنت تريد تحديد الاتجاه الأكثر شيوعًا في رؤية الكمبيوتر مؤخرًا ، فإن النماذج التوليدية هي بالتأكيد واحدة منها. ليس من السهل التعرف على شيء ما ، ولكن من الصعب إنشاء شيء ما (يمكن لطفل يبلغ من العمر ثلاث سنوات التعرف على قطة ، لكن لا يوجد العديد من الأطفال في سن الثالثة الذين يمكنهم رسم قطة جيدًا). ما يجعل النموذج التوليدي ساخنًا هو شبكات الخصومة التوليدية (GAN باختصار) التي اقترحها Goodfellow في عام 2014.

نظرًا لأن هذا المجال جديد نسبيًا و "نطاق" البحث واسع جدًا ، فلا توجد مهام قياسية مثل تصنيف الصور ومجموعات البيانات القياسية مثل ImageNet ، وغالبًا ما تكون طرق التقييم ذاتية للغاية. لقد وجدت العديد من المقالات نقطة معينة للتطبيق ، ثم أنشأت (أو تم اختيارها بعناية) بعض الصور أو مقاطع الفيديو الرائعة. "هناك صور والحقيقة". ينظر الجميع إلى الصور ولا يفهمون المحتوى ، لذلك ليس واضحًا. جو لي. من الصعب تحديد المشاكل العملية التي تم حلها. ولكن على أي حال ، فإن هذا الاتجاه ملفت للنظر للغاية ، فعلى سبيل المثال ، يمكن أن تثير تطبيقات مثل DeepFake اهتمام الجميع ومناقشاتهم. لا أعرف الكثير عن هذا الاتجاه ، وهناك عدد قليل من التطبيقات المدرجة أدناه.

أسلوب النقل

تم نشر أول "خوارزمية عصبية للأسلوب الفني" في عام 2015 ، والذي كان قبل اقتراح GAN ، لكنني ما زلت أضعه في النموذج التوليدي. لقد كانت شائعة لفترة من الوقت ، كما أنها أنتجت أسلوبًا حارًا تطبيق إنها تسمى Prisma. كما هو موضح في الشكل أدناه ، بالنظر إلى صورة منظر طبيعي ولوحة (على سبيل المثال ، c هي لوحة رسمها Van Gogh) ، يمكن استخدام هذه التقنية لإضافة أسلوب Van Gogh إلى صورة المناظر الطبيعية.

الصورة: نقل النمط العصبي

يعتبر CycleGAN الذي اقترحه Zhu Junyan وآخرون في "الترجمة غير المقترنة من صورة إلى صورة باستخدام شبكات خصومة متناسقة مع الدورة" نموذجًا أكثر إثارة للاهتمام ، والذي لا يتطلب بيانات مقترنة. تتطلب ما يسمى بالبيانات المزدوجة صورة حصان عادي وصورة لحمار وحشي ، ويجب أن يتطابق محتواها تمامًا. من الصعب جدًا الحصول على بيانات مقترنة ، فمن المستحيل العثور على الحمير الوحشية والخيول العادية بنفس المظهر والموقف تمامًا عند التصوير ، بما في ذلك الخلفية نفسها. بالإضافة إلى ذلك ، بالنظر إلى قطعة من عمل فان جوخ ، كيف يمكننا العثور على صورة تطابقها؟ أو بالعكس ، بالنظر إلى صورة المناظر الطبيعية ، أين يمكنك العثور على عمل فني بنفس المحتوى؟

لا تتطلب Cycle GAN المقدمة في هذه المقالة بيانات تدريب مقترنة ، ولكنها تتطلب فقط مجموعتين من البيانات غير المسماة من مجالات مختلفة. على سبيل المثال ، لتحويل حصان عادي إلى حمار وحشي ، نحتاج فقط إلى إعداد الكثير من صور الخيول العادية والكثير من صور الحمير الوحشية ، ثم وضع كل صور الحمر الوحشية معًا ، ووضع كل صور الخيول العادية معًا. من الواضح أن هذا سهل . من السهل أيضًا تغيير لوحات المناظر الطبيعية إلى نمط Van Gogh - نجد العديد من صور لوحات المناظر الطبيعية ، ثم نجد أكبر عدد ممكن من لوحات Van Gogh. يظهر تأثيره في الشكل أدناه.

الصورة: CycleGAN

نص إلى صورة

يُنشئ تحويل النص إلى صورة الصور المقابلة بناءً على أوصاف النص ، وهو عكس تسمية الصور. "StackGAN: Text to Photo-Real Image Synthesis with Stacked Generative Adversarial Networks" بواسطة Zhang et al. في عام 2016 هي مقالة سابقة في هذا الاتجاه ، ويظهر تأثيرها في السطر الأخير من الشكل أدناه.

الشكل: مقارنة StackGAN ونماذج أخرى

دقة فائقة

الدقة الفائقة هي إنشاء صورة عالية الدقة مقابلة بناءً على صورة منخفضة الدقة. وبالمقارنة مع طريقة الاستيفاء التقليدية ، يتعلم النموذج التوليدي توزيعها من عدد كبير من الصور ، لذلك "تخمين" المحتوى أكثر من تأثير الاستيفاء أفضل بكثير. "شبكات الخصومة التوليدية المحسّنة فائقة الدقة" مقالة صدرت في 2018 ، ويظهر تأثيرها في منتصف الشكل أدناه.

الشكل: تأثير ESRGAN

inpainting الصورة

إن الرسم الداخلي للصورة هو حجب جزء من الصورة ، مثل الفسيفساء ، ثم استخدام النموذج التوليدي "لإصلاح" هذا الجزء من المحتوى. يوضح الشكل أدناه تأثير الرسم التوليدي للصورة مع الاهتمام السياقي.

الشكل: تأثير نظام DeepFill

تعتمد مقالة "EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning" على عملية رسم الخطوط العريضة (الخطوط) أولاً ثم التلوين عندما يرسم البشر. من خلال تقسيم inpainting إلى خطوتين ، منشئ الحافة وشبكة إكمال الصورة ، يكون ما يلي هو تأثيرها .

الشكل: تأثير EdgeConnect

أحدث نقطة ساخنة: التحسين التلقائي لهيكل الشبكة والتعلم شبه الخاضع للإشراف

أعتقد أنه يستحق العناء في اتجاهين مؤخرًا انتباه : الأول هو تحسين بنية الشبكة تلقائيًا ؛ والآخر هو التعلم شبه الخاضع للإشراف.

أحدث مقال عن التحسين التلقائي للشبكة هو "EfficientNet: إعادة التفكير في نموذج التحجيم للشبكات العصبية التلافيفية" بواسطة Google Research. وتأمل في العثور على طريقة تمديد الشبكة العصبية التي يمكنها في نفس الوقت تحسين دقة وكفاءة الشبكة (تقليل المعلمات). لتحقيق ذلك ، تتمثل الخطوة الحاسمة للغاية في كيفية موازنة الأبعاد الثلاثة للعرض والعمق والدقة.

وجد المؤلف أنه يمكن استخدام عملية تكبير / تصغير بمقياس ثابت لموازنة الثلاثة بسهولة. في النهاية ، اقترح المؤلف طريقة تحجيم مركبة بسيطة وفعالة. إذا كنت ترغب في استخدام ضعف موارد الحوسبة ، فأنت تحتاج فقط إلى زيادة عرض الشبكة وزيادة العمق وزيادة حجم الصورة بمقدار ضعفين. من بينها ، معامل ثابت ، وعادة ما يتم الحصول على القيمة المثلى باستخدام بحث شبكي صغير الحجم. بهذه الطريقة ، أدركوا نموذج EfficientNet ، الذي يستخدم عددًا قليلاً جدًا من المعلمات لتحقيق نتائج جيدة ، كما هو موضح في الشكل أدناه.

الشكل: معلمات النموذج وخريطة الدقة

يمكننا أن نرى أن EfficientNet أصغر بـ 8.4 مرة من أفضل طراز سابق لـ GPipe ، لكن التأثير أفضل منه.

يشير التعلم شبه الخاضع للإشراف هنا إلى ميزات التعلم قبل التدريب من خلال الصور غير المصنفة ، ثم التعلم بكمية صغيرة من البيانات الخاضعة للإشراف. أحدث مقال هو "التعرف على الصور بكفاءة البيانات مع الترميز التنبؤي التباين" من Google DeepMind. تستخدم هذه المقالة طريقة الترميز التنبؤي التباين لاستخراج الميزات من كمية كبيرة من البيانات غير المسماة. بسيطة في هذه الخصائص زائد يمكن لطبقة softmax الخطية أن تتجاوز النموذج باستخدام التعلم تحت إشراف AlexNet على ImageNet.

إذا كان هناك 13 بيانات تدريب فقط لكل فصل ، فإن الطريقة الواردة في هذه المقالة تتمتع بدقة أعلى بنسبة 20 من أفضل 5 نموذج تم تدريبه باستخدام 13 بيانات فقط ، و 10 أعلى من أفضل نموذج شبه خاضع للإشراف من قبل. ستكون العديد من الميزات التقليدية غير الخاضعة للإشراف أفضل مع كمية صغيرة من البيانات ، ولكن عندما تكون كمية البيانات كبيرة بما يكفي ، ستكون أسوأ من التعلم الخاضع للإشراف الكامل. ومع ذلك ، يتم تدريب الميزات التي تم الحصول عليها بواسطة الطريقة في هذه المقالة باستخدام جميع بيانات ImageNet ، ويمكن تحقيقها وإكمالها. التعلم تحت الإشراف له تأثير مماثل ، مما يدل على أن الميزات التي يتعلمها جيدة بما فيه الكفاية.

التعرف على الكلام

يعتبر نظام التعرف على الكلام نظامًا معقدًا للغاية ، حيث تعتمد جميع الأنظمة السائدة قبل تقنية التعلم العميق على نموذج HMM. عادةً ما تقوم HMM-GMM بنمذجة وحدة الكلمات الفرعية (مثل triphone) ، من خلال قاموس النطق لربط HMM لوحدة الكلمات الفرعية في HMM للكلمة ، وأخيراً يحتاج وحدة فك التشفير إلى إضافة نموذج اللغة لدمج النموذج الصوتي ونموذج اللغة أخيرًا بشكل ضخم البحث عن ابحث عن المسار الأمثل في الفضاء.

كان هينتون يحاول استخدام الشبكات العصبية العميقة لتحسين نظام التعرف على الكلام. كان أول عمل (بعد عام 2006) هو "شبكات المعتقدات العميقة للتعرف على الهاتف" الذي نُشر في عام 2009. هذه هي بالضبط الفترة التي كان فيها التدريب المسبق شائعًا ، وتم استخدام DBN من رؤية الكمبيوتر. التعرف على الكلام فكرة طبيعية جدًا. يشمل العمل المماثل "التعرف على الهاتف باستخدام آلات Boltzmann المقيدة" في عام 2010. لكن هذه المهام ليست سوى أبسط تصنيف للهاتف ، أي تحديد الهاتف المقابل لكل إطار ، وهو بعيد عن التعرف المستمر على الكلام.

المقال المهم الذي يستخدم الشبكات العصبية العميقة بالفعل للتعرف على الكلام هو مقال Hinton et al. في عام 2012 "الشبكات العصبية العميقة للنمذجة الصوتية في التعرف على الكلام". تستخدم هذه المقالة DNN لتحل محل نموذج GMM في النموذج الصوتي التقليدي HMM-GMM. منذ ذلك الحين ، أصبح إطار العمل السائد للتعرف على الكلام هو نموذج HMM-DNN. تليها 2013 في "الشبكات العصبية التلافيفية العميقة لـ LVCSR" ، استخدم Sainath وآخرون CNN لاستبدال الشبكات العادية المتصلة بالكامل. من مقال "تحسين الشبكات العصبية العميقة لـ LVCSR باستخدام الوحدات الخطية المصححة والتسرب" بواسطة George et al. ، يمكن أيضًا العثور على أن بعض التقنيات المستخدمة بشكل شائع في رؤية الكمبيوتر تُستخدم أيضًا في التعرف على الكلام.

على الرغم من أن HMM-DNN السابق يستخدم شبكة عصبية عميقة لاستبدال GMM ، إلا أن HMM ونموذج لغة N-gram التالي لا يزالان موجودين ، وتدريب DNN نفسه يحتاج أيضًا إلى استخدام المحاذاة القسرية لـ HMM-GMM لتوفير بيانات التدريب على مستوى الإطار.

لطالما كانت كيفية بناء نظام التعرف على الكلام من طرف إلى طرف في الأوساط الأكاديمية انتباه مفتاح. RNN نحن الآن سلاح قوي لمعالجة بيانات السلاسل الزمنية ، 2013 في عام 1998 ، استخدم جريفز وآخرون RNN للتعرف على الكلام في الورقة البحثية "التعرف على الكلام مع الشبكات العصبية المتكررة العميقة". تستخدم هذه المقالة RNN زائد وظيفة فقدان CTC ، CTC هي جوهر الكلام العميق اللاحق. على الرغم من أن الاستخدام "الحقيقي" لـ CTC للتعرف على الكلام هو 2013 ومع ذلك ، اقترح جريفز CTC في الورقة "التصنيف الزمني الاتصالي: وسم بيانات التسلسل غير المقسمة مع الشبكات العصبية المتكررة" في وقت مبكر من عام 2006.

"الكلام العميق: توسيع نطاق التعرف على الكلام من طرف إلى طرف" الذي اقترحه هانون وآخرون في عام 2014 هو أول نظام شامل له تأثير مماثل لـ HMM-DNN ، بما في ذلك متابعة "Deep Speech 2: End- التعرف على الكلام حتى النهاية باللغتين الإنجليزية والماندرين ". نظام Deep Speech بسيط للغاية ، والمدخلات عبارة عن تسلسل للميزات ، والمخرجات عبارة عن تسلسل أحرف ، ولا توجد وحدات نمطية مثل HMM ، و GMM ، وقاموس النطق ، وحتى مفهوم الهاتف.

بالإضافة إلى النظام الشامل الذي يعتمد على وظيفة فقدان CTC ، يعتمد نوع آخر من النظام الشامل على نموذج seq2seq الذي يشيع استخدامه في أنظمة مثل الترجمة الآلية. يتضمن ذلك أقدم "الاستماع والحضور والتهجئة: شبكة عصبية للتعرف على الكلام في المحادثة والمفردات الكبيرة" ، يلخص "التعرف على الكلام الحديث من Google مع نماذج التسلسل إلى التسلسل" SOTA للتعرف على الكلام بعض نماذج Seq2Seq ، وقالوا إنهم بعد استخدام هذا النموذج في النظام الفعلي ، انخفض معدل خطأ الكلمات من 6.7 إلى 5.6. هذا هو أول نظام للتعرف على الكلام من طرف إلى طرف تم تطبيقه بالفعل في الصناعة (على الرغم من أن Baidu IDL بقيادة Andrew Ng اقترح Deep Speech و Deep Speech2 ، إلا أنه لا يتم استخدامه في نظام Baidu الفعلي).

يوضح الشكل التالي التأثير على مجموعة بيانات مشتركة. خذ SwitchBoard كمثال. كان التقدم قبل عام 2006 بطيئًا نسبيًا ، ولكن بعد استخدام التعلم العميق ، استمر معدل الخطأ في الكلمات في الانخفاض. يوضح الشكل بيانات 2017 ، بيانات Microsoft لقد خفض النظام معدل أخطاء الكلمات إلى 6.3.

الشكل: التغيير في معدل أخطاء الكلمات

معالجة اللغة الطبيعية

تختلف معالجة اللغة الطبيعية عن التعرف على الكلام ، فهي مجال "معقد" للغاية. يعتبر التعرف على الكلام مجرد مهمة واحدة لتحويل الأصوات إلى نص ، حتى لو زائد المهام ذات الصلة مثل تركيب الكلام والتعرف على المتحدث بعيدة كل البعد عن المقارنة مع عدد مهام معالجة اللغة الطبيعية. الهدف النهائي من معالجة اللغة الطبيعية هو السماح للآلات بفهم اللغة البشرية ، والفهم مفهوم غامض للغاية. قد أعرف معنى كل كلمة في نظرية النسبية ، لكن هذا لا يعني أنني أفهم نظرية النسبية.

لهذا السبب ، أنا هنا انتباه هذه طرق أكثر عمومية ، والتي يمكن استخدامها في العديد من المجالات الفرعية بدلاً من قصرها على مهمة محددة.

تختلف اللغة الطبيعية والكلام المستمر عن الصور ، فهي نظام رموز منفصل ومجرّد أنشأه البشر. تمثيلات السمات التقليدية هي طرق تمثيل منفصلة ومتناثرة ، وقدرتها على التعميم ضعيفة للغاية. على سبيل المثال ، هناك الكثير من "طقس بكين" في بيانات التدريب ، ولكن ليس هناك الكثير من "طقس شنغهاي" ، فإن النتائج التي تنبأت بها ستكون مختلفة تمامًا أثناء التصنيف. لكن من المرجح أن تظهر "بكين" و "شنغهاي" في سياقات متشابهة ، وهذا النوع من التمثيل لا يمكنه الاستفادة من مثل هذه المعلومات.

في عام 2003 ، اقترح بنجيو نموذجًا للغة الشبكة العصبية في الورقة البحثية "نموذج اللغة الاحتمالية العصبية". يتم ترميز الكلمة في متجه كثيف منخفض الأبعاد من خلال مصفوفة التضمين ، وذلك لتحقيق مشاركة سياقات مماثلة - مثل " غالبًا ما تظهر "بكين" و "شنغهاي" في سياقات متشابهة ، فسيتم ترميزها في نواقل متشابهة نسبيًا ، بحيث حتى إذا لم يظهر "طقس شنغهاي" كثيرًا في بيانات التدريب ، يمكن منحه قيمة أكبر بواسطة "طقس بكين" احتمالا.

لكن في عام 2003 ، لم يكن الجميع كثيرًا انتباه الشبكة العصبية ، لذلك لم يكن لهذه المقالة الكثير من أعمال المتابعة في ذلك الوقت. بعد عام 2012 ، حققت الشبكات العصبية العميقة تقدمًا كبيرًا في مجالات رؤية الكمبيوتر والتعرف على الكلام ، ومن الطبيعي جدًا تطبيقه في مجال معالجة اللغة الطبيعية. ولكن توجد مشكلة في الوقت الحالي - لا يوجد الكثير من بيانات التعليقات التوضيحية الخاضعة للإشراف. يرتبط هذا في الواقع بحقيقة أن معالجة اللغة الطبيعية المذكورة سابقًا "معقدة" للغاية.

هناك عدد كبير جدًا من المهام لمعالجة اللغة الطبيعية. باستثناء بعض المهام الموجهة مباشرةً إلى التطبيقات والتي لها متطلبات عملية قوية ، مثل الترجمة الآلية ، التي تحتوي على المزيد من البيانات ، تكون بيانات التعليقات التوضيحية لمعظم المهام محدودة للغاية. بالمقارنة مع ImageNet مثل الملايين من مجموعات البيانات المصنفة أو مجموعات البيانات المصنفة للتعرف على الصوت لآلاف الساعات ، فإن العديد من البيانات المصنفة لمعالجة اللغة الطبيعية تكون بترتيب عشرات الآلاف على الأكثر مئات الآلاف. يتم تحديد ذلك من خلال خصائص معالجة اللغة الطبيعية ، لأنها مرتبطة بأعمال محددة. لذلك ، ما يحتاج إلى حل عاجل في مجال معالجة اللغة الطبيعية هو كيفية تعلم المعرفة المفيدة من البيانات غير المصنفة ، والتي تشمل المعرفة النحوية والدلالية والمعرفة العالمية.

ميكولوف وآخرون 2013 لقد بدأت هذه الرحلة في "التقدير الفعال لتمثيل الكلمات في مساحة المتجهات" و "التمثيلات الموزعة للكلمات والعبارات وتركيبتها". يمكن لـ Word2Vec تعلم متجهات الكلمات الجيدة جدًا ببساطة وكفاءة ، كما هو موضح في الشكل أدناه.

الشكل: متجه كلمات Word2Vec

من الشكل أعلاه ، يمكننا أن نجد أنه قد تعلم بالفعل بعض المعرفة الدلالية ، ويمكن أن يكون مشابهًا لـ "man-woman = king-queen" من خلال حساب المتجه.

يمكننا استخدام متجهات الكلمات هذه كقيم أولية لمهام أخرى. إذا كانت كمية البيانات في مهمة المصب صغيرة ، فيمكننا حتى إصلاح متجهات الكلمات المدربة مسبقًا ، ثم ضبط معلمات المستوى الأعلى فقط. اقترح بنينجتون وآخرون نموذج GloVe في بحثهم لعام 2014 بعنوان "القفاز: المتجهات العالمية لتمثيل الكلمات".

لكن Word2Vec لا يمكنه اعتبار المعلومات السياقية ، على سبيل المثال ، كلمة "بنك" تعني الضفة والشاطئ. لكن لا يمكنه الحكم على أي معنى في الجملة ، لذلك يمكنه فقط ترميز هذين الدلاليين في هذا المتجه في نفس الوقت. ولكن في جملة محددة في تطبيقات المصب ، هناك حاجة إلى دلالة واحدة فقط. بالطبع ، هناك أيضًا محاولات لحل مشكلة الكلمات متعددة المعاني ، مثل "التقدير غير البارامتي الفعال للتضمينات المتعددة لكل كلمة في Vector Space" بواسطة Neelakantan et al. في 2014 ، لكنها لم تكن ناجحة جدًا.

أداة أخرى لحل السياق هي RNN. لكن RNN العادي لديه مشكلة اختفاء التدرج ، لذلك يتم استخدام LSTM بشكل أكثر شيوعًا. تم اقتراح LSTM من قبل Sepp Hochreiter و Jrgen Schmidhuber في وقت مبكر من عام 1997. تم استخدامه على نطاق واسع فقط في مهام معالجة اللغة الطبيعية في حوالي عام 2016 وأصبح المعيار "الفعلي" لمعالجة النصوص في ذلك الوقت - اعتقد الجميع أن أي مهمة يجب أن تستخدم أولاً LSTM. بالطبع ، يتم أيضًا استخدام المتغيرات الأخرى لـ LSTM و GRU المقترح حديثًا على نطاق واسع. بالإضافة إلى تعلم العلاقات الدلالية للسياق ، يمكن لـ RNN أن تحل نظريًا التبعيات الدلالية لمسافات طويلة (بالطبع ، حتى لو تم تقديم آلية البوابة ، في الواقع ، لا يزال من الصعب تعلم العلاقات الدلالية الطويلة جدًا).

الصورة: LSTM

مدخلات العديد من NLPs عبارة عن تسلسل ، والمخرج هو أيضًا تسلسل ، ولا يوجد ترتيب صارم ومراسلات بينهما. من أجل حل هذه المشكلة ، تم اقتراح نموذج seq2seq. الاستخدام النهائي لـ seq2seq هو الترجمة الآلية. استخدم Sutskever et al. نموذج seq2seq للترجمة الآلية لأول مرة في ورقة عام 2014 بعنوان "تسلسل إلى تسلسل التعلم باستخدام الشبكات العصبية" ، وقدم باهدانو وآخرون آلية الانتباه لأول مرة في الورقة "الترجمة الآلية العصبية عن طريق التعلم المشترك للمحاذاة والترجمة" الترجمة الآلية ، والتي يمكنها تحسين تأثير ترجمة الجمل الطويلة. في الورقة البحثية "نظام الترجمة الآلية العصبية من Google: سد الفجوة بين الترجمة البشرية والآلية" ، قدمت Google بعضًا من خبرتها في استخدام الترجمة الآلية للشبكة العصبية في نظامها الفعلي. وهذا هو أول نظام ترجمة للشبكات العصبية يتم تطبيقه في الصناعة.

الصورة: LSTM

seq2seq plus Attention أصبح أسلوبًا قياسيًا لحل العديد من المشكلات ، بما في ذلك أنظمة التلخيص والأسئلة والأجوبة وحتى الحوار. أصبح نموذج seq2seq الشامل هذا شائعًا.

في عام 2017 ، دفعت Google بآلية الانتباه إلى أقصى حد في "الاهتمام هو كل ما تحتاجه" ، واقترحت نموذج المحولات. نظرًا لأن الانتباه يمكن أن يكون متوازيًا بشكل أفضل من RNN ، ويمكن لآلية الانتباه الذاتي الخاصة به تشفير المعلومات السياقية في نفس الوقت ، فقد حققت النتيجة الأولى في بيانات WMT14 المترجمة آليًا.

الصورة: الترجمة الآلية العصبية

ولكن في الواقع ، تحظى "الذاكرة" أيضًا بشعبية في نفس وقت "الانتباه" ، وكان هذا في حوالي عام 2015 ، عندما كانت "العقل والانتباه والذاكرة" (يشار إليها باسم RAM) شائعة. أتذكر أن NIPS كان لديها أيضًا ورشة عمل RAM. الذاكرة هي زيادة تجريد خلية LSTM وتحويلها إلى آلية تخزين ، تمامًا مثل ذاكرة الكمبيوتر ، ثم اقتراح الكثير من النماذج المعقدة ، بما في ذلك Neural Turing Machine (NTM) ، وما إلى ذلك ، بما في ذلك السماح للشبكة العصبية تلقائيًا بتعلم الخوارزميات مثل الفرز. في ذلك الوقت ، كانت شائعة أيضًا لبعض الوقت ، لكنها في النهاية لم تحل أي مشاكل عملية.

على الرغم من أن RNN / Transformer يمكنه تعلم العلاقات الدلالية السياقية ، باستثناء بعض المهام مثل الترجمة الآلية ، فإن معظم المهام تحتوي على القليل جدًا من بيانات التدريب. لذلك ، أصبحت كيفية استخدام مجموعة المعلومات غير الخاضعة للإشراف لتعلم العلاقات الدلالية السياقية موضوعًا مهمًا للغاية. استمر هذا الاتجاه من 2018 إلى الوقت الحاضر ، بما في ذلك Elmo و OpenAI GPT و BERT و XLNet ، وما إلى ذلك. انتباه .

ELMo هو اختصار لـ Embeddings من نماذج اللغة ، مما يعني (الجملة) التضمين الذي تم الحصول عليه بواسطة نموذج اللغة. بالإضافة إلى ذلك ، إلمو هو اسم الوحش الصغير في برنامج الأطفال التعليمي الأمريكي شارع سمسم. الورقة الأصلية هي "تمثيلات كلمة ذات سياق عميق" ، وهذا العنوان مناسب جدًا ، وهو استخدام نموذج المحولات العميقة لتعلم تمثيلات الكلمات الحساسة للسياق.

إن فكرة هذه الورقة في الواقع بسيطة للغاية ، لكنها حققت نتائج جيدة جدًا. الفكرة هي استخدام RNN (LSTM) العميق ثنائي الاتجاه لتدريب نموذج لغوي على كمية كبيرة من البيانات غير المسماة ، كما هو موضح في الشكل أدناه. ثم في المهمة الفعلية ، بالنسبة لجملة الإدخال ، نستخدم نموذج اللغة هذا لمعالجتها والحصول على متجه الإخراج ، لذلك يمكن اعتبار ذلك بمثابة استخراج ميزة. ولكن على عكس التدريب المسبق على Word2Vec أو GloVe العادي ، فإن التضمين الذي حصلت عليه ELMo هو سياق.

على سبيل المثال ، يمكننا أيضًا الحصول على تضمين كلمة "bank" باستخدام Word2Vec. يمكننا أن نعتقد أن هذا التضمين يحتوي على دلالات البنك. لكن للبنك معانٍ عديدة. يمكن أن يكون بنكًا أو جانبًا مائيًا. وباستخدام Word2Vec العادي كتضمين للتدريب المسبق ، يمكنك فقط ترميز كلتا الدلالات في المتجه في نفس الوقت ، ثم الاعتماد على النموذج الأخير مثل RNN لاختيار النموذج المناسب وفقًا للسياق. دلالات - مثل سياق المال ، فمن المرجح أن يكون بنكًا ؛ وإذا كان السياق هو النهر ، فمن المرجح أن يعني الماء. ولكن لكي تتعلم RNN هذا النوع من العلاقة السياقية ، فإنها تحتاج إلى الكثير من بيانات التعليقات التوضيحية ذات الصلة لهذه المهمة ، والتي لا تتوفر في كثير من الحالات. يمكن اعتبار استخراج ميزة ELMo حساسًا للسياق.إذا كانت جملة الإدخال تحتوي على مال ، فيجب أن تكون (أو نتوقع) قادرة على معرفة المزيد من الدلالات الممكنة للبنك ، وذلك لمساعدتنا في اختيار تشفير أكثر ملاءمة.

الشكل: نموذج لغة RNN

معلمات نموذج اللغة التي تعلمتها ELMo ثابتة ، وتتخذ المهام النهائية حالتها المخفية كميزة. سيتم تعديل نموذج OpenAI GPT المأخوذ من الورقة البحثية "تحسين فهم اللغة عن طريق التدريب الأولي التوليدي" وفقًا لمهام محددة (عادة ما يتم ضبطها بدقة) ، بحيث يمكن أن يتكيف تمثيل الجملة الناتج بشكل أفضل مع مهام محددة. فكرتها بسيطة للغاية في الواقع ، استخدم Transformer لتعلم نموذج لغوي ، وتضمين الجمل بدون إشراف ، ثم ضبط معلمات Transformer وفقًا لمهام محددة. نظرًا لأن إدخال نموذج لغة المهام المدربة عبارة عن جملة واحدة ، ولكن العديد من المهام النهائية لها مدخلين ، فإن OpenAI GPT تعالج مدخلين عن طريق إضافة فاصل خاص قبل الجملتين ، كما هو موضح في الشكل التالي.

الشكل: طريقة OpenAI GPT لمعالجة المهام النهائية

حقق OpenAI GPT نتائج جيدة للغاية ، متجاوزًا الرقم السابق في العديد من المهام.

أكبر مشكلة في ELMo و GPT هي أن نموذج اللغة التقليدي أحادي الاتجاه - نتوقع الكلمة الحالية بناءً على التاريخ السابق. لكن لا يمكننا استخدام المعلومات الأخيرة. على سبيل المثال ، الجملة "لم يعبر الحيوان الشارع لأنه كان متعبًا جدًا". عند ترميز دلالاتها ، نحتاج إلى استخدام المعلومات قبلها وبعدها ، لأنها في هذه الجملة قد تشير إلى حيوان أو شارع. وفقا للتعب ، نستنتج أنه يشير إلى الحيوان ، لأن الشارع لا يمكن أن يتعب. لكن إذا تغيرت متعبًا إلى عريض ، فهذا يشير إلى الشارع.

يمكن لنموذج اللغة التقليدي ، سواء كان RNN أو Transformer ، استخدام المعلومات أحادية الاتجاه فقط. على سبيل المثال ، RNN الأمامي ، عند ترميزه ، فإنه يرى حيوانًا وشارعًا ، لكنه لم ير متعبًا بعد ، لذلك لا يمكنه التأكد مما يشير إليه. إذا كانت RNN متخلفة ، فإنها ترى التعب عند الترميز ، لكنها لم ترَ حيوانًا على الإطلاق ، لذلك لا يمكنها معرفة أنها تشير إلى حيوان. يمكن لمحول الانتباه الذاتي من الناحية النظرية أن يحضر هاتين الكلمتين في نفس الوقت ، ولكن وفقًا للمقدمة السابقة ، لأننا بحاجة إلى استخدام Transformer لتعلم نموذج اللغة ، يجب علينا استخدام Mask لجعله غير مرئي للمعلومات المستقبلية ، لذلك لا يمكن حل هذه المشكلة.

إذن كيف تحل مشكلة أن نموذج اللغة لا يمكنه استخدام المعلومات إلا في اتجاه واحد؟ الإجابة هي أن تدريبها قبل التدريب ليس نموذجًا للغة عادية ، بل هو نموذج لغة قناع. تم اقتراح هذه الفكرة في ورقة Google "التدريب المسبق للمحولات ثنائية الاتجاه العميقة لفهم اللغة" ، وهو نموذج BERT الذي نعرفه الآن.

بمجرد ظهور BERT ، اكتسح العديد من قوائم تقييم البرمجة اللغوية العصبية ، مما تسبب في حدوث عظيم انتباه . تمامًا كما أشادت وسائل الإعلام ببيرت بكلمات مثل "أقوى نموذج في البرمجة اللغوية العصبية" ، ظهرت XLNet مؤخرًا ، والتي اكتسحت مرة أخرى القوائم الرئيسية. يعتقد أن BERT لديه مشكلتين رئيسيتين: يفترض أن الكلمات التي يتم إخفاءها مستقلة نظرًا للكلمات الأخرى غير المقنعة ، فإن هذا الشرط لا يصح ؛ عندما يقدم التدريب المسبق خاصًا ، لكن التنقيح لا يحدث ، سيؤدي هذا إلى عدم تطابق. تستخدم XLNet نموذج لغة التقليب لحل مشكلة تدفق المعلومات أحادي الاتجاه في نموذج اللغة العامة ، وتعتمد على مزايا Transformer-XL. من خلال Two-Stream Self-Attention لحل مشكلة الهدف غير المدرك ، تجاوز النموذج النهائي المدرب BERT لإنشاء سجلات جديدة في العديد من المهام.

تعزيز التعلم

التعلم المعزز والرؤية والسمع واللغة ليست في الواقع على نفس المستوى. إنها نوع من آلية التعلم (الخوارزمية) الموازية للتعلم تحت الإشراف والتعلم غير الخاضع للإشراف ، لكنني أعتقد أن التعلم المعزز هو نوع مهم جدًا من التعلم آلية.

إن خاصية التعلم تحت الإشراف هي أن هناك "معلم" "يشرف" علينا ويخبرنا بالنتيجة الصحيحة. عندما كنا صغارًا ، كان المعلمون يأتون ليعلمونا ، وفي الأساس ، يعد التعلم تحت الإشراف نوعًا من نقل المعرفة ، ولكن لا يمكن اكتشاف معرفة جديدة. بالنسبة للإنسانية ككل ، المصدر الحقيقي (أو حتى الوحيد) للمعرفة هو الممارسة - أي التعلم المعزز. على سبيل المثال ، عندما تذوق Shennong طعم Baicao ، لم يكن البشر يعرفون أي عشب يمكن أن يعالج الأمراض في البداية ، لكن يمكنهم تعلم معرفة جديدة عن طريق المحاولة. يتم تسجيل المعرفة المكتسبة في اللغة وتنتقل من جيل إلى جيل ، حتى يتمكن المجتمع البشري ككل من الاستمرار في التقدم.

على عكس التعلم تحت الإشراف ، لن "يشرف" علينا أي "معلم". على سبيل المثال ، عند لعب Go ، لن يخبرنا أحد ما هي أفضل حركة في الوضع الحالي. فقط عندما تنتهي اللعبة ، سنعرف النتيجة النهائية. نحتاج إلى إعادة (تعلم) أي حركة جيدة وأي حركة سيئة. . العالم الطبيعي هو نفسه ، ولن يخبرنا ما إذا كان علينا التعاون مع الآخرين ، ولكن من خلال بقاء الأصلح ، سيقول في النهاية أن المجتمع الذي نساعد فيه بعضنا البعض سيكون أكثر تنافسية. بالمقارنة مع التعلم السابق الخاضع للإشراف وغير الخاضع للإشراف ، هناك فرق كبير: يمكن أن يؤثر العامل في التعلم المعزز على البيئة من خلال العمل - كل خطوة نقوم بها ستغير الموقف ، والذي قد يصبح أفضل أو أسوأ. .

المشكلة الأساسية التي تريد حلها هي أنه في حالة وجود دولة ، نحتاج إلى الحكم على قيمتها (القيمة). القيمة والمكافأة (المكافأة) هما المفهومان الأساسيان للتعلم المعزز. بالنسبة للوكيل (الجسم الرئيسي للتعلم المعزز) ، يتم الحصول على المكافأة فورًا أو داخليًا أو حتى بطبيعتها. على سبيل المثال ، في حالة الجوع ، سيكون هناك مكافأة للأكل. القيمة متأخرة ويجب حسابها ودراستها بعناية. على سبيل المثال ، إذا شعرت بالجوع وسرقت شيئًا لتأكله ، فيمكنك الحصول على مكافأة ، ولكن من منظور القيمة ، هذا (ربما) ليس عملًا جيدًا. لما لا؟ على الرغم من أن التعلم تحت إشراف الإنسان ، على سبيل المثال ، أخبرنا الحكماء أن هذا ليس أخلاقيًا وليس سلوكًا جيدًا. ولكن كما قلنا من قبل ، فإن المصدر النهائي للمعرفة البشرية هو التعلم المعزز ، فأين يعرف الحكماء؟ يعتقد بعض الناس أنه يأتي من الله أو من الطبيعة البشرية ، مثل "الطبيعة البشرية جيدة في البداية". إذا تم شرح ذلك من منظور التطور ، فإن البشر يلعبون في الواقع لعبة "البقاء". هناك أشخاص يتبعون الأخلاق وأشخاص لا يتبعون. ستخبرنا الطبيعة بالنتيجة النهائية من خلال البقاء للأصلح ، وفي النهاية سيتعلم حكماؤنا لقد وصلت (في الواقع ، لقد تم اختياري) هذه القواعد الأخلاقية ، وقد تم تمرير هذه القواعد من جيل إلى جيل من خلال التعليم (التعلم تحت الإشراف).

نظرًا لأن التعلم المعزز هو مجرد طريقة ، فلديه تطبيقات في العديد من المجالات. تعد الروبوتات والتحكم والألعاب أكثر مجالات التطبيق شيوعًا ، ولكن المجالات الأخرى ، بما في ذلك أنظمة الحوار لمعالجة اللغة الطبيعية ، غالبًا ما تستخدم تقنيات التعلم المعزز. يمتلك التعلم المعزز والتعلم الآلي العديد من الأساليب: وفقًا لما إذا كانت البيئة مصممة أم لا ، يمكن تقسيمها إلى أساليب قائمة على النموذج وخالية من الوضع ؛ وفقًا لما إذا كانت هناك وظيفة قيمة ، يمكن تقسيمها إلى طريقة قائمة على القيمة وتدرج في السياسة ، ولكن يمكن تقسيمها اجمع احصل على طريقة الممثل الناقد ...

تركيزنا هنا انتباه التعلم العميق والتعلم المعزز اجمع بعض الطرق.

يطبق مقال "التحكم على مستوى الإنسان من خلال التعلم العميق المعزز" الذي نشرته Google DeepMind في Nature نموذج التعلم التعزيزي الشامل من طرف إلى طرف Deep Q-Networks لأول مرة. مدخلاته هي قيمة البكسل لشاشة اللعبة ، والمخرج هو اللعبة. أمر التحكم ، يظهر مبدأه في الشكل أدناه.

الصورة: Deep Q-Networks

استخدم Experience Replay لتجنب الارتباط بين بيانات المسار نفسها ، وفي نفس الوقت أدخل Target Network لحل مشكلة عدم استقرار الهدف.في 49 لعبة من Atari 2600 ، تحتوي Deep Q-Networks على 29 لعبة مع نقاط من البشر. أكثر من 75 من الألعاب ، 23 منها سجل أكثر من لاعب بشري ، كما هو مبين في الشكل أدناه.

الشكل: نتيجة Deep Q-Networks على منصة Atari2600

تشمل تحسينات المتابعة الخاصة بشركة Deep Q-Networks "إعادة عرض التجربة ذات الأولوية" و "التعلم المعزز العميق باستخدام تقنية Q-Learning المزدوجة" و "قوس قزح: الجمع بين التحسينات في التعلم المعزز العميق".

يشمل عمل فئة التدرج في السياسة "تحسين سياسة منطقة الثقة" (TRPO) ، وخوارزميات التدرج في السياسة الحتمية (DPG) ، و "تدرجات السياسة المتوقعة لتعلم التعزيز" ، و "خوارزميات تحسين السياسة القريبة" (PPO) ، إلخ.

من حيث الألعاب ، نشر Google DeepMind سلسلة مقالات AlphaGo و AlphaGoZero و AlphaZero المألوفة.

بعد حل Go ، الجميع أيضًا انتباه يتم وضع النقاط في الألعاب الإستراتيجية في الوقت الفعلي ، بما في ذلك لعبة DeepMind's "AlphaStar: An Evolutionary Computation Perspective" و OpenAI Five التي حققت تقدمًا كبيرًا في كل من StarCraft 2 و Dota 2.

بالإضافة إلى ذلك ، كانت هناك بعض التطورات الجديدة في Meta Learning و Imitation Learning و Inverse Reinforcement Learning ، والتي لن نقوم بإدراجها جميعًا هنا.

نظرة مستقبلية

أحد الاتجاهات الحديثة الأكثر وضوحًا هو تقدم التعلم غير الخاضع للإشراف (شبه الخاضع للإشراف). أولاً وقبل كل شيء ، في مجال معالجة اللغة الطبيعية.وفقًا للتحليل السابق ، كان من المتوقع دائمًا أن تكون خصائص هذا المجال مع المزيد من المهام والبيانات الأقل إشرافًا تقدمًا في هذا الاتجاه. . في مجال رؤية الكمبيوتر ، رأينا أيضًا آخر تقدم في Google DeepMind ، وأعتقد أنه سيكون هناك المزيد من الإنجازات. من الناحية النسبية ، كان التقدم في مجال التعرف على الكلام أبطأ ، ناهيك عن عدم الإشراف عليه ، حتى أن النقل من مجموعة بيانات واحدة (سيناريو التطبيق) إلى مجموعة بيانات أخرى (سيناريو) أمر صعب. على سبيل المثال ، لدينا الكثير من بيانات لغة الماندرين ، كيف يمكننا استخدام كمية صغيرة من البيانات حتى نتمكن من إجراء تعريف جيد على لغة الماندرين الأخرى مع اللهجات. على الرغم من وجود العديد من تقنيات التكيف ، إلا أنه لا يزال من الصعب تلبية التوقعات بشكل عام.

والآخر هو أن نظام End-to-End لم يتم استخدامه على نطاق واسع في الصناعة (باستثناء ادعاء Google باستخدامه). بالطبع ، هذا مرتبط باللاعبين القلائل نسبيًا في مجال الصوت.علاوة على ذلك ، يعمل النظام الحالي بشكل جيد ، ولا يوجد إطاحة كاملة. ضروري (إلا إذا كانت أساليب التعلم العميق في مجال رؤية الكمبيوتر تتجاوز الأساليب التقليدية). بعد تحويل HMM-GMM الأصلي إلى HMM-DNN ، زائد لا يزال بإمكان التدريب التمييزي المتسلسل والتكيف المتنوع الحصول على تأثير SOTA ، لذلك من الناحية النسبية ، فإن الدافع لاستخدام من طرف إلى طرف غير كافٍ. على الرغم من أن المجتمع الأكاديمي يتطور بقوة في هذا الاتجاه ، إلا أن مشغلات الصوت القديمة (خارج Google) لا تشتريها كثيرًا.

على المدى الطويل ، لتحقيق الذكاء الاصطناعي "الحقيقي" ، أعتقد أنه يجب أن يفعل ذلك اجمع الرؤية والسمع (حتى التذوق واللمس وما إلى ذلك) واللغة ، باستخدام أساليب التعلم غير الخاضعة للإشراف والمراقبة والمعززة ، دع "الآلة" تتمتع بجسم يمكن التحكم فيه بنفسه ، والاندماج في العالم المادي "الحقيقي" والبشر مثل طفل يبلغ من العمر ثلاث سنوات المجتمع ممكن. بالإضافة إلى التقدم التكنولوجي ، يتطلب هذا اختراقًا كبيرًا في تفكيرنا البشري ليكون ممكنًا.

النهاية

استكشف المقابلة

بدءًا من Suzhou ، يخطط قسم التحرير في TechSugar لزيارة المئات من شركات أشباه الموصلات الإلكترونية ، والاقتراب من الخطوط الأمامية للمؤسسات ، واستكشاف حقيقة الصناعة ، وتقديم تقارير أكثر واقعية وأساسية ، وإعطاء الشركات المحلية فرصة للتحدث. نرحب بالعمل اترك رسالة أو خطاب خاص الاتصال بمسائل المقابلة.

استكشف المقابلة

وتشكو شبكة بطانية الطائرة كان أقل من العنف، والأحزاب المدونات الصغيرة الاعتذار، ولكن هذه المرة لمستخدميها للشكوى

190612 "لإنشاء معسكر 2019" للحد من التعرض للمشهد احتفال حزب أليس كلام الله مع الأقارب جمع الموقع

التعرض لطخة الجمعية AI بايدو ما هي مشكلتك ليست المحافظة

التوظيف المحاكمة: الأمطار الموسم القاتل، SOTHING إلى الاستراحات وجوه

190612 'الآن بوسان الوضع "المشجعين بوسان سوف فتيان بانقتان تلبية-الاحماء، وتحولت الأرجواني

190612203 تشى ستار الشبكة تأثير مؤشر تشو ييلونغ سبعة من المؤشرات التسعة الأولى

على النقيض من البلدان ذات التكاليف حزمة 5G، إلى أي مدى يمكن لك؟

الحذف؟ النسخة الكاملة من أغنية عيد الميلاد وهناك ثلاثة أقسام من كلمات! العضو: لم يكن الفقرة الثالثة شعبية لسبب

NVIDIA الشائعات استجابة مسبك، أغسطس، وسوف فوكسكون تنتج اي فون الجديد في الهند؛ ميديا تيك بدءا 8K رقائق TV الذكية S900 أخبار اكسبرس

190612 الملاك إلى الأرض! Dilly ريبا اليوم وتشن "التحدي الأكبر" سجل رويترز

"الشعبية العلوم" FET الترانزستور VS

WatchOS 6، فقد حان الوقت لترك اي فون