60 عامًا من التاريخ الفني ، تأخذك إلى فهم الماضي والحاضر من الذكاء الاصطناعي

مصرح به من معسكر قاعدة تكنولوجيا الذكاء الاصطناعى (ID: RGZNAI100)

هذه المقالة حوالي 10000 كلمة ، يوصى بالقراءة 20 دقيقة.

يقدم هذا المقال بشكل شامل التاريخ الموجز لتطوير الذكاء الاصطناعي ، والتقدم الرئيسي لمختلف المجالات ، ويتطلع إلى المستقبل.

تاريخ التطور البشري والتنمية هو تاريخ من الأدوات البشرية والاستخدام ، وتمثل الأدوات المختلفة مستوى التطور البشري. من عصر العصر الحجري ، عصر الحديد ، عصر البخار ، والعصر الكهربائي لعصر المعلومات الحالية ، نستخدم أدوات أكثر تقدمًا ومريحة لتغيير الإنتاج والحياة.

الغرض من الأداة هو تمديد وتوسيع قدرة البشر. لا نركض بسرعة ، لكن يمكننا استخدام ركوب الخيل وقيادة آلاف الأميال في اليوم ، ولن يقفز ، ولن يطير ، ولكن صواريخ الطائرة تذهب إلى السماء. بشكل عام ، يمكن تقسيم الأدوات إلى فئتين: أدوات لتوسيع القوة البدنية البشرية والأدوات اللازمة لقوة الدماغ البشرية.

قبل اختراعات الكمبيوتر ، فإن معظم الأدوات التي يقدمها البشر هي الأولى ، والتي يمكن أن تساعدنا على تقليل العمل البدني. على سبيل المثال ، يكون استخدام الماشية أو الجرارات أكثر كفاءة. بالطبع ، هناك كمية صغيرة من الأدوات للحد من العمل العقلي ، مثل Abacus ، بما في ذلك النص -يمكن أن يوسع بشكل كبير قدرة الذاكرة البشرية. الآن يمكن إكمال العديد من عمالة الدماغ الميكانيكية بواسطة أجهزة الكمبيوتر. ومع ذلك ، لا يمكن أن تساعدنا برامج الكمبيوتر التقليدية فقط في توسيع الذاكرة وإكمال حساب الآلات البسيطة. لدينا المزيد من السعة والذاكرة الأسرع ، والتي يمكنها إعداد البرامج المالية للمساعدة في المحاسبة المالية.

لا يمكننا تحقيق الأشياء التي تحتاج إلى "ذكاء" لإكمالها. على سبيل المثال ، من المستحيل قيادة أجهزة الكمبيوتر لقيادة السيارات ، ولا يمكن لأجهزة الكمبيوتر توصيل التواصل اليومي مع البشر مثل البشر. الهدف من الذكاء الاصطناعي هو السماح لأجهزة الكمبيوتر بالتواصل كن مثل البشر. "حل هذه المشاكل المعقدة. في الوقت الحاضر ، تمكن نظام الذكاء الاصطناعي من هزيمة بطل العالم البشري أثناء التنقل. يمكن لنظام التعرف على الصوت الحالي الوصول إلى دقة الاعتراف الإنساني في بعض السيناريوهات المحددة. في المستقبل ، سيكون لدى الذكاء الاصطناعي المزيد من سيناريوهات التطبيق. هدفنا النهائي هو إنشاء آلات تشبه البشر وحتى تجاوز الذكاء البشري.

تاريخ موجز لتنمية الذكاء الاصطناعي

قد يتم إرجاع أقدم استكشاف للذكاء الاصطناعي إلى لايبنيتز. حاول إنشاء آلات يمكن أن تؤدي حسابات رمزية تلقائية ، ولكن بمعنى حديث ، ولد مصطلح الذكاء الاصطناعي في مؤتمر Datmouth في عام 1956.

هناك العديد من التعريفات حول الذكاء الاصطناعي. إنه الانصهار الصليب للعديد من التخصصات في حد ذاته. ينتبه أشخاص مختلفين لجوانبها المختلفة ، لذلك من الصعب إعطاء تعريف يتعرف عليه الجميع. دعونا نفهم عملية الذكاء الاصطناعي من خلال سياق الزمن.

الفترة الذهبية (1956-1974)

هذه فترة ذهبية من الذكاء الاصطناعي. يتم استخدام كمية كبيرة من الأموال لدعم البحث وتطوير هذا الانضباط. تشمل الأبحاث المؤثرة خلال هذه الفترة حل المشكلات العام ، وأقدم روبوت الدردشة إليزا. يعتقد الكثير من الناس أن إليزا ، التي تتحدث معهم ، هي شخص حقيقي ، لكنها مجرد وسيلة بسيطة لتوليد استرداد بناءً على قوالب مطابقة (نستخدم الآن تقنيات مماثلة على روبوتات الدردشة في المدينة). في ذلك الوقت ، كان الناس متفائلين للغاية ، مثل انقطاع H. A. Simon في عام 1958 بأن أجهزة الكمبيوتر ستهزم البشر على الشطرنج التالي (الدولي). حتى أنه قال في عام 1965 أن "أجهزة الكمبيوتر ستكون قادرة على القيام بما يمكن للجميع فعله بعد عشرين عامًا".

أول فصل الشتاء البارد (1974-1980)

في هذه الفترة ، لم يتم الوفاء بالتأكيدات السابقة ، وبالتالي ظهرت أصوات الانتقادات المختلفة ، ولم تعد البلاد (الولايات المتحدة) تستثمر المزيد من الأموال ، ودخلت الذكاء الاصطناعي الشتاء البارد الأول. هذه الفترة هي أيضا الفترة المظلمة للاتصال. اقترح فرانك روزنبلات تصورًا في عام 1958 ، والذي يمكن اعتباره أقدم بحث على الشبكات العصبية. ولكن في السنوات العشر التالية ، لم يكن هناك الكثير من الأبحاث والتقدم.

فترة الازدهار (1980-1989)

يستفيد ازدهار هذه الفترة من شعبية نظام الخبراء. كما تطورت الشبكة العصبية للاتصال ، بما في ذلك جون هوبفيلد في عام 1982 ، اقترحت شبكة هوبفيلد ، وخوارزمية الاتصال العكسي الموجودة في نفس الفترة. ومع ذلك ، فإن الطريقة السائدة تعتمد على أنظمة الخبراء القائمة على الرمزية.

الشتاء البارد الثاني (1989-1993)

بسبب التكلفة العالية والأسباب الأخرى ، كان من الصعب النجاح نظام الخبراء الناجح السابق في العمل ، ودخل الذكاء الاصطناعي الشتاء البارد مرة أخرى.

فترة التطوير (1993-2006)

التيار الرئيسي للذكاء الاصطناعي خلال هذه الفترة هو التعلم الآلي. لقد دخل تطوير نظرية التعلم الإحصائية وشعبية أدوات SVM فترة من التطور الثابت للتعلم الآلي.

فترة الانفجار (2006-NOW)

إن تطور الذكاء الاصطناعي هذه المرة مدفوع بشكل أساسي بالتعلم العميق ، والذي يحركه الشبكات العصبية العميقة. على الرغم من أن الشبكة العصبية في عام 1980 حلت الشذوذ النظري من خلال وظائف التنشيط غير الخطية ، كما جعلت خوارزمية الاتصال العكسي الحد الأدنى من الشبكة العصبية. ومع ذلك ، نظرًا للقيود المفروضة على موارد الحوسبة والمهارات ، في ذلك الوقت ، لا يمكن تدريب الشبكة الأعمق. لم يكن التأثير الفعلي أفضل من طريقة التعلم الآلي "الضحل" التقليدي ، لذلك لم يكن هناك الكثير من الناس ينتبهون إلى هذا اتجاه.

حتى عام 2006 ، اقترح هينتون شبكات الاعتقاد العميق (DBN) ، مما جعل شبكة عصبية أعمق ممكنة من خلال طريقة التدريب. في عام 2009 ، استخدم Hinton و Dengli الشبكات العصبية العميقة (DNN) لتدريب النماذج الصوتية لأول مرة في نظام التعرف على الصوت. انخفض معدل خطأ كلمة النظام النهائي بشكل كبير.

ما يشتهر بالتعلم العميق في العالم الأكاديمي هو تقييم ILSVRC في عام 2012. قبل ذلك ، كان أفضل معدل خطأ في تصنيف Top5 أعلى من 25 ، وفي عام 2012 ، استخدم Alexnet شبكات تلافيفية عميقة في المنافسة وحقق معدل خطأ بنسبة 16 . بعد ذلك ، هناك نتائج جديدة كل عام. في عام 2014 ، Googlenet و VGG ، و 2015 هي الشبكة المتبقية Resnet. في الوقت الحالي ، يكون معدل خطأ تصنيف أفضل نظام في النظام أقل من 5 . ما سمح لمزيد من الناس (وخاصة الصينية) بفهم تقدم التعلم العميق هو ألفاغو الذي طورته Google Deepmind في عام 2016 لهزيمة بطل العالم البشري لي شيشي بنتيجة 4-1. ونتيجة لذلك ، دخل الذكاء الاصطناعي في فترة مزدهرة أخرى ، ويتم تنفيذ رأس المال على الاستثمار ، وحتى خطة تنمية الذكاء الاصطناعية الوطنية قد تم تقديمها واحدة تلو الأخرى.

التقدم الرئيسي في هذا المجال من عام 2006 إلى الوقت الحاضر
دعنا نراجع التقدم الرئيسي في التعلم العميق في مجالات رؤية الكمبيوتر ، السمع ، معالجة اللغة الطبيعية ، وتعزيز التعلم منذ عام 2006 ، وتحليل اتجاهات التطوير المستقبلية المحتملة بناءً على عملية تطويرها. نظرًا لقيود مستوى المؤلف ونقطة الاهتمام ، فإن بعض المقالات التي يفهمها المؤلف فقط ، لذلك ستفقد بالتأكيد بعض المهام المهمة.

رؤية الكمبيوتر

unducleate قبل التدريب

على الرغم من أن العديد من نماذج التعلم العميق "الحديث" ، مثل DNN و CNN و RNN (LSTM) ، تم اقتراحها في وقت مبكر ، ولكن قبل عام 2006 ، لم يكن لدى الجميع طريقة لتدريب العديد من الطبقات من الشبكات العصبية. الآثار لا يوجد اختلاف كبير في التعلم الآلي.

في عام 2006 ، في أطروحة "خوارزمية تعليمية سريعة لشبكات الاعتقاد العميق" ، طريقة تأخر شبكات الاعتقاد العميق (DBN) والطريقة النهائية للإشراف على طريقة الضبط الدقيقة التي تم تصنيعها من خلال تدريب الجشع المتعدد - طبقة (خمس طبقات) الشبكات العصبية. النقطة الساخنة للبحث منذ ذلك الحين هي كيفية استخدام التدريب الفني المختلفة للشبكات العصبية. تستمر هذه العملية حتى عام 2010. الفكرة الرئيسية هي استخدام العديد من أساليب التدريب غير الخاضعة للإشراف. بالإضافة إلى DBN ، يتم اقتراح آلات التقيد Boltzmann (RBM) ، وآلات Boltzmann العميقة (DBM) ، وتوضيح أجهزة الترميز التلقائي وغيرها من الطرز خلال هذه الفترة.

تشمل المقالات التمثيلية Hinton et al. "تم نشر أبعاد البيانات مع الشبكات العصبية" على الطبيعة) ، Bengio et al. " شبكات المعتقدات للتعلم غير الخاضع للإشراف للتمثيل الهرمي vincent 2010

trickyGlorotUnderstanding the difficulty of training deep feedforward neural networksXavierXavier GlorotNeural Networks: Tricks of the Tradetricks

الشبكة العصبية التلافيفية العميقة

AlexAlexNetLSVRC-2012 ImageNet20122016LSVRC

Alex Krizhevsky2012ImageNet classification with deep convolutional neural networks

2014GoogleNetGoing deeper with convolutionsInception22VGGNet18

2015ResNetDeep residual learning for image recognition1522016Identity Mappings in Deep Residual Networks

2016GoogleSzegedyInception-v4, inception-resnet and the impact of residual connections on learningIncpetion

LSVRCtop-5

LSVRC

CNNGirshick2014Rich feature hierarchies for accurate object detection and semantic segmentationR-CNNRegion ProposalCNN

R-CNN
2015GirshickFast R-CNNRoI PoolingRegional ProposalRenFaster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksFaster R-CNNRegion Proposal NetworksRPNRegion ProposalscaleLinFeature Pyramid Networks for Object DetectionFeature Pyramid NetworksFPN

Fast R-CNN

Faster R-CNN
R-CNNFaster R-CNNRoI PoolingRegion ProposalRoI Pooling2017Mask R-CNN

Mask R-CNN
End-to-End

In addition, Redmon et al. "You only look once: unified, real-time object detection" proposed the YOLO model (including subsequent Yolov2 and YOLOV3, etc.), and LIU et al. SSD: Single Shot Multibox Detector models, these models, these models, these models, these models, these models, these model models, these model models, these model models, these model models, these models. The purpose is to speed up the detection speed under the condition that the accuracy is not انخفضت.

يولد

Goodfellow2014Generative Adversarial NetsGAN

ImageNetDeepFake

style-transfer

A Neural Algorithm of Artistic Style2015GANAppPrismac

Neural Style Transfer

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworksCycleGANPairedPaired

Cycle GANDomain

CycleGAN

text-to-image

text-to-imageImage CaptioningZhang2016StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

StackGAN

super-resolution

super-resolutionEnhanced Super-Resolution Generative Adversarial Networks2018

ESRGAN

image inpainting

image inpaintingGenerative Image Inpainting with Contextual Attention

DeepFill

EdgeConnect: Generative Image Inpainting with Adversarial Edge Learninginpaintingedge generatorimage completion network

EdgeConnect

GoogleEfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

compound scaling method 2,,grid searchEfficientNet

EfficientNetGPipe8.4

Google DeepMindData-Efficient Image Recognition with Contrastive Predictive CodingContrastive Predictive CodingsoftmaxImageNetAlexNet

1313Top-520%10%ImageNet

التعرف على الكلام

HMMHMM-GMMsubword unittriphonesubword unitHMMHMM

Hinton20062009Deep belief networks for phone recognitionPretrainingDBN2010Phone Recognition using Restricted Boltzmann Machinesphonephone

Hinton2012Deep Neural Networks for Acoustic Modeling in Speech RecognitionDNNHMM-GMMGMMHMM-DNN2013SainathDeep convolutional neural networks for LVCSRCNNGeorgeImproving deep neural networks for LVCSR using rectified linear units and dropout

HMM-DNNGMMHMMN-gramDNNHMM-GMM

End-to-endRNN2013GravesSpeech Recognition with Deep Recurrent Neural NetworksRNNRNNCTCCTCDeep SpeechCTC2013Graves2006Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networksCTC

Hannun2014Deep Speech: Scaling up end-to-end speech recognitionHMM-DNNEnd-to-endDeep Speech 2: End-to-End Speech Recognition in English and MandarinDeep SpeechHMMGMMphone

CTCEnd-to-endEnd-to-endseq2seqListen, attend and spell: A neural network for large vocabulary conversational speech recognitionGoogleState-of-the-art Speech Recognition With Sequence-to-Sequence ModelsSOTASeq2Seq6.7%5.6%End-to-endAndrew NgIDLDeep SpeechDeep Speech2

الشكل التالي هو التأثير على مجموعة البيانات الشائعة. خذ لوحة التبديل كمثال. التقدم قبل عام 2006 بطيء نسبيًا ، ولكن بعد استخدام التعلم العميق ، يستمر معدل خطأ الكلمة في الانخفاض. الشكل في الشكل هو بيانات 2017 ، انخفض Microsoft من النظام إلى 6.3 من معدل خطأ الكلمة.

الشكل: تغيير معدل الخطأ في معدل الخطأ

معالجة اللغة الطبيعية

على عكس التعرف على الصوت ، فإن معالجة اللغة الطبيعية هي حقل "معقد" للغاية. التعرف على الصوت هو أصوات مهمة إلى نص ، حتى مع توليف الصوت ذي الصلة والتعرف على المتحدثين. تتم مقارنة عدد مهام معالجة اللغة. الهدف النهائي لمعالجة اللغة الطبيعية هو السماح للجهاز بفهم لغة البشر ، والتفاهم مفهوم غامض للغاية. قد أعرف معنى كل كلمة من النسبية ، لكن هذا لا يعني أنني أفهم نظرية النسبية.

لهذا السبب ، أنا هنا قلق بشأن طريقة أكثر عالمية. يمكن لهذه الطرق استخدام العديد من المندوب الفرعية بدلاً من أن تقتصر على مهمة محددة.

تختلف اللغة الطبيعية والصوت المستمر عن الصور. إنه نظام رمز تجريدي منفصل أنشأه البشر. الخصائص التقليدية كلها تمثيلات منفصلة ومتناثرة ، وقدرة التعميم الخاصة بهم ضعيفة. على سبيل المثال ، هناك الكثير من "الطقس في بكين" في بيانات التدريب ، ولكن لا يوجد "طقس شنغهاي" ، وبالتالي فإن الدرجات التي تتوقعها في التصنيف ستكون مختلفة تمامًا. ومع ذلك ، من المحتمل أن تظهر "بكين" و "شنغهاي" في كثير من الأحيان على سياقات مماثلة. لا يمكن لهذه الطريقة استخدام هذه المعلومات.

من عام 2003 ، اقترح بنجيو نموذج اللغة للشبكات العصبية في الورقة "نموذج لغة احتمالية عصبية". من خلال مصفوفة التضمين ، يتم تشفير كلمة إلى ناقل كثيف منخفض الأبعاد ، وذلك لتحقيق مشاركة سياق مماثلة -على سبيل المثال ، على سبيل المثال ، غالبًا ما يظهر "بكين" و "شنغهاي" في سياقات مماثلة ، وسيتم ترميزهما في متجهات مماثلة ، بحيث حتى لو لم يظهر "شنغهاي الطقس" في بيانات التدريب ، فيمكنهم أيضًا منحهم احتمالًا أكبر.

ومع ذلك ، في عام 2003 ، لم يولي الجميع الكثير من الاهتمام للشبكة العصبية ، لذلك لم يكن لهذه المقالة الكثير من العمل في ذلك الوقت. بعد عام 2012 ، أحرزت الشبكات العصبية العميقة تقدمًا كبيرًا في مجالات رؤية الكمبيوتر والتعرف على الصوت ، كما أنه من الطبيعي جدًا تطبيقه على مجال معالجة اللغة الطبيعية. ولكن في هذا الوقت ، في مواجهة مشكلة -لا يوجد عدد كبير من بيانات التسمية. يرتبط هذا بالفعل بمعالجة اللغة الطبيعية "المعقدة" المذكورة سابقًا.

هناك الكثير من المهام لمعالجة اللغة الطبيعية. بالإضافة إلى بعض المهام مثل عدد قليل من المواجهة مباشرةً للترجمة الآلية ولديها احتياجات عملية قوية ، هناك المزيد من البيانات. معظم المهام محدودة للغاية. بالمقارنة مع ملايين مجموعات بيانات وضع العلامات أو مجموعات بيانات التعرف على الصوت مثل ImageNet لآلاف الساعات ، فإن العديد من بيانات معالجة اللغة الطبيعية هي عشرات الآلاف من حجم ما يصل إلى مئات الآلاف. يتم تحديد ذلك من خلال خصائص علاج اللغة الطبيعية ، لأنه مرتبط بأعمال محددة. لذلك ، فإن ما يلزم بشكل عاجل لحلها في مجال معالجة اللغة الطبيعية هو كيفية تعلم المعرفة المفيدة في البيانات التي لم يتم وضع علامة عليها أبدًا. وتشمل هذه المعرفة القواعد ، والدلالات ، والمعرفة العالمية.

Mikolov et al. في عام 2013 ، "التقدير الفعال للكلمات المتدلية في مساحة المتجهات" و "إعادة التماثيل والعبارات الموزعة وتكوينها" بدأ هذه الرحلة. يمكن لـ Word2Vec المقترحون ببساطة تعلم متجه الكلمات الجيدة ، كما هو موضح في الشكل أدناه.

الشكل: ناقل كلمة Word2Vec
من الشكل أعلاه ، يمكننا أن نجد أنه يتعلم بعض المعرفة الدلالية ، ويمكنك الحصول على "رجل رجل = رقم الملك" من خلال حساب المتجه.

يمكننا استخدام هذه المتجهات الكلمة كقيمة أولية للمهام الأخرى. إذا كانت كمية المهام المصب صغيرة ، فيمكننا حتى إصلاح ناقلات الكلمات المدربة مسبقًا ، ثم ضبط المعلمات ذات المستوى الأعلى فقط. وضع Pennington et al. نموذج القفاز في أوراق 2014 "المتجهات العالمية لـ Word Redrerentation".

لكن لا يمكن لـ Word2Vec النظر في معلومات السياق ، مثل "البنك" يعني البنوك وحواف المياه. لكنه لا يمكن أن يحدد ما يعنيه في جملة معينة ، لذلك يمكنه فقط تشفير هذين الدلالة في هذا المتجه في نفس الوقت. ولكن في الجملة المحددة في تطبيق المصب ، لا يوجد سوى دلالات واحدة مطلوبة. بالطبع ، هناك أيضًا مشاكل تحاول حل كلمات متعددة الكلمات ، مثل Nelakantan وآخرون في عام 2014 "تقدير فعال غير باريامي لتوضيحات متعددة لكل كلمة في مساحة المتجهات" ، لكنها ليست ناجحة للغاية.

أداة أخرى لحل السياق هي RNN. ومع ذلك ، فإن RNN العادي لديه مشكلة اختفاء التدرج ، لذلك يتم استخدام LSTM بشكل أكثر شيوعًا. تم اقتراح LSTM بواسطة Seppp Hochreiter و Jrgen Schmidhuber في وقت مبكر من عام 1997. تم استخدام عدد كبير من مهام معالجة اللغة الطبيعية فقط في عام 2016 ، ليصبح معيارًا "حقيقة" لمعالجة النص في ذلك الوقت -يعتقد كل شيء أن أي مهمة يجب أن تستخدم LSTM أولاً. بطبيعة الحال ، يتم استخدام المتغيرات الأخرى من LSTM و New Grus على نطاق واسع. بالإضافة إلى تعلم العلاقات الدلالية للسياق ، يمكن أن يحل RNN نظريًا علاقة التبعية الدلالية الطويلة (بالطبع ، حتى لو تم تقديم آلية الباب ، لا تزال العلاقة الدلالية من الصعب التعلم).

الشكل: LSTM

العديد من مدخلات NLP هي تسلسل ، والإخراج هو أيضًا تسلسل ، ولا يوجد ترتيب صارم ومراسلات بينهما. لحل هذه المشكلة ، تم رفع نموذج SEQ2Seq. في النهاية ، تم استخدام الترجمة الآلية لاستخدام SEQ2Seq. Sutskever 2014 تسلسل التعلم مع الشبكات العصبية seq2seq يمكن للترجمة الآلية تحسين تأثير ترجمة الجمل الطويلة. وأطروحة Google "نظام ترجمة الآلة العصبية من Google: تقديم الفجوة بين الترجمة البشرية والآلية" قدمت بعض خبراتها في استخدام أنظمة ترجمة آلة الشبكة العصبية في الصناعة.

الشكل: LSTM
أصبح الاهتمام SEQ2Seq Plus طريقة قياسية لحل العديد من المشكلات ، بما في ذلك الملخصات ، والأسئلة والأجوبة ، وحتى أنظمة الحوار.

جوجل 2017 "الانتباه هو كل ما تحتاجه" دفع آلية الانتباه إلى أقصى الحدود ، واقترح نموذج المحول. نظرًا لأن الاهتمام يمكن أن يكون أفضل بالتوازي مقارنة بـ RNN ، ويمكن أن تشفر آلية الانتقاء الذاتي المعلومات الخاصة بالسياق في نفس الوقت ، فقد حقق النتيجة الأولى على بيانات WMT14 لترجمة الآلة.

الشكل: الترجمة الآلية العصبية

ومع ذلك ، في الواقع ، في نفس الوقت مثل الاهتمام ، شملت أيضًا "الذاكرة". ربما كان هذا في عام 2015. في ذلك الوقت ، "العقل ، الاهتمام والذاكرة" (يشار إليه باسم RAM) ، أتذكر أن ورشة عمل NIPS و RAM . تتمثل الذاكرة في مزيد من تجريد خلايا LSTM في آلية تخزين ، والتي يمكن أن تكون ذاكرة الكمبيوتر ، ثم تقترح الكثير من النماذج المعقدة ، بما في ذلك آلة تورينج العصبية (NTM) ، بما في ذلك الخوارزميات مثل السماح للشبكات العصبية بالتعلم تلقائيًا للفرز. في ذلك الوقت ، كان الجو حارًا أيضًا ، ولكن في النهاية ، لم تكن هناك مشكلة عملية.

على الرغم من أن RNN/Transformer يمكن أن يتعلم العلاقة الدلالية المعاصرة ، باستثناء كمية صغيرة من المهام مثل الترجمة الآلية ، فإن معظم المهام لديها عدد قليل من بيانات التدريب. لذلك ، أصبحت كيفية استخدام مجموعة غير خاضعة للإشراف لتعلم علاقة دلالية جيدة جدًا موضوعًا مهمًا للغاية. استمر هذا الاتجاه من عام 2018 إلى الوقت الحاضر ، بما في ذلك Elmo و Openai GPT و BERT و XLNET ، وما إلى ذلك. وقد جذبت هذه النماذج اهتمامًا كبيرًا مرارًا وتكرارًا.

Elmo هو اختصار للتضمينات من نماذج اللغة ، مما يعني أنه يتم الحصول على نموذج اللغة (الجملة). بالإضافة إلى ذلك ، فإن Elmo هو اسم Monster Little في شارع Sesame لتلفزيون تعليم الأطفال. الأوراق الأصلية هي "إعادة تدوير الكلمة العميقة السياقية". هذا العنوان مناسب للغاية ، أي لتعلم الكلمات ذات الصلة بالسياق مع نموذج محول عميق.

فكرة هذه الورقة بسيطة للغاية في الواقع ، لكنها حققت نتائج جيدة للغاية. فكرتها هي استخدام RNN ثنائية الاتجاه العميقة (LSTM) لتدريب عدد كبير من نماذج لغة تدريب البيانات غير الموقعة ، كما هو موضح في الشكل أدناه. بعد ذلك ، في المهمة الفعلية ، بالنسبة لجمل الإدخال ، نستخدم نموذج اللغة هذا للتعامل معه للحصول على متجه الإخراج ، بحيث يمكن اعتبار ذلك استخراج ميزة. ولكن على عكس Word2Vec العادي أو القفاز ، فإن التضمين الذي تم الحصول عليه بواسطة Elmo لديه سياقات.

Word2VecbankEmbeddingEmbeddingbankbankWord2VecPretrainingEmbeddingRNNmoneyriverRNNELMomoneybank

RNN
ELMoImproving Language Understanding by Generative Pre-TrainingOpenAI GPTTransformerEmbeddingTransformerOpenAI GPT

OpenAI GPT

OpenAI GPT

ELMoGPTThe animal didnt cross the street because it was too tiredititanimalstreettiredanimalstreettiredtiredwideitstreet

RNNTransformerRNNitanimalstreettireditRNNtiredanimalanimalTransformerSelf-Attentionattend toTransformerMask

pretrainingMaskGooglePre-training of Deep Bidirectional Transformers for Language UnderstandingBERT

BERTNLPNLPBERTXLNetBERTMaskMaskPretrainingfine-tuingXLNetPermutationTransformer-XLTwo-Stream Self-Attentiontarget unawareBERT

تعزيز التعلم

AgentAction

ValueRewardAgentRewardRewardValueRewardValueAction لما لا؟

Model basedMode freeValueValue basedPolicy GradientActor-Critic

Google DeepMindNatureHuman-level Control through Deep Reinforcement LearningEnd-to-EndDeep Q-Networks

Deep Q-Networks
Experience ReplaytrajectoryTarget Network targetDeep Q-NetworksAtari 2600492975%23

Deep Q-NetworksAtari2600
Deep Q-NetworksPrioritized Expeience ReplayDeep Reinforcement Learning with Double Q-learningRainbow: Combining Improvements in Deep Reinforcement Learning

Policy GradientTrust Region Policy OptimizationTRPODeterministic Policy Gradient AlgorithmsDPGExpected Policy Gradients for Reinforcement LearningProximal Policy Optimization AlgorithmsPPO

من حيث الألعاب ، سلسلة Alphago و AlphaGozero و Alphazero المعروفة للجميع التي نشرتها Google DeepMind.

بعد حل GO ، وضع الجميع الانتباه أيضًا على اللعبة الاستراتيجية الفورية ، بما في ذلك "Alphastar: A Avolutionary Compation Perspective" و Openai Five على Starcraft 2 و Dota2.

بالإضافة إلى ذلك ، ظهر بعض التقدم الجديد في التعلم التعليمي والتعلم التقليدي وتعلم العابر ، ولن ندرجها هنا.

نظرة مستقبلية

إن الاتجاه الواضح الأخير هو تقدم التعلم غير الخاطف (شبه الخاضع للإشراف) جعل الاختراقات في هذا الاتجاه. جوهر في رؤية الكمبيوتر ، رأينا أيضًا أحدث التقدم في Google DeepMind ، وأعتقد أنه سيكون هناك المزيد من الاختراقات. نسبياً ، فإن التقدم في مجال التعرف على الصوت أبطأ. من الصعب القول أنه لا يوجد إشراف ، حتى من مجموعة بيانات واحدة (سيناريو التطبيق) إلى مجموعة بيانات أخرى (سيناريو). على سبيل المثال ، لدينا الكثير من بيانات الماندرين ، كيف يمكننا استخدام كمية صغيرة من البيانات للتعرف بشكل جيد على الماندرين الأخرى مع اللهجات. على الرغم من وجود العديد من تقنية التكيف ، إلا أنه لا يزال من الصعب تلبية التوقعات.

والآخر هو النظام من طرف إلى طرف لم يتم استخدامه على نطاق واسع في الصناعة (باستثناء مطالبة Google باستخدامها). بالطبع ، هذا نادر جدًا نسبيًا للاعبين في مجال الصوت. علاوة على ذلك ، فإن تأثير النظام الحالي جيدًا . ضروري (ما لم تتجاوز طريقة التعلم العميق في مجال رؤية الكمبيوتر الطريقة التقليدية). تم تحويل HMM-GMM الأصلي إلى HMM-DNN ، بالإضافة إلى العديد من التعديلات والتدريبات التمييزية المتسلسلة ، والتي لا يزال بإمكانها الحصول على تأثير SOTA ، لذلك فهو أكثر كفاءة لاستخدام دوافع الطرف إلى النهاية. على الرغم من أن المجتمع الأكاديمي يتطور في هذا الاتجاه ، فإن لاعب الصوت القديم (بخلاف Google) لا يشتري الكثير.

على المدى الطويل ، إلى الذكاء الاصطناعي "الحقيقي" ، أعتقد أنه يجب دمجه مع البصرية ، السمع (حتى الذوق واللمس ، وما إلى ذلك) واللغة ، واستخدم طريقة التعلم غير الخاضع للإشراف ، والتعزيز. ، مثل طفل ثلاثة أعوام ، يدمج العالم المادي "الحقيقي" والمجتمع البشري ، يمكن تحقيقه. بالإضافة إلى تقدم العلوم والتكنولوجيا ، فإن هذا يتطلب اختراقًا كبيرًا من البشر لتحقيقه.

تحرير: يو تينغكاي
- إنهاء -

اتبع منصة WeChat العامة الرسمية لمعهد أبحاث علوم البيانات Tsinghua-Qingdao " مدرسة البيانات الخميرة "أخت" " مدرسة البيانات الخميس "احصل على المزيد من فوائد المحاضرة والمحتوى عالي الجودة.

بناء نماذج التعلم الآلي باستخدام TensorFlow.js وبيثون في المتصفح

أنت مسؤول عن أي جزء من الذكاء الاصطناعي؟ بناء خريطة المعرفة تعتمد أساسا على دليل أو الجهاز؟

البيانات روج: الأولية تكنولوجيا المحاكاة الديناميكية ودورة حياة التطبيق في مجال الضرائب

تم إيقاف 360 الأعمال الهاتف المحمول، تجنيد 37 مدينة متوسط الراتب الشهري من 8452 يوان ......

اليوم العالمي لمكافحة التصحر والجفاف: اسمحوا الأصفر الاستنساخ الأرض الخضراء الحياة

NLP للمبتدئين 8 تقاسم الموارد الحرة

العمل AI الترتيب: آلة ظائف التعلم القائمة با، AI الطلب على الوظائف يتباطأ (القائمة المرفقة)

تعزيز أساس المضادة للخطر، بالإضافة إلى إنتاج حادث سلامة خطر الاحتواء مدينة ألمانية مجال البناء

أحدث جامعة QS التصنيف العالمي المفرج عنهم، فازت جامعة تسينغهوا في بكين أرفع من أي وقت مضى

مزارع الرياح عمق الشبكة العصبية على أساس فائقة على المدى القصير نظام التنبؤ السلطة

2019 الرحلات آلاف الأميال من الساحل يهاى، الصين عقدت بنجاح المشي الوطني

XGBoost وصف: التعلم تحت إشراف التنبؤ العمر المتوقع