فاز عمالقة التعلم العميق الثلاثة بجائزة تورينج لعام 2018 (مراجعة كلاسيكية)!

تشطيب | كهرمان

مُنتَج | معسكر قاعدة تكنولوجيا الذكاء الاصطناعي (المعرف: rgznai100)

في 27 مارس 2019 ، أعلنت ACM أن ثلاثة خبراء في التعلم العميق ، وهم يوشوا بنجيو ، ويان ليكون ، وجيفري هينتون ، قد فازوا برقم 2018 "لاختراقهم في المفهوم والهندسة لجعل الشبكات العصبية العميقة مكونًا رئيسيًا للحوسبة" جائزة الروح. في السنوات الأخيرة ، كانت أساليب التعلم العميق سببًا للاختراقات المذهلة في رؤية الكمبيوتر والتعرف على الكلام ومعالجة اللغة الطبيعية والروبوتات والتطبيقات الأخرى.

https://awards.acm.org/about/2018-turing

تم كتابته في إعلان ACM: على الرغم من إدخال الشبكات العصبية الاصطناعية في الثمانينيات كأداة لمساعدة أجهزة الكمبيوتر على التعرف على الأنماط ومحاكاة الذكاء البشري ، بحلول بداية القرن الحادي والعشرين ، لا يزال LeCun و Hinton و Bengio يصرون على هذه الطريقة من مجموعات صغيرة. على الرغم من أن جهودهم لإعادة إشعال الاهتمام بالشبكات العصبية في مجتمع الذكاء الاصطناعي كانت متشككة في البداية ، فقد أدت أفكارهم إلى تطورات تكنولوجية كبيرة ، وأصبحت أساليبهم الآن النموذج السائد في هذا المجال.

لقد عرف الجميع مكانتهم في مجال التعلم العميق منذ فترة طويلة ، وعلى الرغم من أن الثلاثة قد سلكوا اتجاهات مختلفة ، إلا أنهم ما زالوا شركاء وأصدقاء مقربين لسنوات عديدة.

دعونا أولاً نلقي نظرة على المساهمات الرئيسية التي قدمها الثلاثة:

جيفري هينتون

التكاثر العكسي : في مقال بعنوان "تعلم التمثيلات الداخلية عن طريق انتشار الخطأ" الذي شارك في تأليفه ديفيد روميلهارت ورونالد ويليامز في عام 1986 ، أثبت هينتون أن خوارزمية الانتشار العكسي تسمح للشبكات العصبية باكتشاف تمثيلاتها الداخلية للبيانات ، مما يجعل من الممكن استخدام الشبكات العصبية لحلول الشبكة القضايا التي تم النظر فيها سابقًا خارج نطاقها. اليوم ، تعد خوارزميات الانتشار العكسي هي المعيار لمعظم الشبكات العصبية.

آلة بولتزمان (Boltzmann Machines): في عام 1983 ، اخترع Hinton و Terrence Sejnowski آلة Boltzmann ، وهي واحدة من أولى الشبكات العصبية التي يمكنها تعلم التمثيل الداخلي للخلايا العصبية غير المدخلات أو المخرجات.

تحسينات على الشبكات العصبية التلافيفية : في عام 2012 ، قام Hinton وطلابه Alex Krizhevsky و Ilya Sutskever بتحسين الشبكة العصبية التلافيفية من خلال تصحيح الخلايا العصبية الخطية وتنظيم التسرب ، وخفض معدل الخطأ في التعرف على الكائنات إلى النصف في تقييم ImageNet الشهير. ثورة ميدانية.

يوشوا بنجيو

نموذج التسلسل الاحتمالي (النماذج الاحتمالية للتسلسلات): في التسعينيات ، جمعت بنجيو بين الشبكات العصبية والنماذج الاحتمالية للتسلسلات ، مثل نماذج ماركوف المخفية. تم دمج هذه الأفكار في AT & T / NCR لقراءة الشيكات المكتوبة بخط اليد ، وتعتبر ذروة أبحاث الشبكة العصبية في التسعينيات. تعد أنظمة التعرف على الكلام الحديثة للتعلم العميق أيضًا امتدادًا لهذه المفاهيم.

تضمين مفردات عالية الأبعاد والانتباه (تضمين الكلمات عالية الأبعاد والاهتمام): في عام 2000 ، كتب بنجيو ورقة بارزة بعنوان "نموذج اللغة الاحتمالية العصبية" ، والتي قدمت متجهات كلمات عالية الأبعاد لتمثيل معنى الكلمة. كان لرؤى بنجيو تأثير كبير ودائم على مهام معالجة اللغة الطبيعية ، بما في ذلك ترجمة اللغة ، والإجابة على الأسئلة ، والإجابة المرئية للأسئلة. قدم فريقه أيضًا آلية الانتباه ، والتي أدت إلى اختراقات في الترجمة الآلية وشكلت مكونًا رئيسيًا لمعالجة التسلسل في التعلم العميق.

شبكة المواجهة التوليدية : منذ عام 2010 ، أثارت أوراق بنجيو حول التعلم العميق التوليدي ، وخاصة شبكة الخصومة التوليدية (GAN) التي تم تطويرها بالاشتراك مع إيان جودفيلو ، ثورة في رؤية الكمبيوتر ورسومات الكمبيوتر.

يان ليكون

الشبكة العصبية التلافيفية : في الثمانينيات ، طور LeCun شبكة عصبية تلافيفية ، والتي أصبحت الآن الأساس النظري الأساسي في هذا المجال. بالإضافة إلى المزايا الأخرى ، من الضروري أيضًا جعل التعلم العميق أكثر فعالية. في أواخر الثمانينيات ، أثناء عمله في جامعة تورنتو ومختبرات بيل ، كان LeCun أول شخص يقوم بتدريب نظام الشبكة العصبية التلافيفية على الصور الرقمية المكتوبة بخط اليد. اليوم ، الشبكات العصبية التلافيفية هي المعيار الصناعي لرؤية الكمبيوتر والتعرف على الكلام ، وتوليف الكلام ، وتركيب الصور ، ومعالجة اللغة الطبيعية. يتم استخدامها في مجموعة متنوعة من التطبيقات ، بما في ذلك القيادة الذاتية وتحليل الصور الطبية والمساعدين الذين يتم تنشيطهم بالصوت وترشيح المعلومات.

تحسين خوارزمية الانتشار الخلفي : اقترح LeCun خوارزمية backprop الباكرة المبكرة ، واستمدها بإيجاز وفقًا لمبدأ التباين. أدى عمله إلى تسريع عمليات حساب الانتشار العكسي ، بما في ذلك وصف طريقتين بسيطتين لتسريع وقت التعلم.

توسيع نطاق الشبكات العصبية : تستخدم LeCun أيضًا الشبكات العصبية كنموذج حسابي يمكنه إكمال مجموعة واسعة من المهام ، وأصبح عملها المبكر الآن المفهوم الأساسي للذكاء الاصطناعي. على سبيل المثال ، في مجال التعرف على الصور ، درس كيفية تعلم تمثيلات السمات الهرمية في الشبكات العصبية ، وتستخدم هذه الفكرة الآن بشكل شائع في العديد من مهام التعرف. جنبًا إلى جنب مع Lon Bottou ، اقترح أيضًا إمكانية بناء نظام التعلم كشبكة معقدة من الوحدات ، حيث يتم تنفيذ الانتشار العكسي من خلال التمايز التلقائي ، ويستخدم حاليًا في كل برامج التعلم العميق الحديثة. كما اقترحوا أيضًا بنيات التعلم العميق التي يمكنها معالجة البيانات المنظمة ، مثل الرسوم البيانية.

في تقرير في مجلة Wired ، عندما سئل جيفري هينتون عن أهمية الحصول على الجائزة ، كان مندهشًا للغاية ، "أعتقد أن الشبكات العصبية أصبحت الآن علوم كمبيوتر تحظى بالاحترام" ، لأنه في رأيه تورينج سيكون الموضوع الأكثر احتراما في علوم الكمبيوتر.

من المعلوم أن جائزة تورينج تم إنشاؤها بواسطة ACM في عام 1966 وتمنح مرة واحدة سنويًا. ومن أهداف المؤسسة تخليد ذكرى رائد علوم الكمبيوتر الشهير آلان تورينج (آلان تورينج) ، الذي كان في الثلاثينيات والأربعينيات والخمسينيات من القرن الماضي. وضع الأساس المبكر للحوسبة والذكاء الاصطناعي.

جائزة تورينج هي أعلى جائزة في مجال علوم الكمبيوتر. يجب أن يكون للفائزين مساهمات تكنولوجية دائمة وهامة في مجال علوم الكمبيوتر. فاز الرواد في مجال الذكاء الاصطناعي (مارفن لي مينسكي) وجون مكارثي (جون مكارثي) وألين نيويل (ألين نيويل) وسيما هي (هربرت ألكسندر سيمون) بجوائز. فاز العالم الصيني ياو كيجي بجائزة في عام 2000 لإسهاماته المهمة في مجال الحوسبة مثل توليد الأرقام العشوائية الزائفة.

دعونا نلقي نظرة على الفائزين بجائزة Turing لعام 2018:

حصل جيفري هينتون ، 71 عامًا ، على درجة الدكتوراه في الذكاء الاصطناعي من جامعة إدنبرة. نائب رئيس Google الحالي ، وباحث هندسي ، والمستشار العلمي الرئيسي لمعهد تورونتو لأبحاث الذكاء الاصطناعي المتجه ، وأستاذ فخري بجامعة تورنتو. وهو مؤسس برنامج الحوسبة العصبية والإدراك التكيفي التابع للمعهد المتقدم الكندي (برنامج الحوسبة العصبية والإدراك التكيفي) ، كما حصل على وسام رفيق من كندا ، وعضو في الجمعية الملكية ، وعضو أجنبي في الأكاديمية الأمريكية للهندسة. ، جائزة البحث المتميز من الاتحاد الدولي للذكاء الاصطناعي (IJCAI) ، والميدالية الذهبية IEEE James Clerk Maxwell (IEEE James Clerk Maxwell Gold Medal) وسلسلة من الأوسمة. في عام 2017 ، تم اختياره كواحد من بين 50 شخصًا غيروا مشهد الأعمال العالمي من قبل Bloomberg.

يوشوا بنجيو ، 55 عامًا ، حصل على درجة الدكتوراه في علوم الكمبيوتر من جامعة ماكجيل في كندا. وهو حاليًا أستاذ في جامعة مونتريال ، كندا ، ومدير المركز الكندي لتسعير البيانات (IVADO) ، والمدير العلمي لمركز أبحاث خوارزميات التعلم في مونتريال (ميلا) ، ومدير المعهد الكندي للدراسات المتقدمة. في الوقت نفسه ، يعمل هو ويانغ ليكون كمدير لمشروع تعلم الآلة والدماغ في المعهد الكندي للأبحاث المتقدمة. أنشأ أكبر مركز أبحاث للتعلم العميق في مركز مونتريال لبحوث خوارزمية التعلم (MILA) ، مما يجعل مونتريال واحدة من أكثر المناطق نشاطًا في العالم لأبحاث الذكاء الاصطناعي ، وجذب عددًا كبيرًا من الشركات والمختبرات البحثية للاستقرار فيها.

يان ليكون ، 58 عامًا ، حاصل على درجة الدكتوراه في علوم الكمبيوتر من جامعة بيير وماري كوري في فرنسا. يشغل حاليًا منصب أستاذ الفضة في معهد كورانت للعلوم الرياضية في جامعة نيويورك ، وكبير العلماء ونائب رئيس الذكاء الاصطناعي في Facebook. حصل على سلسلة من التكريمات ، بما في ذلك أكاديمي من الأكاديمية الأمريكية للهندسة وجائزة IEEE Neural Network Pioneer. وهو أيضًا مؤسس مركز علوم البيانات بجامعة نيويورك ، وهو إلى جانب جوشوا بينسيو ، مدير مشروع تعلم الآلة والدماغ في المعهد الكندي للأبحاث المتقدمة.

من المعلوم أن ACM ستقدم جائزة AM Turing لعام 2018 في حفل عشاء الجوائز السنوي الذي أقيم في سان فرانسيسكو ، كاليفورنيا في 15 يونيو. دعونا نتذكر المساهمات المتميزة لهذه المواهب الثلاثة العظيمة في التعلم العميق!

الفائزون بجوائز Turing السابقة: https://amturing.acm.org/byyear.cfm

بالإضافة إلى ذلك ، في عام 2015 ، للاحتفال بالذكرى الستين لاقتراح الذكاء الاصطناعي ، خصصت مجلة "Nature" موضوعًا خاصًا "الذكاء الاصطناعي + الروبوتات" ونشرت عددًا من الأوراق ذات الصلة ، بما في ذلك هذه الورقة التي كتبها Yann LeCun و Yoshua Bengio و Geoffrey Hinton. مقالة المراجعة "التعلم العميق" هي الاجتماع الأول لعمالقة التعلم العميق الثلاثة ، وأهميتها لا تحتاج إلى شرح. الآن سنقود الجميع لمراجعة هذه المقالة الكلاسيكية.

الملخص الأصلي: يسمح التعلم العميق لنماذج الحوسبة ذات طبقات المعالجة المتعددة بتعلم تمثيل البيانات بمستويات متعددة من التجريد. أحدثت هذه الأساليب تحسينات كبيرة في العديد من المجالات ، بما في ذلك التعرف على الكلام الأكثر تقدمًا ، والتعرف المرئي على الأشياء ، واكتشاف الأشياء ، والعديد من المجالات الأخرى ، مثل اكتشاف الأدوية وعلم الجينوم. يمكن للتعلم العميق اكتشاف الهياكل المعقدة في البيانات الضخمة. يستخدم خوارزمية BP لإكمال عملية الاكتشاف هذه. يمكن لخوارزمية BP أن ترشد الآلة إلى كيفية الحصول على أخطاء من الطبقة السابقة وتغيير المعلمات الداخلية لهذه الطبقة ، ويمكن استخدام هذه المعلمات الداخلية للتمثيل الحسابي. لقد حققت الشبكات التلافيفية العميقة اختراقات في معالجة الصور والفيديو والصوت والصوت ، بينما أظهرت الشبكات العودية جانبًا ساطعًا في معالجة بيانات التسلسل ، مثل النص والصوت.

أظهرت تقنية التعلم الآلي وظائف قوية في جميع جوانب المجتمع الحديث: من بحث الويب إلى تصفية محتوى الشبكة الاجتماعية ، إلى توصيات المنتج على مواقع التجارة الإلكترونية. وهي تظهر بشكل متزايد في المنتجات الاستهلاكية ، مثل الكاميرات والهواتف الذكية.

تُستخدم أنظمة التعلم الآلي لتحديد الكائنات في الصور ، وتحويل الكلام إلى نص ، ومطابقة عناصر الأخبار ، وتوفير الوظائف أو المنتجات بناءً على اهتمامات المستخدمين ، وتحديد نتائج البحث ذات الصلة. تدريجيًا ، تستخدم هذه التطبيقات تقنية تسمى التعلم العميق. تتمتع تقنية التعلم الآلي التقليدية بقدرات محدودة عند التعامل مع البيانات غير المعالجة. لعقود من الزمان ، إذا كنت ترغب في بناء نظام التعرف على الأنماط أو نظام التعلم الآلي ، فأنت بحاجة إلى محرك رائع ومعرفة مهنية كبيرة لتصميم مستخرج ميزة يحول البيانات الأصلية (مثل قيمة البكسل للصورة) إلى ميزة داخلية مناسبة التمثيل أو ناقل الميزة ، نظام التعلم الفرعي ، عادةً ما يكون مصنفًا ، يكتشف أو يصنف عينات الإدخال. تعلم تمثيل الميزة هو مجموعة من الأساليب التي تضخ البيانات الأولية في الجهاز ، ثم تكتشف تلقائيًا التعبيرات التي يجب اكتشافها وتصنيفها. التعلم العميق هو طريقة تعلم ميزة تحول البيانات الأصلية إلى مستوى أعلى وتعبيرات أكثر تجريدية من خلال بعض النماذج البسيطة ولكن غير الخطية. مع وجود مجموعات كافية من التحولات ، يمكن أيضًا تعلم وظائف معقدة للغاية. بالنسبة لمهام التصنيف ، يمكن للتعبير عالي المستوى أن يقوي القدرة المميزة لبيانات الإدخال مع إضعاف العوامل غير ذات الصلة. على سبيل المثال ، إذا كان التنسيق الأصلي للصورة عبارة عن مصفوفة بكسل ، فإن تعبير المعلم الذي تم تعلمه في الطبقة الأولى يشير عادةً إلى ما إذا كانت هناك حواف في موضع واتجاه معين للصورة. عادةً ما تكتشف الطبقة الثانية الأنماط بناءً على بعض الانبعاثات على تلك الحواف ، وفي هذا الوقت يتم تجاهل بعض الاضطرابات الصغيرة على بعض الحواف. قد تدمج الطبقة الثالثة هذه الأنماط بحيث تتوافق مع أجزاء معينة من الهدف المألوف. ستعيد الطبقات اللاحقة تجميع هذه الأجزاء لتشكيل الهدف المراد اكتشافه. يتمثل الجانب الأساسي للتعلم العميق في أن ميزات الطبقات المذكورة أعلاه ليست مصممة باستخدام الهندسة اليدوية ، ولكن يتم تعلمها من البيانات باستخدام عملية تعلم مشتركة.

يحرز التعلم العميق تقدمًا كبيرًا في حل المشكلة التي بذلها مجتمع الذكاء الاصطناعي على أفضل وجه لسنوات عديدة دون إحراز تقدم. لقد ثبت أنه يمكن أن يكون جيدًا في اكتشاف الهياكل المعقدة في البيانات عالية الأبعاد ، بحيث يمكن استخدامها في مجالات مثل العلوم والأعمال والحكومة. بالإضافة إلى تحطيم الأرقام القياسية في التعرف على الصور والتعرف على الكلام وغيرها من المجالات ، فقد هزمت أيضًا تقنيات التعلم الآلي الأخرى في مجالات أخرى ، بما في ذلك التنبؤ بنشاط جزيئات الدواء المحتملة ، وتحليل بيانات مسرع الجسيمات ، وإعادة بناء دوائر الدماغ ، والتنبؤ بالطفرات في الحمض النووي غير المشفر التأثير على التعبير الجيني والمرض. ولعل الأمر الأكثر إثارة للدهشة هو أن التعلم العميق قد أنتج نتائج مرضية للغاية في مهام مختلفة لفهم اللغة الطبيعية ، وخاصة تصنيف الموضوعات ، وتحليل المشاعر ، والإجابة التلقائية للأسئلة وترجمة اللغة. نعتقد أنه في المستقبل القريب ، سيحقق التعلم العميق المزيد من النجاح ، لأنه يتطلب القليل من الهندسة اليدوية ، ويمكنه بسهولة الاستفادة من الزيادة في قوة الحوسبة وحجم البيانات المتاحة. إن خوارزميات وبنى التعلم الجديدة التي يتم تطويرها حاليًا للشبكات العصبية العميقة ستؤدي فقط إلى تسريع هذه العملية.

التعلم تحت الإشراف

في التعلم الآلي ، سواء كان عميقًا أم لا ، فإن الشكل الأكثر شيوعًا هو التعلم تحت الإشراف. تخيل أننا نريد بناء نظام يمكنه تصنيف صورة تحتوي على منزل أو سيارة أو شخص أو حيوان أليف. نجمع أولاً عددًا كبيرًا من مجموعات البيانات لصور المنازل والسيارات والأشخاص والحيوانات الأليفة ، ونضع علامة على كل كائن بفئته. أثناء التدريب ، ستحصل الآلة على صورة ، ثم تنتج مخرجات ، ويتم تمثيل هذا الإخراج بعلامة في شكل متجه ، ولكل فئة مثل هذا المتجه. نريد أن تحصل الفئة المطلوبة على أعلى درجة بين جميع الفئات ، ولكن من غير المحتمل أن يحدث هذا قبل التدريب. من خلال حساب دالة موضوعية ، يمكن الحصول على الخطأ (أو المسافة) بين درجة المخرجات ودرجة النمط المتوقعة. ثم تقوم الآلة بتعديل معلماتها الداخلية القابلة للتعديل لتقليل هذا الخطأ. عادة ما تسمى هذه المعلمات القابلة للتعديل الأوزان ، وهي بعض الأرقام الحقيقية ، والتي يمكن اعتبارها بعض "المقابض" ، والتي تحدد وظائف الإدخال والإخراج للجهاز. في نظام التعلم العميق النموذجي ، قد يكون هناك الملايين من العينات والأوزان والعينات المصنفة لتدريب الآلة. من أجل ضبط متجه الوزن بشكل صحيح ، تحسب خوارزمية التعلم متجه التدرج لكل وزن ، مما يشير إلى مقدار الخطأ الذي سيزيد أو ينقص إذا زاد الوزن بمقدار ضئيل. ثم يتم تعديل متجه الوزن في الاتجاه المعاكس لمتجه التدرج. يمكن اعتبار وظيفتنا الموضوعية ، وهي متوسط جميع عينات التدريب ، كنوع من التضاريس المتغيرة في فضاء عالي الأبعاد للأوزان. يشير متجه التدرج اللوني السالب إلى أسرع اتجاه تنازلي في التضاريس ، مما يجعله أقرب إلى الحد الأدنى ، حيث يكون متوسط خطأ الإخراج هو الأدنى.

في التطبيقات العملية ، يستخدم معظم الممارسين خوارزمية تسمى Stochastic Gradient Descent (SGD). يتضمن تقديم بعض عينات ناقلات المدخلات ، وحساب المخرجات والخطأ ، وحساب متوسط التدرج اللوني لهذه العينات ، ثم ضبط الأوزان وفقًا لذلك. كرر هذه العملية لتدريب الشبكة من خلال توفير مجموعة عينات صغيرة حتى تتوقف وظيفة الهدف عن النمو. يطلق عليه عشوائي لأن مجموعة عينة صغيرة لديها تقدير صاخب لمتوسط التدرج للعينة بأكملها. عادة ما تجد هذه العملية البسيطة مجموعة جيدة من الأوزان ، وسرعتها مذهلة مقارنة بتقنيات التحسين الأخرى المصممة جيدًا. بعد التدريب ، سيعرض النظام أداء النظام من خلال عينات بيانات مختلفة - مجموعة الاختبار. يستخدم هذا لاختبار قدرة التعميم للآلة - القدرة على التعرف على العينات الجديدة التي لم يتم تدريبها.

تستخدم العديد من تقنيات التعلم الآلي في التطبيقات الحالية المصنفات الخطية لتصنيف الميزات المستخرجة يدويًا. المصنف الخطي من صنفين سيحسب المجموع المرجح لمتجهات السمات. عندما يتجاوز المبلغ المرجح عتبة ، سيتم تخصيص عينة الإدخال لفئة معينة. منذ الستينيات ، عرفنا أن المصنفات الخطية يمكنها فقط تقسيم العينات إلى مناطق بسيطة جدًا ، أي تقسيم المساحة إلى جزأين من خلال المستوى الفائق.

ولكن بالنسبة لمشاكل مثل التعرف على الصورة والكلام ، يجب ألا تكون وظائف الإدخال والإخراج التي يحتاجون إليها حساسة للغاية للتغيرات في العوامل غير ذات الصلة في عينة الإدخال ، مثل التغييرات في الموضع أو اتجاه الهدف أو إضاءةه ، أو التغييرات في طبقة الصوت أو نغمة الكلام انتظر ، ولكن يجب أن تكون حساسًا جدًا لبعض التغييرات الصغيرة المحددة (على سبيل المثال ، الفرق بين الذئب الأبيض والكلب الأبيض يشبه الذئب الساموييد). على مستوى البكسل ، يمكن القول بأن صور كلبي Samoyed في أوضاع مختلفة وفي بيئات مختلفة مختلفة تمامًا ، ومع ذلك ، يوجد كلب Samoyed وذئب في نفس الوضع. قد تكون صورتان في خلفية متشابهة متشابهة جدًا.

1. يمكن لشبكة عصبية متعددة الطبقات (ممثلة بنقاط اتصال) أن تدمج مساحة الإدخال ، مما يجعل البيانات (العينات الممثلة بالخطوط الحمراء والزرقاء) قابلة للفصل خطيًا. لاحظ كيف يتم تحويل الشبكة العادية في مساحة الإدخال (على اليسار) بواسطة الطبقة المخفية (المحولة إلى اليمين). في هذا المثال ، يتم استخدام عقدتين فقط للإدخال ، وعقدتين مخفيتين ، وعقدة إخراج واحدة ، لكن الشبكة المستخدمة للتعرف على الكائنات أو معالجة اللغة الطبيعية تحتوي عادةً على عشرات أو مئات من هذه العقد. تمت إعادة بناء هذا الرسم البياني بإذن من C. Olah (

2. تخبرنا قاعدة السلسلة كيف يتم تنظيم تغييرين صغيرين (تغيير طفيف في x و y وتغير بسيط في y و z) معًا. يتم تحويل التغيير الصغير في x ، x ، أولاً إلى تغيير في y ، y ، عن طريق الضرب في y / x (مشتق جزئي). وبالمثل ، فإن y ستغير z إلى z. يمكن تحويل معادلة إلى أخرى من خلال قاعدة السلسلة - أي ، يتم الحصول على x بالضرب في y / x و z / y (اللغة الإنجليزية الأصلية هي z / x ، ملاحظة محرر مطبعي) عملية z. عندما تكون x و y و z متجهات ، يمكن فعل الشيء نفسه (باستخدام مصفوفة Jacobian).

3. معادلة حساب الانتشار الأمامي في شبكة عصبية ذات طبقتين مخفيتين وطبقة إخراج واحدة. يتكون كل منها من وحدة نمطية للانتشار الخلفي للتدرج. في كل طبقة ، نحسب أولاً إجمالي المدخلات z لكل عقدة ، حيث z هو المجموع المرجح لإخراج الطبقة السابقة. ثم استخدم الدالة غير الخطية f (.) لحساب ناتج العقدة. خلال الفترة البسيطة ، تجاهلنا مصطلح الحد. تشمل الوظائف غير الخطية المستخدمة بشكل شائع في الشبكات العصبية الوحدة الخطية المصححة (ReLU) f (z) = max (0 ، z) المستخدمة بشكل شائع في السنوات الأخيرة ، والوظائف السينية الأكثر تقليدية ، مثل دالة الظل الزائدية f (z) = (exp (z) - exp (z)) / (exp (z) + exp (z)) والوظيفة اللوجستية f (z) = 1 / (1 + exp (z)).

4. احسب معادلة التكاثر العكسي. في الطبقة المخفية ، نحسب الخطأ الناتج عن كل وحدة إخراج ، وهو المجموع المرجح للأخطاء الناتجة عن الطبقة السابقة. ثم نقوم بتحويل خطأ طبقة المخرجات إلى طبقة الإدخال بضرب التدرج اللوني f (z). في طبقة المخرجات ، سيتم حساب الخطأ لكل عقدة عن طريق تمايز دالة التكلفة. إذا كانت دالة التكلفة للعقدة l هي 0.5 * (yl-tl) ^ 2 ، فإن خطأ العقدة هو yl-tl ، حيث tl هي القيمة المتوقعة. بمجرد معرفة قيمة E / zk ، يمكن تعديل متجه وزن النجم الداخلي wjk للعقدة j بواسطة yj E / zk.

لا يستطيع المصنف الخطي أو المصنفات الضحلة الأخرى التي تعمل على وحدات البكسل الأصلية التمييز بين الأخيرين ، على الرغم من أنه يمكن تصنيف الأولى في نفس الفئة. هذا هو السبب في أن التصنيف الضحل يتطلب مستخرجًا جيدًا للميزة لحل معضلة الثبات الانتقائي - سيختار المستخرج العوامل المهمة في الصورة التي يمكن أن تميز الهدف ، ولكن هذه العوامل عاجزة عن التمييز بين موقع الحيوان. من أجل تعزيز قدرة التصنيف ، يمكن استخدام الخصائص غير الخطية للتعميم ، مثل طريقة النواة ، ولكن ميزات التعميم هذه ، مثل تلك التي تم الحصول عليها من خلال نواة Gaussian ، لا يمكن أن تجعل المتعلم ينتج تأثيرات تعميم أفضل من عينات التعلم. تتمثل الطريقة التقليدية في تصميم مستخرج جيد للميزات يدويًا ، الأمر الذي يتطلب الكثير من التكنولوجيا الهندسية والمعرفة المهنية بالمجال. ولكن إذا تم الحصول على خصائص جيدة باستخدام عملية تعلم مشتركة ، فيمكن عندئذ تجنبها. هذه هي الميزة الرئيسية للتعلم العميق.

إن بنية التعلم العميق عبارة عن كومة متعددة الطبقات من الوحدات البسيطة ، والهدف من جميع (أو معظم) الوحدات هو التعلم ، وهناك العديد من التعيينات التي تحسب المدخلات والمخرجات غير الخطية. تقوم كل وحدة في المكدس بتحويل مدخلاتها لزيادة انتقائية وثبات التعبير. على سبيل المثال ، يمكن لنظام متعدد الطبقات غير خطي مع 5 إلى 20 طبقة أن يحقق وظائف معقدة للغاية ، مثل بيانات الإدخال حساسة للغاية للتفاصيل - يمكنه التمييز بين الذئاب البيضاء وكلاب Samoyed ، وفي نفس الوقت لديه قدرة قوية على مقاومة التداخل. على سبيل المثال ، يمكن تجاهل الخلفيات والمواقف المختلفة والإضاءة والأشياء المحيطة.

Backpropagation لتدريب شبكة عصبية متعددة الطبقات

في أولى مهام التعرف على الأنماط ، كان هدف الباحث دائمًا هو استخدام شبكات متعددة الطبقات قابلة للتدريب لاستبدال الميزات المختارة بشكل مصطنع.على الرغم من أن استخدام الشبكات العصبية متعددة الطبقات بسيط ، إلا أن الحلول التي تم الحصول عليها رهيبة. لم يكن حتى ثمانينيات القرن الماضي أن تم استخدام الانحدار العشوائي البسيط لتدريب الشبكات العصبية متعددة الطبقات التي تغيرت في هذا الوضع السيئ. طالما كانت الوظيفة بين مدخلات الشبكة والأوزان الداخلية سلسة نسبيًا ، فإن استخدام النسب المتدرج سوف يعمل. تم اختراع طريقة النسب المتدرجة بشكل مستقل من قبل فرق بحث مختلفة خلال السبعينيات والثمانينيات.

تعد خوارزمية الانتشار العكسي (BP) المستخدمة لحل الوظيفة الموضوعية فيما يتعلق بتدرج الوزن للشبكة العصبية متعددة الطبقات مجرد تطبيق محدد لقاعدة السلسلة للاشتقاق. الفكرة الأساسية لخوارزمية الانتشار العكسي هي أنه يمكن الحصول على مشتق (أو تدرج) للدالة الموضوعية لمدخلات طبقة معينة من خلال نشر مشتق ناتج الطبقة (أو مدخلات الطبقة التالية) إلى الوراء. يمكن استخدام خوارزمية الانتشار العكسي بشكل متكرر لنشر التدرجات عبر كل طبقة من شبكة عصبية متعددة الطبقات: من أعلى ناتج للشبكة العصبية متعددة الطبقات (أي الطبقة التي تولد فيها الشبكة تنبؤات) إلى الطبقات المتعددة الطبقة السفلية من الشبكة العصبية (أي الطبقة التي تتلقى المدخلات الخارجية) ، بمجرد حل هذه المشتقات حول مدخلات كل طبقة من (زوج الوظيفة الهدف) ، يمكننا حل وزن (زوج الوظيفة الهدف) على كل طبقة التدرج لأعلى.

تستخدم العديد من تطبيقات التعلم العميق الشبكات العصبية المغذية ، والتي تتعلم رسم الخرائط من مدخلات ذات حجم ثابت (على سبيل المثال ، المدخلات عبارة عن صورة) إلى مخرجات ذات حجم ثابت (على سبيل المثال ، احتمالية الفئات المختلفة). من الطبقة الأولى إلى الطبقة التالية ، احسب مجموع أوزان بيانات الإدخال للخلايا العصبية في الطبقة السابقة ، ثم مرر هذا المجموع إلى وظيفة التنشيط غير الخطية. حاليا أكثر وظائف التنشيط غير الخطية شيوعًا هي الوحدة الخطية المصححة (ReLU) ، شكل الوظيفة: f (z) = max (z ، 0). في العقود القليلة الماضية ، استخدمت الشبكات العصبية بعض الوظائف غير الخطية الأكثر سلاسة ، مثل tanh (z) و 1 / (1 + exp (-z)) ، ولكن ReLU عادةً ما تجعل الشبكة العصبية متعددة الطبقات تتعلم بشكل أسرع ، يمكنك أيضًا إنشاء شبكة عميقة تدريب تحت الإشراف المباشر (بدون تدريب مسبق غير خاضع للإشراف).

لتحقيق تأثير ما قبل التدريب السابق. عادةً ما تسمى الوحدات العصبية خارج طبقة الإدخال وطبقة الإخراج الوحدات المخفية. يمكن رؤية وظيفة الطبقة المخفية على أنها تستخدم طريقة غير خطية لتعطيل بيانات الإدخال بحيث تصبح الفئة المقابلة لبيانات الإدخال قابلة للفصل خطيًا في الطبقة الأخيرة.

في أواخر التسعينيات ، تخلت معظم فرق التعلم الآلي عن الشبكات العصبية وخوارزميات الانتشار العكسي ، ولم يتم أخذها على محمل الجد من قبل فرق رؤية الكمبيوتر والتعرف على الكلام. من المعتقد عمومًا أن طرق التعلم هذه ، وهي بنية هرمية متعددة المستويات مفيدة ، واستخدام قدر أقل من المعرفة السابقة لاستخراج الميزات ليست موثوقة. لكي نكون دقيقين ، لأن الانحدار البسيط من التدرج سيجعل التحسين بأكمله يقع في حل أدنى محلي سيئ.

من الناحية العملية ، إذا كنت في شبكة كبيرة ، وبغض النظر عن نوع شروط التهيئة المستخدمة ، فإن الحل الأدنى المحلي ليس مشكلة كبيرة ، ويحصل النظام دائمًا على حل له نفس التأثير. تظهر النظريات والتجارب الحديثة أن الحل الأدنى المحلي ليس مشكلة كبيرة في الحقيقة. على العكس من ذلك ، فإن مساحة الحل مليئة بعدد كبير من نقاط السرج (النقاط ذات التدرج اللوني 0) ، ومعظم الأسطح حول نقطة السرج صاعدة. لذا حتى لو كانت هذه الخوارزميات تقع ضمن الحدود الدنيا المحلية ، فإن العلاقة ليست كبيرة جدًا.

حوالي عام 2006 ، جمع CIFAR (المعهد الكندي للدراسات المتقدمة) بعض الباحثين معًا ، وأعاد الناس الاهتمام بالشبكات العصبية العميقة التغذية. اقترح الباحثون طريقة تعلم غير خاضعة للإشراف ، والتي يمكنها إنشاء بعض طبقات الشبكة لاكتشاف الميزات دون استخدام البيانات المصنفة.يمكن استخدام طبقات الشبكة هذه لإعادة بناء أو نمذجة نشاط أجهزة الكشف عن المعالم. . من خلال عملية ما قبل التدريب ، يمكن تهيئة أوزان الشبكة العميقة إلى قيم مثيرة للاهتمام. ثم يتم إضافة طبقة الإخراج إلى الجزء العلوي من الشبكة وضبطها باستخدام خوارزميات backpropagation القياسية. أنتج هذا العمل تأثيرات كبيرة على التعرف على الأرقام المكتوبة بخط اليد ومهام التنبؤ بالمشاة ، خاصةً عندما يكون هناك القليل جدًا من البيانات المصنفة.

أول تطبيق كبير نسبيًا تم إجراؤه باستخدام هذا الأسلوب والتدريب يتعلق بالتعرف على الكلام ، ويتم إجراؤه على وحدة معالجة الرسومات (GPU) ، وذلك لأنه من الملائم كتابة التعليمات البرمجية ويمكن الحصول عليها 10 مرات أو 20 مرة أثناء التدريب. أوقات التسارع. في عام 2009 ، تم استخدام هذه الطريقة لتعيين نافذة معامل قصيرة المدى ، والتي تم استخراجها من الموجات الصوتية وتحويلها إلى مجموعة من الأرقام الاحتمالية. لقد حققت نتائج مذهلة في مجموعة من البرامج المعيارية المعيارية للتعرف على الكلام التي تستخدم كلمات قليلة جدًا ، ثم تم تطويرها بسرعة على مجموعة بيانات أكبر أخرى ، وحققت أيضًا نتائج مذهلة. من عام 2009 إلى نهاية عام 2012 ، طورت فرق الصوت الكبيرة إصدارات متعددة من هذه الشبكة العميقة وتم استخدامها على هواتف Android. بالنسبة لمجموعات البيانات الصغيرة ، يمكن أن يمنع التدريب المسبق غير الخاضع للإشراف التجهيز الزائد وفي نفس الوقت يمكن أن يحقق أداء تعميم أفضل عندما تكون العينات المصنفة صغيرة. بمجرد استعادة تقنية التعلم العميق ، يكون هذا النوع من التدريب المسبق مطلوبًا فقط عندما تكون مجموعة البيانات صغيرة.

بعد ذلك ، هناك شبكة عصبية عميقة التغذية ، والتي يسهل تدريبها ولها أداء تعميم أفضل من الشبكة العصبية المتصلة بالكامل. هذه هي الشبكة العصبية التلافيفية (CNN). عندما لا يهتم الناس بالشبكات العصبية ، فإن الشبكات العصبية التلافيفية قد حققت نجاحًا كبيرًا في الممارسة ، وهي الآن مستخدمة على نطاق واسع من قبل فرق الرؤية الحاسوبية.

الشبكة العصبية التلافيفية

تم تصميم الشبكات العصبية التلافيفية لمعالجة بيانات المصفوفة متعددة الأبعاد ، مثل صورة ملونة بثلاث قنوات ألوان ، وهي عبارة عن مزيج من 3 صور ثنائية الأبعاد تحتوي على قيم بكسل. توجد العديد من أشكال البيانات في هذا المصفوفة متعددة الأبعاد: يستخدم 1D لتمثيل الإشارات والتسلسلات بما في ذلك اللغة ، ويستخدم 2D لتمثيل الصور أو الصوت ، ويستخدم 3D لتمثيل الفيديو أو الصور مع الصوت. تستخدم الشبكات العصبية التلافيفية 4 أفكار رئيسية للاستفادة من خصائص الإشارات الطبيعية: الاتصال المحلي ، ومشاركة الوزن ، والتجميع ، واستخدام طبقات شبكة متعددة.

تتكون بنية الشبكة العصبية التلافيفية النموذجية من سلسلة من العمليات. تتكون المراحل القليلة الأولى من طبقة تلافيفية وطبقة تجميع. يتم تنظيم وحدات الطبقة التلافيفية في خريطة المعالم. في خريطة المعالم ، يتم توصيل كل وحدة بالمراحل السابقة من خلال مجموعة من الأوزان تسمى المرشحات. كتلة محلية لخريطة المعالم للطبقة ، ثم يتم تمرير هذا المجموع المرجح المحلي إلى وظيفة غير خطية ، مثل ReLU. تشترك كل الوحدات في خريطة المعالم في نفس عامل التصفية ، وتستخدم خرائط المعالم للطبقات المختلفة عوامل تصفية مختلفة. هناك سببان لاستخدام هذا الهيكل. أولاً وقبل كل شيء ، في بيانات المصفوفات ، مثل بيانات الصورة ، غالبًا ما تكون القيم القريبة من القيمة شديدة الترابط ، مما قد يشكل ميزات محلية مميزة يسهل اكتشافها. ثانيًا ، الميزات الإحصائية المحلية للمواقع المختلفة ليست وثيقة الصلة بالموضوع ، أي أن الميزة التي تظهر في مكان ما قد تظهر أيضًا في مكان آخر ، لذلك يمكن للوحدات في مواقع مختلفة مشاركة الأوزان ويمكنها اكتشاف نفس العينة. رياضيًا ، عملية التصفية هذه التي يتم إجراؤها بواسطة خريطة المعالم هي التفاف غير متصل بالإنترنت ، كما تمت تسمية الشبكة العصبية التلافيفية باسمها.

يتمثل دور الطبقة التلافيفية في اكتشاف الاتصالات المحلية لميزات الطبقة السابقة ، لكن دور طبقة التجميع هو دمج الميزات المتشابهة دلاليًا ، لأن المواضع النسبية للمعالم التي تشكل موضوعًا ليست هي نفسها. بشكل عام ، تحسب وحدة التجميع الحد الأقصى لقيمة الكتلة المحلية في خريطة المعالم ، وتقرأ وحدة التجميع المجاورة البيانات من الكتلة الصغيرة عن طريق تحريك صف واحد أو عمود واحد ، لأن هذا يقلل من أبعاد التعبير والتأثير على البيانات. الثبات متعدية. اثنان أو ثلاثة من هذه الالتفافات ، والتحويلات غير الخطية ، والتجميع مرتبطة ببعضها البعض ، متبوعة بلفافة أخرى وطبقات متصلة بالكامل. إن خوارزمية الانتشار العكسي على الشبكة العصبية التلافيفية هي نفسها الموجودة في الشبكة العميقة العامة ، ويمكن تدريب جميع الأوزان في المرشح.

العديد من الإشارات الطبيعية التي تستخدمها الشبكات العصبية العميقة هي سمات للتكوين الهرمي ، حيث تتحقق الميزات عالية المستوى من خلال الجمع بين الميزات منخفضة المستوى. في صورة ما ، تشكل مجموعة الحواف الجزئية نمطًا أساسيًا ، والذي يشكل جزءًا من كائن ، ثم يشكل كائنًا. يوجد هذا الهيكل الهرمي أيضًا في البيانات الصوتية والبيانات النصية ، مثل الأصوات والعوامل والمقاطع والكلمات والجمل في المستندات. عندما يتغير موضع بيانات الإدخال في الطبقة السابقة ، فإن عملية التجميع تجعل هذه الخصائص قوية لهذه التغييرات.

طبقات الالتفاف والتجميع في الشبكات العصبية التلافيفية مستوحاة مباشرة من الخلايا البسيطة والخلايا المعقدة في علم الأعصاب البصري. يشكل هذا النوع من الخلايا حلقة بصرية ذات هيكل هرمي لـ LNG-V1-V2-V4-IT. عندما تُعطى الصورة نفسها لشبكة عصبية تلافيفية وقرد ، تُظهر الشبكة العصبية التلافيفية التغييرات في 160 خلية عصبية عشوائية في القشرة الصدغية السفلية للقرد. الشبكات العصبية التلافيفية لها جذور الإدراك العصبي ، وهيكلها متشابه بعض الشيء ، لكن لا توجد خوارزمية تعلم خاضعة للإشراف من طرف إلى طرف مثل خوارزمية الانتشار العكسي في الإدراك العصبي. تسمى الشبكة العصبية التلافيفية 1D البدائية نسبيًا الشبكة العصبية المتأخرة ، والتي يمكن استخدامها للتعرف على الكلام والكلمات البسيطة.

منذ التسعينيات ، ظهر عدد كبير من التطبيقات القائمة على الشبكات العصبية التلافيفية. في البداية ، تم استخدام الشبكات العصبية المتأخرة زمنيًا للتعرف على الكلام وقراءة المستندات. يستخدم نظام قراءة الوثيقة هذا شبكة عصبية تلافيفية مدربة ونموذج احتمالي ، والذي ينفذ بعض قيود اللغة. في أواخر التسعينيات ، تم استخدام هذا النظام لقراءة أكثر من 10 من الشيكات في الولايات المتحدة. في وقت لاحق ، طورت Microsoft نظامًا للتعرف على الأحرف يعتمد على شبكة عصبية تلافيفية ونظام التعرف على خط اليد. في أوائل التسعينيات ، تم استخدام الشبكات العصبية التلافيفية أيضًا للتعرف على الأشياء في الرسومات الطبيعية ، مثل التعرف على الوجه واليد والوجه.

استخدم الشبكات التلافيفية العميقة لفهم الصورة

منذ بداية القرن الحادي والعشرين ، تم استخدام الشبكات العصبية التلافيفية بنجاح في مختلف مجالات الكشف والتجزئة والتعرف على الأشياء والصور. تستخدم هذه التطبيقات كمية كبيرة من البيانات المصنفة ، مثل التعرف على إشارات المرور ، وتجزئة المعلومات البيولوجية ، واكتشاف الوجه ، والنص ، والمشاة ، واكتشاف جزء من جسم الإنسان في الرسومات الطبيعية. في السنوات الأخيرة ، يعد التعرف على الوجوه أحد التطبيقات الناجحة الرئيسية للشبكات العصبية التلافيفية.

الجدير بالذكر أنه يمكن تصنيف الصورة على مستوى البكسل ، بحيث يمكن تطبيقها على تقنيات مثل روبوتات الرد الآلي على الهاتف والسيارات ذاتية القيادة. تطبق شركات مثل Mobileye و NVIDIA طرقًا تلافيفية قائمة على الشبكات العصبية لأنظمة الرؤية في السيارات. تتضمن التطبيقات الأخرى فهم اللغة الطبيعية والتعرف على الكلام.

على الرغم من نجاح تطبيق الشبكة العصبية التلافيفية ، إلا أن فرق الرؤية الحاسوبية والتعلم الآلي بدأت تحظى بالتقدير في مسابقة ImageNet لعام 2012. في هذه المسابقة ، تم استخدام شبكة عصبية تلافيفية عميقة في مجموعة بيانات تضم ملايين من صور الشبكة ، والتي تحتوي على 1000 فئة مختلفة. كانت النتيجة جيدة بشكل غير مسبوق ، وكان معدل الخطأ أقل بمقدار النصف تقريبًا من أفضل طريقة في ذلك الوقت. يأتي هذا النجاح من الاستخدام الفعال لـ GPU و ReLU ، وهي تقنية تنظيم جديدة تسمى التسرب ، وتقنية توليد المزيد من عينات التدريب عن طريق تحليل العينات الموجودة. أحدث هذا النجاح ثورة في رؤية الكمبيوتر. اليوم ، تُستخدم الشبكات العصبية التلافيفية في جميع مهام التعرف والكشف تقريبًا. كانت النتيجة الأفضل مؤخرًا هي استخدام الشبكات العصبية التلافيفية جنبًا إلى جنب مع شبكات التغذية المرتدة العصبية لإنشاء عناوين للصور.

تحتوي بنية الشبكة العصبية التلافيفية اليوم على 10-20 طبقة باستخدام وظائف تنشيط ReLU وملايين الأوزان ومليارات الاتصالات. ومع ذلك ، فإن تدريب مثل هذه الشبكة الكبيرة لم يستغرق سوى بضعة أسابيع قبل عامين ، والآن أدى التقدم الموازي للأجهزة والبرامج والخوارزميات إلى ضغط وقت التدريب إلى بضع ساعات.

جذب أداء أنظمة الرؤية القائمة على الشبكات العصبية التلافيفية انتباه شركات التكنولوجيا الكبيرة ، مثل Google و Facebook و Microsoft و IBM و Yahoo! و Twitter و Adobe وغيرها ، وبعض الشركات الناشئة سريعة النمو هي نفسها.

من السهل تنفيذ الشبكات العصبية التلافيفية بكفاءة في الرقائق أو مصفوفات البوابة القابلة للبرمجة الميدانية (FPGAs). تقوم العديد من الشركات ، مثل NVIDIA و Mobileye و Intel و Qualcomm و Samsung ، بتطوير رقائق الشبكات العصبية التلافيفية لتمكين الآلات الذكية والكاميرات والروبوتات. وتصبح أنظمة الرؤية في الوقت الفعلي في المركبات ذاتية القيادة ممكنة.

تمثيل الميزات الموزعة ومعالجة اللغة

بالمقارنة مع خوارزميات التعلم الكلاسيكية التي لا تستخدم التمثيلات الموزعة ، تظهر نظرية التعلم العميق أن الشبكات العميقة لها ميزتان كبيرتان مختلفتان. تأتي هذه المزايا من وزن كل عقدة في الشبكة ، وتعتمد على توزيع البيانات الأساسية المولدة بهيكل معقول. أولاً ، يعني تعلم الميزات الموزعة أنه يمكن تعميمها للتكيف مع مجموعات قيم الميزات المكتسبة حديثًا (على سبيل المثال ، هناك 2n توليفات محتملة لميزات n-ary). ثانيًا ، تجلب طبقة العرض المدمجة في الشبكة العميقة إمكانية ميزة أسية أخرى (العمق الأسي).

تستخدم الطبقة المخفية في الشبكة العصبية متعددة الطبقات إدخال البيانات في الشبكة لتعلم الميزات ، مما يسهل التنبؤ بإخراج الهدف. فيما يلي مثال توضيحي جيد ، مثل أخذ محتوى النص المحلي كمدخل وتدريب شبكة عصبية متعددة الطبقات للتنبؤ بالكلمة التالية في الجملة. يتم تمثيل كل كلمة في المحتوى على أنها متجه رقم واحد في الشبكة ، أي أن كل مكون له قيمة 1 والباقي كلها 0. في الطبقة الأولى ، تنشئ كل كلمة حالة تنشيط مختلفة ، أو متجه كلمات.

في نموذج اللغة ، تتعلم بقية الشبكة وتحول متجه كلمة الإدخال إلى متجه كلمة الإخراج للتنبؤ بالكلمة التالية في الجملة.يمكن التنبؤ بالكلمة في المفردات على أنها احتمالية للكلمة التالية في الجملة النصية. تتعلم الشبكة متجهات الكلمات التي تحتوي على العديد من عقد التنشيط ويمكن تفسيرها على أنها ميزات مستقلة للكلمات ، تمامًا مثل العرض الأول للتمثيل الهرمي لتعلم النص لرموز النص. لا يتم تمثيل هذه الميزات الدلالية بوضوح في الإدخال. بدلاً من ذلك ، يتم اكتشافه في عملية التعلم باستخدام "القواعد الدقيقة" (تُترجم حرفيًا على النحو التالي: القواعد الدقيقة في هذه المقالة) ، وتُستخدم كطريقة جيدة لتحليل بنية العلاقة بين رموز الإدخال والإخراج. عندما تأتي الجملة من كمية كبيرة من النص الحقيقي ولا يمكن الاعتماد على القواعد الصغيرة الفردية ، يمكن أن تؤدي متجهات الكلمات بشكل جيد أيضًا. عند استخدام نموذج مدرب للتنبؤ بحالات جديدة ، من السهل الخلط بين بعض الكلمات ذات المفاهيم المتشابهة ، مثل الثلاثاء والأربعاء والسويد والنرويج. تسمى هذه التمثيلات تمثيلات الميزات الموزعة ، لأن عناصرها ليست متعارضة ، وتتوافق معلومات هيكلها مع التغييرات في البيانات المرصودة. يتم إنشاء متجهات الكلمات هذه بواسطة ميزات التعلم. لا يتم تحديد هذه الميزات من قبل الخبراء ، ولكن يتم اكتشافها تلقائيًا بواسطة الشبكات العصبية. تُستخدم الآن تمثيلات متجه الكلمات المكتسبة من النص على نطاق واسع في اللغات الطبيعية.

يكمن مركز النقاش حول تمثيل الميزة في المعرفة القائمة على الاستدلال المنطقي والشبكة العصبية. في نموذج مستوحى منطقيًا ، يمثل الكيان الرمزي شيئًا ما لأن صفته الفريدة هي نفسها أو مختلفة عن الكيانات الرمزية الأخرى. مثيل الرمز ليس له بنية داخلية ، والبنية والاستخدام مرتبطان ، أما بالنسبة لفهم دلالات الرمز ، فيجب أن يتوافق مع قواعد التفكير المتغيرة. على العكس من ذلك ، تستخدم الشبكات العصبية عددًا كبيرًا من ناقلات النشاط ، ومصفوفات الوزن ، وغير الخطية العددية لتحقيق وظائف "حدسية" سريعة يمكن أن تدعم الاستدلال البسيط والسهل مع الفطرة السليمة.

قبل تقديم نموذج اللغة العصبية ، صف بإيجاز الطريقة القياسية ، وهي نموذج لغة قائم على الإحصاء لا يستخدم تمثيل الميزة الموزعة. يعتمد على حساب تكرار تسلسلات الرموز القصيرة التي تزيد إلى N (N-grams ، N-grams). عدد N-grams الممكنة قريب من VN ، حيث V هي حجم المفردات ، وبالنظر إلى أن محتوى النص يحتوي على آلاف الكلمات ، هناك حاجة إلى مجموعة كبيرة جدًا. تعامل N-grams كل كلمة كوحدة ذرية ، لذلك لا يمكن تعميمها في متواليات الكلمات ذات الصلة لغويًا ، لكن نماذج لغة الشبكة العصبية يمكنها ذلك ، لأنها تربط كل كلمة بمتجه لقيم eigenvalues الحقيقية ، وتكون في فضاء متجه الكلمات ذات الصلة لغويًا قريبة من بعضها البعض.

الشبكة العصبية المتكررة

عندما تم تقديم خوارزمية backpropagation لأول مرة ، كان الشيء الأكثر إثارة هو استخدام الشبكات العصبية المتكررة (RNNs) للتدريب. بالنسبة للمهام التي تتضمن إدخال تسلسل ، مثل الكلام واللغة ، يمكن أن يحقق استخدام شبكات RNN نتائج أفضل. عناصر تسلسل إدخال معالجة RNNs واحدًا تلو الآخر ، وفي نفس الوقت تحافظ على "ناقل الحالة" الذي يحتوي ضمنيًا على المعلومات التاريخية لعناصر التسلسل في الماضي في الوحدة الضمنية في الشبكة. إذا كان ناتجًا من خلايا عصبية مختلفة في شبكة عميقة متعددة الطبقات ، فسننظر في ناتج هذه الوحدة الضمنية في خطوات زمنية منفصلة مختلفة ، مما سيجعلنا أكثر وضوحًا في كيفية استخدام التكاثر العكسي لتدريب RNNs.

RNNs هي أنظمة ديناميكية قوية جدًا ، لكن تدريبها أثبت أنه يمثل مشكلة ، لأن التدرج في الانتشار العكسي يزيد أو ينقص في كل فترة زمنية ، لذلك بعد فترة من الزمن ، ستزداد النتيجة أو تنقص إلى الصفر.

نظرًا للهندسة المعمارية وأساليب التدريب المتقدمة ، تم العثور على RNNs لتكون قادرة على التنبؤ بالحرف التالي في النص أو الكلمة التالية في الجملة بشكل جيد للغاية ، ويمكن تطبيقها على مهام أكثر تعقيدًا. على سبيل المثال ، بعد قراءة الكلمات في جملة إنجليزية في وقت معين ، سيتم تدريب شبكة "مشفر" باللغة الإنجليزية ، بحيث يمكن لمتجه الحالة النهائية للوحدة الضمنية أن يمثل جيدًا معنى الجملة أو فكرتها. يمكن استخدام "ناقل الفكر" كحالة ضمنية أولية (أو مدخلات إضافية) للتدريب المشترك لشبكة "مشفر" فرنسية ، ومخرجاتها هي التوزيع الاحتمالي للكلمة الأولى في الترجمة الفرنسية. إذا تم تحديد كلمة أولى خاصة من التوزيع كمدخل لشبكة التشفير ، فسيتم إخراج التوزيع الاحتمالي للكلمة الثانية في الجملة المترجمة حتى يتم إيقاف التحديد. بشكل عام ، هذه العملية عبارة عن سلسلة من المفردات الفرنسية تم إنشاؤها وفقًا للتوزيع الاحتمالي للجمل الإنجليزية. إن أداء هذه الطريقة البسيطة في الترجمة الآلية يمكن مقارنته بأحدث الطرق ، كما أنه يثير تساؤلات حول ما إذا كان فهم الجمل يحتاج إلى معالجة الرموز الداخلية مثل قواعد الاستدلال. يتماشى هذا مع وجهة النظر القائلة بأن الاستدلال اليومي يتضمن القياس بناءً على استنتاجات معقولة.

على غرار ترجمة معنى الجمل الفرنسية إلى جمل إنجليزية ، يمكنك أيضًا تعلم "ترجمة" محتوى الصور إلى جمل إنجليزية. هذا المشفر عبارة عن شبكة تلافيفية عميقة (ConvNet) يمكنها تحويل وحدات البكسل إلى متجهات نشاط في آخر طبقة مخفية. تشبه مفككات التشفير تلك المستخدمة من قبل RNNs للترجمة الآلية ونماذج لغة الشبكة العصبية. في الآونة الأخيرة ، كان هناك اهتمام كبير بالتعلم العميق (انظر الأمثلة المذكورة في الأدبيات).

بمجرد نشر RNNs ، يمكن اعتبارها شبكة عصبية عميقة التغذية مع جميع الطبقات التي تشترك في نفس الأوزان. على الرغم من أن الغرض منها هو تعلم الاعتماد على المدى الطويل ، إلا أن الأدلة النظرية والتجريبية تشير إلى أنه من الصعب تعلم المعلومات والحفاظ عليها لفترة طويلة.

من أجل حل هذه المشكلة ، ولدت فكرة لزيادة مساحة التخزين على الشبكة. تم اقتراح LSTM (شبكات الذاكرة طويلة المدى) باستخدام وحدات ضمنية خاصة لأول مرة ، وسلوكها الطبيعي هو حفظ المدخلات لفترة طويلة. تشبه وحدة خاصة تسمى خلية الذاكرة المجمعات والخلايا العصبية ذات البوابات: سيكون لها وزن بالتوازي مع نفسها في الخطوة الزمنية التالية ، نسخ القيمة الحقيقية لحالتها الخاصة والإشارات الخارجية المتراكمة ، ولكن هذه الذات يتم التحكم في الاتصال بواسطة بوابة الضرب التي تتعلمها وحدة أخرى وتقرر متى يتم مسح الذاكرة.

أثبتت شبكة LSTM لاحقًا أنها أكثر فاعلية من شبكات RNN التقليدية ، خاصةً عندما تكون هناك طبقات متعددة في كل خطوة زمنية ، يمكن لنظام التعرف على الكلام بأكمله نسخ الصوتيات بالكامل إلى تسلسلات شخصية. في الوقت الحاضر ، تُستخدم شبكات LSTM أو وحدات البوابات ذات الصلة أيضًا في شبكات التشفير وفك التشفير ، وتعمل بشكل جيد في الترجمة الآلية.

في السنوات القليلة الماضية ، طرح العديد من العلماء مقترحات مختلفة لتحسين وحدة الذاكرة الخاصة بـ RNNs. يتضمن الاقتراح آلة Turing العصبية ، حيث يتم تحسين الشبكة عن طريق إضافة تخزين "يشبه الشريط" يمكن قراءته وكتابته بواسطة RNNs ، بينما يتم تحسين الشبكة التقليدية في شبكة الذاكرة بواسطة الذاكرة الترابطية. كان أداء شبكة الذاكرة جيدًا في المعيار القياسي للأسئلة والأجوبة ، وتستخدم الذاكرة لتذكر الحالات التي يُطلب منها الإجابة على الأسئلة لاحقًا.

بالإضافة إلى الحفظ البسيط ، تُستخدم آلات تورينج العصبية وشبكات الذاكرة في المهام التي تتطلب عادةً التفكير والمعالجة الرمزية ، ويمكنها أيضًا تعليم "خوارزميات" آلات تورينج العصبية. بالإضافة إلى ذلك ، يمكنهم تعلم إخراج سلسلة مرتبة من الرموز من تسلسل رموز الإدخال غير المصنف (حيث يكون لكل رمز قيمة حقيقية مقابلة تشير إلى الأولوية في القائمة). يمكن تدريب شبكة الذاكرة لتتبع حالة عالم مليء بألعاب وقصص مغامرات نصية ، وللإجابة على بعض الأسئلة التي تتطلب تفكيرًا معقدًا. في مثال اختبار ، يمكن للشبكة الإجابة بشكل صحيح على أسئلة مثل "أين هو فرودو الآن؟" في الإصدار المكون من 15 جملة من The Lord of the Rings.

مستقبل التعلم العميق

لقد لعب التعلم غير الخاضع للإشراف دورًا محفزًا في إعادة إشعال طفرة التعلم العميق ، لكن نجاح التعلم الخاضع للإشراف البحت قد طغى على التعلم غير الخاضع للإشراف. على الرغم من أن هذا ليس محور تركيزنا في هذه المراجعة ، إلا أننا ما زلنا نتوقع أن يصبح التعلم غير الخاضع للإشراف أكثر وأكثر أهمية على المدى الطويل. يهيمن التعلم غير الخاضع للإشراف على تعلم البشر والحيوانات: يمكننا اكتشاف البنية الداخلية للعالم من خلال الملاحظة ، بدلاً من إخبارنا باسم كل شيء موضوعي.

الرؤية البشرية هي عملية ذكية ونشطة تعتمد على طريقة محددة تستخدم دقة نقرة صغيرة أو كبيرة والمناطق المحيطة بها لجمع الضوء وصوره. نتوقع أن يكون هناك المزيد من التقدم في الرؤية الآلية في المستقبل ، وتأتي هذه التطورات من أنظمة التدريب الشاملة هذه ، جنبًا إلى جنب مع شبكات ConvNets و RNNs ، واستخدام التعلم المعزز لتحديد الاتجاه. لا يزال النظام الذي يجمع بين التعلم العميق والتعلم المعزز في مهده ، ولكنه تجاوز أنظمة الفيديو السلبية في مهام التصنيف وأنتج نتائج رائعة في تعلم تشغيل ألعاب الفيديو.

في السنوات القليلة المقبلة ، سيكون فهم اللغة الطبيعية مجالًا آخر سيحدث فيه التعلم العميق تأثيرًا كبيرًا. نتوقع أن تلك الأنظمة التي تستخدم RNNs ستفهم بشكل أفضل الجمل أو المستندات بأكملها عندما تتعلم بشكل انتقائي الاستراتيجيات التي تمت إضافتها جزئيًا في لحظة معينة.

في النهاية ، ستأتي التطورات الرئيسية في الذكاء الاصطناعي من الأنظمة التي تتضمن التعلم التمثيلي للتفكير المعقد. على الرغم من تطبيق التعلم العميق والتفكير البسيط على التعرف على الكلام والكتابة اليدوية لفترة طويلة ، إلا أننا ما زلنا بحاجة إلى استبدال عمليات تعبير الشخصية القائمة على القواعد بنموذج جديد يتعامل مع عدد كبير من المتجهات.

أكثر الرياضات المعروف كوبيه SUV ليس من قبيل المبالغة كشفت بورش كايين كوبيه رسميا

10 استثمار مليار الجديد "جامعة جياوتونغ،" نظرا للموقع! اسم المدرسة يتيح للمستخدمين الشجار

تاوباو مزدوج 12 تجنيد "ضابط العشب" تلقى فعلا الدكتور الأراضي العشبية الذاتية

مراقبة الهاتف، التي تسيطر عليها شقة تولي اهتماما لك، وشرب هذا الحساء لمساعدتك على التخلص من التعب البصري

ضعف اثنا عشر المواقف الهاتف: هواوي ليس الحرب، فيفو لا تأخذ القلب، وMEIZU جين الأكثر شعبية

جعلت ZF 8AT علبة التروس في الصين قريبا

ببساطة الفلكية! المحمول السعر إصلاح الهاتف المحلي يمكن شراء نسخة من الإمبراطور iPhone7 زائد

نهر بكين حول "المياه تتدفق شاقة" واسطة

كمبيوتر مع تغير رد فعل طويل "بطيء"؟ تعال تعلم الطريقة الصحيحة لاستعادته!

البالغ من العمر 18 عاما لسرقة قيمة مشفرة من 900000 يوان العملة، واضطر تبادل لاغلاق!

اليوم مدرب لتجد أسد صغير "نقاش" ل...... تريد أن تعرف لماذا يأتي التحقق من ذلك!

نابض بالحياة سيارة متطورة تشانغ CS15 السعر مدرجة رسميا من 5،59-7،89 عشرة آلاف يوان