ImageNet جلب رياح نموذج ما قبل التدريب، وسرعان ما تكون في مهب في مجال البرمجة اللغوية العصبية

شبكة لى فنغ منظمة العفو الدولية تكنولوجي ريفيو: لمجال الباحثين رؤية الكمبيوتر، ومطوري المنتجات، نموذج ما قبل التدريب على ImageNet ثم استخدام التدريب نموذج بيانات مهمة محددة خاصة بها أصبحت العرفي. ومع ذلك، يبدو أن الباحثين معالجة اللغات الطبيعية والمطورين للا تفعل ذلك - وهكذا، ربما، "عصر ImageNet" حقل NLP قريبا جلب.

كاتب هذا المقال هو سيباستيان رودر، والاتجاه الرئيسي هو عمق التعلم ومعالجة اللغة الطبيعية، وتحليل البيانات، وهو طالب دكتوراه مركز أبحاث انسايت، دبلن هو أيضا معالجة اللغة الطبيعية لبدء الشركات AYLIEN عالم، وقال انه صفقات تتعلق باللغة الطبيعية في الجزء العلوي نشر العديد من المقالات ضجة، ولكن أيضا شارك في تأليف ULMFiT؛ له بلوق الشخصية هي وقد تم تجميع لى فنغ شبكة AI تكنولوجي ريفيو وفقا للنص الأصلي.

في مجال معالجة اللغة الطبيعية (NLP) سنوات، بعض التغييرات تأتي.

كسمة رئيسية لتكنولوجيا معالجة اللغة الطبيعية تمثل ناقلات كلمة (ناقلات ورد) طالما هيمنت مجال معالجة اللغة الطبيعية، لكنها واجهت في الآونة الأخيرة سلسلة من التحديات القوية: إلمو، ULMFiT وOpenAI محول. هذه الجهود دون استثناء، أصبحت عناوين الصحف، لأنها أثبتت نموذج اللغة المدربين قبل من يمكن الحصول على أفضل النتائج في مجموعة متنوعة من المهام معالجة اللغة الطبيعية. ظهور هذه الأساليب مقدمات لحظة فاصلة: لغة هذه نموذج المدربين قبل قد يسبب تأثير كبير واسع في مجال معالجة اللغات الطبيعية، وتأثير نموذج ImageNet قبل تدريب في رؤية الكمبيوتر الناجمة عن نفسها.

من الضحلة إلى أعماق ما قبل التدريب

هيمن قبل التدريب الموجه كلمة مجال معالجة اللغة الطبيعية لفترة طويلة من الزمن. Word2vec أن يقترب كما النمذجة الصيغة المقترحة في عام 2013، عندما كان الجهاز أبطأ مما هو عليه الآن، ونموذج التعلم العميق لم يتم استخدامها على نطاق واسع، وهذه المرة Word2vec بحكم كفاءتها وسهولة الاستخدام في المقدمة. ومنذ ذلك الحين، والطريقة القياسية لدراسة اللغة الطبيعية هي دون تغيير أساسي: من خلال Word2vec والقفازات خوارزميات جزءا لا يتجزأ من ناقلات ما قبل التدريب للحصول على كلمة على بيانات غير المسماة، ومن ثم إدراج سيتم استخدام كلمة ناقلات تهيئة الشبكة العصبية الطبقة الأولى، بينما يقوم بقية الشبكة على مهمة معينة، والبيانات المتبقية للتدريب. في معظم بيانات محدودة مهمة التدريب، ويمكن هذا النهج تعزيز دقة 2-3 نقطة مئوية. ولكن على الرغم من هذه الكلمة جزءا لا يتجزأ من ناقلات المدربين قبل له تأثير كبير، وأنها تعاني من وجود قيود رئيسية هي: أنها معرفة فقط السابقة في الطبقة الأولى من هذا النموذج، في حين أن بقية الشبكة لا تزال هناك حاجة لبدء التدريب.

استولت عليها word2vec إلى العلاقة (المصدر: TensorFlow دروس)

أساليب أخرى Word2vec والأساليب ذات الصلة التي تنتمي إلى الضحلة، وهو نوع من في الكفاءة التعبيرية الأخرى وهي تقترب. استخدام كلمات مثل ترميز ناقلات جزءا لا يتجزأ من استخدام فقط تلك ما قبل التدريب الموجه ميزة تمثيل معلومات الصورة حافة تهيئة نموذج رؤية الكمبيوتر، على الرغم من أن هذه الممارسة لكثير من المهام هي مفيدة، ولكن لا يمكن التقاط هذه ربما أكثر فائدة معلومات عالية المستوى. يستخدم نموذج كلمة جزءا لا يتجزأ من احتياجات ناقلات التهيئة للبدء من الصفر للتعلم، لمعرفة إلى نموذج ليس فقط القضاء على غموض الكلمات، ولكن أيضا لفهم معنى كلمة تسلسل. هذا هو فهم اللغة الأساسية، فإنه يتطلب نمذجة الظواهر اللغوية المعقدة، مثل دلالات الاصطناعية، والغموض، في اشارة الى المدى الطويل الاعتماد والاتساق والسلبية، وهلم جرا. ولذلك، فإن استخدام هذه الضحلة تمثيل اللغة الطبيعية المعالجة نموذج التهيئة لا يزال يتطلب الكثير من عينات التدريب من أجل الحصول على الأداء الجيد.

جوهر منافسه القادمة ULMFiT، إلمو وOpenAI محول نقلة نوعية حاسما في ما يلي: الطبقة الأولى من التهيئة فقط باستخدام نموذج القيادة توصيف الطبقات (التمثيل الهرمي) متدرب قبل نموذج كامل . إذا علمنا كلمة لتعلم حواف الصورة من لرؤية الكمبيوتر، وهذه الأساليب الجديدة مثل كامل ملامح الصورة الهرمية، مثل التعلم، من الحافة إلى الشكل، ثم المفاهيم الدلالية المتقدمة.

ومن المثير للاهتمام، وقد اعتمد المجتمع رؤية الكمبيوتر نموذج ما قبل التدريب لسنوات عديدة، والذي هو أول ما قبل التدريب لنموذج كامل، وثانيا أنها تعلمت أيضا على مستوى منخفض ومستوى عال من الميزات. في معظم الحالات، يتم إنجاز ما قبل التدريب عن طريق التعلم تصنيف الصور على قاعدة بيانات ImageNet كبيرة. جلبت اليوم ULMFiT، إلمو وOpenAI محول يعادل المجتمع معالجة اللغة الطبيعية "المهام اللغة ImageNet". ، فهو يجعل نموذج قادر على التعلم إلى مستوى أعلى من الفروق الدقيقة النص؛ قبل المدربين على رؤية الكمبيوتر يجعل هذا نموذج مماثل لImageNet علم الخصائص العامة للصورة. في ما تبقى من هذه المادة، سوف نبني قياسا ImageNet من خلال توسيع وتوضيح لماذا هذه الأساليب الجديدة تبدو واعدة جدا.

ImageNet

ImageNet هي على نطاق واسع التعرف على الصور التحدي

وليس من قبيل المبالغة القول بأن تأثير ImageNet على عملية التعلم آلة هائلة. وأطلق سراح مجموعة البيانات في الأصل في عام 2009 وتطورت بسرعة إلى نطاق واسع التعرف البصري ImageNet التحدي (ILSVRC). في عام 2012، وعمق نموذج الشبكة العصبية للتنبؤ نتيجة اليكس Krizhevsky، ايليا Sutskever وجيفري هينتون المقدمة 41 أعلى من الثانية، مما يدل على عمق التعلم تعلم الآلة هو استراتيجية قابلة للحياة، وتشير الأبحاث آلة التعلم دراسة متعمقة على وشك الدخول في النمو الهائل.

يظهر نجاح ImageNet أنه في عصر التعلم العميق والبيانات والخوارزميات هي نفس القدر من الأهمية. ليس فقط بسبب ImageNet في عام 2012، نظرا لعمق فرصة التعلم لإثبات نفسه، ولكن أيضا لتحقيق نقل مماثل تعلم أهمية اختراق: الباحثون سرعان ما أدرك أنه يمكنك استخدامها لمعرفة أفضل الوزن نموذج ImageNet تهيئة الآخر نموذج المهمة، وعلى الرغم من مجموعات البيانات المختلفة، ولكن هذا لا يزال مساعدة كبيرة لتحسين أداء النموذج. هذا "صقل (غرامة TUNNING)" الأسلوب يمكن أن يحقق نتائج جيدة، وحتى في وتعطى كل فئة عينة إيجابية غير كافية (https://arxiv.org/abs/1310.1531).

في ميزة التدريب ILSVRC عام 2012 يمكن تعميمها على مجموعة البيانات SUN-397

وقد استخدمت نماذج ImageNet Pretrained مثل الكشف عن وجوه، وتجزئة الدلالي، وتقدير تشكل البشري والمهام الاعتراف الفيديو، وحققت أفضل النتائج. وفي الوقت نفسه، أن تطبق أيضا على نماذج تدريب قبل لمثل هذه الدراسة على عمق عدد قليل من تدريب العينات والفن مكلفة المسمى. من خلال دراسة الهجرة في ImageNet قبل تدريب فعال جدا أن اليوم في مجال الرؤية الكمبيوتر، وإذا كنت لا تفعل هذا ولكن كان يعتبر أن تكون متهورة (https://arxiv.org/abs/1805.00932).

السعي ImageNet

لتحديد ان مهمة ImageNet اللغة يكون مثل، نحن بحاجة أولا للتأكد من ما يتميز جعل تناسب الصورة بحيث التعلم نقل ImageNet. الدراسات المبكرة فتح مجرد غيض من فيض من المشكلة: سوف يقلل من عدد من الفئات أو عدد العينات في كل فئة تؤدي إلا إلى انخفاض طفيف في الأداء، وفئة الحبيبات غرامة (الطبقات غرامة الحبيبات) والمزيد من البيانات هذا النموذج هو ليس دائما مفيدا.

لكويست ImageNet، نحن لسنا لتصفح مباشرة مجموعة البيانات، ولكن لاستكشاف نموذج على التدريب في ImageNet في النهاية ما تعلموه. ومن المعروف جيدا في عمق الشبكة العصبية المدربة على ميزات ImageNet لديه ميزة أن طبقة، تتميز عالمية تحولت تدريجيا إلى الخاصة (التي يحددها مهمة) من أول من الطبقة الأخيرة من الشبكة. مستوى أقل الشبكة التعلم من مستوى منخفض ميزات مثل النمذجة الحافة، ومستوى أعلى من الصورة هو المفاهيم النمذجة أكثر تقدما، مثل وضع أو كائن (انظر شبكة AI لى فنغ المادة تكنولوجي ريفيو على CNN ميزة التصور)، كما هو مبين في الشكل. الأهم من ذلك، على حافة المعرفة، وهيكل وتكوين الأجسام المرئية، وما هي شائعة في العديد من المهام رؤية الكمبيوتر، الذي يكشف عن السبب في طبقة الشبكة، ويمكن استخدامها لنقل التعلم. ولذلك، فإن الخصائص الرئيسية لمجموعة البيانات الطبقة ImageNet هو أن تكون قادرة على تعزيز نموذج التعلم التي يمكن أن تمتد إلى مهام أخرى في ملامح نطاق المشكلة.

ميزات FIG البصرية على طبقات مختلفة GoogLeNet على المعلومات التي تم التقاطها، GooLeNet من التدريب على ImageNet

وبالإضافة إلى ذلك، من الصعب جدا تعميم المزيد لماذا ImageNet الهجرة ستكون قوية جدا. ميزة أخرى هي البيانات ImageNet عالية الجودة مجموعة البيانات الشرح. ImageNet الخالق بذل كل جهد ممكن لضمان وضع العلامات دقيقة من الموثوقية والاتساق. لكن، وكما نقيض وجود إشراف عن بعد وقد أظهرت (بعيد الإشراف) العمل الميداني أن عددا كبيرا من ضعف تسمية البيانات وعادة ما يكفي. وقال مؤخرا باحث الفيسبوك في الواقع يمكن نموذج ما قبل المدربين من خلال التنبؤ مليارات التسمية موضوع الصورة وسائل الاعلام الاجتماعية، ثم النموذج يمكن أيضا الحصول على أفضل دقة على ImageNet.

ولذلك، فإننا نستنتج أن المتطلبات الرئيسية اثنين:

  • مجموعة البيانات الطبقة ينبغي ImageNet يكفي كبيرة ، على سبيل المثال، لديها الملايين تدريب الأمثلة.

  • يجب أن تمثل مساحة مشكلة الانضباط.

  • المهام اللغة ImageNet

    في المهام معالجة اللغة الطبيعية، والتي عادة ما يكون لها النمذجة عمق أكثر سطحية من النموذج المطابق في رؤية الكمبيوتر. لذلك، ركز التحليل على خصائص الطبقة الأولى مضمن، والعمل من أجل تحقيق مستوى أعلى من الهجرة يتعلم أيضا طبيعة قليل جدا. لنفترض أن لدينا مجموعة بيانات كافية لتلبية احتياجات ذكرت للتو، وأشر # 1. وذلك في ضوء الوضع الحالي للمعالجة اللغة الطبيعية، وسوف يكون هناك عدة تتنافس مجموعات البيانات.

    القراءة والفهم إنها مهمة تطالب لمحدد الجواب نص اللغة الطبيعية الأسئلة الخوارزميات. مجموعة البيانات الأعلى مهمة Q ستانفورد عبارة عن مجموعة البيانات (الجماعة)، ويحتوي على أكثر من مائة ألف زوج من Q (السؤال الإجابة أزواج)، والإجابات النموذجية المطلوبة سلط عليها الضوء في عرض النص، كما هو مبين أدناه العروض.

    اجابات من بيانات العينة يستعد الفريق

    المنطق اللغة الطبيعية خوارزمية تحدد العلاقة بين النص وفرضية (يحتوي على التناقضات ومحايدة) متطلبات المهمة. ستانفورد المنطق اللغة الطبيعية (SNLI) الإحضار هي واحدة من المهام مجموعة البيانات الأكثر شعبية، والذي يحتوي على 570،000 أزواج من الجمل الإنجليزية كتبه حق البشرية. وترد أدناه مجموعات البيانات العينة.

    مجموعات البيانات عينة من SNLI

    الترجمة الآلية ومن لترجمة النص بلغة واحدة في النص لغة أخرى، وهي واحدة من أكثر المهام البحثية معالجة اللغة الطبيعية. وعلى مر السنين، تراكمت لدينا عدد كبير من العينات التدريب على اللغة السائدة، على سبيل المثال، WMT 2014 من 40 مليون الإنجليزية - حكم اليمين الفرنسي. ويوضح الشكل التالي مثالين الترجمة.

    Newstest2014 من الترجمة الإنجليزية للثورة الفرنسية

    العنصر التوزيع (دائرة التوزيع) مهمة يحاول خطي شكل شجرة استخراج مكون تحليل تركيب الجمل النحوية، كما هو مبين أدناه. في الماضي، تم تدريب الملايين من ضعف تسميات عزم لتسلسل المهام إلى تسلسل نموذج.

    تمثيل شجرة تحليل والخطي

    لغة النمذجة وقد تم تصميم حالة (النمذجة اللغة، LM) لإعطاء الكلمة الحالية، وبالتالي فإن خوارزمية للتنبؤ الكلمة التالية. تحتوي على مجموعات بيانات خط الأساس الحالية تصل إلى 1 مليار كلمة، ولكن لأن المهمة غير خاضعة للرقابة، لذلك يمكنك استخدام أي عدد من الكلمات للتدريب. يظهر الشكل التالي مجموعة بيانات عينة نصوص ويكي WikiText-2، فهي مكونة من مادة ويكيبيديا.

    من نصوص ويكي WikiText 2-لغة النمذجة بيانات عينة

    وتقدم كل من هذه المهام عينات تدريب كافية. في الواقع خلال الأشهر القليلة الماضية، هذه المهام (والعديد من المهام الأخرى، مثل تحليل المشاعر، تحليل المحتوى، والقفز، والأفكار والترميز التلقائي) تم تطبيقه على مرحلة ما قبل التدريب ميزة التمثيل.

    على الرغم من أن أي مجموعة من البيانات سوف يكون هناك بعض الانحراف، ولكن أعضاء الشرح البشري (المفسرين البشري) ونحن قد يعرض عن غير قصد نماذج أخرى يمكن الاستفادة من بعض الإشارات. وقد أظهرت الدراسات الحديثة أن أفضل نموذج لقراءة وفهم المهام لغة المنطق الطبيعية، لم تظهر فهم عميق للغة الطبيعية، ولكن مجرد استخدام هذه الإشارات لتحقيق مطابقة نمط الضحلة. على سبيل المثال، https: تظهر //arxiv.org/abs/1803.02324 الأوراق التي أعضاء تميل إلى مجرد التسمية كانت العينة تحتوي على توليد عن طريق إزالة الجنس أو المعلومات الرقمية، والصراع من خلال إدخال عينة سلبية. ببساطة استخدام هذه الإشارات النموذج يمكن أن الافتراضات تصنيف بشكل صحيح، بدلا من ما يقرب من 67 من البيانات SNLI مركزية نظرا للفرضية.

    ولذلك، فإن السؤال الأكثر صعوبة هو: ما هي مهمة يمكن أن تمثل أفضل مساحة مشكلة في معالجة اللغة الطبيعية؟ وبعبارة أخرى، والمهام التي يمكن أن تجعلنا نتعلم كيف نفهم معظم المعارف المطلوبة أو العلاقة بين اللغة الطبيعية؟

    عينة لغة النمذجة

    من أجل التنبؤ الجملة الأرجح المقبلة في كلمة واحدة، ليست قادرة فقط للتعبير عن نموذج النحوية (كلمة جملة التنبؤ يجب أن تتطابق التعديل، أو الفعل)، ولكن أيضا قادرة على التعبير عن نموذج الدلالي. الأهم من ذلك، يجب أن تحتوي على معظم نموذج دقيق المعرفة في العالم أو الحس السليم. النظر في الجملة غير مكتملة، "خدمة الفقراء، ولكن الطعام ......"، من أجل التنبؤ كلمات لاحقة مثل "لذيذ" أو "لذيذ" نموذج ليس فقط لتذكر كلمة تستخدم لوصف خصائص المواد الغذائية، ولكن أيضا أن تكون قادرة على تحديد حرف العطف "ولكن" إلى الحكم الأصلي لإدخال نقطة تحول، من أجل التنبؤ الخصائص الجديدة لديها مزاج مخالف.

    وقد ثبت النمذجة اللغة للقبض على الكثير من المعرفة المتصلة بالمهام المصب مثل الاعتماد على المدى الطويل، والعلاقات الهرمية والعواطف. مقارنة مع المهام غير خاضعة للرقابة ذات الصلة (مثل القفز على الأفكار، وبطريقة آلية الترميز)، والأداء النمذجة اللغة على مهمة النحوية أفضل، حتى مع بيانات التدريب أقل.

    واحدة من أكبر مزايا هو نمذجة اللغة، وتدريب البيانات يمكن أن تأتي من أي من مجموعة النص، مما يعني أنه يمكنك الحصول على كمية غير محدودة من البيانات التدريب. هذا مهم بشكل خاص، لأن اللغة الطبيعية في فهم ليس فقط الإنجليزية، في هذا العالم هناك العديد من اللغات الأخرى. كبعثة قبل التدريب لغة النمذجة، وفتح الباب لتلك اللغات صغيرة تطوير التطبيقات اللغوية. للموارد الشحيحة جدا من اللغة، قد تكون هناك بيانات غير المسماة صغيرة جدا، ونماذج متعددة اللغات (نماذج لغة متعددة اللغات) يمكن تدريب في وقت واحد في اللغة المتعددة ذات الصلة، والتي يشبه عبر لغة جزءا لا يتجزأ من (التضمينات الصليب اللغات) متجه بحث.

    ULMFiT مراحل مختلفة من (المصدر: هوارد ورودر، 2018)

    حتى الآن، وسوف نصدر النمذجة ما قبل اللغة بوصفها مهمة تدريبية هي النظرية البحتة. ولكن في الأشهر الأخيرة، تلقينا بعض الأدلة التجريبية: وجزءا لا يتجزأ من نموذج لغة (التضمينات من النماذج اللغة، إلمو)، صقل نموذج لغة عامة (العالمي لغة نموذج صقل، ULMFiT) ولقد ثبت OpenAI محول تجريبيا النمذجة لغة يمكن استخدامها لمرحلة ما قبل التدريب. وقد اعتمدت هذه الطرق الثلاث أفضل نموذج اللغة المدربين قبل لتحقيق مجموعة متنوعة من المهام معالجة اللغة الطبيعية، وتشمل هذه المهام تصنيف النص، ومسابقات، والمنطق اللغة الطبيعية، ويشير إلى القضاء التام على علامات تسلسل، وهلم جرا.

    في كثير من الحالات، على سبيل المثال في الشكل إلمو التالية، قصارى جهدها درجة أعلى من 10 إلى 20 في مختلف قاعدة بحثية السائدة، والتي اعتمدت أسلوبا الأساسية - استخدام نموذج اللغة المدربين قبل. وبالإضافة إلى ذلك، كما فاز إلمو في NAACL-HLT 2018 جائزة أفضل ورقة، والتي تعد واحدة من أكبر المؤتمرات في هذا المجال. وأخيرا، وقد تبين هذه النماذج لديها كفاءة أخذ العينات عالية جدا، لا يمكن أن يتحقق مئات عادلة العينات أداء جيدا للغاية لا يمكن أن يتحقق حتى الصفر العينة (صفر شوت) الدراسة.

    تحسين نموذج إلمو للنجاح في المهام معالجة اللغة الطبيعية أكثر

    في ضوء هذا التغيير في السياسة، في غضون السنة المقبلة، ومن المرجح NLP ممارس لاعتماد نموذج اللغة، بدلا من الاستمرار في استخدام تدريب قبل كلمة جزءا لا يتجزأ من ناقلات المدربين قبل . هذا هو مماثل لنموذج ImageNet قبل التدريب هو نقطة الانطلاق لمعظم المهام رؤية الكمبيوتر اليوم.

    ومع ذلك، على غرار word2vec، لديها مهام النمذجة اللغة أيضا القيود الخاصة بها: إلا حقا فهم لغة الوكيل، واحد نموذج عالمي (نموذج متآلف) أي القدرة على التقاط المعلومات اللازمة لمهام معينة المصب. على سبيل المثال، للرد أو لتتبع مسار نمو شخصيات القصة، راجع لاحتياجات نموذج لتتعلم كيف تتعامل مع أو القضاء تماما الإصبع. وبالإضافة إلى ذلك، يمكن للنموذج اللغة التقاط فقط المحتوى الذي يشاهدونه. بعض أنواع المعلومات، مثل معظم المعلومات الحس السليم، فمن الصعب معرفة فقط من النص، فإنها تحتاج إلى الجمع بين الحصول على معلومات إضافية.

    والسؤال الأساسي هو كيفية المعلومات تهاجر من نموذج لغة ما قبل تدريبهم على المهام المصب. وهذا ينطوي على مثالين الرئيسية، يتم استخدام نموذج اللغة المدربين قبل بأنه مستخرج ميزة ثابتة، وأعرب (في الواقع هذا هو إلمو) ميزة إدراجها في النموذج بوصفه التهيئة عشوائية؛ أو ما إذا كان، كما ULMFiT اختيار اللغة كما صقل نموذج كامل. وهذا الأخير صقل استراتيجية أكثر كلاسيكية في الرؤية الحاسوبية، فإن هذه الاستراتيجية تكون العلوي نموذج أو بالقرب من أعلى عدة طبقات من صقل. ومع ذلك، ونماذج معالجة اللغة الطبيعية هي عمق عادة عمقا، وبالتالي تحتاج إلى ضبط مختلف والاستراتيجيات البصرية، ونموذج ما قبل التدريب الأخير لمعالجة اللغة الطبيعية أصبحت أكثر وأكثر. إن الأشهر القليلة المقبلة لشرح تأثير كل من المكونات الأساسية للدراسة هجرة معالجة اللغة الطبيعية: نموذج للترميز اللغة التعبيرية، مثل عمق BiLSTM أو نموذج محول، وبالنسبة للكمية ونوعية البيانات التدريب المسبق، ل صقل نموذج التدريب قبل الأسلوب.

    دعم نظرية

    وحتى الآن، وتحليل لدينا هو أساسا النظري والتجريبي، لأن الناس لا يزال من الصعب أن نفهم لماذا وجود مثل هذه الهجرة جيدة في التدريب ImageNet ونمذجة اللغة على النموذج. تعلم الانحراف (التعلم التحيز، باكستر، 2000) طريقة النمذجة توفر لنا طريقة أخرى لاكتشاف ما قبل التدريب نموذج التعميم، ولكن توحيد هذه الطريقة أكثر. لنفترض أننا تغطية يتم ترتيب جميع مجالات المشاكل في مهمة تخصصات محددة، على سبيل المثال، من خلال رؤية الكمبيوتر تراكمت البيئة التي نعيش فيها. نحصل على مجموعة كبيرة من البيانات، والذي يسمح لنا للحث على سلسلة من H الفضاء فرضية = H. هدفنا هو العثور على الانحراف تعلم الانحراف، وهذا هو، كامل (ربما لانهائي) للحصول على أفضل أداء من بيئة الفضاء الفرضية

    .

    وأظهرت أن وجود عدد كاف من المهام تعلمت الانحراف يجوز تمديد لمهام أخرى غير معروفة مشتقة من نفس البيئة؛ متعددة المهام الخبرة والنتائج النظرية (باكستر، 2000 كاروانا، 1997) التعلم. من وجهة نظر نقطة التعلم متعددة المهام نظر، ونموذج تدريب على ImageNet تعلم الكثير من المهام الثنائية (فئة واحدة تنتمي إلى مهمة تصنيف ثنائي). وهذه المهام هي من الصورة الحقيقية للطبيعة، فإنه قد تمثل عددا من المهام رؤية الكمبيوتر الأخرى. أيضا (وهي كلمة تنتمي إلى مهمة تصنيف) مهمة تصنيف من خلال تعلم الكثير من نموذج لغة، قد تعلم سمة من سمات العديد من المهام الأخرى في مجال معالجة اللغة الطبيعية ستساعد يمثلونها. ومع ذلك، لنفهم تماما لماذا التعلم الفعال حتى لغة النمذجة الهجرة، ولكن أيضا بحاجة إلى المزيد من الأبحاث للحصول على تفسير أفضل النظري.

    فتح عهد "ImageNet"

    لقد حان الوقت، وقد غزت دراسة الهجرة العملية بنجاح معالجة اللغة الطبيعية. وبالنظر إلى عمل آخر إلمو، جعلت ULMFiT وOpenAI هذه النتائج مثيرة للإعجاب، ليكون الناس قبل المدربين للتخلي عن استخدام ناقلات كلمة جزءا لا يتجزأ، وتدريب ما قبل نموذج استخدام اللغة، وعلى ما يبدو سوى مسألة وقت. هذا التغيير قد يفتح الباب أمام عالم جديد لتلك المهمة معالجة اللغة الطبيعية يقتصر على كمية البيانات.

    وصل حظة ImageNet عبر NLP ولى فنغ شبكة جمعتها منظمة العفو الدولية تقنية الاستعراض.

    س المثيرة التعادل صبغ! مخبول MARIA اقول لكم هذا الصيف يمكنك ارتداء تي شيرت!

    2018 رئيس ذكي تحليل وضع السوق: كام منتجات جديدة، انظر الاتجاهات

    وأضاف أيضا هو أعلى مع خصائص مختلفة حقا 6T

    جوجل أيضا هذه AI اللعبة، قد يكون تخمين المقبل اللوحة الأغنية قليلا

    تعرض تشانجان مازدا Angkesaila جديد أو المدرجة في عيد الحب

    عندما تكون جميع الأجهزة في الرقمية الذكية، والأدراج، وخزائن أليس كذلك أيضا يمكن أن تضيف القفل الذكي؟

    جوجل بكسل الاضطرابات: الجزء الخلفي من المعدات أو لوحة التتبع

    لقد كان هذا الموسم تحت حذاء أبيض للبيع! نايك ليبرون الجندي 11 أداء قوي في أكثر من ملعب لكرة السلة!

    ستيفن تشو إلى 20 سنوات نظرة ثاقبة ل"الملك الجديد من الكوميديا،" وانغ باو تشيانغ كسر صحفي انه هو "أنثى"

    بالإضافة إلى كامل نظرة الرائد 6T ويشعر بها: الريح تحت المهوسون الأصلي قيمة عالية الين

    "هذه هي معظم ستة تقارير كاذبة المشاريع"! أصدر Smartisan بسرعة لزدنيت!

    تفاصيل الحد عملية ضد قتل الايجابيات؟ التعليق: هذا جميل جدا ذلك!