الجاف | سوء الفهم في السابعة في الكشف عن من تعلم الآلة

AI تقنية الصحافة في الآونة الأخيرة، وهو طالب دكتوراه في علوم الكمبيوتر في جامعة كولومبيا، أرسل أوسكار تشانغ بو عليها سبعة المفاهيم الخاطئة حول تعلم الآلة، ومنظمة العفو الدولية تقنية مراجعة تجميع النص تتلخص فيما يلي.

الشائعات في عمق فهم عملية التعلم من سوء الفهم في السابعة، وكثير منهم من التحيزات السابقة، ولكن تم مؤخرا شكك بحث جديد، والآن لدينا ذلك تسويتها:

سوء الفهم 1: TensorFlow هي مكتبة الحسابية موتر

الأسطورة 2: مجموعة بيانات الصورة تعكس الصورة الحقيقية للتوزيع للعالم الطبيعي

أسطورة 3: تعلم آلة الباحثين لا تستخدم مجموعة اختبار للتحقق من صحة

أسطورة 4: العصبية عملية التدريب شبكة تستخدم كل نقاط البيانات في مجموعة التدريب

أسطورة 5: نحن بحاجة إلى تدريب مجموعة من موحدة شبكة المتبقية فائقة عميقة

خرافة 6: الانتباه من الإلتواء

خرافة 7: FIG كبيرة موضحا الشبكة العصبية قوية

سوف توضح ما يلي:

سوء الفهم 1: TensorFlow هي مكتبة الحسابية موتر؟

في الواقع، TensorFlow هي مكتبة الحسابية المصفوفة، التي الأسهم وعمليات الموترة في فرق كبير.

في NeurIPS 2018 المشتقات رقة الحاسبات ترتيب الأعلى للمصفوفة والتنسور التعبير، أظهر الباحثون أنهم موتر حساب التفاضل والتكامل (التنسور حساب التفاضل والتكامل) على أساس إنشاء مكتبة التمايز الية جديدة لديها بشكل ملحوظ أكثر إحكاما (المدمجة) شجرة التعبير (أشجار التعبير) . لأن هذا هو، باستخدام معرف مؤشر موتر حساب التفاضل والتكامل، والذي نفس الطريق إلى الأمام بحيث وضع معالجة ووضع عكسي.

هي شئ - حساب التفاضل والتكامل مصفوفة من أجل تسهيل تحديد وإخفاء المؤشر، مما يؤدي عادة في شجرة التعبير التفاضلية التلقائي هو تختلط أيضا.

إذا ضرب مصفوفة: C = AB. في الوضع الأول، هناك:

في وضع عكسي، هناك:

من أجل إكمال العملية الحسابية الضرب بشكل صحيح، نحن بحاجة إلى الالتفات إلى أن استخدام تسلسل والضرب تبديل. للمطورين، تعلم الآلة، وهذا هو قليلا الخلط على شعار، ولكن بالنسبة للبرنامج، تحتاج إلى نفقات حساب.

المثال التالي هو بوضوح أكثر أهمية: لالمحدد ج = ديت (A). في الوضع الأول، هناك:

في وضع عكسي، هناك:

هنا فمن الواضح أن نفس لا يمكن استخدام شجرة التعبير لتمثيل وضعي، لأن هما عملية مختلفة منه.

بشكل عام، وطريقة التفريق الآلي TensorFlow ومكتبات أخرى (مثل الرياضيات، القيقب، سيج، رديت، ADOL-C، تابينادي، TensorFlow، Theano، PyTorch وHIPS autograd) تنفيذها، ووضع ووضع العكسي إلى الأمام ، وتأتي إلى مختلفة، شجرة التعبير غير فعالة. في حساب التفاضل والتكامل الموترة، يحدد مؤشر تحتفظ التبادلية الضرب، وبعد ذلك بسهولة تجنب هذه القضايا (مبادئ محددة للتنفيذ، يرجى قراءة الورقة الأصلية).

واختبر الباحثون على ثلاث قضايا مختلفة في طريقة انهم الوضع العكسي والتفريق الآلي، وهذا هو، والعودة نشر، واختبارها وقتها لحساب مصفوفة هس المستهلكة.

القضية الأولى هي لتحسين وظيفة من الدرجة الثانية من النموذج XAX، المشكلة الثانية هو حل الانحدار اللوجستي، المشكلة الثالثة وحل مصفوفة التحلل.

على وحدة المعالجة المركزية، وطريقة جديدة مقارنة مع TensorFlow الشعبية الحالية، Theano، PyTorch وHIPS autograd مثل مكتبة التمايز التلقائي، وهما أوامر من حجم أسرع.

على GPU، وجد الباحثون أن سرعة الطريقة الجديدة هي أكثر وضوحا، وأبعد من مكتبة شعبية من سرعة حوالي ثلاث درجات.

المعنى: إن الاستخدام الحالي للمكتبة التعلم اشتقاق عميق كاملة من وظائف النظام الثانوي أو أعلى، أعلى من تكلفة ما يلزم ليتم امتصاصها من قبل هذا. وهذا يشمل أربعة أغراض العامة الحوسبة موتر أجل هس (مثال: في MAML، والنظام الثاني على طريقة نيوتن) على سبيل المثال. لحسن الحظ، في دراسة متعمقة، وظيفة من الدرجة الثانية ليست شائعة. ولكن في تعلم آلة التقليدية، فهي على نطاق واسع: SVM مشكلة مزدوجة، المربعات الصغرى الانحدار، لاسو، عملية جاوس ......

الأسطورة 2: مجموعة بيانات الصورة تعكس الصورة الحقيقية للتوزيع للعالم الطبيعي

كان الناس يعتقدون أن الشبكات العصبية اليوم في مهمة التعرف على الأشياء، ومستوى تجاوز الواقع. أنها ليست بالضرورة كذلك. ولعل ImageNet مثل فحص من مجموعات بيانات الصورة، تأثيرها هو في الواقع أفضل من الاصطناعي، ولكن للصورة الحقيقية للطبيعة، فهي بالتأكيد لا أي أكثر من الكبار العادي على تحديد الهدف. لأن هذا هو، من مجموعة بيانات الصورة الحالية الصورة المستخرجة، والمستمدة من التوزيع العام للصور في العالم الحقيقي مختلفة.

في نظرة متحيزة 2011 ورقة قديمة في مجموعة بيانات التحيز، الباحثون بناء على 12 مجموعات بيانات الصورة الشعبية، حاول يستخدم تدريب المصنف لتحديد صورة معينة من التي مجموعات البيانات في، لاستكشاف ما إذا كان هناك انحراف من مجموعة البيانات .

عشوائية التخمين المعدل الصحيح ينبغي أن يكون 1/12 = 8، في حين أن معدل نتائج دقيقة في 75.

باحثون في ميزة HOG تدريب على SVM، ووجد أن معدل الصحيح من 39، وهو أعلى من مستوى التخمين العشوائي. اليوم، إذا كنت تستخدم أحدث CNN لإنتاج هذه التجربة، قد يكون أداء المصنف بشكل أفضل.

إذا كانت مجموعة بيانات الصورة يمكن أن تمثل حقا الصورة الحقيقية عن العالم الطبيعي، لا ينبغي أن تكون قادرة على التمييز بين صورة معينة من التي تم تعيين البيانات في.

ومع ذلك، التحيز في البيانات، بحيث كل مجموعة بيانات مختلفة. على سبيل المثال، في ImageNet، وهناك الكثير من "سباق" لا أستطيع أن أصدق أن هذا يمثل "سيارة" بالمعنى المعتاد لمفهوم نموذجي.

قيمة الباحثين في مجموعة بيانات التدريب المصنف، وتقييم الأداء للتأثير على مجموعات البيانات الأخرى، وكذلك مجموعة بيانات القياس. وفقا لهذا المؤشر، LabelMe وImageNet هو أصغر الانحراف من مجموعة البيانات، في "سلة من العملات (سلة العملات)،" سجل 0.58. يسجل كل مجموعات البيانات هي أقل من 1، مما يدل على أن يتم إعطاء نماذج مجموعات البيانات الأخرى المدربين أقل دقة. ومن الناحية المثالية لا توجد مجموعة بيانات الانحراف، ينبغي أن يكون هناك بعض من النتيجة أكبر من 1.

على ملخص المتشائم:

لذلك، إذا كان لنا أن تستخدم الآن لتدريب خوارزمية لنشر البيانات المنصوص عليها في العالم الحقيقي، ما هو يستحق كل هذا العناء؟ ظهرت سقوط تلخيص أن الإجابة ستكون: "أفضل من لا شيء، ولكن ليس أفضل بكثير."

أسطورة 3: تعلم آلة الباحثين لا تستخدم مجموعة اختبار للتحقق من صحة

في الدورة الأولى في تعلم الآلة، وسوف نتعلم مجموعة البيانات إلى مجموعة التدريب، مجموعة التحقق من صحة واختبار مجموعة. سوف تتلقى التدريب على نماذج التدريب مجموعة، وتقييم الأثر على مجموعة التحقق من صحة، لتوجيه المطورين لضبط النموذج، من أجل الحصول على أفضل النتائج نموذج في مشهد حقيقي. بعد التعديل حتى هذا النموذج هو جيدة، يجب عليك استخدام مجموعة اختبار يوفر نموذج تقدير غير متحيز في ظل سيناريوهات واقعية الأداء الفعلي. إذا المطور "الغش" لاستخدامها في التدريب أو مجموعة اختبار مرحلة التحقق من الصحة، هو نموذج من المحتمل أن تواجه مخاطر الإفراط في تركيب الانحراف من مجموعة البيانات: هذه الانحرافات لا يمكن تعميمها على الحصول على معلومات خارج مجموعة البيانات.

آلة الأبحاث التعلم منافسة شرسة، لتقييم خوارزمية جديدة / النموذج، وعادة ما يستخدم أدائها على مجموعة الاختبار. حتى للباحثين وليس هناك ما يدعو إلى الكتابة / تقديم مجموعة من نتائج الاختبار ليست أوراق سوتا. هذا أيضا يدل على ان في مجال البحث والتعلم الآلي، بشكل عام، يتم التحقق منها باستخدام مجموعة الاختبار هو ظاهرة شائعة.

ما هو تأثير مثل "الغش" السلوك؟

في ورقة هل CIFAR 10 المصنفات التعميم إلى CIFAR 10 ؟، الباحثون من خلال إنشاء مجموعة جديدة من التجارب على CIFAR-10، لدراسة هذه المسألة. ولهذه الغاية، قرروا صور صغيرة تتميز الصور من المكتبة، وكذلك في عملية جمع البيانات الأولية.

واختار الباحثون CIFAR-10، لأنها تعلم آلة واحدة من أكثر مجموعات واسعة من البيانات، ولكن أيضا NeurIPS في عام 2017 ثاني أكثر الشعبية مجموعة من البيانات (في MNIST في وقت لاحق). إنشاء CIFAR 10 لديها أيضا مجموعة كاملة من البيانات الموثقة علنا. صور صغيرة ومكتبة ضخمة، وهناك الحبيبات غرامة العلامة يكفي البيانات، مما يجعل أقل انحراف الممكن بناؤها دون التسبب في التكامل توزيع اختبار ممكن.

ووجد الباحثون أن العديد من نموذج الشبكة العصبية عند التبديل من مجموعة الاختبار الأصلي لاختبار مجموعة جديدة، وقد تبين انخفاضا كبيرا في دقة (4 --15). ولكن بالنسبة ترتيب كل نموذج لا تزال مستقرة نسبيا.

وبشكل عام، بالمقارنة مع الأداء الضعيف للنموذج، ودقة أداء أفضل النماذج تقع بدرجة أقل نسبيا. هذا هو الخبر السار، لأنه على الأقل على CIFAR-10، مع مجتمع البحوث اخترع آلة أفضل تعلم نماذج / طرق، بسبب "الغش" فقدان المعمم أصبح أيضا أكثر طفيفة.

أسطورة 4: العصبية عملية التدريب شبكة تستخدم كل نقاط البيانات في مجموعة التدريب

كثيرا ما يقول الناس أن البيانات هي ثروة جديدة، وزيادة كمية البيانات، ونحن سوف تكون قادرة على النقص النسبي في البيانات عبر عمق معلمات تعلم تدريبية نموذجية، كان ذلك أفضل.

في ورقة ICLR 2019 في دراسة ميدانية من مثال النسيان خلال ديب العصبية شبكة تعليم، ويقول الباحثون في مجموعة بيانات الصورة الاكثر شيوعا هو صغير، هناك تكرار كبير. مثير للصدمة، في CIFAR-10، يمكننا القضاء على 30 من نقاط البيانات دون أن يؤثر ذلك بشكل كبير من دقة مجموعة الاختبار.

عند حدوث الشبكة العصبية في الوقت t إعطاء تصنيف دقيق والخطأ في التصنيف في الوقت t + 1، وهذه المرة دعا إجراء الأحداث المنسية. هنا في المرة هو عدد شبكة محدثة من SGD. لمتابعة حدث أن ننسى والباحثين في وقت البيانات على دفعات صغيرة من عينات تعمل في الشبكة العصبية SGD المحدثة، بدلا من التهافت على كل مجموعة بيانات عينة. للا تحدث عينة من الأحداث المنسية خلال التدريب، والمعروفة باسم تنسى من العينات.

ووجد الباحثون، MNIST 91.7، مبدل MNIST من 75.3، CIFAR 10 من 31.3 في CIFAR-100 و 7.62 من بيانات العينة ينتمون تنسى. وهذا يتفق مع فهم بديهية، لأنه مع تنوع مجموعات الصور البيانات وزيادة تعقيد وبيانات الشبكة العصبية نسيان أكبر.

مقارنة مع عينة الطبيعة التي لا تنسى، ويبدو أن العينة أن ننسى أداء المزايا الفريدة أكثر غرابة. الباحثون قياسا إلى ناقلات الدعم SVM لأنهم يبدو منقسما قرار الحدود.

على العكس من ذلك، عينة لا تنسى من الترميز معظم المعلومات الزائدة عن الحاجة. إذا تم فرز العينات التي لا تنسى الجنس، يمكنك حذف معظم العينة طبيعة لا تنسى، مما يقلل من مجموعة البيانات.

في CIFAR-10، دون أن يؤثر على دقة اختبار مجموعة، 30 من البيانات التي يمكن إزالتها، بعد إزالة معدل دقة 35 من البيانات انخفاض بنسبة 0.2. إذا تم تحديد إزالة 30 من البيانات بشكل عشوائي، وليس على أساس الجنس لتحديد تنسى، فإنه سيقلل بشكل كبير من دقة 1.

وبالمثل، على CIFAR-100، 8 من البيانات يمكن تعيين دون التأثير على دقة اختبار إزالة.

وتشير هذه النتائج إلى أن تدريب الشبكة العصبية، وهناك التكرار بيانات هامة، مثل التدريب SVM، يمكن إزالة بيانات المتجه عدم الدعم دون التأثير على نموذج صنع القرار.

وهذا يعني: إذا قبل بداية التدريب، وسوف تكون قادرة على تحديد أي لا تنسى العينات، وبعد ذلك يمكننا توفير مساحة التخزين ووقت التدريب عن طريق حذف البيانات.

أسطورة 5: نحن بحاجة إلى تدريب مجموعة من موحدة شبكة المتبقية فائقة عميقة

لفترة طويلة، يعتقد الناس أن "من خلال قيم المعلمات الأولية عشوائية والنسب الانحدار، ويشرف مباشرة دالة الهدف الأمثل (على سبيل المثال: احتمال سجل تصنف بشكل صحيح). لتدريب عمق تأثير الشبكة ليست جيدة جدا."

ومنذ ذلك الحين، هناك الكثير من الهواتف الذكية وطريقة عشوائية التهيئة، وظيفة تفعيل، والتحسين وهياكل مبتكرة أخرى مثل الاتصالات المتبقية، للحد من عمق صعوبة استخدام نزول التدرج تدريب الشبكة العصبية.

ولكن الاختراق الحقيقي جاء في توحيد دفعة (دفعة تطبيع) هو عرض (فضلا عن غيرها من توحيد لاحق من التكنولوجيا)، شبكة موحدة وافق عليها الحد من عمق كل قيمة تنشيط طبقة، لتخفيف يختفي التدرج، والتفجيرات وغيرها من المشاكل.

ومن الجدير بالذكر أنه في ورقة هذا العام إصلاحها تهيئة: المتبقية التعلم دون التطبيع، وتظهر الدراسات، دون إدخال أي طريقة موحدة باستخدام الفانيليا SGD، ويمكن تدريب فعال على عمق 10،000 طبقة الشبكة.

وقارن الباحثون على CIFAR-10، حقبة شبكة التدريب وعمق مختلفة من النتائج المتبقية، وجدت أن أسلوب التهيئة القياسية عند طبقة الشبكة 100 فشلت، ولكن إصلاحها وتوحيد دفعة يمكن أن تكون ناجحة في طبقة الشبكة 10000 .

الباحثون التحليل النظري أثبتت أن "الطبقة العصبية القاعدة محددة التدرج لشبكة عمق يزيد مع زيادة قيم المنشودة ملزمة أقل من ذلك،" أن مشكلة الانفجار التدرج.

لتجنب هذه المشكلة، والفكرة الأساسية هي إصلاحها في كل فرع من فروع المتبقية L، في حين تعتمد على استخدام L م وم ضبط الوزن عامل الوزن من طبقات العصبية.

تمكن إصلاح معدل التعلم العالي تدريب عمق شبكة طبقة المتبقية 110 على CIFAR-10، التي تم الحصول عليها باستخدام أداء اختبار مجموعة دفعة وهيكل شبكة موحدة تدرب مع فعالة جدا.

الباحثون أظهرت زيادة في غياب أي عملية التوحيد، والشبكة العصبية الناتجة تعتمد إصلاحها في ImageNet قواعد البيانات والإنجليزية - النتيجة وشبكة LayerNorm على مهمة الترجمة الآلية الألمانية.

خرافة 6: آليات الإنتباه من الإلتواء

في مجال تعلم الآلة، هناك إيجابية للحصول على حجة مقبولة أن آلية الانتباه هو التفاف بدائل أفضل. ويلاحظ المهم فاسواني آخرون أن "عملية حسابية التفاف فصل التكاليف، وحساب تكلفة الاهتمام الذاتي بعد نقطة تلو طبقة مع اتفاق ملزم طبقة feedforward."

حتى أحدث شبكة GAN، ويتجلى أيضا من الاهتمام بالمقارنة مع التفاف القياسية، على غرار طويلة الأجل، والاعتماد متعددة النطاق على نحو أفضل.

في ICLR 2019 ورقة ادفع أقل الاهتمام مع خفيفة الوزن والديناميكية الإلتواءات، وقال باحثون من اهتمام النمذجة آليات في الاعتماد على المدى الطويل في معلمات فعالية وكفاءة استجوابهم من الاهتمام الذاتي والحصول على مستوحاة المتغيرات الإلتواء، المعلمات الكفاءة العليا.

التفاف خفيف الوزن (تلافيف خفيفة الوزن) هو عمق انفصال (depthwise-انفصال)، التي كانت موحدة softmax في البعد الزمني، والبعد عن تقاسم قناة الأوزان، وإعادة استخدام نفس الوزن في كل خطوة الوقت (على غرار شبكة RNN). الإلتواء الحيوي (تلافيف ديناميكية) هو استخدام أوزان مختلفة التفاف خفيفة الوزن كل خطوة الوقت.

هذه التقنيات تجعل خفيفة الوزن والديناميكية التفاف التفاف مقارنة التفاف غير قابل للانفصال التقليدي، أوامر عليا من حيث الحجم من حيث الكفاءة.

أثبت الباحثون أيضا أن في الترجمة الآلية، النمذجة اللغة ومهمة تلخيص مجردة، وتكون قادرة على استخدام هذه التفاف جديد أو عدد أقل كبير من المعلمات لتلبية أو تجاوز نتائج المؤشر على أساس الاهتمام الذاتي.

خرافة 7: FIG كبيرة (خرائط البروز) هو تفسير إيجابي من الشبكة العصبية

على الرغم من أن الشبكة العصبية يعتبر عموما الصندوق الأسود، ولكن لا تزال لديها لاستكشاف يجب أن أشرح ذلك كثيرا. خريطة البروز، أو غيرها من الميزات أو أساليب عينات التدريب الذي يتلقاه درجة أهمية مماثلة، هي واحدة من أكثر أشكال شعبية.

فمن السهل أن نستنتج أنه نظرا للأسباب التي هي صورة من نوع ما هو صنع القرار لعبت دورا هاما عند جزء معين من الصورة بسبب تصنيف الشبكة العصبية. طريقة حساب الخريطة البروز العديد التقليدية، تستند عادة إلى تفعيل صورة الشبكة العصبية معينة، التدرج ونشر في الشبكة.

تفسير AAAI 2019 في ورقة الشبكات العصبية هو الهشة، أظهر الباحثون أن عن طريق إدخال اضطراب لا يمكن أن ينظر إليها، وبالتالي تشويه خريطة البروز من صورة معينة.

"وتصنف والسبب كما الفراشات العاهل فراشة مونارك، وليس لأن الأجنحة نمط نمط، ولكن بسبب بعض المعلومات الأساسية الهامة في الأوراق الخضراء."

يقع بالقرب من الحدود القرار صورة الأبعاد عالية عادة على عمق الشبكة العصبية المعمول بها، لذلك هو عرضة ضد أي هجوم. الهجوم على الجانب الآخر سيتم نقل لصورة الحدود القرار، وامتص ضد تفسير الصور الهجوم، تم نقل الحدود مقرر على كفاف في نفس القرار المنطقة.

لتحقيق هذا الهجوم، واستخدم الباحثان المنهج الأساسي يقترح FGSM غودفلوو المتغيرات (طريقة علامة الانحدار بسرعة) الأسلوب، التي تعد واحدة من أقدم الطرق لتحقيق فعالية ضد الهجمات واردة. وهذا يدل أيضا على أن أكثر حداثة، وهجمات أخرى، أكثر تطورا يمكن أن تستخدم أيضا ضد الشبكة العصبية الهجوم توضيحية.

وهذا يعني:

مع التعلم العميق أصبحت أكثر شيوعا في ذات المخاطر العالية تطبيقات التصوير الطبي، ويجب أن نولي اهتماما لكيفية تفسير قرار صادر عن الشبكة العصبية. على سبيل المثال، في حين أن نقطة على شبكة سي يمكن التعرف على صورة بالرنين المغناطيسي الخبيثة هو شيء جيد، ولكن إذا تستند هذه النتائج على ضعف التفسير، يجب أن لا يمكن الوثوق بها هذه النتائج.

عبر https://crazyoscarchang.github.io/2019/02/16/seven-myths-in-machine-learning-research/

انقر على قراءة النص الأصلي تحقق فريق CVPR، لفهم آخر التطورات CVPR

المشي "ألبوم"! أطلقت الملياردير بنين نادي N.E.R.D الجديد مذكرة سلسلة أخرى!

ترى شو شبكة تحيا الأربعة الكبار معا عن السيارات تتحدث شين

والد بيثون: حفظ مبرمج الصيني

الحنين حزب الرفاه: نوكيا 106 مبتدئين، نوكيا 230 لون جديد

وفاة شو دعوة الستار القوي فيدل كاسترو، وكيفية الحصول على الإصلاح الاقتصادي الكوبي في المستقبل

2017 قوانغتشو للسيارات عرض جناح التنقيب: الجيل الجديد تويوتا كامري

رينو غريب! قدم دونغفنغ رينو تسع مركبات والمبيعات لمدة خمس سنوات وينبغي أن تتحول سبع مرات في الصين وصلت 400000

Wumart ورخيصة، فإن سامسونج S10 استخدام المزيد من أجزاء من الصين

مقارنة مع هوندا تويوتا فولكس واجن، قوانغتشو للسيارات R & D ماذا عن هذا النظام G-MC؟

بكين يينتاى مركز in01 الستار VOGUE FNO مضاءة الطراز الفني الحديث التي لا تنام

تلك التعلم العميق كيفية رسم مخططات الشبكة بارد بها؟

اتجاهات | خريطة أخلاقية عالية دلفي توسيع التعاون يهدف إلى الصين تخطيط القيادة الذكية