حصريا | المادة بالنسبة لك لحل الشبكة العصبية (أمثلة المرفقة، الصيغ)

العنوان الأصلي: مقدمة في الشبكات العصبية

الكاتب: بن جورمان

الترجمة: شن ليبين

التدقيق اللغوي: والصين

طول هنا 4000 كلمة القراءة الموصى بها 12 دقيقة

من خلال تأسيس نموذج الشبكة لتحديد "سلم" النموذج، مع فهم كامل للشبكة العصبية منك.

الشبكات العصبية الاصطناعية كل الغضب، يتساءل المرء ما إذا كان هذا اسم جذاب لعبت قدوة معينة في التسويق الخاصة بهم والتطبيقات.

وبقدر ما أعرف، يقول العديد من رجال الأعمال منتجاتها استخدام الشبكات العصبية الاصطناعية والتعلم العميق. يبدو أنها بالتأكيد لن يقول المنتج "ربط نموذج الدائرة" (دوائر متصلة نماذج) أو "فشل - نموذج تصحيح - العقاب" (فشل وكن آلات معاقبة). ولكن ليس هناك شك في أنه قد تم إحراز الشبكة العصبية الاصطناعية تطبيقها بنجاح في العديد من المجالات من التعرف على الصور، معالجة اللغة الطبيعية.

ونتيجة لعلماء البيانات المهنية لم يفهم تماما هذه التقنيات، وليس فقط كأداة من عمال البناء، فإنه يجعلني أشعر بالخجل الشديد. لذلك أنا يعوض عن نقص الواجبات المنزلية، وكتب هذا المقال لمساعدة الآخرين التغلب على تلك الصعوبات والمشاكل التي واجهت في عملية التعلم.

ملاحظة: هنا يمكن العثور على أمثلة في رمز R https://github.com/ben519/MLPB/blob/master/Problems/Classify20Images20of20Stairs/intro_to_nnets_article_materials.R.

نبدأ مع المشكلة الدافع. هنا، جمعنا 2 * 2 شبكة بكسل صورة رمادية، كل بكسل في قيمة الرمادي 0 (البيضاء) إلى 255 (الأسود) بين. والهدف هو إنشاء "خطوة" نموذج شبكة وضع تعريف.

أولا وقبل كل شيء، ما يهمنا هو كيفية العثور على بيانات النموذج مناسبا بشكل معقول، وتركيب طريقة، ثم النظر في وقت لاحق.

المعالجة

لكل صورة، إلى بكسل ملحوظ X1، X2، X3، X4، ويولد ناقل التسمية مساهمة

نموذج بنك الاحتياطي الفيدرالي. نأمل أن نموذجنا يمكن التنبؤ صورة لنمط صعدت هو صحيح، ليس هناك طريقة التنبؤ خطوة الصورة إلى خطأ.

واحدة طبقة المستقبلات (نموذج التكرار 0)

يمكننا أن نبني طبقة واحدة المستقبلات نموذج بسيط، والذي يستخدم تركيبة خطية المرجح لدرجة التنبؤ مدخلات العودة. إذا كان عشرات توقع أكبر من عتبة محددة، التنبؤ هو 1 إذا كان التوقع هو 0. تعبير أكثر رسمية على النحو التالي:

أكدنا من جديد على النحو التالي:

وهذا هو، ونقاط توقعاتنا.

وصف أكثر من صورة، ونحن يمكن أن تغذي عقدة الإخراج إلى عقدة المدخلات تمثل آلة التصور.

يتوافق مع مثالنا، إذا علينا أن نبني نموذجا للما يلي:

هنا هو الكيفية التي ننظر بها آلات أجريت على الصورة التدريب:

هذا هو بالتأكيد أفضل من التخمين العشوائي، ولكن هناك منطق معين. كل التظليل بكسل أكثر قتامة في الجزء السفلي لديه نمط صعدت، والتي تتطابق مع X3 و X4 لديها معامل إيجابي كبير. ومع ذلك، وهذا النموذج لا يزال لديه بعض الأسئلة واضحة:

سؤال 1.1: هذا النموذج إخراج لمفاهيم احتمال حقيقي المتعلقة ب (الوسائل قيمة أكبر احتمال أكبر أن الصور تمثل سلم)، ولكن يتم تفسير هذه القيم كما هو احتمال لا أساس له، لا سيما وأنها قد تكون خارج النطاق .

سؤال 1.2: هذا النموذج لا يمكن التقاط العلاقة غير الخطية بين المتغيرات والهدف، من أجل أن نرى هذه المشكلة، والنظر في الافتراضات السيناريو التالي:

الحالة الأولى: = ، وزيادة X30-60 من بداية صورة السينية.

الحالة الثانية: س = ، ارتفع صورة لا يزال على X360-120.

حدسي، وينبغي أن نسبة حالة I حالة II

على النمو أكبر، ولكن لدينا نموذج آلة الإدراك هو المعادلة الخطية، والتغيير في ما يعادل 60 + X3 أدى في كل الحالات

+ 0.12 حكمه.

على الرغم من أن لدينا تصور آلة الخطية، هناك العديد من المشاكل، ولكن نبدأ في حل بدأت هاتين المشكلتين.

وجود طبقة واحدة المستقبلات السيني وظيفة تفعيل

(نموذج التكرار 1)

إننا قادرون على حل التصور المذكور أعلاه من قبل الجهاز بالإضافة إلى السيني وظيفة تفعيل العدد 1.1 و العدد 1.2 . استدعاء وظيفة السيني هو منحنى S شكل، يحدها من المحور الرأسي بين 0 و 1، وغالبا ما يتم استخدامه في تصميم نموذج لاحتمال وقوع الحدث اثنين يوان.

ووفقا لهذه الفكرة، يمكننا استخدام الصور والمعادلات التالية لتحديث نموذجنا:

يبدو قليلا مألوفا؟ نعم، وهذا هو الانحدار اللوجستي . ومع ذلك، يتم تفسير نموذج وجود السيني "وظيفة تفعيل" تصور الخطي هو أكثر ملاءمة، لأن ذلك يعطينا مساحة أكبر لتعزيز. وبالإضافة إلى ذلك، ونحن الآن

يفسر على أنه احتمال، فإنه يجب أن يتم تحديثه لدينا قواعد صنع القرار.

الاستمرار في مثالنا، فإننا نفترض نقترح تركيب نموذج التالية:

نموذج مراقبة كيفية تشغيل على نفس العينة في الصورة السابقة:

من الواضح، تم حل ما سبق العدد 1.1 كيفية الاستمرار في النظر إلى حل العدد 1.2 :

الحالة الأولى: = ، وزيادة X30-60 من بداية صورة السينية.

الحالة الثانية: س = ، ارتفع صورة لا يزال على X360-120.

لاحظ أنه عند

الزيادات، انحناء كيف يؤدي وظيفة السيني حالة "إضاءة" لل(الزيادة السريعة). ولكن مع استمرار ض لزيادة، فإن معدل النمو يصبح بطيئا. وهذا يتفق مع حدسنا، وهذا هو، مقارنة مع الحالة الثانية، حالة واحدة هو احتمال أكبر من سلم النمو.

ومع ذلك، وهذا النموذج لا يزال يمثل مشكلة:

سؤال 2.1:

مع كل متغير هو العلاقة رتيب، وكيفية القيام به إذا كنا نريد لتحديد الظل طفيف صعدت ذلك؟

سؤال 2.2: نموذج لا تعتبر العلاقة بين المتغيرات، على افتراض أن بيت القصيد من الصورة السوداء، وإذا كانت الزاوية اليسرى العليا من بكسل بيضاء، ثم تلقي بظلالها فإن أعلى الزاوية اليمنى صورة بكسل زيادة احتمال سلم. إذا كانت الزاوية العلوية اليمنى من بكسل سوداء، سواد اليمنى صورة زاوية بكسل سوف يقلل من احتمال سلم. وبعبارة أخرى، فإن الزيادة قد تزيد أو تنقص X3

اعتمادا على قيمة المتغيرات الأخرى، فمن الواضح أن النموذج الحالي لا يمكن أن تصل إلى هذه النقطة.

MLP جود السيني وظيفة تفعيل

(نموذج التكرار 2)

يمكنك حل أعلاه، بالإضافة إلى طبقة المستقبلات النموذج من قبل سؤال 2.1 و العدد 2.2 .

بنينا النموذج الأساسي، وهذا نموذج مثل ما ورد أعلاه، وسنقوم بعد ذلك إخراج كل من النموذج الأساسي من الجهاز بمثابة مدخلات الحسية آخر. هذا النموذج هو في الواقع الفانيليا الشبكة العصبية ( "الفانيليا" هو مشترك "التقليدي" أو "لا الاشياء نزوة"، وهو كناية)، دعونا ننظر في بعض الأمثلة على ما قد يكون تأثيره.

مثال 1 درج التعرف على الأنماط

بناء نموذج، عندما يتم تحديد "خطوة اليسار"، ونموذج "إضاءة"

.

بناء نموذج، عندما "الخطوة الصحيحة" نموذج لتحديد "إضاءة"

.
النموذج الأساسي من عشرات تضيف ما يصل، حتى أنه عندما

و

من على الطبقة الأخيرة من شبكة أكبر السيني وظيفة عندما سوف "حتى الضوء."

أو

بناء نموذج، عندما آخر واحد هو الأسود الموديل "إضاءة"

.
بناء نموذج، عندما الزاوية اليسرى العليا من بكسل سوداء، بكسل أعلى الزاوية اليمنى.
نموذج "النور" هو خفيف

.
بناء نموذج، عندما بكسل الأيسر العلوي هو مشرق، وأعلى بكسل الصحيح هو أسود الموديل "إضاءة"
النموذج الأساسي من عشرات تضيف ما يصل، فقط عندما

و

ومن أكبر أو

و

جعل قيمة كبيرة عند طبقة نهائية من وظيفة السيني شبكة "النور". (لاحظ،

و

في حين ليست كبيرة)

مثال 2 تحديد خطوة ضعيفة

العديد من نموذج البناء الأساسية، عندما بيت القصيد هو الظل، والظل X1 X2 أبيض، أبيض X1 X2 عندما ظل انحناء "النار"

،

و

.
العديد من نموذج البناء الأساسية، عندما خلاصة القول هي الأسود، الأبيض X1 X2 الأسود، X2 الأسود عند X1 هو انحناء الأبيض "النار"

،

و

.
الجمع بين هذه بعض النماذج الأساسية، وعندما تتم إزالة نتيجة لمدخلات قبل الدالة معرف السيني من الظل الأسود من التعرف.

مفاهيم وأساليب التفسير

الشبكات العصبية: إلا طبقة واحدة المستقبلات طبقة الانتاج، لذلك، يشار إلى نموذج أنشأنا أيضا على أنه من طبقتين طبقة المستقبلات الانتاج هي المدخل إلى طبقة الناتج آخر. ومع ذلك، يمكن أن نضع هذه الشبكات يشار إليها مجتمعة ب تسمى الشبكات العصبية وثلاث شبكات طبقة المدخلات، وطبقة مخفية وطبقة الانتاج.

ليس فقط وظيفة التنشيط: يستخدم مثالنا وظيفة تفعيل السيني، ويمكننا اختيار أنواع أخرى من وظيفة تفعيل تان وRelu. ومع ذلك، يجب أن تكون وظيفة التنشيط غير الخطية، الشبكة العصبية أو مبسطة إلى المستقبلات طبقة واحدة ما يعادلها.

بناء المصنفات متعددة: نحن يمكن أن تزيد من عدد العقد في طبقة الإنتاج، مما يجعل من السهل على تمديد نموذجنا هو متعدد المصنف. كل عقدة الانتاج هي فئة نريد التنبؤ بها. يمكننا استخدام softmax وظيفة

والخريطة هي ناقلات

ناقلات، والعناصر في مجموع متجه 1، وذلك لاستبدال وظيفة السيني مع العدد الحقيقي

رسم ما بين .

استخدام شبكة طبقتين أو أكثر (التعلم العميق): هل يمكن أن يكون التفكير، "اذا كنا نستطيع توسيع الشبكة العصبية الفانيليا لدينا، ويتم تغذية طبقة انتاجها في الطابق الرابع (الطابق الخامس، الطابق السادس، الخ)؟" والجواب هو نعم، وهذا ما نحن كثيرا ما ذكر إلى عمق التعلم، وكانت النتائج جيدة جدا. ومع ذلك، لوحظ أن أي شبكة وجود عدد وافر من طبقات مخفية يمكن محاكاة عن طريق شبكة مع طبقة مخفية واحدة فقط، وفقا لنظرية التقريب العالمي نظرية قد تكون طبقة الخفية للشبكة العصبية لتقريب أي وظيفة مستمرة. ومع ذلك، بنى الشبكة العصبية العميقة غالبا ما تستخدم بدلا من بنية طبقة مخفية واحدة، لأنها قد تلتقي بسرعة أكبر عملية تركيب لنتيجة جيدة.

من نوبات نموذج في التدريب (العودة نشر)

وحتى الآن، ناقشنا كيفية عمل الشبكات العصبية بشكل فعال، ثم نتحدث عن كيفية جعل عينات التدريب المناسب نموذج الشبكة المسمى. وبعبارة أخرى، كيف لنا أن نحتفل وفقا لعينة التدريب، لتحديد معلمات الشبكة الأكثر ملاءمة. وعادة ما سيختار تحسين خوارزمية أصل التدرج (قد يكون MLE تقدير أقصى احتمال)، عملية أصل التدرج هو كما يلي:

بعض علامات جيدة من بداية بيانات التدريب
اختيار اختلاف وظيفة للعثور على فقدان الحد الأدنى
اختيار هندسة الشبكات، الشبكة يتم تحديد أساسا كيف العديد من طبقات، كل رقم العقدة
الوزن عشوائي شبكة التهيئة
تشغيل النموذج على بيانات التدريب، وتوليد قيمة التنبؤ العينة ثم يتم احتساب وفقا للوظيفة العامة فقدان خطأ

(وهذا ما يسمى نشر إلى الأمام)
تغييرات صغيرة في كل وزن تحديد حجم كل وظيفة الخسارة، وبعبارة أخرى، للعثور على قيمة التدرج لكل الوزن. (وهذا ما يسمى نشر الخلفي)
حدد حجم خطوة صغيرة في الاتجاه السلبي التدرج، مثل

، وإذا كان

، ثم نحن بحاجة للحد من

بحيث تكون القيمة الحالية للوظيفة لتقليل الخسائر. تحديث

الطريق

(0.001 هو قيمة الخطوة التي حددناها مسبقا)
وتتكرر هذه العملية (من الخطوة V)، أو عدد معين من التكرارات حتى وظيفة فقدان التقارب.

هذه هي الفكرة الأساسية، في الواقع، انها جلبت الكثير من التحديات.

التحدي 1: التعقيد الحسابي

في عملية تركيب، وهي مشكلة لا نحتاج لحساب قيمة L فيما يتعلق وزن كل من التدرج. من الواضح أنها ليست سهلة، لأن L يعتمد على طبقة انتاج كل من العقد، وتعتمد كل عقدة في كل طبقة أمامه، وهلم جرا. ونحن نستخدم الشبكة العصبية قد يكون عشرات الطبقات، تصل إلى الآلاف من العقد، وهو ما يعني أن الحوسبة

وسيكون كابوس قاعدة السلسلة.

لحل هذه المشكلة، يجب أن ندرك أن كنت تسعى لاستخدام قاعدة السلسلة

إعادة استعمال المشتقات الوسطى، والذي يسمح لك لتجنب ازدواجية نفس العدد.

حل آخر، يمكننا العثور على وظيفة تفعيل الخاصة، مشتقاته يمكن أن يمثله قيمة وظيفة، على سبيل المثال

. في عملية نشر إلى الأمام، من أجل حساب القيمة المتوقعة

يجب أن تحسب لكل عنصر من عناصر مكافحة ناقلات

. ويمكن تحديثه مع الأوزان المحسوبة لكل عقدة في قيم التدرج العكسي، بحيث ليس فقط يوفر الوقت ولكن أيضا حفظ الذاكرة.

وهناك حل ثالث، وتنقسم مجموعة التدريب في "دفعات صغيرة"، وتعمل باستمرار على تحديث كل الوزن دفعة وفقا ل. على سبيل المثال، يتم تقسيم مجموعة التدريب إلى حسابك {batch1، batch2، batch3}، وهي المرة الأولى في مجموعة التدريب على النحو التالي:

الأوزان التحديث استخدام batch1
الأوزان التحديث استخدام batch2
الأوزان التحديث استخدام batch3

يتم إعادة حساب L التدرج بعد كل تحديث.

المباراة النهائية الجدير بالذكر هو استخدام التكنولوجيا GPU بدلا من وحدة المعالجة المركزية، وذلك لأن GPU هو أكثر ملاءمة لتنفيذ مواز لعدد كبير من العمليات الحسابية.

التحدي 2: أصل التدرج قد لا تجد الحد الأدنى العالمي

وليس ذلك بكثير تحديا الشبكات العصبية، كما هو التحدي من أصل التدرج. لأن عملية أصل التدرج، قد تقع الأوزان المحدثة إلى الحد الأدنى المحلي، فمن الممكن أيضا على الحد الأدنى. وهناك أيضا حل، يمكنك اختيار قيمة خطوة مختلفة في عملية التدريب أو إضافة عقدة أو شبكة طبقات لحل هذه المشكلة، مع زيادة عقد الشبكة أو طبقات لحراسة ضد الإفراط في تركيب. وبالإضافة إلى ذلك، بعض وسائل الكشف عن مجريات الأمور، مثل هذا الزخم ويمكن أيضا أن يكون حل فعال لهذه المشكلة.

التحدي 3 كيف التعميم؟

كيف يمكننا كتابة برنامج عام لتتناسب مع أي عدد من العقد الشبكة العصبية وطبقة الشبكة ذلك؟ جوابي هو: "أنت لا تفعل ذلك، يمكن أن تساعد Tensorflow". ولكن إذا كنت تريد حقا أن تفعل هذا، والجزء الأكثر صعوبة هو لحساب فقدان وظيفة من التدرج، وبالتالي فإن التدرج أعرب بوصفها وظيفة العودية هو السؤال المهم تحتاج إلى النظر. والتفريق الآلي، ويتم تغذية أكثر الاسم الرسمي الشبكة العصبية خمس طبقات في بعض آلة أربعة شبكة تدرك أيضا أربعة من الشبكة العصبية هو تغذية شبكة من ثلاث طبقات في تصور بعض الآلات والمعدات، وهلم جرا.

الرابط الأصلي:

طريق الحرير

حصريا | المادة بالنسبة لك لحل الشبكة العصبية (أمثلة المرفقة، الصيغ)

حارب الكثير من أحد عشر البيانات الزراعية مزدوجة تظهر سريعة ممارسة القوة الداخلية الإيجابية

"تكنولوجي ريفيو MIT" التكنولوجيا العشرة اختراق، هذا العام 2016

حصريا | لذلك أتوقع تطوير AI الطبي، وربما يمكنك (الورقة المرفقة وصلة)

لوس انجليس غالاكسي وهمية تمثال صعب بيكهام، بيكهام كان يلعب محرجة جدا!

بواسطة "المصادقة الحقيقي اسم" صنع المال تخرج لتوه من الجامعة مجموعة الطلاب الغش

إيطاليا عطل قابل للاشتعال قطار ناقلة السائل، ولكن لحسن الحظ لم تنفجر

إفراغ فوكس "تقرير التشريح" - المواد غير المستعملة منصة التداول المشاريع خريطة بيئية

نماذج جديدة تخرج الفيزياء النظرية، الأمر الظلام في ضربة واحدة لكسر شنقا خمس مشاكل جسدية كبيرة! ؟

حصريا | AI تمكين الأخبار الارتباط الكامل، والناس وسائل الإعلام في نهاية المطاف البطالة؟

المشجعين الصينيين يريدون له؟ البالغ من العمر 28 صنع ثلاثة أهداف فقط جيوجيانغ Hengda تألق كأس ليبرتادوريس!

المياه مخلل خيار محبب يمكن مخلفات؟ أشياء العاشرة فقاعة بو قليلا "غريب"

كأس الأبطال الدولية - كلاوديو أنطونيو سي وو مول كسر ركلات الترجيح 6-4 باريس روما

كأس الأبطال الدولية - إنجازات لوكاكو راشفورد مانشستر يونايتد 2-0 مانشستر سيتي

كانت الأزواج التايلاندية الفرنسي سائقي سيارات الأجرة والابتزاز، ودفع 216 جنيه على النزول

دوري ابطال اوروبا ضد 8 ANALYSIS: قطع اثنين من عمالقة أي تشويق، ومن المتوقع ميسي C رونالدو لقاء في نهائيات كأس العالم

أصح زيت الطهي في ماذا؟ ألمانيا تقييم 23 نوعا من زيت بذور اللفت!

منها "Lvmao غريب غرينش" أول عطلة نهاية أسبوع في أمريكا الشمالية بطل شباك التذاكر بان يو مينغ كما الدبلجة غرينش الصينية

المسلسل التلفزيوني "أنت وقتي الجاذبية،" لاول مرة على تتجه الماضي، والمستخدمين: أريد أن أذهب الى ووهان

المنافسة لكن التعاون الوحيد، لا يزال لينوفو لإصدار سلسلة من المنتجات الاستهلاكية الجديدة

بو فقاعة موجة بعد موجة من المنتجات الجديدة ميشان العارضين المحليين قد حان حتى مع "سرية فريدة من نوعها"

Jiangtang البيانات | التسجيل التمديد - الأبعاد التطبيقات الأخرى

وبعد 20 يوما من الدوري الممتاز احتفال لحظة تاريخية! الأمن القومي جاهز، Hengda لم تفعل

الأحكام ذات الصلة