"منظمة العفو الدولية الفصول الدراسية في نهاية الأسبوع" المشترك حدة سرية (قسم نظرية) آلة التعلم سوف تواجه "حفرة"

في بداية إدخال أنواع مختلفة من وحدات خفية، ونحن بحاجة إلى التأكيد على وحدة السيني مخبأة أكثر أهمية على نقطة والبيولوجية نظرهم، لأنها ستدخل مجموعة واسعة من قذف إلى فاصل يتوافق مع قمع الخلايا العصبية البيولوجية وتفعيل دولتين، ولكن التدرج البطيء وتكرارية معرضة جدا لتختفي في الشبكة العصبية عملية التحسين. مع ممارسة الشبكات العصبية الحديثة، وأهم دور في وظيفة تفعيل ليست بدقة تتوافق مع حالة من الأحياء، ولكن عن طريق التفاعل بين طبقات من وظيفة تقريب غير الخطية. وفقا لعدة مبادئ مخفي تصميم الخلية، لا يمكننا استبعاد بسرعة وحدتين بسيطة الخفية:

  • وظيفة الخطوة:

، وظيفة الخطوة هو مبين في الشكل مشتق هو صفر على طرفي المتغير، عندما، وإعادة الانتشار، وتدفق ثابت الانحدار سوف يكون صفرا، ومشتق من المشتقات اليسار واليمين هي لانهائية، لا تحصى.

  • دالة خطية:

كما هو مبين، وهي وظيفة الخطية هي أي صعوبة في التحسين، ولكن أيضا مستقرة جدا في تدفق التدرج counterpropagating، ولكن لا تفي عالمية نظرية التقريب، وليس تقريب وظيفة غير الخطية.

فهم من الوحدات الخفية وفكرتين، واحدة منها، وفقا لبعض المبادئ الأساسية لتصميم الخاصة بهم، والثاني، على أساس قدمت خطي تحسينات وظيفة وظيفة الخطوة، لدينا لتقديم تدريجيا اخفاء وحدة تحت الأفكار المادة.

التحسن التدريجي من وظيفة خطوة

أولا، عن أوجه القصور في وظيفة الخطوة، حدد أحب وظيفة السيني:

ولكن وسط السيني غير الصفر سيجلب بطيئة في التحديث، وفقا "لإخفاء وحدات مبادئ التصميم" في المقدمة، بسبب مشتقاته والقيم وظيفة لجميع الأوزان التحديث هو دائما في اتجاه واحد، فكرة الطبيعية، سوف واحدة من مجموعة الانتاج التي تمتد إلى الصفر في المركز، القائمة على فكرة أن نتمكن من اختيار تان وظيفة:

وظيفة تان هي وظيفة ونيف، ومشتقاته هي إيجابية، بحيث الأوزان اتصال متصلة نفس الخلايا العصبية لم تعد زيادة الوزن أو نقصان في نفس الوقت، وقيمة الانتاج من مجموعة، وظيفة تان في FIG. وبالمثل دالة خطية، وتلبية مبدأ تقريب خطي. من أجل لعب ميزة كبيرة الخطية، ونحن يمكن أن تصبح كل مجموعة الأوسط من الخطية إلزاميا، بحيث أصبحت وظيفة hardtanh:

وتجدر الإشارة إلى أن هذا الأسلوب هو أساسا منحنى سلس الأصلي، شرائح القسري، وتسمى أيضا "التشبع الصعب"، هو أكثر حساسية للضوضاء، لأننا نفترض أن مدخلات بالإضافة إلى تعويض صغيرة جدا، لا يزال الانحدار دون تغيير ولكن في عملية التدريب، ونحن نأمل تدفق التدرج، إضافة الضوضاء ودون ضجيج لديه التدرج مختلفة. وفي الوقت نفسه، لم تان وhardtanh لا تخفف من المشكلة تختفي التدرج، بدلا تفاقم ذلك، لذلك نحن بحاجة إلى إدخال قيمة صغيرة جدا وكبيرة جدا عندما يتغير التدرج لا تزال بحاجة الى وظيفة كبيرة، ونحن نحاول استخدام وظيفة قوس الظل:

يمكنك أيضا استخدام وظيفة softsign:

في الوقت الحاضر، لوظيفة قوس الظل وظيفة softsign يتم تقديمها قليلا، لأن التدرجات هم أكثر صعوبة لحساب لهم. وتبين أن الشبكة يمكن استخدام وظيفة السيني عميقة عن وظيفة التنشيط، يحل محله كما تان وظيفة مماثلة تفعيل تتمحور الصفر يمكن تحسين التعلم.

لتحسين وظيفة خطوة في وظيفة، من جهة، لا تزال مستمرة الطبيعة الأساسية لل"الضغط"، في الواقع، لتحقيق هدف غير الخطية، "الضغط" ليس من الضروري، من ناحية أخرى، عملية حسابية بسيطة من التدرج تقريب الانحدار الخطي والتخفيف من فقدان والانفجارات، وهذه الثلاثة، لدينا فقط كحد أقصى من اثنين منهم. لذلك، نحن بحاجة إلى التفكير في فكرة أخرى لتحسين.

التحسن التدريجي للدالة خطية

تحسن المشكلة الأولى دالة خطية لحلها هي كيف تصبح دالة خطية من غير خطية، تقريب خطي بينما المزايا أيضا ترث. نحن نبحث عن الخطية تقريبا وظيفة التنشيط، مثل الهوية بينت:

فكرة بسيطة أخرى لتحويله الى وظيفة دالة متعددة التعريف الخطية، مثل ReLU (مصحح حدة الخطي):

لماذا هو غير خطي دالة متعددة التعريف الخطية وظيفة من ذلك؟ رياضيا، يمكننا أن نقول أن ReLU يرضي التجانس، ولكن لا تفي المضافة، حدسي، سوف تكون وظيفة خطية من الفضاء ينقسم إلى جزأين مسطحة، والوظيفة ليست خطية، دالة خطية دالة متعددة التعريف انها ليست على نحو سلس، وفقا للمبادئ الأساسية لحساب التفاضل والتكامل (ريمان للتكامل)، وهو محدب وظيفة معقدة بشكل تعسفي يمكن أن يقترب من وافر من دالة متعددة التعريف الخطية وظيفة.

ReLU في مجموعة واسعة من تقريب خطي لتجنب اختفاء التدرج وانفجار الانحدار. فإن ما يسمى ب "قمع، من جانب واحد" يحقق فائدة كبيرة عندما الخلايا العصبية مدخلات أقل من الصفر، خرج هو صفر، لم يتم تنشيط الخلايا العصبية فقط عندما يتم تنشيط الخلايا العصبية عندما سيتم تمرير المعلومات إلى أسفل الخلايا العصبية، الخلايا العصبية عندما أغلقت، ويرتبط مع الحافة اليمنى من الوزن لم يعد مهما، ويقلل من عدد من المعلمات، مما يقلل من إمكانية الإفراط في تركيب شبكة متفرق، لأن عدد المعلمات ترتبط ارتباطا وثيقا بقدرة النموذج.

كما انه سيجلب مخاطر، ونحن نعلم بالفعل على انتشار العكسي عند تحديث المعلمات، فإنه يمكن أن ينظر إليه باعتباره التدرج التدفق. إدخال ReLU أقل من الصفر، والتدرج هو صفر، عندما الخلايا العصبية مرة واحدة مغلقة، فإنه من الصعب لتنشيط مرة أخرى عندما يتم تهيئة نحن الخلايا العصبية المعلمات إلى الصفر، أو تحديث حجم معين يحدث قريبة جدا عندما الخلايا العصبية أنه لم يعد نشطة طوال التدريب، وهو ما يسمى الخلايا العصبية "الموت".

لمواجهة المخاطر، لا بد أن تدمير ميزة. يمكننا أن نحاول عند الإدخال هو أقل من الصفر، لا يسمح الصفر التدرج، مثل راشح ReLU:

حيث، وهو معلمة صغيرة جدا، وتأمل في تجنب موت الخلايا العصبية، ومع الحفاظ على مزايا ReLU الأصلي قدر الإمكان، عند المدخل هو أقل من الصفر، وتنشيط الخلايا العصبية أيضا ضعيفة جدا، وليس القيمة المطلقة كبيرة على وجه الخصوص، وليس لدينا L2 التشابه تسوية. يمكننا أن نلاحظ LeakyReLU لا يزال التشبع الثابت. ثم تم تحسين وحدة ELU آخر هذه:

علما بأن نستخدم ELU أو LeakyReLU، وإدخال مجموعة المعلمة مقدما، بيانات المعلمة مع مختلف الهياكل والشبكات العصبية، قد يكون هناك اختلافات، في معظم الحالات، سوف نقدم المعلمات المشتركة، وهي سوف يستغرق نفسه، ولكن انه لامر جيد لتحديد جميع الوحدات لا تزال بحاجة الى انفاق الكثير من الجهد. إذا كانت هذه المعلمة لتكون جزءا لا يتجزأ في عملية التعلم من الشبكة العصبية، بحيث تصبح يمكن تدريب معلمة، ثم الأداء سيكون أكثر مرونة، وهو ما يسمى PReLU (حدودي ReLU)، شكلا ملموسا مع ELU وLeakyReLU نفسه، ولكن في عملية التدريب، ونحن بحاجة الى مزيد من حساب التدرج معلمة:

المعلمات المدربة التي أدخلت في PReLU وظيفة التنشيط من أجل الحصول على بعض المرونة إذا كانت وظيفة تنشيط نفسها ككائن الدراسة، والمرونة ثم بالتأكيد أعلى، مثل وحدة maxout.

وحدة maxout هو في الواقع بسيط جدا، وهو القيمة التي تم تمريرها من وظيفة تفعيل الأصلية تحسب مباشرة، دون النظر في مثل هذه الشبكة التحيز يرتبط تماما، هناك عقدة ط، ثم وهذا ي-عشر طبقة تلقي ReLU الإدخال

الناتج بعد دخول التنشيط، يتم إنشاؤها

. وmaxout بين الخطوة وقال لإضافة ك ال الخلايا العصبية، وإخراج عقدة سيتم أولا إدخال هذه الخلايا العصبية، وتتلقى ك ال إدخال الخلايا العصبية

، ثم حدد الحد الأقصى الخلايا العصبية ك كمخرج التي

.

كما هو مبين، افترض أن هناك اثنين من المدخلات، الخلايا العصبية القياسية ReLU

، والخلايا العصبية الناتج تضيف ثلاث الخلايا العصبية هو maxout

، لاحظت أن آخر من الاطراف الثلاثة ليست الجانب الوزن، وهذا هو القول ما اذا كان عدد الخلايا العصبية ك maxput إضافة، فإن الحجة تصبح ك مرات الأصلي.

يمكن أن ينظر إليه بالعين المجردة، ولكن الظروف الخاصة RELU MAXOUT، في الواقع، يمكن أن يقترب أي قيمة MAXOUT أقصى عن طريق وظيفة محدبة حيث أن الزيادة سيتم تنمو القدرة المناسب، في حين أن زيادة هذه المعلمات ومقارنة بينها وبين وظيفة تنشيط العام لديها المزيد من المخاطر من خلال لتركيب، تحتاج عادة لإضافة آلية تسوية أكثر قوة.

قراءة Xinjunkaiba الفصول الدراسية TIPS

تبين، لديها ELU أيضا ميزة أنه يمكن أن يعني وظيفة تفعيل عقد في صفر الناتج ReLU كاملة غير سلبية. درجة متوسط الحد تعادل تفعيل الانتاج التحول يعني تقريب 0. وفي الوقت نفسه، هناك معروفة وظيفة تفعيل سلو، الذي تطبيع تلقائيا مثل أن قيمة الناتج من الخلايا العصبية. وهذا التطبيع دفعة، ونحن سيتم عرضه من وراء والشبكات العصبية علاقة طبيعية، والتركيز على متابعة شرح دورة في التفاصيل.

، القطعي وظيفة الجيب وقالت انها القدرة على التعبير عن وظيفة تفعيل مختلفة ستكون مختلفة، والبعض يختار عدم تنشيط وظيفة لتحسين التحسين، مثل يمكن اعتبار أن لديها ميزة على التعبير الدوري ظائف الجيب وجيب التمام مستطيلة موجة تحويل فورييه. فهم وظيفة تفعيل لوضع الشبكة العصبية ضخمة، حتى إذا كان لديك فقط فهم طبيعة وظيفة في حد ذاته ليس كافيا.

الكاتب: الراهب دون هيد آند شولدرز للطبع، يرجى ترك رسالة وراء الكواليس، والامتثال للمعايير طبع

الجديد SUV شيري تيجو الطاقة الجديدة ه ديناميكية لاول مرة الحد الأدنى التصميم ميزة واضحة / الوزن

مركز بكين للسيطرة على الأمراض: تسويق التبغ تتطلع الإنترنت للعب "بطاقة مشاعر"

Touyan أن يطير! وانغ هاى فنغ، بايدو العالم 2018: بايدو الدماغ ذكي للارتقاء بهذا القطاع لرفع مستوى!

وو لي ساحة كاتالونيا لإطعام الحمام، لا ينسى معلمه كسو جينباو القمرية عيد الميلاد

مقارنة مقر شركة كبرى تكنولوجيا الانترنت، هو حقا الأكثر إثارة للإعجاب

CNCC2018 الأقسام الفرعية (14) | الحكم البيانات الكبيرة ما هو؟ كيف نفعل؟

NEDC الحياة 500km / الخاصة "واضح" عمود صلب المثلث U لاول مرة ابتداء من

بكين الحديقة النباتية 400000 الزنبق في انتظار إزهار كامل بالنسبة لك أن تأخذ من حوالي الزهور تذهب بسرعة!

هناك أكثر من مشاعر القوة، الإصدار الجديد من نوكيا الرئيسي 21

اليوم صوت الأساسية | تينسنت تفعل هذا الحدث، وأثرها يمكن أن يسمى قناة الدقيقة الثانية

9 يوان شهريا 100 دقيقة الجيل الثالث 3G وطنية حركة الاتصالات الصوتية والاتصالات دفعت بطاقة الحرس الله

مع Typc-C هو NB؟ وعلق قادة الصناعة على ذلك!