قراءة مجموعة متنوعة من خوارزميات التحسين الشبكات العصبية النص: أسفل آدم من أسلوب التدرج ل

وانغ التي تم تجميعها من جديد المتوسطة

إنتاج و qubit | عدد ملفه QbitAI

عند ضبط المعلمات الأوزان وتحديث التحيز نموذج الطريقة التي فكرت في أي نوع من نموذج تحسين خوارزمية يمكن أن تؤدي إلى نتائج أفضل وأسرع؟ وينبغي أن يكون أصل التدرج، ستوكاستيك أصل التدرج، أو طريقة آدم؟

توضح هذه المقالة الاختلافات الرئيسية بين خوارزميات التحسين المختلفة، وكيفية اختيار أفضل طريقة الأمثل.

ما هو الأمثل؟

تحسين خوارزمية، عن طريق تحسين أساليب التدريب للحد من (أو تكبير) فقدان وظيفة E (خ).

يستخدم بعض المعلمات نموذج الداخلية للمجموعة اختبار لحساب القيمة المستهدفة لدرجة الانحراف من القيمة الفعلية Y والقيمة المتوقعة بناء على هذه المعايير، لتشكيل فقدان وظيفة E (خ).

على سبيل المثال، الوزن (W) والإزاحة (ب) وهذه المعايير الداخلية التي تستخدم عادة لحساب قيمة الانتاج، ولعب دورا رئيسيا في تدريب نموذج الشبكة العصبية.

عندما نموذج التدريب الفعال وتعطي نتائج دقيقة والمعلمات الداخلية للنموذج قد لعبت دورا هاما للغاية. هذا هو السبب في أننا ينبغي أن يكون الأمثل مع مجموعة متنوعة من الاستراتيجيات والخوارزميات لحساب تأثير معلمات الشبكة والتدريب نموذج التحديث والإخراج النموذج، وذلك لتقريب أو تحقيق قيمة الأمثل.

ينقسم خوارزمية الأمثل إلى فئتين:

1. تحسين خوارزمية الدرجة الأولى

تستخدم هذه الخوارزمية قيمة التدرج من كل معلمة لتكبير أو تصغير فقدان وظيفة E (خ). الأكثر شيوعا خوارزمية الدرجة الأولى الأمثل هو أصل التدرج.

التدرج وظيفة: متعدد المتغيرات مشتق دى / التعبير DX التي تمثل نسبة الفوري للتغيير ذ فيما يتعلق السينية. في كثير من الأحيان من أجل حساب مشتقة دالة متعددة المتغيرات، سوف يتم استبدال مشتق مع التدرج والمشتقات الجزئية تحسب باستخدام التدرج. احد الفرق الرئيسي بين التدرج وظيفة المشتقة هو تشكيل حقل شعاعي الانحدار.

وهكذا، وظيفة متغير واحد، وتستخدم لتحليل مشتق؛ وإنشاء وظيفة متعددة المتغيرات التدرج القائمة. مزيد من التفاصيل في هذه النظرية لم تعد شرح بالتفصيل.

2. ثانيا النظام خوارزمية الأمثل

تستخدم الدرجة الثانية تحسين خوارزمية المشتقة الثانية (المعروف أيضا باسم طريقة هس ) لتقليل أو زيادة فقدان الوظيفة. نظرا للتكلفة العالية الحسابية المشتقة الثانية، وهكذا لا يتم استخدام هذه الطريقة على نطاق واسع.

بالتفصيل مختلف خوارزمية تحسين الشبكة العصبية

أصل التدرج

في مجال التدريب والاستفادة المثلى من الأنظمة الذكية، والتدرج النسب هو واحد من أكثر التقنيات الهامة والبنية التحتية. وظيفة أصل التدرج هي:

من خلال إيجاد الحد الأدنى للتحكم التباين، تحديث معلمات نموذج، نموذج تلتقي في نهاية المطاف.

الصيغة لتحديث معلمات الشبكة: = - () .J ()، حيث [إيتا] هو معدل التعلم، () .J () هو فقدان وظيفة J () من التدرج.

هذا هو الأكثر شيوعا تحسين خوارزمية الشبكة العصبية.

اليوم، يتم استخدام التدرج النسب أساسا لأوزان نموذج الشبكة العصبية في الوزن التحديث، أي تحديث معلمات نموذج وتعديل في اتجاه لتقليل فقدان وظيفة.

أدخلت تقنية العودة نشر في عام 2006، يجعل تدريب DNN ممكن. تقنية انتشار الظهر هي حساب نتاج تنتشر إشارة المدخلات السابقة والوزن المقابلة لها، ثم يتم تطبيق وظيفة تفعيل لمجموع تلك المنتجات. بهذه الطريقة إشارة الدخل إلى إشارة الإخراج، وسيلة هامة لنمذجة وظيفة غير الخطية المعقدة، ويقدم وظيفة التنشيط غير الخطية، مثل أن النموذج يمكن أن تتعلم وظيفة رسم الخرائط من شكل أي تقريبا. ثم، في عكس الجي شبكة نشر المترابطة الخطأ، وذلك باستخدام التدرج أصل تحديث قيمة الوزن الصحيحة، عن طريق حساب التدرج وظيفة الخطأ E فيما يتعلق W الوزن معلمة، في الاتجاه المعاكس من التدرج من فقدان وظيفة المعلمات الوزن المحدثة.

الشكل (1): الوزن تحديث التدرج الاتجاه المعاكس لاتجاه

يبين الشكل 1 عملية تحديث ناقلات الوزن مع الاتجاه التدرج مقابل الخطأ، حيث منحنى الانحدار على شكل حرف U. أن نلاحظ أنه، في السلطة أو الكثير من W قيمة الوزن، وسوف يكون هناك خطأ كبير، فمن الضروري لتحديث وتحسين الوزن، وجعله قيمة مناسبة، لذلك حاولنا العثور على القيمة المثلى المحلية في الاتجاه المعاكس مع التدرج .

المتغيرات أصل التدرج

سيتم تحديث الدفعة التدرج حساب النسب التدرج التقليدي لمجموعة البيانات بالكامل، ولكن مرة واحدة فقط، لذلك بطيئة عند التعامل مع مجموعات البيانات الكبيرة ويصعب السيطرة عليها، وحتى تؤدي إلى تجاوز الذاكرة.

يتم تحديد الوزن سرعة استكمال معدل التعلم، ويمكن أن تتقارب إلى الحد الأمثل العالمي، قد تميل القيمة المثلى لغير محدب محدب السطح المنحني المحلي في سطح الخطأ.

استخدام النموذج القياسي من أصل دفعة التدرج وثمة مشكلة أخرى هي أن هناك التكرار في التدريب الصحيحة التحديث الوزن مجموعات كبيرة من البيانات.

يتم حلها أصل التدرج القياسي فوق مشكلة في ستوكاستيك طريقة التدرج النسب.

1. العشوائية التدرج أصل (SDG)

ستوكاستيك التدرج أصل (أصل التدرج العشوائية، SGD) لكل عينات تدريب تحديث معلمة، قام كل الاعدام تحديثا، وتنفيذ أسرع.

= - () J (؛ العاشر (ط)؛ ص (ط))، حيث x (ط) و y (ط) لعينة التدريب.

ومن بين التحديثات المتكررة المعلمة بحيث عالية فقدان وظيفة التباين قد تتقلب في مختلف جوانب القوة. وهذا هو في الواقع أمر جيد لأنه يساعدنا على اكتشاف الحد الأدنى الجديد وربما أفضل المحلية، والنسب القياسية التدرج سوف تلتقي فقط لالأمثل المحلي.

ولكن المشكلة هي أن SGD، نظرا لكثرة التحديثات وتقلب سوف تلتقي في نهاية المطاف إلى الحد الأدنى، وسوف يكون هناك التجاوز بسبب تقلبات متكررة.

على الرغم من أنه ثبت أنه عندما انخفضت تدريجيا تعلم معدل [إيتا]، ومعيار التدرج النسب وضع التقارب مع نفس النمط SGD.

الشكل 2: كل التباين التدريب العينة ارتفاع معدل التذبذب المعلمة فقدان أسباب التحديث وظيفة، ونحن قد تكون قادرة على الحصول على قيمة الحد الأدنى نظرا فقدان الوظيفة.

ودعا "صغيرة الحجم تدرج النسب" متغير آخر، فمن الممكن أن حل مشكلة تباين عالية والتقارب تحديث المعلمة عدم الاستقرار.

2. كميات صغيرة من أصل التدرج

لتجنب SGD أصل التدرج القياسي والمشاكل القائمة، وهي طريقة محسنة من أصل التدرج بكميات صغيرة (الدفعة البسيطة التدرج النسب)، منذ يتم تنفيذ هذه الطريقة مرة واحدة فقط التحديثات العينات التدريب ن من كل دفعة.

وميزة استخدام كميات صغيرة من أصل التدرج:

1)  يمكنك تقليل التحديث المعلمة التقلب، وفي نهاية المطاف الحصول على تقارب أفضل وأكثر استقرارا.

2)  يمكنك أيضا استخدام أحدث مكتبة التعلم عميقة أسلوب مصفوفة عامة التحسين، والانحدار حساب كميات صغيرة من البيانات أكثر كفاءة.

3)  بشكل عام، كميات صغيرة من حجم العينة تتراوح 50-256، يمكن أن تختلف وفقا لهذه المشكلة الفعلية.

4)  عندما تدريب الشبكة العصبية، وعادة ما تختار دفعة صغيرة التدرج أصل الخوارزمية.

ويشار إلى هذا الأسلوب أحيانا باسم SGD.

باستخدام أصل التدرج ومشتقاته عند مواجهة التحديات

1.  من الصعب اختيار معدل التعلم المناسب. معدل التعلم هو صغير جدا من شأنها أن تؤدي إلى تقارب الشبكات بطيئة جدا، والكثير يمكن أن تؤثر على التقارب معدل التعلم، وتؤدي إلى فقدان وظائف في التقلب الحد الأدنى، وحتى الاختلاف الانحدار.

2.  وبالإضافة إلى ذلك، والشيء نفسه لا ينطبق على كافة التحديثات المعلمة معدل التعلم. إذا كانت البيانات التدريبية متفرق، والتردد المميز مختلفة جدا، يجب أن يتم تحديث كل منهم بنفس الدرجة، ولكن نادرا ما لالميزات، يجب عليك استخدام معدل تحديث أكبر.

3.  تحد رئيسي آخر في الشبكة العصبية، والتقليل من وظيفة الخطأ غير محدب لتجنب الانخراط تعددية الدنيا المحلية الأخرى. والواقع أن المشكلة ليست بسبب قيمة الحد الأدنى المحلية، ولكن من وجهة السرج، أي بعد واحد وبعدا آخر ارتفع بالزيادة نقاط بالخفض. هذه النقاط سرج وعادة ما تكون نفس الطائرة محاطة قيمة الخطأ، مما يجعل من الصعب المستوعبة SGD الخوارزمية، لأن وثيقة التدرج إلى الصفر في جميع الأبعاد.

زيادة الاستخدام الأمثل للأصل التدرج

الآن لدينا لمواصلة مناقشة الأمثل لمختلف خوارزمية التدرج النسب.

1. الزخم

طريقة SGD تباين عالية جدا، بحيث التذبذب من الصعب تحقيق الاستقرار في تقارب الشبكات، لذلك اقترح الباحثون تقنية تسمى الزخم (الزخم) من عن طريق تحسين التدريب ذات الصلة لاتجاه التذبذب واتجاه إضعاف علاقة لتسريع تدريب SGD . وبعبارة أخرى، فإن هذا النهج الجديد هو مكونات ناقلات تحديث " 'الخطوات السابقة لناقلات التحديث الحالي.

V (ر) = V (ر-1) + () .J ()

وأخيرا = -V (ر) لتحديث المعلمات.

يتم عادة تعيين الزخم إلى 0.9، أو قيمة ما شابه ذلك.

الزخم هنا والزخم في الفيزياء الكلاسيكية هو نفسه، مجرد رمي الكرة من الجبال إلى الزخم جمع في الخريف، وتزايد سرعة الكرة.

في المعلمات من عملية التحديث، ومبدأ مشابه:

1)  الشبكة يمكن أن تجعل أفضل وأكثر استقرارا التقارب.

2)  تقليل عملية التذبذب.

عندما يشير لاتجاه الحركة الفعلي من التدرج، وزيادة الزخم غاما]، وعندما تتحرك الاتجاه الفعلي مقابل التدرج، غاما] الانخفاضات. وبهذه الطريقة وسائل هذا الزخم هو فقط المعلمات ذات الصلة تجديد عينات، والحد تحديث المعلمة زوم لها، يؤدي إلى تقارب بشكل أسرع ومستقرة فإن عملية يقلل أيضا من التذبذب.

2. نيستيروف طريقة تسريع التدرج

زميل اسمه يوري نيستيروف، أن هناك طريقة الزخم المشكلة:

إذا كان شعرة معاوية أسفل التل، سقط عمياء على طول المنحدر، وهو غير مناسب للغاية. وتجدر الإشارة إلى كرة ذكاء أنها ستذهب، وذلك عندما يميل شاقة مرة أخرى ينبغي تباطأت الكرة.

في الواقع، عندما وصلت الكرة إلى أدنى نقطة على منحنى، وزخم مرتفع جدا. ونظرا للزخم عالية مما قد يؤدي إلى يغيب تماما الحد الأدنى لها، وبالتالي فإن الكرة لا تعرف عندما يتباطأ، فإنه لا يزال التحرك التصاعدي.

نشرت يوري نيستيروف ورقة من الزخم لحل المشكلة في عام 1983، وبالتالي، فإننا ندعو هذه الطريقة Nestrov طريقة تسارع الانحدار.

في هذه العملية، واقترح أن تكون قفزة كبيرة وفقا للالزخم السابق، ومن ثم حساب تصحيح التدرج، وبالتالي تحقيق التحديثات المعلمة. هذه الطريقة قبل التحديث يمكن أن تمنع بشكل كبير التذبذب، لا تفوت الحد الأدنى، والتحديث المعلمة أكثر حساسية.

نيستيروف طريقة تسريع التدرج (NAG) هو وسيلة لإضفاء القدرة على المدى الزخم للتنبؤ، لتغيير المعلمة باستخدام مصطلح الزخم V (تي 1). عن طريق حساب -V (تي 1)، لإعطاء رقم تقريبي للمعلمة موقف المقبلة، حيث المعلمة هي فكرة تقريبية. لذلك، نحن ليس عن طريق احتساب القيمة الحالية التدرج المعلمة ، ولكن من المعلمات ذات الصلة الموقف في المستقبل إلى حد كبير، على التنبؤ على نحو فعال المستقبل :

V (ر) = V (ر-1) + () J (-V (تي 1))، ثم = -V (ر) لتحديث المعلمات.

الآن، نحن تكييف الشبكة عن طريق تحديث المنحدر من دالة الخطأ، وبالتالي تسريع SGD، ويمكن تعديلها وفقا لأهمية كل التحديثات المعلمة المعلمة المقابلة لأداء تحديث أكبر أو أقل ضخامة.

3. طريقة Adagrad

يتم تعديل طريقة Adagrad بمعدل التعلم المعلمة المناسب، المعلمات متفرق المحدثة بشكل كبير والمعلمات من التحديثات قاصر متكررة. وهكذا، Adagrad متفرق طريقة معالجة البيانات هو مناسب جدا.

في خطوة الوقت، Adagrad التدرجات الماضية لكل معلمة استنادا إلى مجموعة مختلفة يحسب لمختلف معدل التعلم المعلمة .

في السابق، كل المعلمة (ط) استخدام معدل التعلم نفسه، كل على جميع المعلمات [ثيتا] يتم تحديثها. في كل خطوة ر الوقت في، طرق Adagrad لكل معلمة معدلات التعلم المختلفة، وتحديث معايير المطابقة، وكمية موجهة. لالبساطة، لدينا المعلمات في الوقت t (ط) يتم تعيين إلى التدرج من فقدان وظيفة ز (ر، ط).

الشكل (3): صيغة التحديث المعلمة

Adagrad في كل خطوة الوقت هو وفقا للمعايير السابقة التدرج المحسوب، تعديل معايير المطابقة لكل من معدل التعلم (ط).

والميزة الرئيسية للنهج Adagrad لا حاجة لضبط معدل التعلم يدويا. تستخدم معظم المعلمات القيمة الافتراضية 0.01، ويبقى دون تغيير.

العيب الرئيسي للنهج Adagrad دائما للحد من معدل التعلم والاضمحلال.

لأن كل فصل دراسي إضافي هو إيجابي، وساحة للتعددية المتراكمة من القيم المتدرجة في القاسم، بحيث مجموع تراكمي لتنمو خلال التدريب. هذا في يؤدي بدوره إلى انخفاض معدل التعلم، يصبح عدد حجم صغير جدا، ونموذج تتوقف تماما التعلم، والتوقف عن الحصول على معارف جديدة وإضافية.

لأنه كما المزيد والمزيد من الصغيرة سرعة التعلم، والقدرة على التعلم من طراز يتناقص بسرعة، والتقارب بطيء جدا، ويستغرق التدريب الطويل والتعلم، وهما سرعة التعلم السفلى .

دعا خوارزمية آخر Adadelta يحسن معدل التعلم تستمر في الاضمحلال المشاكل.

4. طريقة AdaDelta

هذا الأسلوب هو امتداد لAdaGrad، فإنه يميل إلى حل بهم تسوس معدل التعلم. Adadelta لا المتراكمة قبل كل مربع من التدرج، والتدرج حتى نافذة المتراكمة ولكن تقتصر على حجم معين ثابت ث.

W صالح المخزنة سابقا التدرج من الساحة قبل التدرجات المختلفة ويعرف بشكل متكرر كما التدرج من مربع من جميع متوسط توهين السابق. حيث أن الزخم جزء مماثل ، Eg تشغيل المتوسط في الوقت t، ويعتمد فقط على متوسط قيمة السابقة للالانحدار الحالي.

Eg = .Eg + (1-) .g (ر)، حيث يتم تعيين غاما] إلى نهايتها قيمة للزخم، نحو 0.9.

(ر) = - g (ر، ط).

(ر + 1) = (ر) + (ر)

الشكل (4): الصيغة تحديث المعلمة الأخيرة

طريقة أخرى ميزة AdaDelta، فقد كان من الضروري توفير نسبة التعلم الافتراضية.

وقد تم الانتهاء تحسين

1)  حساب معدلات التعلم المختلفة لكل معلمة.

2) يحسب أيضا الزخم الزخم على المدى.

3)  منع تعلم تسوس معدل أو تختفي التدرج وغيرها من المشاكل.

ما الذي يمكن عمله لتحسين؟

يتم احتساب المراسلات معدل التعلم لكل معلمة في الطريقة السابقة، ولكن لماذا لا تحسب لكل معلمة الموافق التغير في الزخم ومتجر مستقل ذلك؟ هذه هي التحسينات نقطة آدم المقترحة الخوارزمية.

خوارزمية آدم

خوارزمية آدم هذه الطريقة الوقت على التكيف تقدير (لحظة التكيف تقدير) ، يمكن أن تحسب لكل معلمة من معدل التعلم التكيفي. هذا الأسلوب ليس فقط يخزن AdaDelta سابقة متوسط الانحدار التربيعية من تسوس الأسي، ولكن يحافظ على متوسط القيمة السابقة التدرج من تسوس الأسي M (ر)، والذي يشبه إلى زخم:

M (ر) هو متوسط قيمة أول لحظة الانحدار، وغير مركزي الوقت التباين V الثاني (ر) هو التدرج.

الشكل (5): المعادلات اثنين لأول لحظة الانحدار والمتوسط مرة الثانية التباين

الصيغة تحديث المعلمة الأخيرة هي:

الشكل (6): الصيغة تحديث المعلمة الأخيرة

التي، يتم تعيين 1 إلى 0.9، يتم تعيين 2 إلى 0.9999، يتم تعيين 10-8.

في التطبيقات العملية، وطريقة آدم إلى تأثير جيد. مقارنة مع خوارزمية التكيف أخرى معدل التعلم، والتقارب بشكل أسرع، والتعلم أكثر فعالية، ولكن أيضا تحسين تقنيات أخرى لتصحيح المشاكل، مثل تعلم معدل تختفي المعلمات التقارب بطيئة أو نتيجة في فقدان تحديث التباين العالي تقلبات وظيفة وغيرها من القضايا.

تحسين خوارزمية التصور

الرقم 8: الأمثل دولار سنغافوري نقطة سرج

كما يمكن أن يرى من الرسوم المتحركة أعلاه، يمكن الخوارزمية على التكيف تتقارب بسرعة، وسرعان ما تجد الصحيح تحديث المعلمة الاتجاه المستهدفة؛ وSGD القياسية، NAG وطرق زخم هذا التلاقي بطيء، ويصعب العثور على الاتجاه الصحيح.

استنتاج

التي محسن يجب أن نستخدمها؟

في بناء نموذج الشبكة العصبية، ويختار محسن الأمثل لسرعة والصحيح التقارب التعلم، في حين ضبط المعلمات الداخلية، أقصى مدى للحد من فقدان الوظيفة.

نتائج جيدة آدم في التطبيقات العملية، أكثر من أي تقنيات التكيف الأخرى.

إذا كانت مجموعة البيانات المدخلة هو متفرق، SGD، NAG وطرق الزخم قد لا تعمل بشكل جيد. ذلك لمجموعة تشح فيها البيانات، وذلك باستخدام بعض الطرق يجب أن يكون معدل التعلم التكيفي، وغيرها من الفوائد من دون تعديل معدل التعلم الإنساني، فمن الممكن الحصول على المعلمات الافتراضية من القيمة المثلى.

إذا كنت تريد أن تجعل من نموذج الشبكة الشبكة العصبية التدريب التقارب السريع العميق أو شيدت أكثر تعقيدا، يجب عليك استخدام آدم أو غيرها من طريقة معدل التعلم التكيفي لأن التأثير الفعلي لهذه الأساليب هو أفضل.

وآمل أن تمر هذه المادة، وهي جيدة فهم الاختلافات بين خصائص خوارزميات التحسين المختلفة.

روابط ذات صلة:

الدرجة الثانية تحسين خوارزمية:

https://web.stanford.edu/class/msande311/lecture13.pdf

نيستيروف طريقة تسريع التدرج: HTTP: //cs231n.github.io/neural-networks-3/

[نهاية]

إشعار

و qubit يجري انشاء مجموعة التكنولوجيا القيادة الآلية، الطيار الآلي بحث عن المجالات ذات الصلة في المهندسين المدرسة أو الخط الأول. مرحبا بكم في إضافة بريد إلكتروني المكدسة الصغير (qbitbot)، وتلاحظ "الطيار الآلي" تطبيق ~ جيا Ruha

تجنيد

المكدسة هو تجنيد المحررين والمراسلين والعمليات والمنتجات وغيرها من المواقف، ومقرها في تشونغ قوان تسون في بكين. مزيد من التفاصيل، في عدد من واجهة الحوار العامة، يجيب: "التوظيف".

تمديد الضمان هو الملك فقط مسألة وقت لحل برامج محددة أصبحت على نحو متزايد 12 فبراير

LOL قارات مباراة النهائية: Mlxg مجنون لمشكلة استيعاب انهيار SKT، لجأت فاكر تيتسو عاجزة

تشو تشى كشف مدرب خطط لأربعة أهداف كاملة، قد يعود إلى الدوري الاميركي للمحترفين!

داليان للدفاع! الدولتين العظميين "الأشرار" بدءا حزب ياتاي VS انطلاق سراح

10 يوان، 50 يوان و 100 يوان النقود تأتي! نلقي نظرة على اعادوا منذ فترة طويلة؟ كيف تشتري؟

المواقع متوسطة الحجم SUV وجه النمر 78 تهديد الأنياب تيجو

LOL مباراة للقارات النهائي: KT الله BP للضرب لا معنى لها IG، وسجل هاميلتون تين ساو الصعب حالة سحب، LPL في عداد المفقودين لمدة دقيقة

توم KD ولم يتبق سوى إله محارب أن تختار؟ 4 المقارنة تكشف الثغرات، فإن الجواب هو قليلا فاجأ

البروفيسور لى سوبر داع المعرض، دعا 60 نقطة لونينغ معركة نووية جديدة! وو جينغوي نعد لتحصل على وظيفة؟

فاو فولكس واجن أودي العلامة التجارية للاستيلاء على أرقام المالك الثلاثة الفائزة في السنة الأولى من عهد جديد

الأزرق هول هو أيضا ملقم مع البطاطا؟ جدي من أجل البقاء بسبب مشاكل الخادم مرساة الترفيه لعبة تعليق

لماذا لا تذهب موري إرسال نايت؟ 4 شروط الحصول على اثنين فقط، إلقاء اللوم على الصواريخ أيضا!