الجهاز لا تعلم: من السهل أن نفهم! قراءة "المدرسة الثانوية الرياضيات" المبادئ الرياضية أصل التدرج

التدرج أصل الخوارزمية هي واحدة من الأكثر استخداما تعلم الآلة إلى الحد الأمثل، نحو العلم بيانات نشرت مؤخرا مقالا من السهل أن نفهم تفسير مبدأ أصل التدرج والعملية.

"التحسين من السابق لأوانه هو أصل كل الشرور".

- علماء الحاسوب والرياضيات دونالد ارفين كانوث

عملية رشيقة (مرونة) تطوير البرمجيات هو مصطلح في المعروف على نطاق واسع. الفكرة الأساسية وراء ذلك بسيط: لبناء بسرعة على الإفراج ردود الفعل كرر هذه العملية إلى أن يتم تعديل بناء على التغذية الراجعة. والهدف من هذا النهج هو جعل ختام المنتج للمستخدم، ويسمح للمستخدمين لردود الفعل لإرشادك لتحقيق الحد الأدنى من الأخطاء قد يكون أفضل المنتجات. وبالإضافة إلى ذلك، تحتاج الخطوات محسنة لتكون صغيرة وينبغي أيضا أن تسمح للمستخدمين لمواصلة المشاركة. بطريقة ما، وتنطوي عملية تطوير البرمجيات رشيقة التكرار السريع. العملية الأساسية من أصل التدرج تقريبا هو الحال - من التوصل إلى حل في أقرب وقت ممكن، وقياس متكررة، كلما أمكن ذلك.

هدف

التدرج خوارزمية النسب هي عملية تفاعلية تسمح لنا للحصول على الحد الأدنى من وظيفة (وهنا، ناهيك عن بعض الاعتبارات الإضافية). الصيغة التالية في جميع أنحاء خوارزمية أصل التدرج معا، وتشكل خط:

ولكن كيف نحصل على هذه الصيغة؟ هو في الواقع بسيط للغاية، ويشمل سوى بعض الرياضيات في المدرسة الثانوية (تريسي: ما وراء البحار خلف له عالية الرياضيات في المدرسة؟). ونحن نأمل أنه من خلال هذا المقال خلفية الخطية نموذج الانحدار لفهم وتتكاثر في هذه الصيغة.

A نماذج التعلم الآلي

مع بعض نقاط البيانات في مساحة 2D. هذه البيانات وافتراض وجود مجموعة من الطلاب حول الطول والوزن. نريد للتنبؤ وجود علاقة بين هذه الكميات، حتى نتمكن من التنبؤ بالمستقبل من وزن الجسم طالب الجديد. بل هو حالة بسيطة من أشرف تكنولوجيا التعلم الآلي من هذا النوع.

الآن، دعونا رسم خط في الفضاء خط التعسفي، ومرت من خلال بعض من نقاط البيانات. ثم وهذا الخط هو المعادلة Y = MX + ب، حيث m هو المنحدر، ب هي اعتراض من هذا الخط على المحور Y.

توقعات

وبالنظر إلى مجموعة من المدخلات والمخرجات المعروف يناظرها. سوف نماذج التعلم الآلي بناء على هذه البيانات محاولة للتنبؤ إخراج مدخلات جديدة.

عملية التعلم الآلي

الفرق بين الاثنين هو نتيجة لخطأ التنبؤ (خطأ).

وثمة مفهوم ذات الصلة هي تكلفة أو فقدان وظيفة.

دالة التكاليف  

تكلفة وظيفة / فقدان الوظيفة لتقييم أداء أنظمتنا التعلم الجهاز. وظيفة الخسارة هو خطأ يحسب العينة التدريب الفردي، وظيفة التكلفة هي وظيفة من متوسط الخسارة خلال مجموعة التدريب بأكمله. لذلك، وأود أن بالتناوب استخدام المصطلحين.

في الأساس، لا يمكن للدالة التكاليف تخبرنا عندما تعطى قيم م وب النموذج في التنبؤ بأداء "كيف جيدة."

على سبيل المثال، إذا كان مجموع بيانات مجموعة من النقاط N، ولجميع نقاط البيانات N، ونحن نريد للحد من الخطأ. وبالتالي فإن وظيفة التكلفة الإجمالية خطأ التربيعية، وهذا هو:

نقاط البيانات N من دالة التكاليف

لماذا لا نستخدم الفرق التربيعي دون مباشرة باستخدام الفرق المطلق ذلك؟ لأن مربع من الفرق الذي يمكن أن يجعل من الاسهل لاشتقاق خط الانحدار. في الواقع، لتجد أن الخط، ونحن بحاجة لحساب المشتقة الأولى للدالة التكلفة، الذي يحسب القيمة المطلقة للمتبادلة أكثر صعوبة بكثير من حساب قيمة مربع من المشتقات.

تقليل التكلفة وظيفة  

أي الجهاز الهدف خوارزميات التعلم هو تقليل دالة التكاليف.

وذلك لأن خفض خطأ بين القيم الفعلية والمتوقعة، فإنه يدل على أداء الخوارزمية في التعلم، كلما كان ذلك أفضل. وبما أننا نريد أدنى قيمة الخطأ، ونحن نأمل أن هذه القيم من متر وب الخطأ التي تم الحصول عليها والتقليل قدر الإمكان.

نحن بالضبط كيف للحد من أي وظيفة؟

دقيق الملاحظة، وظيفة التكلفة لدينا هي Y = X من النموذج. في النظام الديكارتي تنسيق، وهي معادلة القطع المكافئ، ويمكن رسمها في شكل FIG:

القطع المكافئ هندسة

 للحد من وظيفة المذكورة أعلاه، ونحن بحاجة للعثور على قيمة X للحصول على Y أدنى قيمة، أن النقطة الحمراء. لأن هذا هو خريطة 2D، وتحديد المواقع هو من السهل أن قيمة الحد الأدنى، ولكن ليس كذلك حيث البعد العالي. في هذه الحالات، ونحن بحاجة إلى تصميم الحد الأدنى لتحديد المواقع الخوارزمية، هذه الخوارزمية هي أصل التدرج.

أصل التدرج

أصل التدرج هو واحد من الخوارزمية الأمثل الأكثر شيوعا، ويعمل حاليا الطريقة الأكثر شيوعا لتحسين الشبكة العصبية. هذه هي وظيفة التكرار لإيجاد قيمة الحد الأدنى من الخوارزمية الأمثل.

فهم بديهية

لنفترض انك يمشي على الأرقام التالية، ويقع في الوقت الحالي عند نقطة موقف الأخضر. هدفك هو الوصول إلى الحد الأدنى، أن النقطة الحمراء، ولكن في موقعك، لا يمكنك رؤية أين قيمة الحد الأدنى.

أن الإجراءات التي يمكن اتخاذها يكون مثل هذا:

  • قد تكون أعلى أو لأسفل
  • إذا قررت الاتجاه للذهاب، وذلك للوصول إلى الوجهة، قد تتخذ خطوة عملاقة، قد يستغرق خطوة صغيرة.

في الأساس، من أجل الوصول إلى الحد الأدنى، يجب أن نعرف أمرين: الطريقة التي وكم خطوة وتيرة.

قد تستخدم التدرج خوارزمية أصل المشتقات لمساعدتنا بفعالية وكفاءة لاتخاذ هذه القرارات. مشتق هو مصطلح مشتق من حساب التفاضل والتكامل، قد تكون محسوبة على منحدر FIG نقطة معينة. لذلك، إذا كانت لدينا القدرة على حساب هذا الظل، ونحن قد تكون قادرة على حساب الاتجاه للوصول إلى الحد الأدنى الذي يجب أن يكون محددا. سنقوم بشرح هذا بمزيد من التفاصيل في وقت لاحق.

  الحد الأدنى

في الشكل، يمكننا في التنقير الأخضر الظل، ونحن نعلم أننا إذا نقل ما يصل، ونحن سوف يكون بعيدا عن الحد الأدنى أو العكس بالعكس. وبالإضافة إلى ذلك، وهذا أيضا يتيح لنا أن نفهم شدة الانحدار الظل المنحدر.

المنحدر على النقطة الزرقاء ليست حاد في جرين بوينت، يعني ذلك أن للوصول إلى الحد الأدنى المطلوب من نقطة تيرة الزرقاء مما كانت عليه في نقطة خضراء أصغر من ذلك بكثير.

تفسير الرياضي للدالة التكاليف

الآن، وصفت جميع المعادلات الرياضية المكتوبة دعونا أعلاه. في المعادلة ص = MX + ب، م و b المعلمات. خلال التدريب، وقيمها تكون التغييرات الطفيفة. سوف نقوم بتغيير كما أعرب عن هذا القليل. يتم تحديث قيم المعلمات إلى m = م-m، وطريقة ب = ب-b. هدفنا هنا هو العثور على ذ الخطأ الحد الأدنى = م + ب قيم م ب في العلبة، أي التقليل من قيمة دالة التكاليف.

 كتابة دالة التكاليف:

والفكرة هي أنه من خلال وظائف حساب المشتقة والمنحدر، يمكننا العثور على المشتقة / المنحدر من وظيفة.

معدل التعلم

تصل قيمة الحد الأدنى أو ما يسمى حجم خطوة نسبة التعلم في القاع. أكبر خطوة / أعلى معدل التعلم يمكن أن تغطي مساحات واسعة، لكنهم عبروا الحد الأدنى من المخاطر. من ناحية أخرى، وصلت خطوات أصغر / انخفاض معدل التعلم الحاجة نقطة أدنى تستهلك الكثير من الوقت.

الصورة أدناه يبين مفهوم معدل التعلم. في الشكل الثالث، ونحن نستخدم الحد الأدنى لعدد من الخطوات للوصول إلى الحد الأدنى. هذا هو أفضل دراسة هذه المسألة.

يمكن أن ينظر إليه عندما يكون معدل التعلم منخفض جدا، فإنه يتطلب العديد من الخطوات للتجمع. عندما يكون معدل التعلم مرتفع جدا، فإن أصل التدرج لا تصل إلى قيمة الحد الأدنى، كما هو مبين أدناه.

 نتائج معدلات التعلم المختلفة تشير إلى: الشبكي: //developers.google.com/machine-learning/crash-course/fitter/graph.

مشتق  

تعلم آلة لمشتقات استخدامها في مشاكل الأمثل. مثل التدرج خوارزمية أصل الأمثل يحدد الاستخدام الفعلي للمشتقات لزيادة أو نقصان الوزن، زيادة أو نقصان وظيفة الهدف.

إذا يمكننا حساب مشتقة دالة، سنعرف أن الاتجاه هو الاتجاه الذي تريد أن تستمر تم تصغير هذه الوظيفة. نحن اساسا للتعامل مع مفهومين من حساب التفاضل والتكامل:

قانون القوة  

حساب سلطة القانون هو تعزيز قوة مشتق المتغيرة.

قاعدة السلسلة  

قاعدة السلسلة لحساب مشتق من وظيفة المركبة. ويمكن استخدام قاعدة السلسلة ايبنتز تدوين النحو التالي:

إذا كان المتغير ذ المتغيرات التي تعتمد على متغير ض، و y هي أيضا تعتمد على المتغير x، ثم صاد وعين هو المتغير التابع، ولكن أيضا من قبل ض متغير متوسطة تعتمد على الأشعة. وهذا ما يسمى قاعدة السلسلة، معادلة رياضية يمكن أن تكون مكتوبة على النحو التالي:

دعونا نفهم من خلال مثال:

قانون القوة وقانون السلسلة للمشتقات، يمكننا حساب دالة التكاليف فيما يتعلق بتغييرات في طريق م و ب. وهذا ينطوي على مفهوم مشتق جزئي، أي إذا كان هناك وظيفة اثنين من المتغيرات، وظيفة لايجاد طريقة ما يتعلق عدد متغير من المشتقات الجزئية غير متغير آخر وثابت. وشرح أن يكون أكثر وضوحا مع مثال على ذلك:

حساب النسب التدرج  

سنقوم الآن أن تطبق هذه القواعد كان لدينا معادلات حساب التفاضل والتكامل والعثور على مشتق من دالة التكاليف فيما يتعلق م و ب. إعادة النظر في وظيفة التكلفة:

لالبساطة، دعونا نتخلص منهم رمز الجمع. الجزء تلخيص مهم جدا، لا سيما في ما يتعلق العشوائية التدرج أصل (SGD) مفهوم الانخفاض مرة دفعة التدرج. في عملية أصل دفعة التدرج، لدينا خطأ لمرة واحدة فحص جميع العينات التدريب؛ وفي عملية SGD، في كل مرة نقوم بفحص كل خطأ. ومع ذلك، من أجل البساطة، ونحن نفترض انه في كل مرة نقوم بفحص كل خطأ.

 الآن، ونحن حساب التدرج م وب المرتبطة خطأ:

هذه القيم العودة إلى وظيفة من حيث التكلفة، وتتكاثر نسبة التعلم:

والآن، فإن المعادلة 2 ليست في غاية الأهمية، لأنه يعني فقط علينا أن نتعلم ضعف المعدل أو نصف كما كبيرة. لذلك نحن رميها مباشرة. لذلك، تتركز النهائية هذه المقالة كاملة في معادلتين بسيطة تمثل أصل التدرج.

m، b = المعلمة موقف القادمة؛ m، b = المعلمة موقف الحالية.

وفقا لذلك، من أجل حل التدرج، ونحن نستخدم التكرار جديد من متر وب قيم نقاط البيانات لدينا، وحساب المشتقات الجزئية. دالة التكاليف التدرج الجديد يمكن أن نشير إلى الموقف الحالي للالمنحدر والاتجاه الذي يجب أن تتحرك من أجل تحديث معاييرنا. تحديثها بواسطة حجم من السيطرة على معدل التعلم.

ملخص

والغرض من هذه المقالة هو للتدليل على مفهوم أصل التدرج. نحن نستخدم استراتيجية التحسين التدرج النسب كما الانحدار الخطي. لقياس العلاقة بين الطول والوزن من الطلاب عن طريق رسم خط من أفضل مناسبا. ومع ذلك، فمن المهم أن نلاحظ أن هذا المثال هو للتدليل على خطي اختيار الانحدار البسيط، أصل التدرج يمكن أن تستخدم أيضا لغيرها من التقنيات تعلم الآلة.

نقل: قلب آلة https://www.jiqizhixin.com/articles/2019-04-07-6

7700K مع بطاقة الرسومات الفنية، وأوصت 6000 يوان برنامج 3D النمذجة التكوين

5 دقائق ضد اليوم! مبيعات ماوتاي في الأساس للطن، اقبال لينكس سحابة استراتيجية العمل!

رخيصة وحسن المظهر، وأبل الهاتف قذيفة عرض iPhone7

معظم الله 20 المعرفة الباردة في العالم، وأرى الثلاثة الأولى سخيفة

لعب LOL "أبطال الاتحاد"، 2000 يوان Zanji أوصى برنامج التكوين

فوتشو الرجل "شجاعة" مطالبات المحتجزين تسجيل التعرض العضو: ما حددت العجز الثانوية

تسيبو ركل الكرة الموسم الافتتاح الجديد لشعار الفريق الجديد، ركل ركل رجل إلكتروني

تثبيت الأكثر عملية Dacentrurus منصة 3500 يوان أوصى Zanji برنامج التكوين

Seiyuu، ووضع الدهون والاستجواب الشبكة، وانهيار عصر الاحتراف الجديدة للإنترنت

عدم إضافة الأموال إلى الحزب! 3400 يوان أوصى Dacentrurus منصة Zanji برنامج التكوين

الجهاز لا تعلم: التطبيق البحث ذات الصلة غويا - نص قصير مماثل

لماذا تشارك المصنعة للهواتف النقالة في صورة مزدوجة؟ بعد قراءة فهم