تعزيز إطار للتعلم، أنه سوف يفجر جديد الدماغ حفرة المطورين AI تفعل؟

مصدر @ رؤية الصين

ون | الجسم القطبي الدماغ

إذا كنت مطور التطبيق، لا يفهمون الخوارزمية، APP تريد تطوير مع وظائف منظمة العفو الدولية، التي من شأنها أن تختار:

  • منظمة العفو الدولية تملك من الصفر نموذج التدريب؛
  • باستخدام إطار التدريب وتطوير منصة API.
  • الجواب الواضح هو لتوفير الحلول التقنية الأخيرة غير الملك وانخفاض الحواجز أمام دخول.

    ولكن في مواجهة العديد من منصة تطوير إطار التعلم العميق، والقضايا التي سينظر فيها ولكن الكثير: التوافق، موارد المجتمع، إطار الهجرة وهكذا دواليك.

    وفي الآونة الأخيرة، تحول التركيز في إطار الكفاح من أجل الهيئات دراسة مكثفة.

    أطلقت غوغل العام الماضي على أساس تعزيز التعلم إطار الدوبامين، وتعزيز صناعة التعلم النجوم سوف OpenAI TensorFlow وضعت أيضا الكثير من خوارزميات الأساس، بايدو أيضا مؤخرا بتحديث تعزيز التعلم إطار PARL PaddlePaddle من. ونيتياس مستوى منخفض بشكل ملاحظ، أعلنت البحوث والتنمية المستقلة لتعزيز برنامج (المقوى البرمجة) إطار ......

    بالنسبة لمعظم المطورين، وتعزيز التعلم في النهاية لتحقيق ما، ما هو الفرق مع إطار التعلم العميق، وتطبيق ما ينبغي أن يذهب إلى البيت، وأنا خائف قليلا ضبابي قليلا.

    لذلك نحن اليوم قد ترغب في توضيح وتعزيز القيمة الحقيقية للصعوبات التعلم الحقيقي.

    التعلم العميق، وتعزيز التعلم، وعمق تعزيز التعلم، سخيفة لا يمكن أن أقول؟

    بعد عدة سنوات من التعليم السوق، يمكن لمعظم المطورين القيام به لإطار التعلم العميق، وكيفية القيام به، وهناك بالفعل تماما الطيف.

    لكن منصة رئيسية أطلقت على الفور إطار التعلم المكثف أو عمق إطار تعزيز التعلم، فإنه يجعل دائرة صغيرة من منغوليا. ما هو الفرق بينهما، ولكل الدببة ما المسؤولية تفعل؟

    نعطي مثالا لشرح مختلف الطرق الثلاث تعلم الآلة هو:

    لو كنت زراعة النباتات، وتريد أن تفعل الخير أو تفاحة فاسدة يمكن التعرف على APP، سوف تحتاج إلى إطار تطوير التعلم العميق، الذي بني على رأس عملية التدريب. منصات التطوير تقريبا جميع الجاهزة API التعرف على الصور، أنا فقط بحاجة إلى تدريب مع الصورة (وهذا هو، ومجموعة متنوعة من التفاح الصورة) استمرت في النظام، يمكنك الحصول على التفاح جيدة تدريبهم على تحديد النموذج.

    ولكن إذا أنا أكثر قليلا كسول، وأنا أريد الروبوت يمكن أن تتعلم لاختيار التفاح نوعية ناضجة ذلك؟ ديب تعلم الجوز قليلا أكثر صرامة للقضاء.

    ثم أنا بحاجة لتدريب إطار عامل تعزيز التعلم، كلما هو جديد قبالة التفاح جيدة، وسوف يحصل على مكافأة من النظام، يكون التعزيز الإيجابي. إذا كان خطأ أو غير المطبوخ من تفاحة فاسدة، وحتى يتم معاقبة أي مكافأة، كان التعزيز السلبي.

    من أجل الحصول على المزيد من العائدات، تجربة ذكية أكثر استعدادا لاختيار تلك ثمرة طيبة لاختيار، وإعطاء أولئك الذين يريدون جلب الفاكهة 0 أو حتى نقطة سلبية. في هذه الطريقة، وأنا حصلت على اختيار لتحقيق أقصى قدر من ثمرها جيدا من الروبوتات الذكية، هل هو طيب؟

    لكنني لا طعم حلاوة لقاء، وليس فقط تريد أن تعلم لاختيار الخيار اختيار الطماطم، ولكن أيضا كسول جدا للتدريب مرة أخرى. هذه المرة نحن بحاجة إلى خوارزمية جديدة، جنبا إلى جنب مع عمق التعلم وتعزيز منحنى التعلم، قل ذلك للحوافز جديدة، وسوف يكون الجهاز قادرا على الحصول على المهارات عمق الذات مماثلة من خلال الشبكة العصبية، وبعد ذلك لا تحتاج التدريب العملي على التدريب.

    سابقا، ولست بحاجة أيضا خط الخاصة بهم عن طريق الخط، ضرب كود طالما هناك الآن إطار التنمية + تدريب العينات، هل يمكن أن يكون بسهولة أبدا بالتعب، ويدرس بجد، ولكن أيضا إعطاء أولوية قصوى للوكيل، وإغراء من يستطيع أن يرفض؟

    وبطبيعة الحال، وهنا شرح موجز لأسلوب عملها، وتريد حقا لتدريب حكمة نموذج مثل هذا وتطبيقها على المنتجات الخاصة بهم، بل هو مشروع أكثر تعقيدا وشمولا.

    ومع ذلك، وزيادة إطار التنمية لتعزيز وظيفة التعلم، مما يقلل كثيرا من صعوبة البرمجة جهد وتدريب تعزيز التعلم، ولكن تعلم أن ترغب في تعزيز القدرة على بناء الأعمال التجارية من الصفر والكوادر الفنية والبيئة التدريب مما لا شك فيه الخير الرسائل.

    وضعت منظمة العفو الدولية الجديد المفضل: تعزيز التعلم بالضبط ما هي الفائدة؟

    اليوم، وتعزيز التعلم أصبح ليس فقط محبوبة من المجتمع الأكاديمي، فإن نسبة من الأوراق البحثية في التخصص سوف تتصدر الارتفاع السريع، ويعتبر منصة التنمية المختلفة أيضا والتركيز على إطار دراسة مكثفة لنشر والقتال.

    ولكن المشكلة قد تفجرت: جزء من الإطار يمكن أن تقلل فقط عتبة تنمية، ونماذج حسب الطلب، تصحيح، والشركات المتوافقة الأخرى لا تزال بحاجة إلى عمل الكثير من القوى البشرية والموارد المادية والموارد المالية، واذا كان رسم جهدا كبيرا للحصول على نتائج يمكن النهائي لا يمكن تطبيقها أو غير عملي، للمطورين، فإنه مما لا شك قاسية جدا.

    لذلك، قبل عجل "لتحذو حذو الجسم"، فمن الضروري تخليص: تعزيز التعلم في النهاية أقوى في أي المجالات؟ المطورون يجب أن يسلموا أنفسهم إليها وتحت أي ظروف؟

    لشرح لتعزيز منطق الأساسية للتعلم، وهذا هو، وكيل (وكيل) قد تكون في بيئة (بيئة) للحكم أنفسهم في استخدام ما العمل (العمل) في ما دولة (الدولة) اعتمادا على مكافأة (مكافأة)، وذلك لتحقيق أقصى قدر من تحسين الفوز بالجائزة الكبرى.

    فوز العودة بطل العالم مثل ألفا العودة، في "دوتا 2" في تعاطي اللاعبين الدم البشري OpenAI خمسة، وضع أتاري 2600 لعبة على أعلى درجة من DeepMind DQN، هي على أساس تعزيز تنفيذ التعلم.

    وذلك ما يتميز يفعل ذلك على وجه التحديد، ويمكن تلخيص تقريبا في ثلاثة جوانب:

  • عينات التدريب. تعزيز التعلم هو معرفة نتائج على البيئة من خلال المكافآت والعقوبات معين، مع البيانات المطلوبة العودة.
  • بشكل تفاعلي. تعزيز عملية التعلم التعلم هي دينامية، والحاجة إلى التفاعل مع البيئة كاملة، وليس عينة ما إلى المدرسة، لا بيئة ليس جيدا.
  • لحل المشكلة. المنطق تعزيز التعلم هو أشبه الدماغ البشري، والحل الرئيسي هو المشاكل قرار الذكية، مثل المباريات التي لعبت درجة عالية، الروبوت العالمي، وأنظمة التوصية.
  • هذه الإعدادات الخاصة، لذلك يمكن التعبير عن ذلك تعزيز التعلم في العديد من التطبيقات من عمق التقليدي والتعلم بشكل أفضل، مثل:

    الطبقة التحكم الذكي: التحكم في الوقت الحقيقي من الذراع الروبوتية الصناعية متعددة مشترك، مما يسمح للروبوت لمشاهدة يوتيوب التعلم عن طريق العمل وأشرطة الفيديو وتطبيقه على واقع المشهد، أو المركبات غير المأهولة إلى مساعدة تعلم كيفية التعامل مع الظروف الخاصة مثل البشر والحيوانات jaywalking.

    مشاكل التسلسل: مثل تسلسل النص تنبأ به السلوك من ردود الفعل لجعل البحث ترتيب تحقيق أفضل النتائج، والكهرباء نظام المورد توصية، على أساس التغذية المرتدة المستخدم على قائمة الموصى بها (تجاهل، انقر فوق أو شراء) توصية لتغيير الاستراتيجية في الوقت الحقيقي.

    جيل الحوار: على سبيل المثال، جولات تجربة أفضل الانسان والآلة الحوار، حتى أن الروبوت يمكن أن تستمر لتوليد حوار هادف، بدلا من أن أحرج إلى نقاش الثرثرة بلا هدف، جنبا إلى جنب مع عمق التعلم، والآثار الترجمة الآلية أفضل ثنائي اللغة.

    كان التعلم العميق التقليدي حل جيد للمشاكل آلة الإدراك والاعتراف، ولكن مطالب الذكاء الجهاز البشري هو بوضوح أكثر من ذلك، تكون قادرة على التعامل مع مشكلة تعزيز التعلم قرار من نوع الواقع المعقد، وتحقيق التكامل بين اثنين، وتطبيقات المستقبل الطبيعي لمنظمة العفو الدولية تطوير الرئيسية.

    في هذه الحالة، يتقن ميزة الخوارزمية أول المتحركين أطلقت منصة تكنولوجيا إطار RL، هو بلا شك أفضل تخطيط للتنافس على المطورين وحقوق الوصول.

    إطار التعلم لتعزيز الكفاح، والكفاح ماذا بالضبط؟

    وبطبيعة الحال، على الرغم من أن تعزيز التعلم بذلت الكثير من "تبريد" تحقيق، ولكن حدوده هي كانت تطبيقات واضحة لإعداد مقدما:

    مثل الأطفال حديثي الولادة تعزيز تعلم جميع المهارات اللازمة ليكونوا مدربين من الصفر، فإنه يأخذ الكثير من الوقت لتدريسه لفهم لأهداف البعثة؛

    وعلاوة على ذلك، تعزيز التعلم لا يمكن إلا أن تعمل وفقا للالأمر ردود الفعل الفورية، والشطرنج، ولعب دي أو تي ايه ربما بقرة، ولكن مواجهة مثل هذه المهام مساعد صوت الشخصية مطلوبة الذاكرة والمنطق القدرة، وهي عاجزة بت؛

    مسألة مثيرة للقلق آخر هو أن التعزيز الحالي الخوارزمية على الاستقرار والكفاءة يختلف التعلم، تريد حقا لتلبية متطلبات التطبيق من المشهد الحقيقي، إلى تعزيز.

    لذلك، وكيفية اختيار إطار تعزيز التعلم لأعمالهم لاختبار المياه، ولعل المشكلة الأكثر إلحاحا للمطورين المعنية.

    لتعزيز الاتجاه وخصائص كل منصة للتعلم، لدينا بعض الاقتراحات غير ناضجة صغيرة للرجوع اليها:

    • الاستقرار ومنصة استنساخ

    عمق التعلم غير مستقرة، لديها مجموعة محددة من البيانات وأهداف ثابتة، تظهر التغييرات الصغيرة على المعلمات، لن تتأثر الأداء النهائي بشكل كبير. ولكن تعزيز التعلم (أو عمق تعزيز التعلم) أنها ليست الحالة، فإن نتائج التدريب تكون خاضعة لتأثيرات متعددة من كفاءة عينة احتمالية عشوائي والاستقرار الخوارزمية، وذلك لإحداث تغيير كبير في النتائج، والحد من معدل التكاثر للنجاح. أكثر خطورة هو أنه مهما كانت تعتقد آلات أنهم سيحاولون أن تؤدي إلى الفشل والانهيار لا تعلم مباشرة.

    من أجل حل مشكلة العشوائية واستنساخه، حلول أنظمة مختلفة ليست هي نفسها.

    على سبيل المثال، وجوجل هو تحقيق بيئة التدريب وجلسة اختبار موحدة. عروض 60 لعبة للبيانات اختبار التغطية رمز والتدريب، واستخدام بيئة تعلم ممر (ممر بيئة التعلم) وتطبيع تقييم تجريبي.

    وتغطي بايدو قدر ممكن خوارزمية الارتباط. يوفر إطار PARL مجموعة من الخوارزمية، والذي يحتوي على عدد كبير من التيار خوارزمية الكلاسيكية وقائمة كاملة من المعلمات المفرط، من أجل حماية نموذج معدل التكاثر.

    • المرونة وسهولة الاستخدام

    احتياجات النهائية لمعظم المطورين، وتأمل لكسر خوارزمية الإطار التكنولوجيا أغلال تشغيل مجانا، والإفراج عن أفكارهم التجارية الجديدة والإبداع. ولذلك، فإن تصميم الإطار من جهة لتحقيق التوازن بين التناقض بين سيناريوهات الأعمال المتنوعة وأساليب التدريب بسيطة، من ناحية أخرى سوف تضطر إلى مواكبة اتجاهات التكنولوجيا في تطوير التكرار السريع.

    على سبيل المثال، وجوجل الممرات بيئة التعلم، والتي وكيل كيف يعمل هذا، هو بسيط جدا لفهم والوثائق والسجلات الخام مفصلة. وبالإضافة إلى ذلك، أطلقت جوجل أيضا مجموعة من الأدوات التصور TensorBoard تساعد المطورين لمساعدة فرز بوضوح وبشكل مباشر في وقت قصير، والتحقق من صحة متكررة من الأفكار الجديدة.

    • اقتران الإطار إلى العمل

    على الرغم من أننا نقول إن تعزيز التعلم من هذه الصناعة، فضلا عن نهاية بكثير من المسافة الهبوط، ولكن من الإطار التقني وضعت على أساس مزيج استعداد لهذه الصناعة، على ما يبدو يمكن تسريع هذه العملية.

    وهكذا، فإن الإطار التكنولوجيا اقتران والاحتياجات الصناعية التجارية النهاية، أصبح الضامن الرئيسي لتطوير منصة حيوية. على سبيل المثال، سرعة بايدو تصل إطار تعزيز التعلم المتابعة، انه لامر جيد لملء النقص في تدريب الوثائق والبيانات الصينية في تعزيز خوارزمية التعلم.

    وهناك اعتبار آخر هو عدد من المطورين عالم صيني، حجم البيانات، المستخدمين كتلة الجسم، إطار قدرات الدعم الفني هو التحدي. واستنادا PaddlePaddle القدرة على دعم واسع النطاق الصناعية الفرز / التوصية هي نموذج متفرق، أن تمتد PARL بايدو بسهولة إلى عشرة مليارات مستوى بيانات التدريب أو ميزات، والقدرة على تسريع هذه موازاة ذلك، أكثر انسجاما مع الاحتياجات الحقيقية للسوق الصينية.

    وبطبيعة الحال، والأداء التعلم والعوامل التي تؤثر على اختيار المستخدم تعزيز هناك العديد من مثل الأغنياء، والجودة الخوارزميات، والتنويع وذلك فائدة موارد المجتمع.

    وعموما، في هذه المرحلة تريد خفض عتبة، وهذا نموذج التعلم جيدة التسليح لفترة قصيرة في التدريب، لا يزال من الصعب جدا. ولكن كما قال أندرو نغ، "متشائم الأجل القصير والتفاؤل على المدى الطويل"، وعمق تعزيز التعلم آلة الاستخبارات والاتجاه القادم للتنمية، لا شك فيه.

    نريد الفوز في المستقبل، وكان هذا أرض مرتفعة تنافسية جديدة للذهاب للاحتلال. إطار التعلم لتعزيز الحرب سوى مقدمة، مع المشاكل العملية لصعوبة مختلفة تفوق الخيال هو كل الحلول، فإن العديد من الأمور المثيرة للاهتمام يحدث.

    المزيد من المحتوى المثير، اهتمام وسائل الاعلام التيتانيوم إشارة الصغرى (ID: taimeiti)، والتيتانيوم أو تحميل وسائل الاعلام التطبيقات

    "Disgaea" أول طبعة جديدة من الجيل تعلن تفاصيل محتوى الطبعة المحدودة

    المبادئ وتعلم آلة خوارزميات شجرة القرارات | العلوم الشعبية

    تصميم من ARM والروبوت القائم على نظام مراقبة المنزل الذكي

    لماذا مكيفات الهواء شراء لاختيار التردد؟ ما هو التردد الاختلاف والتردد المستمر

    فاز أعلى جائزة فردية صناعة الترجمة الصينية، ويمكن يانغ وو تعلم نفسك في غاية الامتنان إلى مسقط رأسه تشونغتشينغ الصعب

    سوف SNK العودة إلى السوق الرئيسي، وإدخال مجموعة من الرجعية NEOGEO

    IBM النظام المعرفي: بدءا من تطبيق الذكاء الاصطناعي لجعل الكلمة كاملة

    عندما المدرجة UCG440 الرجل صاح الكلمات

    ThoughtWorks الخبراء الفنيين شرح: على مستوى المؤسسة سلسلة كتلة تبين أن من المرح

    تو العطر للرجال تصبح شيئا باردا، وكلتا يديه العطور تلعب أيضا | حكمة كوكب

    "الأخ، وقف ذلك! "الثابتة والعتاد 10 نوفمبر قاو الصعود، خصوصا على الدستور" راديو الإنترنت "السماء كلها

    تحليل محاكاة هيكل عازلة طاقة استيعاب الوفير سيارة قبل سرعات منخفضة تصادم