والد Keras "دراسة أربعة اتجاهات التكنولوجيا الكبرى، في العمق"، وآلة للباحث جوجل تفكيك دراسة مستقلة

1 جي فاز تجميع جديد

Keras الكاتب، المؤلف "بيثون التعلم العميق"، وهو كتاب فرانسوا Chollet على بلوق الكشف عن محتويات كتابه الخاص، لمناقشة مستقبل التعلم العميق:

ونظرا لعمق فهمنا للشبكة العصبية، بما في ذلك القيود المفروضة عليها، وكذلك التمكن من الصورة الحالية للبحث، يمكننا التنبؤ سواء في المدى القصير، وعمق التعلم سوف نذهب من هنا؟ وفيما يلي بعض من التفكير شخصية بحتة. حاجة لتحديد أنني لا أملك كرة بلورية، لذلك قد يكون والكثير من التنبؤ لم تتحقق. هذا هو بلوق المضاربة البحتة. السبب في أنني أحب أن مشاركة هذه التوقعات، وليس لأنني أتوقع أنه ثبت أن يكون صحيحا تماما في المستقبل، ولكن، في الوقت الراهن، فهي مثيرة جدا للاهتمام وممكنا.

على القمة، وأعتقد أنه لديه القدرة على الاتجاهات الرئيسية هي:

  • أقرب إلى نموذج برنامج الكمبيوتر للأغراض العامة مبنية على العصبية مختلفة من لحظة بعيدا البدائيون طبقة الشبكة أكثر ثراء، وهذه هي الطريقة التي سوف تحصل المنطق ومجردة، وهذا هو نقطة الضعف الأساسية في النموذج الحالي.

  • السماح أشكال جديدة من التعلم لتحقيق ما ورد أعلاه - يسمح هذا النموذج للحصول على مزيد من التنمية، لا تقتصر فقط إلى تحول مختلفة.

  • المهندسين تحتاج نموذج التدخل أقل البشري، وتعديل ما لا نهاية مقبض التحكم (المقابض) لا ينبغي أن تكون وظيفتك.

  • إعادة استخدام ميزة التعلم قبل والهندسة المعمارية منهجية؛ على أساس نظام والوظائف الفرعية وحدات والفوقية التعلم القابلة لإعادة الاستخدام.

  • أبعد من ذلك، لوحظ أن ما سبق ذكرها ليست محددة في التعلم تحت إشراف - هذا يتم تقديم الخدمات الأساسية حاليا دراسة متعمقة، ويمكن تطبيقها على أي شكل من أشكال التعلم الآلي، والتعلم غير خاضعة للرقابة بما في ذلك، supervision.The التعلم، والتعلم التعزيز، وهلم جرا. العلامة الخاصة بك أو من أي تدريب تبدو عصابة الخاص مثل ليست مهمة كيف جذريا. هذه مختلفة فرع تعلم الآلة مجرد جوانب مختلفة من نفس الهيكل.

    الخوض دعونا إلى الأعماق.

    هذا البرنامج نموذج

    كما ذكرنا في السابق بلوق، في مجال تعلم الآلة، وهو تغيير ضروري يمكننا أن نتوقع هو: الحصول من التعميم ونمط الاعتراف المحلي يمكن القيام به فقط، وتكون قادرة على أداء نموذج التفكير المجرد، والتي يمكن الحصول تعميم المدقع. AI حظة البرنامج، وكان إلى حد كبير شكل قدرات التفكير هي الثابت تلوينها من قبل مبرمج الإنسان: على سبيل المثال، اعتمادا على خوارزمية البحث، وشكل رسوم بيانية تشغيل منطق البرمجيات.

    على سبيل المثال، في DeepMind برنامج AlphaGo، والتي تبين أن الغالبية العظمى من "ذكية" مصممة من قبل المبرمجين المحترفين والثابت ترميز الانتهاء (على سبيل المثال، مونت كارلو شجرة البحث). يحدث التعلم فقط في وحدة نمطية معينة الرقيق (شبكات القيمة وسياسة الشبكة) من البيانات. ومع ذلك، في المستقبل، قد تكون قادرة على إكمال الدراسة، دون أي مشاركة الإنسان هذه النظم AI.

    لتحقيق هذه الفكرة، ما هي القنوات؟ النظر في الشبكة العصبية --RNN المعروفة. وهذه النقطة هي أن القيود المفروضة على الشبكة العصبية نسبة RNN feedforward (شبكات Feedforward) هي أقل من ذلك بكثير. لأن هذا هو، RNN ليست مجرد التحول الهندسي. ضمن دورة واحدة، تطبيق التحول هندسي تتكرر RNN.

    دورة الزمن نفسه هو الثابت تلوينها من التطور شخص الإنسان: من المفترض أن يتم بناء الشبكة. وبطبيعة الحال، RNN لا تزال محدودة جدا من حيث أنها يمكن أن تكون ممثلة، ويرجع ذلك أساسا تنفيذ كل خطوة يزال مجرد التحول الجزئي الهندسي، ويتم نقل المعلومات من خطوة إلى خطوة أخرى هي عن طريق الفضاء الهندسي المستمر (ناقلات الدولة) في نقطة. الآن، تخيل سوف تكون مشابهة لالأوليات برمجة الشبكات العصبية (مثل لحلقة) وسيلة "المعززة"، ولكن هناك ما هو أكثر من مجرد ذكرى هندسة الثابت تلوينها من الصعب تلوينها حلقة، ولكن مجموعة كبيرة من البرامج البدائية، جعل نموذج يمكن التلاعب بحرية لتوسيع وظائف معالجة، مثل فروع والبيانات، يتم إنشاء المتغيرات، على المدى الطويل الذاكرة، قرص التخزين والفرز المشغل، والهياكل المتطورة البيانات (مثل القوائم والرسوم البيانية والجداول التجزئة) وهلم جرا. برنامج الفضاء نيابة عن شبكة من هذا القبيل يمكن أن يكون أكبر بكثير من مدى عمق الحالية التي يمكن التعبير عنها في وضع التعلم، يمكن لبعض البرامج تحقق أعلى قدرة التعميم.

    جميع في كل شيء، وسوف يكون بعيدا عن راحة يدك، "الثابت ترميز خوارزمية ذكية" (البرمجيات، والخط)، ويدا "لتعلم الهندسة الذكية" وسيلة (التعلم العميق) هو. بدلا من ذلك، سوف نقدم وحدة خوارزمية الهجين الرسمية، والذي يوفر القدرة على التفكير المجرد، وفي الوقت نفسه، يمكن للمرء أن النموذج الهندسي توفير قدرات الحدس والتعرف على الأنماط غير الرسمية. سيقوم النظام بأكمله تكون قادرة على القيام لا حاجة، أو كمية صغيرة من التعلم المعنية في حالة الإنسان.

    وأعتقد أنه قد تحصل مجال الفرعية ذات الصلة من منظمة العفو الدولية هو التطور السريع للبرنامج (تكوين البرنامج) شامل، ولا سيما برنامج متكامل الشبكة العصبية. برنامج شامل هو استكشاف عدد كبير من البرامج الممكنة باستخدام خوارزمية البحث (ربما البحث الجيني، مثل البرمجة الجينية) لتوليد تلقائيا إجراء بسيط. عندما تجد البرنامج يتوافق مع المواصفات المطلوبة، فإن البحث يتوقف عادة على أنها مجموعة من المدخلات - المخرجات التي ستقدم. كما ترون، سواء كان يذكرنا كثيرا التعلم الآلي: نظرا كمدخل - "البرامج" على "بيانات التدريب" المقدمة، وسوف نجد المدخلات والمخرجات مطابقة للانتاج، وللترويج ل بين مدخلات جديدة. الفرق هو أننا لا نتعلم قيم المعلمات الثابت تلوينها في برنامج (الشبكات العصبية)، وإنما لتوليد شفرة المصدر عملية البحث منفصلة.

    آمل بالتأكيد أن هذا الحقل الفرعي في غضون السنوات القليلة المقبلة سوف تستهل في موجة جديدة من الازدهار.

    على وجه الخصوص، وإنني أتطلع إلى ظهور خليط بين الدراسة فرعي العمق وبرنامج شامل، ونحن لسنا هنا لإنشاء الإجراءات العامة لغة مشتركة، ولكن مع ثروة من خوارزمية بدائية، مثل الحلقات وذلك توليد الشبكة العصبية (البيانات الهندسية تدفق العملية).

    هذا ينبغي أن يكون أسهل بكثير من توليد مباشرة شفرة المصدر، وانها ستوسع كثيرا من نطاق آلة التعلم لحل المشكلات - ونحن يمكن أن تولد البيانات المكانية نظرا برنامج التدريب المناسب تلقائيا - رمزا AI والهندسة AI الخلط. ويمكن رؤية معاصرة RNN كما سلف ما قبل التاريخ من هذه الخوارزمية نموذج هندسي الهجين.

    ما وراء ظهر انتشار والطبقات الصغيرة

    إذا كانت النماذج تعلم الآلة تصبح أشبه البرنامج، وسيكون من الصعب أن يكون للاختلاف. بطبيعة الحال، سوف لا تزال تستخدم هذه البرامج باعتبارها المستمر روتين طبقة الهندسة، والتي هي للتفاضل، إلا أن نموذج كامل لا يكون الأمر كذلك. وهكذا، في الشبكة الثابتة، الثابت تلوينها باستخدام ظهر انتشار لضبط قيمة الوزن، والمستقبل لن يكون الأسلوب المفضل للنموذج التدريب، على الأقل ليس فقط استخدام هذا الأسلوب.

    نحن بحاجة لمعرفة مدى فعالية التدريب لا يمكن مايكروسيستمز. وتشمل الأساليب الحالية الخوارزميات الجينية، "استراتيجية تطورية"، بعض أساليب التعلم تعزيز وADMM (المضاعف بالتناوب طريقة الاتجاه). وبطبيعة الحال، لن تتأثر نزول التدرج - المعلومات التدرج لتحسين المعلمات اختلاف وظيفة سوف تكون دائما مفيدة. ومع ذلك، بالمقارنة لاستخدام فقط المعلمات اختلاف وظيفة، نموذجنا بالتأكيد سوف تصبح أكثر وأكثر قوة، حتى أنها وضعت تلقائيا ( "التعلم الآلي" في "دراسة") لن تحتاج العودة نشر.

    بالإضافة إلى ذلك،-نشر الظهر اقصاه الى اقصاه، وهذا هو الشيء الجيد أن تعلم صلات جيدة التحول، إلا أن هذا الأسلوب من حساب غير فعالة، لأنه لا يمكن الاستفادة الكاملة من شبكة عميقة وحدات. لجعل الأمور أكثر كفاءة، وهناك صيغة عامة: إدخال نمطية والتسلسل الهرمي. ولذلك، فإننا يمكن أن يكون بعض من آلية التزامن من خلال تقديم وحدات تدريبية فصل، نظمت بطريقة هرمية، بحيث مكافحة نشر نفسها أكثر كفاءة. DeepMind العمل مؤخرا على "التدرج الاصطناعية" يعكس هذه الاستراتيجية. آمل أن يكون هناك المزيد من العمل في هذا المجال في المستقبل القريب.

    يمكن للمرء أن يتخيل مستقبل هذا: نماذج من جهة النظر العالمية ليست للاختلاف (جزء للاختلاف ولكن سوف تفعل معالجة الميزة)، سوف تكون هذه النماذج في مجال التدريب في النمو، واستخدام عملية بحث فعالة، دون التدرج. وفي الوقت نفسه، سوف تكون جزءا من الفرق من خلال الاستفادة من التدرج، فمن التدريب أسرع، طريقة أكثر كفاءة لاستخدام بعض من طريقة العودة نشر.

    تعلم الآلة الأوتوماتيكية ل

    وسيتم الحصول على بنية النموذج في المستقبل من خلال الجهاز نفسه والتعلم، بدلا من ناحية الترميز صممت من قبل المهندسين. سوف العمارة تعلم تلقائيا التنمية المشتركة واستخدام نموذج التعلم الآلي البدائيون أكثر ثراء وبرامج مماثلة.

    حاليا، يتم غسلها معظم المهندسين الذين يعملون دراسة متعمقة مع البيانات النصي بيثون، ثم العمارة وشديدة العمق معلمات الشبكة ضبط لفترة طويلة للحصول على نموذج صالحة للاستعمال، أو الوصول حتى إلى معظم النماذج المتقدمة، إذا كان مهندس طموحة كلمات كبيرة بما فيه الكفاية. ليس هناك شك في أن هذه ليست بيئة مثلى. منظمة العفو الدولية في هذا الصدد يمكن أن تساعد أيضا. لسوء الحظ، من الصعب جدا لأتمتة البيانات تطهير جزء منه، لأنه يتطلب عادة مجال المعرفة المتخصصة، فضلا عن العمل من المهندسين ترغب في التوصل إلى فهم واضح للارتفاع. ومع ذلك، فائقة المعلمة ضبط هو عملية بحث بسيطة، ونحن نعلم بالفعل ما المهندسين بحاجة إلى تحقيق في هذه الحالة: يتم تعريفه بواسطة دالة الخسارة إلى تعديل في الشبكة. تعيين الأساسي "AutoML" نظام للتعامل مع أكثر من مقبض النموذج هو بالفعل ممارسة شائعة. منذ سنوات، حتى أنني امتلاك واحدة مثل هذا النظام، فاز في المباراة Kaggle.

    في أبسط المستويات، فإن مثل هذا النظام ببساطة ضبط عدد من الطبقات في كومة، ترتيبها وعدد الوحدات في كل طبقة أو التصفية. هذا هو عادة استخدام مكتبة فئة مثل Hyperopt، في الفصل 7 (ملاحظة: استخدام بيثون التعلم العميق) التي نوقشت في. ولكن يمكننا أيضا أكثر طموحا، حاول أن نبدأ من الصفر مع الإطار المناسب للحد من القيود وقت ممكن. هذا يمكن أن تعزز التعلم، مثل الخوارزمية الجينية.

    الاتجاه المهم الآخر هو AutoML نموذج التعلم نموذج العمارة مع الأوزان. لأن في كل مرة حاولت بنية مختلفة قليلا، سيبدأ التدريب من الصفر نموذجا جديدا، بل هو نظام AutoML قوية حقا وضبط خصائص هذا النموذج من قبل ردود الفعل على بيانات التدريب، في حين أن العمارة الإدارة للقضاء على جميع الحوسبة زائدة يو. وقد بدأت هذه الأساليب لتظهر، لأنني أكتب رمز مشابهة.

    عندما يكون هذا كان يحدث، وسوف تعلم الآلة مهندس يعمل لا تختفي، على العكس من ذلك، فإن المهندسين ترتفع في سلسلة خلق القيمة. وسوف تبدأ العمل على تطوير وظيفة فقدان أكثر تعقيدا تعكس حقا أهداف العمل، واكتساب نظرة ثاقبة كيف نموذجهم تؤثر نشر النظام الرقمي لها - في الوقت الراهن، لن يؤدي إلا إلى أكبر الشركات النظر في هذه القضايا.

    التعلم مدى الحياة (AGI) والاستخدام المتكرر للالوظائف الفرعية وحدات

    إذا أصبح نموذج أكثر تعقيدا، وأكثر ثراء وبناء على خوارزميات بدائية، ثم هذا سوف يزيد من تعقيد الحاجة إلى مزيد من إعادة استخدامها بين المهام، وليس في كل مرة على وظيفة جديدة أو جديدة كل حاجة لبدء تدريب نموذجا جديدا لجمع البيانات. في الواقع، لا يتم تضمين العديد من مجموعات البيانات ما يكفي من المعلومات لتطوير من الصفر نماذج معقدة جديدة، الحاجة إلى استخدام المعلومات من مجموعات البيانات السابقة. مثل كل مرة تفتح سوف كتاب جديد لا تبدأ من الصفر لتعلم اللغة الإنجليزية - وهو أمر مستحيل. وبالإضافة إلى ذلك، ويرجع ذلك إلى المهمة الحالية بين المهمة السابقة وعظيم تداخل كل مهمة بدءا من نموذج التدريب الصفر هو غير فعالة للغاية.

    وبالإضافة إلى ذلك، في السنوات الأخيرة من المراقبة ويذكر أن، تدريب مع نموذج للقيام بمهام متعددة في الوقت نفسه هناك ترتبط فضفاضة، يمكن أن تنتج أداء على كل مهمة نموذج أفضل. على سبيل المثال، والتدريب مع نموذج الترجمة الآلية العصبية للقيام الانجليزية في وقت واحد - الفرنسية والألمانية الترجمة - الترجمة باللغة الإيطالية، وسوف تحصل على زوج أدوا بشكل أفضل في كل نموذج لغة. A تصنيف الصور تدريبية نموذجية وتجزئة الصور، تشترك مهمتين نفس القاعدة الإلتواء، لإعطاء الأداء على المهام هما نموذج أفضل. وهلم جرا. ومن البديهي جدا: بعض المعلومات دائما التداخل بين هذه المهام تبدو غير ذات صلة، وبالتالي، وهذا نموذج مشترك لنموذج مقارنة لتدريب مهمة محددة فقط تستطيع الدخول لمزيد من المعلومات حول كل مهمة.

    ونحن نقوم حاليا يشبه نموذج مهمة إعادة استخدامها عبر الطريق هو استخدام نموذج لأداء المهام المشتركة للأوزان ما قبل التدريب، مثل استخراج ميزة البصرية. في المستقبل، وآمل تنوعا نسخة من هذا النهج يمكن أن تصبح مشتركة: ليس فقط أننا لا الاستفادة من الميزات تعلمت سابقا (أوزان نموذج فرعي)، وأيضا باستخدام الهندسة المعمارية نموذج وبرامج التدريب. عندما تصبح نماذج أكثر وأكثر مثل هذا البرنامج، سوف نبدأ في إعادة استخدام روتين (الوظائف الفرعية البرنامج)، مثل وظيفة الإنسان لغة البرمجة (وظيفة) والفئة (الفئة).

    التفكير في عملية تطوير البرمجيات اليوم: بمجرد المهندس إلى حل مشكلة محددة (مثل HTTP الاستعلام في بيثون)، وسوف حزمه إلى المكتبات مجردة وقابلة لإعادة الاستخدام. وفي وقت لاحق، واجه مع المهندسين مشاكل مماثلة قد ببساطة القائمة بحث مكتبة، وتحميل واستخدامها في مشاريع خاصة بك. بطريقة مماثلة، في المستقبل، فإن نظام التعليم الفوقية تكون قادرة على منع مكتبة قابلة لإعادة الاستخدام العالمية عن طريق فحص متقدمة لتجميع برنامج جديد. عندما يجد النظام نفسه إلى عدة مهمة مختلفة من تطوير روتين برنامج مماثل، إذا كان هناك نسخة "مجردة" الوظائف الفرعية قابلة لإعادة الاستخدام - سيتم تخزينها في المكتبة العالمية. هذه العملية سوف يحقق القدرة على التجريد، وهو عنصر ضروري "تعميم المتطرفة" (التعميم المدقع): ويوجد في مختلف المهام والوظائف الفرعية نطاق مفيدة يمكن القول أن "مجردة" لحل بعض المشاكل الجوانب. مماثل "المجرد" (التجريد) لتعريف هندسة البرمجيات مفهوما مجردا. يمكن هذه الوظائف الفرعية (تتميز وحدة التعلم عميقة لديه المدربين قبل) أو خوارزمية هندسية (أقرب إلى البرامج مكتبة العملية مهندس المعاصرة).

    الشكل: يمكن لالبدائيون قابلة لإعادة الاستخدام (بما في ذلك الهندسة الحسابية و) التطور السريع للمهمة محددة الفوقية نموذج المتعلم (الفوقية المتعلم)، حتى أن "التعميم الشديد" (أقصى التعميم).

    خلاصة القول: إن التوقعات طويلة الأجل

    لتلخيص: وفيما يلي هو بلدي التوقعات طويلة الأجل للتعلم آلة

    • أشبه البرنامج النموذجي ، وأنه يحتوي على البيانات المدخلة إلى ما هو أبعد القدرة الحالية لدينا لاستخدام التحولات الهندسية مستمرة. يمكن أن يقال هذه البرامج لتكون أقرب إلى البشر على البيئة وتفكيرهم مجردة، وبسبب طبيعة الغنية من الخوارزمية، سيكون لديهم القدرة التعميم أقوى.

    • على وجه الخصوص، سوف نكون معا نموذج مختلط لتوفير المنطق الرسمي، ومجردة وظائف وحدة البحث الخوارزمية، وتوفر وحدة هندسية لديها وظائف الحدس والتعرف على الأنماط غير الرسمية. AlphaGo (عدد كبير من النظم وهندسة البرمجيات، والاحتياجات الصناعية صنع القرار الإنسان) تقدم مثالا مبكرا، قد تظهر بطريقة مختلطة بين الرمزية والهندسة AI.

    • وسوف تنمو تلقائيا، وليس المنتجة اصطناعيا من قبل المهندسين البشري ، المخزنة في المكتبة العالمية من مكونات وحدات قابلة لإعادة الاستخدام روتين - وهذا هو من خلال التعلم من المكتبة على آلاف من المهام السابقة ومجموعات البيانات من تطور نموذج عالية الأداء. لأنه يتم تعريف نموذج حل المشاكل المشتركة من خلال نظام التعلم الفوقية، وأنها سوف تتحول إلى الوظائف الفرعية قابلة لإعادة الاستخدام - مثل الكثير من الوظائف وفئات من هندسة البرمجيات المعاصرة - وأضاف إلى المكتبة العالمية. وهذا يتيح القدرة على التجريد.

    • سوف المكتبة العالمية ونظام نموذج النمو المصاحب تكون قادرة على تنفيذ بعض شكل إنسان مثل "تعميم المدقع": إعطاء مهمة جديدة، وضعا جديدا، فإن النظام سوف تكون قادرة على تجميع نموذج جديد وفعال لمهمة جديدة، والبيانات المستخدمة صغير جدا. ويعزى ذلك إلى: 1) برنامج غني تعميم مماثل الأصلي بشكل جيد، واثنين من ذوي الخبرة مهام مماثلة). وبنفس الطريقة يمكن للانسان ان يتعلم استخدام القليل جدا من الوقت لتعلم كيفية لعب لعبة فيديو جديدة معقدة جدا، لأن لديهم تجربة العديد من المباريات السابقة، ومستمدة من نموذج تجربة سابقة غير مجردة والإجراءات (program- مثل)، وليس حافزا أساسيا - التعيين بين العمل.

    • لذلك، ويمكن تفسير هذا النظام نموذج نمو دائم التعلم كما الذكاء الاصطناعي العالمي AGI-- . ولكن لا نتوقع أي روبوت التفرد العقيدة والوحي يأتي: فهو في الخيال، ومصدر على المدى الطويل من سوء الفهم للمخابرات والتكنولوجيا. ومع ذلك، لا تعلق هذه المادة في هذا الشأن.

    قلب مثقوب! الفاخرة مفتوحة السيارة مرة أخرى إلى الريف، لماذا الناس حول الموقف من كل هذا؟

    للاشتباه في ورطة، الاحتجاز! و!

    200000 يمكن شراء صافي SUV المستورد! التركيز على النوعية وليس يجب عليك ملكة جمال

    الشتاء هو الأكثر كلمات الحب لمس "العودة! الذهاب إلى الينابيع الساخنة!"

    لديك لسرد الملاحظات رجل جاء أخيرا | القيء التشطيب الدم

    بعد استفاد الاقتصاد الكندي من الدولار، أو أن تكون أكثر فقرا من قبل المشترين الصينيين الأغنياء، أو تم اجلاء مقدما

    L تعطيك قصائد عشرة الشعر انرون: الشاي قراءة القراءات الخفيفة، والاستماع إلى انظر تساقط الأمطار

    "قديم مدفع الأطفال باي شو بدء الأعمال التجارية، و" خارطة تشيان CCIR المعرفة لإيجاد تكنولوجيا الدردشة وكيف الأرض المالية NLP

    معظم أصحاب لا تزال في الموقع سيارة الساخنة! هذا في نهاية المطاف هو جيدة أو سيئة للمحرك؟

    جوارديولا تقييم ثاقبا ديبو لاو في كلمة واحدة: يرى الناس العاديين لا يمكن أن يرى الممر عابرة!

    يونان أواخر الخريف بشكل غير متوقع الجمال مثل هذا؟ هذه الحياة لا يشعر بالضيق مرة واحدة!

    لي تاي نعمة ملحوظة على الاعتذار للالعلبة! انه كان محظوظا، العلبة الدوري الممتاز هي أسوأ بكثير من الدوري الممتاز!