بحث "القنبلة" منظمة العفو الدولية وتطوير النظام آلة التعلم التلقائي، DeepMind جعل التعلم تعزيز خوارزمية التعلم (مع أطروحة)

1 جديد الأصلي جي وون

2011 وادي السليكون معظم المستثمرين تكنولوجيا تأثيرا مارك آندرسن على "لماذا البرنامج هو الأكل العالم" صدمت هذه الصناعة. بعد ست سنوات والمتنقلة، والحوسبة السحابية والتكنولوجيا البيانات الثلاثة الكبار موجة تغيرت بقوة العديد من الصناعات.

ضربت موجة التكنولوجيا الجديدة، وهذا هو الذكاء الاصطناعي. في السنوات الأخيرة، والحرب من أجل المواهب كثفت الذكاء الاصطناعي، تعلم آلة خبراء الراتب قد ارتفعت إلى مستوى مذهل.

ومع ذلك، وقد اكتشف خبراء بارزين الذكاء الاصطناعي مؤخرا أن واحدة من أكثر المهام الصعبة - تصميم نظام تعلم الآلة نفسها، ويمكن أيضا أن يتم ذلك تلقائيا من قبل النظام AI .

مطلوب تقنية Google مع الله جيف دين قوله خلال مؤتمر عقد مؤخرا حول AI حدود، الحقل الحالي الذكاء الاصطناعي لإيجاد حل لمشكلة تقنية التعلم الآلي، الحوسبة والبيانات، ونحن يمكن أن تقلل من الطلب على التكنولوجيا في حد ذاتها ذلك؟ انه يعتقد ان هذا امر ممكن. "آلة التلقائي التعلم" واحدة من أكثر المناطق الواعدة في هذا الاتجاه هو ما جاء إلى فريق Google الدماغ تسعى حثيثا.

ووجدت الدراسة DeepMind أن التقدم في هذا المجال يمكن أيضا أن يقلل من عمق تعلم متطلبات النظام لكمية البيانات. وهذا مفيد في سيناريوهات مثل المركبات غير المأهولة.

وأشار يوشوا بيجيو إلى أن متطلبات الدراسة الحالية لحساب قوة عالية جدا (التجارب جوجل الدماغ مع ارتفاع المستوى GPU 800)، لذلك ليس من العملي جدا. ولكنه في الواقع اتجاه مثيرة.

18 يناير توم Simonite في "تكنولوجي ريفيو MIT" التي نشرت المقال "AI البرمجيات يتعلم جعل AI البرنامج"، ومجموعة من جوجل الدماغ، OpenAI، MIT، بيركلي وDeepMind من أحدث نتائج البحوث في تعلم كيفية التعلم هذا المجال.

ثم خلص تك كرانش المقالات المنشورة أنه في كثير من الحالات، أنظمة منظمة العفو الدولية لتطوير نظام AI الخاصة بهم، وقد اشتعلت مع أكثر من الخبير البشري. هذا وسوف تسريع إلى حد كبير عملية التحول الديمقراطي التكنولوجيا AI. يمكن أن يتم الافراج عن ندرة البحوث الموارد البشرية، وقال انه بدأ في دراسة قضايا أكثر أهمية.

بعد ذلك، نقوم بتحليل متعمق الأوراق ذات الصلة معا، وكانت نظرة على التقدم في هذا المجال إلى أي مدى.

تدع نفسك كتابة الخوارزمية كود

عرض بيركلي كه لي وجيتندرا مالك في ورقة قدمت في الآونة الأخيرة على "التعلم لتحسين" في دعونا خوارزمية تحسين الذات الأسلوب. وكتب الباحثون في خلاصة، و "تصميم خوارزمية هو عملية شاقة التي عادة ما يتطلب الكثير من التفكير والتحقق التكرارات. في هذه المقالة، نحن نستكشف تصميم أتمتة الخوارزمية، ويقترح طريقة لتحسين خوارزمية تلقائيا التعلم." من وجهة نظر تعزيز التعلم، كه لي وجيتندرا مالك البحث باستخدام الاستراتيجيات التعليمية لجعل التعلم AI تحسين خوارزمية، وإثبات أنهم تصميم خوارزمية متفوقة في التنمية البرمجة اليدوية القائمة في سرعة التقارب و / أو جوانب من الهدف النهائي الخوارزمية.

بذل جهود خاصة بهم لخوارزمية كتابة رمز لا تنتهي مع المجتمع الأكاديمي. العلم الشهير ومراسل التكنولوجيا ستيفن ليفي يونيو الماضي في مقال نشره في القنوات الخلفية من "جوجل كيفية إعادة اختراع نفسها على أنها" منظمة العفو الدولية لأول مرة "شركة" (كيف غوغل إعادة صنع نفسها على أنها "تعلم أولا آلة" الشركة) في رفع أن الدماغ جوجل، قال رئيس جيف دين أنه إذا تركنا له إعادة كتابة البنية التحتية جوجل، معظم رمز لا المشفرة من قبل الشعب، وتوليد تلقائيا تعلم الآلة.

"في الماضي، قد نستخدم آلة التعلم في العديد من المكونات الفرعية للنظام"، وقال جيف عميد الكلية: "الآن نحن فعلا استخدام آلة التعلم ليحل محل النظام بأكمله، وليس محاولة لجعل أفضل آلة نماذج التعلم لكل جزء. "

جوجل كود علة نظام التنبؤ، وذلك باستخدام خوارزمية التهديف، كما أصبحت على نحو متزايد يرتكب القديمة، وانهم قيمتها أقل وأقل.

وقد وضعت جوجل برنامج التنبؤ علة، وذلك باستخدام آلة التعلم والتحليل الإحصائي لتحديد ما إذا كان هناك خط من العيوب التعليمات البرمجية.

جوجل مهندس، الرئيس المشارك للW3C إيليا غريغوريك أيضا تطوير نسخة مفتوحة المصدر من أداة التنبؤ علة، تم تحميلها ما يقرب من 30،000 مرات. فتح عنوان المصدر: الشبكي: //github.com/igrigorik/bugspots

السماح وكيل تصميم الشبكة العصبية الخاصة بها

وفي الوقت نفسه، اقترح الباحثون MIT ميديا لاب الجيل التلقائي للهندسة الشبكات العصبية الأسلوب. بين ورقة "تصميم الشبكات العصبية البنى باستخدام التعزيز التعلم"، بوين بيكر وآخرون، التصميم الحالي الشبكة العصبية التلافيف (CNN) العمارة تتطلب خبرة الإنسان والعمل، وتصميم حاجة بنية جديدة للذهاب من خلال الكثير من التجارب الترميز جهة، أو من فرد معدلة من البنية التحتية للشبكة الحالية.

ولهذه الغاية، يقترحون طريقة النمذجة على أساس تعزيز تعلم CNN للجيل التلقائي للعمارة عالية الأداء وإعطاء مهمة التعلم. وكيل (وكيل) من خلال احتمال وجود الهندسة المعمارية والتصميم التكرار وجدت تحسن الأداء في المهام التعلم. على تصنيف الصور المرجعية، وكيل شبكة مصممة (من قبل طبقة التفاف القياسية، وطبقة الخلايا مرتبطة تماما طبقات فقط) باستخدام نفس طبقة الشبكة من النوع التقليدي من ينفذ تصميم أفضل مع استخدام أنواع أكثر تعقيدا من طبقات مقارنة مع هيكل، ونتائج قابلة للمقارنة.

يتم التعبير عن خوارزمية التعلم باعتباره الشبكة العصبية المتكررة

لاقول لكم جهود OpenAI في هذا الصدد.

في ورقة قدمت مؤخرا "RL2: تعزيز التعلم عبر البطيء التسليح التعلم" في، OpenAI يان دوان وآخرون، يتم التعبير عن خوارزمية التعلم باعتباره الشبكة العصبية المتكررة (RNN)، والتعلم من البيانات . وتسمى هذه الطريقة RL2، والسماح للباحثين يتم ترميز الخوارزمية في أوزان RNN، والتعلم ببطء خوارزمية RL عامة "بطيئة" ( "بطيئة") (وليس على تصميم "سريع" خوارزمية RL من البداية) .

جميع المعلومات الواردة نموذجية RNN يمكن الحصول على خوارزمية RL، بما في ذلك المراقبة، والعمل، ومكافأة العلم الإنهاء، والحفاظ على الدولة RNN في إعطاء ماركوف قرار عملية (MDP) في. RNN المخزنة تفعيل "سريع" خوارزمية RL إلى الوضع الحالي للMDP. رئيس OpenAI البحوث وايليا Sutskever بيركلي بيتر Abbeel أيضا الكتاب.

عمق تعزيز التعلم (RL العميق) لديه سلوكا معقدا من نجاح التعلم التلقائي. ومع ذلك، فإن عملية التعلم يتطلب الكثير من التجارب. في المقابل، استفادت من معرفة اختبار أول حيوان في العالم يتطلب سوى عدد قليل سوف تكون قادرة على تعلم مهام جديدة. تحاول هذه الورقة إلى سد هذه الفجوة.

واستخدم الباحثون بتقييم تجريبي لأداء RL2 في المشاكل الصغيرة والكبيرة. "على نطاق صغير، ونحن المدربين من أجل حل مشكلة ماكينات الألعاب المتعددة (مشاكل ماكينات الألعاب المتعددة) بعد بشكل عشوائي والتدريب الجيد MDP.RL2 محدودة، فإنه يظهر في العدد الجديد من MDP على مقربة من تصميم الإنسان الخوارزمية المثلى على نطاق واسع، ونحن نستخدم المستندة إلى المهام رؤية الملاحة اختبار RL2، والتوسع في مشاكل الأبعاد عالية ".

DeepMind تحاول: استخدام تعزيز التعلم، يمكن بناء آلة التعلم والتفكير

مترجم برنامج العصبية (NPI)

عام 2015، طور فريق DeepMind على "مترجم البرمجة العصبي" (NPI)، ويمكن تعديل التعلم الخاصة بهم وإجراءات بسيطة، والقدرة تعميم من تسلسل نوع لتسلسل LSTM العالي. وتصف هذه الورقة دراسة "مترجم برنامج العصبي" (العصبية مبرمج-المترجمين الفوريين)، واختير كأفضل ورقة ICLR'16.

NPI هو الشبكة العصبية الاصطناعية متكررة يمكن أن تتعلم لتوصيف البرامج وتنفيذها. وNPI هو نواة وحدة LSTM نموذج تسلسل استنادا إلى نموذج المدخلات تضم جزءا لا يتجزأ من برنامج التعلم، والمعلمات في برنامج أقره برنامج الاستدعاء وتميز ملامح من البيئة. وتشمل الوحدات الأساسية الانتاج، وهو المفتاح الذي يمكن أن تشير إلى البرنامج المقبل وسوف يطلق معلمات برنامج خوارزمية الكلاسيكية، فضلا عن البرنامج الذي يمكن أن تشير إلى ما إذا كان وقف علامة. بالإضافة إلى نواة متكررة، ويتكون الإطار NPI مزيد من الذاكرة الرئيسية يمكن أن تكون جزءا لا يتجزأ في عملية التعلم. هذا البرنامج - بنية الذاكرة للتعلم المستمر وبرنامج إعادة استخدامها في غاية الأهمية.

NPI تسلسل تسلسل تسلسل أطوال مختلفة LSTM مقارنة دقة الفرز، ويحتوي على أطول تسلسل 20 مجموعة.

NPI من ثلاثة عناصر لديها القدرة على التعلم: نواة مهمة واحدة متكررة غير معروفة، والثاني ما زال مستمرا ذاكرة البرنامج الرئيسية ويستند الثالث على مناطق محددة من التشفير، يمكن للالتشفير يكون على الاختلافات البيئية متعددة في جعل تصور واحد يوفر NPI وظائف متميزة. انخفاض مستوى التعبير من قبل برنامج الإجراء التوليف، NPI يقلل من تعقيد عينة بينما تسلسل LSTM لتسلسل بسهولة أكبر من التعميم. قبل البناء، والبرنامج على أساس البرنامج القائم على الذاكرة تعلم بكفاءة مهام إضافية. NPI قد يكون مؤقتا عن طريق حساب نتيجة وسيطة للبيئة، مما يقلل من عبء تخزين العودية وحدات مخبأة على المدى الطويل.

في ذلك الوقت، لم DeepMind فريق التدريب NPI عدم استخدام أسلوب التعلم غير خاضعة للرقابة، يمكن للنموذج تعلم فقط تركيب عدة إجراءات بسيطة، بما في ذلك الإضافات وفرزها ونموذج 3D تحويل التنظيم. ومع ذلك، يمكن NPI واحد يتعلم لتنفيذ هذه الإجراءات، فضلا عن جميع البرامج الفرعية المرتبطة 21.

الكمبيوتر للاختلاف (DNC)

أكتوبر 2016، فريق نشرت جوجل DeepMind الأوراق في الطبيعة، ويصف تصميم الكمبيوتر العصبية للاختلاف (DNC) العصبي نموذج شبكتهم. DNC ذاكرة خارجية الشبكة العصبية وللقراءة والكتابة، لا يمكن أن يؤديها كما تعلم الشبكة العصبية كعينات التدريب أو عن طريق التجربة والخطأ، ولكن نفس العملية على أنها بيانات الكمبيوتر التقليدية.

في التجربة، يمكن DNC فهم علم الأنساب، وتحسب في غياب معرفة مسبقة الطريق الأسرع بين محطتي مترو أنفاق لندن، ولكن أيضا من أجل حل لغز المتاهة. وعلق الباحث الألماني هربرت جايجر أن هذا هو نظم الحوسبة العصبية حاليا أقرب إلى جهاز الكمبيوتر الرقمية، والتي من المتوقع لمعالجة نتائج معالجة المشاكل رمز الجهاز العصبي.

العمارة DNC

كتب الملخصات المؤلف، تماما كما جهاز كمبيوتر تقليدي، DNC ذاكرة خارجية يمكن استخدامها لوتميزت هياكل البيانات المعقدة والتلاعب بها، ولكن في الوقت نفسه، ومثل الشبكات العصبية، يمكن للبيانات أن تفعل ذلك من المدرسة. "بعد استخدام التدريب التعلم تحت إشراف، DNC يمكن بنجاح الإجابة مشكلة الاصطناعية ...... يمكن أن تتعلم لإيجاد أقصر مسافة بين نقطة محددة من الطريق، يستنتج عدم وجود مهام الاتصال من بين الخريطة بشكل عشوائي، ثم بعد هذه القدرة بان التكنولوجيا، لنقل الرسم البياني معين خرائط، علم الأنساب، وما إلى ذلك بعد استخدام تعزيز التعلم والتدريب، DNC يمكن الانتهاء من لعبة تتحرك اللغز، الذي تسلسل الرموز سيعطي المتغيرة باستمرار أهداف اللعبة. وباختصار، تشير نتائجنا وDNC أن حل عقدة، والقدرة المهام منظم، هذه المهام ليست ذاكرة خارجية للقراءة والكتابة الشبكات العصبية لا يستطيع أن يفعل ".

تعلم العمق يوان التعزيز (عميق التعلم الفوقية التعزيز)

في الآونة الأخيرة، والباحثين DeepMind تعاونت أيضا مع علماء الأعصاب اقترح UCL خوارزمية بحيث "التعلم تعزيز التعلم" (التعلم لتعزيز تعلم). في السنوات الأخيرة، وعميق لتعزيز التعلم (RL) نظام اكتسب الأداء فوق طاقة البشر في العديد من المهام تحديا في هذا المجال. ومع ذلك، فإن القيد الرئيسي من هذا التطبيق هو أنها تتطلب الكثير من البيانات التدريب. ولذلك، فإن مفتاح الهدف الحالي هو تطوير التكيف بسرعة مع المهام الجديدة من عمق طريقة DL.

"في العمل الحالي، ونحن نقدم طريقة جديدة للتعامل مع هذا التحدي، فإننا ندعو عمق يوان تعزيز التعلم . وقد أظهرت الأعمال السابقة أن الشبكة عودي (RNN) يمكن أن تدعم في سياق يوان يشرف تماما التعلم. وسوف نتقدم هذا النهج إلى الإعداد RL. وهكذا يبدو أن خوارزمية RL تستخدم نظام التدريب، ولكن قوتها تأتي من عملية RL مستقلة تماما عودي آخر. هذا مستقلة، خوارزمية RL يمكن تعلمها في أي بطريقة مختلفة من الخوارزمية الأصلية. ومن المهم، لأنه هو نتيجة لعملية الاستحواذ على التدريب، الخوارزمية في التكوين (تكوين) باستخدام هيكل التدريب الميداني. "

ورقة يصف الباحثون يثبت مجموع نقطة من سبعة في سلسلة الإثبات من التجارب المفهوم، كل تجربة للتحقق جانبا رئيسيا من عمق يوان RL. يمكن قراءة محددة https://arxiv.org/pdf/1611.05763v2.pdf (نهاية النص تنزيل)

تطوير المبرمجين تعلم الآلة معرضة لخطر البطالة؟

وبمجرد أن الجهاز القيام بهذه الخطوة، في جميع مجالات البرمجيات يمكن أن تلعب دورا، وكلها سيتم تشهد تغييرا التخريبية .

الكنيسة هي واحدة من التحديات الأساسية لآلة الذكاء الاصطناعي تعلم الإجراءات الجديدة، وإعداد البرنامج الجديد بسرعة من البرامج القائمة وتلقائيا تنفيذ هذه الإجراءات في ظل ظروف معينة من أجل حل مجموعة واسعة من المهام.

هل هذا يعني أنه حتى تطوير المبرمجين تعلم الآلة يواجهون خطر البطالة؟

الجواب هو لا، على الأقل حتى الآن - لخلق الأداء يساوي أو يتجاوز آلة برنامج تصميم الإنسان والتعلم، ويتطلب الكثير من قوة الحوسبة، مثل جوجل الدماغ باستخدام نظام التعرف على الصور التي وضعتها منظمة العفو الدولية، على الرغم من أن هزم الإنسانية، ولكنها تتطلب كبيرة مجموعات GPU، والتي هي من مجموعة متنوعة من معانيها، وكمية كبيرة من النفقات العامة.

ومع ذلك، فإن مزايا استخدام وتطوير البرمجيات AI AI واضحة، ولكن الكثير من الموارد يمكن أيضا خفض التكاليف من خلال مجموعة متنوعة من الطرق. تطوير مهمة نظام التعلم آلة لآلة، والمساعدة على حل القطاع لديها نقص حاد في الخبرات الموظفين. وأشار خبراء الصناعة AI إلى أن تطور احتياجات برامج تعلم آلة للاستثمار البشري الهائل وفي البداية، ولكن سوف تعمل على بعض الأنظمة الأخرى تعلم آلة يمكن أن يقلل كثيرا من البداية وطوال القوى العاملة عملية المطلوبة.

حاليا، والمهنيين من الأوساط الأكاديمية والشركات الناشئة حصادة وبقوة المعركة تشتد التعلم. وبالإضافة إلى ذلك، فإن آلة تصميم آلة خاصة بها يمكن تحرير الباحثين البشري، بحيث كرسوا وقتهم في حل قضايا أكثر أهمية، بدلا من مجرد استخدام مجموعات البيانات الكبيرة المتكررة تدريب نظام AI.

دعونا AI باستمرار الأمثل هناك فائدة أخرى محتملة من منظمة العفو الدولية، وهذا هو لتحسين نظام AI منحنى التعلم، وكمية البيانات المطلوبة حتى نتمكن من خفض إنتاج نتائج ذات مغزى. هذا الجانب يساعد كثيرا تعزيز تنمية الصناعات مثل التلقائي القيادة أنظمة السيارات - لتطوير تكنولوجيا القيادة الآلية، ملايين الأميال من الأميال يمكن اعتبار فقط للبدء في جمع البيانات في العالم الحقيقي - من ناحية أخرى سوف AI يقلل كثيرا من وقت إلى السوق.

ومع ذلك، كل هذه لا يمكن أن تحل محلها التكنولوجيا القضاء على خوارزميات تعلم الآلة ممكن.

[أدخل الرقم الجديد جي وون الجمهور، الورقة المشار إليها في مربع الحوار، أدخل "0124" تحميل المادة]

المواد المرجعية

  • https://techcrunch.com/2017/01/19/ai-software-is-figuring-out-how-to-best-humans-at-designing-new-ai-software/

  • https://arxiv.org/pdf/1606.01885v1.pdf

  • https://arxiv.org/pdf/1611.02779v2.pdf

  • https://arxiv.org/pdf/1611.05763v2.pdf

  • https://arxiv.org/pdf/1611.02167v2.pdf

  • https://arxiv.org/pdf/1511.06279v4.pdf

  • توظيف جديد تشى يوان

    مدير وظائف من العمليات

    الوظيفة الراتب: 36-50 وان (الراتب + مكافأة)

    المكان: بكين - هايديان

    القسم: عمليات

    تقارير: COO

    عدد المرؤوس: 2

    العمر: 25 سنة إلى 35 سنة

    الجنس: المفتوحة

    الخبرة: 3 سنوات

    اللغة: 6 (الخلفية الخارج المفضل)

    الوصف الوظيفي

  • المسؤولة عن الرعاة على نطاق واسع المعرض والعارضين لتوسيع والعملاء المحتملين، الخ، والذكاء الاصطناعي والروبوتات الاتجاه الصناعة

  • جيدة لفتح السوق، وإقامة علاقات جيدة مع العملاء المحتملين

  • عمق فهم من صناعة المخابرات والروبوتات الصناعية وظروف السوق ذات الصلة، ومواكبة ديناميات السوق

  • مبادرة مشروع للتنسيق بين الإدارات، وتنظيم التعاون بين عبر القطاعية، يكون لها تأثير جيد

  • قاد الفريق لاستكمال الهدف دوران وإدارة ومراقبة وضعية مشاريع

  • المسؤولة عن التخطيط الاستراتيجي للشركة منصة تشغيلية لوضع وتنفيذ برامج التعاون

  • متطلبات

  • شهادة جامعية، والأولوية الماجستير، يتطلب مستوى أعلى من مهارات التواصل باللغة الإنجليزية

  • لا يقل عن 3 سنوات خبرة في مجال تطوير الأعمال، والخبرة في إدارة الفريق، مألوفة مع الإدارة العامة لقطاع الأعمال

  • هناك رؤى عميقة في القضية برمتها للعلاقات العامة التقليدية، برنامج الاتصالات المتكاملة التقليدية ككل، والخطة الاستراتيجية الشاملة

  • مع فكرة السوق حريصة ومهارات تحليل العملاء دقيقة، فريق قوي القدرة على إدارة الكلية

  • إدارة الوقت ممتازة، والمرونة والقدرة على التخطيط متعددة المهام والتنفيذ المتكامل

  • هناك مجموعة واسعة من شبكة حقل TMT الموارد، وهناك تجربة التسويق الحزب فضل

  • الإعلان وسائل الاعلام والتسويق والعلاقات العامة TOP20 ويفضل ثابتة تجربة التوسع في السوق.

  • جي وون الناس new مرحبا بكم مع المثل العليا للحضور للمقابلة، والمزيد من التوظيف زيارة عدد جديد جي وون الجمهور

    الفيل جمعية هوانغ تشانغ جين: متى المادة عمق مثل الأفيون، لتمرير ما يصل؟

    سوف متعددة البلاد أو في العالم قريبا غير قادر على استخدام المدفوعات بالدولار إلى إيران أو الصين أو النفط ومن ثم إلى عهد ثمانية يوان

    شراء سيارة مستعملة يجب الانتباه إلى التفاصيل، لمنع للغش وضع غير موات!

    نسخة دراما "يوليو والهدوء" في عدسة الكاميرا، تشجيانغ بلدة صغيرة هي أفضل مكان لرحلات اليوم الوطني

    المستقبل لا رهيب، لا أفهم هذه الرهيب | الإنسان 2.0

    2018 معظم الصور الصريحة خطيرة، ومشاهدة علاج بلدي سعيدة

    حكم الاحتفاظ ستة، وقال مرة واحدة ل

    خطاب جايسون جيانغ جامعة بحيرة: وبدلا من اتباع التيار، فمن الأفضل الذاتي في صلب

    مبتدئ نصائح: كيف ترى تاريخ صنع الإطار؟

    40 عاما قصة وقت، لديك؟

    BlueRun تشو تيانيو: انظر AI منظم مع 10 عاما من المقاييس، وكيفية العثور على يونيكورن | مقابلة جديدة يوان تشي

    عرض العروض سيارة كبيرة عليه؟ وفي النهاية فإنه من المفيد وهلم جرا؟