اقترح DeepMind GQN، والشبكات العصبية هناك مجالا للخيال

لى فنغ شبكة AI تقنية استعراض: عملية فهم المشهد البصري الإنسان تبدو معقدة أكثر، الدماغ قادر على استنتاج ما لديه معرفة مسبقة من محتويات نتائج المنطق يمكن أن تغطي ولكن أيضا ما هو أبعد من شبكية العين تلقى ثراء أنماط الخفيفة. على سبيل المثال، حتى أول مرة في غرفة، يمكنك أيضا اعترف على الفور ما هي الأشياء في الغرفة، وموقفهم أين هم. إذا كنت ترى جدول مع ثلاثة أرجل أدناه، يمكنك نستنتج بسهولة أن هناك من المرجح جدا نفس الشكل ونفس المحطة الرابعة من الألوان، ولكن الآن ليس فقط في المدى المرئي. حتى لو كنت لا يمكن أن نرى في لمحة كل الأشياء في الغرفة، يمكنك أساسا تصوير الوضع العام في الغرفة، أو تخيل ما يمكن أن ينظر إلى هذه الغرفة من منظور آخر.

هذه المهام البصرية والمعرفية للبشر على ما يبدو جهد، ولكنها لأنظمة الذكاء الاصطناعي هو تحد كبير. ويتميز كبار نظام الهوية البصرية اليوم من قبل الإنسان من خلال مجموعات البيانات صورة ضخمة للتدريب. ارتفاع تكلفة الحصول على هذه البيانات، وبالذات الحاجة تستغرق وقتا طويلا لوضع كل مشهد يدويا في كل زاوية نظر كل يحدد الكائن مع التسمية. حتى في نهاية المطاف، والمشهد بأكمله هو في كثير من الأحيان سوى جزء صغير من الأشياء يمكن التعرف عليه، الأمر الذي يحد أيضا من قدرة أنظمة الذكاء الاصطناعي في تدريب هذه البيانات. كما طور الباحثون نظام آلة يمكن أن تعمل في العالم الحقيقي، ونحن نأمل أن نفهم تماما بيئتهم - مثل مكان أقرب طائرة يمكن أن يقف في؟ ما المادي هو أريكة؟ هذه الظلال التي تسببها مصدر الضوء؟ حيث من الممكن مفتاح الضوء؟

DeepMind التي نشرت مؤخرا في مجلة (ساينس) في "العصبية المشهد التمثيل والتقديم" (توصيف الشبكة العصبية وتقديم المشهد) لدراسة هذه المشكلة، وهذه المادة هي مقالات المراجعة التكنولوجيا لى فنغ شبكة AI عرض لDeepMind تجميع بلوق. الورقة اقترحوا صيغة ليطلب من GQN الشبكة (شبكة سؤال التوليدية)، الذي هو واحد من شأنها أن تسمح للآلة للتحرك في المشهد، والتدريب السلوك، وفقا لعملية نقلها جمعها، لذلك تعلم أن نفهم إطار شبكة من بيئتهم التي . مثل الأطفال والحيوانات، GQN محاولة لفهم الطريقة التي ملاحظاتهم الخاصة في العالم، وبالتالي التعلم. في هذه العملية، GQN الأساسية التي تعلمناها مثل حد كبير المشهد علمت معالمه الهندسية، و لا يتطلب وصفت أي كائنات بشرية في مكان الحادث.

يتكون GQN نموذج من جزئين: توصيف الشبكة وتوليد شبكة. لاحظ توصيف وكيل الشبكة الصورة كمدخل وتوليد متجه توصيف، وصفت هذه النواقل في الشبكة للتعرف على مكان الحادث. فإن شبكة الجيل القادم أن يكون من زاوية عرض غير المستخدمة سابقا من المشهد التنبؤ (يمكن القول أن "الخيال").

توصيف للشبكة لا يعرف شبكة الجيل للتنبؤ أي نوع من منظور، فإنه يحتاج إلى إيجاد بطريقة فعالة قدر الإمكان، لوصف بأكبر قدر ممكن من التخطيط الحقيقي للمشهد. هو ممارسة للقبض على العناصر الأكثر أهمية، مثل موضع الكائن، وتخطيط لون الغرفة بأكملها، وسجلت في توصيف موجزة الموزعة. خلال التدريب، ومولد تعلمت تدريجيا الأشياء نموذجية في البيئة، وميزات، والعلاقات بين الأشياء القواعد الأساسية. وبفضل هذا تمثيل المجموعة المشتركة "مفاهيم مثل" توصيف الشبكة سوف تكون في وضع مضغوط للغاية، وسيلة مجردة لوصف المشهد، ثم سوف مولد تجعل تلقائيا التفاصيل الضرورية الأخرى. على سبيل المثال، يمكن للشبكة أن تتميز ببلاغة عن طريق مجموعة من الأرقام يمثل "الصندوق الأزرق"، ولكن أيضا يعرف كيفية إنشاء شبكة من منظور معين لهذه السلسلة من الأرقام مرة أخرى في وقت لاحق تحويلها إلى بكسل.

البيئة العالمية DeepMind 3D في مجموعة من محاكاة تجربة السيطرة، موقف عشوائي البيئة واللون والشكل والملمس وافر من الأشياء، ومصدر الضوء هو عشوائي، لاحظ الصورة هناك العديد من الانسداد. بعد التدريب في البيئة، DeepMind تتميز الباحثون الشبكة مع GQN جديدة، لم يسبق له مثيل توصيف جيل المشهد. من خلال التجربة، أظهر الباحثون أن GQN يحتوي على الميزات الهامة التالية:

  • يمكن GQN شبكة الجيل، مع الإخلاص ملحوظا لم يسبق له مثيل من منظور جديد الى مكان الحادث جيل صورة "الخيال" لل. لمشهد معين، وتميز آفاق جديدة، وتوليد الشبكة دون أي منظور، انسداد، والإضاءة شروط معينة مسبقة، يمكن أن تتولد صورة واضحة. ونتيجة لذلك، يتم إنشاء شبكة من بيانات الصورة التعلم من العارض جيد.

  • الكائن توصيف GQN لا يتطلب أي علامة على مستوى الشبكة يمكن أن تتعلم العد، وتحديد المواقع وتصنيفها. حتى لو لم يتم إنشاء شبكة لتوصيف حجم وتوقعات GQN عن وجهة نظر الاستجواب هو أيضا دقيقة جدا، وحقيقة أن نفس تقريبا. هذا يدل على أن توصيف شبكة علم من المشهد هو أيضا دقيقة جدا، وهذا وصف دقيق للحالة المحددة التالية اللبنات السيناريو تتكون من الساحات.

  • GQN يمكن وصفها، والحد من الارتياب في القياس. في المشهد المعرفي الخاص قد تشمل بعض الشكوك، خاصة في حالة وجود أجزاء من المشهد غير مرئية، قد يكون جنبا إلى جنب مع عدد وافر من أجزاء من زاوية عرض، وتشكيل فهم كامل موحد. يظهر الشكل التالي قدرة الشبكة من خلال منظور الشخص الأول ووجهة نظر الله. ويظهر سلسلة من شبكة مختلفة عن طريق توليد نتائج التنبؤ وعدم اليقين من الطريق، وبينما يتحرك وكيل حولها في متاهة، ومجموعة من عدم اليقين النقصان. (FIG الرمادي يشير إلى موقف من مخروط المراقبة، ويشير اللون الأصفر على بعض الأسئلة موقف مخروط)

  • GQN تتميز قوي، يمكن رفع تعزيز كفاءة عينة التعلم. يتميز GQN المدمجة كمدخل، بالمقارنة مع وكيل خالية من نموذج خط الأساس، والجزء العلوي تعزيز وكيل التعليم الحالي قادر على البيانات التعلم بطريقة أكثر كفاءة، كما هو مبين في الشكل. بالنسبة للوكيل، يمكن أن ينظر إلى المعلومات التي تم إنشاؤها في الترميز شبكة كمخزن لهذه البيئات "معلومات محددة"، "الخصائص المشتركة."

باستخدام GQN، DeepMind احظ الباحثون دراسة أعلى بكثير استراتيجية الكفاءة البيانات، مقارنة مع الطريقة القياسية مثل بيانات البكسل الأصلي، الذي هو عدد التفاعلات مع البيئة فقط يستغرق حوالي ربع يمكنك الحصول على وثيقة مستوى تقارب الأداء.

ويستند GQN على هندسة متعدد الزوايا، والنمذجة توليدي، وتوقع عدد كبير من التعلم غير خاضعة للرقابة والتعلم في بناء رقة الأخير، DeepMind يصف هذا التقرير أيضا الأعمال ذات الصلة. GQN يستحدث طريقة جديدة للتعلم المشهد المادي من هذا التعاقد، وتوصيف موثوق بها. الأكثر أهمية هو لا يحتاج إلى الطريقة المقترحة أي محتوى أو مصممة خصيصا للمشروع في مجال وضع العلامات، وبالتالي فإن نفس النموذج يمكن استخدامها في العديد من بيئات مختلفة تستغرق وقتا طويلا. بل هو أيضا قوية تعلمت العارض الشبكة العصبية، فمن الممكن لتوليد صورة منظور جديدة دقيقة للمشهد.

لكن DeepMind قال أيضا أنه بالمقارنة مع تكنولوجيا الرؤية الكمبيوتر التقليدية، GQN واجه الكثير من القيود، وحاليا نحاول فقط في السيناريوهات التدريب ولدت. ومع ذلك، وصول إلى البيانات الجديدة، والحصول على ترقية الأجهزة الجديدة، وأنها تريد أيضا أن تكون قادرة على إطار تطبيقات الشبكة GQN مستقبل الدراسة في دقة أعلى، السيناريو في العالم الحقيقي. في دراسة لاحقة، وكيفية تطبيقها على مستوى واحد أكثر مشهد GQN التفاهم هو أيضا مسألة مهمة، على سبيل المثال، قبل فترة من الزمان والمكان لطرح الأسئلة، لذلك تعلم كيفية نمذجة بعض المبادئ الفيزيائية وممارسة الحس السليم، GQN في الواقع الافتراضي، الواقع المعزز هناك أيضا فرصة للحصول على التطبيقات.

على الرغم من أن التطبيق العملي لهذه الطريقة من مسافة طويلة، ولكن DeepMind أن هذا هو من أجل تحقيق هدف فهم المشهد مؤتمتة بالكامل من خطوة هامة.

عناوين أطروحة (العلوم الطبعة): HTTP: //science.sciencemag.org/content/sci/360/6394/1204.full.pdf

عناوين أطروحة (فتح الطبعة الوصول): الشبكي: //deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

عبر DeepMind مدونة، شبكة لى فنغ جمعت AI تقنية مراجعة

كانت أجهزة التوجيه أبدا قريبة، لذلك حقا لك؟

افتتح وي الله الجمال، والتصميم الجديد وسيم إلى آفاق جديدة؟ العضو: PDD، وأنا أعلم أنك!

ما هو "الفيلم الخالد"؟ إشعار يمكن أن تجعل الناس يتوقفون عن الضحك!

نوكيا اعادة شوطا طويلا: MWC 2017 صدر مؤتمر 399 يوان قيمتها؟

ZTE ضربات الطائرات الجديدة، وهو قرص أو المسنين الوجه الهاتف؟

ختم السيارات شرائط حقا العمل؟ نتائج قياس نخذلكم نظارات

عمق التفسير: والنضوج الاصطناعي للصناعة المتحدث الذكية نذهب من هنا؟

الفرصة القادمة؟ دونغ صغيرة SA للمشاركة في عيد الحب! العضو: الأطفال لديهم القدرة على الفوز الجنوب لم لا؟

المدونات الصغيرة المستخدمين الموسيقى والصور MAX3 التعرض للتجسس و 12 دقيقة بعد "مسرحية وجه"!

أديداس أوريجينالز التي كتبها White تسلق الجبال عمل جديد NMD تريل أول تعرض مشترك صور تجسس

إذا كانت المنتجات المحلية يمكن أن نعلق أهمية كبيرة على تصميم وتعظيم الاستفادة من مشروع مشترك لدينا شيء للخوف؟

"المحرمة إصلاح مدينة الاثار" معارك مدير الشاشة الكبيرة، جنبا إلى الناس العاديين عن "مئة سنة" من الحياة