ستانفورد AI مختبر الإنجازات CVPR: الروبوت منصة الملاحة جيبسون بيئية، 1: 1 محاكاة البيئة الحقيقية

مذكرة لى فنغ شبكة AI تقنية الاستعراضي: صاحب البلاغ هو Xiafei وأندرو هو، بدءا من عدد العام "قلب لين شي"، يؤذن AI تكنولوجي ريفيو لطبع، والتغييرات التي أدخلت لا تغير القصد.

ونحن سعداء لتقديم المشاريع المختارة العام CVPR2018 جيبسون البيئة. وهذه مهمة رئيسية مناسبة لمنصة محاكاة الروبوت الملاحة. كنا الصادر في خط أنابيب الرسومات التقليدية على أساس الابتكار، واستخدام الشبكات العصبية كمحرك تقديم (الشبكة العصبية جعل المحرك)، مما يجعل الوصول إلى ما يقرب من البيئة الحقيقية. بواسطة ومحرك الفيزياء التكامل، يمكننا ان نفعل ذلك في الكمبيوتر 1: 1 لمحاكاة البيئة الحقيقية:

الاداءات: نحن محاكاة حيوي قسم علوم الحاسبات ستانفورد (مداخل المباني) في الطابق الأول من المشهد الحقيقي، بحيث يمكنك استكشاف روبوت الظاهري الذي لمعرفة العالم الحقيقي. وفي الوقت نفسه نستطيع "تفعيل" عدد كبير من الروبوتات مماثل في جيبسون البيئة في. مثل فيلم ماتريكس القراء قد لا تكون مألوفة مع هذا المفهوم.

بواسطة جيبسون البيئة، يمكننا وضع المشهد الحقيقي (مثل منازل عائلة والمدارس والمكاتب) الافتراضية لانقاذ الكثير من الموارد في الروبوت التدريب في العالم الحقيقي. من ناحية أخرى، يمكن أن نضع بيئة تدريب الروبوت الظاهري المنتشرة في البيئة الحقيقية. وهذا يوفر أساسا قويا لتحقيق تعزيز التعلم الحقيقي. حاليا كان جيبسون البيئة مفتوح المصدر تماما، هي مرحلة الاختبار بيتا. يمكن للقراء المهتمين استخدام الشفرة المصدرية لدينا في موقع المشروع.

موقع المشروع: HTTP: //gibson.vision

ورقة: HTTP: //gibson.vision/Gibson_CVPR2018.pdf

عنوان جيثب: الشبكي: //github.com/StanfordVL/GibsonEnv

وصف الفيديو: الشبكي: //www.youtube.com/watch = KdxuZjemyjc؟

I. الخلفية

منذ عام 2016، مع صعود عمق تعزيز التعلم، بدأ التركيز على البحوث في رؤية الكمبيوتر إلى التحول من نظام التحكم الديناميكي الصورة ثابتة. برز عدد كبير من منصة محاكاة بها (مثل منصة حملة افتراضية كارلا، منصة UAV الافتراضية Airsim).

الروبوتات التقليدية تميل إلى أن تكون مهمة معقدة في التصور (تصور) وحدة و(التخطيط) وحدة صنع القرار، وتعزيز التعلم بحيث يمكننا أن نتعلم أن نهاية أكثر تعقيدا للسيطرة على النهاية (نهاية لسيطرة نهاية / السيطرة الحسية)، وهذا هو، معلومات الاستشعار المدخلات، وإخراج إشارة التحكم مباشرة.

حاليا طليعة تعزيز التعلم اكتسبت في العديد من المهام نهاية ناجحة، مثل حل متاهة تعلم في اللعبة، على الرصيف متفاوتة تعلم المشي. في القيادة الآلية، صور صورت من الكاميرا، ونحن لا يمكن أن يتنبأ بشكل مباشر على زاوية عجلة القيادة والفرامل دواسة الوقود.

المهمة لمثل هذه لا يمكن تعلمها في مجموعة بيانات ثابتة (على سبيل المثال ImageNet) في. نحن بحاجة إلى تدريب وكيل في الأنواع بيئة تفاعلية ديناميكية.

هذا الرقم يشمل البيئة السائدة محاكاة الحالية، بما في ذلك الألعاب مثل الموت (VIZdoom)، سرقة السيارات الكبرى (GTA)، CARLA الطبقة القيادة، والطبقة الفيزياء Roboschool. متاهة حل ذكر سابقا، تشغيل عامل على من هذه البيئات. مع هذه النتائج، ونحن لا يمكن أن تكون وكيل تستخدم في الحياة الحقيقية، من أجل حل مشكلة السائق، الروبوت السير عليه؟

الحقائق تقول لنا ان الانتشار الفعلي للعامل في كثير من الأحيان بسبب بكسل الملحوظ مختلفة مما أدى إلى نتائج غير مرضية، والفشل حتى. مثل التدريب في سرقة السيارات الكبرى في المركبات الذاتية إلى العالم الحقيقي، ويتضح من المشهد لم يسبق له مثيل، وسوف تصبح للأسف القتلة.

لمعالجة هذه المشكلة، قمنا بتصميم البيئة جيبسون، لمعالجة منصة محاكاة غير صحيحة (photorealisitic) المشاكل. في الوقت الحاضر، فإن معظم منصات ورسومات الحاسوب أساليب المحاكاة (مثل THOR، House3D، كارلا) أساس، وذلك باستخدام هذه الطريقة غالبا ما يكون من الصعب على الهجرة إلى بيئة حقيقية. في عملنا، ونحن نستخدم تقديم (IBR) طريقة القائم على الصورة، وتربط الشبكة العصبية، لتحقيق أداء فعال وصحيح.

اسم جيبسون البيئة الأب يأتي من علم النفس المعرفي الأمريكي جيمس جيبسون. واقترح المعرفي (تصور) والعمل (العمل) مع علاقات وثيقة جدا، من خلال احتياجات مسرحية الطفل نشطة لنتعلم كيف نتعرف على مجموعة متنوعة من العناصر. الشيء نفسه ينطبق على الذكاء الاصطناعي. جيبسون البيئة القيمة العلمية هو أنه مثل هذه البيئة، بحيث عامل يمكن أن تتعلم الوعي والعمل في نفس الوقت.

الثاني، وطريقة

من أجل تقديم نظرة أكثر واقعية الصورة، رسومات الحاسوب هي أساسا اثنين من خط تقني رئيسي، هو واحد من أجل تحقيق جعلها أكثر بعناية من قبل أفضل النمذجة وراي خوارزميات البحث عن المفقودين. هذا الأسلوب هو شائع جدا في صناعة الأفلام، وعادة ما يتطلب كميات كبيرة من موارد الحوسبة والتمويل، وأنها ليست مناسبة في الوقت الحقيقي (الوقت الحقيقي) لمحاكاة البيئة.

طريقة أخرى لالتقاط الصور مباشرة من بيئة حقيقية، وتعريف المشكلة تصبح "منظور التوليف" المشكلة، أنه نظرا تم جمعها من منظور الصورة، تركيب منظور جديد لا الحصر. استخدمنا هذا النهج وطريقة التقديم لدينا، تخطيطيا للطريقة هي كما يلي:

طريقة الإدخال هو البيئة من طراز 3D (الخام) وسلسلة من منظور لجمع الصور. للحصول على أي وجهات النظر التي ستقدم، نختار ك جهات النظر حول كل بكسل من كل جهة ومن المتوقع على نموذج 3D، للحصول على سحابة نقطة ثلاثية الأبعاد. بعد ذلك، ونحن بسيط المترابط الاستيفاء لسحابة نقطة 3D، للحصول على نتائج التقديم الأولية.

3D المشتركة يختلف أسلوب نموذج الملمس جعل من أسلوب نختار المواد اللازمة لوجهات نظر مختلفة قابلة للتكيف (أقرب عرض مزيد من العينات). وعلاوة على ذلك من أجل استعادة تفاصيل أكثر الدقيقة (مثل النباتات، لا يمكن أن يتم القبض المسح الحقيقي)، ونحن نستخدم الشبكة العصبية التفاف بعد تقديم المعالجة. تفاصيل تقنية محددة يمكن الرجوع إلى الأوراق الأصلية.

آخر الابتكارات مشروعنا هو ترسيخ ترحيل مجال مستوى آلية بكسل (التكيف نطاق المستوى بكسل) لجعل المحرك منهم. F شبكتنا مرحلة ما بعد المعالجة تسمح لتقديم يبدو العالم الصورة الحقيقية مثل، في الوقت نفسه نحن أيضا تدريب شبكة أخرى ش، بحيث تبدو الصورة واقعية وكأننا نعوض.

هذا يبسط نشر الروبوتات في العالم الحقيقي: ونحن بحاجة فقط للوصول إلى الشبكة على الروبوت أجهزة الاستشعار، الروبوت مثل لوضع افتراضية "نظارات" (نظارات).

الثالث، مجموعة البيانات

في السنوات الأخيرة، مع تقدم تكنولوجيا المسح الضوئي الحقيقية، وعدد كبير من المنازل والشقق ويتم فحص الملكية العقارية وحفظها كملف الظاهري. في البداية، يتم استخدام هذا الملف بشكل رئيسي في شبكة مبيعات العقارات.

ستانفورد الرؤية مختبر (ستانفورد الرؤية مختبر) هي الأولى من نوعها البيانات المستخدمة في مختبرات البحوث. في ستانفورد 2D3DS (الرابط: http: //buildingparser.stanford.edu/dataset.html) المشروع، ومعهد جامعة ستانفورد تم مسحها ستة مبان رئيسية وقدم سلسلة من الاختراقات. بعد هذا، فإن كمية البيانات التي يتم تطبيقها على النمو الحقيقي بحوث المسح الأسي.

جيبسون البيئة يمكن مسحها محاكاة أي بيئة الحقيقية، التي تعد واحدة من المزايا العظيمة. يمكنك مسح بيتهم، ثم جيبسون البيئة الذي تولد بيئة افتراضية، وتدريب روبوت التنظيف.

في ورقة CVPR18 لدينا، وجمع والمفتوحة المصدر المسح 572 المباني (1440 طبقة). كأكبر مجموعة البيانات الموجودة، لدينا أمر من حجم مقارنة مع مجموعات البيانات المماثلة (على سبيل المثال matterport3D).

حاليا لدينا نشرت https://github.com/StanfordVL/GibsonEnv جزء صغير من مجموعة البيانات كجزء من بيئة اختبار بيتا، سيتم الافراج عن مجموعة البيانات الرئيسي في المستقبل القريب.

رابعا: مناقشة

في هذه الورقة، ونحن نبذل قصارى تقديم اختبارات مختلفة، بما في ذلك الفجوة السرعة، والصور الحقيقية، فضلا عن نجاح ترحيل مجال تحقيق، يمكن للقراء المهتمين الرجوع إلى مقالنا. ولكن نظرا لضيق الوقت، CVPR في المادة ونحن لم يفعل التجارب على الروبوت، في الآونة الأخيرة نقوم به هذه التجارب، بما في ذلك الملاحة الدلالي، وبناء خريطة الدلالي والتعمير يحركها هدف وغيرها من المهام.

خمسة، ROS تجريبي

لأن التطبيق لالروبوت، ونحن جيبسون متكاملة محاكاة البيئة ونظام الروبوت التشغيل، ومستخدمي ROS قد مريح أن تستخدم جهاز محاكاة بيئية جيبسون لمحاكاة أو إدخال الكاميرا كينيكت. وفيما يلي عرض بسيط باستخدام محاكاة للFIG جيبسون بناء روبوت (الخرائط) أ.

طريق الحرير