الكاتب | يانغ فان

ذبيان | جيا وى

AI تقنية الصحافة: 2020، 9 فبراير، وأهم منصة قاعة المؤتمرات AAAI 2020 بشرت في ثلاثة ضيوف في الوزن الثقيل، وأيضا مألوفة، ودعم التعلم العميق عصر الرواد الثلاثة: جيفري هينتون، يان ليكون ، يوشوا بيجيو.

في الواقع، قبل بضع سنوات، ونحن نادرا ما نرى ظلالها في المؤتمرات الأكاديمية في علوم الكمبيوتر، وقال هينتون كان حتى للغاية، في نهاية المطاف التورط في مؤتمر AAAI - بعد كل شيء، قبل عقد من الزمن، عندما الشبكات العصبية هي أيضا التيار الباحثين علوم الكمبيوتر الذين يقاومون بشكل جماعي، على الرغم من إحراز تقدم، ورقة لن يتم استقبال المؤتمرات الأكاديمية المختلفة. الآن، مع عمق التعلم ليصبح التيار الرئيسي المطلق للبحوث تعلم آلة التكنولوجيا الأساسية وتكنولوجيا الذكاء الاصطناعي لعامة الناس في 2018 جائزة تورينج حصل أخيرا على الرجال الثلاثة، وهذا هو، مساهمتها في الاعتراف (المتأخر) .

في مثل هذا اليوم من أحداث خاصة في ساعتين وثلاث العائدات منها لخطاب ثلاثين دقيقة، فضلا عن مناقشة المائدة المستديرة ثلاثين دقيقة الماضي، ومناقشات المائدة المستديرة أن يكون هنا إلى الإجابة على الأسئلة من الجمهور.

هينتون حاضر أولا، تقليديا، قبل المتحدثين على خشبة المسرح للقيام مقدمة موجزة. وقال فنسنت، واحد من اثنين AAAI 2020 برنامج كرسي Conitzer: "نحن نعلم جميعا أن الثلاثة وقعت في الجسم هو الكامل من المواهب والالتزام قصة نحن قد يكون من الصعب أن نتخيل الآن، ولكن في ذلك الوقت الشبكة العصبية في هذا الاتجاه ببساطة لا يمكن. أكثر شعبية، جيف، يان، Yoshua ثلاثة أشخاص هو في هذا الوقت لجعل عددا من الإنجازات الرئيسية. قصصهم تشجعنا على مواصلة الاتجاه الأكاديمي عرفوا أنفسهم بدلا من الوقوع في سخونة الموضوع المملوكة أعلى ".

تحدث فنسنت أيضا عن واحدة من المثير للاهتمام هينتون، هينتون الناس يقولون هذا هو خاصة بهم. ونحن نعلم جميعا أن هينتون قد يتساءل كيف يعمل الدماغ البشري، يوم واحد هينتون قال ابنته، "أنا أعرف كيف الدماغ يعمل حتى" استجابة لها كانت في: "بابا كيف تقول هذا"، وهذا تحدث أشياء ولو مرة واحدة كل بضع سنوات.

استغرق جمهور الضحك، تليها جيفري هينتون إلى المنصة وسط تصفيق. AI تقنية مراجعة تلخيص النص الكامل لخطابه على النحو التالي.

اليوم، أريد أن أقوله هو بعض البحوث التي أجريت مؤخرا وآدم، وسارة، يي-Whye القيام به معا. اليوم أنا لا أنوي التحدث عن الموضوعات الفلسفية، وسوف لا يفسر لماذا أنا لا أشارك منذ فترة طويلة، أعطيتك الحديث عن مؤتمر AAAI الدراسة مثل (يضحك الجمهور).

CNN لا تزال الانتقادات من البداية

مهمة التعرف على الأشياء، وهناك طريقتين رئيسيتين، واحدة تقوم على جزء من النموذج القديم، وسوف تستخدم وحدات، تمثيل محسوس، ولكن غالبا ما تتطلب الكثير من الميزات اليدوية للمشروع، لذلك هم عادة لا يجب أن نتعلم للحصول على عضو التسلسل الهرمي. الأسلوب الآخر هو التفاف الشبكات العصبية، التي يتم الحصول عليها تماما خلال نهاية إلى التعلم. الكائن الاعتراف بانتظام، إذا كان الكشف عن ميزة في هذا الموقف في صورة صالحة، بل هو أيضا فعالة إلى موضع آخر (ترجمة: الترجمة ثبات)، أن CNN لديهم هذه الخاصية، فمن الممكن الجمع بين الإشارات المختلفة، تعميم جيد إلى موقع آخر، والأداء الجيد.

ولكن CNN والإدراك البشري هي مختلفة تماما. الجزء الأول من خطابي اليوم قد يكون في ليان ليكون، وأنا أريد أن أشير إلى مشكلة CNN، اقول لكم لماذا CNN غير القمامة. (الجمهور يضحك)

تصميم CNN يمكن التعامل مع الترجمة، ولكنها سيئة للغاية بالنسبة للأنواع الأخرى منظور عملية التحول، مثل تدوير، وعلى نطاق و- ولكن أكثر مما نعتقد عموما هو أفضل قليلا. وهناك طريقة المعالجة لتحل محل ميزات أربعة الأبعاد أو ثنائية الأبعاد خريطة ستة الأبعاد، ولكن الزيادات الحسابية تكلف الكثير. لذلك، وتدريب الوقت CNN على استخدام مجموعة متنوعة من وجهات نظر مختلفة، وتعلم كيفية جعل تعميم نموذج لزوايا النظر المختلفة، وهذا النهج هو غير فعالة للغاية. أن لا حاجة الشبكة العصبية مثالية لقضاء القليل من الجهد الإضافي، يمكنك تعميمها بطبيعة الحال إلى منظور جديد - نتعلم كيف نتعرف على أشياء معينة في وقت لاحق، ويمكن تضخيم عشر مرات، ثم تناوب 60 درجة ويكون لا يزال قادرا على تحديد، بحيث انها مناسبة. ونحن نعلم أن رسومات الحاسوب مثل هذا، ونحن نأمل أن وضع أقرب إلى مثل هذه الشبكة العصبية.

اسمحوا لي أولا أن أشرح معادلة (ما يعادلها) وثبات (لم يتغير). نموذجية CNN، خصوصا مع مجموعة من الشبكة، واصفا ذلك يحصل لا تتغير مع تغير زاوية النظر، هو "ثبات دون تغيير"، وتميزت "التكافؤ التكافؤ" وهما شيئان مختلفان. "معادلة التكافؤ" يعني، مع تغير زاوية المشاهدة، تليها أيضا التغييرات التي تميز. وأعتقد أن في نظام الإدراك البشري، عند تغيير وجهة نظرك، واتباع نمط التغيرات النشاط العصبي، وأنا لا أقول هوية الحصول على كلمة دلالية لتغيير، يبقى من الواضح أن نفس التسمية هو مطلوب، ولكن هل توصيف الأحداث المدركة قد تتغير كثيرا. لا تتغير مع التغيرات زاوية عرض، فمن الأوزان الصدد، والوزن الترميز العلاقات بين الأشياء المختلفة. وسوف عندما يتعلق الأمر بهذا في وقت لاحق من ذلك بقليل.

CNN لم تتمكن من حل الصور. عند السماح صورة الاعتراف CNN عندما لا تفعل أي التحليلية صريحة، لا تحاول التمييز بين ما هو جزء من ما هو وما هو ليس جزءا من شيء. يمكننا أن نفهم CNN، أنها قلقة من أن مجموعة واسعة من موقع بكسل، وإنشاء أكثر وأكثر الغنية وصف بناء على ما يوجد عدد متزايد من المعلومات البيئية لكل موقع بكسل، وأخيرا، عندما وصفك هو جدا الأغنياء، كما تعلمون هناك شيء في الصورة. ولكن CNN لا تحل صراحة الصورة.

CNN التعرف على الأشياء وعلى ما يبدو أيضا وسيلة البشر مختلفون جدا، إضافة قليلا من الضجيج في الصورة، سيتعرف CNN أنها شيء مختلف تماما، ولكن نحن البشر تقريبا لا أرى أية تغييرات في الصورة. هذه الظاهرة هي غريبة جدا. في رأيي هذا هو دليل على أن الصورة الاعتراف CNN عند استخدام المعلومات ونحن البشر مختلفون تماما. هذا لا يعني أنه من الخطأ CNN، ونهج في الواقع مجرد البشري هو مختلف جدا.

أنا غير راضين مع CNN نقطة أخرى هي أنه سوف حساب المنتج نقطة من الطبقة السفلى، ثم من قبل الترجيح تستخدم لتحديد ما إذا كان لتفعيل. هذه هي عملية للعثور على فكرة، ثم تضيف ما يصل القرائن، فرضه بما فيه الكفاية فكرة، ويتم تنشيطه. هذا هو وسيلة للعثور على صدفة التنشيط، هو خاص إلى حد ما. من قبيل الصدفة الحقيقة مهمة جدا، كما هو دراسة الفيزياء هي إلى حد كبير قبيل المصادفة بين الكميات الفيزيائية المختلفة؛ من قبيل الصدفة قد تشكل كلا طرفي المعادلة يمكن بناؤها نظريا وتجريبيا. في الفضاء الأبعاد عالية إذا تحدث صدفة، بل هو كبير جدا، على سبيل المثال، تسمع "9 فبراير، نيويورك" على الراديو، وغيرها من المعلومات التي يرون عدة مرات، "9 فبراير، نيويورك "كل 9 فبراير ونيويورك، وسوف تشعر بالصدمة جدا، وهذا هو من قبيل الصدفة من الفضاء الأبعاد عالية، أمر مهم جدا.

لذلك، ونحن الآن تستخدم هذه الخلايا العصبية لا تسعى من قبيل الصدفة، ولكن الوضع آخذ في التغير، بدأنا في استخدام نموذج محول، في حين أن محول العثور على صدفة، وأنا سوف ننتظر لشرح هذا. حساب المنتج نقطة من النشاط متجهين، وهو أفضل بكثير من النهج الأصلي، وهذا هو لحساب اثنين من حركة مباراة ناقلات، إذا كان كذلك، يتم تنشيطه. محول هو مثل هذا العمل، الذي يجمع مرشح أفضل. كما أنها تجلب استجابة أفضل لهيكل التغاير وصورة من النموذج. ما يهم حقا هنا هو هيكل هيكل التغاير، التغاير من بكسل.

وأخيرا، ومعظم مشكلة خطيرة غير CNN، CNN لا يستخدم نظام الإحداثيات. عندما كنا البشر مراقبة الأمور، ويرون شكل، فإننا سوف تعطيه يفترض وجود تنسيق النظام. هذا هو سمة أساسية من الإدراك البشري. على سبيل المثال سأحاول اقناع لكم لقبول الطفل حول هذا الموضوع، ولكن ليس الكثير من وقتي، وسأحاول إقناع طفلك بسرعة، على سبيل المثال.

لأنه لا يوجد وقت للنظر في تلك تجريبي لطيفة جدا، ونحن سوف ننظر في هذه الأشكال اثنين. هذا اليسار مثل خريطة بلد ما، قليلا مثل أستراليا، ولكن اذا قلت لكم هذا الشكل ليست ايجابية، غير منحرف، يبدو أن أفريقيا. بمجرد رؤيته، مثل أفريقيا، وبدأ ذلك ويشعر أنه إذا كان صورة طبق الأصل من أستراليا مختلفة تماما. ولكننا لسنا للوهلة الأولى يمكن أن أقول أنه مثل أفريقيا، اذا قلت لكم انه بلد، فإنك سوف نرى ذلك على انه بلد.

نظرة على الجانب الأيمن من هذا الشكل، فإنه إما أن يكون الماس إيجابي للغاية أو ساحة تحول 45 درجة، بناء على ما كنت أشعر بأن ذلك، سوف تكون النظرة مختلفة تماما من ذلك. إذا كنت ترى أنها الماس، ما دام كل ارتفاع وزاوية منخفضة من اليسار واليمين قليلا يمكنك ملاحظة الفرق، ولكنك لن تلاحظ هذا ليس حق زوايا زاوية، لا مراقبة نحن نهتم هنا. وهذا هو، إذا لو أنني وضعت عليه قليلا امتدت، حتى أنه لا يوجد في زوايا الحق في الزوايا الأربع، في رأيك ما زال الماس إيجابية للغاية.

ولكن بعد ذلك، إذا كنت ترى أنها تحولت ساحة 45 درجة، ستلاحظ أن الأركان الأربعة هي بزاوية قائمة، حتى لو درجة فقط 88 من 90 درجة لتصبح، يمكنك أن ترى أن لم يعد الزاوية اليمنى ولكن في نفس الوقت، وكنت لم يعد يهمني ما إذا كانت زوايا كلا العالية والمنخفضة على يمين الجانب الأيسر من نفسه.

لذلك، وفقا لنظام اختيار تنسيق الخاصة بك، سوف تصور الداخلية الخاصة بك أن تكون مختلفة تماما. أن تصميم CNN لن تكون قادرة على تفسير هذه الظاهرة، لكل المدخلات فقط تصور واحد، ولا يتوقف هذا التصور على النظام المختار تنسيق. وأعتقد أن هذا هو المواجهة وعينه بعض الاتصالات، وهذا هو الطريق CNN والإدراك البشري هي مختلفة جدا.

أعتقد أن طريقة للقيام الرؤية الحاسوبية الجيدة هي ليراها عكس رسومات الحاسوب، هذه الفكرة يمكن أن ترجع إلى قبل فترة طويلة. يستخدم برنامج رسومات الحاسوب نموذج هرمي، وعلى غرار هيكل الفضاء، ويمثل ذلك عن طريق مصفوفة التحويل بين جزءا لا يتجزأ من داخل منظومة تنسيق عموما وكل جزء بمفرده نظام تنسيق.

لكائن كامل، فقد تلقاء نفسها، المدمج في نظام الإحداثيات، يمكننا أيضا تحديد، وكلها من كل عضو أن يكون نظام الإحداثيات الخاصة بهم. بعد كل اختيار نظام الإحداثيات، والعلاقة يمكن تحديد بين الأعضاء والعموم، وهذا هو عملية مصفوفة بسيطة؛ لجامدة، وهي علاقة خطية.

لذلك هذا هو بنية خطية بسيطة جدا، والتي يتم استخدامها في فكرة هذه الرسومات في الكمبيوتر. بالنسبة للأشخاص الذين لا رسومات الحاسوب، إذا كنت أطلب منه أن تظهر لك الأمور من وجهة نظر أخرى، وأنها لن يقول "أنا فعلا سعيدة جدا، لكننا لم المدربين من وجهة نظر أخرى، يمكنك تشغيل فقط 15 درجة "في هذه الحالة، فإنها يمكن أن تذهب مباشرة إلى أي زاوية تريدها، لأن لديهم الحقيقي نموذج ثلاثي الأبعاد، وسوف المكانية النمذجة هيكل، نمذجة العلاقة بين الأجزاء والحق كله. هذه العلاقات تتأثر تماما من زاوية عرض.

أعتقد، عندما إذا كانت معالجة الصور كائن ثلاثي الأبعاد هو عدم استخدام هذا الهيكل الرائع حقا مشكلة. سبب واحد هو أنه، في حال القيام به استقراء لمسافات طويلة، النماذج الخطية يمكن استقراء بسهولة للقيام، وكلما زاد عدد من النماذج من الصعب استقراء. ونحن قد تبحث الفتحات الخطية الضمنية، رؤية الكمبيوتر حيث أننا نعرف ما هي عليه، نظرا التحول لديه تأثير كبير على الصورة، الذي هو في الواقع هناك بنية خطية الضمني، ولكن لم نكن قادرين على مع هذا التكوين.

2019 نسخة من أحدث شبكة كبسولة

الآن أريد أن أعرض نظام معين، ويسمى اسمها مرصوف كبسولة لصناعة السيارات في التشفير. قد يكون بعض الناس كبسولات شيء قراءة المتعلقة بالشبكة، وهنا يجب أن أقول أن هذا هو نسخة أخرى من الكبسولة. كل عام وسوف تصميم شبكة كبسولة مختلفة تماما، NeurIPS ما قرأت هو عن طريق 2017، ICLR 2018 مقال باستخدام EM الخوارزمية، ثم هناك NeurIPS الجديد 2019، هو ما أريد الآن أن أعرض هذا.

لذلك، أولا وقبل كل هذه الإصدارات قبل الكبسولة يجب أن ننسى الشبكة، وأنهم مخطئون، والآن فقط هو (يضحك الجمهور). تلك مع الإصدارات السابقة من التعلم التمايز، عرفت بعد ذلك أن هذه ليست ممارسة جيدة، لقد شعرت دائما التعلم غير خاضعة للرقابة هو الحق، حتى أولئك الذين لديهم الإصدارات السابقة من الاتجاه الخاطئ، وأنهم استخدموا "أجزاء - كلها "العلاقة، والنتيجة ليست جيدة. مع "كامل - جزء" العلاقة أفضل بكثير. مع "جزء - كلها" العلاقة من الزمن، إذا كانت درجة من الحرية من حرية مكونات أقل عموما، مثل أجزاء هي نقطة، ومن ثم استخدام كوكبة من النقاط، ثم وضعه من الصعب التكهن بموقف نقطة من كوكبة كاملة تحتاج إلى استخدام الكثير من موقع نقطة، وليس من مكون واحد لتوقعات جعل الشاملة.

في هذا الإصدار الجديد، ونحن نستخدم التعلم غير خاضعة للرقابة، وكذلك مع - العلاقة "كله جزء".

نقطة البداية "كبسولة" هي لخلق المزيد من هيكل في الشبكة العصبية، ومن ثم نأمل أن هذه الهياكل الجديدة يمكن أن تساعد أفضل نموذج التعميم. وهو مستوحى أيضا من قبل CNN، وكان CNN في يان مصممة إلا نادرا، وبعض هيكل بسيط جدا، هو جعل للكشف عن ميزة يمكن نسخ بين مختلف التحول الترجمة، وكان هذا التحسن ميزة كبيرة. لذا سؤالي التالي هو، يمكننا أن نستمر في المضي قدما في هذا الاتجاه، لا يمكن وضع هيكل أكثر وحدات، حتى تتمكن من القيام الشجرة تحليل وما شابه ذلك.

ثم، فإن كبسولة تميز ما إذا كان شيء موجود، وسوف تتعلم ما يجب أن الكيان تميز ذلك، سيكون هناك بعض المعلمات لهذا الكيان. في 2019 كبسولة، وهو كبسولة النهائية والصحيحة التي سوف يكون هناك وحدة منطقية والأزرق الفاتح هو ما أقصى اليسار، ويتم استخدامه للإشارة إلى وجود هذا الكيان في الصورة الحالية، بغض النظر عن الجهة في أي مكان في منطقة صورة مشمولة الكبسولة. أن كبسولات يمكن الملتوية.

وكبسولات يكون هناك مصفوفة، أحمر الصحيح، وتستخدم لتمثيل العلاقة المكانية بين العلاقات المكانية بين الكيانات والمراقبين أعربوا عن كبسولة، أو هو هذا الكيان جزءا لا يتجزأ من المتأصلة نظام الإحداثيات ومراقب؛ حتى تعرف تتجه وكيف ذلك بكثير، حيث، وهلم جرا. وهناك أيضا ناقلات يحتوي على الخصائص الأخرى، والتي سوف تشمل أشياء مثل تشوه، وإذا كان الفيديو لتتم معالجتها، تحتوي أيضا على سرعة واللون وهكذا دواليك.

I تكرار التركيز: يستخدم كبسولة لالتقاط الخصائص الهندسية الجوهرية. ولذلك، تمثل كبسولة كائن أنه يمكن توقع بناء على عضو موقف وضعهم، والعلاقة بين الكائنات وعضو هدفها لا تتغير مع التغيرات في زاوية عرض. هذا هو أننا نريد لتخزين في أوزان الشبكة العصبية في الطريق، وهذا يستحق المعرفة المخزنة، فإنك لا يمكن الاعتماد على وجهة نظر المعرفة القيام التعرف على الأشياء.

التركيز، وفهم هذه الصفحة PPT، فهمت هذه الكبسولة الجديدة. والفكرة هنا هي أن لدينا نوعا من التشفير التلقائي، بدءا منهجه التدريبي الأول الجشع - المستمدة من أجزاء بكسل، الجزء الأكبر من الأجزاء، ومن ثم الحصول على جزء كبير من مكونات أكبر. عملية التدريب هي الجشع، أنه بمجرد الحصول على أجزاء من بكسل، وانها لن تأتي ضد إعادة اختيار بكسل والمكونات، ولكن استخدام المباشر من النتائج التي حصل عليها بالفعل، ثم ساروا إلى مستوى أعلى، في محاولة لمحاربة هذه الأجزاء في أكثر دراية ككل.

يظهر هذا التشفير PPT هو التلقائي طبقتين فك، ولكن ليس وحدة التقليدية من الخلايا العصبية التي هي كبسولات أكثر تعقيدا. دون هذا المستوى هو شيء جمعناها من المعلومات التي تم الحصول عليها صورة في كبسولات - التي يمكن اعتبارها لشرح طريقة الاستقرائي - لقد حصلت على بعض كبسولة على مستوى أدنى، ونعرف بالفعل إذا كانت موجودة، خصائص ناقلات بهم ما هو، ما هي العلاقة بين الموقف والمراقبين الآن لمعرفة مستوى أعلى من الكبسولات في أساسها. نريد كل مستوى أعلى من الكبسولة يمكن تفسير عدة كبسولة على مستوى منخفض، وهي كلها كبسولات كبسولة المقابلة لعدد وافر من المكونات، وهناك عملية التعلم.

في مثل هذا النموذج التوليدي، ونحن لا تولد البيانات مباشرة على مستوى منخفض، ولدت لنا من "البيانات على مستوى أدنى مستوى أعلى مستوى في كبسولة هو على الارجح ما التنبؤات. أولا وقبل كل ما عليك القيام به هو العثور على ناقلات المعلمة الخد الحقيبة، ثم انطلق الخط الأخضر هنا، قال استخراجها من قبل هذا الكيان هذه المعايير، وهي العلاقة المكانية بين كل قسم تتوقع عموما ومكوناتها.

إذا كانت هيئة جامدة، وأنها لا تحتاج إلى الخط الأخضر متقطع، المصفوفة المقابلة ثابتة، وإذا كائن متغير، التي من شأنها أن تكون هناك حاجة متقطع الخط الأخضر. لكل كبسولة رفيع المستوى - انتظر لحظة ساوضح كيف يتم إنشاء مثيل أنها - كل مثيل من مستوى عال بالفعل سيكون قد تم استخراج كل كبسولة من الصورة إلى كبسولة على مستوى أدنى من المتوقع قفة. هنا يتوقع حلقة بيضاوية من الساحة الحمراء ثلاث رفيعة المستوى ثلاث كبسولات كل موقف كبسولة مصنوعة من مستوى أدنى.

نحن هنا مهتما في كبسولة رفيع المستوى ينبغي أن يكون ينبغي أن يكون لها قوة تفسيرية. حتى هنا سوف نستخدم نموذج هجين. باستخدام النموذج المختلط هناك افتراض ضمني هو أن واحدا منهم هو التفسير الصحيح، ولكن عموما كنت لا تعرف ما هو الصحيح.

لقد اخترنا دالة الهدف هو السماح كبسولة رفيعة المستوى التي تنتجها النموذج الهجين، وقد لوحظ لوغاريتم في مستوى أدنى تعظيم كبسولة الشخصي احتمال. في هذا النموذج الهجين، يمكن حساب-احتمال السجل. تدريب الطريق هذه الهياكل هي العودة نشر، وتعلم كيفية جعل كبسولة رفيع المستوى إنشاء مثيل.

عندما يتم ذلك عن طريق نموذج العودة نشر، عندما مختلطة، والتي لا يمكن أن تفسر عنصر البيانات احتمال الخلفي هو ما يقرب من الصفر. لذلك عند حساب الوقت إلى الوراء، نشر، ظهر انتشار ولن الاقتراب منها، لأنها لا تملك أي تأثير، وتلك التي تقدم أفضل تفسير العناصر للحصول على أكبر عدد ممكن من الدليل، يمكنك ان تتعلم لالأمثل.

هذا هو تصميم نموذج توليدي. وتجدر الإشارة إلى أن هذا النموذج التوليدي، هناك نوعان من الأفكار. أولا، سوف يكون كل كبسولة فقط تفسير مستوى منخفض بلغ كبسولة رفيع المستوى - وهذا يخلق شجرة تحليل كل عنصر له أحد الوالدين فقط في شجرة تحليل. ثانيا، كبسولات بادرة على مستوى منخفض يمكن استخلاصها من كبسولة رفيع المستوى، ان الكبسولة من خلال موقف رفيع المستوى والتوجيه بالنسبة إلى المشاهد والموقف النسبي لعضو كامل لا ضرب المصفوفات، يتم الحصول على كبسولة فيما يتعلق المراقبة على مستوى منخفض الذين يشكلون. شيئين مهمين جدا في التغيرات منظور معالجة البصرية، فضلا عن إنشاء شجرة في التحليل، وأنها مصممة لنموذج الداخل.

أنا الآن لا تظهر كيفية التشفير، والتي هي جزء ملموس. هذه هي مشكلة صعبة جدا من التفكير، في الإصدار السابق من الكبسولة، ونحن لم بعض التشفير هندسيا بشكل مصطنع، عن كبسولة رفيع المستوى إلى التصويت لمعرفة ما إذا كانت نتائج التصويت بالإجماع، وهذا هو على وجه الخصوص صعب اكيد احقاق الحق. أمضى سارة الكثير من الوقت والجهد للدراسة هنا، على الرغم من أنها تسمح تشغيله، ولكن لا يزال من الصعب جدا.

لحسن الحظ، عندما نفعل هذه المحاولات، ظهر محول. محول يمكن أن تستخدم للغة عملية، ولكن تصميمه ذكي جدا. لذلك نحن نواجه الوضع الذي لدينا بعض الأجزاء، مثل أجزاء من المنطق العام، المنطق انها مشكلة صعبة للتعامل معها. ولكن مع محول، يمكننا محاولة لوضع كل يتم إدخال أجزاء مباشرة إلى محول، يسمحوا لأنفسهم لمسها.

كنا نموذجا محول متعدد الطبقات، وتوليد في نهاية المطاف نموذج بسيط ونموذج باستخدام الترميز المعقدة. فإن نماذج محول متعدد الطبقات تقرر ما يجب القيام به مع الاتساق، وكيفية تنظيم الأجزاء المختلفة، ونحن بحاجة فقط لايجاد وسيلة لتدريب ذلك الخط.

لتدريب محول، بشكل عام نحن بحاجة إلى الإجابة الصحيحة. ولكن هنا لا يمكنك حقا بحاجة الى الجواب الصحيح، وتحتاج فقط إلى تدريب مشتقاته، هو أن نرى الإجابة تعطى، فإنه يعطي إجابة أفضل مما هو عليه الآن. ويستمد هذا من نموذج الجيل.

في الممارسة العملية، تم استخراج كافة كبسولات لمعرفة، دخلوا في مجموعات نموذج متعدد الطبقات محول (مجموعة محول)، ومجموعات من هذا النموذج سوف تعطي كل مبلغ على مستوى منخفض من وصف التوجه كبسولة، ثم كما في هذا النموذج من قبل وتزداد طبقة، وغيرها من المعلومات في الوقت الذي تحد السياق كبسولات يتم وصف هذه النواقل. عندما وصف هذه المكونات جيدا بما فيه الكفاية بعد التحديث، حيث في آخر المتحولين طبقة منها إلى التنبؤ، والتنبؤ حيث ينبغي الكائن بأكمله.

مجموعات محول التدريب متعدد الطبقات نموذج جيد، لأن لدينا نموذج توليدي المقابلة لنموذج توليدي يمكن أن توفر المشتقات إلى محول. محول التدريب نموذج المستهدفة وأيضا تدريب صيغة نموذج، يتم إعطاء بحيث يكون عدد أعضاء الموقف الفعلي والتوجه لوحظ في ظل ظروف موقف رفيعة المستوى والتوجه للكبسولة وتوقع احتمال تعظيم. نحن أيضا تصميم داخل هيكل شجرة متفرق، وتشجيع كل مرة أنه ينشط سوى عدد قليل من مستوى أعلى مستوى في كبسولة.

لهذه المجموعة متعددة الطبقات من نموذج محول، يمكن للناس المهتمين قراءة ورقة، وأنا لا تقديم المزيد من التفاصيل.

أعتقد أن لديك الكثير من الناس يعرفون محول هو كيفية تشغيل، ولكن وقتي ليس كثيرا، في وقت قريب جدا جدا سأتحدث عنه هو كيفية تشغيل محول.

هذا هو الحال في معالجة حق الحكم، فإنه يعالج عددا من الجمل هو الحصول على ناقلات كلمة، ثم قم بتشغيل على رأس شبكة التفاف، بحيث يكون لكل ناقلات كلمة يمكن تحديثها وفقا لناقلات بالقرب منه. هذا التصميم بأكمله يمكن استخدام غير خاضعة للرقابة تعلم طريقة التدريب، تدريب يهدف إلى إعادة بناء ناقلات الكلمة التي اتخذت بعيدا.

هذا هو ما يعادل التفاف من طريقة لتصميم السيارات والترميز والمحولات هناك بعض تصميم اصطناعية أكثر تطورا: بالإضافة إلى ناقلات كلمة تؤثر بشكل مباشر على نفس المستوى وعالية المستوى بالإضافة إلى ذلك كلمة ناقلات، وسوف كل كلمة ناقلات توليد مفتاح، استعلام وقيمة. محول وفقا لحالة من صفحتي عرض PPT، وناقلات كلمة ترى الاستعلام الخاص بك، وهو متجه التي تم الحصول عليها عن طريق التعلم، ثم والنهج الرئيسية ناقلات كلمة تفعل المقارنة. إذا المتطابقة، فإنه سيتم إغلاق جزء من قيمة ناقلات المدى كقيمة الجديدة. هذه العملية هو يبحث دائما عن شيء مماثل، ومن ثم وضعها معا للحصول على توصيف جديد. محول هو مثل وضعية التشغيل الأساسي.

الآن أنا أعطيك نظرة وجنبا إلى جنب مع نموذج محول وجنبا إلى جنب مع نموذج توليدي بسيط النظام، وشجرة في التحليل، والنتائج التشغيلية على مجموعة بيانات بسيطة تنسيق.

من فضلك لا تضحك، وهذه هي عينات رقمية MNIST، وهو أمر في 1980s. حصلت على بعض العينات صعبة، وهذا النوع من الغموض. عملية تصميم نموذج I استخدام هذه للتحقق من الأفكار غير صحيحة. MNIST نماذج من هذه البيانات هو أن الطبقة الأولى هي عضو طبقة، قد تكون جزءا من السكتة الدماغية، ثم هناك طبقة كاملة، على مستوى عال من كبسولات قد تكون الأعداد الصحيحة، ولكن ليس تماما، وعدد المقابلة.

كل مكون صغير 11x11 حجم التعلم قالب الحصول عليها، وهنا أنا لن شرح بالتفصيل كيف مكونات للتعلم، لأن التعلم وكامل الرقمية في جوهرها، لذلك أنا أتحدث بشكل رئيسي حول الرقم بالكامل هو كيفية التعلم. هنا يتم تشكيل النواة مع مجموعة من نموذج توقع من مختلف مكونات كثافة بكسل من هذا النموذج، حيث يمكن أن تتحول كل عنصر من العناصر مع احيط، وهذا يعني مصفوفة موقفها تسمح الحالات المختلفة التي النتائج.

وفيما يلي بعض الأرقام، مثل نرى "4." يتم استخراج الجزء الأحمر من العضو صورة، ومن ثم إعادة بكسل التي تم الحصول عليها، والجزء الأخضر هو الجزء المستخرجة من الصورة، وهو مستوى أعلى من تفعيل كبسولة، ثم على مستوى منخفض من إعادة الإعمار كبسولة، بكسل أعيد بناؤها للحصول على ، وهذا هو، من الخطوة رفيع المستوى من الجيل خطوة. الأحمر والأخضر تداخل أصفر. يمكننا أن نرى، معظمهم من الأصفر والأحمر والأخضر ليست سوى جزء صغير من الحافة، وهذا هو القول نتائج طريقتين لإعادة بناء والفرق هو صغير جدا.

على العروض المناسبة تفعيل 24 كبسولة رفيع المستوى. هذه محتويات رفيع المستوى من الكبسولة للتعلم هي الرقمية وما شابه ذلك، يمكن أيضا أن تكون أكبر، ولا تتوافق تماما مع الرقمية.

ونحن الآن ننظر في كيفية جزءا لا يتجزأ من الأعداد الصحيحة. الرقم الرابع، خمسة شبكة 4، أي 4،5 القسم، هو جزء من نفسه، ولكن مع مختلف التحولات أفيني. بعد ذلك، كما يختلف التحول أفيني، فإنه instantiates ستكون النتيجة مختلفة جدا، وبالتالي، لا يمكن للعنصر نفسه يلعب أغراض مختلفة.

بعد ذلك، أريد أن أثبت أنه بعد تعلمت كيفية استخراج أجزاء، لمعرفة ككل، لشرح الجمع بين هذه المكونات. متجه ومن ثم هذا المستوى أعلى مستوى في كبسولة 24 تتألف من الوضع النشط خارج باستخدام تي SNE مؤامرة، أي هذه النواقل الأبعاد عالية جزءا لا يتجزأ في فضاء ثنائي الأبعاد، وأكثر مماثلة ناقلات، وهما أصغر المسافة بينهما. قبل الشكل دعوني أكون واضحا، هذه الكبسولات لم تدرس التسمية، تماما التعلم غير خاضعة للرقابة الحصول، ثم والنتيجة هي:

ومن فصل 10 فئات، مع تمييز واضح بين هذه الفئات 10، وهناك أساء تصنيف بعض. الآن إذا كنت تسمية لهم، ونحن نأخذ عينة من كل داخل الصف، تسميته كتسمية في الصف، يمكنك الحصول مباشرة MNIST 98.7 معدل دقة - هل يمكن القول أن لا يتم استخدام هذه الاطلاع على نتائج أي تسمية، فإنه يمكن القول أن استخدام 10 العلامات.

عموما، هذا يسمح مكون مع تنسيق نموذج النظام صيغة MNIST التعلم، فمن MNIST تصنيف طبيعي حدث بشكل طبيعي. الأرقام في الواقع هو مشوه MNIST، ليست ثابتة العلاقة الكلية بين عدد ومكوناته ويعتمد على عدد محدد من كل. هذا النهج هو الفعال.

ولكن هذا النهج لديه مشكلتين. المشكلة الأولى هي أن لدينا رؤية الإنسان لا يحصل مباشرة على الصورة كاملة ومن ثم معالجتها، ولكن هناك النقرة صغيرة، ثم اختر لاستخدامه لمشاهدة أي شيء. لذلك نرى الأشياء في الواقع عملية أخذ العينات، ونحن نرى أن الأمور ليست كلها عالية الدقة.

من ناحية أخرى، يعتمد أيضا على نقطة مراقبة البصرية الإنسان. لقد تم مقتنعون بأن شكل ما نراه في الوقت نفسه شهد أيضا بعض السياق. لذلك سيكون هناك مجموعة متنوعة من الوهم البصري، يمكن أن يكون إناء، وأنها يمكن أن تكون وجهين. إذا كان الأمر كذلك من الناحية النفسية، هو الملاحظة البصرية والرسوم البيانية في الخلفية، ثم وهذا النموذج هو النمذجة رسم تصور كبسولة، بدلا من نمذجة تصور الخلفيات، يريد أن النمذجة الخلفية ثم كنت بحاجة الى شيء مثل المواد النمذجة، وليس في حاجة إلى تحليل الكائن بأكمله إلى مكونات مختلفة. وهناك تباين من التشفير يمكن القيام به بشكل جيد.

لذا، إذا أن أوضح MNIST عدد في الخلفية محكم، ثم مغلفة سارة كبسولة التدريب + الاختلاف من التشفير من تأثير مزيج التشفير باستخدام فقط الاختلاف من طراز التشفير أفضل بكثير من الخلفية. وعلى الرغم من أدائها لا يقل عن خلفية الوضع، ولكن اعتقد انه اذا كنا نريد حل مشكلة الخلفية، وهذا هو نظرية صحيحة. مثل الناس، وعندما يكون هناك خلفية، وضعنا الخلفية فقط كخلفية، ليست عالية المستوى، نموذج مكون أساس النمذجة الخلفية، وذلك لأن وعلى غرار هذه النماذج باستخدام الشكل الأيسر.

مشكلة أخرى هي أن هذه المناقشات هي مجرد ثنائية الأبعاد، ولكن نحن حقا في حاجة للتعامل مع الصور ثلاثية الأبعاد. وحوكم البيانات صورة ثلاثية الأبعاد لنسخة من تصميم كبسولة قبل تصميم الشبكة سارة يان، وإن كانت أو غير قادرين على أنها محاولة بدون مساعدة من الخطوط الكنتورية للتعامل مباشرة مع حقيقية الرسومات ثلاثية الأبعاد.

ووفقا لهذه الفكرة نريد أن نفعل ذلك، نحن بحاجة لجعل الواجهة الأمامية، وهو معظم كبسولات الأساسية تمثل مكونات الجسم المنظور. الرؤية ينظر إليها على أنها الهندسة العكسية رسومات الكمبيوتر، ثم الرسومات في أول خلق الكائن بأكمله، ثم قطع الغيار وقطع المكونات، المكونات، حتى المثلث، وتقديم النهائي. وبالتالي فإن فكرة استخدام عملية الهندسة العكسية، فقط اسمحوا الجزء السفلي من التعامل مع خصائص الضوء، وشيء من هذا القبيل الانعكاس، وكبسولة رفيع المستوى كبسولة هو المسؤول عن الهندسة. أنا أتحدث عنه هنا هو أيضا مصدر القلق الرئيسي هو مستوى تجهيز الهندسة.

الآن يتم تقديم العكس في الدراسة، المستخرجة من بكسل إلى جزء ملموس. لقد قمنا بتصميم عدد من طرق مختلفة، قد يكون السطح شبكة، إشارة قد تكون معروفة الشكل الهندسي أو المقطع العرضي مع نصف مساحة، وما شابه ذلك، هناك العديد من الطرق.

النتيجة النهائية:

لتنسيق التحول ومعرفة مسبقة من شجرة تحليل يمكن دمجها بسهولة في صيغة نموذج بسيط. المعرفة في نموذج توليدي لديه ميزة مثيرة للاهتمام هو أن النموذج المعرفي الخاص بك، ومدى تعقيد التشفير الخاص بك لا تتداخل مع تعقيد النموذج التوليدي. يمكنك أن تفعل التشفير الخاص معقدة بشكل خاص، ولكن يمكن وصفها كيف قصيرة بطول أقصر، يتم تحديدها من قبل تعقيد النموذج الخاص بك من الصيغة.

ولذلك، فإن التصميم مع بنية معينة لصيغة نموذج، و(الهوية) عملية عكس ذلك ألقى مجموعات كبيرة محول. إذا كان لديك مجموعة كبيرة بما يكفي من نموذج محول، هناك ما يكفي من طبقات على تدريب بيانات كافية لتعطي أداء جيد يمكن أن يقال أن تكون شبه مؤكد.

(خطاب النهاية)

حاول هينتون للتفكير، وتكرار أن سنوات عديدة من شبكة كبسولات لديه إجابة جيدة، خطاب الأب في نهاية جهه تظهر ابتسامة سعيدة في نهاية المطاف.

سوف التالي AI تقنية الاستعراض كذلك تنظيم مناقشات المائدة المستديرة الترويكا، حتى ضبطها البقاء. يرحب المزيد من المحتوى تقرير مؤتمر AAAI 2020 القلق المستمر لنا.

طريق الحرير

هينتون AAAI2020 الكلام: شبكة أخيرا فعلت الشيء الصحيح كبسولة

CNN لا تزال الانتقادات من البداية

2019 نسخة من أحدث شبكة كبسولة

جائزة البحث سلون 2020 أعلن أن تم اختيار 16 عالما صينيا واربعة من عدد مستشفى جامعة بكين

وجهة نظر النص الكامل، AAAI المعرفة على خريطة 2020

ورقة اليوم | تعلم عينة صغيرة، تعلم الآلة، صورة واحدة defogging، كشف الأهداف عينة الصفر

8 من الحمض النووي البشري جزء من الفيروس، للقراءة الثقافية والتاريخية لمهرجان الربيع الكتاب

مدى قوة وصمة العار الاجتماعية دفعت إلى القاع؟ قراءة الكتب المالية للسنة الصينية الجديدة

كيفية إدارة العواطف، وممارسة الدماغ؟ قراءة كتب العلوم الاجتماعية للسنة الصينية الجديدة

انخفض تسليم ييوو 8 في شعرة واحدة: فتح الباب للقيام بأعمال تجارية لا كسب المال، ورسم ما؟

عقدت نوكيا مؤتمر العام الجديد الأول، والرائد الجديد مئات من الدولارات من الجهاز يتغافل شو التيتانيوم الأخبار

المهندسين ستانفورد خلق تشوه، الروبوت لينة تتردد في يهيمون على وجوههم

تينسنت ألعاب 2019 الأرباح مراجعة: المبيعات في الخارج ربع واحد من ما يقرب من 70 مليار دولار في أول أيدي عشرة من السفر العالمي تمثل خمسة مقاعد

زاك بيرك شوكة، النجاح العالمي TikTok يمكن تكرارها؟

أعلنت BMW 2019 أرباح، ما تنتصر عليه؟ | انظر أرباح

وجهة نظر النص الكامل، تحت التعلم العميق من الأوقات، OCR في سيناريوهات معقدة كيفية تحقيقه؟

إدخال عملية النابضة إضافية، LSTM معدلة بشكل طفيف، سوف يكون الأداء مقارنة محول-XL

اليوم ورقة | إعادة بناء العالم من الصور النقية ؛ تسلسل الشبكة المتكررة الهرمية ؛ الشبكات العصبية الانتباه ؛ التعرف على الكيان المسمى ، إلخ.

من عام إلى معرفة محددة للهجرة، قدم تينسنت AI مختبر في مختلف المجالات على أساس مجال آلة تحول شبكة الترجمة

واستنادا إلى المعرفة إلى جانب التقطير، 200 مرة أسرع، والكشف عن الفيديو المنطقة عرض خوارزمية

استنساخ الورقة، سواء التحليل الكمي؟

تجنيد ترتيب: الأعمال أكثر من هنا، و "الربيع خدعة" لا داعي للذعر

لم تعد الجمل المصدر والهدف مستقلة ، ويمكن للتمثيل المشترك تحسين أداء الترجمة الآلية

عادلة ودقيقة المهم أيضا! جامعة كارنيجي ميلون اقترح تعلم أساليب توصيف عادلة لتحقيق العدالة خوارزمية

لا يمكن استخدام البيانات بشكل عشوائي، العقد الجديد، لماذا يجب استخدام الشركات تبادل البيانات نموذج جديد؟

CNN لا تزال الانتقادات من البداية

2019 نسخة من أحدث شبكة كبسولة

الأحكام ذات الصلة