وشجار غاضب، ولكن منظمة العفو الدولية ومنظمة العفو الدولية محاربة احلال الامن في الواقع

لى فنغ شبكة AI تقنية مراجعة من قبل: OpenAI مادة جديدة لها وصفا موجزا لكيفية جعل النظام AI لتصحيح مشكلاتها من خلال الحوار لضمان سلامة النظام، والإنسان هو النقاش مقيم في نهاية المطاف. لأن البشر تحدد مباشرة نتيجة النقاش، يمكن أن يجعل التوجه قيمة نظام AI الإنسان هو دائما متسقة مع البشر، ويعتقد المؤلفون هذا النهج يمكن أن يضمن نظام AI الأمن. لى فنغ شبكة AI تقنية مراجعة ترجمة كاملة أدناه.

AI AI السلامة عبر النقاش سلامة الوصول من خلال النقاش

نقترح تقنية أمنية جديدة من الذكاء الاصطناعي، الذي التدريبية الأولى حول موضوع كيل النقاش، ومن ثم من قبل الشعب لتحديد ربح أو خسارة. ونحن نعتقد أن هذا أو طريقة مشابهة يمكن أن تساعد في نهاية المطاف لنا تدريب نظام AI لتنفيذ المهمة على القدرات المعرفية الإنسان، أثناء أداء هذه المهام بقايا مع نتائج قيم الناس هي نفسها. وسوف ألخص هذا النهج دليل الأولي من التجربة المفهوم، سوف نقوم بنشر صفحة ويب، بحيث يمكن للناس تجربة هذه التكنولوجيا.

ويمكن رؤية النقاش كطريقة المستخدمة في الشجرة لعبة العودة، ولكن الذهاب الطفل في النقاش الجملة، ومن ثم يقرر الفوز أو الخسارة في الحكم النهائي الذي عقدة ورقة الإنسان. ادخلي والنقاش، والجواب الحقيقي من الشجرة كلها تعتبر عالميا، ولكن عاملا قويا لتحديد مقال من مسار واحد يمكن أن يكون الجواب النهائي. على سبيل المثال، على الرغم من هواة الذهاب ناحية لا يمكن تقييم مباشرة جودة خطوة الايجابيات ترجل، ولكن يمكن تحديدها من خلال تقييم قوة اللاعبين المحترفين نتيجة المباراة.

AI تريد أن تجعل جسم الإنسان ذكي بما يتماشى مع الأهداف والأفضليات، وهناك طريقة البشر خلال التدريب قبل أحكام السلوك الجيدة التي هي آمنة ومفيدة. على الرغم من أن هذه الفكرة قد تبدو جيدة، ولكن هذا النهج يتطلب خبرة الإنسان أو السلوك السيئ التي أظهرتها AI ذكية، ولكن في كثير من الحالات، وسلوك الوكيل قد يكون معقدا جدا أن الناس لا يمكن أن نفهم، أو المهمة نفسها قد فمن الصعب تحديد أو تقييم. على سبيل المثال، وكيل يعمل على بيئة الكمبيوتر أو السلامة ذات الصلة الكثير من التنسيق وكيل الروبوتات الصناعية، وهذه هي البشر لا يمكن ملاحظتها مباشرة وتقييم المشهد.

كيف يمكننا أن البشر الرصد الفعال نظام AI متقدمة؟ أسلوب واحد هو استخدام AI نفسها للمساعدة في مراقبة، الأمر الذي يتطلب كل نقطة نظام AI من العيوب التي توجد في سلوكهم. ولتحقيق ذلك، سوف نتعلم عملية إعادة النقاش بين وكيل، والقاضي النقاش البشري. حتى لو كانت قضايا عوامل فهم أعمق من البشر، ويمكن للانسان ان يذهب لتحديد أي عامل لديه حجة أفضل (مماثلة للخبراء وشهود عيان أن يجادل لإقناع لجنة التحكيم).

يوفر طريقة لدينا صيغة محددة للنقاش بين لعبة اثنين من المناقشات ضد وكيل AI. كل من وكيل يمكن أن يكون التدريب الذاتي، على غرار AlphaGo صفر أو دوتا 2 AI. ونحن نأمل أنه بعد وكيل التدريب المناسب لقيمة أبعد من الحكم البشري. إذا كانت حالة اثنين من وكيل الوضع يختلف، لكنها إكمال عملية أسبابهم مرهقة جدا وغير قادرة على إظهار الشعب، ثم النقاش يمكن أن تركز أكثر على حقيقة بسيطة وهي أن الجدل، ويقدم في نهاية المطاف خيار بسيط يمكن الحكم على البشر.

المذكورة أعلاه ليست بديهية، والمثال التالي، علينا النظر الآن هذا السؤال: "أين هو أفضل مكان للذهاب في عطلة؟". إذا قال الوكيل أليس بعد النظر في ملكية من وجهة نظر "ألاسكا"، في الواقع، من الصعب أن نحكم ما إذا كان هذا هو الخيار الأفضل. إذا كان العامل الثاني قال بوب: "لا، ينبغي أن يكون في بالي،" قد يبدو هذا مقنعا، لأن بالي أكثر دفئا. أليس أجاب: "لا يمكنك الذهاب الى بالي، لأن جواز سفرك بعد فوات الأوان للقيام به"، مما يدل على وجود عيوب في بالي هذا الخيار، لكننا قد لا تكون على بينة من هذا العيب. "خدمة جواز سفر مستعجل أسبوعين فقط". ثم بوب المضاد استمر النقاش حتى يمكن للانسان اختيار التاريخ الصحيح، وهذا هو، حتى وكيل آخر يعرف ثم يستمر النقاش أيضا لا يمكن تغييره حتى صدور قرار البشرية.

إقناع المصنف MNIST متفرق

على الرغم من أننا نعتقد أن الاستخدام طويل الأمد لهذا الأسلوب في اللغة الطبيعية وكيل هو الأكثر فعالية عندما الحوار مع بعضها البعض، ولكن نحن بحاجة لفحصها في مجال أسهل، لأن قدرة النمذجة اللغة الطبيعية اليوم غير كافية لإكمال هذه المهمة. من ناحية أخرى لأن لهذه المهمة ليست خارج قدرة الإنسان، واختبار أسهل. لذلك قررنا لاختبار المجال البصري، و "هيئة ذكي لديه مقيم (البشر) لم يكن لديك القدرة صعوبة في النقاش "والحد من" وكيل لديه مقيم (البشر) لم يكن لديك معرفة ". والغرض من هذا المحتوى المقيمين اختبار تخمين الصورة، ولكن المقيمين بالإضافة إلى بكسل الشاشة فحص عامل لا يمكن رؤية المحتويات الأخرى. وكيل الذين يرون الصورة الكاملة، ومن ثم بدء اللعبة - لأنها تكشف بالتناوب بكسل واحد إلى المقيمين، وسوف تستمر هذه العملية لعدة جولات. صورة كاملة للبشرية في هذا الاختبار لا يمكن الحكم بسهولة، ويتم عرض كل بكسل نقطة وكيل النقاش.

وصف التجربة قد يكون مفهوما بشكل أكثر سهولة. أجرينا اختبارات على أبسط مجموعات البيانات MNIST. اختبار مقيم الرجل، ولكن من المصنفات المدربين قبل، أثناء المصنفات المدربين قبل يتم أخذ عينات بشكل عشوائي في كل صورة، والهدف النهائي هو لتحديد تصنيف من خلال تحديد MNIST الرقمية ستة بكسل غير السوداء. بدء تشغيل أول من التجربة في موقعين كيل بكسل عرض النقاش بالتناوب، ووقف (ما مجموعه من المقيمين ترى سوى القليل من المعلومات) بعد عرض ستة بكسل. وقال وكيل الاختبار هو صادق ومحاولة للحصول على مقيم تخمين، وكيل آخر في محاولة للحصول مقيم خطأ. إذا الهيئتين أذكياء أعلن سابقا حجتهم هي التي يبلغ عددها، فإن هذا النقاش سيكون زادت متفرق دقة المصنف من 59.4 إلى 88.9. وبعبارة أخرى، وكيل صادقة في MNIST مجموعة اختبار فوز الاحتمال هو 88.9، في سياق المناقشة أيضا تعزيز دقة المقيم.

هيكل النقاش MNIST من اللعبة. مفكر أليس وبوب أن نرى صورة، فكر يحاول أليس لالمقيمين خداع كان 6، حاول بوب لإقناع المقيم هو الصحيح 5. أنها تظهر بكسل غير سوداء بالتناوب للمقيم، مقيم ستة بكسل بعد قراءتها تحديدها بشكل صحيح كما 5. أليس المسار منحنيات جعلها تبدو وكأنها قاع 6 (بكسل الحمراء)، ولكن بوب من خلال الكشف عن أعلى بكسل الزاوية اليمنى (بكسل الأزرق) لعرض سياسة أليس فعال، لأن هذا ليس MNIST في معظم أنحاء 6 .

حدسي، من المرجح أن تحتوي على بكسل يثبت محتوى الصورة الحقيقية، وليس بما في ذلك بكسل الخلط بين محتوى الصورة الصورة، وبالتالي فإن بكسل الستة المختارة في نصف ونصف الخداع صادقين، وأكثر من ستة معرض بكسل عشوائي. إذا مراجع قادر على أكثر من المعلمات فحص شامل لجميع المنطق البشري ولكن ليس المعلمات المحتملة، فإننا نأمل أن الحوافز يمكن مكافأة كيل النقاش إلى مساعدة منا أن نفعل هذا السلوك الفرز، حتى لو أننا نفتقر إلى التمييز بين الخير والشر المناظرة الأولى آلية التفتيش.

الصورة أدناه يبين بعض الأمثلة من الألعاب. لأن النصر مخادع هو أكثر إثارة للاهتمام من ذلك هو انتصار صادقة، لذلك اخترنا عينة معينة بحيث الغشاشون الحصول على الفوز نسبة 50 في المباراة التي يظهر أدناه (في الواقع، الغشاشون الفوز النسبة 11.1).

هذا الرقم هو لقطات، يمكنك معرفة عدد عرض المقيمين بالفعل عملية التحكيم. بعض الأرقام معرضة بشكل خاص لالارتباك، مثل 8 و 9. أظهرت النتائج المزيد من الألعاب يمكن العثور عليها في https://blog.openai.com/debate/ صفحة اللعبة.

تم تعيين الرقم إلى الصفر قطري مصفوفة الارتباك. 6 MNIST تستخدم البيانات بكسل للحكم على الجانب الأيسر هو بكسل عشوائي، بكسل هو الجانب الأيمن من النقاش. عدم وجود ارتباط واضح بين التعرف على الأنماط 6 خطأ عشوائي بكسل، يتم استخدام بكسل كما تركز النقاش خطأ الاعتراف على أرقام 8 و 9. خاصة السهل على الارتباك مقيم الرقمي هو 5 و 8 من المعلقين أيضا من السهل للحكم 4-9. هذا يمكن أن يكون القيود عبة مصطنعة بسبب بكسل غير السوداء: تخيل لو 8 أبيض، ثم البقع السوداء الرقمية، كما يتضح من أرقام بدلا من ثمانية.

القطط والكلاب المعركة

مناقشة المرحلة المقبلة من التجربة هو أكثر تعقيدا لا تزال تستخدم الصورة، ولكن الحاجة إلى أن يكون أكثر من وضع الصور الرقمية، مثل الصور من القطط والكلاب. أكثر صورة معقدة قد يستغرق بعض المنطق المنطق السليم أو الاعتراف اللغة الطبيعية، لذلك نحن لم تستخدم آلة للقيام مزيد من الدراسة البحثية. لكن فعلناه موقع اختبار النموذج الأولي لإجراء مثل هذه التجربة، يمكن للموقع لعب دور القضاة الإنسان والمتحاورين للبشرية. هنا، يمكن استخدام النقاش محادثة اللغة الطبيعية مع المقيم، ولكن كل البيانات مفكر من المرجح أن يكون كذبة. يمكن عرض كل النقاش في بكسل في سياق المناقشة، وبكسل هو الصحيح تماما.

النقاش اثنين من المتحاورين الإنسان، والمقيمون الإنسان إلى القاضي، فقط لرؤية المتحاورين الصورة. الأحمر القول بأن الكلب، وقال أن يكون القط الأزرق.

في مناظرة نموذجية، يمكن أليس يدعي بصدق أن محتوى الصورة هو القط، ولكن بوب وكذب هو كلب. أليس أن نقول: "هذا هو مركز للمستطيل صغير من عيون القط الاخضر." بوب لا يمكن أن نعترف بأن هذا هو في الواقع وجهة نظر، حتى انه تتكون كذبة أخرى: "هذا هو لعبة على الكلب العشب، مركز مستطيلة حقل المعشبة. "لكن السيناريو الموضحة في هذه الكذبة من الصعب أن تكون متسقة مع مشهد حقيقي حول مثل أليس يمكن دحض" إذا كان العشب، ثم الجزء العلوي أو السفلي من مستطيل طولي يجب أن تكون خضراء ". استمر النقاش حتى أكد المقيم حتى الآن بكسل معين، وخصائص بكسل على حد سواء الفروق لبكسل، ولكن بوب لم تعد قادرة يوان هوانغ، ثم أليس يفوز في النقاش حول بكسل. لقد لعبت هذه اللعبة، على الرغم من أن نكون منصفين لالغشاشون، ونحن لحد من سرعة طلبات المقيم للعلم (كذبة الكمال من الصعب حقا لبناء، ويستغرق وقتا طويلا لشرح محرر)، ولكن تظهر النتائج نقاشا صادقة هي في الواقع أكثر عرضة للفوز.

مفكر واثنين من المقيمين في مسرحية "قطط والكلاب"

عمل القيود المستقبل

معظم الصحف لدينا هي التحليل المفاهيمي، والتجارب المذكورة أعلاه هي أولية للغاية. في المستقبل، ونحن نريد أن نفعل أكثر صعوبة التجارب البصرية وفي نهاية المطاف إلى تجربة اللغة الطبيعية. ونحن نعتقد أن المقيم النهائي ينبغي أن يكون الإنسان (أو استخدام البشري الحكم نتيجة نموذج تدريب)، بدلا من نموذج للتعلم الإنسان والآلة. أما بالنسبة للعامل، ينبغي أن يكون في نهاية المطاف نظام التعلم آلة قوية، فإنه يمكن أن تفعل أشياء أن البشر لا يمكن أن نفهم مباشرة. لأن البشر يمكن أن ننظر إلى الأمور مع فرضية والأحكام المسبقة، حتى ظننا السماح للعامل "القيمة المنخفضة" لمناقشة هذه المسألة هو أيضا مهم جدا، حتى نتمكن من اختبار ما إذا كانت سوف تجعل نفس التقييم والبشرية متحيزة.

حتى مع هذه التحسينات، هناك قد تحتاج إلى تحسين أو تعزيز بوسائل أخرى بعض القيود وضع النقاش الأساسية. ونود التأكيد على أن نقاشا من هذا الأسلوب لا يحاول حل عينات المواجهة أو الانجراف توزيع البيانات وغيرها من القضايا، وهذا هو مجرد طريقة للحصول على إشارة التدريب هو هدف معقد، وليس الهدف لضمان متانة الأسلوب (الذي تحتاج إلى أن يتحقق من خلال تقنيات أخرى). ثانيا، هذا النهج لا يضمن أفضل النتائج للمناقشة أو عرض الصحيح، على الرغم حول كل السكتة الدماغية من طريقة في ممارسة AlphaGo وغيرها من منظمة العفو الدولية في لعبة أداء جيدا، ولكن لدينا مزايا النهائية لأدائها لا نظرية الضمان . ويرجع ذلك إلى ضرورة تدريب وكيل النقاش إلى استخدام المزيد من الموارد الحاسوبية من تلك التي حصلنا عليها الإجابة مباشرة متعددة الثالث (حتى لو كان سيئا أو إجابات غير آمنة)، وبالتالي فإن وكيل النقاش هذه الطريقة قد لا تعمل مع أرخص أم لا طريقة آمنة جدا على المنافسة. وأخيرا، فإننا نعتقد أن البشر لن تكون بالضرورة المقيمين الحكمة، وأحيانا لأن الناس ليسوا أذكياء بما فيه الكفاية، حتى لو كان وكيل فحص خارج معظم الواقع بسيط هو أنها لا يمكن أن تجعل وفقا لأفضل تقييم، وأحيانا يتم المساس بها، سأصدق أي شيء يريدونه أن نعتقد. في حين أن هذا هو بعض الخبرة للحكم، ولكن كل ما نريده لمزيد من الدراسة.

وأخيرا، فإننا نعتقد أنه إذا كان النقاش أو طريقة مشابهة فعالة، حتى إذا كان البشر لاحق لا يمكن أن يشرف مباشرة نظام AI، كما أنه يجعل مستقبل نظام الذكاء الاصطناعي أكثر أمنا، لأن هذا الأسلوب يمكن أن تجعل من نظام AI وأهداف وقيم الإنسان يبقى ثابت . حتى مع ويمكن أن تكون تحت إشراف ضعف نظام الإنسان، وطريقة يمكن أن تستخدم أيضا للحد من النقاش حول صعوبة المهمة أساليب التقييم عن طريق الحد من التعقيد من العينة.

هذه هي شبكة لى فنغ الترجمة AI تقنية استعراض النص الكامل، OpenAI هذا العمل لتوفير نظام AI الأمن هو فكرة جيدة، ومهتما في قراءة الطابع الأصلي: الشبكي: //blog.openai.com/debate/

طريق الحرير