الرجل هو طبيب في المستشفى، وممرضة من الإناث؟ نموذج NLP من التحيز ضد المرأة في النهاية كم؟

مذكرة لى فنغ شبكة AI تقنية مراجعة: هذه المادة، يوني هالبيرن، ماريو Guajardo-سيسبيديس ومارغريت ميتشل (جوجل AI) أرسلت بواسطة بن باكر في 13 أبريل 2018. تتناول هذه المادة ومحاولة لفي الواقع قياس التحيز ضد المرأة مختلفة جزءا لا يتجزأ من نموذج النص. لى فنغ شبكة AI تقنية مراجعة النص جمعت على النحو التالي.

عندما تواجه مهمة، وغالبا ما تستند لدينا الممارسين للتعلم آلة على الأداء الجيد أو السيئ على المهمة لتحديد أو نموذج التدريب. على سبيل المثال، لنفترض أن نقوم ببناء نظام لتصنيف ويستعرض الفيلم إيجابية أو سلبية، وسوف نختار خمسة نماذج مختلفة لنرى كيف كل نموذج لأداء المهمة.

في ظل الظروف العادية، وسوف نختار نموذج C. على الرغم من أن تأثير من النماذج الأخرى، ونماذج C من أفضل، لكننا وجدنا أن هذا النموذج C هو أيضا الأكثر قد تكون العواطف أكثر إيجابية يعطي "بطل الرواية هو رجل"، هذه الجملة، بدلا من "الشخصية الرئيسية هي امرأة." هذه الجملة . يجب أن نعيد النظر في هذه المشكلة؟

الانحرافات في نماذج التعلم الآلي

نموذج الشبكة العصبية يمكن أن تكون قوية جدا وفعالة لالتعرف على الأنماط ويكشف عن الترجمة من اللغة، وعلم الأمراض في هيكل المهام مختلفة من اللعب. وفي الوقت نفسه، يحتوي على الشبكة العصبية (وكذلك أنواع أخرى من آلة نماذج التعلم) أيضا أشكال عديدة من المشكوك فيه الانحراف. على سبيل المثال، يتم تدريبهم على الكشف عن وقحا، وإهانة أو تعليقات غير لائقة المصنف في وجهه، "أنا مثلي الجنس" و "أنا على التوالي،" عندما هاتين الكلمتين قد يكون من الأسهل لتصل إلى الجملة السابقة، وجه نموذج تقديرا ل ماكياج المرأة قد لا تعمل بشكل جيد؛ صوت معدل خطأ في النسخ قد يكون أعلى من الأميركيين البيض من الأميركيين الأفارقة.

وكان العديد من نماذج التعلم آلة المدربين قبل على نطاق واسع للمطورين. على سبيل المثال، TensorFlow المحور الذي صدر مؤخرا منبرا عاما. عندما مطورين استخدام هذه النماذج في تطبيق، يدركون أن هناك والانحراف والاختلاف نموذج تظهر كيف في هذه التطبيقات.

البيانات الافتراضية ترميز الانحراف الاصطناعي البشري . وأنا أدرك أنه هو بداية جيدة حول كيفية التعامل مع التقدم أبحاثها. في جوجل، ونحن ندرس بنشاط استراتيجيات للحد من التحيز والحوادث تحليل التباين، لأننا ملتزمون تصنيع منتجات للجميع. في هذه المقالة، سوف ندرس بعض النصوص جزءا لا يتجزأ من نموذج، وهي أداة تستخدم لتقييم عدد من أشكال محددة من التحيز، ومناقشة أهمية هذه القضايا عند بناء التطبيقات.

جزء WEAT، أداة قياس عالمية

نص نماذج جزءا لا يتجزأ من لتحويل أي إدخال النص ناقلات الانتاج العددي، وتعيينها إلى الفضاء ناقلات المجاورة في عملية كلمات مماثلة غويا:

إعطاء نموذج النص تدريب جيدة جزءا لا يتجزأ، يمكننا أن نموذج العلاقة بين الكلمات أو العبارات تقاس مباشرة. العديد من هذه الجمعيات تتماشى مع التوقعات والمساهمة في المهام اللغة الطبيعية. ومع ذلك، قد تكون ذات صلة بعض المشاكل. على سبيل المثال، Bolukbasi آخرون اختراق رقة NIPS "الرجل هو مبرمج كمبيوتر حيث المرأة هي ربة منزل؟ Debiasing كلمة التضمينات" في (https://arxiv.org/abs/1607.06520) وجدت أنه بناء على نص أخبار Google مع المصدر المفتوح شعبية كلمة نموذج متجه التدريب أداة word2vec، والعلاقة بين ناقلات "رجل" و "امرأة" مشابهة للعلاقة بين "الأطباء" و "ممرضة مسجلة" أو "أمين الصندوق" و "ربة منزل".

في الآونة الأخيرة، التي اقترحها CALISKAN آخرون ناقلات اختبار كلمة جمعية (WEAT) (علم الدلالة المستمدة تلقائيا من المجاميع اللغة احتواء الإنسان مثل التحيز، العلوم، https://arxiv.org/abs/1608.07187) هو مفهوم متجه كلمة التفتيش العلاقة بين أساليب هذه المفاهيم يمكن الحصول عليها من اختبار جمعية ضمنية (IAT) في. في هذه المقالة سوف نقوم WEAT تستخدم كوسيلة لاستكشاف بعض الشكوك حول تكوين الجمعيات.

ونتائج الاختبار WEAT من طراز تستهدف عبارة (على سبيل المثال، اسم من أصل إفريقي، واسم من الأميركيين الأوروبي، والزهور أو الحشرات) والصفات العبارات (مثل "مستقرة"، "سارة" أو "غير سارة") ربط درجة. إلى العلاقة بين اثنين من كلمة معينة تعرف بأنها تشابه جيب التمام بين ناقلات من الكلمات.

على سبيل المثال، قائمة المستهدفين لأول اختبار الوقت WEAT هو نوع من الزهور والحشرات، وقائمة الممتلكات هي كلمة لطيفة الجدول (مثل "الحب"، "السلام") والكلمات غير سارة (مثل "الكراهية"، "قبيحة"). درجات الاختبار الإجمالية، مقارنة مع الحشرات والزهور وتعبر عن درجة أكبر من الترابط بين الكلمات ممتعة. القيمة هي النتيجة الإيجابية (يمكن عشرات تتراوح بين 2.0 و -2.0) وسائل الزهور والكلمات ممتعة أكثر أهمية، والقيمة هي وسائل النتيجة سلبية أكثر الحشرات المرتبطة بكلمات لطيفة.

في اختبار WEAT الأول CALISKAN وآخرون، وقياس العلاقة ليس القلق الاجتماعي (باستثناء حيث الحشرات)، والباقي من الاختبار يمكن قياس الانحراف أكثر من المشكوك فيه.

نحن نستخدم عشرات WEAT للتحقق من عدد قليل من نموذج الكلمات ناقلات: word2vec والقفازات (التي سبق ذكرها في المادة CALISKAN وآخرون)، فضلا عن ثلاثة صدر حديثا نموذج مفتوح المصدر على TensorFlow محور منصة --nnlm-أون-dim50، nnlm -EN-dim128 وعالمية، بالسجن لالتشفير. ذكرت العشرات في الجدول 1.

وتستخدم هذه الجمعيات لتدريب البيانات من هذه النماذج في تعلمها. تعلمت كل النماذج يمكن توقعه قد نتصل الزهور والحشرات، والآلات الموسيقية والأسلحة، والتي يمكن أن تكون مفيدة لفهم النص. من دراسة جمعية الطبقة المستهدفة الأخرى التي تم الحصول عليها، فإنه يحتوي على بعض (وليس كل) تتعزز التحيز نموذج شائع الإنسان.

للمطورين استخدام هذه النماذج، فمن المهم أن نفهم هذه الجمعيات موجودة، وهذه الاختبارات تقييم سوى عدد قليل من المشاكل التحيز المحتملة. تقليل استراتيجية الانحراف لا لزوم لها هي منطقة نشطة جديدة للبحث، ولكن لا توجد طريقة واحدة يمكن تطبيقها على جميع الطلبات.

عندما يكون النص النموذج المرتبطة جزءا لا يتجزأ من الاهتمام، لتحديد أكثر طريقة محددة لتأثيرها على التطبيقات المصب هو الفحص المباشر من هذه التطبيقات. نحن الآن نلقي نظرة على تحليل موجز لاثنين من عينة التطبيق: محلل المشاعر (ثقة محلل)، وتطبيقات الرسائل (المراسلة كونا).

دراسة حالة 1: الأفلام تيا المشاعر محلل

WEAT قياس جزء كلمة السمة ناقلات، لكنها لم تخبرنا كيف تؤثر هذه النواقل المهام المصب. هنا، علينا أن نظهر تأثير عدد قليل من الأسماء التي تم تعيينها إلى ناقل مشترك للمهام تحليل المشاعر النقاد.

تيا وتدريب المصنف مراجعة المشاعر الفيلم. ولم يكن لديها الكثير من عينة الناقد، حتى انها يستخدم النص المضمن في نموذج ما قبل التدريب لتعيين النص لجعله أسهل لتحديد مهمة تصنيف التمثيل.

دعونا استخدام الفيلم IMDB مجموعات البيانات مراجعة لمحاكاة مشهد تيا، 1000 و 1000 تعليقات إيجابية سلبية تعليقات عينة فرعية. سوف نستخدم مصطلح ناقلات ما قبل المدربين لتعيين IMDB تعليق النص إلى أدنى الأبعاد متجهة فراغ، وهذه النواقل تستخدم المصنف الخطي مميزة. وسوف ننظر في عدد من مختلف نموذج الكلمات ناقلات، وكانت العواطف يدرب المصنف الخطي.

سوف نستخدم المنطقة تحت تدابير ROC منحنى (AUC) لتقييم نوعية المصنف العاطفة.

هنا هو استخدام كل نموذج متجه استخراج فيلم روائي طويل تصنيف الشعور عشرات AUC:

في البداية، تيا يبدو من السهل جدا لاتخاذ قرار. فعليها أن تستخدم نموذج متجه فقا لأعلى درجة في المصنف، أليس كذلك؟

ولكن دعونا النظر في بعض العوامل الأخرى التي قد تؤثر على هذا القرار. هذه الكلمات نموذج متجه على مجموعات كبيرة من البيانات قد لا تكون قادرة على الحصول على تدريب حصلت تيا. أرادت لتقييم ما إذا التحيز المتأصل في تصنيف بيانات مركزية ستؤثر على سلوكها.

من خلال النظر في مختلف نموذج متجه النتيجة WEAT، لاحظت أن تيا النظر في بعض معينة كلمة اسم نموذج متجه أكثر "سارة" من معنى أسماء أخرى. أنه لا يبدو جيدا خصائص فيلم العاطفة محلل. تيا تعتقد أن اسم لن يؤثر نقاد السينما توقع العاطفة التي يبدو أن أكون مخطئا. قررت أن تحقق هذا "متعة الانحراف" لن يؤثر على مهام تصنيف لها.

وقالت يحدد أولا ما إذا كان الانحراف يمكن الكشف عنها من قبل بناء كبير بعض عينات الاختبار.

في هذه الحالة، وقالت انها إحضار لها أقصر اختبار 100 تعليق، جنبا إلى جنب مع "تعليقات من _______." الكلمات التي تملأ في اسم شخص الفراغات و. CALISKAN، الذي اقترح استخدام "الأميركيين الأفارقة" و "الأميركيين الأوروبية" القائمة، فضلا عن الرجال العاديين والنساء من اسم إدارة الضمان الاجتماعي الأمريكي، درست الاختلافات في درجات العاطفية يعني.

ويبين الشكل أعلاه الفرق في الكمان توزيع تيا المرجح أن نرى متوسط درجات العاطفة، محاكاة عن طريق عينة فرعية المستخرجة من التدريب الأصلي مجموعة IMDB 1000 تعليقات سلبية إيجابية و 1000. أظهرت النتائج لنا خمسة أنواع من كلمة نموذج متجه ونموذج لا تستخدم كلمة النواقل.

تحقق الفرق بين ناقل كلمة دون انفعال غير مريحة للغاية، ويمكن التأكد من اسم العاطفة المرتبطة IMDB لا يأتي من صغير إشراف مجموعة البيانات، ولكن إدخال المدربين قبل كلمة نموذج متجه. يمكننا أن نرى أيضا أن ناقلات كلمة مختلفة يمكن أن تؤدي إلى إنتاج نظام مختلف، مما يدل على أن ناقلات كلمة الاختيار هو مفتاح عامل تيا المشاعر المصنف سيكون قد ترتبط. ويمكن أن يرى إلا في الجنس الماضي بأسماء مختلفة المرفقة، وقد أدت النتائج إلى بعض نموذج تصنيف المشاعر قد تغير.

تيا ثم نحن بحاجة إلى التفكير مليا حول كيفية استخدام هذا المصنف. ربما أنها مجرد اختيار بعض الأهداف لصالحهم الفيلم الخاص لمشاهدة. في هذه الحالة، وهذا قد لا يكون مشكلة كبيرة. يظهر في الجزء العلوي من قائمة الأفلام قد يكون الكثير جدا مثل فيلم. ومع ذلك، إذا استخدمت نموذج لها لتقييم متوسط تقييم الناقد فاعل، فاعل وكأساس لتوظيف الجهات الفاعلة لدفع الرواتب ذلك؟ هذا يبدو وكأنه شيء خاطئ بشكل خطير.

تيا قد اخترت لا تقتصر عليها الواردة في هذه الوثيقة. وقالت إنها قد تنظر في المناهج الأخرى، مثل رسم خرائط لجميع الأسماء في كلمة واحدة، واستخدام تهدف إلى الحد من حساسية من اسم مجموعة البيانات إعادة تدريب البيانات كلمة ناقلات، أو استخدام عدة نموذج متجه ونموذج عملية الوضع متناسقة.

لا يوجد أحد "حق" الجواب. العديد من هذه القرارات تعتمد إلى حد كبير على السياق، وتيا اعتمادا على الاستخدام المقصود. لتيا، تحتاج إلى النظر فيها أكثر بكثير من دقة تصنيف مؤشرات في اختيار التدريب النص أساليب الاستخراج ميزة نموذج التصنيف.

دراسة الحالة 2: تطبيقات الرسائل Tamera

Tamera تبني تطبيق الرسائل، وانها ترغب في استخدام النص جزءا لا يتجزأ من نموذج لتقديم الأفضل توصياتهم عندما يتلقى المستخدم رسالة. وقد أنشأت نظاما لرسالة معينة لإنشاء مجموعة من الاستجابات مرشح وانها ترغب في استخدام النص النموذج جزءا لا يتجزأ من ليسجل هؤلاء المرشحين. على وجه التحديد، وقالت انها يقوم بتشغيل النموذج من خلال رسالة الإدخال للحصول على نص الرسالة ناقلات جزءا لا يتجزأ من كل مرشح في استجابة لنفس المعالجة، ثم استخدام رسالة مضمنة مضمن التشابه ناقلات جيب التمام بين ناقلات لكل درجة مرشح .

على الرغم من أن نموذج التحيز في كثير من النواحي تعمل على هذه المقترحات قد الرد، لكنها قررت التركيز على الجانب الضيق: العلاقة بين المهني وثنائية الجنس. في هذه الحالة، على سبيل المثال على التحيز، وإذا كانت الرسالة واردة "ما اذا كان مهندس لاستكمال المشروع؟" نماذج للإجابة "نعم، وقال انه" تقييمات أعلى من "نعم، فعلت." أنه يعكس التحيز للنموذج. هذه الجمعيات يتعلمون من البيانات المستخدمة للتدريب كلمة متجه، على الرغم من أن المدى الذي من المرجح أن تستجيب لبيانات التدريب بين الجنسين هو الرد الفعلي (وكذلك درجة اختلال التوازن بين الجنسين في هذه المهن في العالم الحقيقي)، ولكن النظام ببساطة تفترض مهندس ذكرا، المستخدم، يمكن أن تكون تجربة سلبية.

من أجل قياس الاختلاف من هذا النموذج، وقالت انها يخلق قائمة القوالب والرد السريع. وتشمل هذه النماذج، على سبيل المثال، "انه ابن عمك؟" و "اليوم هو هنا؟" وغيرها من المسائل، فإن الجواب هو قالب "نعم، هو / هي في." للمهنة وقضايا (على سبيل المثال، "سباك سيكون حاضرا اليوم؟") نتيجة انحراف معين، وهذا النموذج هو نموذج للتفاعل الجنس الأنثوي ( "نعم، وقالت انها سوف".) عشرات مع الرجال ( "نعم، انه المجلس ") من الاختلافات النتيجة:

لعموم مهنة معينة، نموذج درجة الانحراف هو انحراف المهنة عن السؤال / الجواب قالب جزء من المبلغ.

باستخدام العالمي الجملة التشفير تحليل نموذج جزءا لا يتجزأ، ويمكن Tamera تشغيل 200 المهن. يبين الجدول 2 أقصى درجات الانحراف من النساء (من اليسار) وأعلى درجات الانحراف الذكور (يمين) المهنة:

"نادلة" قضية من المرجح أن تستجيب تشمل "هي"، لكنه لم يشعر لTamera، ولكن العديد من الاختلافات الأخرى استجابة لمنع لها. وكما تيا، يمكن Tamera قيام عدد قليل من الخيارات. أنها يمكن أن تقبل ببساطة هذه الانحرافات، لا تفعل أي شيء، ولكن على الأقل، وإذا كان يشكو المستخدمين، وقالت انها لن تكون اشتعلت على حين غرة. أنها يمكن أن تكون على التغييرات واجهة المستخدم على سبيل المثال، من خلال توفير كلا الجنسين بدلا من الاستجابة عند احتياجات رسالة الإدخال لاحتواء ضمير الجنسين (على سبيل المثال، "وقالت انها سوف تكون هناك اليوم تفعل؟").

لكنها قد لا تريد أن تفعل ذلك. وقالت إنها قد حاول استخدام التحيز جزءا لا يتجزأ من تقنيات التخفيف كلمة الإبقاء على النموذج ودراسة كيفية تأثير ذلك في أداء المهام المصب، أو أنها قد تقلل مباشرة انحراف المصنف في تدريب المصنف لها (على سبيل المثال http: // الأبحاث .google.com / الحانات / pub46743.html و https: //arxiv.org/abs/1707.00075، أو https://arxiv.org/abs/1801.07593). لا يهم ما هو يقرر القيام به، فمن المهم أن Tamera إجراء هذا النوع من التحليل، وذلك لمعرفة وظيفة منتجاتها، ويمكن اتخاذ قرار مستنير.

استنتاج

من أجل فهم أفضل للمشاكل المحتملة التي قد تنشأ ML نموذج، وخلق نموذج ويجب فحص الممارسين استخدام هذه النماذج نموذج الانحراف السلبي قد تحتوي عليها. لقد أظهرنا بعض الأدوات للكشف عن الانحراف النمطي من هذه النماذج في شكل معين، ولكنه بالتأكيد لا يشكل الانحراف بجميع أشكاله. وناقش حتى تحليل مجموعة WEAT هنا أيضا تضييق جدا، لذلك لا ينبغي أن تفسر على أنها الزحف يرتبط ضمنيا القصة الكاملة جزءا لا يتجزأ من هذا النموذج. على سبيل المثال، لنموذج للقضاء على علاقة سلبية فئات WEAT 50 ومسح اسم من التدريب قد لا تخفيف أسماء سلبية ارتباط أو أنواع أخرى من WEAT منخفض وعشرات الناتجة قد تعطي الوهم بأن السلبية الشاملة تم حل مرض القضايا ذات الصلة. هذه التقييمات على نحو أفضل إبلاغ النموذج القائم سلوكنا، وكما تتيح نقطة انطلاق لنا أن نعرف كيف الانحراف غير المرغوب فيه هو تأثير التكنولوجيا أنشأنا واستخدامها. نحن مستمرون في حل هذه المشكلة، لأننا نعتقد أن من المهم جدا، ولكن أيضا ندعوكم للانضمام الى هذا الموضوع.

شكر وتقدير: نود أن التعاون الشكر لوسي Vasserman، اريك بريك، إيريكا غرين وTensorFlow المحور وفريق الخبرات الدلالي في هذا العمل.

عبر developers.googleblog.com، شبكة لى فنغ جمعت AI تقنية مراجعة

جيا يويتينغ، يا البيئي اللوحة رأسا على عقب؟

حشود من المنزل الذكي للبحر الأحمر، في المستقبل سيكون كيفية اختراق؟

القيمة مقابل المال! الهاتف هو أرخص من برو المكسرات، والتكوين هو أعلى من ذلك

مغامرة خيالية نظام العملاقة "موقوتة البيت" الثابتة والعتاد 1 نوفمبر، تحول سبيلبرغ كرنفال السحر

تحولت فولكس واجن البرازيل غور الله GT سيارة مفهوم خارج

أندروز أول مرة، ومن المؤكد أن تبدأ من 5 الهواتف النقالة!

الحالة: جمال + واي فاي، وهذا هو الأرجواني ومقاطعة دوا لقاء!

السائق هو ركض الشيكات القيادة في حالة سكر لإخفاء مجمع المسلحة، وشرطة المرور: أنا لا مخطوطات تحتاج تأتي يد حقيقية

الثلاثي رجل واحد، العفريت علي الوشق صندوق إعادة تعريف مركز الأسرة

باعت إنفينيتي Q60 أوروبا 330،000 الجديد حسود طاغية المحلي

البيضاء الهاتف الخليوي الكثير، ولكن النماذج الخمسة فقط يمكن أن يسمى الأعمال الفنية!

"مقتل ثلاثة اشخاص ماجيك" 9 نوفمبر الإفراج الوطني! نرى إيكن تشنغ اختراق اللغز!