وجه الدقة والكفاءة لفهم المحتوى، الفيسبوك هو استخدام تكنولوجيا الرصد الذاتي

AI تقنية الصحافة على مختلف المنصات الاجتماعية، وغالبا ما يكون هناك بعض المحتويات غير القانونية، مثل الإرهاب الفيديو، لغة مسيئة وهلم جرا. كيف يتم تحديد هذه العناصر وتعامل له أهمية كبيرة لصحة منصة عمل جيدة. مؤخرا، نشرت معهد الفيسبوك AI بلوق وظيفة يستكشف هذا السؤال. AI تقنية مراجعة الانتهاء المترجم أدناه.

اليوم، ونحن نستخدم تقنيات الذكاء الاصطناعي في مجموعة متنوعة من التطبيقات في الفيسبوك - واحدة من الشيء الأكثر أهمية هو أن مساعدة الناس بأمان استخدام برنامجنا. من أجل جعل كل هذه النظم أكثر فعالية، ونحن بحاجة إلى مواصلة تحسين مخابراتنا، وخاصة في مجالين: فهم المحتوى وفعال باستخدام بيانات التدريب أقل التسمية.

أحدث تقدمنا في معالجة اللغة الطبيعية (NLP) ويبين الرؤية الحاسوبية (CV) كيفية فهم جوانب العمل من حيث المحتوى أن الفوائد تنتج. في البرمجة اللغوية العصبية، وقد وضعنا مساحة مشتركة، متعدد اللغات جزءا لا يتجزأ، ويمكن استخدامها كلغة للتعامل مع مساعدة المحتوى الضار، حتى عندما تستخدم في المنخفضة الموارد اللغات هي أيضا فعالة. في السيرة الذاتية، ونحن في بحثنا الرائدة في القطاع، على أساس محتوى الصورة لتحديد المزيد من قطع الغيار، واستخدام تسميات لفهم الفيديو، من أجل تحقيق دقة مجموعة السجلات.

مع التحسين المستمر لقدرتنا على فهم محتوى مجالات جديدة نحن من التقدم المحرز الرصد الذاتي. وهذه التكنولوجيا تسريع نظام التدريب للتعلم مسبقا، يمكن أن يكون أسرع للجيل القادم، وأداة أكثر مرونة لوضع الأساس.

هنا سوف نركز على كيف يمكننا تحسين دقة وكفاءة فهم المحتوى من النظام وإيجاد طرق جديدة لبذل المزيد من الأشياء في التعلم غير خاضعة للرقابة.

تعدد اللغات الجملة تعاطي عملية التضمين

لأنه عندما ينشرها الناس المحتوى الذي ينتهك سوف يتم الكشف عن سياساتنا لهم، ونحن بحاجة إلى فهم لغة النظام. على وجه التحديد، لدينا التعلم استخدامات آلة النظام (ML) لمسح حكم معين، والإجابة على سلسلة من الأسئلة، مثل "أنه من غير القانوني ذلك؟" أو "انها شخص يهدد لك؟" باستخدام الإجابة على هذه الأسئلة، ثم غيرها من المعلومات الأساسية السياق، ونحن يمكن أن تقرر ما إذا كان لاتخاذ الإجراءات اللازمة، مثل المراجعين الإنسان في علامة.

من أجل نظامنا مل الإجابة على هذه الأسئلة، ونحن بحاجة إلى إعطاء الآلاف من الأمثلة اللغة لتدريبهم. ومع ذلك، فإن العالم لديها نحو 65 لغة، بما في ذلك بعض النقص الحالي في مجموعات البيانات الكبيرة من التدريب على اللغة، لإيجاد نماذج تدريبية كافية لدعم جميع اللغات التي ندعمها محتوى التفاهم هو التحدي.

عن طريق دمج في مساحة مشتركة مع خريطة متعددة اللغات الجملة مماثلة، يمكننا، من دون ترجمة كل جملة، لفهم أفضل للمحتوى (بما في ذلك المحتوى الذي ينتهك أحكام).

لمساعدة تعويض عن عدم وجود تدريب البيانات، فإننا نعمل على تحسين حققناها في الآونة الأخيرة مجموعة أدوات مفتوحة المصدر "LASER"، فإنه يمكن أن يفهم بلغات مختلفة من خلال نموذج التدريب. في الماضي، عندما كنا في حاجة إلى نموذج مختلف لكل لغة، والتمثيل LASER الفضاء يسمح لنا للتدريب في لغة واحدة، من دون الحاجة إلى بيانات التدريب اللغوي محددة. بعد التدريب، يمكننا تطبيق نموذج لمجموعة من اللغات، وأنها لا تحتاج إلى أن تترجم، وهذا ما يسمى "الصفر التعلم نقل عينة". السماح LASER لنا في التمثيل لغة غير معروف من الفضاء، وأولئك أقرب إلى كل الأحكام الأخرى رسم خرائط لتحديد الجملة معنى مماثلة.

للترغب في زيادة عدد الباحثين لغة يمكن أن نفهم النظام، والتقنيات عبر لغة مثل هذا يوفر بديلا لأكثر استيعابا لمحاولة جمع البيانات والتعليقات لكل لغة. هذا النهج كما يتيح لنا أن الترجمة الآلية التعدين التدريب بالتوازي البيانات، مفيدة بشكل خاص للغة الموارد منخفضة (أي، أقل التدريب اللغوي سبيل المثال). الاعتراف عبر لغة مماثلة لعقوبة يساعد القبض على كل من انتهاكات مماثلة في لغات متعددة. لتوليد كل مستوى الجملة جزءا لا يتجزأ، ونحن أول استخدام التمثيل المشفرة إلى بايت من كلمة معينة من العقوبة، ومن ثم استخدام خمسة LSTM ثنائي الاتجاه (الذاكرة قصيرة وطويلة الأجل) النموذج المستخدم تجميع أقصى مباشرة (لأن عدد الكلمات الواردة في الجملة غير مؤكدة أ).

من خلال نظام التدريب على نطاق واسع - يحتوي على 93 نوعا من اللغات، اللغات التالية تنتمي إلى أسرة في أكثر من 30 لغة، أعدت 22 نصوص مختلفة، يمكننا الحصول على مضمن في الجملة لغة غير معروفة، وأنها تدعم انتهاكات السياسة كشف السيارات قدرة محتوى أهمية خاصة للغات الموارد منخفضة.

هذا النهج ولدينا عبر لغة العمل قبل التدريب معا، ونحن سوف تحسن البيانات دون الحاجة إلى تدريب إضافي من علامات لغة، والتعامل مع لغات متعددة خطاب الكراهية، البلطجة وانتهاك أحكام القدرة غيرها من الأعمال. وكلا التقنيتين دعم كلمتنا جزءا لا يتجزأ من لغات متعددة الاستعمال الحالي، وهو مشابه لتعيين الكلمات في لغات مختلفة (خريطة على مستوى الجملة من LASER ولا) في نفس المكان. وقد تم نشر هذه جزءا لا يتجزأ في المنتج لمجموعة واسعة من المهام التفاهم عبر لغة، بما في ذلك تحديد محتويات الصراع.

تحسين مستوى فهم من الصور وأشرطة الفيديو

الناس في برنامجنا إلى المليارات حصة الصور ومحتوى هذه الصور في غاية الأهمية لحماية خصوصية الناس فهم. حتى لو كان التحليل المباشر للبكسل قد تكون كافية لجعل لدينا يحدد نظام كائن واحد في الصورة، وعلينا مواصلة تعزيز دراسة CV التكنولوجيا الرائدة في صناعة ويعلم النظام لفهم العلاقة بين هذه الكائنات في ظل ظروف ما يمثل انتهاكا السياسة .

أنظمتنا هي احتمالات جيدة في البنود هوية تحمل صورة شخصية، مثل كلب أو الكرة. ولكن حتى وقت قريب، كانت قد تعرضت لمحاولة فهم السياق الأوسع، يحتوي على عدد أقل من وحدات البكسل مجموعة من الصور الفوتوغرافية. الاعتراف الكائن باستخدام أسلوب جديد يتميز بإطلالة بانورامية على شبكة الأهرامات (شامل الإراءة شبكة ميزة الهرم، وهي شامل الإراءة FPN)، ونحن يمكن أن تؤدي في نفس الوقت إلى تجزئة المثال المهمة (المقدمة) والمهام تجزئة الدلالية (خلفية) في الهياكل العصبية موحدة.

على مر السنين، وقد تم تحديد نظام CV دينا تدريجيا يمكن أكثر من مكونات الصورة الآن استخدام شبكة واحدة لالأمامية والخلفية الأجسام المكتشفة. قد يكون من الأفضل أن تفهم ذلك أن الصورة العامة للخلفية، والتعرف على الصور أكثر كفاءة.

نتائجنا تظهر أن، بالمقارنة مع أمثلة فقط وتجزئة الدلالية للشبكة، وFPN بانوراما العام يمكن أن تؤدي الأمثلة الحسابية وتجزئة الدلالات المطلوبة إلى النصف تقريبا. في الممارسة العملية، وهذا يجعل النظام فهم أفضل للقصة صورة الخلفية، وهذا هو المهم في تحديد ما إذا كان يخالف سياساتنا. ولكن هذا العمل يمكن أن تؤثر أيضا على التطبيقات الأخرى، على سبيل المثال، يمكن استخدامها لتحسين وصفنا من ضعاف البصر ليحل محل النص والصور تلقائيا.

في الفيديو وجدت في انتهاك لانتهاكات السياسة وجدت من الصعب أكثر في الصورة. وسائل الدافع تفاهما موضع تقدير كبير إطارات الصور الفيديو تشكل تسلسل معين، وتسلسل ممثلة في السلوك، ولكن أيضا معالجة المدخلات غير المرئي، مثل الصوت ومثل.

وبسبب هذه الصعوبات، فهم الفيديو لا تزال في مهدها. سواء من حيث الكفاءة أو دقة، لقد تم إحراز تقدم في مجال البحوث لفهم تقنيات الفيديو الأكثر تقدما، والبعض منها العمل على تركيز الانتباه على أنظمتنا والتدريب على معظم مجموعات البيانات ذات الصلة. على سبيل المثال، لدينا التفاف 3D في الفردي (المكان والزمان، على التوالي في تسلسل الفيديو المرتبطة معين) بعد واحد والإلتواء ثنائي الأبعاد، ونحن يمكن أن تقلل من عدد من المعلمات التدريب. أو، فإننا يمكن أن تبقي على نفس العدد من المعلمات وزيادة دقة. باستخدام هذا الإطار، يمكن أن نجد التوازن بين الدقة والكفاءة.

طريقتنا ليست كبيرة أخذ العينات كل إطار أحيلت إلى الفيديو من خلال إعطاء الشبكة العصبية التلافيف المكانية والزمانية، ولكن مقطع فصل يحتوي على إجراءات هامة لمزيد من المعالجة.

من أجل فهم ما يحدث في الفيديو، والتي سيتم تقسيمها إلى شرائح قصيرة (كل جزء يتكون من عدد قليل من إطارات متتالية)، ومجموعة من الأطر انتقال المتعاقبة عبر نموذجنا الزمكان الجديد. وبعد ذلك يمكننا تجميع هذه المعلومات والحصول على التنبؤ كامل الفيديو.

ومع ذلك، في العديد من أشرطة الفيديو، والذي سوى بضعة أجزاء من معلومات مفيدة للقيام بمهام محددة، مثل الكشف عن محتوى البلطجة، شظايا المتبقية هي إما زائدة عن الحاجة أو غير ذات صلة. ولذلك، من أجل زيادة تحسين سرعة وكفاءة اكتشافنا قد تنتهك الأحداث السياسية في شريط الفيديو، قمنا ببناء العينات كبيرة. يتم تدريب النظام على التركيز على قسم الفيديو يحتوي على سلوك معين، ومن ثم مزيد من معالجة مجموعة الإطار في مزيد من التفاصيل. هذا التحليل أكثر تركيزا والتفاهم التدريب الفيديو يسمح أسرع وأكثر دقة.

استخدام الهاش لفهم وضع دقة تسجيل الفيديو

وضعنا أيضا وسيلة لتحديد سلوك مختلفة (بما في ذلك سلوك غير قانوني يمثل المحتوى)، وهو حاليا في طليعة التكنولوجيا.

التكنولوجيا بنيت مباشرة على أساس من العام الماضي أعلنا في العمل F8 على شبكة التدريب على العمل باستخدام المليارات من الصورة العامة مع العلامة، ويمكن أن فاز التكنولوجيا الأكثر تقدما في المهام التعرف على الصور. في نهجنا الجديد، الموسومة الفيديو يلعب دور ضعف الرقابة على البيانات، مما يعني أنه تم تطبيق أمثلة التدريب التسمية، ولكن ليس دقة إشراف كامل.

مقارنة مع التسمية مخصصة لتدريب نموذج الذكاء الاصطناعي، تلاحظ نتائج ضجة كبيرة وغير دقيقة. ومع ذلك، فإن عدد البطاقات مثال على هذا النهج قدمت أننا لا يمكن إلا أن يكون تدريب على بيانات التدريب، ضعف الرقابة، ويمكن أيضا أن تدرب على عدد غير مسبوق من مجموعات البيانات إلى تحسن ملحوظ في القدرة على فهم الفيديو.

في هذه الحالة، فإننا تدريب أكبر مجموعة من البيانات ويشمل أكثر من 65 مليون من إينستاجرام العام مع العلامة الفيديو. على النقيض من ذلك، فإن مجموعة البيانات تصنيف العمل الحالي يحتوي على مئات فقط من الآلاف من أشرطة الفيديو. التحديات التقنية جلبت عن طريق استخدام أشرطة الفيديو هذه، ونحن ندرك عمل المليار عدد من التعرف على الصور لنتذكر مماثل، على سبيل المثال، يجب نشر عبر التدريب منصات الأجهزة، ولكن أيضا تواجه عقبات جديدة، بما في ذلك التعامل مع العلامات عادة ما تكون متاحة فقط في شريط فيديو جزء صغير من هذه الحقيقة. على سبيل المثال، مع "الزفاف والرقص" فيديو التسمية قد تظهر فقط الرقص زوجين حديثا في فترة من بضع ثوان أطول الفيديو.

وعلى الرغم من هذه المشكلة الضوضاء الزمنية، لكننا وجدنا الحجم المطلق وتنوع التسمية محتوى عينة تعويض الضجيج. باستخدام عينة كبيرة، وصلت إلى نموذج الاعتراف في الفيديو على ثلاثة دقة الفيديو تصنيف القياسي الرئيسية في مستوى الرائدة في العالم. ويشمل هذا الفيديو إلى فئة مختلفة من السلوك البشري في 400 نوع، وصلت دقة البيانات تعيين على حركية 82.8. هذه سابقة أعلى دقة 77.7 زيادة 5.1، نسبيا، يتم تقليل الخطأ بأكثر من 25. ولقد طبق هذا الأسلوب لنظام الإنتاج، وزيادة معدل الاعتراف هذا السلوك العدواني من قبل ما يقرب من 85.

من خلال دمج الصوت في هذا النموذج، يمكننا الحصول على نتائج أفضل. تظهر تجاربنا أن، بالمقارنة مع النموذج البصري باستخدام نفس العمارة وعملية التدريب، ونحن نموذج يجمع بين الصوت والفيديو على إشارة كشف الحدث الصوت والفيديو وصلت إلى مستوى متقدم في العالم، ودقة الكشف عن الألفاظ النابية والكبار المحتوى زيادة بنسبة 20.

المستقبل فهم المحتوى مع الرصد الذاتي

هذه التطورات التكنولوجية في اللغة والصورة والفيديو جوانب فهم جزء من جهودنا المستمرة لتحسين قدرات تنفيذ السياسات. ومع ذلك، عندما ننظر في مهمة طويلة الأمد للحفاظ على منصة الأمن، لإنشاء عدد كبير من البيانات يمكن استخدام نظام التدريب الخالي من الملصقات ستصبح ذات أهمية متزايدة.

معظم النظم الحالية لدينا تعتمد على التدريب تحت إشراف. وهذا يعطي التدريب جلبت سلسلة من التحديات، كما هو الحال في بعض الحالات سنقوم تفتقر إلى بيانات التدريب، وفي بعض الحالات، نحن بحاجة لجمع وعلامة المثال لبناء من نقطة الصفر على المصنف الجديد لفترة طويلة من الوقت للتدريب. وبما أن حالة جديدة من التطور السريع للانتهاكات المحتوى والانتخابية وغيرها من الأحداث أصبح الاستراحة للمحتوى ضار، لدينا مسؤولية لتسريع عملية تطوير للنظام، لتحسين قدرتنا على الاستجابة.

أحد الحلول المحتملة هي طريقة لالاصطناعي رئيس المخابرات عالم الفيسبوك يان ليكون عاما نوقشت: الرصد الذاتي. بالمقارنة مع الاعتماد فقط على بيانات البشرية للتدريب وصفت - حتى ضعف الرقابة على البيانات، مثل الصور والفيديو مع تسمية العامة، حتى نتمكن من الاستفادة من بيانات الرصد الذاتي لإنفراد. أساسا هذا هو وسيلة مشتركة لجعل نظام الرصد الذاتي لاستخدام كمية صغيرة من البيانات المسمى التعامل مع مهمة غير معروفة، وأنه من الممكن أن تقربنا من تحقيق الهدف المتمثل في الذكاء الاصطناعي صحيح.

في الواقع، هذه المرة فقط لدينا دراسة استراتيجية فريق الذكاء الاصطناعي، ولكن في الآونة الأخيرة تم تحويله إلى نظام قوي لتقديم نتيجة الداخلية للفريق، وبعض من نموذج فهم اللغة الرصد الذاتي زال ينبض باستخدام التقليدية، وهناك طرق للإشراف نظام التدريب. على وجه التحديد، ونحن قد وضعت عددا من النماذج، وجزء آخر من التدريب على جزء من إشارة معينة للتنبؤ ما إذا كان إشارة معينة يمكن أن تمر.

على سبيل المثال، نقوم بتدريب واحد من هذه الأنظمة الرصد الذاتي، لفهم اللغة بشكل أفضل عن طريق إخفاء الكلمات في الجملة، لم يسبق له مثيل، حتى لو كان نموذج الحكم الأصلي. إذا كان هناك عبارة مثل "محادثة حول ________ والاتصال البشري"، يمكن للمرء أن يخمن بسهولة بضع كلمات لملء الفراغ. ولكن المهمة أكثر تحديا الذكاء الاصطناعي. هذا هو مماثل لبيرت النموذج الأساسي، وجوجل مهمة تدريبية مفيدة وقابلة للتطوير وعرض المهام حلها. نحن يمكن أن تتحول إلى حذف كل كلمة في الجملة، ثم كرر العملية أكثر من مليار مجموعات البيانات كلمة، ولست بحاجة إلى أن يكون المسمى هذه الكلمات.

من خلال تحليل سياق كل كلمة مخفية عن جملتين، ويمكن لدينا نموذج التحول في اتجاهين التنبؤ كلمة في عداد المفقودين في حالة لا تعتمد البيانات علامة.

توقع كل الكلمات مخبأة، ونحن نستخدم شبكة التحول في اتجاهين طريق حساب الجملة إلى الأمام وإلى الوراء الدولة - أي اليمين واليسار كلمة الكلمات مخبأة - لمحاكاة بقية الجملة، ومن ثم الجمع بين هذه التأكيدات لتحديد الكلمات مخبأة. مرة واحدة يتم تدريب النظام على هذا النحو لم يتم وضع علامة، يمكننا استخدام علامات البيانات لمهام محددة (مثل تحديد البلطجة كلام) غرامة تصل قيمتها. اختبار داخلي، وهذا الرصد الذاتي وإشراف المدربين الذين يستخدمون مثل ملزمة ونستخدم 10 مرات أقل من بيانات التدريب تحت إشراف، وقادرة على الاقتراب من دقة نموذج أشرف، أو نفس العدد من بيانات التدريب تخفيض 20 في حالة الخطأ.

نحن أيضا الاستفادة من التدريب الرصد الذاتي لتحسين قدرات التعرف على الكلام. ولقد خلقنا العديد من إصدارات مقطع صوتي، تم تغيير جزء من بعض الإصدارات، ونموذج يجب تحديد إصدار غير صحيح. هنا، إلا أن الصوت الأصلي كمدخل، لا يوجد نص أو تسمية أخرى.

لهذا الأسلوب، كنا شبكتين متراكبة: التشفير شبكة، والصوت الأصلي تعيين ذلك إلى أقل من سمات وقت التردد مثله؛ سياق الشبكة، فإنه يتوقع الصوت الصحيح. من أجل جعل مهمة التدريب أكثر فعالية، نحن بحاجة إلى إطار شبكة المستقبل توقعات أكثر تعمقا، بحيث تصبح المشكلة أكثر وأكثر صعوبة التنبؤ بها.

باستخدام اثنين من شبكة عصبونية التفافية للنموذج البيانات الصوتية الأصلي، تحمل علامات ولدت في وقت مبكر، وقد تم تحسين نظام لمعالجة مهمة صعبة على نحو متزايد: الصوت توقع في نقاط زمنية مختلفة، حيث تشير الأسهم المستقبل ويتوقع التقرير.

مرة واحدة وقد تم هذا نموذج ما قبل التدريب من التنظيم الذاتي صوت قوي من أجل التفاهم، سوف نستخدم كمية صغيرة من البيانات إشراف --80 ساعات النسخ الصوتي لتدريب نظام التعرف على الكلام النهائي. يستخدم نظامنا أفضل بطاقة بيانات النظام ديب الكلام 2150 مرة أقل من ذي قبل، في حين يتم تقليل نسبة الخطأ بنسبة 9. يسمح هذا العمل لنا لتوسيع بسرعة قدرات التعرف على الكلام إلى لغات أخرى، من دون الحاجة إلى وجود الكثير من الكلام كتب في كل لغة.

وتركز كلتا الطريقتين على الكلام وفهم اللغة، ولكنها تمثل أيضا كيف نستكشف تغيير أكثر جوهرية حتى دمج البيانات مع درجات متفاوتة من الرقابة. وهذا يشمل استخدام عدد كبير من بيانات التدريب غير المسماة، ونقل البيانات باستخدام علامة صغيرة للافراج عن إمكانات كبيرة لنظام الرصد الذاتي. في جميع المهام المتعلقة الذكاء الاصطناعي، والتركيز المتزايد على المراقبة الذاتية، ولكن ليس هناك مهمة أكثر أهمية من تحسين سلامة منتجاتنا.

عبر https://ai.facebook.com/blog/

انقر لقراءة النص الأصلي، وقراءة الفيسبوك، وجوجل تعمل على تحسين كيفية كاي مينغ FPN

الأخبار | أنشأ معهد جامعة تسينغهوا النظرية الأساسية للمركز بحوث الذكاء الاصطناعي، وخدم تشو منصب مدير "الجيل الثالث" خوارزميات AI عميقة

اندلعت موجة العالم كومباني في مربع للفوز اجويرو ومانشستر سيتي 1-0 ليستر سيتي

ديناميكية | تعديل من القطعة لبدء، AI ثواني لتمكنك من أن تصبح الموضة

دينغ فنغ | تكريما لمؤسس الذكاء الاصطناعي الصين السيد وانغ شيانغهاو

الخام هدرجة البنزين / البنزين: تحليل النفط الخام والبنزين سلسلة القيمة الصناعية الهدرجة

سوسو كسر Borigni تبديل إنجاز با Kuita أحمر، ميلان 2-1 بولونيا

واصل مؤشر الأسهم "على الخط" السيارات المستعملة في عضوية الارتفاعات التداول

حصة المهندسين الأمازون: كيفية التقاط وإنشاء ومجموعات البيانات بناء ذات جودة عالية

بايدو مشاركة المحامين إعلان رسمي آخر لا يمكن الوصول إليها مؤقتا قبل 2017

الصين دليل الاقتصادية: تطور من ثلاث مراحل والسلسلة الصناعية العالمية "غوس نموذج" اقتصاد

الصغرى قناة دائرة من الأصدقاء لمستخدمي بطاقات سهم ضرب لكمة تشكو مباشرة الحظر

هذه البيانات مستوى قياسي منخفض يبلغ نصف قرن! ارتفعت الاسهم الامريكية، كان هناك حسن تشغيل المحرك ألف سهم مايو كم الصعاب