البضائع الجافة | حليف غير متوقع: تحسين قضايا الخصوصية يمكن أن تؤدي إلى نماذج أفضل أداء الجهاز التعلم

حماية الخصوصية، ويتبعني.

تقنية مراجعة AI حسب: وقد نشرت نيكولا Papernot في 2017،2018 سنوات متتالية من ICLR ورقة عن PATE طريقة التفاضلية للخصوصية. اليوم، ونحن ندرك قضايا الخصوصية، هناك عوامل تصميم نموذج التي تحتاج إلى أخذها في الاعتبار عند تصميم النماذج هي أيضا على استعداد للنظر في هذا PATE الأسلوب. لكن cleverhans بلوق الأخيرة بلوق وظيفة، نيكولا Papernot، إيان غودفلوو أنها تكشف عن اكتشاف غير متوقع: قضايا تحسين الخصوصية يمكن أن يؤدي في الواقع إلى أفضل أداء الجهاز نماذج التعلم، وهما لا تتعارض، لكن الحلفاء.

AI تقنية مراجعة محتويات هذا بلوق جمعت على النحو التالي.

في العديد من التطبيقات، والتعلم الآلي (مثل التشخيص الطبي)، ونحن لا نريد خوارزمية التعلم الآلي لبيانات مجموعة التدريب يحفظون معلومات حساسة، مثل التاريخ الطبي الخاص للمريض. والفرق هو قدرا من الخصوصية لضمان توفر خوارزمية الخصوصية الإطار. الخصوصية عن طريقة التفاضلية، يمكننا تصميم آلة التعلم خوارزمية نموذج التدريب يمكن مسؤولة عن البيانات الخاصة. تعلم الآلة عمل الفرق الخصوصية (بما في ذلك MartnAbadi، lfarErlingsson، ايليا ميرونوف، Ananth هوناتان شوانغ كلمات وكونال تالوار) الباحثون تعلم آلة لأكثر تسهم بسهولة لدراسة الخصوصية - حتى لو كانت في الرياضيات من خصوصية تفاضلية المبدأ لا يتقن ذلك. في هذا بلوق، ونحن سوف تظهر لك كيفية القيام بذلك.

ويطلق على التركيز التجميع الخاصة من المعلم فرقة (PATE) مجموعة من الخوارزميات. بالإضافة إلى الصوت والفيديو جعلت اسمها "بات الفرنسي"، وهو إطار PATE الرئيسي الذي أي معرفة كيفية تدريب نموذج التعلم الآلي تحت إشراف (مثل الشبكات العصبية) يمكن اعتبار الناس الآن دراسة خصوصية التفاضلية للتعلم الآلة المساهمة . PATE إطار التعلم لتحقيق الخصوصية من خلال التنسيق عدة نماذج التعلم الآلي مختلفة من السلوك. طالما كنت اتبع الإجراءات المحددة إطار PATE، فإن إجمالي الناتج نموذج لها خصوصية قابلة للقياس ضمان. حيث كل جهاز على حدة نماذج التعلم باستخدام التدريب التعلم تحت إشراف العاديين، وكثير من القراء قد يكون من مهمة تصنيف ImageNet أو غيرها الكثير من تعلم آلة المهام التقليدية لديهم معرفة التعلم تحت إشراف.

إذا كان أي شخص يمكن تصميم إطار أفضل لاستخدام PATE نموذج واحد أو أفضل خوارزمية التدريب، ثم أنها أيضا يمكن تحسين عملية التعلم تحت إشراف نفسها (أي تصنيف غير والخاص). في الواقع، يمكن اعتبار الفرق خصوصية رسمية، يمكن أن تحل بعض المشاكل في كثير من الأحيان من قبل الممارسين واجهت - حتى من دون ضمان خصوصية عند الاقتضاء كذلك. ويشمل ذلك على تركيب المشكلة. في هذه المقالة، نحن تصف التعلم لطيف بين الخصوصية والتآزر. على وجه الخصوص، قدمنا التوسع الأخير PATE، مما يحسن كيفية تنسيق نماذج التعلم الآلي المختلفة لتحسين وقت واحد دقة وخصوصية من طراز الناتجة عن إطار PATE. وهذا يدل على مدى الأهداف الفرق الخصوصية والسعي للتعلم نموذج متسقة.

لماذا نحتاج إلى خصوصية خوارزميات تعلم الآلة؟

ودرس آلة خوارزمية تعلم لكميات كبيرة من البيانات ويقوم بتحديث المعلمات نموذج لبيانات ترميز في العلاقة. من الناحية المثالية، نريد المعلمات من هذه الآلة نماذج قادرة على ترميز مجموعة واسعة من القوانين الفعالة ( "التدخين المرضى أكثر عرضة للإصابة بأمراض القلب")، بدلا من معلومات واقعية عن أمثلة تدريبية محددة تعلم ( "جين سميث تعرضه لازمة قلبية.") . وللأسف، فإن خوارزمية تعلم الآلة الافتراضية لا تتجاهل هذه التفاصيل. إذا كنا نريد أن استخدام آلة التعلم لحل مهمة هامة، مثل صنع نموذج تشخيص السرطان، وبعد ذلك عندما نقوم بنشر هذا الجهاز نماذج التعلم (على سبيل المثال، مما يجعل نموذج مفتوح المصدر من تشخيص السرطان للأطباء في جميع أنحاء العالم)، ونحن قد دون قصد وكشف عن معلومات حول مجموعة التدريب. قد يكون مهاجم ضار قادرة على التحقق من نموذج لقد تم الافراج عن والحصول على معلومات خاصة من جين سميث. هذا هو السبب في التفاضلية خوارزمية الخصوصية.

كيفية تحديد وضمان الخصوصية؟

وقد اقترح العلماء العديد من الطرق لتوفير حماية الخصوصية في تحليل البيانات. على سبيل المثال، قبل تحليل البيانات المجهولة البيانات شعبية جدا، لتحل محل البيانات مع القيم العشوائية عن طريق حذف أو تفاصيل الخصوصية. تفاصيل مجهول المشتركة بما في ذلك رقم الهاتف والرمز البريدي. ومع ذلك، البيانات المجهولة ليست دائما كافية لحماية خصوصية القوة التي توفرها سوف تزيد من عدد المهاجمين حصلت مجموعة البيانات المعلومات الشخصية خفض بسرعة. وهناك مثال شهير جدا، على الرغم من أن الباحثين الذين شاركوا في مسابقة جائزة نيتفليكس سوف تحصل على تقييم الفيلم مجهول من مجموعة البيانات، ولكن إذا واحد من الناس ولكن أيضا في إنترنت موفي قاعدة البيانات (شجونه) في تبادل علنا تصنيفات الأفلام الخاصة بهم، تمكنوا من استعادة جزء من هوية الناس الباحثين. على سبيل المثال، إذا ركزت جين سميث على تقييم للفيلم A، B و C في البيانات جائزة Netflix و تقييم الجمهور على نوع الفيلم هو نفسه، لذلك يمكن للباحثين تأتي من البيانات جين بين البيانات الأمرين مرتبطان مجموعات. وهذا يعطيهم القدرة على التعافي في جائزة نيتفليكس في ولكنها لم تدرج في تصنيف الفيلم نوع الفيلم. هذا المثال يبين مدى صعوبة لتحديد وضمان الخصوصية من الصعب تقدير لأن المهاجم هو العلم النافع للإنسان.

خصوصية تفاضلية من سينثيا دوورك، إطارا لتقييم فرانك McSherry، Kobbi نسيم وآدم سميث إلى اختراع لآلية حماية الخصوصية لتقييم حماية الخصوصية المقدمة، قبل أن يتناول مثل "مجهول ك-" (ك-عدم الكشف عن اسمه)، الخ. القيود المفروضة على هذه الطريقة. والفكرة الأساسية هي لوضع آلية للسماح لبعض السلوك عشوائية، وذلك لضمان الخصوصية. في مثالنا، وآلية قيد النظر دائما خوارزمية التعلم، ولكن الإطار الخصوصية الفرق يمكن استخدامها لدراسة أي خوارزمية.

عرض العشوائية تعلم خوارزمية يسمح للباحثين لصعوبة حدسي للحكم على ما يعرف نموذج السلوك من قبل المعلمات التعلم من العشوائية، والتي تأتي من بيانات التدريب. إذا لم يكن هناك عشوائية، يمكننا أن نسأل الأسئلة التالية: "عندما قمنا بتدريب على هذه المجموعة بيانات معينة، خوارزمية التعلم لتحديد معالم ماذا؟" عندما تعلم الخوارزميات العشوائية، ونحن سوف نطرح هذا السؤال: " عندما تدربنا على هذا مجموعة بيانات معينة، والتعلم يختار خوارزمية احتمال وجود مجموعة من المعلمات في هذه المجموعة من المعلمات الممكنة كم؟ "

يتميز الإفراج الفرق الخصوصية التي نستخدمها هي أنه إذا قمنا بتغيير مجموعة تدريب واحد من الأمثلة تدريب والتعلم من احتمال أي مجموعة معينة من المعلمات أن يبقى نفسه تقريبا. قد يعني تغيير أمثلة التدريب إضافة أو حذف الأمثلة التدريبية، أو تغيير قيمة مثال التدريب. جوهر الفكرة وراء هذا التصميم هو أنه إذا كان مريض واحد (جين سميث) لا يؤثر على نتائج التعلم، ثم السجل الطبي للمريض لن يتم تذكر، واحترام خصوصيتها. في بقية هذا المقال، ونحن عادة وضع دعا الخصوصية ميزانية احتمال (الميزانية الخصوصية). أن خصوصية ميزانية أصغر تتوافق مع ضمانات الخصوصية أقوى.

في زوج من التوضيح، عندما كان المهاجم لا يمكن أن تميز على أساس ثلاثة استخدامات المستخدم اثنين نتائج بيانات المستخدم ولدت خوارزمية عشوائية، الخوارزمية تنتج وفقا لجميع المستخدمين الثلاثة نفسها، ونحقق خصوصية تفاضلية.

بات وراء التفكير

تقدم طرقنا التفاضلية آلة الخصوصية PATE تعلم الفكرة الأساسية هو أنه إذا كان اثنين من المصنفات مختلفة في مجموعة البيانات لم المشترك اثنين من الأمثلة التدريبية التدريب، سواء بالنسبة لنتائج تصنيف مدخلات جديدة توافق، ثم والاستنتاجات لم تكشف عن أي معلومات حول الأمثلة التدريبية الفردية. ويمكن تنفيذ هذا الاستنتاج في ظل عدم وجود حالة معينة من الأمثلة التدريبية، لأن النموذج مع المثال من نماذج التدريب والتدريب لم يكن لديك هذا المثال قد وصلنا إلى نفس النتيجة.

لذلك نفترض أن لدينا نموذجين تدريبهم على بيانات مختلفة. عندما دخلوا توافق في الآراء، يبدو أن نتمكن من نشر نتائجها، ولكن إذا، للأسف، وعندما لم يأت إلى نفس النتيجة، وكيفية القيام به بعد ذلك هو ليس كذلك بالتأكيد. لا يمكننا نشر الانتاج تصنيف منفصل من كل نموذج، لأن كل يتنبأ النموذج الطبقة قد تسرب بعض المعلومات الشخصية الواردة في البيانات تدريبهم. على سبيل المثال، لنفترض جين سميث تدريب البيانات التي تنتمي إلى نموذج من النموذجين. إذا كان نموذج التنبؤ يتوقع أن المرضى الذين يعانون سجل جين مشابه جدا إلى وجود السرطان، في حين أن النموذج الآخر (أي، أية بيانات التدريب جين سميث) من العكس، قد يعرض معلومات خاصة من جين سميث. يوضح هذا المثال البسيط لماذا إضافة العشوائية الخوارزمية لضمان المتطلبات الضرورية ضمان الخصوصية فعالة.

كيف تعمل PATE؟

الآن دعونا تطوير فهم كيف يقوم إطار PATE على هذا الاكتشاف، والتعلم من بيانات السرية الموثوق بها. في PATE، ونحن أولا وقبل كل بيانات الخصوصية مجموعة الى مجموعات فرعية من البيانات. هذه مجموعات فرعية هي أقسام مختلفة، لذلك لن يكون هناك تداخل بين أي من البيانات الواردة في القسم. إذا سجل جين سميث على مجموعات البيانات الخاصة بنا، لذلك لا يتضمن سوى في قسم واحد. ندرب نموذج تعلم آلة تسمى "المعلم" في كل قسم. كيفية تدريب نموذج من دون أي قيود. هذا هو في الواقع واحدة من المزايا الرئيسية لPATE: تعلم خوارزمية لبناء نموذج "المعلم" هو مجهول. كل "المعلم" يتم حل نفس الجهاز نموذج مهام التعلم، ولكن يتم تنفيذ عمليات تدريبهم بشكل مستقل. وهذا هو، تحليل فقط "المعلم" جين سميث السجلات أثناء التدريب. هنا مثال على جزء من الإطار.

لدينا الآن تدريب "المعلم" مجموعة نموذج منفصل، ولكن ليس هناك ما يضمن الخصوصية. كيف نستخدم هذه المجموعة إلى احترام خصوصية التنبؤ ذلك؟ في PATE، ونحن زيادة الضوضاء، في حين يتم جلب التنبؤ كل "المعلم" وحده معا، لتشكيل توقعات موحدة. حسبنا لإنتاج عدد من طراز "المعلم" للتنبؤ كل فئة (وهذا هو، وعدد كل فئة من التصويت)، وبعد ذلك إلى تعطيل عدد بإضافة عينات عشوائية من الضوضاء لابلاس أو توزيع التمويه. مألوفة الخصوصية التفاضلية قراء الأدب نعرف لتعظيم آلية الضوضاء. عندما يكون عدد الأصوات مخرجات اثنين من نفس الفئة، وهذا الضجيج ضمان أن فئة لديها فإن أكبر عدد من الأصوات يكون فئتين تم اختيارها عشوائيا واحد. من ناحية أخرى، إذا كان معظم من طراز "المعلم" تنتج نتائج تصنيف نفسها، زيادة الضوضاء ولا يغير من حقيقة أن هذه الفئة للحصول على أكبر عدد ممكن من الأصوات. يوفر هذا التنسيق خفية ضمانة لصحة والخصوصية التنبؤات جعل آلية البلمرة الضوضاء - طالما أن درجة التوافق بين "المعلم" هو بما فيه الكفاية العالية. يصور الرسم البياني التالي تم تعيين آلية التجميع حتى "المعلم" بين التوافق: إضافة ضجيج عشوائي لفرز الاصوات لا يغير المرشح تسمية التصنيف.

من أجل الوضوح، نحن لتوضيح مهام التشخيص آلية البلمرة الطبية المزدوجة، ولكن يمكن تمديد العمل بآلية للعديد من الفئات. الآن، دعونا نحلل نتائج هذه الآلية - إذا جين سميث يعاني من سرطان (يكون "المعلم" نموذج التدريب القائم على قسم البيانات الفريد الذي يحتوي على جين سميث) من النموذج الأحمر قد تعرف، وكان جين سجل مماثل لتحديد المريض كان يعاني من خصائص السرطان، وبالتالي تغيير توقعاتها لوجود اختبار سرطان المدخلات (على غرار جين). هناك نوعان من "المعلم" توقع التصنيف هو "السرطان" (2 التصويت لصالح "سرطان")، في حين أن اثنين آخرين "المعلم" وتوقع تصنيفها على أنها "الصحة" (2 التصويت ل "الصحة"). في هذه الحالة، إضافة إلى التصويت اثنين من الاعتماد الضجيج العشوائي لمنع البلمرة من أي نتائج التصويت تعكس "المعلم" لحماية الخصوصية: نتائج مجمعة الضوضاء من المحتمل أيضا أن يكون "بصحة جيدة" أو "السرطان".

عند هذه النقطة، PATE توفير API الخصوصية التفاضلي: آلية الضوضاء التنبؤ البلمرة من التسميات التفاضلية لديها ضمان خصوصية صارمة، الأمر الذي يحد من الميزانية الخصوصية لوصفها الإدخال. في مثالنا، فإننا يمكن أن تحد من احتمال توقع العلامة خصوصية التدريب "المعلم" السجلات التي تأثرت، بما في ذلك أمثلة من جين سميث. نحن نستخدم محاسب لحظات وRENYI التفاضلية الخصوصية اثنين من التقنيات حدود محسوبة. باستخدام التصويت الرسم البياني لكل الاستعلام، ونحن تقييم احتمال حدوث نتيجة إجمالية، حقن الضوضاء بسبب تغير. ثم سنقوم بتلخيص هذه المعلومات على جميع الاستفسارات. في الممارسة العملية، يعتمد ميزانية الخصوصية بشكل رئيسي على توافق بين "المعلم" وزيادة في عدد من الضوضاء. وكلما أظهر الاتساق بين وجهات نظر "المعلم" أكثر إنتاج نفس الفئة نتيجة التصويت، وغالبا ما تميل إلى أن تكون أقل ميزانية الخصوصية. في بعض الحالات، قبل احتساب "المعلم" عدد من الأصوات لتصنيف النتائج سوف تنتج الكثير من الضجيج يزيد من خصوصية ميزانية صغيرة. يذكر أن ميزانية أصغر يتوافق مع خصوصية أقوى ضمانات الخصوصية.

ومع ذلك، واجه مع اثنين من القيود على الإطار قليلا. أولا وقبل كل شيء، والتي حصلت عليها آلية البلمرة لكل التنبؤ سيزيد من الميزانية الإجمالية للخصوصية. وهذا يعني أنه عندما تريد أن يتنبأ عدد من التسميات، فإن مجموع الميزانية الخصوصية النهائية سوف تصبح كبيرة جدا - في هذه المرحلة، شريطة ضمان الخصوصية يصبح بلا معنى. ولذلك، يجب API تحد من عدد أقصى من الاستفسارات لجميع المستخدمين، ويتم الوصول إلى الحد الأعلى للحصول على مجموعة جديدة من البيانات لتدريب جديد "المعلم" مجموعة نموذج. ثانيا، لا يمكننا نشرها علنا مجموعة من نموذج "المعلم". خلاف ذلك، يمكن للمهاجم مراجعة نشرت "المعلم" المعلمات الداخلية، من أجل فهم نموذج تدريب خصوصية البيانات. لهذين السببين، PATE هناك خطوة إضافية: لإنشاء "طالب" النموذج.

"الطالب" النموذج هو عن طريق وسيلة لحماية خصوصية "المعلم" من جمع نموذج التحول المعرفة المتاحة للتدريب. وبطبيعة الحال، والضجيج هو آلية مهمة لأداة البلمرة. "الطالب" لتحديد المدخلات من مجموعة من البيانات العامة لا المسمى، ورفعها إلى وضع علامة عليها لدخول "المعلم" جمع. وآلية الضوضاء البلمرة تعطي علامة التبويب الخصوصية، "طالب" سوف تستخدم هذه التسميات لتدريب النموذج. في عملنا، حاولنا الخيارين: PATE فقط (للإشراف على الطريق) لتدريب الطلاب على المدخلات ملحوظ، ودخلت PATE- مع تميز وإنفراد (بطريقة شبه تحت إشراف لاستخدام صيغة ضد شبكة أو التدريب على القتال الظاهري).

"الطالب" النموذج هو PATE من المنتج النهائي، والتي لديها للرد على أي استفسارات يتوقع المستخدم النهائي. عند هذه النقطة، خصوصية البيانات و"المعلم" نموذج يمكن بأمان يتم تجاهل: "طالب" هو النموذج الوحيد للاستدلال. الآن نلقي نظرة على العيوب المذكورة أعلاه تلخيص الآن كيفية حلها. أولا، بمجرد الانتهاء من التدريب "طالب"، تم تعيين ميزانية خصوصية كاملة في قيمة ثابتة. ثانيا مهاجم، في أسوأ الحالات، يمكن الوصول يمكن أن "الطالب" المعلمات الداخلية تستأنف فقط التدريب "طالب" علامة التبويب الخصوصية. ويضمن هذا الضجيج من آلية البلمرة.

توازن جيد بات من الخصوصية والتعلم

كنت قد لاحظت أن الخصوصية والتأكد من صحة آلية البلمرة للتنبؤ التسمية مستمدة من درجة عالية من الاتساق بين النموذج "المعلم". في الواقع، عندما كان معظم من "المعلم" ليس من المرجح أن تغير عندما توقعات، النتائج زيادة تصنيف الضوضاء التي تم الحصول عليها حتى التصويت "المعلم". وهذا يوفر آليات تجميع قوية جدا لضمان الخصوصية. وبالمثل، فإن العديد من نموذج وصلت الى نتائج تصنيف نفس أعرب عن ثقته في دقة التوقعات، لأن هذه "المعلم" نموذج مستقل عن أقسام البيانات المختلفة للتدريب. وهذا ما يفسر لماذا حدسي PATE يمكن استخدام بعض التآزر جيد بين الخصوصية والتعلم.

قد يكون هذا مفاجئا. في الواقع، والفرق الخصوصية كسمة شائعة جدا، فمن خاصية اختيارية، ولكن كان لا مفر منه المفاضلة بينه وبين الأداء. ومع ذلك، الوضع تعلم الآلة مختلف. الفرق حقيقة الخصوصية يتفق تماما مع أهداف التعلم الآلي. على سبيل المثال، تذكر النقاط تدريب محددة، مثل السجلات الطبية جين سميث، في انتهاك للخصوصية في عملية التعلم، ولكن أيضا شكل من أشكال الإفراط في المناسب، ويقوض قدرة تعميم نموذج في المرضى الذين يعانون من السجلات الطبية نفسها من جين . وعلاوة على ذلك، فإن وسائل الخصوصية التفاضلية التي شكل من أشكال الاستقرار (ولكن صحيح لا).

هذه الملاحظة يسمح لنا لتحسين آلية البلمرة تصميم PATE في ورقة حديثة. هذه الآلية الجديدة --Confident Aggregator-- انتقائية: "المعلم" للإجابة على بعض الأسئلة فقط "الطالب" رفعت. عندما "المعلم" لطرح الأسئلة، ونحن أولا التحقق من توافق بين "المعلم" هو بما فيه الكفاية العالية. وإذا كان عدد من الأصوات وفاز "المعلم" في أكبر عدد من الأصوات في التسمية فئة أكبر من عتبة، ونحن نقبل الاستعلام "طالب" من. إن لم يكن، ونحن نرفض ذلك. العتبات أنفسهم بشكل عشوائي، وذلك لتوفير الخصوصية في عملية الاختيار. بمجرد تحديد الاستعلام، وسوف نستمر في استخدام آلية البلمرة الضوضاء الأصلي: نضيف الضوضاء لكل فرز الأصوات لكل التسمية المقابلة، وإرجاع أكبر عدد من الأصوات التسمية. هذه العملية هي على النحو التالي (هناك ستة في فئة مهمة، من أجل تجنب تضليل شخص في حالة مبسطة من القضية الثنائية).

في الممارسة العملية، يعني ذلك أن يتم إنفاق الميزانية الخصوصية الآن على أمرين: اختيار والاستفسارات الجواب. ومع ذلك، لأننا اختاروا الجواب مع سمة بين "المعلم" متسقة للغاية، وذلك لخصوصية على الاستفسارات الجواب ميزانية صغيرة جدا. وبعبارة أخرى، يمكننا ثقة مجمع كآلية لتصفية الاستعلام سوف تستهلك أكثر من الميزانية للخروج من آليات الخصوصية الأصلية. ولذلك، فإن "طالب" مستويات الأداء هي نفسها، الميزانية الإجمالية ثقة مجمع لتوفير الخصوصية لتكون أقل من آلية البلمرة الضوضاء الأولية. الشكل التالي هذا التحسن تصور وظيفة ( "الطالب") من عدد من الاستفسارات من قبل آلية الأصلية (GNMax) والكمال آلية (واثق GNMax) أجابوا وتحليل واستخدام البيانات ذات الصلة، استخدمنا لحظات محاسب أو RENYI أساليب الخصوصية التفاضلية.

كيفية تحسين نموذج PATE الباحثين تعلم الآلة؟

العوامل الرئيسية التي تؤثر على اثنين من قوة نهجنا توفر ضمان الخصوصية:

1، "المعلم" توافق في الآراء بين: عندما يكون هذا التوافق هو قوي جدا، والوسائل التي كلها تقريبا من "المعلم" لقد وجهت نفس التنبؤ التسمية، والحد من الانتاج الخصوصية الميزانية تأخذ التسمية المقابلة. بصريا يوضح يتم التنبؤ الشامل لجميع السيناريوهات "المعلم" تعلمت، حتى لو تم تدريبهم على مجموعات البيانات المنفصلة.

2، وعدد من الاستفسارات "طالب" من: سيتم إضافة لكل "المعلم" الاستعلام التسمية في التدريب "طالب"، "المعلم" قضى توقعات الميزانية على علامة التبويب هذه لالتكلفة الإجمالية للخصوصية. لذلك، واستخدام أقل قدر ممكن استفسار "المعلم" لتدريب "طالب" من شأنه أن يعزز خصوصية ضمان العرض.

هاتين النقطتين يمكن حلها بحتة من منظور التعلم الآلي. تعزيز "المعلم" شرط الإجماع قد توفر القليل من البيانات لكل "المعلم". هذه النماذج تحسين الدقة والتعميم قدرة الأفراد هي من المرجح أن تساعد على تعزيز درجة من نموذج الآراء. و "المعلم" نموذج التدريب تحت إشراف التعلم المختلفة، والحد من عدد من الاستعلام "طالب" هو مشاكل في التعلم شبه أشرف. على سبيل المثال، MNIST ومعظم خصوصية متقدمة نموذج حماية SVHN هو تدريب مع PATE-G، PATE-G باستخدام الصيغة ضد الشبكة في شبه إشراف إطار التدريب الطريقة "الطالب" البديل. "الطالب" يمكن استخدام مدخلات الخالي من الملصقات الكبيرة نسبيا، بأقل قدر ممكن ويجب أن تقبل إشراف "المعلم" هو.

لتسهيل هذا العمل، الإطار PATE هو المصدر المفتوح (https://github.com/tensorflow/models/tree/master/research/differential_privacy/multiple_teachers)، وقدمت كجزء من مكتبة نموذجية TensorFlow. للبساطة، وتصنيف الصور التعليمات البرمجية باستخدام قواعد البيانات المتاحة للجمهور، مثل MNIST وSVHN. يمكنك نسخ وتعيين PYTHONPATH المتغير المناسب في بيئة UNIX، على النحو التالي:

PATE وتتمثل الخطوة الأولى لتدريب "المعلم" النموذج. في هذه المظاهرة، كنا MNIST حجم مجموعة البيانات و "المعلم 250 في" مجموعة (أوراق انظر PATE لمناقشة لماذا هذا هو اختيار جيد).

هنا سوف توفر 250 نقطة تفتيش "المعلم"، والآن يمكننا تحميل واستخدام هذه الآلية نماذج البلمرة للإشراف على تدريب "طالب" من.

الثعبان train_student.py --nb_teachers = 250 = --dataset mnist --stdnt_share = 1000 --lap_scale = 20 = --save_labels صحيح

وهذا استخدام المدخلات من مجموعة اختبار ما قبل 1000 لتدريب "طالب" مجموعة اختبار من قبل لدينا 250 مجموعة "المعلم" واستخدام لابلاس آلية البلمرة ضجيج اتسمت 1/20. هذا سوف أيضا حفظ /tmp/mnist_250_student_clean_votes_lap_20.npy الملف الذي يحتوي على كافة التسمية "المعلم" درجة متوقعة من الخصوصية نستخدم هذه العلامات لتقييم "المعلم" هو.

لمعرفة المزيد عن قيمنا نموذج "الطالب" لضمان خصوصية مجموعة التفاضلية، ونحن بحاجة لتشغيل التحليل النصي، والتي سوف تستخدم المعلومات حول التوافق "المعلم" حفظه عندما التدريب "الطالب" للقيام تحليل الخصوصية. هنا، noise_eps يجب تعيين المعلمة إلى 2 / lap_scale.

الثعبان analysis.py --counts_file = / تمة / mnist_250_student_clean_votes_lap_20.npy --max_examples = 1000 --delta = 1E-5 --noise_eps = 0.1 --input_is_counts

يتم توفير الإطار مع PATE لتجديد آلية البلمرة الضوضاء الأصلية. نحن مهتمون بمعرفة أوراق القراء واثق كود ذات الصلة Agggregator آلية (الثقة آلية البلمرة) العرض يمكن العثور عليها في https://github.com/tensorflow/models/tree/master/research/differential_privacy/pate.

PATE المزيد من الموارد

نشرت أصلا في عام 2017 https://arxiv.org/abs/1610.05755 ICLR PATE الورق والعروض الصينية صور
وسيتم توسيع نطاق ICLR 2018 ورقة PATE https://arxiv.org/abs/1802.08908 هذا النهج لعدد كبير من فئات البيانات وكذلك الوضع غير المتوازن
جيثب الريبو رمز لPATE
جيثب الريبو رمز للتحليل الخصوصية المكرر من PATE

استنتاج

في تعلم الآلة، هناك خصوصية يمكن اعتبار حليفا وليس عدوا. مع تحسن التكنولوجيا، ومن المرجح أن تكون وسيلة فعالة التطبيع، والتي يمكن أن تنتج أفضل نموذج خصوصية تفاضلية. في إطار PATE، آلة الباحثين التعلم، إن لم يكن خبراء الخصوصية التفاضلية في هذا المجال، فإنه يمكن أيضا أن تسهم إسهاما كبيرا في تحسين خصوصية تفاضلية.

عبر www.cleverhans.io، AI مترجم تقنية مراجعة

طريق الحرير

البضائع الجافة | حليف غير متوقع: تحسين قضايا الخصوصية يمكن أن تؤدي إلى نماذج أفضل أداء الجهاز التعلم