رائد التعلم الآلي مايكل I. جوردان تسينغهوا الكلام البضائع الجافة

في 20 ديسمبر ، أقيم حفل التعيين والتقرير الأكاديمي للأستاذ الزائر المتميز في جامعة تسينغهوا للأكاديمي مايكل جوردان ، الذي استضافته كلية البرمجيات بجامعة تسينغهوا وشارك في تنظيمه معهد علوم البيانات. صالة المبنى الرئيسي.

ألقى الأكاديمي مايكل أوين جوردان كلمة رئيسية

وبعد الحفل ألقى الأكاديمي الأردني كلمة بعنوان "في التفكير الحسابي والتفكير الاستنتاجي وعلوم البيانات" التقرير الرئيسي الذي يشاركه أفكاره وممارساته حول القضايا الرئيسية لعلوم البيانات. لقد أجرى تحليلًا متعمقًا للتحديين النظريين والتحديين الرئيسيين اللذين نواجههما في سياق البيانات الضخمة ، واتخذ قيود الخصوصية والاتصال كأمثلة لتوضيح التفكير الحسابي والتفكير الاستنتاجي لحل هذين التحديين. أحدث نتائج البحث في المجال ، مع التركيز على إدخال جيل جديد من نظام التعلم الآلي الموزع Ray ، الذي يدمج الاستدلال الإحصائي ، والتعلم الآلي ، وحوسبة البيانات الضخمة ، ويتجاوز الجيل السابق من إطار الحوسبة الموزعة Spark.

التالي بعنوان الأكاديمي الأردن "التفكير الحسابي والتفكير الاستنتاجي وعلوم البيانات" تم تحرير النص الأصلي لتقرير الموضوع ، على أساس عدم تغيير المعنى الأصلي ، جزئيًا.

إنه لشرف لي أن أكون هنا ، لن أقدم محاضرة فنية اليوم ، لكنني سأظل أركز على المشكلات الفنية والرياضية - أعتقد أن طلاب Tsinghua يجب أن يهتموا بها. من المفيد التفكير في مسائل الرياضيات ، وسأقسم الحديث إلى قسمين.

سأبدأ ببعض التحديات ، والتي ستكون أكثر تقنية ؛ ثم سأنتقل إلى تحديات النظام ، لذلك بدلاً من تقديم بضع شرائح من نمو البيانات ، بما في ذلك استخدام البيانات ، سيركز هذا الجزء على البيانات الحقيقية مثل.

تخيل طلابي الذين تخرجوا للتو من بيركلي وذهبوا إلى وادي السيليكون للعثور على وظيفة. في اليوم الأول من العمل ، قال لهم المدير ، أريدك أن تساعدني في بناء نظام بيانات ضخم ، بغض النظر عن ماهيته ، لكنه سيحل محل نظام الخدمة التقليدي لدينا بنظام خدمة مخصص. يحدث هذا كثيرًا في وادي السيليكون ، وربما في الصين أيضًا.

ما تفعله أنظمة الخدمة التقليدية ، مثل البحث أو التجارة الإلكترونية أو الطب ، هو توفير نظام خدمة واحد فقط للجميع ، وعملهم على مدار العام هو استخدام البيانات لتحسين نظام الخدمة. لذلك ، عادة ما يكون نظام خدمة البحث نوعًا من الخوارزمية ذات المعلمات ، ويتم سكب البيانات ، ويتم تعديل المعلمات لجعل جودة بيانات الإخراج أعلى وأعلى.

على مدار العقد الماضي ، قاموا بجمع الكثير من البيانات وبدأوا في إدراك أنه يمكنهم تقديم أكثر من نظام واحد من الخدمات. يمكنهم توفير أنظمة خدمة مخصصة ، على الأقل للشركات الكبيرة. لا تستطيع الشركات الصغيرة التنافس مع الشركات الكبيرة في توفير عدد كبير من أنظمة الخدمة ، لكنها تدرك أيضًا أنه يمكنها توفير أنظمة خدمة أكثر تخصيصًا ، لذلك تبدأ العديد من الشركات الصغيرة أيضًا في التكيف في اتجاه التخصيص.

إذاً ، كفني ، ماذا يجب أن تفعل؟ كل ما علي فعله هو تكرار هذه الخوارزمية ربما مئات أو آلاف المرات ، مع بيانات أكثر تخصصًا وبيانات أكثر تخصيصًا ، كل منها في حلقة. بدلاً من تكرار بيانات كل فرد ، سأستخدم بعض البيانات مقسمة إلى مجموعات مثل بيانات نفس العائلة.

أنا بحاجة إلى الكثير من أجهزة الكمبيوتر للقيام بذلك في الخلفية ، ليس فقط أنظمة الخدمة ، ولكن الآلاف من النماذج ، وهذا هو المكان الذي نحن فيه الآن. كثير من الناس يتعلمون بناء مثل هذه الأنظمة ، وعادة ما ينجحون.

لكن المشكلة الحقيقية ليست هنا ، فالرئيس على علم ببعض المواقف. نحن نعلم أن النموذج الإحصائي خاطئ لأنه يعتمد على البيانات الموجودة ، لكن لا يمكنك السماح لعدد الأخطاء بالنمو مع قيام المزيد من الأشخاص بخدمة النظام - يمكنني التعايش مع عدد صغير من الأخطاء ، لكن لا يمكنني العيش مع الأخطاء النمو المستمر - وإلا عندما أضع هذه الخدمة في السوق ، فقد أحدثت 10 أخطاء في اليوم الأول ، وبعد مرور عام أصبحت هذه الخدمة شائعة للغاية ، لكنها صنعت 10000 خطأ ، فلن يكون هؤلاء الأشخاص البالغ عددهم 10000 سعداء ، ثم " أرغب في تقديم أخبار مهمة والشكوى من أن نظام الخدمة الخاص بك ليس بهذه الروعة.

لذا لا يمكنني التعايش إلا مع البيانات السيئة التي تظل كما هي ، ولا يمكن أن تتناسب مع حجم النظام. كخبير إحصائي ، أعتقد أن هذه هي المشكلة الحقيقية. لقد اعتبرت أنه عندما يزداد معدل الخطأ بشكل متناسب ، فإن استخدام معيار L2 أو L1 في الإحصاء للتحكم في هذا الخطأ يعادل التحكم في معيار L اللانهائي ، عليك التفكير في كيفية استخدام احتمال الذيل وقانون القوة ، انتظر القيام بذلك. يعرف طلابي ، إذا تم تدريبهم جيدًا ، كيفية التفكير في هذه الأسئلة وكيفية بناء مثل هذا النظام. والأسوأ من ذلك ، أن مديرك لا يطلب منك فقط حل هذه المشكلة ، ولكن بالمناسبة ، يجب أن يعمل النظام على الأقل بنفس سرعة النظام القديم ، حسنًا ، علينا الآن التفكير بطريقة حسابية. النصف الأول من الأمر عبارة عن نظام بالإضافة إلى الإحصائيات والتعلم الآلي ، وعلينا الآن تقدير وقت التشغيل ، ونريد أن يكتمل النظام في فترة زمنية معينة ، لذلك تجد أنك تقوم بشيء مشابه جدًا لـ عالم الحاسوب.

ليس لدى الإحصائيين مفهوم وقت التشغيل ، والناس في النظرية الإحصائية لا يناقشونه أبدًا ، ولا في التعلم الآلي. لا نعرف ما نسميه الحد الأدنى من وقت التشغيل ، وليس لدينا مفهوم يضع المخاطر الإحصائية المسموح بها ووقت التشغيل في الاعتبار. إذن في الإحصائيات ، أنت تعرف مقدار البيانات التي يتم استدعاؤها عادةً ، وتعرف مدى تعقيد مساحة فرضية الأبعاد للمعلمات التي تقيمها ، والمعادلات التي تم بناء النظام عليها ، لكنك لا تعرف وقت التشغيل ، ويختلف وقت التشغيل باختلاف كمية البيانات. هذا ما يفترض أن يفعله علماء الكمبيوتر ، من المفترض أن يتدخلوا ويحولوا بعض الكمية إلى وقت تشغيل.

لقد بدأ هذا في أن يصبح تحديًا صغيرًا لطلابي. سيقولون إنني أستطيع بناء نظام ، وإذا كان بطيئًا ، فسيتعين عليك إعطائي المزيد من أجهزة الكمبيوتر ، لكن ما زلت لا أستطيع اتخاذ قرار بشأن سبب عدم تباطؤه الآن. نظرًا لأن معظم أنظمة الخدمة هذه لها ميزانية زمنية ، مثل محرك البحث الخاص بك ، فإنك تحتاج إلى عشرات المللي ثانية للحصول على تعليقات ، أليس كذلك؟ كان هذا هو وقت استجابة أفضل محركات البحث في التسعينيات.

يمكنك الحصول على ملاحظات بعشرات المللي ثانية بعد النقر فوق زر البحث ، وليس النتائج الفورية. في الأجيال السابقة من محركات البحث ، كان النقر فوق الزر يضطر إلى الانتظار لفترة غير محددة من الوقت ، عادةً عدة ثوانٍ ، الأمر الذي كان محبطًا جدًا للمستخدمين ، لذلك أمضوا الكثير من الوقت في تحسين هذا الأمر ، وأخيرًا استجابوا ليصبح بضع أجزاء من الألف من الثانية لعشرات الألف من الثانية.

إذا قلت الآن إنني سأقوم ببناء نظام خدمة ، فسيتم تخصيصه وسيمنحك معلومات أفضل ، لكنه سيعمل بشكل أبطأ ولن يرضي أحد. أراهن أن هذا عامل مقيد تمامًا لمنشئي النظام ، مما يجعل هذه المهمة أكثر صعوبة.

إذا كنت تفكر لفترة أطول قليلاً ، على سبيل المثال ، قال المدير إن هذا النظام يجب أن يكون قابلاً للتطوير أيضًا ، فلدي اليوم 10 تيرابايت من البيانات ، وبعد خمس سنوات سيكون لدي حجم بيانات مستوى PB ، كل شخص لدي المزيد من البيانات ، ضع الشخصية اجعلها أفضل. لا يبدو أن هذا يمثل مشكلة ، يجب أن يؤدي المزيد من البيانات إلى نماذج أفضل ، ولكن بالنسبة للخوارزميات ، فإن المزيد من البيانات يعني وقت تشغيل أطول ، ويتطلب المزيد من الوقت لمعالجة البيانات. إذا تمت قراءة البيانات لأخذ العينات ، فستحصل على المزيد الأخطاء التي لا تريدها ، وعليك التحكم في تلك الأخطاء. لذلك في الواقع ليس لدينا دليل إرشادي لبناء مثل هذا النظام في الوقت الحالي ، إنه حقًا مجرد أشخاص يحاولون ويخمنون ، وإذا لم يعمل النظام كما هو متوقع ، فإنهم يشترون المزيد من أجهزة الكمبيوتر ، وفي النهاية يدركون أن الإنفاق أكثر من اللازم المال لا يزال لم ينجح والشركة أفلست. ومما زاد الطين بلة ، أنهم صمموا النظام اليوم ، وأنفقوا الكثير من المال ، ولكن في النهاية نادرًا ما نجح ، وظهرت بيانات جديدة ، ولم يتوسع النظام.

هذا أمر قاتل للعديد من الصناعات والشركات. إذا كانت مشكلة كبيرة للبحث أو التجارة الإلكترونية فقط ، إذا توقف النظام ، ستحصل على نتائج بحث سيئة على الأكثر ، لكنها ليست سيئة للغاية. لم يصب أحد. ولكن عند تغيير الصناعات ، مثل تطبيق أنظمة البيانات الضخمة في مجال الطب الشخصي ، فقد تحصل على نتائج تنبؤ سيئة ، وسيكون النظام بطيئًا للغاية ، وقد يكون هناك وفيات! إذا تم تطبيقه في مجالات النقل والتمويل ، فقد يضر الكثير من الناس. أعتقد أن هذه المشكلات تحدث بالفعل ، وأعتقد أن الكثير من أنظمة البيانات الضخمة تقوم بتنبؤات سيئة ، حيث يتعاطى الأشخاص عقاقير غير ضرورية ، ويخضعون لعمليات جراحية غير ضرورية ، ويخلقون مشاكل غير ضرورية.

وأعتقد أن هذه الحالة ستزداد سوءًا في الواقع حتى نطور مجموعة علمية من المبادئ الهندسية التي تسمح لنا بالتفكير في البيانات. إن القياس الذي أحب استخدامه هو بناء المباني والجسور الشاهقة. لقد طورت هذه الممارسات المجتمع البشري لآلاف السنين ، ولكن عندما تنهار المباني الشاهقة أو تنكسر الجسور ، فإنها تحصد الأرواح أيضًا.

ظهر الانضباط الأخير يسمى الهندسة المدنية. ادرس كيفية بناء مبنى في ضوء ارتفاع المبنى ، بالنظر إلى قوة الرياح الواضحة ، والتربة ، وما إلى ذلك. لكن في البيانات الضخمة ، ليس لدينا أي شيء من هذا القبيل. لدينا علوم الكمبيوتر ، والإحصاءات ، والتعلم الآلي ، ولدينا الكثير من الأفكار الجديدة ، ونحن أذكياء ويمكننا فعل أي شيء. لكن عندما نصمم نظامًا ، لا نعرف معدل الخطأ والتوقيت ، وما إذا كان بإمكاننا اتخاذ قرارات أفضل على نطاق واسع ، ولا نعلم أن هذا سيزداد سوءًا بمرور الوقت. وهناك الكثير من المشاكل الأخرى عند إنشاء مثل هذا النظام فعليًا ، مثل أن الكثير من البيانات تأتي من الأشخاص المهتمين جدًا بالخصوصية ، ولا يريدون إعطائك بيانات طبية ، خاصةً عدم رغبتك في الكشف عنها لأي أحد. لذلك لا يمكنك فقط أخذ البيانات وتحليلها ، بل عليك التفكير في جمع البيانات ، والتي تنطوي أيضًا على مخاطر إدارية ، وقيود النطاق الترددي ، وما إلى ذلك.

كل هذه القضايا يجب أن تؤخذ في الاعتبار لأنها تؤثر على جودة الاستدلالات الإحصائية وتزيد من الأخطاء ، وهي متطلبات شائعة للصناعة للموظفين ، ولكن لا يوجد مثل هذا المجال في الأوساط الأكاديمية يقدم هذه الحلول ، على الأقل بالنسبة لي هو كذلك . أعتقد أن هذا هو التحدي في القرن المقبل ، ليس لأخذ أفكارنا الحالية وتطبيقها مباشرة ، ولكن التفكير فيها وممارستها كعلم. لذا ، فإن الصياغة المفيدة جدًا لهذا السؤال هي - مزيج من التفكير الحسابي والتفكير الاستنتاجي.

التفكير الحسابي لا يعني معرفة كيفية برمجة واستخدام قواعد البيانات ، إنه التفكير. حول تجريد التفكير في مشكلة ، والنمطية ، والأداء ... كل شيء تتعلمه في فصل الحوسبة ، وليس البرمجة فقط. يجب أن يكون الأشخاص الذين لديهم خلفية كمبيوتر على دراية بهذه الأشياء ، ولكن ربما يكون التفكير الاستنتاجي غير مألوف. هذا شيء في الإحصاء له تاريخ يزيد عن مائتي عام. إنه ليس مجالًا جديدًا ، ولا يتعلق الأمر بالحصول على البيانات والبدء في العمل ، مثل الأشخاص الذين يعملون في قواعد البيانات.

بادئ ذي بدء ، نحتاج إلى التفكير في مصدر البيانات ، وما وراء البيانات ، وما هي المشاكل في عملية الحصول على البيانات ، وهذا هو الاستدلال ، الذي لا ينتمي بشكل صارم إلى فئة البحث في علوم الكمبيوتر. حتى لو انتهى بك الأمر إلى ما يسمى بالخوارزمية ، عليك التفكير في أخذ العينات الإحصائية والسكان وراءها. لذا في الحقيقة ، أنا لا أحب كثيرًا كلمة تعلم الآلة ، ولا أعتقد أن هناك شيئًا جديدًا ، فهي لا تزال تفكيرًا إحصائيًا. ولكن نظرًا لأن علماء الكمبيوتر لا يعرفون الكثير عن الاستدلال الإحصائي ، فلديهم اسم جديد يسمى التعلم الآلي.

لا يأخذ الكثير من أعمال التعلم الآلي في الاعتبار الاستدلال وأخذ العينات والسكان ، ويطبق فقط نماذج التعلم الآلي على البيانات دون الحصول على الإجابة الصحيحة نظرًا لعدم مراعاة التحيز والاستدلال السببي وما إلى ذلك. أعتقد أنه التحدي الحقيقي هو الجمع بين الاثنين ودراسته بجدية. اعتدت أن أركز أكثر على الخوارزميات والأنظمة ، وفي السنوات القليلة الماضية أصبحت أشبه بالمنظر أكثر فأكثر ، وأركز بشكل تدريجي على النظرية وأيضًا على الأنظمة من بعض النواحي. لقد رأيت مشاكل نظرية في عملية تصميم الأنظمة في المختبر ، فذهبت للبحث عن نظرية أجهزة الكمبيوتر والإحصاء ، ما هي المفاهيم التي لديهم وكيف يمكن دمجها. لذلك قمنا بتطوير تعددية التخصصات في علم البيانات ، وهذا ليس بالأمر السهل. هناك وظائف خسارة ومخاطر في نظرية القرار الإحصائي ، لكن لا يوجد مفهوم للوقت الجاري في نظريتها الأساسية. يمكنك الذهاب إلى آلاف الأوراق حول اتخاذ القرارات الإحصائية على مدى العقود ولن ترى أي ذكر لها. بجانب الكمبيوتر ، يمكنك العثور على آلاف الأوراق التي تناقش التعقيد ونظريات التعقيد المختلفة ، لكن لا يمكنك العثور على أي أوراق بحثية عن المخاطر الإحصائية. يمكن التحكم في معدلات الخطأ المستندة إلى البيانات باستخدام نظرية المخاطر الإحصائية. أيضًا ، لا يتضمن الفهم القوي لمشاكل التقدير الإحصائي فقط تعلم الخوارزميات ، ولكن أيضًا تعلم الحدود الدنيا ، وتعلم ما هو أفضل ما يمكنك فعله ، ولكن لا يوجد الكثير حول الحدود الدنيا في نظرية الكمبيوتر. هناك ، ولكن ليس الكثير.

الحديث التالي سوف يذهب إلى موضوعي الرئيسي اليوم ، ويتحدث عن بعض الأسئلة حول "النظرية". القيود "الحسابية" على مفهوم "الاستدلال" الإحصائي ، وبعض الأسئلة حول بناء كومة لتحليل البيانات. إلى حد كبير ما تم إنجازه في AMP Labs ، وبعض التطورات التي تلت ذلك تسمى RISE Labs.

لقد بنينا نظامًا ليحل محل Spark. أود إخباركم أن هذه في الحقيقة هي المرة الأولى التي أعلن فيها هذه المعلومات للجمهور. مشروع استبدال سبارك قيد التنفيذ ، وسيتم الانتهاء من الاستبدال في يناير ، وأعلن عنه اليوم.

دعنا نتحدث عن سلسلة من المشاكل الآن ، أستخدم حالة تحليل البيانات الخاصة. قد لا يهم ما إذا كانت هذه البيانات الخاصة ذات صلة بك أم لا ، لكنها تثير بعض الأسئلة. غالبًا ما يمتلك الأشخاص البيانات ويريدون أن تعمل هذه البيانات ، لكنهم يريدون أيضًا حماية بياناتهم ، مثل من يعرف بياناتهم. فقط تخيل السنوات القليلة القادمة من البيانات الطبية ، من المحتمل أن يحصل معظمكم على تسلسل الجينوم الخاص بك ، والآن يكلف 500 دولار للحصول عليه. ربما في غضون خمس أو عشر سنوات ، عندما تذهب إلى طبيبك ، قد يقول لك الطبيب ، ضع بعضًا من دمك أو لعابك في كوب حتى أتمكن من الحصول على جيناتك. سيحصل على كل ما لديك من ثلاثة مليارات زوج من الجينات وستكون موجودة في قاعدة البيانات ، ماذا سيفعلون بهذه البيانات؟

للتنبؤ بجميع الأمراض التي قد تصاب بها في المستقبل ، حاول أيضًا استخدامها في الطب الحيوي والمعلوماتية الحيوية. في المستقبل ، سيحاولون العثور على الدواء المقابل من خلال جين معين ، وربط العيوب في بعض جوانب الجين بالعلاج المقابل. هذه فرصة رائعة ، لكنها أيضًا تثير الكثير من المشكلات ، خاصة مخاوف الخصوصية.

إذا كنت باحثًا في الطب الحيوي وتواصلت مع البروفيسور وانج وأقول هل يمكنني الحصول على جيناتك؟ أعلم أن لديك هذه الجينات. كان يسألني: أولاً ، ماذا ستفعل ببياناتي الجينية؟ كيف ستحمي بياناتي الجينية؟

إذا قلت أن البيانات مخصصة للبحث عن الأمراض الوراثية لعائلته ، فسيكون سعيدًا جدًا بإعطائي جيناته. إذا قلت أنه يُستخدم لحساب معدلات التأمين وتحديدها ، فسيعتقد أنه أمر جيد أيضًا. يريد حماية نفسه بالبيانات. قد أتخلص من بعض البيانات وأستخدم بعضها فقط للبحث.

إذا قلت إنني أستخدم هذه البيانات لتظهر لك إعلانات من خلال Baidu ، فقد يرفض ، قائلاً إنه لا يحب استخدامي لبياناته بهذه الطريقة. لذلك يريد الجميع أن يكونوا قادرين على التحكم في بياناتهم الخاصة ، ونأمل أن يكون هناك شيء مثل معلمة قيمة التبديل للتحكم في درجة الخصوصية التي تنطوي عليها البيانات. يتم اتخاذ القرارات بناءً على قضية محددة والضمانات المتاحة. لذا لأخذ الخصوصية في الحسبان ، يصبح هذا النوع من الأشياء جزءًا من تكوين كومة البيانات ، وهو ليس بالأمر السهل.

سأوضح أدناه مع بعض الصور. أعلم أن العديد منكم يدرسون البيانات الضخمة ، لذلك دعونا نفعل ما يلي بالتفكير في البيانات الضخمة. لنفترض الآن أن قاعدة البيانات عبارة عن بيانات بنكية ، ولدي العمر والطول والوزن وعنوان بعض الأشخاص ومقدار المدخرات لديهم ، وهي بيانات بنكية نموذجية للغاية.

قد يكون "الاستعلام": من لديه أكبر عدد من الإيداعات؟ او ما هو متوسط الايداع؟ سأحصل على إجابة ، سأسميها ثيتا مع التلدة. إذا كنت تفكر في مشكلات الخصوصية الشخصية في قواعد البيانات ، فقد تتساءل: كيفية إضافة الضوضاء إلى قواعد البيانات لحماية خصوصية الأشخاص ، بحيث لا يتمكن الآخرون من الحصول على البيانات الأولية في قاعدة البيانات ، أو الحصول على معلومات حول المدخرين.

لذلك تضعه في قناة أو عامل تشغيل عشوائي Q ، وتحصل على قاعدة بيانات خاصة. عندما تطرح نفس السؤال في قاعدة البيانات هذه ، ستحصل على إجابة جديدة تسمى ثيتا بعلامة القوة (^) ، ونظرية لإثبات ذلك.

ثيتا مع علامة القوة (^) قريبة جدًا من ثيتا بعلامة التلدة ، واحتمال حساب النتيجة على Q مرتفع ، وجميع "الاستفسارات" وقواعد البيانات ، لذلك هناك حاليًا العديد من الإصدارات المختلفة لنظرية الحوسبة هذه ، من أكثرها شيوعًا الخصوصية التفاضلية ، والتي تستخدم على نطاق واسع. سيؤدي ذلك إلى زيادة البيانات المفيدة في قاعدة البيانات ، أي عند وجود مشكلة ، يتم حلها من خلال خوارزمية ، وأيضًا توفير ضمانات نظرية.

هل هذا النهج له خصائص استنتاجية؟ عندما دخلت هذا المجال لأول مرة ، سألت زملائي الذين يجرون بحثًا في قاعدة البيانات: "هل تقوم بالتفكير الإحصائي عند بناء الأطر"؟ يقولون ذلك بالطبع ، لأن "السؤال" يمكن أن يكون إحصائيًا بطبيعته ، مثل حساب المتوسط والانحراف المعياري ، إلخ. لكني أجبته ، "إنها ليست إحصائيات استنتاجية ، إنها مجرد إحصائيات وصفية."

يسأل ماذا يعني الإحصاء الاستدلالي؟ قلت إننا بحاجة إلى التحدث. هنا أعطي مثالًا آخر ، حالة من مجال البحث الطبي. لدي معلومات حول الأشخاص في بعض قواعد البيانات ، مع العمر والطول والوزن والمدة التي عاشوها مع الأدوية وبدونها ، وهي بيانات طبية نموذجية. حسنًا ، الآن ، هل أرغب في حماية خصوصيتهم؟ بالطبع افعل! هذه هي بياناتهم الطبية! لذلك سأستخدم نفس الطريقة لحماية خصوصية البيانات كما ذكرت سابقًا. لكن في مثال قاعدة بيانات البنك ، أركز فقط على الأشخاص الموجودين في قاعدة البيانات. إنهم أشخاص في قاعدة بياناتي وأريد أن أعرف مبالغ الإيداع الخاصة بهم ، ودخلهم ونفقاتهم ، أقوم فقط بإجراء بحث (إجراء استفسارات) حول الأشخاص في البنك.

ومع ذلك ، في حالة طبية ، قد لا أهتم بالأشخاص الموجودين في قاعدة البيانات ، في الواقع ربما يكون الأشخاص الموجودون في قاعدة البيانات قد ماتوا أو ذهبوا ... لا أهتم بهؤلاء الأشخاص. أقوم فقط بجمع البيانات لتقييم وعلاج المرضى الجدد بناءً على تلك البيانات ، لذلك أحتاج إلى التفكير في البيانات من المرضى الذين قد يتم تضمينهم في قاعدة البيانات في المستقبل ولكن لم يتم تضمينهم بعد. هذا هو التفكير المنطقي في الإحصائيات - تلك التي قد تكون موجودة في قاعدة البيانات في المستقبل ولكنها ليست كذلك بعد ، أريد دراستها.

لا يأتي هذا التفكير من علوم الكمبيوتر ، ولكن من التفكير المنطقي الإحصائي. لذا ، إذا كنت طبيباً ومريضاً ودخلت مكتبي ، فسأعطيه الدواء بناءً على عمره وطوله ووزنه. لكن لا يمكنني التخمين فقط ، فأنا بحاجة إلى إصدار أحكام بناءً على البيانات القديمة التي أحصل عليها من أشخاص آخرين ، لذلك فأنا لست مهتمًا فقط بالأشخاص الموجودين بالفعل في قاعدة البيانات.

هذه هي الطريقة التي يفكر بها الإحصائيون: يفكرون في "السؤال" عند مواجهة قاعدة بيانات ، مثل عدد الأشخاص المشاركين في عينة قاعدة البيانات. يجب أن يكونوا واضحين جدًا بشأن عدد الأشخاص ، لا يمكنهم فقط تحديد رقم ، ويجب أن يكونوا نموذجًا لأخذ العينات ، يمكن أن يكون عشوائيًا ، يمكن أن يكون خطيًا ، يمكن أن يكون هرميًا ... هذا شيء هم يجب أن نفكر فيه.

إذا لم تفعل هذا فلن تتمكن من الحصول على الخوارزمية. لا يمكنك الحصول على قاعدة بيانات وتريد فقط استخدام الخوارزمية وكيفية معالجة البيانات. هذا ليس تفكيرًا منطقيًا إحصائيًا. عليك التفكير في كيفية ترتيب البيانات ، وبعد ذلك يمكنك الحصول على الخوارزمية ، لذلك سيقوم الإحصائي بإجراء "سؤال" حول عدد الأشخاص (P) ، ويسأل عن أولئك الذين قد يتم تضمينهم في قاعدة البيانات في المستقبل ، لكن لم يتم تضمينها بعد بيانات المريض ، الخطوة التالية للحصول على الإجابة ، نسميها ثيتا. أظهر الإحصائيون أن سكان ثيتا وعينة ثيتا لديهم احتمالية كبيرة لتكون قريبة لجميع العينات (S) وجميع الاستعلامات وجميع التوزيعات الممكنة. هذا ما تفعله الإحصائيات ، وهذا ما كنا نفعله طوال الثلاثين عامًا الماضية أو أكثر.

المشكلة الجديدة هي الجمع بين المفهومين ، المنطق والحساب. لنفترض أننا نجمع مجموعة من البيانات ، فأنا أرغب في حماية خصوصية الأشخاص الموجودين في قاعدة البيانات ، أي منحهم ضمانًا عند جمع البيانات. لكني أحتاج أيضًا إلى التفكير في مجموعة الأشخاص الذين سيستخدمون البيانات لعمل استنتاجات. أحتاج إلى إثبات أن ثيتا الإجمالي قريب جدًا من عينة ثيتا ، وهناك احتمال كبير للمصادفة في سلسلة من S و Q والجوانب الأخرى. هذا هو هذا التحدي الجديد. وهي ليست مجرد مسألة خصوصية ، هذا التحدي موجود في العديد من المجالات ، مثل ضغط (البيانات) ، قد ترغب في التحقيق: إذا ضغطت مجموعة من البيانات في القناة Q لتطوير قاعدة بيانات مضغوطة ، لأن لدي الكثير البيانات التي حتى بعد ضغط البيانات ، ما زلت أرغب في إجراء تخمينات موثوقة حول البيانات الإجمالية.

صادف أن أحد طلابي ، Yuchen Zhang ، موجود هنا اليوم ، وهو يقوم ببحث في هذا المجال وقد كتب مقالتين جيدتين عن "حول استدلال البيانات وضغطها". أجرت جامعة كاليفورنيا ، بيركلي قدرًا كبيرًا من البحث حول قضية الخصوصية هذه. سأتحدث بإيجاز عن هذا اليوم. هذه خريطة إرشادية نموذجية لقضايا الخصوصية. ها هي بيانات الخصوصية. بعد المرور عبر قناة ، هذه هي قيمة Z ، التي ترغب في الكشف عنها للإحصائيين. ويستخدمونها لحساب نوع من وظيفة التقدير. شرائح ، لن أخوض في التفاصيل هنا ، لذلك قمنا بإعداد مشكلة تحسين مقيدة تبدو وكأنها نقطة سرج ولها تأثير إضافي.

هذا مخصص فقط للخبراء في الجمهور ليراه. بدءًا من الجزء الأحمر ، يُطلق على حد القيمة المتوقعة للخسارة الحد الأقصى للمخاطر في الإحصائيات ، والجزء الأزرق هو الحد الأقصى لوظيفة التقدير ، والتي تسمى الحد الأدنى من المخاطر القصوى. ثم الجزء الجديد الذي أضفناه هو الحد الأدنى لجميع القنوات ، في حد الحماية هذا المسمى ألفا ، تسمى درجة الخصوصية الخصوصية التفاضلية على مستوى ألفا. بعد إضافة ذلك ، لدينا الآن مشكلة تحسين كبيرة ، بمساحة معينة ، وتعقيد معين ، وخصائص رياضية معينة. لقد قمنا بحساب التفاضل والتكامل الرياضي لحل هذه المشكلة ، وأخيراً حصلنا على الكثير من الإجابات ، لكننا حسبنا نتيجة بسيطة جدًا . ، يتم الحصول على معدل إحصائي بدون خصوصية.

انظر إلى عدد نقاط البيانات n ، ثم استبدل n بـ n مرات مربع ألفا مقسومًا على alpha هي معلمة الخصوصية التفاضلية ، وهي بُعد البيانات ، حتى تحصل على صيغة جديدة. يمكن الحصول على هذه الصيغة الجديدة من خلال تحويل صغير للصيغة الأصلية ، ونحن الآن نجمع بين الخصوصية والإحصاءات. إنها حقًا في صيغة واحدة ، والتي تحتوي على بعض المتغيرات الإحصائية: عدد نقاط البيانات ، ومعلمة الأبعاد ، ومتغير ألفا المحسوب ، ومعامل الخصوصية التفاضلية ، لدينا عدة أوراق ، إذا كنت مهتمًا بهذا النوع من المشكلات ، تحقق من ذلك إذا كنت مهتمًا.

ما سبق هو مجرد مثال واحد على إجراء التكهنات بالاقتران مع مخاوف الخصوصية ، والمشكلة الأصعب هي الجمع بين التخمين والحساب مع شيء أوسع.

الحساب هو كل شيء ، أليس كذلك؟ علمنا تورينج أنه بإمكانه فعل أي شيء ، وأن التعلم الآلي هو مجرد مثال على الحوسبة. يمكننا القول: يمكنني تحقيق دقة معينة ومشكلة معينة ، وظيفة تقدير معينة وخوارزمية التعلم الآلي في وقت معين ومع قيود ذاكرة معينة ، هذه كلها أشياء يفعلها علماء الكمبيوتر. مثل الحديث عن الزمان والمكان ، وما إلى ذلك ، ما أفعله هو إضافة إحصائيات مثل تحليل الأخطاء الإحصائية ومخاطر وكمية البيانات ، والتوصل إلى مجموعة من النظريات لدمج أجهزة الكمبيوتر والإحصاءات. لكنني أقول إنه غير ممكن ، ليس لدينا هذه القدرة في الوقت الحالي ، ولا أعتقد أن Turing Complexity تمضي قدمًا ، ومن الواضح أنها ليست اتجاهًا. تعقيد الاتصال في مجال التحسين قد تكون هذه مفيدة ، وقد يكون أحدها هو الحل النهائي. هذا المجال يحتاج إلى أفكار جديدة ، ونحن بحاجة إلى مفهوم جديد للحوسبة. مفهوم Turing للحوسبة عام جدًا ، إنه كل شيء ، لكننا لسنا بحاجة إلى القيام بكل شيء في جهاز واحد ، خاصة بالنسبة للعديد من مشغلينا ، تغيير التاريخ قليلاً ولا يتغيرون كثيرًا ، لديهم استقرار جيد جدًا أو Lipschitz منشأه. يمكننا التفكير في بعض نظريات الحساب باستخدام خاصية Lipschitz ، والتي لا تتغير كثيرًا ، لا تحتوي Turing Complexity على هذه الخاصية ، ويمكن لتغيير بسيط أن يغير الإجابة التي تحصل عليها تمامًا. قد تقلق بشأن ذلك في الحوسبة ، لكن لا داعي للقلق كثيرًا في الإحصائيات!

لذلك ربما يمكننا تطوير نسخة أكثر تقييدًا من "الحوسبة" ، أي أكثر ملاءمة "للمضاربة" الإحصائية. يُظهر هذا الجزء من البحث ما يقرب من 10 سنوات من البحث حول هذه المشكلة ، ولا يمثل أي منها حلاً ، لكنها جميعًا محاولات للجمع بين الحساب والإحصاء بطرق مختلفة. إحدى الطرق المبكرة هي الجمع بين الحساب والهندسة ، ثم الهندسة والإحصاء ، وأخيراً من الجمع إلى التخمين. هذه هي العلاقات القائمة بالفعل من الاسترخاء المحدب ووقت التشغيل بين الحساب والهندسة ، وهناك بحث عنها ، حتى نطور مجموعة من النظريات المتوازية. الجمع بين الهندسة والإحصاءات: ببساطة ، عندما "تسترخي" مشكلة ما ، من المعروف أن وقت التشغيل يتناقص ، ثم نظهر أنه عندما "تهدأ" المشكلة أكثر ، تزداد المخاطر الإحصائية بشكل أكبر ، وبالتالي فإن وقت التشغيل ودرجة المخاطر الإحصائية مرتبطة بشكل سلبي. لقد نظرنا أيضًا في التحكم في التزامن ، وهو مفهوم مألوف لأفراد قاعدة البيانات الذين يستخدمونه للتحكم في المخاطر الإحصائية مقابل مقايضات الوقت ، وقد أجرينا الكثير من الأبحاث حول تحسين النطاق الأدنى لـ Oracle ، بما في ذلك معدل التحسين ، وكذلك حصلت على الكثير من النتائج المثيرة. لدينا أيضًا الكثير من الأبحاث حول أخذ العينات الفرعية ، حيث تأخذ مجموعات بيانات أصغر وتحاول التأثير عليها ثم نقلها إلى مجموعات بيانات أكبر.

هذا مفهوم طبيعي جدًا في أجهزة الكمبيوتر يسمى فرق تسد ويمكن أن يؤدي إلى إحصائيات صعبة حقًا. مثل فترات الثقة ، إذا قمت بتقليل كمية البيانات بواسطة بعض العوامل الأكبر ، فإن فواصل الثقة تصبح أكبر. إذا استخدمت قدرًا صغيرًا من البيانات ، فإنني أحصل على إجابات خاطئة وأحتاج إلى تصحيح الأخطاء بطريقة ما عندما أعيد المقياس إلى الوراء ، فإن معرفة كيفية القيام بذلك ليس بالأمر السهل.

هذا كل شيء عن الثلثين الأولين من هذه المحاضرة ، والتي تدور حول النظرية. الآن دعنا نتحدث عن النظام ، سيكون هذا قصيرًا نسبيًا. في وقت سابق كنت باحثًا رئيسيًا مشاركًا في مختبر أعمل على تحليل البيانات وأنظمة التطوير. حاول الجمع بين الأفكار من الإحصائيات والتعلم الآلي. لدينا بعض الإنجازات ، لكننا ما زلنا في المرحلة المتوسطة. انتهى هذا المشروع التجريبي المسمى AMPLab منذ حوالي شهر ، ونقوم بإعداد مختبر جديد يسمى RISE Lab. أيون ستويكا هو رئيس المختبر الجديد ، وأنا أيضًا رئيس أحد الباحثين.

سأقدم مقدمة موجزة عن المختبر الجديد. أولاً ، يتم رعاية المختبر إلى حد كبير من قبل الشركات. منحتنا جامعتنا القليل جدًا ، ولم تقدم لنا أي دعم في الأساس. لم تقدم حكومة الولاية أيضًا أي دعم ، ويرجع ذلك إلى حد كبير إلى الأزمة المالية في كاليفورنيا. لذلك بدأنا في الوصول إلى الشركات للحصول على الدعم ، وكان جمع التبرعات لدينا ناجحًا للغاية ، وقد قدمت لنا هذه الشركات دعمًا هائلاً لتشغيل المختبر ، ولهذا السبب تمكنا من تشغيل المشروع لمدة 5 سنوات. أتذكر أنه كان هناك العديد من الشركات الصينية من بين الرعاة ، وأتذكر أن Huawei كانت متورطة في مرحلة ما ، والشركات في هذا الفيلم كانت مشاركة بالفعل عندما صنعنا هذا الفيلم. كانت الفكرة الأولية هي التفكير في البيانات البشرية والتعهيد الجماعي جنبًا إلى جنب مع الخوارزميات التي أجيدها - التعلم الآلي والحوسبة السحابية والآلية وغيرها من المجالات التي يجيدها زملائي. هذه هي فكرتنا الأساسية.

نحن أحد المساهمين في نمو برامج الحوسبة الموزعة. الآن تم توسيع النظام البيئي في هذا الاتجاه بشكل كبير. تم تطوير Spark في مختبرنا وهو جزء مهم من هذا النظام البيئي. كان السبب الحقيقي وراء ولادة Spark هو أن باحثي التعلم الآلي في مجموعتي كانوا غير راضين جدًا عن Hadoop ، وقد اشتكوا كثيرًا. طلبنا منهم استخدام Hadoop لإجراء اختبارات على نطاق واسع في البداية ، وشعر الباحثون أن Hadoop غير مناسب تمامًا للتعلم الآلي لأن معظم التعلم الآلي (الخوارزميات) يتطلب التكرار وإدخال البيانات ومعالجة جزء صغير من البيانات وإجراء تعديلات على المعلمات: تعديل بسيط ، إعادة معالجة البيانات ، ثم تعديل بسيط ، يجب تكرار العملية.

بالنسبة إلى Hadoop ، يجب تصدير البيانات من القرص وإعادة تخزينها بشكل متكرر ، ويجب تعيين كل خطوة بشكل متكرر وتقليلها ، ثم العودة إلى القرص لقراءة البيانات. كانت العملية بطيئة للغاية ، وسمع الطالب الذي يدرس الأنظمة ، ماتي (ماتي زاهريا) ، مناقشتنا وساعدنا في تطوير نظام جديد يخزن معظم النتائج الوسيطة مؤقتًا بدلاً من كتابتها على القرص ، وولد سبارك. هذا هو أحد أنظمة Spark البيئية لمكدس AMPLab. يوجد في الجزء السفلي طبقة التخزين وطبقة المحاكاة الافتراضية للموارد ، لكننا ندرس الطبقات العليا بشكل أساسي.يدعم Spark Streaming معالجة البيانات المتدفقة وحساب الأخطاء وعمليات أخذ العينات ، فضلاً عن اللغات المختلفة ومعالجة الصور.

Splash هو إطار عمل للحوسبة المتوازية طورته You Chan ، الموجود هنا اليوم أيضًا ، والذي طور أيضًا أدوات أخرى متعلقة بالتعلم الآلي. سأصف أيضًا بإيجاز الخادم النموذجي Velox ، حالة النظام البيئي منذ حوالي عام ، وقد استمر في التطور خلال العام الماضي واتضح أنه ناجح للغاية. جزء من السبب هو أنه تم تطويره من قبل الأوساط الأكاديمية. أصدرت العديد من الشركات مجموعات برامج تحليل البيانات. قامت IBM و Google و Microsoft بإصدارها. بشكل أساسي ، لم تجذب اهتمام الجميع. لا أحد يستخدم أدواتهم. هذا البرنامج (Spark) تُستخدم على نطاق أوسع بكثير من أدوات المؤسسة هذه ، ولا يتطلب تطوير Spark سوى عدد قليل من الأكاديميين لأن الباحثين (المستقلين) الآخرين يثقون في الأوساط الأكاديمية.

لن تجعلهم الأكاديميون فجأة يدفعون مقابل البرامج ، ولن يغيروا البرامج كما يحلو لهم ، ولن يبنوا نموذجًا تجاريًا للبرمجيات وسيصبح الباحثون الجزء الأوسط ، لذا فإن الأكاديميين قادرون تمامًا على التنافس مع الشركات الكبرى. لديك حق الوصول إلى جميع أنواع الموارد ، لا أحد يثق حقًا في الأعمال التجارية الكبيرة ، لكنهم سيثقون بك!

اسمحوا لي أن أشرح بإيجاز هذه المشكلة التكرارية. سأنتهي في غضون بضع دقائق. كل ما وصفته للتو موجود في هذه الصورة. هذا هو مبدأ التعيين / التبسيط الكلاسيكي ، ونأمل أن تكون جميعًا تعلم بالفعل أن MapReduce يأخذ البيانات ، وينفذ خطوة تعيين على التوازي ، ويحسبها في خيوط متعددة وخوادم متعددة ، ثم ينفذ خطوة تبسيط ، ويتكرر. هذا النهج مكلف ، لذا فإن مبدأ Spark هو تخزين مخرجات كل مرحلة لتكوين ذاكرة تخزين مؤقت ، بحيث لا تحتاج دائمًا إلى حفظها على القرص.

تبدو هذه الفكرة سهلة ، لكنها تتطلب الكثير من العمل من العديد من الأشخاص لإنشاء نظام يمكن توسيع نطاقه ، فما هي الخطوة الكبيرة بعد Spark؟

لقد عملنا جميعًا على مشروع جديد خلال الأشهر القليلة الماضية لم يقم به الطلاب الذين يدرسون النظام. كان اثنان من طلابي مسؤولين بشكل أساسي عن هذا المشروع ، وتمكنا من العمل على الأنظمة لاحقًا ، هما فيليب موريتز وروبرت نيشيهارا ، اللذان تعاونا أيضًا مع زميلي أيون ستويكا. أيون خبير في مجال الأنظمة ، أطلقنا عليه اسم Ray ، الإصدار التجريبي سيصدر في شهر كانون الثاني (يناير) ، وآمل أن يبدأ الجميع في استخدامه. اشرح بإيجاز سبب رغبتنا في تنفيذ هذا المشروع - نحن مهتمون بهذا المشروع بشكل أساسي لأننا باحثون في التعلم الآلي ، والعديد من المشاكل في التعلم الآلي هي أكثر بكثير من البيانات ، والعديد منها مرتبط بالبحث والتحسين والجبر الخطي ، Spark غير فعال للغاية في هذه المجالات ، خاصة مع الجبر الخطي ، تعمل MPS أسرع بكثير من الأنظمة الأخرى ، لكن لا أحد يحب استخدامها ، من الصعب جدًا البرمجة عليها ، وهي غير مناسبة للأجهزة المتوازية الشائعة اليوم. هذه هي أنواع المشاكل التي نريد حلها ، ونريد أن نكون قادرين على تشغيل نفس الكود على جهاز واحد ومجموعة ، وهذا أحد الاعتبارات.

أيضًا ، لا نريد تعديل الكود في التوزيع ، نريد أن يدعم النظام عددًا كبيرًا من المهام الصغيرة ، مما يعني مشاركة المزيد من البيانات بين المهام المختلفة. لذا بدلاً من استخدام هذه الخريطة الكلاسيكية / نموذج التخفيض على اليسار ، هذا النموذج يشبه إلى حد كبير نموذج تدفق البيانات ، عندما يتلقون جميع المعلومات التي يحتاجون إليها ، يمكن تنفيذ المهمة. لا يوجد حاجز مزامنة في هذا الوضع ، وهو أمر مهم للغاية. لتحقيق هذه الفكرة يتطلب الكثير من العمل في جدولة المهام. لقد بذلنا الكثير من الجهد في الجدولة. من الواضح أن هذا الأسلوب له العديد من المزايا. إذا حاولت وضع الشبكة العصبية في Spark ، يمكن أن تكون مشكلة حاجز المزامنة مزعجة للغاية ، يمكنك فقط تنفيذ جزء من المهمة ، ثم الانتظار حتى تكتمل جميع المهام الأخرى قبل أن تتمكن من الانتقال إلى الطبقة التالية. في هذا النظام ، في الواقع ، تكتمل بنية تدفق البيانات بعد العقدة الزرقاء ، ويمكن تنفيذ العقدة الحمراء ، ويتم تنفيذ المهمة خطوة بخطوة عبر الشبكة بالكامل. تم تنفيذ هذا المثال في Python. الهدف هو التحويل إلى موزع مع تغييرات قليلة جدًا في كود Python. في هذا الكود ، يتم تنفيذ العملية بكل حجم خطوة معين ، ويتم تشغيل النتيجة المرجعة بالتوازي مع أحجام خطوات مختلفة. هذه هي في الأساس الطريقة الكلاسيكية للقيام بالتعلم الآلي.

ألقِ نظرة على مجموعة الأوامر الجديدة هذه ، عن بعد ، والتي ترشد النظام إلى استخدام البيئة الموزعة لبدء المجدول وتشغيل كل التعلم الآلي على الواجهة الخلفية. دعونا نلقي نظرة على بنية النظام. يتم إنشاء الكائنات المحلية والمتغيرات العامة أثناء التشغيل ، بما يتوافق مع الجدولة المحلية والعالمية ، وكذلك العلاقة بين جميع العوامل ذات الصلة. هذا هو المبدأ الأساسي للبنية بأكملها.

في الأساس ، هذه هي النسخة الموزعة من Python للتعلم الآلي الموجودة بالفعل ، وقد تم تطوير النظام ، وهو أسرع بكثير من Spark وفقًا للعديد من المعايير. هذا هو الجيل التالي من أدوات معالجة البيانات الضخمة ، ومشروع آخر في المختبر مرتبط بخدمات النموذج. في كثير من الحالات ، نبني نماذج كبيرة جدًا وندخل قدرًا هائلاً من البيانات ، وعندما يصبح كل شيء كبيرًا جدًا ، يصبح من الصعب الحصول على استجابة في الوقت الفعلي من النظام ، لذلك نحتاج إلى أن نكون قادرين على تشغيل النموذج الكبير في في نفس الوقت ، وسريع التشغيل مع النموذج الكبير. فيما يتعلق بأنظمة النماذج الصغيرة ، يمكننا التكرار بسرعة عبر النموذج الصغير عند الحافة ، ثم نقل المعلومات ببطء إلى النموذج الأكبر.

هذا يشبه إلى حد ما عمل الدماغ البشري. فنحن نولد كمية صغيرة من الذاكرة كل يوم ، ونشكل ذاكرة قصيرة المدى ، ثم ننتقل إلى ذاكرة طويلة المدى. ويمكن لهذا النظام حل العديد من هذه الأنواع من نحن بحاجة إلى اتخاذ قرارات سريعة باستخدام نموذج محلي مبسط ، ثم دمجها تدريجياً في النموذج الكبير.

أنا على وشك إنهاء حديثي ، هذا الموضوع موجود تقريبًا ، نحتاج إلى الانتباه إلى الهيكل ، هناك قسم تعليمي على جانب واحد ، يبني نموذجًا كبيرًا ، ثم هناك ما نسميه قسم الاستدلال ، والذي يمكن أن يعتمد على النطاق الزمني الأصغر الحالي. اضبط النموذج. هذا كل شيء لهذا الموضوع!

بالعودة إلى الموضوع ، على مدار السنوات العشر الماضية ، كان عملي ومنشوراتي في الغالب مرتبطة بالمشكلات الرياضية المجردة. إذا كنت مهتمًا بالمشكلات النظرية ، فيجب أن تكون متحمسًا! هذا مجال مليء بالمشاكل النظرية الجديدة ، البيانات غير المتزامنة ، الموزعة ، المتدفقة ، وما إلى ذلك ، وكلها مرتبطة بالأنظمة السلوكية ، وعدد كبير من المشاكل النظرية. تحتاج أيضًا إلى التحكم في الخطأ الإحصائي ، وهو أمر جديد بالنسبة للباحثين النظريين ، حيث يمكننا بالفعل بناء أنظمة ، والحصول على البيانات ، وتجربة جميع أنواع المعالجة ، وتنفيذ النماذج. هذا تعاون لم يسبق له مثيل.

شكرا مرة أخرى لدعوتي للتحدث هنا!

كأس القارات النهائي: الفائز الألماني! أول لقب واجتاحت غولدن غلوب الحذاء الذهبي +

إجمالي عمليات السطو في "تعيين في اليوم التالي" عائدا أخذ الأشياء الثمينة لا تنس أن تأخذ على طول الدواجن

تعلم الآلة، جعل السفر أفضل - قطع مقابلة البيانات التعدين مهندس مرة واحدة قالت

كأس القارات النهائي - ألمانيا 1-0 تشيلي الفوز في البطولة الأولى هدف الفوز Shitingdeer

Jingdong "روبوت مطعم" فتح رأس جسر "لا" اليمين الميدان "أكثر من 95 من مطعم العالم"

الاتحاد تسينغهوا صناعة البيانات الكبيرة التي عقدت بنجاح المجلس الثالث

هو شرير الفيلم الأول لكرة القدم الصينية! Feichan مرارا التدافع، المساعدات الخارجية إرادة الأنف إلى خمسة Tiduan

مناقشة على البناء والتنمية من مقاطعة سيتشوان المركز الاعلامي المالية شارع 95 مقاطعات (المدن) تجمعوا في تسيقونغ

"مرض السلائف" البيانات الكبيرة الطبية الحيوية - "المرض" التشخيص الكمي

متقاعد جامعة المعلم دان تيان رونغ قوى معرض نعتز اعترض جمهور يصل

ثم اختيار وو لي اثنين من أفضل فريق! شريك أمام اثنين من الله، مما يؤدي 3-1 ميسي

أصدرت ديلويت "التكنولوجيا السريع 500"