ويجب ألا ننسى البيانات المهيكلة الذكاء الاصطناعي

في التعامل مع هذه القضية من البيانات غير المهيكلة، والذكاء الاصطناعي وعمق أساليب تعلم وكان الأداء المتميز ومعترف بها بشكل جيد، سواء في معالجة اللغة الطبيعية، وقاعدة المعرفة بنيت تلقائيا، أو لتحديد وتوليد صورة تطبيق الفيديو، وهناك الكثير من الحالات ناضجة .

ومع ذلك، فإن دراسة البيانات المهيكلة، يبدو أنه قد تم الذكاء الاصطناعي وعمق التعلم فقد ل. منظم مشترك البيانات لجميع أنواع التطبيقات ونظم العمل، على سبيل المثال، هناك الكثير من بيانات المنتج تخزين البيانات المهيكلة، وسجلات المعاملات، وتخطيط موارد المؤسسات وإدارة علاقات العملاء النظم، وهذه البيانات المهيكلة لا تزال سارية البيانات القديمة التقنيات، مثل تلك التي تقوم معالجة نظم، وأشجار القرار وهلم جرا المستندة إلى الحكم. تتطلب هذه الأساليب اليدوية استخراج ميزة، مرهقة لتشغيل ويتطلب الكثير من العلامة بيانات القوى العاملة.

على الرغم من أن أحدث التطورات في مجال الذكاء الاصطناعي من استخراج البيانات غير المهيكلة وكانت قيمة هائلة، ولكن لبيانات المنظم والبحث والتطبيق لا يمكن تجاهلها، لأن البيانات لدفع عجلة التنمية التجارية المشاريع المهيكلة، والإيرادات، أمن البيانات وإدارة البيانات هي ذات أهمية كبيرة.

مختلفة من البيانات غير المهيكلة، البيانات البحثية منظم AI كان هناك تحديا كبيرا، وهذا هو حساسية عالية لجودة البيانات. للحصول على بيانات غير منظم، والناس قد تكون قادرة على قبول القرار من شريط الفيديو ليست عالية، والتعرف على صورة معيبة قليلا. ولكن بالنسبة للمشاريع الكبيرة مع عدد كبير من البيانات المهيكلة، البيانات أعمالها الأساسية لا يسمح أدنى خطأ. على سبيل المثال، لشركات الأدوية، وجرعة من المخدرات، وسعر وكمية البيانات الأخطاء حتى خفية، من المرجح أن يجلب كارثة كبيرة.

البحث عن هذه البيانات التجارية الأساسية (البيانات المهيكلة) على تطبيق الذكاء الاصطناعي، هي ذات قيمة كبيرة، ولكن محدودة بسبب الجودة العالية لمتطلبات البيانات من الشركات الكبيرة التي تكافح في هذا النوع من الأبحاث. على الرغم من أن تطبيق بحوث الذكاء الاصطناعي في البيانات المهيكلة بالفعل عدة عقود، ولكن لا تزال تحقق تقدما يذكر.

تعقيد البيانات وراء أنظمة العمل استنادا إلى تعقيد قواعد محددة والمنطق، مما يتطلب تنظيف البيانات من التدخل البشري وإعداد التكلفة العالية، وتعرقل تطور هذه الدراسة. لإحداث فرق في نتائج البيانات المهيكلة على تطبيق AI، تحتاج أولا إلى حل التنظيف اليدوي للبيانات وإعداد المشكلة، والعثور ضئيلة أو معدومة طريقة تلقائية لتدخل بشري، من أجل جعل يمكن توسيعها الطابق هذا التطبيق.

هذا هو السبب في أساليب التعلم آلة يمكن تطبيقها على إعداد البيانات المهيكلة وتنظيف من الأسباب، واحتياجات الحل النهائي لتكون قادرة على استخراج ميزات البيانات للشركات وفهم سياق البيانات لا صلة لها بالموضوع، وهذا نموذج قادر على تدريب مكثف من كميات كبيرة من البيانات، ونوعية البيانات التوقعات، حتى قادرة على وضع توصيات للمضي قدما لجودة البيانات إصلاح.

يتم تطبيق هذا النموذج لإعداد البيانات والتنظيف، ويمكنك حل المشاكل الهيكلية للبيانات لفترة طويلة - الكثير من التدخل اليدوي يتطلب إعداد البيانات وعمل التنظيف. هذا الحل لديه الشروط التالية:

  • كل الإشارات والسياقات، بما في ذلك قواعد العمل، وظيفة مفاتيح والقيود التبعية مثل والخصائص الإحصائية للبيانات قد تكون مجتمعة.

  • يمكنك تجنب بناء الكثير من القواعد، ولكن غير متوافق مع الحالات تطرفا. في كثير من الحالات، وإدارة البيانات المهيكلة أكثر تحديا من البيانات التنظيف صاخبة العادية، وارتفاع التكلفة.

  • في نهاية المطاف، ونموذج تنبؤي المقدمة من مستوى تطبيق لاختبارات جودة البيانات، وقادرة على نقل نوعا من "الثقة": نموذج التنبؤ يمكن أن تحل معظم الحالات، والعمل، وتحتاج فقط إلى التركيز على التعامل مع الحالات الخاصة.

وعلى الرغم من الصعوبات البيانات المهيكلة في تطبيق البحوث AI، وجدنا بعض الطرق لا تجعل التقدم. هيكل معالجة البيانات ليس فقط تعتمد على خصائص (متفرق، الأيزومرات، والغنية مجال المعرفة الدلالي) البيانات نفسها، الجدول مجموعة البيانات (أسماء الأعمدة، أنواع الحقول، ومختلف المجالات القيود سلامة، الخ) قد فك كل البيانات معلومات الدلالات الهامة والتفاعلات الممكنة بين الكتل. على سبيل المثال، وهما مدينتان مختلفة لا يمكن لجميع تتوافق مع نفس الرمز البريدي، بميزانية إجمالية للمشروع لا يمكن أن يتجاوز خطط إنفاقها. هذه المقدمة كانت الظروف قيود واضحة، وهذه الشروط القيود من شأنه أن يعزز القدرة على نماذج التعلم الجهاز على معالجة البيانات المهيكلة، وليس فقط للتحليل الإحصائي.

حيث الهيكل معالجة البيانات هو التحدي الذي والبيانات المهيكلة قد تكون غير متجانسة، في حين أن مزيج من أنواع مختلفة من هياكل البيانات، مثل بيانات نصية، مجموعة البيانات الطبقة، حتى بيانات الصورة الرقمية. ثانيا، يمكن أن يكون جدول البيانات متفرق جدا. تخيل 100 الجداول، كل عمود له 10-1000 القيم المحتملة (مثل نوع من الشركة المصنعة والحجم والسعر، وما إلى ذلك)، وهناك الملايين من الصفوف الصفوف. سوى جزء صغير يرجع ذلك إلى مجموعة من القيم عمود معنى، فمن المتصور أن هذا الفضاء الجدول التركيبات الممكنة لكيفية "تفريغ".

إذا لم يكن هناك هيكل، مجال المعرفة والشروط، فإنه من الصعب أن نفهم كيف توليد البيانات ودقتها. لذلك، في حلول إعداد وتنظيف عملية بناء البيانات المهيكلة، ونحن تلخيص التحديات الرئيسية الثلاثة موجودة:

  • كيف خلفية معرفية في إدخال نموذج، للتصدي للتحديات تبعثر البيانات وغير متجانسة جلبت؟ في التنبؤ قيمة عمود، كيف نقدمها في آلة نماذج التعلم في القيود الرئيسية، والاعتماد الوظيفي، يلغي القيود النزاهة وغيرها من منطق معقدة كمدخل النموذج؟

  • تعلم كيفية تصميم نموذج في يقتصر على بيانات التدريب وهناك بيانات القذرة، وأحيانا لا يكون الوضع التدريب البيانات؟ لتحديد هيكل نموذج بيانات خاطئة كمثال، نموذج البيانات للعثور على جميع أنواع الأخطاء، بما في ذلك الأخطاء المطبعية، والقيم المفقودة والقيم خطأ، والحقائق المتناقضة، والبيانات، والتفكك وغيرها من المشاكل. هذه الأخطاء باستخدام بيانات محدودة للغاية موجود المتاحة والتي يمكن استخدامها خطأ عينة لتدريب نموذج مثل هذا، هو الحاجة إلى التغلب على التحديات.

  • كيفية نموذج تمتد إلى تطبيقات واسعة النطاق؟ كيف يمكن أن تدعم الملايين من المتغيرات العشوائية؟ إذا كان نموذج تدريب تحت ظروف تجريبية، والتطبيق المباشر للبيانات منظم لبيئة الأعمال المعقدة، ولا شك، والنتيجة هي الفشل.

لقد قمنا بتطوير inductiv، وهذا هو منصة AI عن البيانات المهيكلة، وتدريب لفهم البيانات المولدة نموذج و"الملوثة" العملية. inductiv والتنظيف يمكن أن تستخدم لإعداد البيانات المهيكلة، مثل اكتشاف الخطأ، والتنبؤ القيم المفقودة، وتصحيح الخطأ، بلا قيم شغلها، دمج البيانات، وما شابه ذلك. Inductiv تعزى إلى مشروع مفتوح المصدر الأكاديمي HoloClean (www.holoclean.io)، الذي هو مشروعنا مع جامعة واترلو، جامعة ويسكونسن ماديسون وجامعة ستانفورد أن تبدأ في عام 2017.

أولا، فإن مهمة AI كما تنظيف البيانات

HoloClean الكلاسيكية نموذج قناة الضوضاء لتوليد البيانات وعملية "التلوث" التعلم. الأوراق البحثية كاملة: الشبكي: //cs.uwaterloo.ca/~ilyas/papers/DeSaICDT2019.pdf.

استغلال HoloClean من كل حقل من حقول المعرفة المعروفة (مثل القواعد)، والبيانات الإحصائية وغيرها من المعلومات من مصدر موثوق به ملكا، لبناء جيل البيانات المعقدة ونموذج الكشف عن الخطأ، ويمكن استخدام هذا النموذج للبحث عن الأخطاء وتقديم توصيات إصلاح ل الأكثر قيمة الاستبدال المحتمل.

يتم إنشاء البيانات "نظيفة"، وفقا لعملية توليد معينة: الشكل 1. لاحظنا أيضا أن عملية توليد البيانات القذرة. بواسطة النمذجة وحدودي، ونحن سوف تنظيف تحويل البيانات من أجل استنتاج مشكلة

على الرغم من أن هذا النموذج قد ساعدتنا على تحويل تنقية البيانات والخطأ البيانات مشاكل الكشف عن الاستدلال في مشكلة تعلم الآلة، ولكن لتدريب قوة بما فيه الكفاية قوية للتعبير، وسوف تكون قادرة على تطبيق حجم النموذج، أو صعبة للغاية.

ثانيا، بناء الحل الكشف عن خطأ في البيانات

التحديات المذكورة أعلاه، وكيفية استخدام عدد قليل من البيانات النموذجية لمشكلة التدريب ونقترح الحلول في ورقة.

  • نموذج. أخطاء البيانات غير المتجانسة وغيرها من الآثار من يجلب عدم التجانس، يجعل من الصعب العثور على الخصائص الإحصائية المناسبة والقيود النزاهة كما السمات، لمساعدة التمييز بين قيمة الخطأ والقيمة الصحيحة. هذه الخصائص تتوافق مع خصائص مستوى قاعدة البيانات، ومجموعات البيانات المميزة مستوى الصفوف (tuple) مستوى، وتستخدم هذه الميزات لتمثيل توزيع البيانات. نموذج مبين في الشكل 2 يمثل طبقة التعلم، الذي متعددة المراحل من خلال التقاط هذه الميزات، يمكن تطبيقها على اثنين المصنف تعلم اكتشاف الخطأ.

  • الخلل البيانات. أنواع عديدة من الأخطاء في البيانات، ولكن البيانات عينة البيانات عادة الخاطئة التي تظهر هي نادرة جدا، وخوارزميات تعلم الآلة في مواجهة مجموعة بيانات غير متوازن، فإن النتائج عادة ما يتم تدريب أقل تفاؤلا. ولذلك، لا أخطاء البيانات المشتركة، والتي غالبا ما تكون من الضوضاء، وبالتالي تجاهل. مقارنة مع أخطاء البيانات المشتركة، وأخطاء البيانات ليست الاعتراف المشترك من نسبة الخطأ العالية. الشكل (3)، نقترح استخدام طريقة "تعزيز انتشار البيانات"، وفقا لاستراتيجية الجيل الخطأ تعلمت جعل العديد من الخطأ "زائف"، استخدم كمية صغيرة من الخطأ البيانات الحقيقية لمعرفة المعلمات السياسة. عندما يقتصر عينة بيانات خاطئة، يمكن استخدام هذا الأسلوب لزيادة توزيع بيانات خاطئة في بيانات عينة.

الشكل 2: خطأ نموذج الكشف عن وجود ميزات متعددة المستويات

الشكل 3: استخدام استراتيجية الجيل خاطئة إلى اختلالات العنوان في بيانات التدريب

ثلاثة، محرك inductiv: تطبيق AI الحديث في البيانات المهيكلة

مثل إعداد البيانات وتنقية البيانات، والكشف عن الخطأ البيانات ومشكلة ملء المفقودين الطبقة القيم، يمكنك تطبيق موحد، قابلة النمذجة محرك الاستدلال. هذا المحرك يتطلب القدرة على توليد والخطأ لإنتاج "منظم" بيانات النمذجة. الأهم من ذلك، جنبا إلى جنب مع التحديات ذكرنا أعلاه، تحتاج هذا النموذج أيضا إلى دمج بعض مبادئ تعلم الآلة الحديثة:

  • استخدام البيانات لتوليد التدريب تحسين البيانات والبرمجة

  • الأعمدة مختلف القيم المستهدفة / السياق اللازم لتمثيل نموذج، على سبيل المثال، دراسة البيانات غير المتجانسة تضمين الفضاء

  • التعلم تحت إشراف النفس، واستخدام كافة البيانات ممكن. مثل استخدام بعض القيم الأخرى لإعادة بناء قيم البيانات لاحظ

  • في مجال المعرفة ومدخلات منتظمة للنموذج، نموذج تمديد المهارات

  • بعض التحسين على مستوى النظام، مثل التعلم قسم البيانات ومؤشر المحلي لتحسين نموذج التدرجية، وتحسين القدرة على التكيف مع مجموعة متنوعة من توزيع البيانات نموذج.

Inductiv جميع البحوث ذكرنا من قبل، وإدماج AI في نواة موحدة، فإنه يمكن أن تدعم مجموعة متنوعة من إعداد البيانات والتطبيقات التنظيف.

الشكل 4 يصور عدد وافر من المكونات الأساسية من الطرق المذكورة سابقا، وذلك لمعالجة أنواع مختلفة من البيانات (على سبيل المثال الكم تحليل البيانات الانحدار، والطبقة تصنيف مجموعة البيانات). وتشمل هذه القائمة على سياق التمثيل آليات الانتباه والتعلم الموزعة، الرصد الذاتي شريحة بيانات والتعلم متعددة المهام.

في ورقة MLSys 2020، نقترح بنية التعلم القائم على الانتباه عن المفقودين قيم أنواع مختلطة من البيانات منظم لملء (الشكل 5).

الشكل (4): المكون الأساسي للمحرك الاستدلال موحدة Inductiv

الشكل 5: يستند العمارة مثال على اهتمام تمثيل السياق والتعلم متعددة المهام

رابعا خاتمة

اليوم، البيانات التجارية، ويتمحور معظم البيانات الهامة، ولكن نظرا لارتفاع الطلب على نوعية البيانات، ويجعل الكثير من بحوث قيمة ويثبط.

باستخدام التعلم الآلي، ويمكن أن نعد البيانات والبيانات المهيكلة تطهير القضايا التي تعامل على أنها مهمة التنبؤ واحدة، ولكن هناك على نطاق واسع، غير متجانسة، تبعثر ودلالات معقدة والخبرة في مجال بهذه الطريقة ومن التحديات. شبكة شبكة شبكة لى فنغ لى فنغ لى فنغ

محرك Inductiv كأول منصة AI قابلة للمعالجة البيانات المهيكلة، والحل الناجح لهذه التحديات!

عبر https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a

يبدأ سعر الشقة فون 11، ممن لهم البحث عن سلسلة X2 العائمة حتى الآن؟

تعمل أجهزة الاستشعار صورة الشبكة العصبية! تحقيق النانوسيكند وقت تصنيف الصور، أو على حافة الحوسبة التقدم

أعلى خوارزمية RecSys 2020 بدء الموسم، وكنت قد ترامب في نفس العينة في

لو العودة الكاملة! الدفعة الأخيرة من شاندونغ الفريق الطبي انتصار، صرخ ممرضة "العودة الى زفافنا."

وباء الالتهاب الرئوي تاج جديد أفضل، والناس جينان حديقة الغابات للتمتع الأيام الخوالي الربيع

الذي كان أول مدرسة الفتوة على pingyin التاريخ؟

جينان على اللسان

ورقة اليوم | 4D FIG الجمعيات؛ دراسة خصائص عامة، ويتعلم عنصر النقل؛ FIG الجيل مشهد غير متحيز، الخ

120،000 مكافأة وتدريب الشركات الشهيرة، دخول الصين الذكاء الاصطناعي NLP العد التنازلي مسابقة

جوجل تحديثات أكبر مجموعة بيانات الصورة المشروح، إضافة السرد المحلية

المؤسسات معبر الحرس التعليم والتدريب بنحو 60 مليون خط: التحول و"المساعدة الذاتية"

Ambarella الحوار أشباه الموصلات إيطاليا المدير العام، IEEE زميل البرتو أستاذ Broggi: مجهر خط الرؤية ستيريو مع الطيار الآلي مستقبل أوسع