تحليل البيانات غش هنا: Kaggle معظم تحليل شامل للست مباريات (تحت)

لى فنغ شبكة AI Yanxishe الصحافة، وتحليل البيانات غش هنا: Kaggle ست مباريات تحليل أشمل (على) نص، AI Yanxishe يصف التعامل مع منظم البيانات والبرمجة اللغوية العصبية، بما في ذلك تيتانيك، توقع أسعار المنازل، تصنيف التعليقات الخبيثة، وتحليل مفصل من أربع مباريات تحديد الروائي الرعب.

توضح هذه المقالة تجربة معالجة البيانات القائمة على صورة اللعبة، والمنافسة على ورقة تصنيف (ليف تصنيف) ومباراة الكشف عن سرطان الرئة (العلوم البيانات السلطانية 2017) كمثال.

النص أدناه، لى فنغ شبكة AI Yanxishe الانتهاء من المترجم:

صورة

وحتى الآن، وأنا قدمت كل النص (اللغة، سلسلة أو رقمية) جمع البيانات وتحليلها وأخيرا سأحضر مجموعتين من البيانات صورة.

اخترت هذه مباراتين (الكشف عن سرطان الرئة والأوراق التصنيف) المزيد من الميزات المهنية من أي لعبة أخرى رأيت، التحليل هنا لم يعد التحليل الأساسي، مع التركيز على استكشاف تقنيات مختلفة، وبالتالي مناسبة للقراء أكثر تقدما.

في تكنولوجيا التصور والميزات لبناء، وأرى الكثير من التغييرات. ولا سيما المنافسة الرئة، واستخدام بعض الكتاب والمعرفة الطبية الحالية لبناء السمات المميزة درجة عالية من الاحتراف، على الرغم من أنه لا يمكن القول كيف يمكن لهذه الميزات فعالة، ولكن المؤثرات البصرية مذهلة هنا.

تصنيف الأوراق

مجموعة البيانات المنافسة التي تقدمها صورة ورقة 1584 ويشمل مجموعة متنوعة من الفئات المسمى، يتعين على المشتركين لبناء نموذج تصنيف من علامة صورة ورقة.

لقد اخترت لتحليل EDA هو LORINC من ميزة استخراج من الصور، تصور PCA selfishgene خوسيه البرتو مع ورقة مجموعة بيانات وسريعة استكشاف الصورة.

الخطوة الأولى هي أفضل أن ننظر بعناية صورة من الأوراق.

عينات أوراق الاختيار selfishgene

جوزيه رسم أنواع مختلفة من الأوراق، وأشار إلى أن كل فئة لديها 10 صور. كما أشار إلى التشابه بين أوراق مماثلة.

القفز مباشرة مرحلة التحليل LORINC، وضع مركز كل ورقة وتطبيق تقنية الكشف عن الحافة، وقال انه سوف يترك إلى التشكيل الجانبي القطبي، من أجل قياس أكثر فعالية وسط الأوراق:

بعد ذلك، عندما نستخدم المسافة بين الحافة والسلاسل الزمنية توليد المركز من شكل، ونحن قد ترغب في التحول إلى قياس مركزي آخر - وفقا لفعالية المركز. أسلوب واحد هو المسافة (الإقليدية) بين المركز وقياس حافة ...... ولكن هناك طريقة أفضل - نحن المتوقع الإحداثيات الديكارتية إلى الإحداثيات القطبية.

اختيار selfishgene لمعرفة اتجاه التباين للصورة:

في الفضاء العالي الأبعاد صورة، ويمكن رؤية كل صورة كما مختلفة "الاتجاه".

تباين Selfishgene رؤية أوراق الصورة

قضى selfishgene أيضا بعض الوقت في دراسة إعادة الإعمار صورة، فضلا عن التغيرات في ناقلات ميزة صورة النموذج حول المتوسط، وأوضح:

الصف العلوي يحتوي على قيم توزيع البيانات صورة لكل ناقلات ميزة (على طول المدرج "الاتجاه")، السطر الثاني يحتوي على التباين في اتجاه رأينا في الشكل السابق، السطر الرابع يحتوي على الأوراق ، ومن الجدير بالذكر أن هذا الخط لجميع ناقلات ميزة هي نفسها.

تشوه موديل selfishgene انظر

الكشف عن ميزة

وأوصى تقسيم كل عينة LORINC إلى قسمين، ويتم التعامل معهم كما مثالين (على الرغم من أنه لا تستخدم هذه الطريقة). LORINC تجد ماكسيما المحلية والدنيا (على سبيل المثال، المرسومة في الأوراق الإحداثيات القطبية) من السلسلة الزمنية والمسار:

وفوجئت في أداء طريقة كانت جيدة جدا. أعتقد أنني يمكن أن تتعلم لبناء الميزة فعالة جدا. ومع ذلك، هذا الأسلوب هو قوة ليست جيدة جدا:

للأوراق رقم 19، فإنه لا يجد نهاية الأوراق، إلا أن العثور على أبعد نقطة من المركز. للأوراق رقم 78، يمكن أن ينظر في شفرات دوارة أكثر تعقيدا أو سيئة للغاية.

LORINC رسم الحد الأدنى والحد الأقصى قيم الأوراق الإحداثيات القطبية قياس

بعد اكتشاف وجود ضوضاء حول كل ورقة، LORINC يتعلق الأمر مورفولوجيا الرياضي. واستغرق الأمر بعض الوقت لمعرفة كيفية إزالة الضجيج في الصورة، مع وجود صورة جميلة لخريطة مسافة عرض فرضه على الأوراق:

lerinc قياس المسافة من وسط الأوراق

سرطان الرئة

اخترت EDA هو غيدو Zuidhof من الكامل تجهيزها دروس، تحليل البيانات استكشافية ميكيل Bober-IRIZAR وألكساندرو Papiu من استكشافية تحليل التصور.

anokas الفوقية تحقق الصور الفردية، يمكن أن ينظر تاريخ المريض من الولادة وحتى تكون مخفية (19000101)

2017 العلوم البيانات السلطانية المنافسة المطلوبة المشاركين لكشف من خلال مجموعة من الصور للتنبؤ ما إذا كان المريض يعاني من السرطان. ولئن كان من البيانات المنظمة الحقيقية في هذا السباق (بطاقة المعلومات التلقائي جزءا لا يتجزأ من الصورة)، ولكن بعض البيانات غير مجهول، وهذا هو، تلك الخصائص (مثل العمر) لا يأخذ القيمة التنبؤية الأصلية. وهذا يعني أن كل نواة للتركيز فقط على تحليل الصور.

في مؤلف ثلاثة النواة، وكان غيدو الشخص الوحيد لمناقشة مجموعة من الصور الطبية، وهذا ما يمكن ملاحظته في تحليله لمجموعة البيانات:

ديكوم هي ملفات الصور الطبية القياسية، هذه الملفات تحتوي على كمية كبيرة من البيانات الوصفية (على سبيل المثال، حجم بكسل) من. يختلف حجم المسح بكسل، حجم الجسيمات مختلفة (على سبيل المثال، والمسافة بين شرائح قد تكون مختلفة)، والتي قد تؤثر على أداء CNN. نحن اختزال يمكن علاجها مع نفس التكوين.

بدأت مجموعتين غيرها من البيانات والصور في حد ذاته لاستكشاف أكثر شمولا EDA بهم.

apapie فحص شكل الصورة، في حين بدأ anokas لمراقبة عدد من مسح لكل مريض، والعدد الإجمالي للمسح في رسوم بيانية ملف المريض DICOM، كما انه فحص ID وما إذا كان المريض يعاني من مرض السرطان، ما إذا كانت هناك علاقة (انه لا توجد علاقة ، هذا الترتيب يعني أن أمر مجموعة البيانات).

يتم تخصيص بكسل ألكساندرو وتقديم صورة:

غيدو توضيح الأمور ممثلة HU (الهواء والأنسجة والعظام) في جمعية الإمارات للغوص:

صورة

وسوف تستمر كل مؤلف لدراسة هذه الصور:

Anokas صورة مراقبة المجموعة من المرضى

ألكساندرو نظرة من خلال صورة أشعة X

قضى ألكساندرو بعض الوقت في البحث سواء لتعزيز الكشف عن صورة الحافة.

بعد قيمة العتبة الزيادة، ألكساندرو تظهر بعض من الصورة أكثر لافتة للنظر

اختتم ألكساندرو:

ومن المثير للاهتمام، مرشح يمكن الكشف في الرئتين والأوعية الدموية، وبالتالي، للتمييز عدد من ثلاثية الأبعاد تقنية الكشف عن سطح للتمييز الكرة لاصق وهذا الوضع يكون أكثر ملاءمة.

وفي غضون ذلك، ناقش غيدو إعادة أخذ العينات، مع التركيز على الطبيعة الأساسية للصور DICOM:

قد يكون هناك مسح بكسل الملعب [2.5،0.5،0.5]، مما يعني أن المسافة بين المقاطع 2.5 مم. لمختلف المسح، فإنه قد يكون [1.5،0.725،0.725]، أن هناك بعض المشاكل (على سبيل المثال، عند استخدام ConvNets) للتحليل التلقائي. نهج مشترك للتعامل مع هذه المشكلة هو إعادة تشكيل مجموعة بيانات كاملة لتحديد دقة الخواص (القرار الخواص)، إذا اخترنا أن إعادة تشكيل جميع البيانات ل1MM * 1MM * 1MM بكسل، لذلك يمكنك استخدام 3D التفاف الشبكة الثابتة دون الحاجة إلى القلق حول تعلم التحجيم وشريحة سمك.

بعد، غيدو كاملة صورة DICOM دمج تعدد كشف موقع ثلاثي الأبعاد في جمعية الإمارات للغوص:

في نسخة أخرى، وإزالة الهواء المحيط إلى تقليل حجم الذاكرة:

صورة 3D

التعليقات

هذه المسابقة هي الأكثر رأيته في حياتي غير عادي. نظرا غيدو دراية الصور الطبية، وقال انه كان قادرا على استخدام هذه الخلفية للحصول على نتيجة أكثر دقة. ولكن هذا لم يمنع وصلت اثنين من مؤلفين آخرين لعدم وجود خلفية طبية نفس النتائج مثيرة للاهتمام.

ملخص

  • بيانات المنظم

لالبيانات المهيكلة، وتميل للبحث عن الارتباطات بين المتغيرات المستهدفة وغيرها من المتغيرات تحليلها، فإنه يأخذ وقتا طويلا لتصور أو النظام متغير.

لمجموعات البيانات أصغر، والبيانات التي يمكن تحليلها فقط الكثير من الأعمدة، ومع ذلك، فإن المتنافسين مختلفة باستخدام أساليب التصور مختلفة، ولكن أيضا خلاقة جدا في اختيار يتميز الهندسية.

  • مجموعات البيانات اللغة الطبيعية

يمكن أن ينظر إليه من جمعية الإمارات للغوص، لديهم التشابه في التعامل مع مجموعات البيانات اللغة الطبيعية، ولكن في أعمال الاختيار وميزة التحليل، وتأتي إلى استنتاجات مختلفة، تؤدي إلى تغيرات كبيرة.

  • مجموعة بيانات الصورة

مسابقة صورة، المعرض يضم التحليل والهندسة جوانب التنوع الكبير. لقد رأيت مسابقة الصورة يستهدف بشكل رئيسي في تراكم المتنافسين معينة، وفي بعض المناطق المحددة التي قد تنتج مجموعة متنوعة أكثر تقدما.

عندما تصبح مجموعات البيانات أكثر المتخصصة أو مقصور على فئة معينة، سيتم تخفيض تحليل وتفسير التمهيدي، وأكثر تعمقا وتحليل المهنية سوف تزيد، وهذا ما رأيت. على الرغم من أن أنواع مختلفة من البيانات اتجاهات مختلفة إلى حد كبير، ولكن مجال المعرفة المهنية تلعب دورا هاما. في سرطان الرئة ويترك السباق، وإدخال المعرفة المهنية في مجال الدراسة، يمكن تحليل أعمق دعم. (ومن المثير للاهتمام، ولقد واجهت مثل هذه الحالة في دراسته، ناقش جيريمي هوارد روسمان مجموعات البيانات سيرته fast.ai، وكيف أن معظم النموذج الناجح هو دمج مجموعات البيانات طرف ثالث، مثل درجة الحرارة، وموقع التخزين، وما إلى ذلك، من أجل جعل توقعات أكثر دقة للبيع).

يتميز معالجة المشاركون الوقت للمشروع، وليس هناك عملية واحدة. يختار بعض الناس أن تبدأ في التحليل، في حين أن البعض الآخر بعد التحليل الأولي كاملة، سيكون بمثابة خطوة منفصلة.

وأخيرا، أرى أن كل التحليل اليدوي تحديد القارئ (مبتدئ أو الباحثين من ذوي الخبرة)، والتي سوف تؤثر على التحليل والكتابة.

في بعض الألعاب الأكثر شعبية، أو لعبة في عام الباحثين، وتحليل EDA غير شاملة. في هذه EDA، لقد رأيت اتجاه تتخللها ملحق أو التحليل السردي في نفس الوقت للمبتدئين تساعد على فهم أفضل لهذه التكنولوجيا.

في المقابل، لأكثر العليا مذكرة يميل الباحثون إلى التخلص من الوصف السردي الزائدة، والكثير منهم تخطي تحليل البيانات الأساسية، ولكن للذهاب مباشرة إلى مناطق معينة من التكنولوجيا للذهاب.

شكر خاص لميشيل ليو، آري Zilnik، شون ماثيوز وبيت عنيا باسيلي، لاستعراضها في هذه المقالة.

عن طريق: thekevinscott.com

شبكة لى فنغ AI Yanxishe التشطيب مترجم.

تشينغداو، وأصحاب السيارات بسبب التعب القيادة مما تسبب في مقتل خمسة اشخاص وثلاث إصابات، السلامة المرورية وانت تعرف كم؟

10 ساعة تشغيل 924 كيلومترا، والسائقين المريض مرافقة سيارة تفعل زرع الكبد من تشونغتشينغ الى ووهان

كشف النقاب عن لعبة الفاخرة التكوين روح الماسح بليد ألعاب الكمبيوتر المحمول 15 IEM

وانغ فنغ كون الملك + الإثارة هادئة السمع الرئيسي تنشر الترفيه التفاعلي شياو تشينغ AI رئيس

"مهمة مستحيلة 6" يتعرض "مبارزة قوية" جزء إيجابي كروز مكافحة المشاجرة خطر التعرض للخنق

أطلق CONVERSE ضبابي سلسلة الأرنب عيد الفصح، فروي كل نجم هل رأيت ذلك؟

"فارس الأسلاك جوفاء كلمات" الأعداء ومعلمه قدمت لاول مرة دور جديدة

لعبة الدم يغلي ثم IEM 2019 نهائيات يعود الى كاتوفيتشي

وحدة المعالجة المركزية في أكثر من وحدة المعالجة المركزية، وحدة المعالجة المركزية في الهاتف المحمول فما هي

بالق تمرير النتيجة: "العالم يوشي المالكين" في الأبيض جين ديان تانغ 37 نقطة

ماك بوك برو التحديث النهائي، ولكن هناك عدد قليل من المخاوف تحتاج إلى النظر فيها

طرحت شركة آبل الأحمر طبعة خاصة فون 8 / 8P، لتمويل الإيدز