التشخيص أندرو نغ النتائج الالتهاب الرئوي لا تطير؟ الأشعة الدكتوراه مقال طويل السؤال: بعض مجموعات البيانات لا يمكن استخدام

لى فنغ شبكة الأخبار، والتصوير الطبي يمثل توجها هاما للتنمية الذكاء الاصطناعي، في حين أن صناعة الواردة المتنافسة جذبت أيضا العديد من العلماء المعروفين للمشاركة، وكانت الكثير من النتائج مثيرة للإعجاب. في العام الماضي، ادعى العديد من الفرق المحلية والأجنبية لاستخدام التكنولوجيا AI بمعدل الصحيح خارج تشخيص الأمراض التي تصيب البشر، CheXNet خوارزمية ستانفورد أندرو نغ، الذي جعل واحد منهم. سابقا، شبكة لى فنغ إجراء البحوث المتعلقة بالتغطية الفريق: "الفريق أندرو نغ الافراج عن أحدث نتائج التصوير الطبي، والتعرف على الالتهاب الرئوي مع خوارزمية CNN". وقال الفريق الذي خوارزمية تحدد الصورة ما وراء الطبيب الصدر البشري على دقة الالتهاب الرئوي وأمراض أخرى.

ومع ذلك، ومجموعة أخرى من العلماء على بعض البحوث الحالية نتائج موضع تساؤل. مؤلف لوقا أوكدن-راينر هو واحد منهم، وهو قسم الأشعة في جامعة أديلايد الدكتوراه. في رأيه، لا ينطبق ChestXray14 مجموعة التدريب البيانات الحالية لتشخيص طبي عمل نظام الذكاء الاصطناعي. (ChestX-ray14 هي أكبر الصدر المفتوح بيانات صور يحتوي على 100،000 المشهد الأمامي صور الأشعة السينية من الأمراض 14)

لإثبات وجهة نظره، والدكتور لوقا أوكدن-راينر مناقشة الأسئلة التالية في هذه المقالة: دقة التسمية، تسميات أهمية الطبية؛ تسمية أهمية تحليل الصور .

وكانت شبكة لى فنغ المادة الدكتور لوقا أوكدن-راينر عدم تغيير بنية Xuanyi

مجموعة البيانات ChestXray14 من ورقة "ChestX-ray8: مستشفى على نطاق والصدر قاعدة بيانات X-ray و المقاييس على ضعيف، أشرف على التصنيف وتوطين الأمراض الصدر المشتركة"، منذ الإصدار الأول، تم تحديث الأوراق والوثائق الداعمة للمجموعات البيانات مرات عديدة.

في رأيي، يجب على الورق لقضاء المزيد من الوقت لشرح مجموعة البيانات نفسها، لأن عددا كبيرا من المستخدمين من مجموعة البيانات الباحثين علوم الكمبيوتر، في غياب المعرفة السريرية، وهذا الطلب أهمية خاصة. ومع ذلك، فإن هذه الورقة يدخل التعدين النص والمهام رؤية الكمبيوتر، وهناك رسم بياني يوضح دقة التسمية مجموعة البيانات.

حيث أظهرت النتائج الأولية (النصف العلوي) والتي أجريت على مجموعة بيانات الاختبار OpenI الكشف عنها، بما في ذلك ليس فقط على التقرير، هناك علامة كاملة ملحوظ اصطناعية. القائمة أدناه هي البيانات جزء ChestX-ray14 الخاصة. الباحثون اختيارها عشوائيا 900 التقارير من قبل اثنين من المعلقين بمناسبة تصنيف المشتركة بين البلدين من 14 مرضا منها. وبقدر ما أعرف، وهذه التعليقات التي لا تحقق مباشرة الصورة.

وحجم البيانات تحد من كمية يصبح خطأ كبير (إذا كان عدد العينات 10-30 كفئة، خطأ واحد فقط، والقيمة التنبؤية الإيجابية من 95 فاصل الثقة ستكون 75 -88). ولكن إذا سمحت لبعض الانحراف، كل تسمية تبدو دقة هي 85-99، على الأقل تعبر بدقة عن نتائج التقرير.

للأسف، يبدو أن العلامات لا تعكس بدقة حالة . يذكر ان فريق NIH لا تظهر أنهم رأوا هذه الصور، إذا كانت تمر المباراة اختبار تسمية نص التقرير لتحديد مزايا عملية صورة الشرح. وأعتقد أن هذا الفصل قادني إلى نوعية المشاكل التسمية المقترحة.

هناك العديد من الطرق لبناء صورة دون الحاجة للصورة التسمية. رموز ICD، والعلامات، أو استخراج من التقرير أو غيرها من النصوص الحرة؛ ويمكن أيضا استخدام البيانات التكميلية (بيانات المتابعة). في دراسة متعمقة، ونحن نرى منحنى التدريب واختبار التدرج والتدريب في محاولة لاختبار ما إذا كان من المناسب أكثر في غياب تسوية. عرض هذه الصور والتحقق من سلامة الأشعة - لعرض الصور، تأكد من أن من المتوقع أن.

أنا عادة 10 دقيقة لإكمال الصورة القراءة 200 المرحلة الابتدائية من "الاختيار النزاهة".

الجزء الأول: ChestXray14 صورة تسمية مجموعة البيانات دقة

سأقول مجموعة من الأكواد جمع البيانات على أساس الصورة. وعشوائيا مختارة جعلوا من متواليات تضم 18 صور.

بلدي التسمية ليست مثالية، الأشعة الأخرى الممكنة لبعض هذه التسميات لديهم شكوك. ولكن يجب أن يكون واضحا أن نتائج بلدي تسمية ورقة / الملحق تختلف بشكل كبير.

وعادة ما مثل بيانات الصعبة، ولذلك فإنني أحاول لقياس دقة التسمية. في الواقع، وجدت أن العديد من هذه التسميات من الصعب تحديد، وبالتالي غير مدرجة في الجدول التالي. وأتطلع في كل فئة من فئات أكثر من 130 صورة، فإن معدل دقة يتم احتساب على التسمية الأصلية من رأيي البصرية. كمية البيانات هو أكثر ملاءمة للاستخدام بسبب فاصل الثقة 95 قد ثم توسيع / يتقلص 5، وذلك نسبة الخطأ I قد تصل إلى 20.

تحليل بحثي رؤية مقابل نتائج التعدين النص

مرة أخرى، وأظن أن من حقي التسمية في النهاية، على وجه الخصوص، والأشعة تقرير نتيجة الصدر مقارنة، ولكن يظهر في الجدول أعلاه، والفرق كبير جدا. أعتقد أن البيانات الواردة في الجدول أعلاه تثبت أن هذه التسميات لا يمكن أن تتطابق مع الصورة المعروضة في هذا المرض.

هناك طرق لتفسير هذه الظاهرة. على سبيل المثال، الصور الأولية تساعد على تفسير أشعة مع المعلومات الأخرى من الصورة. لديهم الخبرة السريرية والطبية والنتائج السابقة الأخرى. هذه المعلومات مفيدة جدا، وخصوصا عندما تمييز الأمراض المشابهة.

إذا كان الخبير البشري لا يمكن إجراء تشخيص فقط من الصورة، هو على الأرجح نظام AI لتكون قادرة على تشخيص. منظمة العفو الدولية قد تكون قادرة على العثور على بعض الأدلة طفيف لا يذكر الإنسان، ولكن مع هذه أنها تحدث فرقا كبيرا في الأداء يمكن أن تتولد وغير معقول. عموما، نحن بحاجة إلى التسمية والصورة التي تحتوي على نفس المعلومات.

الجزء الثاني: ماذا يعني علامة في الطب؟

ما تميزت فعلا باسم؟ وهي تعكس من الممارسات السريرية؟ أعتقد أن الجواب هو لا.

أعتقد أن أصعب لتصميم هو توحيد التسمية / ارتشاح / انخماص / الالتهاب الرئوي جمع وهلم جرا. هذه الصور هي أيضا مشاكل أخرى الطبية، والمهام المتعلقة القيمة السريرية، مثل نضحي (الإراقة)، استرواح الصدر (استرواح الصدر)، والتليف. على سبيل المثال، استرواح الصدر صغير جدا في صور الأشعة السينية، وغالبا ما يتم تجاهل أو ملحوظ معدل دقة التليف منخفض جدا. في الواقع هناك العديد من المشاكل السريرية غير الصورة الأخرى، مثل:

  • الالتهاب الرئوي وانتفاخ الرئة وتليف هي معظم تشخيص المشكلة التصوير الطبي السريري وليس مشكلة.

  • يمكن أن الأشعة السينية تفوت تصل إلى 50 من الخراجات، ولذا فإننا قد تشك اعتمدت تقرير الكيس ملحوظ.

  • لا أحد يهتم فتق متقطعة، لكن في بعض الأحيان تم تشخيص.

العثور على تلك جيدة مجموعة البيانات أو التسمية الصحيحة لتعلم مهمة طبية فعالة من الصعب جدا. وبالمثل، ما زلنا بحاجة إلى خبير لرؤية الصور إلى التوصل إلى تشخيص طبي.

الجزء الثالث: ما هي فوائد طبية صورة صورة التحليل؟

تطبيقات التعلم عمق الأشعة هناك مشكلة كبيرة، وإذا كنت لا ترى الصورة، فإن العواقب ستكون خطيرة جدا. إذا هذه التسميات هي دقيقة للغاية، ومعنى التسمية ليست مضمونة، ثم كيفية بناء على هذا النموذج مجموعة من البيانات هو تحقيق نتائج جيدة ذلك؟ ما النموذج من التعلم في النهاية هو؟

في الواقع، ونحن نتطلع لمعرفة النتائج الحقيقية نموذج يمكن إخراج الصحيحة على مجموعة الاختبار، حتى لو كانت النتيجة ما يسمى حقيقية لا معنى له بصريا.

النتائج من CheXNet: استخدام نموذج التعلم العميق (. Rajpurkar وإرفين وآخرون) للكشف خبير الإشعاع الالتهاب الرئوي على صدره خريطة أشعة X، والحصول على أداء جيد على مجموعة الاختبار.

عشوائية الضوضاء يمكن أن تكون على المدى تنظيم جيد، وأداء أفضل في بعض الظروف (وتسمى هذه التقنية علامة على نحو سلس أو تسميات لينة). ضجيج منظم ليس هو نفسه، فإنه يضيف إشارة مختلفة تماما، وسوف نموذج يحاول تعلم هذه الإشارات.

في تسمية السيئة التي تحتوي على تدريب مركزي، فإن الشبكة العصبية تسمية لهم كما عينة الالتهاب الرئوي صالحة أيضا. إذا كان نموذج تعلم هذه التسميات، على سبيل المثال، "شعري" هو علامة من الالتهاب الرئوي، ثم سيتم تطبيق هذا النموذج على الرسم البياني إشارة الصدر ونتائج غير متوقعة الانتاج.

جزء من سمات التعلم من نموذج صورة الكلب وسوف تستخدم وتطبق على الرقم الصدر، على الرغم من أن هذه القضية وليس له علاقة.

إذا كان هدفك هو تحسين الأداء، وسوف يكون دائما هيكلة الآثار السلبية للضوضاء. ومن الواضح أن هناك حاجة حتى الى الضوضاء (حيث العلاقة غير الخطية)، ولكن الانحراف تقلل من دقة النموذج العلامة.

Rolnich وآخرون "التعلم العميق قوي للضوضاء التسمية ضخمة" النتائج تشير إلى أن هيكلة الضجيج يدمر التسمية، ويجعل تدهور الأداء. عندما الضجيج ومصدر البيانات الفعلية هو نفسه، قد تكون المشكلة أكثر صعوبة، لأن النموذج سيتم الخلط بينه وبين فئة الضوضاء. هذا التشبيه لChestXray14 بيانات، يتم إتلاف أيضا عبوات منتجاتهم.

ولذلك، فإن هذه التسميات يؤثر سلبا على أداء النموذج. فلماذا يكون لها أداء جيد جدا في نموذج تدريب ChestXray14؟ هي نماذج الضوضاء البيانات تعويض يمكن أن تصبح قوية حتى الآن؟

أنا لا أعتقد أننا بحاجة إلى التركيز على أكثر من جوانب. في الواقع، في بناء تسمية جديدة لعملية جمع البيانات، ولقد لتبسيط المهام التي تدخل عن طريق إنشاء "التعتيم" الطبقة و"لا تقصي" الفئة. أقوم بإعداد تسمية جديدة تم إنشاؤها باستخدام التسمية الأصلية، "التعتيم" هو انخماص، والجمع الالتهاب الرئوي، وتوطيد وتسمية الاختراق، ثم تدريب نموذج على ذلك.

أنا فقط بحاجة إلى استخدام في ImageNet ResNet تدريب مسبقا، وشبكة في الجزء الجديد من مجموعة التدريب البيانات. لم أكن ضبط المعلمات المفرط، مجرد تدريب نموذجية في فترة معقولة من الزمن، وأداء للنموذج النهائي هو جيد جدا.

على الرغم من أن AUC هو 0.7، ولكن بما يتفق مع نسبة الخطأ وضع العلامات، والأداء تصنيف لدينا سيئة للغاية. نموذج لا يمكن تجاهل تسمية خاطئة، والإخراج التنبؤ، فإنه ليس لديها قوة العلامة الضوضاء. الأهم من ذلك، قيم AUC لا تعكس أداء التشخيص، وهذه مشكلة كبيرة.

يتعلم نظام AI التنبؤ معنى إخراج موثوق. هذا هو السبيل لمعرفة الصورة ملامح "التعتيم" من الحالات يصبح تقريبا أي غموض، ولكن "لا غموض" من يحكم في القضية أن تكون مخالفات خطيرة في الرئة.

هذه هي المشكلة، لأنه ما لم تقرأ الصورة، وإلا فإن النتيجة ستكون أن عظيم. نموذج أداء كل فريق والحصول على أفضل وأفضل، AUC يشير أعلى وأعلى، ويبدو أنه يبدو أنها مهمة طبية خطيرة "حل".

أعتقد أن هناك عددا من الأسباب؛ الصور الطبية الكبيرة والمعقدة، مع العديد من العناصر المشتركة. ومع ذلك، لا يتم إدراج طريقة الحفر التلقائي تسمية الضجيج العشوائي غير دقيقة. فإن طبيعة البرنامج التعدين النص يؤدي إلى المستدام، والاعتماد غير متوقع أو البيانات الهرمية.

وبالمثل، كما ناقش الدكتور نوفوا في طب الأمراض الجلدية في جامعة ستانفورد مؤخرا هذه القضية في وسائل الإعلام:

لقياس بدقة حجمها - عند طبيب الأمراض الجلدية لرؤية الآفات السرطانية المحتملة، وأنها سوف تساعد الحاكم - وهذا هو، عند استخدام هذا النوع من التعليم الابتدائي. الأمراض الجلدية والتناسلية تفعل ذلك من أجل أن نرى الآفات. وهكذا، في مجموعة واحدة من الصور الخزعة، إذا كان هناك صورة الحاكم، يحدد خوارزمية أنه من المرجح أن يكون خبيثا، بسبب احتمال وجود الاضطرابات المرتبطة بسرطان الحاكم. للأسف، أكد نوفوا أن الخوارزمية لا أعرف لماذا هذه العلاقة المنطقي، بحيث يتم فهمها بسهولة كما يقوم حاكم عشوائي على تشخيص السرطان.

التعلم العميق هو قوي جدا، وإذا كان متحيزا إدخال صورة معقدة لتسمية ذلك، فإنه يمكن أن تتعلم لتصنيف هذه الفئات، على الرغم من أنها لا معنى لها. يمكنك الكمال تناسب مجموعة التدريب العلامة عشوائية، ولكن النتائج تظهر فقط في شبكة عميقة قوية بما فيه الكفاية لتذكر بيانات التدريب. أنها لم تظهر بيانات الاختبار التعميم، على العكس من ذلك، فإنها تثبت أداء أضرار الضوضاء.

أنا في الواقع ChestXray14 بيانات عشوائية التي سريعة التسمية اختبار (فحص سلامة الآخرين)، وجدت نفس النتيجة في تشانغ وآخرون ؛. وليس التعميم لنموذج مجموعة الاختبار.

ضجيج منظم موجود ليس فقط في بيانات التدريب. خطأ العلامة طوال بيانات الاختبار يتسق أيضا. وهذا يعني أنه إذا كان النموذج الطبي لمعرفة لجعل توقعات سيئة، فربما يمكن الحصول على أداء أفضل اختبار. هذا لا يمكن إلا لتتولد تلقائيا من قبل التبويب أساليب "استخراج البيانات"، لكنني وجدت أيضا مجموعة متنوعة من الطرق المؤدية إلى تسمية مصطنعة الطبقية بيانات الأشعة.

تقارير الأشعة ليست موضوعية، في الواقع، ووصف الصورة. تقرير الغرض الأشعة هو توفير معلومات مفيدة وقابلة للتنفيذ لشخص الموصى بها (عادة طبيب آخر). في بعض النواحي، أوصى الأشعة تخمين ما يريده الناس هو المعلومات، وتخلص من معلومات غير ذات صلة.

وهذا يعني أن تبعا للحالة السريرية، والتاريخ الماضي وأطباء الأشعة الذين تقريرين من نفس الصورة يمكن أن يكون المسمى مختلفة "العلامات". العوامل التي تؤثر على تقارير الأشعة وهناك عوامل كثيرة لجميع تقارير الأشعة إحداث الضوضاء الهيكلي. قد يكون كل القضايا الصغيرة خصائص الصورة الفريدة التي يمكن تعلمها.

هناك العديد من العناصر البصرية الأخرى يمكن تقسيمها إلى عدة مجموعات من المرضى، بما في ذلك جودة الصورة (وفقا لمرضى العيادات الخارجية المريض، المرضى المنومين، العناية المركزة مختلفة)، وإدخال وسائل مثل أجهزة ضبط نبضات القلب أو وجود يؤدي ECG، الجسم ومثل عادات . هذه العوامل ليست "التشخيص"، ولكن من المرجح أن يكون بدرجات متفاوتة من الارتباط مع التسمية، ومن المرجح أن تجد على شبكة الإنترنت العميق هو شيء من هذا القبيل.

الباحثين في مجال الطب منذ فترة طويلة التعامل مع إدارة هرمية من البيانات السريرية. مثل العمر والجنس والدخل، والنظام الغذائي، وهذه العوامل تؤدي إلى التقسيم الطبقي "الاختباء". ونحن أيضا بحاجة إلى معرفة ما يقرب من المظهر المرئي للمجموعة كاملة من توزيع متشابهة، مما يعني أنك بحاجة إلى أن نرى الصورة.

استنتاج

المشاكل المذكورة أعلاه لا يعني أن عمق التعلم عن التصوير الطبي لا قيمة لها. دراسة متعمقة لمعظم النقطة المهمة هي أنه يعمل. على الرغم من أننا ما زلنا لا نفهم لماذا، ولكن إذا كان لديك شبكة جيدة من البيانات عميقة وعلامة كافية، سيكون من الميزات تافهة الأولوية تعلم الخصائص المفيدة لهذه الفئات، بدلا من معنى.

مقارنة مع التقييم البشري المرئي، ChestXray14 دقيقة مجموعة البيانات التسمية، واضحة، والثانوية في كثير من الأحيان وصف الاكتشاف الطبي.

هذه التسميات السؤال هو "متسقة داخليا" في البيانات، مما يعني أن هذا النموذج يمكن أن تظهر "حسن أداء مجموعة الاختبار"، في حين لا تزال تنتج التنبؤ لايوجد الأهمية الطبية.

يظهر المشكلة أعلاه أن التعريف الحالي للمجموعة البيانات ليست مناسبة لنظام التدريب والرعاية الصحية، ودراسة مجموعة البيانات لا يمكن أن تنتج بيان طبي سارية المفعول دون سبب وجيه إضافية.

عرض الصور هي الأساسية "التحقق من تكامل" تحليل الصور. إذا كنت بناء مجموعة من البيانات، لا يمكن لإنسان فهم البيانات التي تراها في الصورة، ثم مجموعات البيانات المطلوبة العمل سوف نخذلكم.

بيانات الصور الطبية مليء عناصر الطبقات، ميزة مفيدة يمكن أن تتعلم أي شيء تقريبا. معرفة ما إذا كان النموذج الخاص بك في كل خطوة على النحو المعتاد. طالما أن التسمية بما فيه الكفاية جيدة، ويمكن التعلم العميق التركيز على العمل في هذه البيانات.

الرابط الأصلي: الشبكي: //lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems

الشمس يانغ، تشانغ شعبة في صافي الأحمر، الرياضية النشطة نجوم الترفيه المفرط بخير حقا؟

هواوي ماتي 207nm نعمة يونيكورن 980، وRCC 845 نماذج تستهل في اندلاع اعتبرت منظمة العفو الدولية قوة

مهرجان بكين "جي آريس" الحمراء لاول مرة السجاد ويليام تشان فو لين يون الرجل مع تنورة كاملة

يؤدي فجأة حقبة جديدة من السلطة المعرفية التفاعلية لرفع مستوى ذكاء من الصناعات التقليدية

هذا الدماغ حفرة مفتوحة على مصراعيها الخيال العلمي أرتوريوس زي، ومقطورة قد غزا لي

وكان "عين محاكمة آخر كلامه الموت" النسخة التجريبية من الفصل الأول مفتوح للاعبين PS4 العام

وكانت التجهيزات المدرسية 30000 يوان تبدأ؟ وكان لشراء هذه السماعة بلوتوث يستطيعون حتى للذهاب إلى المدرسة

"يين ويانغ" خطط المستقبل: السباحة من البيئة اليد الى IP، نيتياس الشطرنج كبير في لوحة القادمة

تشيونغ كونغ كلية الدراسات العليا: من التصنيع إلى الحكمة بها، كم من التكنولوجيا والتجارة؟

هل شراء التأمين على السيارات؟

يتم رش تونغ لييا هوانغ بو بارع زلة استجابة لسان، ولكن الشكل سفيرا السياحة التايلاندية

قبل ان نشاهد معظم الشبكة هذا العام أجبرت التجارية الكبيرة، عليك أن تعرف هذه