PCA باستخدام K-وسائل والجينوم تحليل تسلسل COVID 19 ثم كيف الطفرات؟

المصدر: DeepHub IMBA

المؤلف: أندريه يي

هذه المقالة حول 2420 كلمات القراءة الموصى بها 5 دقائق

توضح هذه المقالة استخدام K-وسائل وتحليل الجينوم PCA تسلسل ثم كيف COVID 19 طفرة.

كثير من الناس لا يعتقدون، تماما مثل أي الكائنات الفيروسية الأخرى على الأرض يكافحون من أجل البقاء على قيد الحياة لأنها تتطور أو الاختلاف.

ويتم مجرد إلقاء نظرة على مصدر بشرية للفيروس من قبل الخفافيش الفيروسية شظايا تسلسل RNA يمكن أن يكون.

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT

... وتسلسل استخراج RNA من البشر COVID 19 فيروس ...

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT

... من الواضح، تغيرت التاجى هيكلها الداخلي للتكيف مع المضيف الجديد (على نحو أدق، حوالي 20 من الهيكل الداخلي للالتاجى تحور)، ولكن لا تزال تحافظ على طاقة كافية، بحيث يمكن أن تكون أصل الأنواع البقاء على قيد الحياة في الجسم الحي.

في الواقع، تشير الدراسات إلى COVID-19 لتحسين البقاء على قيد الحياة من خلال الاختلاف المتكررة. في مكافحة الفيروس التاجى، ونحن لا تحتاج فقط لايجاد وسيلة للقضاء على الفيروس، وطريقة لكيفية تحور الفيروس وكيفية كبح تحتاج أيضا إلى العثور على هذه الطفرات.

في هذه المقالة، وأنا ......

  • بسيط التفسير المقدم تسلسل RNA
  • المعلومات الجينية لإنشاء كتلة باستخدام K-وسائل
  • PCA باستخدام مجموعة التصور ... وتحليل كل برنامج ننفذ لاكتساب الخبرة.

ما هو تسلسل الجينوم؟

إذا كان لديك فهم أساسي من تسلسل الحمض النووي الريبي، تخطي هذا القسم.

مقارنة ب "فك" الجينوم عملية تحليل التسلسل عادة ما يستخرج من DNA عينة (DNA) في. هناك 23 زوجا من الكروموسومات في كل من الخلايا الطبيعية، التي تستوعب الحمض النووي الصبغي.

ملفوف التركيب الحلزوني المزدوج للحمض النووي يجعل من الممكن لتوسيع شكل شبه منحرف. ويتكون شبه منحرف من زوج من الرسائل الكيميائية (التي تسمى قواعد). في DNA أربعة فقط: الأدينين، ثايمين، جوانين والسيتوزين. يربط الأدينين فقط مع الثايمين، جوانين والسيتوزين فقط مأزق. هذه القواعد على التوالي A، T، G و C تمثل.

هذه القواعد تشكل بناء مختلف كود مبينا كيف أن بروتينات الجسم الحي - DNA السيطرة في الواقع سلوك الفيروس.

يتم تحويل RNA إلى DNA ومن ثم تحويلها إلى البروتين عملية

يتكون الحمض النووي تسلسل باستخدام أداة التسلسل معدات خاصة وعلامات خاصة، فإنه قد تكشف عن شريحة معينة. تستمد المعلومات من المقارنة لمزيد من التحليل وتمكين الباحثين من تحديد التغييرات الجينية في هذه العملية، والجينات المرتبطة النمط الظاهري المرض وكذلك خلايا أهداف المخدرات المحتملة معا.

تسلسل الجينوم هو سلسلة طويلة من "A"، "T"، "G" و "C"، وتجسيد التمثيلي رد فعل الكائن الحي للبيئة. الكائنات الحية يمكن أن تسبب الطفرات عن طريق تغيير الحمض النووي. تسلسل الجينوم الشخصي يعد مصدرا قويا لتحليل طريقة التاجى الطفرة.

فهم البيانات

وجدت البيانات Kaggle في ما يلي:

يمثل كل صف نوع واحد من تحور فيروس الخفافيش. أولا وقبل كل شيء، مجرد اتخاذ دقيقة لتقدير طبيعة لا تصدق من الطبيعة - في غضون أسابيع قليلة، التاجى أنتجت 262 أنواع من الطفرات في حد ذاته، من أجل تحسين بقائهم على قيد الحياة.

بعض الأعمدة الهامة:

  • الاستعلام acc.ver باسم معرف الفيروس الأصلي.
  • موضوع acc.ver فيروس تحور المعرف.
  • يمثل الهوية التسلسل الحالي من الفيروس الأصلي بنفس النسبة.
  • طول المحاذاة يشير إلى مدى العديد تسلسل لها نفس المعرف.
  • وهو يمثل عدد من الطفرات والتغيرات من عدم التطابق الأصلية.
  • وتمثل النتيجة قليلا مقياس لدرجة القياس اختلالها، وكلما ارتفعت درجة، كلما كان ذلك أفضل المحاذاة. بعض مقياس إحصائي كل عمود (يمكنك استخدام data.describe في بيثون () ليطلق عليه بسهولة):

تحقق العمود الهوية، ومن المثير للاهتمام أن نلاحظ أن قيمة الحد الأدنى من حوالي 77.6. الهوية الانحراف المعياري من 7. هذه القيمة هي كبيرة جدا، هناك مجموعة واسعة من الطفرات المحتملة يعني. قليلا نتيجة كبيرة نسبيا الانحراف المعياري لدعم هذا الرأي - أكبر انحراف معياري من المتوسط!

ويرتبط وهناك طريقة جيدة لتصور البيانات بواسطة FIG الحراري. تمثل كل خلية درجة الارتباط بين تلك الميزة وميزة أخرى.

ويمكن ملاحظة هذا الرقم في كثير من ارتباط وثيق مع بعضها البعض. وهذا أمر منطقي، لأن معظم الطفرات تختلف عن بعضها البعض. يحتاج المرء شيء أن يكون طول المحاذاة والنتيجة قليلا يرتبط ارتباطا عاليا الاهتمام.

خلق طفرة باستخدام تجمع K-وسائل

ويستخدم K-وسائل تجميع الخوارزمية، وهي تعلم آلة للعثور على نقاط البيانات في الفضاء ميزة وأسلوب في مجموعة من المجموعات. هدف K-وسائل هدفنا هو ايجاد الطفرات العنقودية، وبالتالي يمكننا أن نستنتج حول طبيعة الطفرة فضلا عن نظرة ثاقبة كيفية إصلاح الطفرة.

ومع ذلك، ما زلنا بحاجة لتحديد عدد من مجموعات ك. على الرغم من أن هذا هو بسيطة مثل نقطة المرسومة في بعدين، ولكن في أعلى الأبعاد لا يمكن أن يتحقق (إذا كنا نريد الإبقاء على معظم المعلومات). تتصرف مثل الكوع (طريقة الكوع) لتحديد ك هذا الأسلوب هو شخصي وغير دقيق، وبالتالي، سوف نستخدم طريقة مخطط (طريقة خيال).

طريقة الشخصي هو تجميع مراكز الكتلة ك نظرا لدرجة تكيف معدل البيانات. مكتبة بيثون sklearn لتحقيق K-وسائل وطريقة كفاف يصبح في غاية البساطة.

يبدو 5 مراكز الكتلة ليكون الأنسب. الآن، يمكننا تحديد مراكز المجموعة. فئة كل مركز العنقودية هي النقطة التي يدور حولها ممثل (في هذه الحالة) خمسة أنواع من قيمة تقييم النوع الرئيسي من الطفرة.

ملاحظة: تم موحدة البيانات، بحيث يتم تحجيم كل لنفس النسب. وإلا فإن كل عمود لا تكون المقارنة.

هذا الرقم يدل على الخواص الحرارية للكل الأعمدة العنقودية. لأن يتم تحجيم هذه النقاط، لذلك لاحظ القيم في FIG لا يعني في العدد. ومع ذلك، يمكنك مقارنة قيمة كل تسمية العمود. هل يمكن أن نفهم سمات النسبية لكل الطفرات العنقودية بصريا. إذا العلماء لتطوير لقاح، وينبغي أن الطفرات تتجمع لهذه الفيروسات الرئيسية.

في المقطع التالي، سوف نستخدم PCA لتصور البيانات.

تصور البيانات PCA

PCA (الرئيسي تحليل المركبات) هو وسيلة للحد من البعد. فإنه يحدد ناقلات متعامدة في فضاء متعدد الأبعاد ممثلة رمح، وبالتالي الحفاظ على معظم المعلومات (التباين).

شعبية بيثون المكتبات PCA sklearn يمكن أن يتحقق مع سطرين من التعليمات البرمجية. أولا، يمكننا فحص البيانات نسبة التباين. هذه هي النسبة المئوية من المعلومات الإحصائية من مجموعة البيانات الأصلية محفوظة. في هذه الحالة، فإن البيانات نسبة التباين هو 0،9838548580740327، وهي نسبة مرتفعة بالفعل! يمكننا التأكد من أن أي تحليل ما إذا كنا سوف تجعل البيانات من PCA لا مشوهة.

كل وظيفة جديدة (المكونات الرئيسية) هي مزيج خطية من الأعمدة الأخرى. نحن تصور من قبل FIG الحراري حيث اهمية واحد من مكونات المعارضة الأخريين.

المكونات الرئيسية للحاجة لفهم معنى مع ارتفاع درجة - في هذه الحالة، التي يبلغ طولها أطول من (أقرب لفيروس الأصلي)، والخصائص الرئيسية للمكون 2 وجود طول (أقصر مسافة من الأصلي قيمة أبعد). وينعكس هذا أيضا في الفرق الكبير في درجة قليلا.

ومن الواضح أن تحور الفيروس هناك خمس طرق رئيسية. يمكننا استخلاص الكثير من المعلومات.

حيث يقع مكون من أربعة طفرة في الجانب الأيسر، والجانب الأيمن من الطفرة. يتميز المكون من طول محاذاة عالية. وهذا يعني أن يتم محاذاة أعلى قيمة عنصر مع طول أطول (أقرب إلى الفيروس الأصلي). وهكذا، فإن قيمة العنصر هو المسافة الوراثية منخفضة فيروس أبعد الأصلي. ولذلك، فإن الغالبية العظمى من الفيروس الأصلي تحور فيروس مختلفة. لذلك، يجب أن العلماء يحاولون إيجاد لقاح يكون على بينة من أن الفيروس سيكون لها الكثير من مختلف جدا عن طفرة الفيروس الأصلي.

 استنتاج

باستخدام K-وسائل وPCA، يمكن التاجى تحديد الطفرات في خمس مجموعات رئيسية. يمكن للعلماء بحوث اللقاحات التاجى والتنمية استخدام المعلومات لاكتساب المعرفة عن المركز مجموعة من كل ميزة العنقودية. يمكننا استخدام الرئيسية المكونة العنقودية تحليل التصور في فضاء ثنائي الأبعاد، ووجد التاجى يحتوي على نسبة عالية طفرة. قد يكون هذا هو السبب في ذلك هو القاتل.

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور "  منظمة العفو الدولية لإرسال البيانات  "أيتها الأخوات ولا". إرسال البيانات THU  "لرعاية المزيد من المحاضرات ونوعية المحتوى.

إيطاليا شقيق طباعة صغيرة للمساعدة في 3D! وفي مواجهة خطر الملاحقة القضائية، والأصدقاء: الطبعة الإيطالية من "الطب الله"؟

تحت موجة جديدة من البنية التحتية، لنرى كيف عملاق التكنولوجيا للاستيلاء على المبادرة!

سوف أصدقاء يعود قريبا! القصة الكلاسيكية: الأصدقاء في النهاية أن أقول كم مرة يا إلهي؟

كيفية إنشاء مجموعة اختبار لتقدير مؤشرات الأعمال دون اتصال؟ (مع رمز ورابط)

مائة جهة Yunchuang المالية في جامعة تسينغهوا ناحية أصدرت تقريرا بحثيا، "اقتصاد الصين في وباء"

تسجيل وفقا للفصل الذاتي مابري الابهام الشمس

سوف CBA استضافة الحجر الصحي البريطاني بأنه "السجن"، وفريق شنغهاي: وقف التعاون!

أنت تقول شيئا وتفعل شيئا آخر! الساسة البريطانيين والأمريكيين هذه قبيحة، ألمانيا، إيطاليا، وحتى لا يمكن أن تصمد

بقدر سكرتير رئيس بلدية لأخذ زمام المبادرة من الأقنعة، ويمر إشارة قوية!

بكين نزهة خطيرا الأسبوع المقبل، وزيادة حركة المرور، حيث الصباح الضغط المروري ساعة الذروة

فتحت Tiantangzhai حديقة ذات المناظر الخلابة منظمة Tianranyangba في انتظاركم ل"غسل الرئة"

يوم لبيع خمسة عشر ألف السلاسل، وجينان الشواء ج قليلا إلى الوراء، انتعاش سريع في الفئات العمرية الأصغر سنا الطعام الرئيسي