بيانات كرة القدم لاعب لتكون مثالا يحتذى، مفصلة 3 بارد كبيرة المهارات البصرية

أطروحة 3138 الكلمات، وعندما يكون التعلم مدى المتوقع 20 دقيقة أو أكثر

بيانات القيادة التصور في لمحة. ومع ذلك، فإن نجاح التصور البيانات غالبا ما يكون من الصعب تحقيقه. بالإضافة إلى جمهور أوسع هذه العرض المرئي للبيانات، ولكن كما يأخذ المزيد من الوقت والجهد.

ونحن جميعا نعرف كيفية جعل شريط الرسوم البيانية والمؤامرات مبعثر ورسوم بيانية، ولكن لا تولي اهتماما لتجميل لهم. هذا وسوف تلحق الضرر موثوقية أقراننا والرؤساء في أذهان تقريبا.

وبالإضافة إلى ذلك، إعادة استخدام التعليمات البرمجية هو أيضا مهم جدا. كنت لا تريد أن مجموعات البيانات الوصول من نقطة الصفر، أليس كذلك؟ استخدام بعض قابلة لإعادة الاستخدام الرسومية قادرة على العثور على المعلومات التي تريدها بشكل أسرع.

هنا ينطوي على ثلاث أدوات التصور العملية:

ارتباط نمط تصنيف

مخطط التشتت مصفوفة

استخدام تصنيف سيبورن المؤامرات مبعثر التعليقات والشروح

عموما، هذا سوف يعلمك لجعل واستخدامها في الرسم البياني بعض حسن المظهر.

هذه المقالة سوف تستخدم لكرة القدم 2019 مجموعات بيانات كاملة على اللاعبين kaggle، يتضمن أحدث نسخة من قاعدة البيانات معلومات مفصلة عن كل لاعب، بما في ذلك تسجيل.

منذ مجموعة البيانات والعديد من الأعمدة، ونحن نركز فقط على مجموعة فرعية مدرجة الفئات وعمود المستمر.

استيراد نمباي كما أرستها

الباندا الواردات والمشتريات

سيبورن استيراد كما SNS

matplotlib.pyplot استيراد كما معاهدة قانون البراءات

Matplotlib مضمنة

# نحن لا ربما تحتاج خطوط الشبكة. هل نحن؟ إذا كانت الإجابة بنعم تعليق هذا الخط

sns.set (نمط = "القراد")

player_df = pd.read_csv ( "../ الإدخال / data.csv")

numcols = <

 "عموما،

 "المحتملة"،

"معبر '،' التشطيب '،' ShortPassing '،' الجري '،' LongPassing '،' BallControl '،' تسريع '،

 "SprintSpeed '،' أجيليتي '،' القدرة على التحمل،

 'القيمة'، 'للأجور'>

catcols =

# المجموعة الثانوية الأعمدة

player_df = player_df

# صفوف قليلة من البيانات

player_df.head (5)

إحصائيات لاعب

على الرغم من أن هذه البيانات غير منسق بشكل جيد، ولكن بسبب الأجور وقيمة العمود هي باليورو، ويحتوي على سلسلة يتطلب بعض المعالجة من أجل تمكينها من توفير قيمة لتحليلها لاحقا.

wage_split صفر (س):

 محاولة:

 عودة الباحث (x.split ( "K") )

 باستثناء ما يلي:

 العودة 0

player_df = player_df تطبيق (لامدا س: wage_split (خ)).

مواطنه value_split (س):

 محاولة:

 إذا "M" في العاشر:

 عودة تعويم (x.split ( "M") )

 أليف 'K' في العاشر:

 عودة تعويم (x.split ( "K") ) / 1000

 باستثناء ما يلي:

 العودة 0

player_df = player_df تطبيق. (لامدا س: value_split (خ))

ارتباط نمط تصنيف

بعبارات بسيطة، فإن العلاقة هو مقياس لمدى تحرك متغيرين معا.

على سبيل المثال، في واقع الحياة، والدخل والإنفاق ارتبط بشكل إيجابي مع زيادة في متغير واحد لزيادة متغير آخر.

استخدام ألعاب الفيديو والأداء الأكاديمي عكسيا، وهو ما يعني أقل من الزيادة متغير في متغير آخر.

إذا كان الأمر كذلك التنبؤ مع المتغير الهدف هو سلبا أو إيجابا المترابطة، ثم المتغير سيكون لها قيمة البحث.

دراسة العلاقة بين المتغيرات المختلفة مفيدة جدا لفهم البيانات.

استخدام سيبورن يمكن بسهولة إنشاء رسم تخطيطي جيدة.

المراسل = player_df.corr ()

ز = sns.heatmap (المراسل، VMAX = 0.3، مركز = 0،

 مربع = صحيح، linewidths = 0.5، cbar_kws = { "يتقلص": 0.5}، ANNOT = صحيح، معاهدة المواد الانشطارية = '2F'، CMAP = 'coolwarm')

sns.despine ()

g.figure.set_size_inches (14،10)

plt.show ()

كل المتغيرات القاطع يذهب الجميع؟

هل لاحظت أي أسئلة بالنسبة لي؟

هناك مشكلة، لأن الرسم فقط العلاقة بين التسلسل العددي المحسوبة.

إذا كان المتغير الهدف هو ناد أو الموقف، ماذا سيحدث؟

إذا كنت ترغب في الارتباط بين ثلاث حالات مختلفة، يمكن حساب ذلك باستخدام قياس ارتباط التالية.

1. قيمة المتغير

ويمكن الحصول على هذا المتغير عن طريق ارتباط بيرسون، وهو مقياس لكيفية تحرك متغيرين معا، في حدود .

2. المتغيرات الفئوية

استخدام كريمر V معامل لحالات تصنيف. مترابطة معاملات بين متغيرين منفصلة، والمتغيرات تستخدم جنبا إلى جنب مع مستويين أو أكثر. بل هو أيضا قدرا من التماثل، لأن النظام هو متغيرات غير ذات صلة، أي كليم (A، B) == كليم (B، A).

على سبيل المثال، في مجموعة البيانات، يجب أن يكون والجنسية نادي صلة ما.

متاح الرسم كومة للتحقق من ذلك، وهذا هو وسيلة رائعة لفهم التوزيع بين المتغيرات الفئوية والمتغيرات الفئوية، لأن هناك العديد من الجنسيات والنوادي في البيانات، وذلك باستخدام مجموعة فرعية من البيانات.

تبقي فقط على أفضل الفرق (حجز بورتو فقط لجعل عينة أكثر تنوعا)، والجنسية الأكثر شيوعا.

تفضيلات النادي يعكس إلى حد كبير "الجنسية": تعرف على مساعدة السابقة ويتوقع هذا الأخير.

يوضح الشكل أن اللاعبين الإنجليز يلعبون أكثر عرضة لتشيلسي أو مانشستر يونايتد، وليس في برشلونة، بايرن ميونيخ أو بورتو.

وبالمثل، كليم معامل V أيضا الاستيلاء على نفس المعلومات.

إذا كانت نسبة كل ناد الجنسيات لديها لاعبين من نفس، ومعامل V كريمر هو صفر.

إذا لاعبين في كل نادي يفضلون جنسية واحدة، وكريمر معامل V == 1، على سبيل المثال، وجميع اللاعبين الإنجليزية في مانشستر يونايتد لعبت لجميع اللاعبين الألمان في فعالية بايرن ميونيخ وهلم جرا.

في جميع الحالات الأخرى، كان نطاق .

3. المتغيرات العددية والفئوية

نسبة الاستخدام المتواصل من الحالات تصنيف ذات الصلة.

في حالة لا تنطوي على الكثير من الرياضيات، يتم استخدام هذا المتغير لقياس درجة التشتت.

إذا ما أعطيت رقم، يمكنك أن تجد هذه الفئة؟

على سبيل المثال، افترض أن مجموعة البيانات لديها "SprintSpeed" و "الوظيفة" اثنين من تصنيف، ثم:

حارس المرمى: 58 (دي خيا)، 52، 58 (M نوير.)، 43 (G بوفون.) (T كورتوا).

المدافع: 68 (D غودين.)، 59 (V كومباني)، 73 (S Umtiti.)، 75 (M بنعطية).

إلى الأمام: 91 (C.RONALDO)، 94 (G بايل)، 80 (S.Aguero)، 76 (R يفاندوفسكي.)

من النتيجة، وهذه الأرقام مؤشرا جيدا للموقف وهم في، وبالتالي فإن ارتباط مرتفع جدا.

إذا بسرعة العدو لاعب من أكثر من 85، ثم لاعب هو بالتأكيد إلى الأمام.

هذه النسبة هي أيضا بين.

يؤخذ بتنفيذ التعليمات البرمجية هذا dython الحزمة، سوف رمز لا تكون كثيرة، النتائج النهائية على النحو التالي:

player_df = player_df.fillna (0)

النتائج = الجمعيات (player_df، nominal_columns = catcols، return_results = صحيح)

تصنيف تصنيف مقابل، تصنيف القيمة مقابل، والقيمة مقابل القيمة، وهذه المخططات تجعل أكثر إثارة للاهتمام.

جميل، أليس كذلك؟

مجرد إلقاء نظرة على البيانات، يمكن أن يكون لديك معرفة الكثير من كرة القدم، مثل:

موقف اللاعب يرتبط ارتباطا وثيقا بقدرة لعاب. لا يمكن السماح لميسي لعب مرة أخرى!

تقطر أكثر أهمية من القيمة تمرير والتعامل مع الكرة. قواعد تمر دائما، كما تمريرة نيمار.

"نادي" و "الدخل" لديه علاقة كبيرة ويمكن التنبؤ بها.

"الهيئة" و "اللعب تفضيلات قدم" ترتبط إلى حد كبير. هل هذا يعني أنه إذا كان لاعب رقيقة، فمن الممكن للعب مع القدم اليسرى أمثاله؟ قد لا يكون من الأهمية العملية، فإنه يتطلب مزيدا من التحقيق.

 وبالإضافة إلى ذلك، من خلال هذا المخطط بسيط، يمكنك العثور على ذلك الكثير من المعلومات المذكورة أعلاه، الذي لا يرى في الرسم البياني علاقة نموذجية المتغيرات لا قاطعة.

دراسة متعمقة لهذا المخطط يمكنك الحصول على نتائج أكثر وضوحا، ولكن المفتاح هو أن الرسوم البيانية تمكنك من الأسهل العثور على نوع من القانون في الحياة الحقيقية.

مخطط التشتت مصفوفة

في حين ما سبق وتحدث عن الكثير من أهميتها، بل هو مؤشر على متقلب، حتى يتسنى لنا أن نفهم، نحن ننظر على سبيل المثال.

ويتكون "Anscombe الرباعية" من أربعة مجموعة البيانات ارتباط مشابه تقريبا لتكوين 1، ولكن مع توزيعات بيانات مختلفة جدا، والمعارض تأثيرات مختلفة جدا عند رسم.

Anscombe الرباعية: الأقرب متقلب

لذلك، تصبح البيانات رسم أحيانا حاسمة، والحاجة لمعرفة توزيع وحدها.

الآن هناك العديد من الأعمدة مجموعة البيانات، الرسوم البيانية كل منها ان تكون شاقة للغاية.

في الواقع، فقط بضعة أسطر من التعليمات البرمجية يمكن حلها.

filtered_player_df = player_df . الترقيم الدولي (< 'FC برشلونة'، 'باريس سان جيرمان،

 "مانشستر يونايتد"، "مانشستر سيتي"، "تشيلسي"، "ريال مدريد"، "بورتو"، "بايرن ميونيخ">)) &

 (Player_df . اسن (< 'انجلترا'، 'البرازيل'، 'الأرجنتين،

 'البرازيل'، 'إيطاليا'، 'إسبانيا'، 'ألمانيا'>))

 >

# خط واحد لخلق pairplot

ز = sns.pairplot (filtered_player_df >)

جيد جدا، ويمكنك ان ترى الكثير من المعلومات في هذا الرقم.

ترتبط إلى حد كبير الأجور والقيم.

معظم القيم الأخرى هي أيضا ذات الصلة، ولكن "المحتملة" و "قيمة" من الاتجاه ليست غير عادية. يمكن أن ينظر إليه عندما يصل إلى حد معين من إمكانات، وكيف تنمو قيمة أضعافا مضاعفة. هذه المعلومات مفيدة للنمذجة، يمكنك أن تكون على "المحتملة" لتحويلها إلى جعلها أكثر أهمية؟

تحذير: لا يوجد عمود تصنيف!

على هذا الأساس، يمكننا أن نفعل ما هو أفضل؟ يكون من الممكن دائما.

ز = sns.pairplot (filtered_player_df >، هوى =' نادي ')

وهناك الكثير من المعلومات على الخريطة، ببساطة إضافة إلى "هوى" معلمة المتغيرات الفئوية "النادي" في العلبة.

توزيع الأجور بورتو يميل إلى أن يكون أقل من ذلك نهاية للأجور.

هذا الرقم لا يمكن أن نرى لاعبين بورتو قيمة التوزيع حادة، ومشغلات بورتو يبحثون دائما عن الفرص.

العديد من الوردي نقطة (نيابة عن تشيلسي) على "إمكانية" و "الأجور" شكل رسم بياني كتلة. تشيلسي لديهم الكثير من اللاعبين أجورا أقل قدرة عالية، تحتاج إلى مزيد من الاهتمام.

أيضا الحصول على بعض المعلومات من رسم بياني ثانوي الأجور / قيمة.

راتب سنوي قدره 500،000 نقطة زرقاء هو ميسي. وبالإضافة إلى ذلك، أكثر قيمة من ميسي البرتقال نقطة ونيمار.

على الرغم من أن هذا الأسلوب لا يحل تصنيف المشاكل، ولكن هناك طرق أخرى لدراسة توزيع المتغيرات الفئوية، على الرغم من أن القضية.

مبعثر الفئات

كيفية عرض العلاقة بين التصنيف والبيانات الرقمية؟

فقط ادخل اسم، أدخل مؤامرة تصنيف مبعثر من الصورة. وهناك مجموعة من النقاط المرسومة لكل فئة، تتوزع بشكل طفيف في المحور الصادي، للعرض.

هذا هو الأسلوب المفضل نلفت حاليا هذه العلاقة.

ز = sns.swarmplot (ذ = "نادي"،

 س = 'للأجور،

 البيانات = filtered_player_df،

 # تقليل حجم النقاط لتجنب الازدحام

 حجم = 7)

# إزالة الجزء العلوي والخط الصحيح في الرسم البياني

sns.despine ()

g.figure.set_size_inches (14،10)

plt.show ()

مبعثر الفئات

لماذا لا مربع رسم ذلك؟ متوسط أين؟ يمكنك رسم للخروج منه؟ بالطبع. في الجزء العلوي من غطاء شريط الرسم البياني، وتحصل على رسومات حسن المظهر.

ز = sns.boxplot (ذ = "نادي"،

 س = 'للأجور،

 البيانات = filtered_player_df، whis = np.inf)

ز = sns.swarmplot (ذ = "نادي"،

 س = 'للأجور،

 البيانات = filtered_player_df،

 # تقليل حجم النقاط لتجنب الازدحام

 حجم = 7، اللون = 'الأسود')

# إزالة الجزء العلوي والخط الصحيح في الرسم البياني

sns.despine ()

g.figure.set_size_inches (12،8)

plt.show ()

مثيرة للاهتمام مجانا التشتت + boxplot

حسنا، يمكن أن ينظر إليه على الرسم البياني وبعض الإحصاءات من كل نقطة توزيع، ويمكن أن نفهم بوضوح الفوارق في الأجور.

نقطة الرقم أقصى اليمين هو ليونيل ميسي، وبهذه الطريقة، لن يتضح ذلك من خلال النص أدناه على الرسم البياني.

هذا الرقم يمكن استخدامها لتقديم العروض، إذا كان رب العمل يطلب ميسي مكتوبة على هذا المخطط، يمكنك إضافة صور للتعليق.

max_wage = filtered_player_df.Wage.max ()

max_wage_player = filtered_player_df . القيم

ز = sns.boxplot (ذ = "نادي"،

 س = 'للأجور،

 البيانات = filtered_player_df، whis = np.inf)

ز = sns.swarmplot (ذ = "نادي"،

 س = 'للأجور،

 البيانات = filtered_player_df،

 # تقليل حجم النقاط لتجنب الازدحام

 حجم = 7، اللون = 'الأسود')

# إزالة الجزء العلوي والخط الصحيح في الرسم البياني

sns.despine ()

# علق. س ص للتنسيق. Max_wage هو x و 0 غير ذ. وفي هذا نطاقات مؤامرة ص 0-7 لكل مستوى

# Xytext لإحداثيات حيث أريد أن أضع النص الخاص بي

plt.annotate (ق = max_wage_player،

 س ص = (max_wage، 0)،

 xytext = (500،1)،

 # تصغير حجم السهم إلى انسداد تجنب

 arrowprops = { 'facecolor': 'رمادي'، 'عرض': 3، 'تقليص': 0.03}،

 backgroundcolor = 'الأبيض')

g.figure.set_size_inches (12،8)

plt.show ()

إحصاءات وجماعات نقطة المشروح، ويمكن استخدامها للخطاب.

انظر إلى الرسم البياني أدناه من بورتو البرتغالي، والميزانية الأجور صغيرة جدا، فمن الصعب، والفرق الأخرى عالية الدخل الذي المنافسة.

ريال مدريد وبرشلونة لديهم الكثير من اللاعبين الذين يتقاضون أجورا مرتفعة.

أعلى للأجور وسيطة من مانشستر يونايتد.

مانشستر يونايتد وتشيلسي التركيز على المساواة، والعديد من اللاعبين الأجور متشابهة.

وعلى الرغم من المزيد من الاهتمام، ولكن ليونيل ميسي ونيمار فجوة كبيرة في الأجور.

ويمكن أن يرى، في هذا العالم المجنون، فقط بعض سطح العادي.

تتناول هذه المقالة حساب العلاقة بين القراءة وأنواع من المتغيرات، وجود علاقة بين قيمة البيانات الرسم واستخدام رسمها ارتباط تصنيف التشتت بين البيانات العددية والبيانات التصنيف. ومن المثير للاهتمام، يمكنك كومة معا في عنصر التخطيط في سيبورن.

انتباه رسالة الابهام

معا نحن نشارك في التعلم وتطوير AI الجاف

ترحب منظمة العفو الدولية انتباه منصة الشنق كله من الطبقة سائل الإعلام "قراءة التقنية الأساسية"

الابن الضال القطيع إلى عمه رزين: HKUST في قمة سرية التكنولوجيا الفائقة رئيس الذاتي مذكرات

EZ تان وادي اللحوم تصبح السائدة عالية جدا يربح نسبة مئوية؟ وهذا يسمح عدة قطع من المعدات EZ عودة موقف T1

عمال الحوار Chuannong إلكتروني كبار السن | انفجار قيمة الين الجدول المدرسي ممتازة المحافظات السرية هي الفتوة؟

تونغ تشوي جيك الرجال إصلاح التفكير شعبية من الله، يأخذك إلى حياة عالية الذكاء العاطفي!

شائعات التقاعد Mlxg الجلوس ريال مدريد! RNG والقبضات في القائمة الرسمية للاعبين معركة لا البخور وعاء

ذكر عرض حي كان يبحث فعلا للعب لمرافقة زوجته السابقة سبعة وسبعين؟ بعد معرفة الحقيقة بالأسى ساو ذكر الأصدقاء نظرة يجعل المياه

نفى هواوي التخفيضات في إنتاج الهاتف المحمول. Zhengzi بن، ونائب رئيس بايدو ترك | المهوسون العناوين

SDG الملعب شياو بنغ مذهلة لشرح مع امرأة AD الفهد! AP شياو بنغ بعد لا يسمح لعبة لشرح من الإناث الفهد Q

علي نقب الخروج "، والنسخة الهندية من برنامج" الأهتزاز ذلك؟

متر تفتح TheShy استخدام اللعب المبتكرة! سوف متر موسم الصيف سيكون الهبوط في الساحة الفنية؟

مطابقة مجموع اللاعبين اختيار كامبياسو زملائه حفرة؟ يسمح هدوء قانون قوي لك لقمع فاز زميله الكمال السعادة المزدوجة

وقال الرماد PDD لن تفقد إلى "خداع" وجها للضرب! جرعة شقيق ملقاة شبكة شعبية كاملة بضعة كتل PDD