نرسل لك 8 تقنيات تحليل البيانات بكفاءة بيثون (مع رمز)

المصدر: الخبرة

أطروحة 1300 كلمات القراءة الموصى بها 5 دقائق.

أساليب تحليل البيانات الموضحة في هذه المقالة، ليس فقط لتعزيز الكفاءة التشغيلية، ولكن أيضا يمكن أن تجعل من رمز أكثر "جميلة".

سواء للمشاركة في اللعبة Kaggle، أو تطوير تطبيق التعلم العميق، فإن الخطوة الأولى هي دائما تحليل البيانات، وهذه المادة يدخل 8 مع أساليب تحليل البيانات بيثون، ليس فقط لتعزيز الكفاءة التشغيلية، ولكن أيضا يمكن أن تجعل من رمز أكثر "جميلة" .

أولا، سطر من التعليمات البرمجية التي تحدد قائمة

عند تحديد قائمة معينة، وكتابة لحلقة مرهق للغاية، لحسن الحظ، بيثون هناك المدمج في طريقة لحل هذه المشكلة في سطر واحد من التعليمات البرمجية:

وفيما يلي قائمة تم إنشاؤها باستخدام لحلقة وإنشاء جدول المقارنة مع سطر واحد من التعليمات البرمجية:

س =

من =

بالنسبة للبند في العاشر:

 out.append (البند ** 2)

طباعة (الخروج)

# مقابل

س =

من =

طباعة (الخروج)

اثنين، وتعبيرات لامدا

تعبت من تعريف وظيفة لا يأخذ عدة مرات؟ امدا التعبيرات هو المنقذ الخاص بك! وتستخدم تعبيرات لامدا لخلق صغير، يمكن التخلص منها والمجهول الكائن وظيفة في بيثون. ويمكن أن تخلق وظيفة لك.

بناء الجملة الأساسية للتعبير امدا هو:

الحجج امدا: التعبير

يرجى ملاحظة أنه طالما هناك تعبير لامدا، يمكنك إكمال أي العملية التي يمكن أن تؤدي وظائف روتينية. يمكنك أن تبدأ مع المثال التالي، نرى قوة التعبير امدا:

ضعف = امدا س: س * 2

طباعة (مزدوجة (5))

10

ثلاثة، خريطة وFiter

بمجرد أن تتقن التعبير امدا، يتعلمون سيتم استخدامها جنبا إلى جنب مع خريطة وظائف تصفية، يمكنك تحقيق أكثر قوة.

على وجه التحديد، خريطة بتحويله إلى قائمة جديدة كل عنصر من عناصر القائمة لتنفيذ عملية و. في تجسيد الحالي، يتم ضرب من قبل (2) وخلال كل عنصر من العناصر، التي تشكل قائمة جديدة. يرجى ملاحظة، وظيفة القائمة () ببساطة تحويل الناتج إلى نوع القائمة.

# خريطة

يليها =

يؤدي = قائمة (خريطة (لامدا فار: فار * 2، يليها))

طباعة (نتيجة)

يأخذ وظيفة مرشح قائمة وكقاعدة عامة، مجرد خريطة نفسه، ولكن تقوم بإرجاع مجموعة فرعية من القائمة الأصلية من خلال مقارنة كل عنصر ومنطقية تصفية القواعد.

# تصفية

يليها =

يؤدي = قائمة (فلتر (لامدا س: س >  2، يليها))

طباعة (نتيجة)

أربعة، أرانجي وLinspace

عودة أرانجي نظرا خطوة من قائمة الحسابية. المعلمات الثلاث التي تبدأ، وقف، خطوة تمثل قيمة البداية وقيمة نهاية حجم الخطوة، علما، ونقطة توقف هو "قطع" قيمة، لذلك لن يتم تضمينها في صفيف الإخراج.

# Np.arange (بداية، توقف، خطوة)

np.arange (3، 7، 2)

مجموعة ()

Linspace وترتيب مشابهة جدا، ولكنها مختلفة قليلا. Linspace موحد لتحديد عدد الأقسام المقسمة. ذلك نظرا بداية الفاصل والنهاية، وعدد من النقاط تقسيم الأسطوانات قسامة، linspace نمباي بإرجاع صفيف. وهذا مفيد بشكل خاص لتصور البيانات والإعلانات محور خلال رسم.

# Np.linspace (بداية، توقف، الأسطوانات)

np.linspace (2.0، 3.0، الأسطوانات = 5)

مجموعة ()

خامسا، ما محور باسم؟

في الباندا، حذف واحد أو قيمة الجمع في نمباي المصفوفة، قد تواجه المحور. نحن حذف (خط) على سبيل المثال:

df.drop ( 'العمود A'، محور = 1)

df.drop ( 'الصف A'، محور = 0)

إذا كنت ترغب في التعامل مع العمود، يتم تعيين المحور إلى 1، إذا كنت ترغب في التعامل مع الخط، يتم تعيينها إلى 0. ولكن لماذا؟ استدعاء الباندا في شكل

df.shape

(# من الصفوف، # الأعمدة)

السمة شكل من دعوة الباندا DataFrame بإرجاع الصفوف (tuple)، وتمثل القيمة الأولى عدد الصفوف، وتمثل القيمة الثانية عدد الأعمدة. إذا كنت تريد أن يتم فهرستها في بيثون، ورقم الصف في الفهرس 0، عدد الأعمدة في الفهرس 1، يشبه إلى حد كبير كيف نعلن محور القيم.

ستة، CONCAT، ودمج وتاريخ

إذا كنت معتادا على SQL، ثم هذه المفاهيم بالنسبة لك قد يكون من الأسهل. في أي حال، هذه الوظائف أساسا بطريقة الجمع DataFrame معينة. التي تتبع الوقت هو أفضل المستخدمة والتي يمكن أن يكون صعبا، لذلك دعونا خلاصة.

CONCAT يسمح للمستخدمين لإلحاق DataFrame واحد أو أكثر في الجدول أدناه أو بجانب (اعتمادا على كيفية تعريف محور):

دمج عدة صفوف DataFrame مجتمعة لتحديد المفتاح الأساسي نفسه (مفتاح):

تاريخ، ودمج، واندماج اثنين DataFrame. ولكن لا تضغط على المعين دمج المفتاح الأساسي، ولكن الدمج وفقا لنفس العمود أو اسم المتتابعة:

سبعة، الباندا تطبيق

طلب للحصول على سلسلة الباندا تم تصميم. إذا كنت لم تكن مألوفة مع سلسلة، فإنه يمكن اعتبار مجموعة من نمباي مماثل.

تطبيق وظيفة إلى محور محدد من كل عنصر. باستخدام تطبيق، قد تكون قيمة DataFrame العمود (سلسلة) ويتم تنفيذ عملية تنسيق، وليس دورة ومفيدة!

مدافع = pd.DataFrame (،> * 3، والأعمدة = )

 مدافع

 A B

049

149

249

df.apply (np.sqrt)

 A B

02.03.0

12.03.0

22.03.0

 df.apply (np.sum، محور = 0)

A 12

B 27

df.apply (np.sum، محور = 1)

013

113

213

ثمانية، الجداول المحورية

وأخيرا، الجداول المحورية. إذا كنت معتادا مع Microsoft Excel، كنت قد سمعت من الجدول المحوري. الباندا المدمج في وظيفة لإنشاء pivot_table على غرار جدول PivotTable في شكل DataFrame ،، فإنه يمكن أن تساعدنا على رؤية بسرعة بضعة أعمدة البيانات. وفيما يلي بعض الأمثلة: بذكاء جدا وفقا لل"مدير" مجموعة البيانات المقسمة:

pd.pivot_table (مدافع، ومؤشر = )

بدلا من ذلك، يمكنك تصفية قيمة العقارات:

pd.pivot_table (مدافع، ومؤشر = والقيم = )

ملخص

وآمل أن الوصف أعلاه من هذه تسمح لك العثور على بعض لطيفة وظائف بيثون والمفاهيم.

الرابط الأصلي:

https://towardsdatascience.com/python-for-data-science-8-concepts-you-may-have-forgotten-i-did-825966908393

أفراد العمليات: ران هيل

خلف ابن زيارة منخفضة مفتاح بكين: الصين التصدي أشباه الموصلات، وإشراك السلبي في تايوان

حصريا | يأخذك قراءة ملامح مادة واحدة يعمل!

GIF- زانج يونينغ 14 دقيقة 1 بالرصاص 2 تمريرة، انه لسرعة أعلى من مستوى زميله الأولمبية!

حصرية | الصين والولايات المتحدة خلفية حرب تجارية، وجوجل AIvs بايدو AI إرم مجموعة

عندما سجل الاولمبية الصينية 4 أهداف، مساعد التدريس الذي أشار إلى أن الفلبين هذه الخطوة واحدة: حقا يائسة

الجاف | جامعة نيويورك، وتشن شي: التطور الفني AlphaGo صفر حتمية (مرفق PPT)

لعب خلال اليوم أكثر من 600 مليون "غزاة يان شى" لرؤية النمط موقع الفيديو (مع رمز)

GIF- الاولمبية الصينية لعب مجنون! 9 دقائق ازدهار حتى ثلاثة أهداف، الفلبين حظة ورطتها

جرد | 2018 تكنولوجيا الذكاء الاصطناعي اختراق العالمية TOP10 (تقرير)

ديزني معا! اثنين من المساعدات الخارجية في الدوري الممتاز السابقة، وجهت تيانجين الصداقة من ألمانيا!

"ملك الكون" جولدمان تقاطع في التاريخ، لدينا الآلي آلة شامل

من صفر إلى | المطلوب 14 AI إدخال دفتر قائمة القراءة (مرفق رابط PDF)