40 مقابلة استخراج البيانات Zhenti تشغيل كبيرة

الكاتب | انغ Wenqi

أنتجت | CSDN بلوق

1. في PCA لماذا تحول متعامد؟

الفكر PCA هو تعيين ميزة ن الأبعاد إلى ك الأبعاد (ك < ن)، الذي يقع على بعد ك الأبعاد ميزة المتعامدة جديدة. هذا ويشار إلى كميزة ك الأبعاد مكون الرئيسي هو بناء إعادة في ميزة ك الأبعاد، بدلا من مجرد إزالة ميزة المتبقية ن ك الأبعاد من ميزة ن الأبعاد. PCA الغرض من ذلك هو تحديد العنصر الرئيسي أقل (بالمقارنة مع عدد من المتغيرات مميزة)، يتم تحديد العنصر الرئيسي من تلك القادرة على تفسير البيانات تعيين الحد الأقصى للالتباين. بواسطة متعامد غيرت الأوضاع النسبية للعنصر الرئيسي لا يتغير، فإنه يمكن فقط تغيير إحداثيات الفعلية نقطة.

2، ومجموعة بيانات معينة، مجموعة البيانات وفقدان القيم، وهذه القيم المفقودة توزيع في مجموعة من الانحراف المعياري القيمة 1. ما هي النسبة المئوية من البيانات لن تتأثر؟ لماذا؟

منذ توزيع البيانات على مقربة من المتوسط، أولا نفترض أن هذا هو التوزيع الطبيعي. في التوزيع الطبيعي، تقع على بعد حوالي 68 من البيانات مع متوسط (أو واسطة، متوسط) 1، مثل حوالي 32 من بقائها ضمن الانحراف المعياري للبيانات لا يتأثر. وهكذا، حوالي 32 من البيانات لن تتأثر القيم المفقودة.

3، وكشف عن سرطان يتيح لك مجموعة من البيانات، الانتهاء من بناء نموذج التصنيف، حققنا دقة 96. إذا كنت غير راض عن أداء النموذج، ثم، ما يمكنك القيام به حيال ذلك؟

نتيجة الكشف عن سرطان هي بيانات غير المتوازنة، وتركز على البيانات الخلل، لا ينبغي أن تستخدم دقة كمقياس للنموذج القياسي، وذلك لأن 96 (وفقا لمعين) ويمكن تصنيف توقع بشكل صحيح الأغلبية، لكننا مهتمون هي تلك قليل تصنيف (4)، وأولئك الذين تم تشخيص السرطان.

وفقا لذلك، من أجل تقييم أداء نموذج يجب أن حساسية (معدل إيجابي صحيح) وخصوصية (معدل سلبي صحيح)، ويستخدم F لتحديد درجة "الذكية" هذا المصنف. إذا كان الأداء ليست جيدة على أن 4 من البيانات، يمكننا اتخاذ الخطوات التالية:

1. استخدام، وأخذ العينات الإفراط في بيانات العينات الفرعية أو توازن جعل ضرب.

2. باستخدام دليل احتمالي ومنحنى AUC-ROC يتم ضبط للعثور على أفضل التنبؤ عتبة عتبة.

3. الأوزان تعيين لتصنيف، تصنف على أنها أقل الحصول على وزن أكبر.

4. الكشف عن شذوذ.

4، لمجموعات البيانات غير المتوازنة، ما هي الخيارات الرد؟

أن مجموعة البيانات، وعدد العينات في كل فئة تختلف اختلافا كبيرا. على سبيل المثال، في تصنيف ثنائي، أي ما مجموعه 100 عينة (100 صف من البيانات، كل صف من البيانات لتوصيف عينة)، 80 عينات تنتمي إلى فئة 1 و 20 عينات المتبقية تنتمي إلى الطبقة 2، والطبقة 1: class2 بعد = 80: 20 = 4: 1، التي من شأنها أن تنتمي لهذه الفئة ليست متوازنة. بالطبع، يحدث مشكلة عدم التوازن الطبقة أيضا في مهمة متعددة تصنيف.

استراتيجية لحل يمكن تصنيف المشكلة الخلل إلى فئتين: واحد هو أن نبدأ من مجموعة التدريب، وتوزيع العينة عن طريق تغيير مجموعة التدريب، والحد من درجة من عدم التوازن، والآخر هو أن نبدأ من الخوارزمية التعلم، خوارزمية لحل الاختلالات وفقا ل عيوب تعديل مناسب خوارزمية تصنيف للتكيف مع مشكلة الخلل. طريقة مجموعة التدريب ميزان تدريب مجموعة اختزال الرئيسي (اختزال) طريقة وتدريب مجموعة طريقة التقسيم. وتشمل استراتيجيات التعلم المصنف مستوى خوارزمية متكاملة، والتعلم واختيار أساليب ميزة من حيث التكلفة الحساسة.

5. ما هو K أضعاف عبر التحقق من صحة؟

K أضعاف عبر التحقق من الصحة والبيانات الخام تقسيم عشوائيا إلى أجزاء K، وهو اختيار مثل بيانات الاختبار في قسم K، ما تبقى من K-1 واحد عن بيانات التدريب. إجراءات تصديق متقاطع هو في الواقع تجربة مرة K تتكرر في كل مرة اختيار تجارب مختلفة من الأجزاء جزء K كبيانات الاختبار، والبيانات المتبقية كما التجربة بيانات التدريب التي تم الحصول عليها في النهاية النتائج التجريبية يعني K لنموذج تقييم القدرة على التعميم، وبالتالي فإن اختيار نموذج.

6 والدقة لفترة وجيزة (دقة) والإحصاءات تذكر (استدعاء) معنى؟

نذكر (وأذكر) هو مقياس تغطية السطح، ويتم تقسيم نسبة مقياس في عدد وافر من الحالات الإيجابية الأمثلة الإيجابية (استدعاء):

دقة (دقة) وعالية الدقة أحيانا ولا تمثل خوارزمية مثل:

معدل دقة (الدقة) ينقسم إلى ن يمثل مثالا على التجسيد العملي نسبة (الدقة) أمثلة إيجابية.

7، وصفا موجزا للF قيمة إحصائية (F-قياس) معنى؟

ومن المرجح F القياس الوسط التوافقي لإستدعاء والدقة:

إذا كانت المعلمة و= 1 أي F1 القياس، وهو تقييم شامل لكلا المؤشرين، وهو مؤشر شامل يعكس بشكل عام. الدقة نأمل بالتأكيد أن أعلى نتائج بحث أفضل، في حين أن نذكر أيضا الأعلى هو الأفضل، ولكن في الواقع هما متناقضة في بعض الحالات. في ظل هذه الظروف المتطرفة، ونحن نبحث من نتيجة واحدة فقط، ودقيقة، دقة 100، ولكن نذكر منخفضة للغاية؛ وإذا وضعنا يتم إرجاع كل النتائج، ثم هذا استدعاء 100، ولكن من شأنه الدقة منخفضة جدا. لذلك، في مناسبات مختلفة الحاجة إلى القاضي لأنفسهم وتأمل الدقة نذكر مرتفع نسبيا أو عالية نسبيا. إذا فعلت ذلك الدراسات التجريبية يمكن رسم منحنيات الدقة استدعاء للمساعدة في تحليل.

على سبيل المثال، ما مجموعه 1000 بركة السمك في الداخل، تحتوي على 100 الكارب. آلة التعلم تصنيف نظام 1000 هذه الأسماك تصنف كل بأنها "ليست الكارب"، ثم معدل دقة هو أيضا 90 (من الواضح أن نظام التصنيف هذا هو الفشل)، ولكن معدل استدعاء 0، لأنه تم تقسيم أي عينات الأسماك الحق. يوضح هذا المثال نظام تصنيف الناجح يجب النظر دقة ومراجعة، وخصوصا في وجه تصنيف متفاوتة.

8، لفترة وجيزة الإحصائية ROC معنى منحنى؟

منحنى ROC X محور معدل ايجابية كاذبة (FPR)، Y محور هو معدل إيجابي حقيقي (TPR):

تنظر أربع نقاط منحنى ROC وخط. النقطة الأولى (0،1)، أي FPR = 0، TPR = 1، وهو ما يعني FN (سلبية كاذبة) = 0، وFP (إيجابية كاذبة) = 0. نجاح باهر، وهذا هو تصنيف الكمال، فإنه تم تصنيف جميع العينات بشكل صحيح. النقطة الثانية، (1،0)، أن FPR = 1، TPR = 0، تحليل مماثل يمكن العثور على هذا هو أسوأ تصنيف، لأنه يتجنب كل الإجابات الصحيحة بنجاح. النقطة الثالثة، (0،0)، أي FPR = TPR = 0، أي، FP (إيجابية كاذبة) = TP (إيجابي صحيح) = 0، المصنف يمكن العثور عليها في جميع العينات توقع العينات السلبية (سلبية). وبالمثل، فإن النقطة الرابعة (1،1)، تصنيف يتوقع فعلا جميع العينات هي العينة إيجابية. بعد التحليل الوارد أعلاه، يمكننا أن نؤكد، منحنى ROC أقرب إلى الزاوية اليسرى العليا، وأفضل أداء المصنف.

النظر في كسر خط في نقطة منحنى FIG ROC على ص = س. هذه نقطة على الخط القطري هو في الواقع نتيجة لاستخدام استراتيجية التخمين عشوائية ممثلة في المصنف، على سبيل المثال، (0.5،0.5)، مشيرا إلى أن المصنف التخمينات العشوائية لنصف العينة كعينة إيجابية، والنصف الآخر من العينات عينات سلبية.

عند الاختبار تغيير توزيع تركيز العينات الإيجابية والسلبية، ROC منحنى يمكن أن تظل ثابتة. غالبا ما تظهر البيانات الفعلية في التركيز غير المتوازن فئة (فئة الخلل) ظاهرة، وهذا هو الكثير عينات أكثر إيجابية العينات السلبية (أو العكس بالعكس) النسبة، وتوزيع بيانات اختبار العينات الإيجابية والسلبية قد تتغير بمرور الوقت. هذا الرقم هو المقارنة بين منحنى ROC ومنحنى الدقة نذكر:

(A) و (ج) من منحنى ROC، (ب) و (د) للمنحنيات الدقة تذكر. (A) و (ب) يظهر نتيجة وهو تصنيف مجموعة الاختبار الأصلي (توزيع متوازن للعينات الإيجابية والسلبية) في (ج) و (د) بعد عدد العينات السلبية في مجموعة الاختبار إلى 10 أضعاف تصنيف الأصلي والنتيجة هي. يمكن رؤيتها بوضوح، ومنحنى ROC تبقى على حالها تقريبا، في حين تغير منحنى الدقة نذكر بشكل كبير.

9، وكيفية رسم منحنى ROC؟

في نظرية الكشف عن إشارة، وهذه خاصية التشغيل المتلقي (ROC)، أو ببساطة منحنى ROC، هو مؤامرة الرسومية التي توضح أداء نظام المصنف ثنائي كما اختلفت عتبة التمييز فيها. 20 عينة اختبار، "من الدرجة الاولى" العمود يشير كل اختبار عينة التسمية الحقيقية، ص يدل على عينة إيجابية، ن يمثل العينات سلبية)، "نتيجة" إلى أن كل عينة اختبار ينتمي احتمال عينات إيجابية.

لدينا من الاعلى الى الادنى، وتحويل "نتيجة" قيمة باعتباره عتبة قيمة العتبة، عند احتمال وجود عينة الاختبار ينتمي عينات إيجابية أكبر من أو يساوي هذا الحد الأدنى، فإننا نعتقد أنه من عينة إيجابية، وإلا عينات سلبية. على سبيل المثال، في FIG 4 لعينة التي "النتيجة" هو 0.6، ثم العينات 1، 2، تعتبر 4 عينات إيجابية، لما لها من قيمة "النتيجة" أكبر من أو يساوي 0.6، في حين أن الآخر تعتبر العينات سلبية العينات. في كل مرة تحديد عتبة مختلفة، يمكننا الحصول على مجموعة من FPR وTPR، نقطة أي على منحنى ROC. وبهذه الطريقة، حصلنا على ما مجموعه 20 مجموعة من القيم TPR وFPR، فهي نتائج المنحنيات ROC رسمها كما هو مبين أدناه:

عندما وضعنا عتبة إلى 1 و 0، على التوالي، ويمكن الحصول على (0،0) و (1،1) نقطتين على منحنى ROC. هذه (FPR، TPR) مرتبطة معا، يتم الحصول على منحنى ROC. قيمة العتبة أكثر، وأكثر سلاسة منحنى ROC.

في الواقع، لم يكن لدينا للحصول على عينة من كل عينة الاختبار القيم احتمال إيجابية، طالما المصنف الحصول على "عشرات" من عينات الاختبار يمكن أن يكون (وليس بالضرورة في درجات (0،1)). وكلما ارتفعت درجة، والمزيد من المصنفات تمثل الإيجابية أن هذا عينة الاختبار هي عينات إيجابية، ولكن في نفس قيمة استخدام كل عتبة التصنيف.

10، لفترة وجيزة إحصائيات منحنى PR معنى؟

ملاحظة: ROC وPR مماثلة، ولكن الإحداثي السيني وتنسيق استبدالها تصبح FPR وTPR.

11. ما هو ضرب الخوارزمية؟

الاصطناعية وتقنيات الأقلية الإفراط أي تقنية أخذ العينات أقلية الاصطناعية:

1، لعدد صغير من فصول كل عينة س، المسافة الإقليدية محسوبة على أنها المعيار الذي جميع العينات من الاقلية عينة الطبقة مجموعة Smin تعطي الدول المجاورة ك لها.

وتقدم 2، والعينات وفقا لنسبة العينات من نسبة عدم الاتزان لتحديد نسبة أخذ العينات N، لكل أقلية من عينات س، عدة عينات تم اختيارها عشوائيا من ك أقرب الجيران، على افتراض الجار يتم تحديد Xn ضارة.

3، بالنسبة لكل من الدول المجاورة تم اختيارها عشوائيا من Xn ضارة، على التوالي، مع عينات الأصلي لبناء نموذج جديد وفقا للمعادلة:

لأكبر عدد من النقاط بيانات حديثة ولدت حديثا نقطة السماوي مع نقاط غير عينة أخرى من السماوي ويشكل زوج صلة توميك، كما هو مبين في المربع.

تحديد القواعد:

لإنتاج نقطة جديدة في المركز، على مسافة نصف قطرها صلة توميك، لتعيين كتلة الفضاء، وعدد من الأقليات في الفضاء / عدد الطبقة الأغلبية < عتبة الحد الأدنى، وهذه النقطة هي أن إنتاج "نقاط القمامة" الجديدة يجب إزالة أو التدريب ضرب مرة أخرى، وعدد من الدرجة أقلية في الفضاء / عدد الطبقة الأغلبية > الطبقة = مجموعة عينة صغيرة عتبة الحد الأدنى الأولية عند اتخاذ التحفظات والخوض في ضرب التدريب أخذ العينات ذلك، إزالة النقطة الزرقاء الجديدة إلى اليسار، ولم يتبق سوى حق البيانات الجديدة على النحو التالي:

12، لفترة وجيزة G-يعني الإحصائية معنى؟

13، تبين الإحصاءات AUC معنى منحنى؟

ويعرف AUC (المنطقة تحت المنحنى)، والمنطقة تحت المنحنى ROC، وقيمة هذا المجال ومن الواضح أن لا تزيد عن 1. أيضا، لأن منحنى ROC يقع عادة فوق هذا الخط ذ التوالي = س، وبالتالي فإن AUC في نطاق بين 0.5 و 1. قيم AUC تستخدم معيارا تقييميا هي منحنى ROC لمرات عديدة لم يكن تفسيرات واضح المصنف الذي آثار أفضل، كقيمة المقابلة لAUC أكبر أفضل تصنيف النتائج.

القيمة الأولى AUC هي قيمة احتمال، عند اختيار عينة عشوائية إيجابية وسلبية العينة، خوارزمية تصنيف الحالية على أساس القيمة المحسوبة النتيجة جاءت هذه العينات إيجابية أمام عينة احتمالية هو القيم AUC السلبية. بطبيعة الحال، فإن أكبر قيمة AUC، من المرجح أن تكون إيجابية العينات قبل العينات سلبية، أي قادرة على تصنيف أفضل خوارزمية تصنيف الحالية.

نقطة ومن الواضح أن معظم المزايا، ROC منحنى، كان ذلك أفضل يمثل أقرب نقطة نموذج الأداء، وزيادة مساحة تحت المنحنى (المنطقة تحت المنحنى، AUC)، AUC مؤشر هام لأداء نموذج التدبير جيدة أو سيئة.

14، ضرب خوارزمية ما هي عيوب؟ كيفية تحسين؟

منذ يولد عينة جديدة لكل عينة من الأقليات، عرضة لذلك لتوليد نماذج التداخل (تداخل) مشكلة، من أجل حل هذا القصور من ضرب الخوارزمية المقترحة بعض الخوارزميات تحسن، واحدة منها هي خوارزمية الشريط الحدودي، ضرب، طريقة عينة الأقليات في الأمن عينة، والعينات الحدود وعينات من ثلاثة أنواع من الضجيج، والحدود الاستيفاء عينات الجيران، مع الأخذ بعين الاعتبار التوزيع غير المتكافئ للظاهرة من الدرجة أقلية الداخلية، ولكن الفرق بين حدود عينة من دون الاعتبارات.

15، ويحدد ما هو التوافقي يعني وأشار إلى أن تطبيقه والطبيعة؟

الوسط التوافقي لأهمية فلسفية هو كيف العديد من مسارات موازية في العملية، بعد هذه المسارات المتوازية، والنتيجة هي ما يعادل الوسط التوافقي.

الإلكترون نثر: تدفق الإلكترونات في موصل ليست سهلة، وقال انه سيكون النجاسة نثر، نثر شعرية، عيوب نثر، وهو مواز لطريق ثلاثة أنواع من الإلكترون الطريق، وأخيرا تنقل الإلكترون يمكن أن يكون معادلا الوسط التوافقي، أن القاعدة ماتيسين ل.

الإلكترون حفرة إعادة التركيب: عند المشع المادة مع الضوء، الإلكترونات تمتص طاقة الفوتون من عصابة التكافؤ إلى نطاق التوصيل، الذي فقد اثنين من مسارات الإلكترون حفرة التوحد والتوحد الإشعاعي وإعادة التركيب nonradiative:

التوافقي يعني عرضة للالقيم المتطرفة، ويتأثر قيمة الحد الأدنى من أكبر تأثير من قيمة الحد الأقصى.

طالما هناك قيمة العلم هو 0، فإنه لا يمكن حساب الوسط التوافقي.

16، خوارزمية EasyEnsemble؟

ملاحظة الطبقة الغالبية مجموعة عينة كما L، عينة الطبقة مجموعة الأقلية S، مع ص = | S | / | L | يمثل نسبة الدرجة الأغلبية أقلية. أسلوب التكامل (فرقة) هو أسلوب بسيط من التكامل، أي أخذ باستمرار عينات من غالبية الطبقة، حتى أن نفس العدد من العينات وعدد من فئات أغلبية صغيرة من العينات لكل فئة النموذج، وأخيرا دمج هذه النماذج.

17. ما هو بدن محدب؟

هناك مساحة متعدد الأبعاد في مجموعة المنتشرة في جميع أنحاء الموقع، "بدن محدب" هو قذيفة تغطي جميع هذه النقاط من بين أصغر مساحة سطح حجم المساكن، في حين يجب أن يكون أصغر الضميمة محدبة.

تعريف "الذكور" هو: سلك دائري الداخلي لا يمر أي من أبرز خارج مستديرة. تقريب "محدب" السطح في رفع هذا لا يعني، في الواقع يتكون بدن محدب العديد من تكوين سطح مستو.

عندما يكون البيانات فصل خطيا، لأنها تمثل الحدود الخارجية للبدن محدب من مجموعتين من نقاط البيانات. وبمجرد إنشاء بدن محدب، نحصل على أقصى الفائق الفاصل (وMMH) مثل اثنين من التوقعات منصف عمودي بين الحزم. MMH غير قادرة على تحقيق أقصى قدر من خط فراق من المجموعتين.

18، BalanceCascad خوارزمية وEasyEnsemble ما أوجه التشابه والاختلاف؟

هذا الأسلوب هو قليلا مثل مع EasyEnsemble، ولكن الفرق هو أنه بعد أن تم إلقاء كل adaboost التدريب بعيدا عينات تصنف بشكل صحيح، بعد رمي باستمرار بعيدا العينات، وتحقيق التوازن بين البيانات تدريجيا.

19، ما من شأنه أن استخدام تقنية عبر التحقق من الصحة في الوقت المحدد بيانات السلاسل؟ غير الأوقات ك أو LOOCV؟

لا. لمشكلة السلاسل الزمنية، قد تكون أوقات ك مزعجة للغاية، لأن أربع أو خمس سنوات الأولى على بعض النماذج قد تكون مختلفة مع السنوات الثلاث الأولى، في حين أن مجموعة البيانات من عينات مكررة سيتم فصل من هذه الاتجاهات، ونحن قد تكون في النهاية على تحقق من مدى السنوات القليلة الماضية، والذي هو الخطأ. بدلا من ذلك، يمكننا استخدام خمس مرات استراتيجية الارتباط إلى الأمام (1،2،3،4،5،6 العام الممثل) كما هو مبين أدناه:

أضعاف 1: تدريب واختبار

أضعاف 2: التدريب والاختبار

أضعاف 3: التدريب والاختبار

أضعاف 4: التدريب والاختبار

أضعاف 5: التدريب والاختبار

20، مشترك، أخذ العينات على الطرق هناك لاستخدامها للرد على الخلل عينة؟

نحن يمكن أن تقلل من عدد العينات الطبقة الأغلبية الاختزال لتحقيق أغراض التوازن، وبالمثل يمكننا أيضا تهدف إلى زيادة عدد الإفراط أقلية من العينات، وذلك لتحقيق التوازن.

عشوائية الإفراط الطبقة الأقلية: من خلال أخذ العينات مع استبدال، والاستمرار في أخذ عينات من الطبقة أقلية، ولكن لاحظ أن هذه الطريقة يمكن أن يؤدي بسهولة إلى الإفراط في تركيب. يمكننا التحكم عن طريق ضبط عدد من العينات بحيث ص = 0.5.

21، قيمة مفقودة يعطيك أكثر من 30 من مجموعة البيانات؟ على سبيل المثال، في 50 المتغيرات والقيم المفقودة هي ثمانية متغيرات أكثر من 30. كيف تتعامل مع ذلك؟

1. القيم المفقودة في فئة واحدة، ويمكن أن تشمل هذه القيم مفقودة بعض المعلومات الاتجاه.

2. يمكننا تحمل لإزالتها.

3. بدلا من ذلك، يمكننا استخدامها للتحقق من توزيع متغير الهدف، إذا وجدت أي نمط، وسوف نستمر تلك القيم المفقودة ومنحهم التصنيف الجديد، وحذف القيم المفقودة الأخرى.

22، ما هو خوارزمية تصفية التعاونية؟

تصفية التعاونية (التعاونية تصفية، ويشار إلى CF) تصفية التعاونية عموما اكتشاف أكثر مماثلة لجزء صغير من الصف الخاص في كتلة من المستخدمين في تصفية التعاونية، هؤلاء المستخدمين تصبح الجيران، ومن ثم تنظيمها في واحدة تقوم على شيء آخر أنها مثل الدليل ترتيب على النحو الموصى به إليكم، ونقاط العضو CF و CF البند نوعين.

23، عندما حل مشكلة تصنيف، لغرض التحقق، سيكون لديك مجموعة التدريب قسمت عشوائيا إلى مجموعات التدريب والمصادقة عليها. النموذج الخاص بك هل يمكن أن يكون أداء جيدا على البيانات لا ينظر اثق جدا، بسبب دقة عالية من التحقق. ومع ذلك، بعد الحصول على دقة الفقراء، كنت بخيبة أمل. ما الخطأ الذي حدث؟

في القيام تصنيف، يجب استخدام العينة الطبقية بدلا من أخذ العينات العشوائية. لا يعتبر أخذ العينات العشوائية فئة المستهدفة من نسبة. في المقابل، فإن توزيع العينة الطبقية يساعد على إبقاء متغير الهدف في توزيع الدخل في العينة.

24 وسيلة-ك أو KNN، ونحن نستخدم المسافة الإقليدية لحساب المسافة بين أقرب الجيران. لماذا لا المسافة مانهاتن؟

ليس لدينا بعد مانهاتن، لأنه يحسب فقط المسافة الأفقية أو العمودية، أبعاد المقيدة. من ناحية أخرى، والمسافة الإقليدية يمكن استخدامها لحساب المسافة إلى أي مساحة. لأن نقاط البيانات قد تكون موجودة في أي مساحة، المسافة الإقليدية هو خيار أكثر قدرة على البقاء. على سبيل المثال: تخيل لوحة الشطرنج، أو مثل الانتقال يحسب السيارة التي أدلى بها بعد مانهاتن، كما أنها تتحرك في الاتجاهات الأفقية والعمودية منها.

25، معتبرا ان هناك الكثير من خوارزمية التعلم الآلي، نظرا لمجموعة من البيانات، كيف يمكنك أن تقرر الطريقة التي يجب استخدامها؟

تحديد خوارزمية تعلم الآلة تعتمد اعتمادا كليا على نوع من البيانات. إذا مجموعة بيانات معين هو الخطي، والانحدار الخطي هو الخيار الافضل. إذا كانت البيانات عبارة عن صورة أو الصوت، يمكنك بناء نموذج الشبكة العصبية قوية. إذا كانت البيانات تفاعل غير الخطية، أو التعبئة تعزيز خوارزميات يمكن استخدامها.

إذا كانت احتياجات العمل هو بناء نموذج التي يمكن نشرها، يمكننا استخدام الانحدار أو نموذج شجرة القرارات (بسهولة شرح وتوضيح)، بدلا من الخوارزميات الصندوق الأسود مثل SVM، GBM وهلم جرا.

26، عندما تسوية في تعلم الآلة ضروري؟

عندما نموذج أكثر من المناسب، أو أقل من المناسب الوقت، تنظيم ضروري. هذه التكنولوجيا يدخل عنصر التكلفة، ويجلب المزيد من الميزات لدالة الهدف. لذلك، تنظيم هو معامل العديد من المتغيرات إلى الصفر، مما يقلل من تكلفة الدخول. هذا يساعد على الحد من تعقيد نموذج ذلك أن النموذج يمكن أن تصبح أكثر قدرة على التنبؤ (معمم).

27، معتبرا ان هناك الكثير من خوارزمية التعلم الآلي، نظرا لمجموعة من البيانات، كيف يمكنك أن تقرر الطريقة التي يجب استخدامها؟

من جهة نظر رياضية، أية أخطاء في نموذج يمكن تقسيمها إلى ثلاثة أجزاء يحدث. وفيما يلي ثلاثة أجزاء:

خطأ التحيز توقع القيمة مع قيمة مفيدة الفعلية في كيفية أعلى بكثير من المستوى المتوسط من كميات. وسائل الخطأ عالية الانحراف أن أداء نموذجنا ليست جيدة جدا، لأنه لا يوجد صيد الاتجاه المهم.

من ناحية أخرى، تباين التنبؤ الكم على نفس الملاحظة هو كيف تختلف عن بعضها البعض. سوف نموذج تباين عالية للغاية تناسب مجموعة التدريب الخاص بك، وضعف الأداء على البيانات خارج مجموعة التدريب.

28، شريان الحياة هو الانحدار الخطي، إمكانية قصوى للالانحدار اللوجستي. يرجى شرح الوصف أعلاه أعلاه.

يستخدم عملية شريان الحياة والحد الأقصى طريقة احتمال الانحدار في الاقتراب من طريقة القيمة منها غير معروفة المعلمة (معامل). لفترة وجيزة، المربعات (في عملية شريان الحياة) الخطية طريقة الانحدار يستخدم، تشير التقديرات إلى أن القيمة الفعلية والقيمة المتوقعة من الحد الأدنى الفرق بين حالة حيث يتم الحصول على هذه المعلمة. أقصى قدر من المساعدة الأرجحية إلى تحديد معايير الأكثر احتمالا لإنتاج البيانات المرصودة لتعظيم إمكانية قيم المعلمات.

29، تعيين بيانات التدريب 1000 و 1000000 الصفوف. وتستند هذه مجموعة بيانات عن مشكلة تصنيف. لك لتقليل أبعاد مجموعة البيانات نموذج من أجل تقليل الوقت اللازم للحساب. ذاكرة الجهاز محدودة، وكيف كنت ستفعل؟ (يمكنك أن تفعل كل أنواع الفرضية خالية اليدين)

1. لأن لدينا RAM صغيرة، أولا وقبل كل شيء لإغلاق البرامج الأخرى التي يتم تشغيلها على الجهاز، بما في ذلك متصفح الويب، للتأكد من أن معظم الذاكرة يمكن استخدامها.

2. يمكننا أن عينة عشوائية مجموعات البيانات. وهذا يعني أننا يمكن أن تخلق أصغر مجموعات البيانات، مثل 1000 المتغيرات و 30 مليون خط، ومن ثم القيام حساب.

3. من أجل الحد من أبعاد، يمكننا فصل المتغيرات العددية والفئوية، والمتغيرات حذف المرتبطة به. لالمتغيرات الرقمية، ونحن نستخدم تحليل الارتباط. لالمتغيرات الفئوية، يمكننا اختبار مربع كاي.

4. بالإضافة إلى ذلك، يمكننا أيضا استخدام PCA (الرئيسي تحليل مكون)، ويمكن أن تفسر اختيار في مجموعة البيانات التي تحتوي على عنصر الانحراف الأقصى.

استخدام خوارزمية على الانترنت التعلم، مثل VowpalWabbit (متوفر في بايثون) هو خيار ممكن.

6. استخدام مؤشر ستوكاستيك GradientDescent (العشوائية التدرج النسب) هو أيضا تم تأسيس نموذج خطي مفيدة.

7. يمكننا أيضا استخدام فهمنا للشركة لتقدير تأثير حجم كل متغير توقع على متغير الاستجابة. ولكن هذا هو أسلوب شخصي، لمعرفة ما إذا كان هناك أي متغيرات توقع مفيدة يمكن أن يسبب خسارة كبيرة من المعلومات.

ملاحظة: لأول 4:00 حتي 5:00، تأكد من قراءة حول خوارزمية التعلم عبر الإنترنت والعشوائية أصل التدرج. هذه هي طريقة العليا.

30، KNN هي الطريقة التي K اختار؟

وقال كتاب الدكتور لي هانغ بأنها "أسلوب التعلم الإحصائي" على:

1. عن طريق تحديد قيمة صغيرة من K ما يعادل الأمثلة تدريب صغيرة المتوقعة في مجال "التعليم" سوف يقلل من خطأ التقريب، إلا أمثلة التدريب أقرب إلى أو ما شابه ذلك إلى التنبؤ لالمثال سيؤدي العمل، مشاكل في نفس الوقت جلب "التعلم" الزيادات خطأ تقدير، وبعبارة أخرى، والحد من وسائل قيمة K الذي زاد تعقيدا نموذج العام، عرضة لأكثر المناسب؛

2. إذا اخترت قيمة أكبر من K ما يعادل التنبؤ مع حقل كبير من الأمثلة والتدريب، وأنه لديه ميزة للحد من التعلم خطأ تقدير، ولكن العيب هو الزيادات خطأ التقريب التعلم. في هذا الوقت، وأيضا دور مؤشرا الخطأ التنبؤ وقع بعيدة أمثلة (متباينة) التدريب المثال المدخلات، وزيادة قيمة K الوسائل أن النموذج العام هو بسيط.

3.K = N، لا قيمة لها تماما، لأنه في هذا الوقت بغض النظر عن ما هو المثال إدخال مجرد تنبؤ بسيط أنه ينتمي إلى أكثر متعب في الأمثلة تدريب، وهذا النموذج هو بسيط جدا، وتجاهل الكثير من المعلومات المفيدة عن الحالات التدريب.

في الممارسة العملية، وقيمة K عموما يأخذ قيمة صغيرة نسبيا، على سبيل المثال عبر التحقق من صحة (ببساطة، يتم إجراء مجموعة التدريب جزء من العينة، وهي جزء من مجموعة اختبار تفعل) لاختيار القيم K الأمثل.

31، ومنع أكثر من المناسب، لماذا؟

والسبب هو أن نتعلم القدرة على الإفراط في تركيب خوارزمية قوية جدا، قد لا يتم تعيين عدد من الافتراضات (مثل IID عينة) فوق؛ العينة التدريب ليست علبة صغيرة جدا ويقدر توزيع كامل المساحة. طرق معالجة هي:

. وتوقف في وقت مبكر، كما وجدت في التدريب لم يحسن بشكل كبير من أداء نموذج للتدريب توقف بعد عدد من التكرارات.

. مجموعة B البيانات التضخيم، وزيادة البيانات الأصلية، البيانات الأصلية بالإضافة إلى الضجيج العشوائي، اختزال.

C. تنظيم D. E عبر التحقق من الصحة. تخفيض تحديد ميزة / الميزة.

32، والتعلم الآلي لماذا يجب علينا دائما لا البيانات تطبيع؟

ويكيبيديا التفسير الذي: 1) التدرج النسب تطبيع تسارع سرعة الحل الأمثل؛ 2) تطبيع المرجح لتحسين دقة.

1) بعد نزول التدرج تطبيع تسارع سرعة الحل الأمثل:

كما هو مبين أدناه، تمثل الدائرة الزرقاء FIG كفاف اثنين من الميزات. حيث X1 و X2 حيث ومقتل اثنين من الفرق كبير جدا الفاصلة، والفاصلة X1، X2 الفترة، وكفاف من الذي يتكون هو حاد جدا. عند البحث عن الحل الأمثل باستخدام طريقة التدرج النسب ومن المرجح أن تأخذ خط "متعرجة" (ملامح العمودية سيرا على الأقدام)، عدة مرات مما أدى إلى الحاجة المتكررة للتجمع، والحق اثنين من الميزات الأصلية تم تطبيع ، وكفاف المقابلة لها هو الدور جدا، يمكن أن يكون التقارب بشكل أسرع في أصل التدرج حلها. حتى إذا كان الجهاز نماذج التعلم باستخدام طريقة التدرج النسب عند الحل الأمثل، وتطبيع العلاقات غالبا ما يكون ضروريا جدا، فإنه سيكون من الصعب أو حتى لا تلاقي تتقارب.

2) تطبيع المرجح لتحسين دقة:

بعض تصنيف ضروري لحساب المسافة (على سبيل المثال، المسافة الإقليدية) بين العينة، على سبيل المثال KNN. إذا مجموعة قيمة مميزة بشكل كبير جدا، ثم يعتمد حساب المسافة على هذه الميزة، لذلك لا يتفق مع الوضع الفعلي (على سبيل المثال، فإن الواقع هو أن مجموعة قيمة صغيرة من ميزات أكثر أهمية).

33، ما هو أخذ العينات الفرعية والإفراط في أخذ العينات؟

مجموعات بيانات مختلفة. هناك طريقتان لجعل مجموعات البيانات غير المتوازنة لإنشاء مجموعة متوازنة من البيانات: undersampling والإفراط. ومتوازنة مجموعة البيانات Undersampled عن طريق الحد من فئة حجم الأغنياء عندما كمية كافية من البيانات فيما يتعلق باستخدام هذا الأسلوب. عن طريق توفير كل فئة نادرة، وعدد اختيارهم عشوائيا من عينات يساوي فئة عينات نادرة الغنية في فئة ربما يمكن استرجاعها للبيانات الميزان الجديدة التي مزيد من النمذجة. متى يجب أن تستخدم كمية كافية من أخذ العينات البيانات، فإنه يحاول تحقيق التوازن عن طريق زيادة عدد مجموعة بيانات عينة نادرة، وبدلا من إزالة عدد من العينات الفئة الغنية. قبل الاستخدام المتكرر من التمهيد أو الأقليات الأخرى الاصطناعية أخذ العينات على طريقة (وضرب) لإنشاء عينات نادرة جديدة.

الإفراط وundersampling هذه طريقتين النقيض من ذلك، ليست ميزة مطلقة. تطبيق هاتين الطريقتين يعتمد على حالات الاستخدام وينطبق مجموعة البيانات نفسها. بالإضافة إلى الإفراط في أخذ العينات ودون أخذ العينات وتستخدم جنبا إلى جنب مع النجاح.

مجموعة 34، والبيانات غير المتوازنة معالجة في برامج الاستجابة استنادا إلى مجموعة البيانات من ماذا؟

التعديل الأخير تم أقرب الجار (ENN): عينة L من تلك الفئات، إذا معظم جيرانه عينات ك المتعلقة بالطبقة بلده ليست هي نفسها، فإننا سوف حذفه.

كرر محرر أقرب الجار: وهذه الطريقة إلى تكرار باستمرار عملية الحذف حتى لم تعد قادرة على حذفها.

توميك رابط إزالة: إذا كان هناك نوعان من أنواع مختلفة من العينات، وأقرب جيرانهم وعلى الجانب الآخر، الذي هو أقرب جار هو A B، B أقرب الجار A، ثم A، B هو رابط توميك. كل ما نفعله هو يتم حذف حديث صلة توميك. حتى طريقة واحدة هي لحذف رابط توميك، وسوف تشكل عينتين صلة توميك، إذا كان هناك عينة تنتمي إلى فئة الأغلبية، سيتم حذف العينات الطبقة الأغلبية.

35، وتحويلها إلى مشكلة تصنيف ثنائي كيفية تصنيف مشكلة؟

لتصنيف ثنائي، إذا كانت نسبة العينات الإيجابية والسلبية التوزيع غير المتكافئ للغاية، ويمكننا تغيير وجهة نظر مختلفة تماما عن المشكلة: بأنها تصنيف (الفئة التعلم واحدة) أو كشف شذوذ (كشف الجدة) المشكلة. أنها ليست محور هذه الأساليب لالتقاط الفرق بين الطبقات، ولكن في أي فئة من النمذجة، ويشمل العمل الكلاسيكي SVM الطبقة واحد، وما إلى ذلك، كما هو مبين أدناه:

يشير أحد الدرجة SVM لبيانات التدريب الخاص بك نوع واحد فقط من إيجابية (أو سلبية) من عينات البيانات، دون فئة إضافية. عند هذه النقطة، عليك أن تتعلم هو في الواقع حدود بيانات التدريب الخاص بك. ومن ثم لا يمكن تحقيق الاستفادة القصوى من حواف ناعمة، لأنه لم يكن لديك نوعين من البيانات. لذا، فإن مادة "تقدير دعم توزيع الأبعاد عالية" في، يفترض Schlkopf أن أفضل حافة بعيدا من أصل مساحة الميزة. اليسار هو الحد الفاصل الأصلي في الفضاء، يمكنك أن ترى أن هناك الكثير من الحدود تلبية الاحتياجات، ولكن أكثر موثوقية هو العثور على حدود ضيقة نسبيا (الحمراء). الهدف هو العثور على تحويل مساحة الميزة إلى حد بعيد نسبيا من أصل الحدود، هو أيضا خط أحمر. وبطبيعة الحال، تتم إضافة هذه القيود بشكل مصطنع إلى القائمة، يمكنك أن تأخذ القيود المناسبة وفقا للاحتياجات الخاصة بك. على سبيل المثال، دعونا مركز البيانات الخاص بك أبعد من الأصل. ملاحظة: للحصول على عينات الإيجابية والسلبية مشاكل متفاوتة جدا، واستخدام الكشف عن خلل أو مشكلة تصنيف، ولكن أيضا التفكير.

36، وكيفية تحسين دقة التنبؤ عن طريق زيادة العقوبة إدخال البيانات نادرة؟

لمعاقبة فئة نادرة من سوء التصنيف من خلال تصميم وظيفة التكلفة بدلا من فئات التصنيف الغنية، يمكنك تصميم العديد من التعميم الطبيعي من نوع نادر من نموذج. على سبيل المثال، وتعديل الخطأ SVM لمعاقبة فئة نادرة من التصنيف.

37، L1 و L2 ما هو الفرق؟

L1 القاعدة (L1 NORM) مشيرا لكمية من القيم المطلقة من كل عنصر، وأيضا سمعة يسمى "مشغل قواعد متفرقة" (اسو التنظيم).

مثل ناقلات A =، ثم A غير L1 القاعدة | 1 | + | -1 | + | 3 |.

ببساطة يتلخص في التالي:

L1 القاعدة: لكل عنصر من مجموع ناقلات من القيم المطلقة س.

L2 القاعدة: 1/2 x إلى قوة كل عنصر من مجموع ناقلات المربعات، L2 القاعدة، المعروف أيضا باسم الإقليدية القاعدة أو القاعدة فروبينوس.

ليرة لبنانية القاعدة: والقيمة المطلقة للسلطة ص الطاقة 1 / ص إلى كل عنصر من عناصر مكافحة ناقلات س.

في SVM عملية التعلم، L1 القاعدة هو في الواقع وظيفة التكلفة للعثور على عملية الأمثل، وبالتالي، L1 القاعدة تنظيم القاعدة L1 بإضافة إلى وظيفة التكلفة، وهذه يرضى أن النتيجة التي تم الحصول عليها التعلم رقيق مما يسهل استخراج يتميز البشري.

يمكن L1 أوزان القاعدة متفرق تسهيل استخراج الميزة. يمكن الوقاية منها لتحسين قدرة التعميم L2 القاعدة على الملاءمة.

حل 38، CNN هو الأكثر نجاحا في تطبيق CV، لماذا الكثير من المشاكل NLP والكلام يمكن أن تستخدم أيضا CNN المشكلة؟ وقد استخدم لماذا AlphaGo أيضا CNN؟ حيث تشابه هذه القضايا لا علاقة لها في؟ CNN القبض عليهم من قبل ما يعنيه هذا مشتركة؟

أن القضايا المتعلقة أي أكثر من عدد قليل من الارتباط، هناك علاقة جزئية مع العموم، على مستوى منخفض من خلال مجموعة من المزايا، التي تتألف من الميزات على مستوى عال، وما ينجم عنها من الارتباط المكاني بين ميزات مختلفة. FIG يلي: يتميز على مستوى أدنى من خط / منحنى على التوالي، وما شابه ذلك، جنبا إلى جنب في أشكال مختلفة، لإعطاء FIG سيارة النهائي.

CNN اغتنام هذه الوسائل المشتركة هناك أربعة: الاتصال / سهم الأوزان / عملية تجمع / هيكل محلي متعدد المستويات. ربط الشبكة المحلية حتى يمكن استخراج البيانات ميزة المحلية؛ الوزن يقلل بدرجة كبيرة من صعوبة تدريب مشترك على الشبكة، وهي ميزة استخراج سوى تصفية، convolving الصورة بأكملها (أو الصوت / النص)، وتشغيل الخلية متعددة المستويات وهيكل معا لتحقيق خفض البيانات الأبعاد، يتم الجمع بين ميزة من الميزات المحلية على مستوى منخفض إلى مستوى أعلى، بحيث تمثل الصورة الكاملة.

39، لتحقيق النقيض هيكل LSTM استنتاجها، لماذا أفضل من RNN؟

اشتقاق ننسى البوابة، بوابة المدخلات، والدولة الخلية، والمعلومات الخفية مثل هذا التغيير؛ لتناول LSTM هناك من ومن informaton الخلية الحالية باتباع مراقبة المدخلات بوابة فرضه، مكدسة RNN من قبل، لذلك LSTM منع الانحدار تختفي أو تنفجر.

40، يرجى التحدث بإيجاز عن خوارزمية EM؟

في بعض الأحيان بسبب المتغيرات الضمنية وتوليد عينات ذات الصلة (المتغيرات الخفية غير قابلة للرصد)، في الوقت الذي تسعى المعلمات نموذج باستخدام تقدير عام كحد أقصى الاحتمالات، لأنه يحتوي على متغيرات ضمنية، وبالتالي فإن وظيفة احتمال هي المعلمة المشتقة معرفة، ثم خوارزمية EM يمكن استخدامها للعثور على المعلمات من طراز (عدد المقابلة لنموذج قد يكون معلمات متعددة)، وينقسم خوارزمية EM عموما إلى خطوتين:

الخطوة E: اختيار مجموعة من المعلمات، والحصول على الاحتمال الشرطي في قيمة المعلمة متغير الضمنية.

خطوة M: E خطوة ملزمة المتغيرات ضمنية الاحتمالات الشرطية محسوبة، وظيفة أقصى احتمال يحصل على وظيفة المربوطة أقل (أساسا الوظيفة المطلوبة)، كرر الخطوات السابقة حتى تقارب 2.

الرابط الأصلي: الشبكي: //vicky.blog.csdn.net/article/details/104770540

تنويه: هذه المقالة هو الأصلي المدونين المادة CSDN "وانغ Wenqi" ومتابعة CC BY-SA 4.0 اتفاق حقوق التأليف والنشر، مستنسخة، يرجى إرفاق رابط المصدر الأصلي وهذا البيان.

لماذا يجب علينا استخدام الرفرفة؟

العمارة الهجينة والبيانات ... الظلام سحابة علة أمن الأصلي من السهل جدا لجلب كارثة

الفيسبوك وتفعل أشياء، وانتهاكات للمنافسة وجهت اتفاق والتكنولوجيات مفتاح PyTorch شك التعدي

متعة SpringBoot2.x من الأشياء المخبأة | برنامج القوة

إلى جبل حققت "غرس الأشجار سحابة" الأخضر عقب الأحمر نت "الزهور سحابة" مفتوحة

تشانغجياجيه "315" أول إطلاق النار من التزوير النار الصارم

تبرعت مجموعة المحبة اللوازم المنزلية السلطة شاويانغ منع مقاطعة الوباء والعودة إلى العمل إعادة الإنتاج

وباء السباق! بدأت الصين اليوم الأول لفريق الخبراء في إيطاليا بطاقة كاملة

سوتشو يانج تشينج بحيرة زهرة زيت الكانولا مفتوحة

مدرب "انتظر!" والمديرين التنفيذيين للشركة يتذكر الدعاية، والموعد النهائي 10 أيام الاحتفاظ بنسخة بعد لنزع فتيل الأزمة! الرصيد القائم ليكون ما يقرب من 60 مليون وراء وفاة العام الماضي من العصابات البريط

مدينة هوبى "الحظر" في اليوم الأول: المحل مرة أخرى إلى الحياة، و 40 من خط إنتاج المصنع وقد تم تشغيل "مظاريف حمراء" الكثير من النقاط

البنك المركزي، أعلنت لجنة تنظيم التأمين بنك آخر التطورات، "المعركة ضد السارس"، صدرت القروض المصرفية 1.4 تريليون، ومواصلة تعزيز معدلات الإقراض بشكل كبير نحو الانخفاض