الغابات عشوائية الشيفرات الخبيثة كشف وتصنيف خوارزمية استنادا إلى عينة كبيرة

0 مقدمة

مع التطور السريع للإنترنت، وقد أثيرت قضية أمن الكمبيوتر إلى جهة نظر استراتيجية الأمن القومي، ولكن انتشار الشيفرات الخبيثة على شبكة الإنترنت كمية ونوع وهلم جرا في الارتفاع. وفقا لرصد Jiangmin البيانات وباء فيروس ويحذر المركز التي يقدمها [1]: مايو 2018، والفيروس الجديد 1140 نوع من أجهزة الكمبيوتر المصابة 13569 وحدة. بكين وشانغهاى وقوانغتشو المناطق المصابة الرئيسية والهجوم. وعلى الرغم من استمرار الشيفرات الخبيثة في النمو، ولكن الأهم من ذلك إعادة استخدام الشيفرات الخبيثة هي وحدة رئيسية في عملية التحضير، والتي تتميز بدرجة عالية من التشابه في السلوك [2].

أولا وقبل كل شيء، لإخفاء مدوناتها الخبيثة، وهيكل القانون نفسه سيتم تعديل لتعديل هيكل مدونة الطريقة نفسها لديها انتظام؛ وثانيا، الشيفرات الخبيثة من أجل تحقيق الوصول إلى أذونات ذات الصلة بالحاسوب أو تعديل الملفات الحساسة وغيرها من العمليات الهامة الكمبيوتر، تحتاج إلى دعوة وظائف API ذات الصلة النظام من أجل تحقيق أهدافهم. ولذلك فإن هذا التمييز تحقيق وتصنيف الشيفرات الخبيثة من خلال طريقة التعلم الآلي على أساس الخصائص المذكورة أعلاه من الشيفرات الخبيثة.

1 خوارزمية تصنيف البحوث الشيفرات الخبيثة

استخراج 1.1 روائي يعتمد على المكالمات API

واجهة برمجة التطبيقات (واجهة برمجة التطبيقات، API) يمكن استخدامها في تصنيف الشيفرات الخبيثة الميزات المستخدمة، برنامج ضار عن طريق استدعاء عدد من API (وخاصة النظام الأساسي للAPI)، لتحقيق سرقة المعلومات الحساسة أو للحصول على عدد الحالي مع التشغيل السلطة، وما إلى ذلك، و وتستخدم على نطاق واسع هذه API في معظم الشيفرات الخبيثة، فإن الورقة هذه API يسمى API حساسة. في [3] وقد ثبت في خوارزمية تصنيف نفسها، ودقة النتائج تصنيف باستخدام API حساسة تم الحصول عليها من دون استخدام دقة فائقة لنتائج التصنيف التي حصل عليها API حساسة، لذلك هذه المقالة سوف يكون تصنيف API حساسة من الشيفرات الخبيثة كناقل ميزة .

هناك طريقتان العامة لاستخراج الملامح الرئيسية لالشيفرات الخبيثة: تحليل ساكنة وطرق التحليل الديناميكي. ويستخدم تحليل ساكنة أساسا IDA [4]، JEB أدوات التفكيك الآخر، هناك السمات الرئيسية للمعلومات بنية المكالمات API الحساسة ملف PE، وما شابه ذلك. طريقة ديناميكية من التحليل هو استخدام رمل [5] (الوقواق على سبيل المثال) برامج محاكاة مثل بيئة نظام التشغيل، حيث سلوك برنامج مراقبة من المجهول وسلوك رمز مطابقة الخبيثة المعروفة، وإذا كانت مباراة ناجحة، يمكن تحديد برنامج للمجهول البرامج الخبيثة. ولكن في عملية محددة تطبيق وجدت أنه نظرا إلى المستوى API نظام أقل، ورصد السلوك رمل الوقت، من الصعب الحصول على المعنى الدقيق من السلوك وتحليل رمل من نتائج سرعة بطيئة، تستغرق وقتا طويلا. وبسبب هذه العيوب، ويعمل في هذه الوثيقة لتحليل خصائص ثابتة.

بعد البيانات المميزة التي تم الحصول عليها، يمكنك استخدام نماذج تصنيف تعلم الآلة المرتبطة الشيفرات الخبيثة. هناك العديد من خوارزميات التصنيف، خوارزمية المشتركة-K أقرب جار (K-أقرب الجار، KNN) [6]، SVM (دعم ناقل آلة، SVM) [7]، الانحدار اللوجستي (اللوجستية الانحدار) [8]، عصب الإلتواء شبكة (التلافيف العصبية الشبكة، CNN) [9] وهلم جرا. هذه المادة هي الشيفرات الخبيثة باستخدام عشوائي تصنيف الغابات.

1.2 الغابات عشوائية

الغابات عشوائية يمكن تفسيرها من خلال عدد من المتغيرات المستقلة (X1، X2، ...، شي، ...، Xn ضارة) بشأن دور Y المتغير التابع. إذا كانت هناك ملاحظات م Y المتغير التابع، مع ن المتغيرات المستقلة المرتبطة (في معظم الحالات، أقل بكثير من ن، م)، وعندما بناء تصنيف شجرة القرارات والغابات عشوائية بشكل عشوائي في البيانات الأصلية م الملاحظات إعادة الاختيار، بعض الملاحظات قد يكون محددا عدة مرات، وبعضها قد لا يكون لديك الوقت ليتم تحديده. وفقا لنموذج نموذج شجرة قرار الاختيار ومن ثم الجمع بين الأشجار القرار التنبؤ متعددة، وتأتي التوقعات النهائية عن طريق التصويت.

خوارزمية 1.3 عشوائية غابة

ويتم تنفيذ خوارزمية غابة عشوائية من هذه الورقة تحت سبارك، يستخدم بيثون مكتبة طرف ثالث Pyspark. حيث تم تقسيم التجربة إلى ملفين، وإدخال الأول من ملف اختبار عينة، بما في ذلك ملف يضم 50 نوع، حجم الملف، ملف جدول الاستيراد، العنوان الأساسي من الملف، إصدار الملف، وما إلى ذلك، كمدخل؛ والإدخال الثاني من التجارب حيث أن API حساسة، حيث المعلمات تعديل هي: numTrees = 150، maxDepth = 30، labelCol = "المفهرسة"، featuresCol = 'ملامح'، وبذور = 42، لا تزال المعلمات المتبقية دون تغيير. 80 من إجمالي البيانات المادة تعيين تستخدم للتدريب و 20 للاختبار.

2 تحليل تجريبي

2.1 مجموعة البيانات التجريبية

الخبيثة مجموعة البيانات متاحة أساسا لتحليل الشيفرات الخبيثة، آلة الخوارزميات فقط مع مجموعات البيانات ذات الصلة لعينات للتدريب التعلم من أجل تحقيق كشف أفضل.

في هذه الورقة، ومجموعة البيانات Jiangmin الجديدة للعلوم والتكنولوجيا المحدودة فيروس مجموعات البيانات المكتبة. مجموعة البيانات المستخدمة في المبلغ الإجمالي من 900،000، 450،000 منها عينة البيضاء، 450000 عينات الفيروس. و450،000 عينات الفيروس، تنزيل، طروادة، مستتر ثلاثة أنواع من العينات في حجم العينة على التوالي 150000، 150000، 150000.

2.2 بيئة التجريبية

البيئة التجريبية: CPU: إنتل (R) زيون (R) CPU E5645 @ 2.40 غيغاهرتز، ونظام التشغيل لينكس سينت أو إس الافراج 1611/03/07، الذاكرة 32 GB.

Hadoop والإصدار سبارك هو: Hadoop النسخة 2.7.1، 2.2.1 سبارك نسخة.

2.3 معايير التجريبية

مع الدقة (الدقة)، نذكر (استدعاء) وF1 مقياس لتقييم الخوارزمية، وعادة في التركيز فئة غير الفئة إيجابية، الفئات الأخرى هي نوع سلبي، ويتراوح مؤشر قيمة 0-1. يتم حساب هذه المقاييس على النحو التالي:

حيث، TP (صحيح إيجابي) يشير إلى العدد المتوقع من الطبقات ن هو نوع إيجابي، FP (كاذبة إيجابي) يشير إلى عدد سلبية من فئات توقع أساس إيجابي، FN (سلبي الكاذبة) يشير إلى إيجابي عدد من الدرجة التنبؤ الطبقة سلبية.

2.4 تحليل النتائج

في مجموعة البيانات المحددة (Jiangmin الجديدة للعلوم والتكنولوجيا المحدودة مكتبة فيروس مجموعة البيانات) على الغابات العشوائية والدعم الموجه آلة الخوارزمية من الخوارزمية، اللوجستية مقارنة الانحدار الخوارزمية.

لأول مرة في تجربة بالأبيض والأسود تصنيف عينة لعرض تجربة الدقة، أذكر وF1 القيمة، من النتائج التجريبية يمكن أن ينظر إليه عندما تكون العينة الإجمالية حوالي 100،000 والغابات عشوائية باللونين الأبيض والأسود على أثر تحديد ودعم عينة ناقلات آلة الخوارزمية، مقارنة مع خوارزمية الانحدار اللوجستي، فإن النتائج ليست مرضية. ولكن كما ازداد عدد العينات التي 900،000، عشوائية نموذج في أبيض وأسود عينة تحديد الدقة، أذكر الغابات، يظهر F1 من الأصلي 0.732،0.711،0.721 إلى 0.973،0.973،0.973، وصلت إلى ثلاثة أفضل تصنيف، والتي 500،000 إلى 700،000 عندما تكون العينة، والدقة، أذكر وF1 قيمة انخفض، لأنه مع الزيادة في عينات الفيروس، وبعض من عينة البيضاء التي تم الحصول عليها من خلال مترجم PE معلومات التكوين ومعلومات التكوين مشابهة لجزء من العينات الفيروسية، حتى أنه كان هناك بعض الأخطاء خوارزمية الغابات عشوائية. ولكن مع حجم العينة في تزايد مستمر، وهذا جزء صغير من العينة للتأثير على تصنيف العام يصبح أصغر. النتائج هو مبين في الشكل 1، 2، 3 كما هو مبين في الشكل.

ثانيا، استنادا مرة أخرى تصنيف تنزيل، طروادة، مستتر من ثلاثة فيروس التجريبي، البيانات الشيفرات الخبيثة من هذه التجربة هو مجموع مجموعة بيانات من 450000 عينات الفيروس. من النتائج التجريبية يمكن أن ينظر إليه في غابات عشوائي تنزيل، طروادة، مستتر عند تصنيف ثلاثة فيروسات، وآلات ناقلات الدعم للتصنيف واللوجستية خوارزمية تصنيف الانحدار، والنتائج التجريبية هي جيدة جدا. مع نمو حجم الخبيثة نموذج التعليمات البرمجية من 90،000 إلى 450،000 عندما والدقة، أذكر، يظهر F1 من الأصلي 0.924،0.918،0.921 إلى 0.935،0.932،0.934، تحسنت المعايير. النتائج التجريبية هو مبين في الشكل (4)، FIG 5، FIG. 6.

من النتائج المذكورة أعلاه، وتصنيف الغابات عشوائي في قدرة التعميم هو أفضل من SVM والانحدار اللوجستي.

3 الخاتمة

وتركز هذه الورقة على عينة كبيرة من الشيفرات الخبيثة لتحديد وتصنيف اكتشفنا وجود يستخدم خوارزمية التعلم الآلي، وتحديد هيكل ملف PE وAPI حساسة كمدخل، تقييم فعالية البيانات التجريبية تبين أن نسبة SVM الغابات عشوائي، تأثيرات ممتازة نموذج الانحدار اللوجستي. يتم تنفيذ التصنيف على ثلاثة فيروسات، على الرغم من أن تأثير الغابات العشوائية أفضل، لكن بالنسبة لبعض الغابات عشوائية عينات الفيروس نفسه وعينات البيضاء باستخدام مترجم، مقسمة بسهولة في عينات الفيروس. وثانيا، فإن معدل دقة لا يزال غير عالية جدا، فقط حوالي 0،935، استنادا إلى فرضية عينة كبيرة، نتائج نموذج التصنيف لا تزال بحاجة إلى تحسين، هاتين المشكلتين هو محور عمل المستقبل في هذه الورقة.

مراجع

. [1] Jiangmin وباء فيروس الرصد والإنذار الإحصاءات التاريخية وسط Jiangmin تفشي الفيروس [EB / OL] [2018/5/30] .http :. //Virusinfo.jiangmin.com/virinfo/virusDataStat.aspx.

[2] سيكورسكي M، HONIG A. القتالية تحليل الشيفرات الخبيثة [M] جيان وى تشو قه جيانغ هوي تشانغ قوانغ كاى بكين: الصناعة الالكترونية برس، 2014.

[3] تشاو شينغ وى Shengna أساليب الكشف عن البرامج الضارة بناء على أذونات إلى API حساسة [J] معرفة الحاسوب والتكنولوجيا، 2017، 13 (33): 67-69.

. [4] HEX-SA الأشعة IDA مقدمة للمحترفين [EB / OL] [2018/5/30] .http: .. //Www.hex-rays كوم / products.shtml /.

[5] BABU A J، RAVEENDRANATH R، RAJAMANJ V، وآخرون، تشريح SMS ملورس في الروبوت [C] // وقائع المؤتمر الدولي للحوسبة المعاصرة والمعلوماتية، 2014: 1065-1069.

. [6] ABOU-ASSALEH T، CERCONE N، KESELJ V، وآخرون كشف القائم N-غرام من الشيفرات الخبيثة الجديدة [C] // و28 السنوي برامج الكمبيوتر الدولية والتطبيقات مؤتمر (COMPSAC)، 2004: 41-42 .

. [7] أندرسون B، D كويست، NEIL J، وآخرون كشف عن البرامج الضارة باستخدام تحليل ديناميكية تستند الرسم البياني، آل [J] مجلة من جهاز الحاسب الفيروسات، 2011، 7 (4) :. 247-258.

. [8] قوه شانغ-تشان غيبوبة القائم على ميزة السلوك حركة مرور الشبكة بحث وكشف [D] بكين: جامعة بكين للبريد والاتصالات السلكية واللاسلكية عام 2016.

. [9] يانغ يي دراسة سلوك الخبيثة طريقة الكشف متاحة على أساس [D] شيان: شيان جامعة العلوم الالكترونية والتكنولوجيا، 2015.

(تاريخ الاستلام: 2018/06/26)

نبذة عن الكاتب:

لي Xuehu (1990-)، الذكور، البكالوريوس، مهندس، واتجاهات بحثية رئيسية: مكافحة الفيروسات، التحليل العكسي، شبكة هجوم والدفاع.

Wangfa مينغ (1993-)، الذكور، البكالوريوس، مهندس، واتجاهات بحثية رئيسية: البيانات الكبيرة، وزعت، والتعلم الآلي.

الحرب كاي (1990-)، الذكور، الدراسات العليا، الرئيسي الاتجاه البحوث: أنظمة الموصى بها، ومكافحة الفيروسات.

الشاشة الأولى خرافة الكلاسيكية "الأرنب بيتر" يتعرض "مطاردة الأرانب التتبع" فاتوريت إرسال هدية عيد الميلاد

وصل فولكس واجن هرقل وكبيرة SUV إرادة السوق دموية لك؟

تشونغتشينغ جنوب منطقة فينتيان مظهر جديد

"الحزن محل بقالة" نقطة في ساعتين عشرة ملايين في شباك التذاكر للحصول على الوقود الحداد السنة القمرية الجديدة الأكشاك ضخت قوة جديدة

هل أنت مستعد لبدء الربيع؟ و"الأداة" ستة وتقبلوا

WRC 2017 واحدة من المنتديات الأكثر إثارة للاهتمام، وكبير القهوة العلماء الشباب لاستكشاف الابتكار وروح المبادرة

PS4 "الأعجوبة الرجل العنكبوت" مقطورة ألمع الاخ الاكبر الجديد للفوز عنكبوت صغير

"البقع الساخنة صناعة" عمليات تصنيع إنتل ستكون تنقسم إلى ثلاثة

الخيال الرومانسي الكوميدي لتتمكن من التمهيد كتابة الشعر كينجي توجيه وظهور لاول مرة نجمة ميشلان 18 عاما

تصفية SRRC استنادا FPGA ومعدل التحويل متعددة

لماذا سوف شائعات في السوق أودي اقامة مشروع مشترك ثان؟

صدر تينسنت تقرير الربع الثاني من العام VR: موقع الكبار الفيديو عدد بورن هاب VR المنطقة ينمو بوتيرة أسرع