999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)與多特征融合惡意代碼分類方法

2022-01-01 00:00:00鄭玨歐毓毅

摘 要: 為了減小加殼、混淆技術(shù)對(duì)惡意代碼分類的影響并提高準(zhǔn)確率,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和多特征融合的惡意代碼分類方法,以惡意代碼灰度圖像和帶有API函數(shù)調(diào)用與操作碼的混合序列為特征,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的多特征融合分類器。該分類器由圖像組件、序列組件和融合組件構(gòu)成,經(jīng)訓(xùn)練后用于檢測(cè)惡意代碼類別。實(shí)驗(yàn)結(jié)果表明,相比目前已有的HYDRA、Orthrus等方法,該方法的分類準(zhǔn)確率和宏F1值更高,表明該方法能減小加殼、混淆技術(shù)影響,更準(zhǔn)確地分類惡意代碼。

關(guān)鍵詞: 惡意代碼; 靜態(tài)分析; 深度學(xué)習(xí); 多特征融合

中圖分類號(hào): TP309.2"" 文獻(xiàn)標(biāo)志碼: A

文章編號(hào): 1001-3695(2022)01-042-0240-05

doi:10.19734/j.issn.1001-3695.2021.06.0258

Malware classification method based on convolutional neural network and multi-feature fusion

Zheng Jue, Ou Yuyi

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: In order to reduce the impact of pack and obfuscation on malware classification and improve the accuracy,this paper proposed a malware classification method based on convolutional neural network and multi-feature fusion.The classifier was based on convolutional neural network and it took grayscale image of malware and the mixed sequence with API function call and opcode as features.The classifier had three components:image component,sequence component and fusion component.After training,the classifier could detect malware categories.The experimental results show that this method has higher classification accuracy and macro-F1 than some existing methods such as HYDRA and Orthrus.This method can classify malware more accurately and reduce the impact of packing and obfuscation.

Key words: malicious codes; static analysis; deep learning; multi-feature fusion

0 引言

隨著計(jì)算機(jī)技術(shù)的發(fā)展,各類惡意代碼不斷涌現(xiàn)。文獻(xiàn)[1]表明,2018年惡意軟件數(shù)量達(dá)一億以上,變種達(dá)兩億以上,因此需要有效的惡意代碼分類方法。傳統(tǒng)的靜態(tài)分析大多基于簽名和特征庫(kù),維護(hù)費(fèi)力且無(wú)法應(yīng)對(duì)未知變種。隨著基于人工智能的惡意代碼分類技術(shù)的發(fā)展,相比傳統(tǒng)的靜態(tài)分析方法,人工智能方法只需一定數(shù)量的樣本提取特征并構(gòu)建分類器,就能進(jìn)行高效分類。使用的特征有圖像、API函數(shù)調(diào)用、操作碼等。

基于圖像的惡意代碼識(shí)別方法最早由Nataraj等人[2]提出,將惡意代碼字節(jié)文件轉(zhuǎn)換成灰度圖像,提取Gist特征并用K鄰近和歐氏距離分類;Vasan等人[3]在灰度圖像的基礎(chǔ)上,添加了彩色映射;Yuan等人[4]提出了根據(jù)馬爾可夫圖像的分類方法,圖像的每個(gè)像素都基于矩陣字節(jié)傳輸概率;Ni等人[5]提取操作碼并計(jì)算哈希值,將其映射為小規(guī)格黑白圖像,減少計(jì)算時(shí)間,但只有較長(zhǎng)的哈希序列才能保持準(zhǔn)確率;Verma等人[6]計(jì)算了惡意圖像的27種統(tǒng)計(jì)量;Gibert等人[7]設(shè)計(jì)了一種針對(duì)惡意代碼圖像的分類器,結(jié)構(gòu)比傳統(tǒng)的多層卷積神經(jīng)網(wǎng)絡(luò)模型更簡(jiǎn)單;Le等人[8]設(shè)計(jì)了一種帶有LSTM的卷積神經(jīng)網(wǎng)絡(luò)分類器分類惡意代碼灰度圖像。文獻(xiàn)[2,7]只以灰度圖像為特征,但具有相似惡意圖像的類別間易判斷失誤;文獻(xiàn)[3,8]提出的分類器結(jié)構(gòu)復(fù)雜,訓(xùn)練時(shí)間長(zhǎng);文獻(xiàn)[4~6]保留了較多惡意信息,但是計(jì)算過(guò)程耗時(shí)。

許多研究以API函數(shù)調(diào)用和操作碼作為特征,周楊等人[9]根據(jù)API函數(shù)調(diào)用時(shí)占用線程的特性,用沙箱報(bào)告和線程號(hào)構(gòu)建計(jì)算特征和行為特征;Amer等人[10]為惡意和良性軟件分別建立API嵌入模型,計(jì)算模型內(nèi)API之間的相似性得到相似矩陣并進(jìn)行聚類,生成集群轉(zhuǎn)移矩陣和轉(zhuǎn)換模型,充分利用了API函數(shù)間的關(guān)聯(lián)性;Chen等人[11]使用沙箱捕獲API調(diào)用序列,將得到的API函數(shù)分為17類并轉(zhuǎn)換為數(shù)字序列,運(yùn)用了滑動(dòng)窗口的局部注意力機(jī)制。但文獻(xiàn)[9,11]均使用沙箱提取API函數(shù)調(diào)用信息,易被惡意代碼逃逸;文獻(xiàn)[10]需要多次聚類,計(jì)算量大。Jha等人[12]以操作碼序列為特征,但僅以操作碼為特征會(huì)使上下文語(yǔ)義相似,且易受混淆技術(shù)干擾,準(zhǔn)確率降低。

為了彌補(bǔ)單特征的不足,許多研究提出了多特征的分類方法,Gibert等人[13]以字節(jié)序列、API函數(shù)調(diào)用和操作碼為特征構(gòu)造三種深度學(xué)習(xí)組件,通過(guò)融合組件結(jié)合其他組件的結(jié)果;陳佳捷等人[14]提取API函數(shù)調(diào)用、網(wǎng)絡(luò)日志和行為信息,分別輸入不同的BGRU網(wǎng)絡(luò),經(jīng)過(guò)融合輸出結(jié)果;Zhang等人[15]用操作碼和API頻率向量,經(jīng)PCA降維后輸入兩個(gè)不同的組件,其輸出再經(jīng)過(guò)融合得到分類結(jié)果。文獻(xiàn)[13~15]都使用了多特征融合的方法,充分運(yùn)用了不同特征的特點(diǎn),提高了準(zhǔn)確率,但多個(gè)組件往往造成分類器結(jié)構(gòu)復(fù)雜,延長(zhǎng)了計(jì)算時(shí)間。Gibert等人[16]使用字節(jié)序列和操作碼序列,輸入兩個(gè)CNN組件構(gòu)成的分類器中,雖然結(jié)構(gòu)較為簡(jiǎn)單,但準(zhǔn)確率不及結(jié)構(gòu)復(fù)雜的分類器。文獻(xiàn)[17,18]分別提取了惡意代碼的15種和6種特征,信息較為全面,但特征提取、特征選擇相當(dāng)耗時(shí),且含有對(duì)分類任務(wù)沒(méi)有關(guān)鍵作用的特征。為了解決上述問(wèn)題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)與多特征融合的惡意代碼分類方法,以惡意代碼的灰度圖像、API函數(shù)調(diào)用和操作碼的混合序列為特征,設(shè)計(jì)一種多特征融合分類器。其中,灰度圖像能發(fā)現(xiàn)不同樣本之間的細(xì)小差別,減小混淆技術(shù)的干擾,有利于區(qū)分相似變種;API函數(shù)調(diào)用反映了惡意代碼的關(guān)鍵行為,可以避免混淆;操作碼反映硬件控制行為,可彌補(bǔ)打包樣本無(wú)法獲取API函數(shù)調(diào)用信息的缺點(diǎn)。本文方法融合每個(gè)特征各自的特點(diǎn),降低加殼、混淆技術(shù)的干擾,提高準(zhǔn)確率。多特征融合分類器中應(yīng)用了文獻(xiàn)[19]提出的空間金字塔池化層(SPP),SPP層采用多級(jí)池化機(jī)制,產(chǎn)生固定長(zhǎng)度的輸出,比一般的最大池化層保留更多特征,運(yùn)用SPP技術(shù)可簡(jiǎn)化分類器結(jié)構(gòu)。

1 多特征融合的惡意代碼分類方法

多特征融合的惡意代碼分類方法框架如圖1所示。該方法使用惡意代碼的字節(jié)文件(.bytes)和經(jīng)過(guò)IDA Pro反匯編生成的(.asm)文件,共包括以下幾個(gè)步驟:

a)特征提取。(a)將惡意代碼bytes文件轉(zhuǎn)換為灰度圖像;(b)從惡意代碼asm文件中提取混合序列,混合序列中包含樣本的API函數(shù)調(diào)用信息和操作碼,將混合序列保存在一個(gè)txt文件中;(c)重復(fù)步驟(a)(b),直至處理完每個(gè)樣本的文件。

b)對(duì)混合序列進(jìn)行處理。(a)將混合序列轉(zhuǎn)換為數(shù)字序列表示,以便分類器的學(xué)習(xí);(b)對(duì)數(shù)字序列進(jìn)行去重,減小冗余,降低計(jì)算開(kāi)銷;(c)重復(fù)步驟(a)(b),直至處理完所有混合序列。

c)構(gòu)建并訓(xùn)練多特征融合分類器,將灰度圖像輸入圖像組件、混合序列輸入序列組件,圖像組件和序列組件的輸出經(jīng)過(guò)融合組件融合后通過(guò)softmax層輸出類別標(biāo)簽。

d)使用訓(xùn)練后的多特征融合分類器分類惡意樣本類型。

2.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)分別對(duì)圖像組件、序列組件、多特征融合分類器的效果進(jìn)行評(píng)估,對(duì)圖像組件的實(shí)驗(yàn)只以灰度圖像為特征,對(duì)序列組件的實(shí)驗(yàn)只以混合序列為特征,多特征融合分類器以灰度圖像和混合序列為特征。所有實(shí)驗(yàn)將數(shù)據(jù)集的90%作為訓(xùn)練集,10%作為測(cè)試集,設(shè)置批處理樣本數(shù)為16,初始權(quán)值隨機(jī),優(yōu)化器使用Adam,學(xué)習(xí)率為0.000 05,損失函數(shù)為交叉熵?fù)p失,共訓(xùn)練50個(gè)epochs。為了結(jié)果的準(zhǔn)確和穩(wěn)定,所有實(shí)驗(yàn)均采取十折交叉驗(yàn)證。

2.3.1圖像組件效果評(píng)價(jià)

圖像組件十折交叉驗(yàn)證的混淆矩陣如表2所示。其中,準(zhǔn)確率達(dá)99.87%,宏F1值達(dá)0.997 4,分類效果較好,每個(gè)類別的準(zhǔn)確率都達(dá)到了99%以上,宏F1值在0.99以上,包括樣本數(shù)極少的Simda家族。說(shuō)明圖像組件對(duì)該數(shù)據(jù)集的分類效果較好,這是由于SPP層的多級(jí)池化機(jī)制比一般的池化機(jī)制保留更多特征,減少了信息丟失。

2.3.2序列組件效果評(píng)價(jià)

序列組件經(jīng)過(guò)十折交叉驗(yàn)證的混淆矩陣如表3所示。可以看出序列組件的分類準(zhǔn)確率達(dá)到了98.48%,宏F1值達(dá)到了0.957 8,除了Simda家族準(zhǔn)確率只達(dá)到64.29%之外,大部分類別的準(zhǔn)確率都在98%以上,F(xiàn)1值在0.95以上。序列組件對(duì)Simda家族分類效果較差的原因是該家族的樣本數(shù)量不足以及序列特征不顯著。

實(shí)驗(yàn)研究了三種不同序列特征的分類效果,分別是操作碼序列、API函數(shù)調(diào)用序列和包含API函數(shù)和操作碼的混合序列,使用三種不同序列的十折交叉驗(yàn)證結(jié)果如表4所示。可以看出,單獨(dú)以操作碼為特征,序列組件的分類準(zhǔn)確率較低,只有75.87%,且誤報(bào)率高,這是由混淆技術(shù)導(dǎo)致的;而API函數(shù)調(diào)用信息不易受到混淆干擾,所以準(zhǔn)確率相比操作碼序列高,達(dá)到96.36%,但仍然有部分樣本由于加殼逃脫檢測(cè)。而以混合序列為特征的分類效果最佳,達(dá)到98.48%,其他兩種單一序列的分類效果均不如混合序列,說(shuō)明API函數(shù)調(diào)用和操作碼同時(shí)使用可以產(chǎn)生互補(bǔ)作用,順序特征可以幫助分類,防止惡意代碼混淆、加殼的影響。

2.3.3 多特征融合分類方法效果評(píng)價(jià)

多特征融合分類方法經(jīng)過(guò)十折交叉驗(yàn)證的混淆矩陣如表5所示。由實(shí)驗(yàn)結(jié)果可知,使用多特征融合分類器的方法在相同的數(shù)據(jù)集上的準(zhǔn)確率達(dá)99.92%,宏F1值達(dá)0.999 0,幾乎所有樣本都被準(zhǔn)確分類。同時(shí)經(jīng)對(duì)比可知,多特征融合分類方法對(duì)Gatak家族的樣本分類準(zhǔn)確率比圖像組件和序列組件高,說(shuō)明只有同時(shí)以灰度圖像和混合序列為特征才能準(zhǔn)確地鑒別該家族所有樣本。另外,多特征融合分類方法對(duì)Ramnit、Lollipop和Kelihos_ver3家族的分類準(zhǔn)確率也有細(xì)微提升,說(shuō)明多特征融合方法的效果比單特征、單組件能更全面地學(xué)習(xí)惡意代碼特征。

多特征融合分類方法與單特征、單組件方法的效果對(duì)比如表6所示。可以看出,多特征融合分類方法的準(zhǔn)確率和宏F1值均比與單特征、單組件的分類方法有所提升。

2.3.4方法對(duì)比

將多特征融合分類方法與近期提出的同類方法進(jìn)行比較,比較結(jié)果如表7所示。文獻(xiàn)[7,8]以單一的灰度圖像為特征,部分不同家族樣本的灰度圖像具有較高的相似性,容易產(chǎn)生誤判,導(dǎo)致準(zhǔn)確率較低,分別為97.49%和98%;文獻(xiàn)[16]以字節(jié)序列和操作碼序列為特征,但缺少API函數(shù)調(diào)用特征使得準(zhǔn)確率偏低,為99.24%;文獻(xiàn)[13]以API函數(shù)調(diào)用、字節(jié)序列和操作碼序列為特征,使用由四個(gè)組件構(gòu)成的分類器,但仍有部分樣本被誤判,且分類器結(jié)構(gòu)復(fù)雜。相比以上方法,本文方法僅使用灰度圖像和混合序列和包含三個(gè)組件的分類器就達(dá)到了更好的分類效果,準(zhǔn)確率和宏F1值均比上述文獻(xiàn)有所提升,證明了該方法的有效性。

3 結(jié)束語(yǔ)

為了解決傳統(tǒng)靜態(tài)分析法易被加殼、混淆技術(shù)干擾的弊端,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)與多特征融合分類方法,將惡意代碼bytes文件轉(zhuǎn)換為灰度圖像,從asm文件中提取API調(diào)用函數(shù)和操作碼的混合序列,轉(zhuǎn)換成數(shù)字序列并去重后成為序列特征,用多特征融合分類器分類。該分類器由圖像組件、序列組件和融合組件構(gòu)成。其中,圖像組件由文獻(xiàn)[7]的分類器經(jīng)過(guò)改進(jìn),將一部分層替換為SPP層,簡(jiǎn)化分類器結(jié)構(gòu)并保留了更多特征;序列組件參考了文獻(xiàn)[16]的操作碼組件,將輸入改變?yōu)榛旌闲蛄校蝗诤辖M件將兩個(gè)組件的結(jié)果進(jìn)行融合計(jì)算,使分類器同時(shí)學(xué)習(xí)了不同的惡意代碼特征,降低了混淆、加殼技術(shù)對(duì)分類的影響,提高了準(zhǔn)確率和宏F1值。經(jīng)過(guò)實(shí)驗(yàn),與目前已有的如HYDRA、Orthrus等方法相比,準(zhǔn)確率和宏F1值均有提升,證明了該方法的有效性。

參考文獻(xiàn):

[1]Symantec.Internet security threat report[EB/OL].(2019-02-19)[2021-08-05].https://docs.broadcom.com/doc/istr-24-executive-summary-en.

[2]Nataraj L,Karthikeyan S,Jacob G,et al.Malware images:visualization and automatic classification[C]//Proc of the 8th International Symposium on Visualization for Cyber Security.New York:ACM Press,2011:article No.4.

[3]Vasan D,Alazab M,Wassan S,et al.IMCFN:image-based malware classification using fine-tuned convolutional neural network architecture[J].Computer Networks,2020,171(4):107138.

[4]Yuan Baoguo,Wang Junfeng,Liu Dong, et al.Byte-level malware classification based on Markov images and deep learning[J].Computers amp; Security,2020,92(5):101740.

[5]Ni Sang,Qian Quan,Zhang Rui.Malware identification using visua-lization images and deep learning[J].Computers amp; Security,2018,77(8):871-885.

[6]Verma V,Muttoo S K,Singh V B.Multiclass malware classification via first- and second-order texture statistics[J].Computers amp; Security,2020,97(10):101895.

[7]Gibert D,Mateu C,Planes J,et al.Using convolutional neural networks for classification of malware represented as images[J].Journal of Computer Virology and Hacking Techniques,2019,15(3):15-28.

[8]Le Quan,Boydella O,Nameea M B, et al.Deep learning at the shallow end:malware classification for non-domain experts[J].Digital Investigation,2018,26:S118-S126.

[9]周楊,蘆天亮,杜彥輝,等.基于線程融合特征的Windows 惡意代碼檢測(cè)與分析[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(23):103-108. (Zhou Yang,Lu Tianliang,Du Yanhui,et al.Detection and analysis of Windows malicious code based on thread fusion feature[J].Compu-ter Engineering and Applications,2020,56(23):103-108.)

[10]Amer E,Zelinka I.A dynamic Windows malware detection and prediction method based on contextual understanding of API call sequence[J].Computers amp; Security,2020,92(5):101760.

[11]Chen Jun,Guo Shize,Ma Xin,et al.SLAM:a malware detection me-thod based on sliding local attention mechanism[J].Security and Communication Networks,2020,2020(9):article ID 6724513.

[12]Jha S,Prashar D,Long H V,et al.Recurrent neural network for detecting malware[J].Computers amp; Security,2020,99(12):102037.

[13]Gibert D,Mateu C,Planes J.HYDRA:a multimodal deep learning framework for malware classification[J].Computers amp; Security,2020,95(8):101873.

[14]陳佳捷,彭伯莊,吳佩澤.一種基于動(dòng)態(tài)行為和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法[J].計(jì)算機(jī)工程,2021,47(3):166-173. (Chen Jiajie,Peng Bozhuang,Wu Peize.Malicious code detection method based on dynamic behavior and machine learning[J].Computer Enginee-ring,2021,47(3):166-173.)

[15]Zhang Jixin,Qin Zheng,Yin Hui,et al.A feature-hybrid malware variants detection using CNN based opcode embedding and BPNN based API embedding[J].Computers amp; Security,2019,84(7):376-392.

[16]Gibert D,Mateu C,Planes J.Orthrus:a bimodal learning architecture for malware classification[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2020:1-8.

[17]Ahmadi M,Ulyanov D,Semenov S,et al.Novel feature extraction,selection and fusion for effective malware family classification[C]//Proc of the 6th ACM Conference on Data and Application Security and Privacy.New York:ACM Press,2016:183-194.

[18]Zhang Yunan,Huang Qingjia,Ma Xinjian,et al.Using multi-features and ensemble learning method for imbalanced malware classification[C]//Proc of IEEE International Conference on Trust,Security and Privacy in Computing and Communications.Piscataway,NJ:IEEE Press,2016:965-973.

[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.

[20]Intel Corporation.Intel64 and IA-32 architectures software deve-loper’s manual[EB/OL].(2016-09-28).https://www.intel.cn/content/dam/www/public/us/en/documents/manuals/64-ia-32-ar-chitectures-software-developer-vol-2c-manual.pdf.

[21]Ronen R,Radu M,F(xiàn)euerstein C,et al.Microsoft malware classification challenge[EB/OL].(2018-02-22).https://arxiv.org/pdf/1802.10135.pdf.

主站蜘蛛池模板: 99九九成人免费视频精品| 亚洲精品欧美日本中文字幕| 91视频青青草| 日韩国产综合精选| 91在线丝袜| 九九线精品视频在线观看| 亚洲福利网址| 国产熟女一级毛片| 女人18毛片一级毛片在线| 91国内在线观看| 国产精品福利社| 在线精品自拍| 欧美一道本| 国产主播喷水| 不卡视频国产| 欧美成人午夜视频| 制服丝袜一区二区三区在线| 日韩大片免费观看视频播放| 三上悠亚一区二区| 亚洲欧美h| 午夜国产理论| 国产国模一区二区三区四区| 国产美女免费| 一级全免费视频播放| 欧美亚洲香蕉| 日韩在线欧美在线| 中文字幕乱码中文乱码51精品| 亚洲一欧洲中文字幕在线| 精品99在线观看| 日韩欧美中文| 欧美日韩国产在线播放| 久久无码av三级| 人妻精品全国免费视频| 2022精品国偷自产免费观看| 色婷婷在线影院| 福利在线免费视频| 欧美日韩福利| 国产波多野结衣中文在线播放| 国内精品免费| 一本综合久久| 欧美日韩91| 麻豆精品久久久久久久99蜜桃| 亚洲黄网在线| 欧美性爱精品一区二区三区| 伊人查蕉在线观看国产精品| 久久一色本道亚洲| 久久综合九九亚洲一区| 亚洲综合色婷婷中文字幕| 精品综合久久久久久97超人| 综合社区亚洲熟妇p| 亚洲精品无码久久毛片波多野吉| 国产黄色片在线看| 国产精品无码AⅤ在线观看播放| 在线观看91香蕉国产免费| 日本三级欧美三级| 中文字幕亚洲精品2页| 亚洲中文字幕久久无码精品A| 无码电影在线观看| 三上悠亚精品二区在线观看| 麻豆精品视频在线原创| 国产日韩欧美成人| 久久黄色影院| 中文天堂在线视频| 91久久国产成人免费观看| 国产成人乱无码视频| av一区二区人妻无码| 欧美亚洲国产日韩电影在线| 日本在线视频免费| 国产丝袜无码一区二区视频| 成人在线观看一区| 日韩精品欧美国产在线| 最新国产你懂的在线网址| 国产毛片基地| 免费精品一区二区h| 午夜国产理论| 国产理论最新国产精品视频| 欧美中文字幕在线播放| 亚洲免费三区| 99久久国产精品无码| 狠狠色香婷婷久久亚洲精品| 亚洲精选无码久久久| 亚洲国产精品不卡在线|