999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的惡意軟件分類識(shí)別研究

2018-03-11 09:30:58張雨薇黃迎春
科技資訊 2018年30期
關(guān)鍵詞:機(jī)器學(xué)習(xí)檢測(cè)技術(shù)

張雨薇 黃迎春

摘 要:惡意軟件的日益增長(zhǎng)是對(duì)網(wǎng)絡(luò)世界最大的威脅,基于簽名的檢測(cè)對(duì)于惡意軟件檢測(cè)率較低,局限性大,因此提出基于機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)技術(shù)來(lái)代替?zhèn)鹘y(tǒng)的簽名檢測(cè)。根據(jù)沙箱中提取軟件的特征類型包括注冊(cè)表和API函數(shù)調(diào)用,并量化數(shù)據(jù),使用機(jī)器學(xué)習(xí)的模型對(duì)此數(shù)據(jù)進(jìn)行分類識(shí)別,并取得了較好的分類效果。

關(guān)鍵詞:惡意軟件 檢測(cè)技術(shù) 機(jī)器學(xué)習(xí) 特征類型

中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)10(c)-000-03

惡意軟件對(duì)網(wǎng)絡(luò)世界的威脅不斷增長(zhǎng)。根據(jù)Mcafee實(shí)驗(yàn)室的一份報(bào)告,Mcafee實(shí)驗(yàn)室引入了4000萬(wàn)新的惡意軟件樣本。2015年第一季度惡意軟件庫(kù),帶來(lái)了總數(shù)高達(dá)4億的惡意軟件[1]。基于簽名檢測(cè)技術(shù)的惡意軟件檢測(cè)依賴于在樣本中發(fā)現(xiàn)的存儲(chǔ)在數(shù)據(jù)庫(kù)中的簽名。然而,提取這些樣本的勞動(dòng)量很大,基于簽名掃描技術(shù)正在努力跟上我們今天看到的惡意軟件的快速增長(zhǎng)。如果簽名庫(kù)更新的不及時(shí),就不能夠及時(shí)地檢測(cè)惡意軟件。因此研究采用機(jī)器學(xué)習(xí)模式的方法,通過(guò)對(duì)惡意軟件的特征類型進(jìn)行訓(xùn)練,學(xué)習(xí)惡意軟件的特性,以增強(qiáng)對(duì)于惡意軟件檢測(cè)的精度和速度。

1 惡意軟件檢測(cè)方法描述

目前,對(duì)于惡意軟件檢測(cè)方面的研究主要有兩種類型的惡意軟件檢測(cè)方法,即靜態(tài)特性檢測(cè)和動(dòng)態(tài)特性測(cè)。靜態(tài)特性檢測(cè)是指在不運(yùn)行程序的前提下,對(duì)惡意軟件的執(zhí)行文件的PE頭文件或者特定字符串進(jìn)行檢測(cè),如二進(jìn)制n-gram和opcode序列;李陽(yáng)對(duì)于PE文件的組織結(jié)構(gòu)進(jìn)行分析,來(lái)對(duì)木馬病毒進(jìn)行識(shí)別[2];陳勤等人對(duì)PE頭文件進(jìn)行分析,檢測(cè)軟件是否加殼[3];樊震等人通過(guò)分析PE文件結(jié)構(gòu)中的異常值,運(yùn)用樸素貝葉斯支持向量機(jī)等算法對(duì)進(jìn)行病毒檢測(cè)[4];相對(duì)于動(dòng)態(tài)特性檢測(cè)是指在運(yùn)行程序的情況下,針對(duì)運(yùn)行后產(chǎn)生的行為特征如DNS請(qǐng)求、訪問(wèn)文件和修改注冊(cè)表,調(diào)用API函數(shù)等行為。屈亞鑫對(duì)于現(xiàn)有的程序行為捕獲技術(shù)進(jìn)行了研究,運(yùn)用機(jī)器學(xué)習(xí)的分類算法對(duì)木馬程序進(jìn)行識(shí)別[5]。

蘇璞睿提出一種基于進(jìn)程行為的異常檢測(cè)模型,來(lái)判斷進(jìn)程的行為是否異常[6];盡管靜態(tài)特性檢測(cè)惡意軟件有它的優(yōu)勢(shì),但仍然容易受到包裝和加密的樣本攻擊。將機(jī)器學(xué)習(xí)模型應(yīng)用于惡意軟件的行為特性檢測(cè)中,就不那么容易受到包裝和加密的影響。

2 惡意軟件分類識(shí)別

2.1 特征提取

對(duì)于惡意軟件的特征主要選擇了注冊(cè)表,動(dòng)態(tài)鏈接庫(kù),API函數(shù)調(diào)用特征,來(lái)對(duì)惡意軟件進(jìn)行識(shí)別。

2.1.1 注冊(cè)表

大多數(shù)惡意軟件都會(huì)在特定位置增加、修改特定的鍵值與更改文件的關(guān)聯(lián)程序等方法在固定的位置來(lái)修改注冊(cè)表或通過(guò)注冊(cè)為定時(shí)任務(wù)、利用注冊(cè)表鍵值來(lái)實(shí)現(xiàn)自動(dòng)運(yùn)行,還有一些惡意程序會(huì)通過(guò)修改注冊(cè)表鍵值,并造成任務(wù)管理器無(wú)法啟動(dòng)。

2.1.2 API函數(shù)調(diào)用

API是操作系統(tǒng)為應(yīng)用程序提供的服務(wù)性接口,應(yīng)用程序在完成文件讀寫(xiě)、網(wǎng)絡(luò)訪問(wèn)以及其他重要資源的訪問(wèn)時(shí)都會(huì)調(diào)用API。惡意程序在實(shí)現(xiàn)某個(gè)特征功能時(shí)同樣會(huì)調(diào)用功能相似的API函數(shù),因此通過(guò)提取API函數(shù)調(diào)用序列特征來(lái)識(shí)別惡意程序行為是一種有效的方法。

本文對(duì)注冊(cè)表項(xiàng)和API函數(shù)這兩類惡意軟件特征分別來(lái)對(duì)惡意軟件進(jìn)行識(shí)別。所有這些數(shù)據(jù)都以文本的形式存在,在模型訓(xùn)練之前,首先將文本數(shù)據(jù)進(jìn)行量化。

選擇術(shù)語(yǔ)頻率(TF)方法,它為每個(gè)術(shù)語(yǔ)分配唯一的ID,并計(jì)算每個(gè)文檔中術(shù)語(yǔ)的出現(xiàn)。每個(gè)單項(xiàng)的發(fā)生頻率被認(rèn)為是一個(gè)特征。通過(guò)為每個(gè)文檔創(chuàng)建一個(gè)特征向量,不在文檔中的術(shù)語(yǔ)由0表示,并將所有的向量組合成一個(gè)矩陣,得到一個(gè)表示數(shù)據(jù)集中所有特征的矩陣。在數(shù)據(jù)集上應(yīng)用術(shù)語(yǔ)頻率方法,獲得了19532個(gè)注冊(cè)表特性和38096個(gè)API函數(shù)調(diào)用特性。

2.2 特征選擇

在產(chǎn)生訓(xùn)練模型之前,必須減少特征提取階段產(chǎn)生的特征數(shù)量,以避免過(guò)度擬合。為此,本文采用詞頻-逆文檔頻率算法 (TF-IDF)。TF-IDF重新權(quán)衡特征集,為所有文檔中出現(xiàn)頻率較低的詞條賦予更高的權(quán)重。在大多數(shù)文檔中出現(xiàn)的特性提供了較少的樣本信息,因此從數(shù)據(jù)集中刪除的安全性更高。IDF的計(jì)算結(jié)果如下:

(1)

其中是包含t的樣本個(gè)數(shù),N是樣本的總數(shù)。在計(jì)算了一個(gè)詞條的IDF分?jǐn)?shù)之后,通過(guò)將詞條頻率乘以IDF分?jǐn)?shù),將權(quán)重賦給這個(gè)詞條。通過(guò)為語(yǔ)料庫(kù)中的每個(gè)詞條分配一個(gè)權(quán)重,來(lái)創(chuàng)建模型分類的數(shù)據(jù)集。在訓(xùn)練的每個(gè)機(jī)器學(xué)習(xí)模型中測(cè)試不同數(shù)量的特征,從而找到訓(xùn)練特定模型時(shí)要選擇的最優(yōu)特征數(shù)。

2.3 模型訓(xùn)練

本文采用Scikit-learn中的機(jī)器學(xué)習(xí)方法進(jìn)行特征選擇和模型訓(xùn)練。

我們采用以下方法進(jìn)行模型的分類訓(xùn)練。

(1)支持向量機(jī)。

(2)隨機(jī)梯度下降。

(3)決策樹(shù)。

(4)K近鄰。

(5)伯努利樸素貝葉斯。

(6)多項(xiàng)式樸素貝葉斯。

以下是每個(gè)模型的簡(jiǎn)要描述。

(1)支持向量機(jī):支持向量機(jī)(SVM)是有監(jiān)督的機(jī)器學(xué)習(xí)模型,該模型是對(duì)空間中表示數(shù)據(jù)點(diǎn)的特征向量的訓(xùn)練。它用一個(gè)盡可能寬的超平面將數(shù)據(jù)點(diǎn)從不同的類中分離出來(lái)。新的數(shù)據(jù)點(diǎn)根據(jù)它們所屬的超平面的側(cè)面進(jìn)行分類。在訓(xùn)練SVM時(shí),我們需要確定的第一個(gè)參數(shù)是核類型,它以線性函數(shù)、多項(xiàng)式函數(shù)、徑向基函數(shù)或sigmoid函數(shù)的形式出現(xiàn)。在多項(xiàng)式核的情況下,也測(cè)試了不同程度的多項(xiàng)式。最后,為了確定最佳的懲罰值,需要確定懲罰項(xiàng)的幾個(gè)參數(shù)值。

(2)隨機(jī)梯度下降:隨機(jī)梯度下降(SGD)是一種用于最小化目標(biāo)損失函數(shù)的優(yōu)化方法。SGD的工作原理是通過(guò)模型參數(shù)調(diào)整最小化底層分類器的誤差來(lái)工作。在Scikit學(xué)習(xí)中,SGD可以用來(lái)優(yōu)化生成線性SVM的損失函數(shù),用于邏輯回歸的對(duì)數(shù)損失函數(shù)。

(3)決策樹(shù):決策樹(shù)的分類器將特征映射到類標(biāo)簽,其中樹(shù)的內(nèi)部節(jié)點(diǎn)代表特征,樹(shù)葉代表類標(biāo)簽。通過(guò)遞歸將特征集分割成更小的子集來(lái)學(xué)習(xí)樹(shù),直到每個(gè)子集代表一個(gè)類標(biāo)簽為止。當(dāng)一個(gè)新的數(shù)據(jù)點(diǎn)被分類時(shí),它從根節(jié)點(diǎn)開(kāi)始,根據(jù)哪個(gè)特征最能代表數(shù)據(jù)點(diǎn),沿著一條路徑到其中一個(gè)葉子。

(4)k近鄰:最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型之一,k近鄰(KNN)根據(jù)距離數(shù)據(jù)點(diǎn)最近的k個(gè)鄰居的大多數(shù)類對(duì)新的數(shù)據(jù)點(diǎn)進(jìn)行分類。k的值被用作KNN的輸入,可以修改以產(chǎn)生更精確的分類器。此外,權(quán)重可以分配給鄰居,因?yàn)橄噜彽泥従佑休^高的權(quán)重。

(5)伯努利樸素貝葉斯和多項(xiàng)式樸素貝葉斯:伯努利樸素貝葉斯(BernoulliNB)和多項(xiàng)式樸素貝葉斯(多項(xiàng)式)是兩個(gè)相似的分類器,但是有著細(xì)微的差別。伯努利(BernoulliNB)用于描述伯努利分布之后的數(shù)據(jù)。貝葉斯定理應(yīng)用于以出現(xiàn)頻率為特征的多項(xiàng)式分布數(shù)據(jù)。BernoulliNB和多項(xiàng)式都應(yīng)用貝葉斯定理,假設(shè)其特征是獨(dú)立的。

3 分析與結(jié)果

本文通過(guò)VirusShare[7]和XHeaven[8]網(wǎng)站上采集的惡意軟件樣本,其中包括500個(gè)惡意樣本和200個(gè)良性樣本,并將樣本感染主機(jī),采用cuckoo[9]沙箱自動(dòng)對(duì)樣本進(jìn)行分析。Cuckoo沙箱用VirusTotal[10]掃描每個(gè)樣本,并將結(jié)果保存在報(bào)告中。通過(guò)惡意軟件樣本和良性軟件的報(bào)告,我們采用不同的機(jī)器學(xué)習(xí)模型方法對(duì)其進(jìn)行分類識(shí)別。其模型的分類識(shí)別的精確度如下所示:

(2)

如果TP是真正的陽(yáng)性,TN是真實(shí)的否定,F(xiàn)P是假陽(yáng)性,而FN是假陰性。此外,AUROC的計(jì)算方法是,首先繪制出所有正負(fù)片的真值,然后再計(jì)算出所產(chǎn)生的曲線下的面積。表1和表2分別總結(jié)了所有模型在準(zhǔn)確性和AUROC評(píng)分的結(jié)果。

4 結(jié)語(yǔ)

惡意軟件對(duì)于當(dāng)前世界存在巨大的威脅,每年會(huì)產(chǎn)生大概4000萬(wàn)個(gè)惡意軟件,基于簽名的靜態(tài)檢測(cè)技術(shù)已經(jīng)不能適應(yīng)時(shí)代的步伐,本文采用內(nèi)存中的惡意軟件的動(dòng)態(tài)行為特征,采用機(jī)器學(xué)習(xí)的模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,識(shí)別,并取得了較好的實(shí)驗(yàn)結(jié)果。

參考文獻(xiàn)

[1] McAfee Labs,“Threat report,”[EB/OL].Available:http://www.mcafee.com/us/resources/reports/rp-quarterly-threat-q1-2015.pdf.

[2] 李陽(yáng).基于PE文件的加殼檢測(cè)與木馬識(shí)別技術(shù)[D].廣西大學(xué),2014.

[3] 屈亞鑫.反木馬系統(tǒng)中程序行為分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2014.

[4] 陳勤,黃劍軍,褚一平,等.基于帶權(quán)歐拉距離的PE文件殼檢測(cè)技術(shù)[J].計(jì)算機(jī)工程與科學(xué),2010,32(7):1-3,7.

[5] 樊震,楊秋翔.基于PE文件結(jié)構(gòu)異常的未知病毒檢測(cè)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(10):160-163.

[6] 蘇璞睿,馮登國(guó).基于進(jìn)程行為的異常檢測(cè)模型[J].電子學(xué)報(bào),2006(10):1809-1811.

[7] Virus Share[EB/OL].http://www.virusshare.com.

[8] XHeaven[EB/OL].http://www.XHeavean.com.

[9] Cuckoo[EB/OL].http://www.cuckoo.com.

[10] virustotal在線沙箱[EB/OL].http://www.virustotal.com.

猜你喜歡
機(jī)器學(xué)習(xí)檢測(cè)技術(shù)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
食品安全檢測(cè)技術(shù)研究現(xiàn)狀
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
公路工程試驗(yàn)檢測(cè)存在的問(wèn)題及措施
煤礦機(jī)電產(chǎn)品檢測(cè)技術(shù)
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
鍋爐檢測(cè)應(yīng)用壓力管道無(wú)損檢測(cè)技術(shù)的分析
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
淺談現(xiàn)代汽車(chē)檢測(cè)技術(shù)與安全管理
科技視界(2016年20期)2016-09-29 12:55:31
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
主站蜘蛛池模板: 欧美视频二区| 欧美中文一区| 日日噜噜夜夜狠狠视频| 亚洲国产高清精品线久久| 欧美日韩另类国产| 国产国产人成免费视频77777| 最新日本中文字幕| 国产精品第一区| 又黄又湿又爽的视频| 真实国产乱子伦视频| 国产最爽的乱婬视频国语对白| 国内精品视频在线| 亚洲天堂在线免费| 国产精品一区二区国产主播| 99激情网| 女人18毛片久久| 在线国产毛片| 无码一区二区三区视频在线播放| 99这里只有精品在线| 无码一区二区三区视频在线播放| 99这里只有精品在线| 妇女自拍偷自拍亚洲精品| 99精品热视频这里只有精品7| 亚洲性影院| 欧美日韩久久综合| 成人免费黄色小视频| 亚洲精品在线观看91| 国产精品嫩草影院av| 精品国产污污免费网站| 国产精品嫩草影院av| 免费人欧美成又黄又爽的视频| 日本人又色又爽的视频| 国产91色在线| 欧美三级不卡在线观看视频| 凹凸国产熟女精品视频| 无码精品福利一区二区三区| 精品一區二區久久久久久久網站| 欧美成人手机在线视频| 精品人妻无码区在线视频| 日韩 欧美 国产 精品 综合| 666精品国产精品亚洲| 久久久久夜色精品波多野结衣| 丝袜高跟美脚国产1区| 日韩精品亚洲人旧成在线| 国产欧美又粗又猛又爽老| 欧美日韩精品一区二区视频| 国产网友愉拍精品视频| 成人午夜网址| 在线99视频| 女同久久精品国产99国| 最近最新中文字幕免费的一页| 波多野结衣一区二区三区AV| 国产凹凸一区在线观看视频| 国内精品伊人久久久久7777人| 天堂网亚洲系列亚洲系列| 凹凸国产分类在线观看| 狠狠色香婷婷久久亚洲精品| 99re免费视频| 国产Av无码精品色午夜| 国产午夜人做人免费视频中文| 91青青视频| 久久精品丝袜| 热久久这里是精品6免费观看| 亚洲人成网站在线播放2019| 国产成人精品视频一区二区电影| 日韩无码真实干出血视频| 国产亚洲视频中文字幕视频| 18黑白丝水手服自慰喷水网站| jijzzizz老师出水喷水喷出| 国产三级视频网站| www精品久久| 伊人无码视屏| 国产香蕉一区二区在线网站| 福利视频久久| 天堂成人av| 亚洲美女AV免费一区| 91精品国产91欠久久久久| 欧美a级在线| 久热re国产手机在线观看| 18禁影院亚洲专区| 免费无码AV片在线观看国产| 男女性色大片免费网站|