999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的集成DGA域名檢測方法

2018-10-22 11:50:50羅赟騫王艷偉
關(guān)鍵詞:特征提取特征檢測

羅赟騫,鄔 江,王艷偉,楊 鶴

(中電長城網(wǎng)際系統(tǒng)應(yīng)用有限公司,北京 102209)

0 引言

惡意軟件是為了進行未經(jīng)授權(quán)的惡意活動而感染計算機的軟件,如僵尸網(wǎng)絡(luò)、勒索軟件、間諜軟件等。惡意軟件通常與命令和控制中心(Command & Control,C2)之間建立通信連接,從而使控制者通過C2服務(wù)器遠程控制目標主機。為了提高惡意軟件與C2服務(wù)器之間通信的可靠性,惡意軟件常常采用動態(tài)域名生成算法(Domain Generation Algorithm,DGA)自動生成海量域名,然后從中選擇一個或多個有效域名解析出IP地址,實現(xiàn)與C2服務(wù)器的通信,規(guī)避常規(guī)的黑名單檢測。DGA域名是惡意軟件的一個重要特征,對其進行有效檢測可以準確、及時地發(fā)現(xiàn)惡意軟件,對于提升安全檢測水平進而提高網(wǎng)絡(luò)空間安全防護能力具有重要的現(xiàn)實意義。

DGA域名檢測經(jīng)過了黑名單過濾、淺層機器學(xué)習(xí)檢測階段,正在向深層機器學(xué)習(xí)檢測階段發(fā)展,傳統(tǒng)的黑名單檢測方法需要人工補充DGA域名,難以適應(yīng)DGA域名迅速增長帶來的挑戰(zhàn)[1]。淺層機器學(xué)習(xí)檢測通過精心構(gòu)造特征,采用淺層機器學(xué)習(xí)方法構(gòu)建檢測模型,實現(xiàn)對DGA域名的自動化檢測。但是,由于需要人工構(gòu)造特征,要求特征構(gòu)造者具有豐富的經(jīng)驗,并且當DGA域名變種時,需要對特征進行重新構(gòu)造。深度學(xué)習(xí)方法可以自動提取特征,解決了淺層機器學(xué)習(xí)面臨的問題,可以采用該方法實現(xiàn)對DGA域名的有效檢測。文獻[2]提出采用長短時間記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型實現(xiàn)對DGA域名的檢測;文獻[3]提出采用集成卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型對惡意字符串進行檢測;文獻[4]比較了Alex Net、VGG、Squeeze Net、Inception、Res Net結(jié)合遷移學(xué)習(xí)進行DGA域名檢測時的性能;文獻[5]采用實際的域名數(shù)據(jù),對CNN模型和LSTM模型的檢測性能進行了比較。上述檢測方法只是采用單種深度學(xué)習(xí)模型對DGA域名進行檢測,然而不同的深度學(xué)習(xí)模型自動提取特征的角度不同,如果將不同類型的深度學(xué)習(xí)模型集成在一起,可以從多個角度提取特征,從而提升檢測效果。本文將采用CNN模型和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型相集成的CNN-RNN模型對DGA域名進行檢測。

1 CNN-RNN集成檢測模型

1.1 CNN模型

CNN模型由卷積層和池化層組成[6]。卷積層具有局部連接和權(quán)重共享的特征,可以減少模型的復(fù)雜性;池化層可以減小數(shù)據(jù)量,從而減小參數(shù)規(guī)模,降低計算復(fù)雜度,也可以防止過擬合。CNN模型可以有效地捕捉輸入的局部特征。

(1)卷積層

在卷積層中,上一層的特征圖被一個可學(xué)習(xí)的卷積核進行卷積,然后通過一個激活函數(shù),可以得到輸出特征圖,每個輸出特征圖可以組合卷積多個輸入特征圖的值。卷積層的公式為:

(1)

(2)池化層

池化層將生成輸入特征圖的下采樣版本。池化層的公式為:

(2)

1.2 RNN模型

與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)一樣,RNN模型將輸入序列x1,x2,x3,…,xt映射為隱含狀態(tài)序列h1,h2,h3,…,ht。但是,與DNN不同的是,隱含狀態(tài)ht是通過x1,x2,x3,…,xt的函數(shù)進行計算的,而不是由xt單獨計算的。將ht置于一個序列的條件上進行計算,而不是在單獨的現(xiàn)有輸入上進行計算,可以捕獲輸入數(shù)據(jù)中的時間特征。RNN模型在理論上很完美,但隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,存在梯度消失或爆炸的問題,在RNN模型基礎(chǔ)上改進的LSTM和GRU(Gated Recurrent Unit)等模型解決了這個問題。

(1)LSTM模型

LSTM模型是由許多LSTM單元組成的,一個LSTM單元中包含了輸入門、輸出門和遺忘門。通過這種特殊結(jié)構(gòu),使LSTM能夠選擇輸入的哪些信息被遺忘,哪些信息被記住。某時刻t,LSTM單元各組成部分的計算如下[7]:

it=σ(Wixt+Uiht-1+bi)

(3)

ft=σ(Wfxt+Ufht-1+bf)

(4)

(5)

(6)

ot=σ(Woxt+Uoht-1+bo)

(7)

ht=ot⊙tanh(ct)

(8)

其中,xt表示t時刻的輸入向量;ht表示隱藏狀態(tài);it、ft、ct、ot分別表示輸入門、遺忘門、記憶單元狀態(tài)和輸出門;Wi、Wf、Wc、Wo為輸入數(shù)據(jù)的權(quán)重矩陣;Ui、Uf、Uc、Uo為隱藏狀態(tài)的權(quán)重矩陣;bi、bf、bc、bo為偏置;σ表示sigmoid激活函數(shù);⊙為元素乘。

(2)GRU模型

GRU模型與LSTM相比,合并了LSTM中的遺忘門和輸入門,模型中只存在更新門和重置門,計算如下[8]:

zt=σ(Wzxt+Uzht-1+bz)

(9)

rt=σ(Wrxt+Urht-1+br)

(10)

(11)

(12)

其中,xt表示t時刻的輸入向量;ht表示隱藏狀態(tài);zt、rt分別表示了更新門、重置門;Wz、Wr、Wh為輸入數(shù)據(jù)的權(quán)重矩陣;Uz、Ur、Uh為隱藏狀態(tài)的權(quán)重矩陣;bz、br、bh為偏置;σ表示sigmoid激活函數(shù)。

1.3 集成檢測模型

CNN-RNN模型由字符嵌入層、特征提取層和分類層三部分組成。字符嵌入層主要實現(xiàn)將輸入的字符進行數(shù)字化編碼,特征提取層結(jié)合CNN和RNN模型實現(xiàn)對輸入數(shù)據(jù)特征的自動提取,分類層根據(jù)提取的特征使用三層全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)對DGA域名的自動分類預(yù)測。其整個模型架構(gòu)如圖1所示。

圖1 CNN-RNN集成檢測模型

(1)字符嵌入層

字符嵌入層對輸入的字符進行預(yù)處理,包括字符串填充和截斷、字符編碼等。字符嵌入層只處理固定長度為L的字符串,如果輸入字符串長度大于L,那么需要將超出L的字符串截斷;如果輸入字符串長度小于L,那么需要將字符串進行補齊。為了能夠?qū)⒆址畱?yīng)用于神經(jīng)網(wǎng)絡(luò),還需要將輸入的單個字符串編碼為長度為d的向量;d是一個可變參數(shù),這里取值為128。

(2)特征提取層

特征提取層采用深度學(xué)習(xí)模型,對字符嵌入層輸出的二維矩陣進行自動處理,將高維的輸入數(shù)據(jù)編碼為低維的特征編碼,保留輸入數(shù)據(jù)中絕大多數(shù)的信息。本文在文獻[3]的基礎(chǔ)上,提出一種結(jié)合CNN模型和Bi-RNN模型的集成特征提取模型。

CNN模型采用3種不同長度過濾器的CNN模型檢測局部特征,本文使用的過濾器長度為3、4、5,卷積核的數(shù)量為256。CNN卷積模型等效于傳統(tǒng)的n-grams特征提取。每個CNN模型輸出的結(jié)果將采用求平均的方法,輸出長度為256的一維向量。

Bi-RNN模型常用于自然語言處理,可以實現(xiàn)字符數(shù)據(jù)的正向和反向處理。與單獨的RNN模型相比,Bi-RNN可以捕獲更多的時序信息。Bi-RNN模型將輸出長度為256的一維向量。

CNN模型和Bi-RNN模型的輸出結(jié)果將進入融合層,融合層將4個長度為256的一維向量連接成長度為1 024的一維向量。

Bi-RNN模型在實施時采用Bi-LSTM模型和Bi-GRU模型。

(3)分類層

分類層采用3層全連接神經(jīng)網(wǎng)絡(luò)對輸入特征進行分類預(yù)測,判斷輸入字符串是惡意的還是良性的。模型進行訓(xùn)練時,使用Binary-cross熵衡量分類器的損失值。

(13)

2 實例分析

2.1 數(shù)據(jù)來源及嵌入層處理

文中使用的數(shù)據(jù)是文獻[2]在github上開源提供的公開數(shù)據(jù)[9]。惡意域名是模擬DGA算法生成的30多種類型約75萬個DGA域名,良性域名是來至Alexa的前100萬個域名。實驗時,隨機抽取11萬個DGA域名和11萬個良性域名組成22萬個樣本。

實驗時,使用上節(jié)中字符嵌入層的方法對輸入字符串進行預(yù)處理,輸入字符的最大編碼長度為53,字符的編碼長度為128,字符嵌入層輸出大小為53×128的矩陣編碼數(shù)據(jù)。

2.2 輸入特征提取

將文獻[3]中提出的方法作為基線參考,分析比較了本文提出的集成檢測模型的性能。比較的三種特征提取模型如表1所示。

表1 三種特征提取模型

表1中CNN(n,m)表示過濾器長度為n,卷積核的數(shù)量為m的一維卷積Convolution1D;mean(256)表示對卷積的輸出進行axis=1方向的均值計算,輸出長度為256的向量;Merge(1 024)表示將第一層中各個深度學(xué)習(xí)模型的輸出連接成長度為1 024位的向量。

2.3 預(yù)測輸出

采用精度(Precision)、召回率(Recall)、ROC(Receiver Operating Characteristic Curve)評估本文提出的模型的效果。

精度是精確性的度量,指被分為正例的示例與實際正例的比例。精度的計算公式為:

(14)

召回率是覆蓋面的度量,度量有多少正例被實際分為正例。召回率的計算公式為:

(15)

ROC實現(xiàn)了對TPR(True Positive Rate)和FPR(False Positive Rate)的權(quán)衡度量,TPR和FPR計算如下:

(16)

(17)

ROC是通過對分類器返回分數(shù)在不同閾值下計算的TPR和FPR進行評估而產(chǎn)生的。例如,針對某個分類器ROC在0.0~1.0的閾值范圍內(nèi),計算每個閾值下的FPR和TPR。曲線下面積(Area Under Curve,AUC)是比較ROC曲線的常用單一度量,顧名思義,就是ROC曲線下的面積。AUC=1表示完美的分類,AUC=0.5表示隨機的分類。AUC可以對分類性能進行綜合評價。

2.4 實驗結(jié)果分析

實驗的硬件運行環(huán)境為Intel?CoreTMi7-6700 CPU@3.40 GHz×4,32 GB內(nèi)存;操作系統(tǒng)為Ubuntu 16.04 LTS;程序開發(fā)環(huán)境為Anaconda4.4.0,Python版本為2.7.14,Tensorflow版本為1.8.0;使用Keras[10]進行開發(fā),版本為2.1.6。

用于模型的訓(xùn)練樣本數(shù)據(jù)占全部樣本數(shù)據(jù)的80%,用于模型的測試樣本數(shù)據(jù)占20%。模型訓(xùn)練時可以采用HoldOut檢驗法和交叉驗證方法選擇最優(yōu)模型,但由于計算資源有限,在模型訓(xùn)練時采用HoldOut檢驗法,選擇最優(yōu)模型時使用95%的訓(xùn)練樣本數(shù)據(jù)構(gòu)建模型,使用5%的訓(xùn)練樣本數(shù)據(jù)進行模型驗證。模型訓(xùn)練時,如果模型的AUC值連續(xù)5次沒有發(fā)生變化,就停止訓(xùn)練過程。實驗時,分別運行模型10次,獲取相關(guān)指標的統(tǒng)計值。

三種模型在預(yù)測精度、召回率和AUC值比較如表2~表4所示。

由表2~表4可知,從三個預(yù)測指標看,CNN-BiLSTM和CNN-BiGRU模型的預(yù)測性能要優(yōu)于文獻[3]中的模型,說明CNN-RNN模型的有效性。CNN-BiLSTM模型在精度指標方面要優(yōu)于CNN-BiGRU模型,在AUC指標方面整體上也優(yōu)于CNN-BiGRU模型,只是在召回率指標方面略遜于CNN-BiGRU模型。

表2 三種模型的精度比較

表3 三種模型的召回率比較

表4 三種模型的AUC值比較

在模型訓(xùn)練性能方面,文獻[3]中CNN-BiLSTM模型和CNN-BiGRU模型的平均訓(xùn)練時間分別為2 880 s、4 484 s、4 428 s。CNN-BiLSTM模型和CNN-BiGRU模型訓(xùn)練時間相近,但遠長于文獻[1]中模型的訓(xùn)練時間。

3 結(jié)論

本文提出了一種將CNN模型和RNN模型相集成的DGA域名檢測方法。實驗結(jié)果表明,這種集成檢測方法與原有模型檢測方法相比,能夠有效提高檢測效果,但由于模型構(gòu)建較復(fù)雜,增加了訓(xùn)練時間,下一步的研究工作將考慮對RNN模型進行改進,以減少模型訓(xùn)練時間,如采用SRU(Simple Recurrent Unit)模型。

猜你喜歡
特征提取特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
小波變換在PCB缺陷檢測中的應(yīng)用
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 直接黄91麻豆网站| 全部无卡免费的毛片在线看| 国产精品永久不卡免费视频| 99久久精彩视频| 婷婷亚洲视频| 婷婷丁香在线观看| 成人精品亚洲| 亚洲高清国产拍精品26u| 国产网站黄| 国产尤物在线播放| 亚洲第一页在线观看| 日韩精品高清自在线| 精品撒尿视频一区二区三区| 亚洲色图欧美| 国产一区二区精品福利| 东京热av无码电影一区二区| 亚洲欧洲日韩综合色天使| 天堂成人在线| 中文字幕永久在线看| 中文字幕在线观看日本| 国产国产人成免费视频77777 | 亚洲第一色网站| 欧洲欧美人成免费全部视频| 日本国产在线| 精品无码专区亚洲| 国产精品无码作爱| 亚洲日韩AV无码一区二区三区人 | 日韩美毛片| 欧美特黄一级大黄录像| 精品一区二区三区四区五区| 精品人妻无码中字系列| 久久精品嫩草研究院| 国产新AV天堂| 亚洲精品视频免费观看| 精品视频91| 91外围女在线观看| 久久黄色免费电影| 国产精品亚洲va在线观看| 香蕉综合在线视频91| 最新亚洲人成无码网站欣赏网| 国产亚洲精品91| 欧美一区国产| 国产一级精品毛片基地| 无码中文字幕加勒比高清| 国产成人精品男人的天堂| 九色在线观看视频| 毛片a级毛片免费观看免下载| 在线日本国产成人免费的| 日韩在线视频网站| 国产欧美日韩免费| 亚洲国产一区在线观看| 欧美19综合中文字幕| 白丝美女办公室高潮喷水视频| 毛片一级在线| 日韩在线影院| 日本伊人色综合网| 日韩在线第三页| 久久久精品国产SM调教网站| 呦女亚洲一区精品| 色婷婷电影网| 宅男噜噜噜66国产在线观看| 72种姿势欧美久久久大黄蕉| 亚洲精品桃花岛av在线| 日韩欧美中文在线| 青青草国产在线视频| 久久精品无码国产一区二区三区| 波多野结衣一区二区三区四区| 在线va视频| 国产在线91在线电影| 亚洲激情区| 欧美一级大片在线观看| 国产亚洲成AⅤ人片在线观看| 欧美性猛交一区二区三区| 成人国内精品久久久久影院| 国产精品自在线拍国产电影| 四虎在线高清无码| av在线无码浏览| av午夜福利一片免费看| 国产精品久久久久久久久| 亚洲精品中文字幕无乱码| 亚洲a免费| 中文字幕不卡免费高清视频|