999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的集成DGA域名檢測方法

2018-10-22 11:50:50羅赟騫王艷偉
網絡安全與數據管理 2018年10期
關鍵詞:特征提取特征檢測

羅赟騫,鄔 江,王艷偉,楊 鶴

(中電長城網際系統應用有限公司,北京 102209)

0 引言

惡意軟件是為了進行未經授權的惡意活動而感染計算機的軟件,如僵尸網絡、勒索軟件、間諜軟件等。惡意軟件通常與命令和控制中心(Command & Control,C2)之間建立通信連接,從而使控制者通過C2服務器遠程控制目標主機。為了提高惡意軟件與C2服務器之間通信的可靠性,惡意軟件常常采用動態域名生成算法(Domain Generation Algorithm,DGA)自動生成海量域名,然后從中選擇一個或多個有效域名解析出IP地址,實現與C2服務器的通信,規避常規的黑名單檢測。DGA域名是惡意軟件的一個重要特征,對其進行有效檢測可以準確、及時地發現惡意軟件,對于提升安全檢測水平進而提高網絡空間安全防護能力具有重要的現實意義。

DGA域名檢測經過了黑名單過濾、淺層機器學習檢測階段,正在向深層機器學習檢測階段發展,傳統的黑名單檢測方法需要人工補充DGA域名,難以適應DGA域名迅速增長帶來的挑戰[1]。淺層機器學習檢測通過精心構造特征,采用淺層機器學習方法構建檢測模型,實現對DGA域名的自動化檢測。但是,由于需要人工構造特征,要求特征構造者具有豐富的經驗,并且當DGA域名變種時,需要對特征進行重新構造。深度學習方法可以自動提取特征,解決了淺層機器學習面臨的問題,可以采用該方法實現對DGA域名的有效檢測。文獻[2]提出采用長短時間記憶網絡(Long Short-Term Memory,LSTM)模型實現對DGA域名的檢測;文獻[3]提出采用集成卷積神經網絡(Convolutional Neural Network,CNN)模型對惡意字符串進行檢測;文獻[4]比較了Alex Net、VGG、Squeeze Net、Inception、Res Net結合遷移學習進行DGA域名檢測時的性能;文獻[5]采用實際的域名數據,對CNN模型和LSTM模型的檢測性能進行了比較。上述檢測方法只是采用單種深度學習模型對DGA域名進行檢測,然而不同的深度學習模型自動提取特征的角度不同,如果將不同類型的深度學習模型集成在一起,可以從多個角度提取特征,從而提升檢測效果。本文將采用CNN模型和循環神經網絡(Recurrent Neural Network,RNN)模型相集成的CNN-RNN模型對DGA域名進行檢測。

1 CNN-RNN集成檢測模型

1.1 CNN模型

CNN模型由卷積層和池化層組成[6]。卷積層具有局部連接和權重共享的特征,可以減少模型的復雜性;池化層可以減小數據量,從而減小參數規模,降低計算復雜度,也可以防止過擬合。CNN模型可以有效地捕捉輸入的局部特征。

(1)卷積層

在卷積層中,上一層的特征圖被一個可學習的卷積核進行卷積,然后通過一個激活函數,可以得到輸出特征圖,每個輸出特征圖可以組合卷積多個輸入特征圖的值。卷積層的公式為:

(1)

(2)池化層

池化層將生成輸入特征圖的下采樣版本。池化層的公式為:

(2)

1.2 RNN模型

與深度神經網絡(Deep Neural Networks,DNN)一樣,RNN模型將輸入序列x1,x2,x3,…,xt映射為隱含狀態序列h1,h2,h3,…,ht。但是,與DNN不同的是,隱含狀態ht是通過x1,x2,x3,…,xt的函數進行計算的,而不是由xt單獨計算的。將ht置于一個序列的條件上進行計算,而不是在單獨的現有輸入上進行計算,可以捕獲輸入數據中的時間特征。RNN模型在理論上很完美,但隨著神經網絡層數的增加,存在梯度消失或爆炸的問題,在RNN模型基礎上改進的LSTM和GRU(Gated Recurrent Unit)等模型解決了這個問題。

(1)LSTM模型

LSTM模型是由許多LSTM單元組成的,一個LSTM單元中包含了輸入門、輸出門和遺忘門。通過這種特殊結構,使LSTM能夠選擇輸入的哪些信息被遺忘,哪些信息被記住。某時刻t,LSTM單元各組成部分的計算如下[7]:

it=σ(Wixt+Uiht-1+bi)

(3)

ft=σ(Wfxt+Ufht-1+bf)

(4)

(5)

(6)

ot=σ(Woxt+Uoht-1+bo)

(7)

ht=ot⊙tanh(ct)

(8)

其中,xt表示t時刻的輸入向量;ht表示隱藏狀態;it、ft、ct、ot分別表示輸入門、遺忘門、記憶單元狀態和輸出門;Wi、Wf、Wc、Wo為輸入數據的權重矩陣;Ui、Uf、Uc、Uo為隱藏狀態的權重矩陣;bi、bf、bc、bo為偏置;σ表示sigmoid激活函數;⊙為元素乘。

(2)GRU模型

GRU模型與LSTM相比,合并了LSTM中的遺忘門和輸入門,模型中只存在更新門和重置門,計算如下[8]:

zt=σ(Wzxt+Uzht-1+bz)

(9)

rt=σ(Wrxt+Urht-1+br)

(10)

(11)

(12)

其中,xt表示t時刻的輸入向量;ht表示隱藏狀態;zt、rt分別表示了更新門、重置門;Wz、Wr、Wh為輸入數據的權重矩陣;Uz、Ur、Uh為隱藏狀態的權重矩陣;bz、br、bh為偏置;σ表示sigmoid激活函數。

1.3 集成檢測模型

CNN-RNN模型由字符嵌入層、特征提取層和分類層三部分組成。字符嵌入層主要實現將輸入的字符進行數字化編碼,特征提取層結合CNN和RNN模型實現對輸入數據特征的自動提取,分類層根據提取的特征使用三層全連接神經網絡實現對DGA域名的自動分類預測。其整個模型架構如圖1所示。

圖1 CNN-RNN集成檢測模型

(1)字符嵌入層

字符嵌入層對輸入的字符進行預處理,包括字符串填充和截斷、字符編碼等。字符嵌入層只處理固定長度為L的字符串,如果輸入字符串長度大于L,那么需要將超出L的字符串截斷;如果輸入字符串長度小于L,那么需要將字符串進行補齊。為了能夠將字符串應用于神經網絡,還需要將輸入的單個字符串編碼為長度為d的向量;d是一個可變參數,這里取值為128。

(2)特征提取層

特征提取層采用深度學習模型,對字符嵌入層輸出的二維矩陣進行自動處理,將高維的輸入數據編碼為低維的特征編碼,保留輸入數據中絕大多數的信息。本文在文獻[3]的基礎上,提出一種結合CNN模型和Bi-RNN模型的集成特征提取模型。

CNN模型采用3種不同長度過濾器的CNN模型檢測局部特征,本文使用的過濾器長度為3、4、5,卷積核的數量為256。CNN卷積模型等效于傳統的n-grams特征提取。每個CNN模型輸出的結果將采用求平均的方法,輸出長度為256的一維向量。

Bi-RNN模型常用于自然語言處理,可以實現字符數據的正向和反向處理。與單獨的RNN模型相比,Bi-RNN可以捕獲更多的時序信息。Bi-RNN模型將輸出長度為256的一維向量。

CNN模型和Bi-RNN模型的輸出結果將進入融合層,融合層將4個長度為256的一維向量連接成長度為1 024的一維向量。

Bi-RNN模型在實施時采用Bi-LSTM模型和Bi-GRU模型。

(3)分類層

分類層采用3層全連接神經網絡對輸入特征進行分類預測,判斷輸入字符串是惡意的還是良性的。模型進行訓練時,使用Binary-cross熵衡量分類器的損失值。

(13)

2 實例分析

2.1 數據來源及嵌入層處理

文中使用的數據是文獻[2]在github上開源提供的公開數據[9]。惡意域名是模擬DGA算法生成的30多種類型約75萬個DGA域名,良性域名是來至Alexa的前100萬個域名。實驗時,隨機抽取11萬個DGA域名和11萬個良性域名組成22萬個樣本。

實驗時,使用上節中字符嵌入層的方法對輸入字符串進行預處理,輸入字符的最大編碼長度為53,字符的編碼長度為128,字符嵌入層輸出大小為53×128的矩陣編碼數據。

2.2 輸入特征提取

將文獻[3]中提出的方法作為基線參考,分析比較了本文提出的集成檢測模型的性能。比較的三種特征提取模型如表1所示。

表1 三種特征提取模型

表1中CNN(n,m)表示過濾器長度為n,卷積核的數量為m的一維卷積Convolution1D;mean(256)表示對卷積的輸出進行axis=1方向的均值計算,輸出長度為256的向量;Merge(1 024)表示將第一層中各個深度學習模型的輸出連接成長度為1 024位的向量。

2.3 預測輸出

采用精度(Precision)、召回率(Recall)、ROC(Receiver Operating Characteristic Curve)評估本文提出的模型的效果。

精度是精確性的度量,指被分為正例的示例與實際正例的比例。精度的計算公式為:

(14)

召回率是覆蓋面的度量,度量有多少正例被實際分為正例。召回率的計算公式為:

(15)

ROC實現了對TPR(True Positive Rate)和FPR(False Positive Rate)的權衡度量,TPR和FPR計算如下:

(16)

(17)

ROC是通過對分類器返回分數在不同閾值下計算的TPR和FPR進行評估而產生的。例如,針對某個分類器ROC在0.0~1.0的閾值范圍內,計算每個閾值下的FPR和TPR。曲線下面積(Area Under Curve,AUC)是比較ROC曲線的常用單一度量,顧名思義,就是ROC曲線下的面積。AUC=1表示完美的分類,AUC=0.5表示隨機的分類。AUC可以對分類性能進行綜合評價。

2.4 實驗結果分析

實驗的硬件運行環境為Intel?CoreTMi7-6700 CPU@3.40 GHz×4,32 GB內存;操作系統為Ubuntu 16.04 LTS;程序開發環境為Anaconda4.4.0,Python版本為2.7.14,Tensorflow版本為1.8.0;使用Keras[10]進行開發,版本為2.1.6。

用于模型的訓練樣本數據占全部樣本數據的80%,用于模型的測試樣本數據占20%。模型訓練時可以采用HoldOut檢驗法和交叉驗證方法選擇最優模型,但由于計算資源有限,在模型訓練時采用HoldOut檢驗法,選擇最優模型時使用95%的訓練樣本數據構建模型,使用5%的訓練樣本數據進行模型驗證。模型訓練時,如果模型的AUC值連續5次沒有發生變化,就停止訓練過程。實驗時,分別運行模型10次,獲取相關指標的統計值。

三種模型在預測精度、召回率和AUC值比較如表2~表4所示。

由表2~表4可知,從三個預測指標看,CNN-BiLSTM和CNN-BiGRU模型的預測性能要優于文獻[3]中的模型,說明CNN-RNN模型的有效性。CNN-BiLSTM模型在精度指標方面要優于CNN-BiGRU模型,在AUC指標方面整體上也優于CNN-BiGRU模型,只是在召回率指標方面略遜于CNN-BiGRU模型。

表2 三種模型的精度比較

表3 三種模型的召回率比較

表4 三種模型的AUC值比較

在模型訓練性能方面,文獻[3]中CNN-BiLSTM模型和CNN-BiGRU模型的平均訓練時間分別為2 880 s、4 484 s、4 428 s。CNN-BiLSTM模型和CNN-BiGRU模型訓練時間相近,但遠長于文獻[1]中模型的訓練時間。

3 結論

本文提出了一種將CNN模型和RNN模型相集成的DGA域名檢測方法。實驗結果表明,這種集成檢測方法與原有模型檢測方法相比,能夠有效提高檢測效果,但由于模型構建較復雜,增加了訓練時間,下一步的研究工作將考慮對RNN模型進行改進,以減少模型訓練時間,如采用SRU(Simple Recurrent Unit)模型。

猜你喜歡
特征提取特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
小波變換在PCB缺陷檢測中的應用
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 91麻豆精品视频| 在线观看精品自拍视频| 亚洲国产天堂在线观看| 欧美日韩专区| 成人福利在线视频免费观看| 国产亚洲视频免费播放| 中文字幕首页系列人妻| 午夜高清国产拍精品| 99视频在线观看免费| 亚洲最黄视频| 看你懂的巨臀中文字幕一区二区| 亚洲一区波多野结衣二区三区| 嫩草国产在线| 91九色国产porny| 国产成人综合日韩精品无码首页| 欧洲亚洲一区| 5555国产在线观看| 丰满人妻中出白浆| 88国产经典欧美一区二区三区| 亚洲国产高清精品线久久| 亚洲欧美一级一级a| 色悠久久久久久久综合网伊人| 99热这里只有精品5| 国模视频一区二区| 中文字幕波多野不卡一区| 精品久久蜜桃| 日韩欧美国产精品| 九九精品在线观看| 婷婷激情亚洲| 亚洲视频免费播放| 久久婷婷五月综合色一区二区| 成人福利一区二区视频在线| 9啪在线视频| 色网在线视频| 97久久超碰极品视觉盛宴| 麻豆AV网站免费进入| 亚洲欧洲日韩综合| 日韩国产亚洲一区二区在线观看| 无码专区在线观看| 国产乱子伦一区二区=| 在线播放真实国产乱子伦| 亚洲Va中文字幕久久一区| 99在线小视频| 伊人色在线视频| 99在线视频网站| 91精品在线视频观看| 成人免费午夜视频| 一级片免费网站| 波多野结衣一级毛片| 一区二区欧美日韩高清免费| 91网在线| 亚洲国产成人无码AV在线影院L| 国产成人综合日韩精品无码不卡 | 看国产一级毛片| 色有码无码视频| jijzzizz老师出水喷水喷出| 亚洲成a人片在线观看88| 国产福利不卡视频| 成人国产免费| 美女内射视频WWW网站午夜| 久久久成年黄色视频| 欧美成人aⅴ| 91九色最新地址| 国产精品白浆在线播放| 无码AV动漫| 亚洲高清在线天堂精品| 无码高潮喷水在线观看| 老色鬼欧美精品| 国产成人毛片| 亚洲永久视频| 国产精品深爱在线| 91福利国产成人精品导航| 丁香婷婷激情网| 看国产毛片| 欧美中出一区二区| 国产成人高清亚洲一区久久| 一级片一区| 久久青草精品一区二区三区 | 久久久久久尹人网香蕉 | 国产乱子伦一区二区=| 亚洲天堂网站在线| 天堂网亚洲系列亚洲系列|