DCVAE與DPC融合的網絡入侵檢測模型研究

2024-04-22 02:41:06李登輝葛麗娜樊景威

小型微型計算機系統 2024年4期

李登輝,葛麗娜,王哲,樊景威,張壕

(廣西民族大學人工智能學院,南寧 530006) (廣西混雜計算與集成電路分析設計重點實驗室,南寧 530006)

0 引言

隨著網絡空間日益發展,國家和個人的隱私、財產安全也隨之受到巨大威脅[1],新型網絡攻擊層出不窮[2],如何迅速、準確地在復雜的網絡空間中檢測和識別出網絡攻擊,并及時做出應對,成為越來越多企業所要面對的問題.入侵檢測系統是信息安全綜合防御系統的重要組成部分,通過監測網絡流量判斷是否存在入侵行為,識別出正在發生的入侵企圖或已經發生的入侵活動.

由于科技發展和計算機算力提升等原因,機器學習在入侵檢測領域變得更加火熱[3].隨機森林[4]、XGBoost[5]、決策樹[6]、樸素貝葉斯[7]、支持向量機[8]等這些傳統機器學習方法已經廣泛應用到入侵檢測系統中,均取得了不錯的效果,達到了入侵檢測系統高準確率和低誤報率的要求,但是傳統機器學習方法需要復雜的特征工程[9],選擇最佳特征,才能達到理想的效果,特征選擇是傳統機器學習方法的重中之重.

深度學習只需將網絡流量的初始特征直接傳遞到神經網絡中,通常就可以實現良好的入侵檢測效果.面對更復雜的網絡環境,更龐大的網絡流量,深度學習比傳統機器學習更能適應不同的領域和應用[10].因此利用深度學習方法設計入侵檢測系統是繼傳統機器學習方法后的新潮流[11].為了提升入侵檢測模型的性能表現,研究人員或選擇學習網絡流量的概率分布,空間特征和時序特征[12],或集合多方數據構建入侵檢測模型[13],增強網絡流量特征的表達能力,或針對現存入侵檢測領域數據集間存在特征差異大導致模型泛化能力差、缺乏可靠的評價體系等問題,提出標準數據集,以衡量訓練模型的泛化能力和有效性[14].

以往的入侵檢測模型主要關注點是改進特征提取能力,提高已知攻擊的檢測精度.當網絡中產生與任何已知攻擊完全不同行為模式的未知攻擊時,大多數入侵檢測系統會將其誤分類為正常流量,產生極具誤導性的信息,因此需要能夠識別未知攻擊的深度學習模型來幫助構建入侵檢測系統[15].

入侵檢測系統如果簡單地將網絡流量粗粒度分類為正常流量或惡意網絡攻擊,安全專業人員無法獲得更準確的診斷信息以有效指導解決安全威脅,而細粒度分類可以獲得更詳細的診斷信息降低對惡意網絡攻擊的反應時間,減少給企業帶來難以估計的損失.所以通過將判別條件變分自編碼器(Discriminative Conditional Variational Auto-Encoder,DCVAE)與密度峰值聚類(Density Peak Clustering,DPC)算法[16]結合提出新的模型,相比于現在流行的方法有更好的性能表現,文章的主要貢獻如下:

1)提出的模型具有檢測未知攻擊的能力,降低未知攻擊造成的安全風險.

2)提出的模型具有細粒度分類的能力,能夠幫助安全專業人員迅速判段惡意網絡攻擊的精準類別,并對其進行及時反應.

3)實驗結果證明所提出的模型可以一定程度應對當前復雜的網絡環境.

本文的其余內容安排如下.第1部分討論入侵檢測相關工作,第2部分介紹了所提出的模型涉及到的背景知識,第3部分對提出的模型進行詳細介紹,第4部分展示了模型的實驗結果,并與其他入侵檢測模型對比,第5部分對所做工作做出總結,并指出了模型不足和未來研究方向.

1 相關工作

衡量入侵檢測系統的重要特征之一是檢測未知攻擊的能力,未知攻擊也被稱為零日攻擊,許多組織和研究人員對未知攻擊高度關注.入侵檢測中的未知攻擊檢測主要定義為單類問題,即只學習正常流量的行為模式,將異常網絡流量識別為未知攻擊.

1.1 基于傳統機器學習模型的未知攻擊識別

以往主要利用傳統機器學習模型完成未知攻擊識別,文獻[17]中在物聯網領域比較Kmeans、單類支持向量機(One-Class Support Vector Machine,OCSVM)、隨機森林、自編碼器(AutoEncoder,AE)等模型檢測未知攻擊的能力,發現基于機器學習的入侵檢測模型即使沒有未知攻擊的作為訓練樣本,也能取得良好的檢測結果.文獻[18]中提出結合支持向量機與極限學習機的多層混合模型,利用支持向量機尋找正常流量與惡意網絡攻擊數據分布的超平面,在對網絡流量進行多分類的同時具有識別未知攻擊的能力.文獻[19]中利用k最近鄰算法尋找網絡流量k個最近距離的數據,通過這些數據投票確定是否為未知攻擊.文獻[20]中利用決策樹對已知網絡攻擊進行過濾,然后利用單類支持向量機對正常流量進行訓練找出異常攻擊.文獻[21]中針對網絡流量樣本單一、數據維度高、相關性強、異常點多的特點,利用改進的主成分分析算法去除訓練樣本中的異常值,并使用粒子群算法對單分類支持向量機的參數進行優化,提高模型檢測未知攻擊的性能.文獻[22]中采用KKT條件加強增量學習速率,提高了單類支持向量機的學習率和模型的可擴展性.文獻[23]中借鑒軟間隔支持向量機優化單類支持向量機的超平面,模型的誤報率得到顯著降低.文獻[24]中利用孤立森林、局部離群因子檢測的方法,探測網絡流量間的局部密度,對離群的孤立點判定為惡意網絡攻擊.文獻[25]中針對未知攻擊行為特征不明顯的問題,根據網絡流量的統計特征構造doc-word矩陣,分析潛在語義信息,從而判斷是否為未知攻擊.

這些方法對未知攻擊檢測的性能得到一定程度提高,但傳統機器學習模型在面對大量的網絡流量時,不能自主學習特征從而使一部分有效特征遺漏,而且檢測模型的穩定性也不高,導致不能取得更好的識別效果.

1.2 基于深度學習模型的未知攻擊識別

隨著計算機算力的不斷提升和深度學習不斷發展,入侵檢測領域研究重心也逐漸從傳統的機器學習轉向深度學習.不同于傳統機器學習模型,深度學習沒有復雜的特征工程,更適合處理高維、大型數據,表達能力更強,文獻[26]中對主成分分析法、孤立森林、OCSVM、AE模型在未知攻擊檢測中的性能進行對比,AE從計算復雜度和分類能力等方面相比于傳統機器學習模型性能均有很大提升.文獻[27]中改進了AE模型神經網絡的隱藏層數,探索不同深度神經網絡在分類時的性能表現.文獻[28]中在AE中引入丟棄法來解決神經網絡訓練時較易發生過擬合的問題,并利用未知攻擊使用正常流量訓練出的單類自編碼器(One-Class AutoEncoder,OCAE)重建樣本時會產生更大誤差的原理,達到識別未知攻擊的目的.文獻[29]中對OCSVM、AE、變分自編碼器(Variational AutoEncoder,VAE)在未知攻擊檢測中的性能對比,并分析不同閾值下VAE方法的性能,實驗結果表明,VAE的性能在很大程度上優于AE和OCSVM.文獻[30]中利用雙向生成對抗網絡(Bidirectional Generative Adversarial Networks,BiGAN)平衡網絡流量各類樣本訓練占比,同時利用BiGAN中的判別器,對超出分類結果閾值的樣本判定為未知攻擊.文獻[31]中將BiGAN中的生成器的迭代訓練與判別器的訓練分離,改進生成器和判別器的性能,提高了模型識別未知攻擊的能力.文獻[32]中基于網絡流量間的密度、距離等特征提出混合聚類方法識別網絡攻擊.文獻[33]中利用改進的DPC算法將網絡流量劃分為多個子集,求出對應子集的分布,能有效識別未知攻擊.文獻[34]將一維卷積自編碼器和OCSVM組合,定義重構誤差與分類誤差結合的目標函數,學習網絡流量的緊湊表示.文獻[35]中利用自編碼器對正常流量與未知攻擊進行對比學習,根據攻擊數據的重建誤差大于正常流量的假設,達到識別未知攻擊的目的.

以上深度學習模型使用了各種方案探索提升未知攻擊識別的準確率,也因為網絡環境逐漸復雜,網絡攻擊種類逐漸增多,模型也從簡單的二分類模型逐漸轉變為更精細的多類分類模型,因此為了快速應對層出不窮的網絡攻擊,未來的入侵檢測模型一定是面向未知攻擊識別和細粒度分類的.

2 背景知識

2.1 DCVAE模型

DCVAE在CVAE基礎上加入判別網絡[37],復用訓練模型中的隱變量z與原始樣本x的標簽y,模型如圖1所示.CVAE多作為生成模型用于構建基于異常的入侵檢測系統,DCVAE利用打上細粒度標簽的網絡流量訓練判別網絡,使得模型具有細粒度分類的能力.經過訓練的DCVAE可以根據樣本標簽類別生成指定類別樣本[38],被誤分類的樣本利用解碼器生成的新樣本后會比原樣本產生更大的重建誤差[37].因此,本文利用DCVAE得到正常流量重建誤差,并利用DPC算法學習重建誤差的分布,達到識別未知攻擊的目的.

圖1 DCVAE模型Fig.1 DCVAE model

2.2 DPC算法

DPC[39]是基于樣本密度的聚類算法,不受類簇的形狀和大小影響.聚類的目的是根據屬性相似性將數據組織成組,使同一簇中的數據具有相似的屬性,而不同簇中的數據彼此不同.其中的關鍵是根據簇中心的特征繪制決策圖,以快速識別準確的簇中心.簇中心有兩個特征:1)局部密度相對較大;2)簇中心的位置相對遠離具有較高局部密度的任何其他對象.

為求出每個類簇的密度峰值,引入兩個概念:基于數據點i的局部密度ρi和相對距離δi.其中對于局部密度ρi,有兩種計算方式,分別是截止核和高斯核,如公式(1)和公式(2)所示:

(1)

(2)

其中dij是數據點i到數據點j的歐幾里得距離,dc是截止距離.

對于截止核,數據點i的局部密度是點i的dc大小的鄰域中的數據點個數.當兩個數據點的dc鄰域中的數據點個數相同時,兩個數據點的密度數據點相等,忽略了dc鄰域的數據分布因素對局部密度的影響.因此,提出了高斯核來解決這個問題.

對于相對距離δi是通過計算數據點i與其他具有較高局部密度和最近距離的點之間的歐幾里得距離來計算的,δi定義為:

(3)

對于密度最大的點,取δi為最大值:

(4)

DPC算法為每個數據點定義決策值γi:

γi=ρi·δi

(5)

DPC算法選擇將局部密度高而且距離遠的數據點視為密度峰,即找到γi較大的點作為聚類中心,將剩余的數據點分配給距離最近的密度峰.

DPC算法在入侵檢測領域的研究主要是將網絡流量的密度屬性加入到網絡流量特征中,找到正常流量的分布特征[33],且正常流量與惡意網絡攻擊間使用DCVAE產生的重建誤差分布有顯著不同[37],因此利用DPC算法學習正常流量的分布,可以幫助識別未知網絡攻擊.

3 DCVAE-DPC模型

針對許多基于深度學習的入侵檢測模型識別未知攻擊能力不強的問題,本文提出DCVAE-DPC模型,并賦予模型細粒度分類能力,提供更準確的診斷信息,以有效指導安全人員解決安全威脅.

3.1 DCVAE-DPC模型

DCVAE-DPC模型框架如圖2所示,圖2(a)是DCVAE-DPC模型的訓練過程,圖2(b)是DCVAE-DPC模型完整的入侵檢測過程.

圖2 DCVAE-DPC入侵檢測模型Fig.2 DCVAE-DPC intrusion detection model

模型訓練首先是細粒度攻擊分類訓練,將訓練數據集預處理,打上細粒度標簽,輸入DCVAE模型后,使得模型分類的結果最大概率地接近真實值y,即最大化概率P(y|x).然后是未知攻擊識別訓練,最小化未知攻擊的識別風險,利用DCVAE模型的編碼器學習正常流量的固有分布z,解碼器的生成樣本最大概率接近x,即最大化概率P(x|y,z).利用輸入實例與生成樣本間的重建誤差,使用DPC算法找出正常流量重建誤差的分布,當輸入實例的重建誤差超出閾值時,即可判別為未知攻擊.

模型入侵檢測過程首先對輸入實例x進行細粒度攻擊分類,判斷是y∈N={B,A1,…,Ak}中的正常流量或已知攻擊,其中B代表正常流量,A1至Ak代表k種已知攻擊,若實例x判斷為正常流量,則進入未知攻擊識別階段,計算x的重建誤差與正常流量重建誤差的中心點間的距離,若超過設定閾值,則給網絡流量重新打上Ak+1標簽,Ak+1代表未知攻擊,模型最后的輸出結果是y∈N={B,A1,…,Ak+1},因此模型具有識別未知攻擊的能力.

3.2 數據預處理

NSL-KDD初始數據集并不能直接用來進行模型訓練,需要進行預處理:

1)數字化.NSL-KDD數據集中包含41種特征,其中有3種是字符型特征Protocol_Type、Service和Flag,分別包含3、70和11種類別的狀態,因此使用one-hot編碼將這些特征值進行數字化,通過one-hot編碼可以將41維的特征擴展為122維.

2)歸一化.經過獨熱編碼的同一特征的特征值間差異較大,容易造成模型訓練收斂速度慢,將特征值進行歸一化后,可以幫助提高模型的精度,采用最大最小歸一化方法將數據集中的數據變換為[0,1]區間,公式如下:

(6)

其中x是需要進行歸一化的數值,x*是歸一化后的數值,xmin是y所在特征中最小數值,xmax是x所在特征值中最大數值.

3.3 細粒度已知分類訓練

本階段的訓練目標有兩個,在訓練樣本集ST上,使DCVAE模型分類結果的概率最大化地接近真實值y,目標公式如公式(7):

(7)

其中x是訓練樣本集ST中的輸入實例,y∈{0,1}k是輸入實例經過獨熱編碼后的類別標簽.

同時需將學習到的隱變量z應用到未知攻擊識別訓練中去,所以設z的真實概率分布是PC(z|x,y),利用函數QC(z|x,y)盡可能接近z的真實分布,并利用KL散度來衡量兩個分布間的距離,目標公式如公式(8)所示:

(8)

結合公式(7)、公式(8)則有公式(9):

(9)

又由公式(8)則公式(9)可以化簡為公式(10):

(10)

將公式(10)重寫,本階段最終目標公式為公式(11):

(11)

由公式(11),目標公式由3部分神經網絡構建,用DCVAE模型中的編碼器網絡來擬合概率分布QC(z|x,y),用先驗網絡來擬合概率分布PC(z|x),用判別網絡來擬合概率分布PC(y|x,z).

公式(11)的前半部分使用高斯函數得到QC(z|x,y)和PC(z|x)分布的結果如公式(12)、公式(13)所示:

即z|x,y～N(μ1(x,y),∑1(x,y))

(12)

z|x～N(μ2(x),∑2(x))

(13)

其中(μ1,∑1)和(μ2,∑2)是兩個分布的均值和方差,因此公式(11)的前半部分可以復寫為公式(14):

(14)

公式(11)的第2部分可以實現為編碼器網絡QC(z|x,y)和判別網絡PC(y|x,z)與重參數技巧的結合.也就是說,判別網絡PC(y|x,z)輸入的隱變量z是從編碼器網絡QC(z|x,y)的高斯函數中采樣得到的如公式(15)所示:

(15)

由于標簽y是一個由1和0組成的二值向量,使用softmax函數求得PC(y|x,z)的結果如公式(16)所示:

yi|z,x～Bernoulli(pi(z,x))

(16)

其中yi是標簽y的第i個值,因此公式(11)的第2個部分可以復寫為公式(17):

(17)

所以細粒度已知攻擊分類訓練階段的損失函數公式為(18):

(18)

3.4 未知攻擊識別訓練

首先在正常流量標簽條件下使解碼器的生成實例概率最大化接近輸入實例,目標公式為(19):

(19)

為了提升DCVAE模型解碼器的表現,選擇利用編碼器學習到的隱變量z結合實例真實標簽y得到解碼器網絡PI(x|y,z),所以目標函數更新為公式(20):

(20)

其中QC(z|x,y)是復用細粒度已知分類訓練階段的編碼器網絡,使用高斯函數擬合生成的結果,如公式(21)所示:

x|y,z～N(μ(y,z),∑)

(21)

使用μ(y,z)的均值來代表重建的實例,而∑作為方差在這里并不需要,因此上式可以復寫為公式(22):

Ez[logPI]=-k‖x-μ(z,y)‖2-C

(22)

其中k,C均為常數.

所以解碼器網絡損失函數如公式(23)所示:

Lr(x,y)=‖x-μ(z,y)‖2

(23)

設R={r1(x1,y1),r2(x2,y2),…,rn(xn,yn)}代表正常流量的重建誤差集,ri是每個輸入實例xi的重建誤差.

然后利用DPC算法找出正常流量的重建誤差的聚類中心,并求出所有正常流量的重建誤差與聚類中心間的歐式距離,如公式(24)所示:

di=‖rc-ri‖2

(24)

其中rc代表正常流量的重建誤差的聚類中心,以下簡稱為聚類中心,di代表第i個輸入實例的重建誤差與rc間的距離.

被誤分類的輸入實例打上錯誤的標簽后,利用解碼器生成的新樣本會比原樣本產生更大的重建誤差,設定合適的閾值e,保證正常網絡流量高分類準確率的同時,使得模型具有一定識別未知攻擊的能力,入侵檢測模型的訓練過程總結在算法1中.

算法1.訓練DCVAE-DPC入侵檢測系統

輸出:訓練完成的DCVAE模型,聚類中心rc,閾值e

1.對數據集進行預處理

2.首先進行細粒度已知分類訓練,設置訓練的epoch值E以及batch_size,則M=n/batch_size

3.for i in E do

4. for i in M do

5. 利用編碼器網絡QC(z|x,y)以及先驗網絡PC(z|x)根據公式(12)、(13)得到兩個分布的均值與方差,μ1,∑1,μ2,∑2,并通過重參數化分別采樣得到隱變量z

6. 將編碼器網絡QC(z|x,y)中采樣得到的隱變量z輸入判別網絡PC(y|x,z),結合特征xi,得到預測類別yi*

7. 根據損失函數公式(18)更新先驗網絡PC(z|x),編碼器網絡QC(z|x,y)以及判別網絡PC(y|x,z)

8. end for

9.end for

10.進行未知攻擊識別訓練

11.for i in E do

12. for j in N do

13. 將編碼器網絡QC(z|x,y)復用到未知攻擊識別訓練,得到編碼器網絡QI(z|x,y)的均值μ與方差∑,并采樣隱變量z

14. 將隱變量z結合正常流量的類別標簽y輸入解碼器網絡PI(x|y,z)中,得到重建后的網絡流量x*

15. 根據損失函數公式(23)更新解碼器網絡PI(x|y,z)

16. end for

17.end for

19.利用DPC算法根據重建誤差計算γ值和δ值,求出聚類中心rc及閾值e

3.5 DCVAE-DPC入侵檢測系統

DCVAE-DPC入侵檢測系統在得到網絡流量輸入實例x后,首先進行預處理,然后進入細粒度已知分類部分,由先驗網絡PC(z|x)得到當前網絡流量x服從高斯分布中的均值μ1和方差∑1,從高斯分布中采樣z結合x即可利用判別網絡PC(y|x,z)得到這一階段的分類結果如公式(25)所示:

(25)

其中z=E[z|x]=μ1,由于細粒度已知分類階段會將未知攻擊誤分類為正常流量,所以在未知攻擊識別階段將x與網絡流量的預測標簽y*,輸入到編碼器網絡QI(z|x,y)中采樣z,然后從解碼器網絡PI(x|y,z)中得到重建后的網絡流量x*,如公式(26)所示:

x*=PI(x|y*,z)

(26)

其中z=E[z|x,y*]=μ2.

利用在訓練階段求得的正常流量的聚類中心rc,計算輸入實例的重建誤差與rc的距離d,當超過預定的閾值e后,即可判定為未知攻擊.

DCVAE-DPC入侵檢測系統的完整檢測過程如算法2所示.

算法2.DCVAE-DPC入侵檢測系統

輸入:網絡流量特征x

輸出:網絡流量的預測標簽y

1.在已知攻擊識別階段,利用先驗網絡PC(z|x)采樣得到網絡流量的隱變量z

2.將z與x結合輸入判別網絡PC(x|z)得到網絡流量的預測標簽y*

3.若網絡流量被判定為正常流量,則進入未知攻擊識別階段,輸入解碼器網絡PI(x|y,z),重建網絡流量得到x*

4.計算得到重建誤差r=x-x*

5.計算重建誤差與聚類中心rc的距離d=rc-r

6.將d與預設閾值e進行對比cmp(d,e)

7.對超過e的網絡流量判定為未知網絡攻擊,結合預測標簽y*得到最終的預測結果y

4 實驗結果

4.1 評價標準

對提出的入侵檢測系統模型進行評估,使用準確率、精確率、回歸率、F1-score作為評估指標:

準確率(Accuracy):正確分類正樣本和負樣本的比率,如公式(27)所示:

(27)

其中P代表正樣本數量,N代表負樣本數量.

精確率(Precision):識別出的樣本中正例占的比率,如公式(28)所示:

(28)

回歸率(Recall):樣本所有真正的正例中,識別正確的正例所占的比率,如公式(29)所示:

(29)

F1-score:精確率和召回率的調和平均值,F1 score越高,說明模型越穩健,如公式(30)所示:

(30)

4.2 實驗數據集設置

NSL-KDD數據集[40]:KDD CUP99數據集中大約78%和75%的網絡數據包在訓練和測試數據集中重復,于是對KDD CUP99數據集中的冗余數據進行了清洗,合理的選擇訓練集和測試集的記錄數量,使得實驗數據無需因為數據量過大而進行隨機選取,保證了不同研究工作的評價結果具有一致性和可比性.NSL-KDD的訓練數據集中包含有大約12萬個樣本,測試數據集包含有大約2萬個樣本,NSL-KDD數據集包含拿了4種主要類型的攻擊分別是Dos、Probe、R2L、U2R,并且數據集中初始特征有41種.

為了實現細粒度攻擊分類,DCVAE-DPC模型選擇使用細粒度標簽,將標簽細化,NSL-KDD數據集中將Dos攻擊細化為Back、Land、Neptune、Pod、Smurf、Teardrop,Probe攻擊細化為IPsweep、Portsweep、Nmap、Satan,R2L攻擊細化為FTP Write、Guess Password、Imap、Multihop、Phf、Spy、Warezclient、Warezmaster,U2R攻擊細化為Rootkit、Buffer Overflow、LoadModule、Perl.為了測試提出的模型的表現,在NSL-KDD數據集中,隨機抽取80%的數據作為訓練數據集,20%的數據作為測試數據集,為了測試DCVAE-DPC模型未知類型攻擊識別的效果,選擇測試數據集作為未知攻擊,未知攻擊不參與模型的訓練階段,只會參與到模型的測試階段.

4.3 實驗參數設置

DCVAE-DPC模型的在細粒度已知分類訓練中,輸入層有122維網絡流量特征和9維類別標簽,先驗網絡、編碼器網絡、判別網絡均采用多層神經網絡結構,隱藏層均為100,60,20個神經元,其中編碼器網絡利用KL散度幫助擬合出先驗網絡,得到具有類別特征的隱變量為3維,不僅可以輸入到判別網絡幫助提高網絡流量識別準確率,也可在未知攻擊識別階段輸入解碼器網絡幫助生成特定類別的網絡流量,判別器網絡接收到網絡流量特征輸入和隱變量共125維,輸出層的結果為經過softmax函數的9維類別標簽.

在未知攻擊識別訓練中,解碼器網絡輸入層為122維網絡流量特征和正常流量類別標簽,隱藏層為五層神經網絡結構,分別有500,1000,800,600,200個神經元,輸出結果為重建后的網絡流量為122維.

模型訓練時把所有訓練數據完整訓練一次為一個輪次(epoch),輪次的大小對模型分類準確率有很大的影響,隨著輪次的增加,當epoch設置為200,batch_size設置為100,學習率設置為0.001時,DCVAE-DPC模型的準確率逐漸升高,并趨于穩定.

4.4 實驗結果分析

在實驗僅有未知攻擊識別階段時,通過DCVAE模型計算正常流量的重建誤差,并利用DPC算法尋找重建誤差的聚類中心點rc,結果如圖3所示,選取圖中γ值和δ值均大的點作為聚類中心,圖中有一個點符合要求,因此可以確定為中心點rc.

圖3 利用DPC算法求出正常流量重建誤差中心點rcFig.3 Using DPC algorithm to find the reconstruction error center rc of normal network traffic

求得測試集樣本與重建誤差中心點rc間的距離,結果如圖4所示,其中淺灰色直方圖代表正常流量重建誤差的分布,濃灰色直方圖代表未知攻擊重建誤差的分布.

圖4 正常流量和未知攻擊重建誤差與rc距離分布Fig.4 Reconstruction error distance distribution of normal network traffic and unknown attacks with rc

由圖4可知,在NSL-KDD數據集中正常流量的重建誤差與中心點rc之間的距離大多集中在0～4之間,而未知攻擊大多集中在4～6之間,所以設定好合適的閾值,將超過閾值的網絡流量打上未知攻擊的標簽,即可識別出未知攻擊.

設定不同閾值e后,模型的分類表現結果如表1所示,其中取閾值為3.9時,模型的表現最好.

表1 不同閾值e下DCVAE-DPC模型分類表現Table 1 Classification performance of DCVAE-DPC model under different threshold e

模型分類結果如圖5所示,其中混淆矩陣中的行表示真實標簽,列表示預測標簽,顏色越深的區域表示預測結果越集中,混淆矩陣對角線上的區域顏色越深代表分類準確率越高.可以看到只經過未知攻擊識別階段時,DCVAE-DPC模型已經將未知攻擊從正常流量中分離開,但是對正常流量的分類準確率較低,只有91%,因此模型可能會導致較高的誤報率,所以需要細粒度分類階段幫助提高模型的分類準確率.

圖5 未知攻擊識別結果混淆矩陣Fig.5 Confusion matrix of unknown attack identification result

在實驗中加入細粒度已知分類階段后,預設Back攻擊和R2L攻擊為未知攻擊,在NSL-KDD數據集上測試階段分類結果的混淆矩陣如圖6和圖7所示,從圖6中可以看出,模型在細粒度已知分類階段實現了很高的分類準確率,對于NSL-KDD數據集,Ipsweep、Namp、Portsweep、Satan攻擊均為Probe類型的攻擊,Neptune、Smurf、Teardrop攻擊均為Dos類型的攻擊,相比于只進行Probe攻擊與Dos攻擊的粗粒度分類,DCVAE-DPC模型在更細分的領域最高能達到100%的準確率.由于模型沒有未知攻擊的先驗知識,只能將未知攻擊分類為正常流量或已知攻擊.從未出現過的未知攻擊在細粒度已知分類階段被誤分類是正常現象.

圖6 細粒度已知分類結果混淆矩陣Fig.6 Confusion matrix of fine-grained known classification result

圖7 細粒度已知分類+未知攻擊識別結果Fig.7 Fine grained known classification and unknown attack identification result

從圖7中可以看出,經過細粒度分類階段后,在未知攻擊識別階段不僅對正常流量的分類達到97%準確率,而且對未知攻擊的識別也達到了較高的準確率.

因此DCVAE-DPC模型有大多數深度學習模型沒有的未知攻擊識別的能力,并可以經過細粒度分類可以給安全人員提供更準確的診斷信息,以有效指導解決安全威脅,可以應對當前復雜的網絡環境.

4.5 比較分析

入侵檢測領域流行的研究方法中基于深度學習的方法占比較高,DCVAE-DPC模型通過學習正常流量的隱空間表示,生成更具偏向性的樣本,未知攻擊在以正常流量建模的自編碼器中生成樣本會產生更大的重建誤差,因此DCVAE-DPC模型通過其他自編碼器模型少有的對重建誤差的再學習,找到正常流量的分布,在未知攻擊識別中取得了更好的效果.

將DCVAE-DPC模型與入侵檢測領域未知攻擊識別的流行方法在NSL-KDD數據集中對比,結果如表2所示,可以發現,所提出的DCVAE-DPC模型與這些流行方法相比,DCVAE-DPC模型各項性能參數都達到了更優的效果,其中模型分類準確率更是達到了97.08%,且具備了大多數深度學習模型都沒有的細粒度分類的能力.

表2 DCVAE-DPC模型與流行模型實驗結果對比Table 2 Comparison of experimental results between DCVAE-DPC model and state-of-art models

所以DCVAE-DPC模型比其他的流行方法在面對復雜網絡環境時具有更強的競爭力.

5 總結

針對當前入侵檢測系統識別未知攻擊能力不夠的問題,且面對當前復雜網絡環境需要及時應對網絡攻擊,結合DCVAE和DPC提出了入侵檢測模型DCVAE-DPC.

該模型利用DCVAE增加正常流量與未知攻擊間的特征區分度,并對網絡流量進行細粒度分類,獲得更精準的攻擊診斷信息,并利用DPC找到正常流量的重建誤差的分布,從而使模型能夠識別未知攻擊.

實驗結果表明,DCVAE-DPC模型具有更高的未知攻擊識別率,同時能夠保證細粒度攻擊分類的高準確率,與流行入侵檢測模型比較,顯著提高了入侵檢測的性能,具有更高的性能表現.但是由于實驗數據集存在數據不平衡,初始特征表達能力不夠強,導致對少數類惡意網絡攻擊檢測率仍有待提高,需進一步研究.