基于隨機森林和深度自編碼高斯混合模型的無監(jiān)督入侵檢測方法

2020-09-10 06:50:48胡寧方蘭婷秦中元

網(wǎng)絡空間安全 2020年8期

胡寧，方蘭婷,3，秦中元

〔1.東南大學網(wǎng)絡空間安全學院，江蘇南京 211189；2.網(wǎng)絡空間國際治理研究基地（東南大學），江蘇南京211189；3.網(wǎng)絡通信與安全紫金山實驗室，江蘇南京 211111〕

1 引言

近年來，網(wǎng)絡安全問題更加突出，網(wǎng)絡上新的攻擊手段層出不窮，這些攻擊手段比先前的攻擊手段更加隱蔽、更加智能、更難以發(fā)現(xiàn)。入侵檢測被視為信息安全的“第一道防線”因機器學習技術迅速發(fā)展面臨更大的威脅。許多研究人員使用機器學習算法進行入侵檢測，獲得了較好的結果。

有監(jiān)督學習方式的網(wǎng)絡異常檢測，可以很好的識別攻擊行為。然而，其具有兩個弊端。第一，有監(jiān)督學習過于依賴標簽，需要在大量的有標記數(shù)據(jù)的基礎上進行，即需要大量的人工操作和資金投入。第二，有監(jiān)督學習只能學習已有的攻擊類型，對于新的攻擊手段，有監(jiān)督方式無法檢測[1]。入侵檢測研究需要大量數(shù)據(jù)，隨著時間推進，數(shù)據(jù)量增長速度快，無法及時給新增數(shù)據(jù)打上正確標簽。有監(jiān)督學習依賴標簽，而無監(jiān)督方法可以憑借沒有標簽的數(shù)據(jù)學習正常數(shù)據(jù)特征，并根據(jù)數(shù)據(jù)特性獲得劃分異常的方法。因此，無監(jiān)督方法具有很好的應用前景。

針對上述問題，Bo Zong[2]提出深度自編碼高斯混合模型DAGMM進行無監(jiān)督網(wǎng)絡異常檢測。然而，該方法訓練集為異常數(shù)據(jù)，真實網(wǎng)絡環(huán)境理應通過訓練正常數(shù)據(jù)學習數(shù)據(jù)特征，異常數(shù)據(jù)計算后將偏離正常數(shù)據(jù)。一方面獲取用于異常檢測的閾值；另一方面，模型訓練過程只需要正常數(shù)據(jù)，無需學習已有攻擊，對新的攻擊手段具有一定檢測能力。此外，真實網(wǎng)絡環(huán)境中數(shù)據(jù)維度高、數(shù)據(jù)量大，本文提出了一種基于隨機森林和深度自編碼高斯混合模型的無監(jiān)督入侵檢測方法RF-DAGMM。首先，通過隨機森林算法進行特征選擇，選擇最優(yōu)特征組合。然后將隨機森林特征選擇方法與深度自編碼高斯混合模型結合，進行網(wǎng)絡異常檢測。

本文具體貢獻有三點：

（1）將異常檢測方法應用于網(wǎng)絡入侵檢測，訓練集只需要正常數(shù)據(jù)，解決了人工標記困難、無法檢測新型攻擊的問題；

（2）針對數(shù)據(jù)維數(shù)過高、無關特征對檢測結果產(chǎn)生干擾的問題，提出了一種基于隨機森林的特征重要度特征選擇方法；

（3）將隨機森林特征選擇方法與深度自編碼高斯混合模型結合RF-DAGMM，將對結果重要的特征輸入DAGMM模型，用于網(wǎng)絡異常檢測。提出的RF-DAGMM模型可以縮短訓練時長，并且在精確率、召回率、F1值多個指標獲得優(yōu)于DAGMM的結果。

2 相關工作

網(wǎng)絡攻擊可以引發(fā)網(wǎng)絡流量特征的顯著變化，由此，Moustafa[3]等和Khammassi[4]等提出了基于統(tǒng)計或行為特征的流量異常檢測方法，但存在兩個問題：一是需要人工設計準確反映流量特性的特征集；二是攻擊者利用對抗機器學習思想針對性改變攻擊流量特征來消除數(shù)據(jù)分組的時空分布特性，就可以逃避防火墻和安全軟件的檢測。

有監(jiān)督學習只能針對常見、危害性較大的攻擊方法學習，無法學到網(wǎng)絡中所有攻擊手段。而無監(jiān)督學習可以從無標簽數(shù)據(jù)中總結規(guī)律。現(xiàn)有的無監(jiān)督異常檢測方法可以分為三種：基于重構的方法、One-Class分類、聚類分析?；谥貥嫷姆椒ㄖ饕谡?shù)據(jù)經(jīng)壓縮重建后的重構誤差不同，但是大量異常樣本可能以正常水平潛伏；One-Class方法在數(shù)據(jù)維數(shù)增加時會受到次優(yōu)性能的困擾；聚類分析很難直接用于多維數(shù)據(jù)。

本文將DAGMM模型應用于網(wǎng)絡入侵檢測，使用正常數(shù)據(jù)作為訓練集，并在該方法基礎上針對數(shù)據(jù)維數(shù)過高、無關特征對結果產(chǎn)生干擾問題進行改進，提出了一種基于隨機森林和深度自編碼高斯混合模型的無監(jiān)督入侵檢測方法RFDAGMM，該方法注重對結果重要的特征，消除無關特征對檢測結果的影響。基于多個數(shù)據(jù)集的實驗結果表明，該方法檢測結果優(yōu)于DAGMM，同時減少訓練時長和計算成本。

3 RF-DAGMM方法

RF-DAGMM模型由三部分組成：特征選擇網(wǎng)絡、深度自編碼網(wǎng)絡和高斯混合模型。該模型原理如圖1，特征選擇網(wǎng)絡選擇對結果重要的最優(yōu)特征組合，進行冗余特征的刪除；深度自編碼網(wǎng)絡將數(shù)據(jù)的重構誤差及壓縮編碼作為數(shù)據(jù)的低維表示；高斯混合模型通過訓練輸出樣本能量用于異常判別。

圖1 RF-DAGMM模型圖

3.1 特征選擇網(wǎng)絡

分類高維數(shù)據(jù)時特征空間大，數(shù)據(jù)容易過擬合，特征選擇可以減少數(shù)據(jù)維度，降低分類器復雜度，使之更關注提供重要信息的特征。特征選擇網(wǎng)絡通過隨機森林(Random Forest,RF)算法選擇對結果重要的最優(yōu)特征組合。一方面消除無關特征對結果的干擾，另一方面節(jié)省模型訓練時長和計算成本。

因此，本文提出一種特征選擇網(wǎng)絡，以特征重要度為標準，選擇對結果重要的最優(yōu)特征組合。由于隨機森林算法具有隨機性，進行S次特征選擇，每次選擇M個特征，并取S次特征選擇的交集作為最終集合。

3.2 深度自編碼網(wǎng)絡

深度自編碼網(wǎng)絡完成數(shù)據(jù)的降維操作，得到高維數(shù)據(jù)的低維表示，其輸出包含兩部分：通過編碼器學習到的數(shù)據(jù)的壓縮表示、深度自編碼器的重構誤差。

3.3 高斯混合模型

訓練過程：給定N個樣本,該模型損失函數(shù)為：

判別方法：異常檢測的判別閾值T根據(jù)數(shù)據(jù)的樣本能量及異常數(shù)據(jù)比例c決定。具體而言，對N條數(shù)據(jù)通過RF-DAGMM模型求取樣本能量，并對所有數(shù)據(jù)的樣本能量值升序排列，閾值T的取值為所有樣本能量中第（1-c）N處的樣本能量值。在異常檢測中，將樣本能量大于閾值T的樣本判斷為異常，反之為正常。

4 實驗分析

本節(jié)基于KDD99數(shù)據(jù)集、UNSW-NB15數(shù)據(jù)集、CICIDS2017數(shù)據(jù)集進行實驗，并介紹預處理過程及實驗結果的對比與分析。

4.1 數(shù)據(jù)預處理

（1）刪除無關信息

由于原始數(shù)據(jù)集包含網(wǎng)絡中源主機和目標主機的IP地址、端口號、時間戳，刪除這些信息以提供無偏檢測非常重要，使用這些信息可能會導致對信息的過度訓練[6]。

（2）數(shù)據(jù)集重組

在網(wǎng)絡安全中，旨在通過訓練正常數(shù)據(jù)，實現(xiàn)異常數(shù)據(jù)的檢測，即希望異常數(shù)據(jù)占比較小，KDD99數(shù)據(jù)集中攻擊數(shù)據(jù)占比較高，不符合無監(jiān)督入侵檢測的要求，因此對其進行數(shù)據(jù)重組，數(shù)據(jù)信息如表1所示。

表1 KDD99重組數(shù)據(jù)

（3）符號特征one-hot編碼

由于深度自動編碼器的輸入應為數(shù)字，而數(shù)據(jù)集中個別特征為符號特征，因此需要對符號特征進行編碼處理。同時，因特征取值之間為并列關系，并無前后關聯(lián)關系，因此對符號特征進行one-hot編碼。由于數(shù)據(jù)進行重組后，攻擊數(shù)據(jù)減少，one-hot編碼過程中可能出現(xiàn)所有數(shù)據(jù)在某個特征下的取值均相同，因此刪除冗余特征。

對于KDD99數(shù)據(jù)集，符號特征為service、flag、protocol_type，one-hot編碼后總特征維數(shù)為119（包含標簽）。對于UNSW-NB15數(shù)據(jù)集，符號特征為proto、service、state，進行onehot編碼后總特征數(shù)為197（包含標簽）。對于CICIDS2017數(shù)據(jù)集，去除無關信息后只有數(shù)字特征，因此不需要one-hot編碼。

（4）數(shù)字特征歸一化處理

為了消除指標之間的量綱影響，解決數(shù)據(jù)指標之間的可比性，在數(shù)據(jù)預處理階段對數(shù)據(jù)進行標準化處理，處理后各個特征指標將處于同一數(shù)量級。因此，標準化處理后的數(shù)據(jù)比較適合綜合對比評價。其中，最典型的標準化處理方式就是數(shù)據(jù)的歸一化處理。對數(shù)據(jù)中剩余特征向量進行歸一化處理，采用最大最小歸一化方法，其公式為：

4.2 RF-DAGMM實驗對比

本節(jié)分別基于KDD99、UNSW-NB15、CICIDS2017數(shù)據(jù)集進行實驗，三個數(shù)據(jù)集的實驗中深度自編碼網(wǎng)絡中的編碼器結構為每層節(jié)點數(shù)分別為90-45-20-10-1、102-50-25-10-1、46-23-10-1的全連接層，解碼器結構與編碼器對稱，網(wǎng)絡中的激活函數(shù)為tanh。

基于上述實驗分別進行20次測試，并取平均值作為結果，同時選擇DAE、DSEBM-r、DSEBM-e[7]方法作為對比實驗。DAE為深度自動編碼器，使用重構誤差作為異常檢測標準；DSEBM-e是基于深度結構化能量模型，利用樣本能量作為檢測異常的標準；DSEBM-r與DSEBM-e共享同樣的技術，以重構誤差作為異常檢測，具體實驗結果如表2所示（最佳結果已加粗）。

表2中結果表明，在基于KDD99、UNSWNB15、CICIDS2017三個數(shù)據(jù)集的實驗中，RFDAGMM在準確率、精確率、召回率、F1值多個指標上，均取得優(yōu)于DAGMM的結果，并且RFDAGMM訓練時長更短。

在與其他模型的實驗結果對比中，基于KDD99數(shù)據(jù)集的實驗中，RF-DAGMM模型在召回率、F1值上取得最優(yōu)結果，準確率為次優(yōu)結果?；赨NSW-NB15數(shù)據(jù)集的實驗，RFDAGMM在準確率、召回率、F1值上均取得最優(yōu)結果，精確率為次優(yōu)結果?；贑ICIDS2017數(shù)據(jù)集的實驗中，RF-DAGMM在多個指標上均取得最優(yōu)結果。綜上，考慮多個指標，RF-DAGMM為上述模型中的最優(yōu)方案。

5 結束語

本文提出一種基于隨機森林和深度自編碼高斯混合模型的無監(jiān)督入侵檢測方法RF-DAGMM。該模型主要有三部分組成：特征選擇網(wǎng)絡、深度自編碼網(wǎng)絡、高斯混合模型。特征選擇網(wǎng)絡利用隨機森林方法實現(xiàn)維數(shù)約簡，更加注重對實驗結果較為重要的特征，消除無關特征對檢測結果的干擾，對實驗結果的提升、訓練時長的減少起到了關鍵性作用?；贙DD99、UNSWNB15、CICIDS2017數(shù)據(jù)集的實驗結果表明，RFDAGMM模型多個指標上的結果均優(yōu)于DAGMM模型，同時節(jié)省了訓練時長。與其他方法相比，RF-DAGMM亦為其中最優(yōu)方案，為多維數(shù)據(jù)無監(jiān)督網(wǎng)絡入侵檢測提供了新的研究方向。