基于生成對抗網絡的異常行為模擬算法研究

2020-01-07 10:43:18趙維

長春理工大學學報(自然科學版) 2019年6期

趙維

（吉林警察學院，長春 130117）

隨著網絡的普及程度越來越高，網絡攻擊和異常行為的數量和破壞力也在顯著增長［1］。思科VNS預測［2］，2020年DDOS攻擊事件數量將為2015年時的3倍。如何在異常網絡流量中檢測出惡意的攻擊，成為網絡安全領域關注的熱點問題。

網絡攻擊發生時，其數據流量特征通常會進行偽裝，直接將網絡數據集提交給算法學習可能引起模式坍塌［3］。生成對抗網絡（Generative Adversarial Network，GAN）最早于2014年由Goodfellow［4］等人提出，來源于博弈論中的零和博弈思想［5］。GAN首次應用于圖像處理領域［6］，并取得了顯著的成效；借助于其學習能力強和應用靈活的特點，在網絡安全領域的應用也日益增加。

針對當前網絡攻擊和異常數據檢測算法中存在的異常行為數據量不平衡的問題，本文通過GAN迭代訓練產生模擬異常行為數據，能夠盡可能的接近原始數據。進一步采用K-means算法對生成數據進行聚類分析，分析模擬樣本的特征和其包含的類別數量。實驗表明，所提出的方法能夠生成高質量的模擬樣本，解決在異常檢測中訓練的異常樣本過少導致的問題，提高異常檢測的效果。

1 生成式對抗網絡

生成式對抗網絡模仿博弈論中的二人零和博弈［7］的模式，由一個生成器和一個判別器構成。生成器在接收真實數據樣本之后，自我學習樣本特征生成新的數據樣本。判別器作為分類器，判斷輸入是真實數據還是生成的樣本數據。和傳統模型相比，GAN擁有如下優點：

（1）線性相關。GAN生成的數據復雜度和維度呈現線性相關。因此當通過GAN生成一個較大的圖像時，可以避免指數級的計算量上升，而是呈現線性增長的過程。

（2）先驗假設少。GAN不對數據進行任何的顯式參數分布假設，對于使用者來說，不需要對學習過程進行過多干預，只需要在模型完成后對學習效果進行評估。

（3）樣本質量高。GAN可以生成高質量的樣本，即使無法獲得概率密度，仍然可以學習后生成樣本。

近年來針對GAN的研究逐漸增多［8］。美國的Mariz在2014年的神經處理國際會議上提出極大極小博弈，即GAN的訓練目標是使生成器G與判別器D達到納什均衡，此時生成模型G產生的數據分布完全擬合真實數據分布。2017年美國麻省理工學院的Léon Bottou等人提出對于生成樣本和真實樣本加噪聲，并在訓練過程中對噪聲進行退火。結果表明此方法解決了訓練器梯度消失的問題。同年中國科學院嘗試使用GAN生成模擬攻擊流量以欺騙防御系統，希望借此能發現新的網絡防御手段［9］。中國自動化研究所王飛躍研究員認為，GAN通過真與假平行而立，將這一對矛盾對立統一，成為生產數據的一種有效手段。GAN網絡的基本框架如圖1所示［10］。

圖1 GAN的基本框架

設變量zxGDz為隨機噪聲，x為輸入的樣本數據，G代表生成模型，D代表判別模型，將D作為一個二分類器，GAN可以表示為式：

其中，logD(x)是判別器的判斷；log(1-D(G(z)))表示生成數據的判斷，通過持續的極大極小值的相互博弈，循環交替不停優化G和D，直到兩個模型到達納什均衡。GAN的最小化目標函數可能會發生梯度彌散，使目標函數很難再去更新生成器，導致GAN的訓練過程不穩定。LSGANs會懲罰遠離決策邊界的樣本，解決上述問題。這些樣本的梯度是梯度下降的決定方向。在LSGANs中交叉熵并不關心距離，而是僅僅關注于是否正確分類，其判別器的目標函數為：

生成器的目標函數為：

在訓練模型的過程之中，abc滿足b-c=1和b-a=2，模型可以緩解訓練時的不穩定并且提高生成器的多樣性。

2 基于GAN的模擬數據生成算法

KDD99數據集［11］是由美國國防部高級規劃署1998年在MIT林肯實驗室實行的入侵檢測評估項目。實驗室建立了一個為期九周的網絡模擬環境，在該環境中收集每一個用戶類型，所有的網絡連接、每種不同類型的網絡流量和攻擊手段。數據集中包含約五百萬條訓練數據的網絡連接記錄，和約兩百萬條測試數據的網絡連接記錄。在訓練數據和測試數據中，不同數據類型存在著不同的概率分布，其中測試數據中包含有一些并未存在于訓練數據集中的數據，可以保證該數據集更具有現實性。NSL-KDD作為KDD99的改進，刪除了原來的訓練集和測試集中冗余的記錄，使得數據集對于學習技術的評估更有效，它是入侵檢測領域的標準數據集之一。本文采用NSL-KDD數據集訓練生成對抗網絡模型，訓練集共包含125 972條數據。

2.1 數據樣本特征分析

數據集中一個完整的網絡連接，是指某一時間從開始到結束的TCP數據包序列。在一時間段內，數據通過網絡協議之完成源IP到目的IP的傳輸。網絡連接分為正常和異常兩種類型。其中異常數據類型如表1所示。

表1 異常數據類型

典型的數據集中樣本由41個特征表示，如下所示：

0，tcp，ftp_data，SF，491，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，2，2，0.00，0.00，0.00，0.00，1.00，0.00，0.00，150，25，0.17，0.03，0.17，0.00，0.00，0.00，0.05，0.00，normal

0，udp，other，SF，146，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，13，1，0.00，0.00，0.00，0.00，0.08，0.15，0.00，255，1，0.00，0.60，0.88，0.00，0.00，0.00，0.00，0.00，normal

0，tcp，private，S0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，123，6，1.00，1.00，0.00，0.00，0.05，0.07，0.00，255，26，0.10，0.05，0.00，0.00，1.00，1.00，0.00，0.00，neptune

其順序特征的含義如表2所示。訓練集中不同攻擊類型的比例如表3所示。

表2 數據的41種特征類型

表3 訓練集中不同攻擊類型的比例

2.2 數據集預處理

數據集的預處理主要包含如下步驟：

（1）標識統一化。將Normal、Dos、Probe、U2L、R2L分別表示為1、2、3、4、5，以便于在GAN網絡中進行處理。

（2）數值化。將字符型特征轉化為數值型特征，具體而言，分別將3種協議類型、70種網絡服務類型、11種網絡連接狀態和所有攻擊類型轉化成數字標識。

（3）標準化。在分析過程中，為了降低原始數據值首先對數值化后的數據進行標準化處理，設X'ij為Xij標準化處理后的值，AVGj為平均值，STADj為平均絕對偏差，處理過程如下：

（4）歸一化。將數值進行歸一化處理至［0，1］區間，得到適用于GAN的數據集，從而適于在其中進行訓練。

預處理后的數據如圖2所示。

圖2 預處理數據集結果

2.3 數據樣本生成方法

在上述五種攻擊類型中，U2L和R2L兩種類型所占比例都極小。本文利用GAN對這兩種類型數據進行生成增加其所占的比例。將這兩種數據類型的潛在特征分次訓練GAN，生成足量樣本數據之后，再混入原始數據中，解決該類型樣本較少的情況。

選定GAN的Batch_Size，即“尺寸”參數，Batch_Size有兩種選擇方式：一是選擇全數據集，可以更好的進行訓練代表樣本特征；二是選擇最小數量樣本訓練，即每次只訓練一個樣本，可以使函數達到最快收斂。結合這兩種方法，由上面預處理過程可知，數據類型最少的為U2R僅有52份，從中隨機選取50份作為整塊數據輸入至GAN的模型之中。根據初始數據設置不平衡比例為：

其中，N-為U2L樣本數量；N+設置為NORMAL樣本數量。在重復利用GAN生成樣本過程中，num會隨之不斷增大，直到為一。此時停止樣本生成，樣本比例達到平衡。過程中對于不同類型樣本進行迭代次數也不一樣，需要GAN的迭代生成次數為：

其中，count為不同類型數據需要的迭代次數；N設置為需要生成的數據類型的初始樣本數量；x為GAN設置的Batch_Size。在將U2L樣本X+導入至GAN模型之后，目標函數變化情況為：

對于鑒別器來說，其數值根據樣本的整體特征進行改變。當生成器恢復數據分布的時候，那么無論如何判別器都會表示為0.5。

在訓練GAN的過程中，為了進一步加快GAN的收斂速度，采用RMSprop算法優化損失函數，產生數據的步驟和目標函數迭代變化如圖3所示。

圖3 D與G的目標函數迭代變化情況

在圖3中可以看出，在對抗網絡模型剛開始學習的時候，生成器和判別器的目標函數波動很大，此時對于特征的分析不夠全面，損失函數逐步升至最大值。隨著兩者的持續博弈，G對于干擾特征逐一舍棄，提取正確的特征值生成數據，目標函數因此趨于穩定，損失函數逐漸減至最小值。經過三千次左右的訓練之后，目標函數和損失函數基本維持不變。最終經過五千次訓練之后，認為此時模型訓練完畢。

所生成的模擬數據，如圖4所示。

圖4 生成模擬數據截圖

通過對比樣本特征，此時生成器已經訓練完畢，可以利用生成器對于U2L數據類型再次進行生成運算，直到得到與NORMAL數量相同的數據量，此時運算結果數據特征可認為等同于真實數據。對于其他異常數據類型都進行和U2L的同樣操作，最終獲得所有數據類型平衡的生成樣本。將生成數據與原始數據混合，通過統計標簽得出混合之后數據集中每種類型所占比例。

3 數據質量評估

3.1 基于統計方法評估

通過GAN生成數據之后，將生成的模擬樣本與原始真實數據集樣本混合，選擇分類器對二者的混合樣本進行分類。如果分類器分辨不出兩者，表示生成的模擬數據質量較好，反之，分類器的分類效果越好，則說明生成的數據質量不好。

收集所有生成數據，將數據集按照5大類型分類統計，并計算所有生成數據在生成樣本中的比例。其中除去正常的NORMAL類型之外，PROBE中包含 ipseep，satan，nmap等類型，DOS 中包含apache2，back，nepture等類型，U2R 中包含 buffer_overflow，roorkit等類型，R2L中包含ftp_write，anmpgetattack等類型。

K-means聚類算法［12］將樣本劃分成具有不同特征的子集，隨機選定K個聚類核心，利用歐式距離計算每個數據到各個聚類中心的距離。然后將數據聚集到與其特征最相近的聚類核心附近，在所有數據子集都分配結束后再重新計算每個子集的質心，不斷重復這一過程直到算法趨向于某一數值時停止。

將生成數據和原始數據混合后的聚類中心特征值如表4所示，數據特征由聚類中心特征值表示。在通過K-means聚類算法分析后，在K=5時聚類效果最好，能夠有效解決特定攻擊類型樣本數據不足問題，同時生成的樣本數據和原本的數據特征相似，能夠達到較高的數據質量。

表4 聚類不同類型特征值

3.2 基于深度學習模型評估

將GAN生成的異常數據混合到初始樣本中，使原本不平衡的數據比例達到平衡，再導入分類器訓練。由于數據集為一維數組，分類器使用的是三維數組，所以將數據從一維數組轉換為三維數組后進行訓練。

深度神經網絡增加網絡的深度和拓寬網絡的寬度可以提高其性能和效率。但也會出現過擬合，相對而言，增加網絡的大小會導致網絡計算量的劇增。GoogleNet在卷積神經網絡上采用了一種叫做Inception模塊的網絡結構，利用卷積層對特征降維，限制網絡參數的大小，并在網絡模型中添加一個歸一化層（BN），用以消除如果前一次發生變化而導致接下來層數受到的影響。使用BN層可以有效的防止過擬合，有效的提高模型的泛化能力。分類器將一個相對較大的卷積拆分成幾個更小的卷積，將n*n的卷積分別拆成n*1卷積和1*n卷積。分類器在計算的時候既可以節約大量參數，加速運算并減去過擬合，提高運算效率，又可以增加了一層非線性擴展模型表達能力。這樣非對稱的卷積結構拆分，結果比對稱地拆分為幾個相同的小卷積核效果更明顯，可以處理更多、更豐富的空間特征、增加特征多樣性。

在樣本導入Googlenet之前，將樣本分為訓練集和測試集。訓練過程應該為：

（1）設定訓練樣本數量，訓練速率，樣本最小誤差。

（2）初始化卷積層和池化層的權值向量，隨機將一組非零向量值賦值給該向量

（3）輸入訓練樣本

（4）樣本進行前向輸出，得到輸入輸出數據，記錄輸出層的輸出信號。

（5）利用輸出信號的和期望值計算誤差，與最小誤差比較后，如果誤差較小那么直接轉入第七步，否則進入第6步。

（6）判斷訓練次數是否達到最大迭代次數，如果是進入下一步，否則重新更新權值向量

（7）判斷是否完成所有樣本的訓練，如果是結束訓練，如果未結束繼續訓練。

4 結論

采用機器學習方法進行網絡攻擊和異常行為檢測，對訓練數據的樣本量依賴性高，不同攻擊類型數據的不平衡，導致了對特定類型攻擊的檢測效果差。本文利用生成式對抗網絡，生成特定攻擊類型的樣本數據，解決了NSL-KDD99數據集中特定攻擊類型樣本數據過少導致檢測模型無法檢測出這類攻擊的問題。進一步改進了生成對抗網絡，解決了數據生成器不穩定的問題。通過K-means算法驗證了數據生成模型的有效性，生成的數據可以用于異常檢測模型的訓練。