李麗娟,李曼,畢紅軍,周華春
基于混合深度學習的多類型低速率DDoS攻擊檢測方法
李麗娟,李曼,畢紅軍,周華春
(北京交通大學,北京 100044)
低速率分布式拒絕服務攻擊針對網絡協議自適應機制中的漏洞實施攻擊,對網絡服務質量造成了巨大威脅,具有隱蔽性強、攻擊速率低和周期性的特點。現有檢測方法存在檢測類型單一和識別精度低的問題,因此提出了一種基于混合深度學習的多類型低速率DDoS攻擊檢測方法。模擬不同類型的低速率DDoS攻擊和5G環境下不同場景的正常流量,在網絡入口處收集流量并提取其流特征信息,得到多類型低速率DDoS攻擊數據集;從統計閾值和特征工程的角度,分別分析了不同類型低速率DDoS攻擊的特征,得到了40維的低速率DDoS攻擊有效特征集;基于該有效特征集采用CNN-RF混合深度學習算法進行離線訓練,并對比該算法與LSTM-LightGBM和LSTM-RF算法的性能;在網關處部署CNN-RF檢測模型,實現了多類型低速率DDoS攻擊的在線檢測,并使用新定義的錯誤攔截率和惡意流量檢測率指標進行了性能評估。結果顯示,在120 s的時間窗口下,所提方法能夠在線檢測出4種類型的低速率DDoS攻擊,包括Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊,錯誤攔截率達到11.03%,惡意流量檢測率達到96.22%。結果表明,所提方法能夠顯著降低網絡入口處的低速率DDoS攻擊流量強度,并在實際環境中部署和應用。
多類型;低速率DDoS攻擊;混合深度學習;特征分析;攻擊檢測
分布式拒絕服務(DDoS,distributed denial of service)攻擊是一種大范圍分布式且具有極強危害性的網絡攻擊方式,能夠對服務的可用性產生嚴重影響,逐漸成為互聯網面臨的最大安全威脅之一。隨著攻擊技術的不斷演變和更新,衍生出一種新的攻擊變種,即低速率DDoS攻擊。該攻擊利用網絡協議自適應機制中存在的漏洞,發送較低速率的攻擊數據包,達到降低受害端服務質量的目的,具有隱蔽性強和攻擊速率低的特征。網絡環境中存在著多種協議的低速率DDoS攻擊,同時,存在著周期性和非周期性的攻擊模式[1]。因此,如何準確地檢測出多種類型的低速率DDoS攻擊流量是亟待解決的問題。
本文主要針對5G環境下的網絡提出了一種基于混合深度學習的多類型低速率DDoS攻擊檢測方法。首先,模擬不同類型低速率攻擊和正常通信行為得到了實驗數據集;之后,分析了不同類型低速率DDoS攻擊的特征信息,根據該特征信息進行特征選擇;然后,結合混合深度學習算法實現檢測模型的離線訓練和優化;最后,將檢測模型部署至網絡入口處,實現多類型低速率DDoS攻擊的在線檢測。
本文主要貢獻有以下幾點。
1)模擬了多種類型低速率DDoS攻擊和5G環境下不同場景的正常通信,獲取指定時間段內網絡流量的特征信息,得到已進行標簽標記的低速率DDoS攻擊數據集。
2)提出了多類型低速率DDoS攻擊特征集,從統計閾值和特征工程的角度,分析不同類型低速率DDoS攻擊和正常流量的特征信息,得到低速率DDoS攻擊的40種有效特征。
3)提出了多類型低速率DDoS攻擊檢測方法。基于低速率DDoS攻擊特征集實現混合深度學習模型的離線訓練、在線部署及檢測。檢測結果顯示,通過選擇最優時間窗口,本文提出的方法能夠有效地檢測Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊共4種類型的低速率DDoS攻擊。
一直以來,對于低速率DDoS攻擊的研究受到國內外學者的廣泛關注。21世紀初,Kuzmanovic[2]提出了Shrew攻擊的定義,采集了低速率DDoS攻擊的相關數據并進行了相關分析和研究。對于低速率DDoS攻擊檢測防御的研究主要包括以下兩類方法。
一類是基于統計分析的檢測方法。Wu等[3]提出了基于Pearson相關性的低速率DoS攻擊檢測方法,使用網絡流量的Hilbert譜的Pearson相關系數表征網絡流量信息,將該信息與閾值進行比較實現檢測針對TCP的低速率攻擊。Wu等[4]從序列匹配的角度分析受害端低速率DDoS攻擊脈沖之間的序列相似性,使用Smith-Waterman算法并設計雙閾值規則,實現對基于TCP的低速率攻擊的檢測。Kaur等[5]提出基于網絡自相似的方法,分析低速率攻擊對流量自相似特性的影響,使用H-指數結合閾值識別攻擊和合法流量。以上幾種檢測低速率攻擊的方法,均僅對基于TCP的低速率攻擊實施檢測,且依賴于閾值的設定,極易受到網絡環境的隨機性影響,無法達到優異的檢測效果。
另一類是基于機器學習的檢測方法,該方法通過提取流量特征并結合機器學習算法實現檢測低速率DDoS攻擊。Zhang等[6]提出了基于主成分分析和支持向量機的方法,用于檢測基于TCP的低速率攻擊,主成分分析算法過濾環境中的噪聲,實現有效采樣網絡流量中的特征。Liu等[7]提出了邊緣環境下針對TCP的低速率DDoS攻擊檢測方法,利用局部敏感特征提取和深度卷積神經網絡自動學習原始數據的最佳特征分布,并采用深度強化學習Q網絡作為決策者,提高攻擊檢測的決策精準度。Wu等[8]提出基于分解機的低速率DDoS攻擊檢測方法,引入特征組合機制,建立特征樣本之間的相關性,實現對基于HTTP低速率攻擊的檢測。文獻[9]提出使用機器學習算法檢測SDN環境下的低速率DDoS攻擊,包括J48、隨機樹、REP樹、隨機森林、多層感知器和支持向量機共6種模型,檢測基于HTTP的低速率DDoS攻擊,但該方法的誤報率較高。
混合深度學習算法能夠充分利用機器學習和深度學習算法的優點,Malik等[10]提出了基于長短期記憶(LSTM,long short-term memory)網絡和卷積神經網絡(CNN,convolutional neural network)的混合深度學習框架,用于檢測CICIDS2017數據集中的Bot、Post Scan和XSS攻擊,經驗證該檢測系統具有優異的檢測能力。Garg等[11]提出了基于深度學習的混合異常檢測系統,將受限玻爾茲曼機和支持向量機算法相結合,減小數據的特征維度,但實驗使用的數據集是KDD99,未對DoS攻擊進行細粒度分類檢測。Guo等[12]提出了基于長短期記憶網絡和LightGBM的混合時間序列預測模型,將其用于股票預測,具有優異的預測性能。Hu等[13]提出基于長短期記憶網絡和隨機森林(RF,random forest)的混合深度學習模型,與單一的機器學習方法相比,其具有更加優異的預測效果。
上述低速率DDoS攻擊檢測方法僅針對單類型的低速率DDoS攻擊實施檢測,存在檢測類型單一和檢測精度低的問題。因此,本文針對以上問題,提出了基于CNN-RF混合深度學習的低速率DDoS攻擊檢測方法,該方法能夠學習不同類型攻擊流量的特征,提高多類型低速率DDoS攻擊在線檢測的準確率。
本文將低速率DDoS攻擊分為兩類:一類是基于HTTP的低速率DDoS攻擊;另一類是基于TCP的低速率DDoS攻擊[1]。
基于HTTP的低速率DDoS攻擊包括Slow Headers攻擊、Slow Body攻擊和Slow Read攻擊[14]。該類攻擊利用現有HTTPKeep-Alive機制的漏洞,長時間保持連接并持續占用服務器資源,導致Web服務器產生拒絕服務。其中,Slow Headers攻擊實施者發送以字符‘ ’為結尾的不完整HTTP請求,導致服務器認為請求未發送完畢并繼續等待,最終連接數達到服務器上限,無法處理新的請求而產生拒絕服務攻擊。Slow Body攻擊實施者向服務器發送內容長度值較大的POST請求,但服務器每次只發送含少量字節數的數據包,請求數目足夠多時耗盡服務器資源。Slow Read攻擊實施者向服務器發送讀取大數據文件的合法請求,但將TCP滑動窗口設置為較小值,服務器與攻擊者之間需長時間建立通信連接,當連接數目足夠多時將無法提供服務。
基于TCP的低速率DDoS攻擊有許多種,本文主要分析Shrew攻擊,該攻擊利用TCP超時重傳機制的漏洞[2],周期性地發送高速突發脈沖數據包,降低受害端的服務質量和性能。本文主要通過攻擊工具和Python腳本模擬Slow Headers攻擊、Slow Boby攻擊、Slow Read攻擊、Shrew攻擊4種類型的低速率DDoS攻擊。
低速率DDoS攻擊的特征分析主要基于原始低速率DDoS攻擊的特征信息。CICFlowMeter流特征提取工具能夠自動按照時間窗口提取雙向流的詳細參數,雙向流表示包括正向和反向數據流的特征。除標簽值外,該工具共生成83種特征信息,包括流ID、五元組信息、流級特征和包級特征。流ID由五元組{源IP地址,目的IP地址,源端口,目的端口,協議}表示,用于唯一標記流。流級特征包括流處于活躍時間的統計特征、流持續時間和每秒的流字節數等。包級特征包括每秒的前/反向數據包數目、數據包長度的統計特征、SYN/FIN/RST標志位計數等。
本節首先介紹檢測框架組成,然后介紹數據集生成模塊的原理和實現,最后詳細介紹混合深度學習模型的離線訓練模塊和在線檢測模塊的具體實現和關鍵技術。
檢測框架主要由數據集生成模塊、特征分析及選擇模塊、離線訓練模塊和在線檢測模塊組成。低速率DDoS攻擊檢測框架如圖1所示,該框架分為數據處理部分和混合深度學習部分。
數據處理部分負責對獲取到的網絡流量進行初步處理,分為數據集生成模塊和特征分析及選擇模塊。數據集生成模塊用于獲取指定時間段內的網絡流量,提取流特征信息并進行數據清洗,得到包含4種類型低速率DDoS攻擊和正常流量的低速率DDoS攻擊數據集。特征分析及選擇模塊從統計閾值和特征工程的角度分別分析不同類型低速率DDoS攻擊的特征信息,總結得到多類型低速率DDoS攻擊的有效特征。

圖1 低速率DDoS攻擊檢測框架
混合深度學習部分負責檢測不同類型的低速率DDoS攻擊,分為離線訓練模塊和在線檢測模塊。離線訓練模塊基于有效特征對數據集進行特征選擇,采用混合深度學習算法進行訓練和測試,根據分類結果進行性能評估及相關參數優化,選擇最優的攻擊檢測模型。在線檢測模塊將已訓練好的混合深度學習檢測模型部署至網絡入口處,通過實時抓取流量實現對多類型低速率DDoS攻擊的在線檢測,模型的輸出信息用于指示待檢測流量的低速率DDoS攻擊具體類型。
數據集生成模塊用于獲取一定時間段內的網絡流量,通過流特征提取工具CICFlowMeter提取流特征信息,得到低速率DDoS攻擊數據集。該數據集包含多類型低速率DDoS攻擊和5G場景下的正常通信流量,能夠反映真實環境下的流量規律。
文獻[15]根據第三代合作計劃(3GPP)[16]和電氣和電子工程師協會(IEEE)[17]對不同5G應用場景下設備的真實流量規律,建模并生成了海量正常通信模擬請求。該規律通過真實場景下收集的流量數據得到,其結果包含各種環境因素的影響,能夠反映真實場景下的請求情況。本文對該方法加以改進,生成了正常通信流量,并結合利用攻擊工具和腳本所生成的4種低速率DDoS攻擊流量,得到一個新的低速率DDoS攻擊數據集。
本文通過攻擊工具發送流量實現攻擊,基于網絡環境安全問題考慮,低速率網絡流量的捕獲基于VMware vSphere虛擬化實驗平臺實現,實驗環境基本接近真實環境,反映實際環境下的流量統計情況。之后,部署安裝流量采集工具Tcpdump抓取網絡中的數據包,數據集采集點在網絡入口的接入網關處,可完整捕獲網絡中的通信流量。最后,使用CICFlowMeter提取網絡流量的特征信息。同時,根據表1中的攻擊計劃對提取出的特征信息進行標簽標記,將標記的數據集用于檢測模型的訓練和驗證。
本文研究的Slow Headers攻擊、Slow Body攻擊和Slow Read攻擊3種類型的低速率DDoS攻擊方式通過修改SlowHttpTest慢速Http攻擊工具的參數發送攻擊流量[1],Shrew攻擊則通過編寫Python腳本實現發送攻擊流量。正常通信請求則基于5G環境下不同場景的統計規律,使用Python腳本模擬發送海量連接正常請求流量。
從圖3可知:八五○農場地下水從1997—2006年地下水位下降1.470 m,平均年下降0.134 m。隨著水田面積的增加,單井下降的速率沒有明顯變化。
基于以上實現方式,本文在低速率DDoS攻擊和正常通信行為下收集流量并自動提取流特征信息。捕獲期從2021年5月19日的08:00開始,至5月24日的17:00結束。在此期間,發起不同類型的攻擊,包括低速率DDoS攻擊、網絡層DDoS攻擊、應用層DDoS攻擊和分布式反射性放大攻擊等,其中,低速率DDoS發起攻擊計劃如表1所示。

表1 低速率DDoS攻擊計劃
基于上述攻擊計劃獲取的網絡流量pcap文件,使用流特征提取工具CICFlowMeter提取流量的特征信息,得到多類型低速率DDoS攻擊數據集。數據集中各流量類型數據樣本數及與正常流量樣本數的比例情況如表2所示。可見,正常流量的數據樣本數遠大于每種低速率DDoS攻擊的數據樣本數,體現了低速率DDoS攻擊速率低的特性。

表2 各流量類型數據樣本數及比例
為實現對低速率DDoS攻擊的有效檢測,基于原始網絡流量提取的特征信息,本文從統計閾值和特征工程的角度,分別對4種類型的低速率DDoS攻擊進行特征分析和選擇,利用攻擊特征描述不同的攻擊特性,降低低速率DDoS攻擊數據集的特征維度,減小檢測系統的時間復雜度,提高檢測模型的泛化能力。
在統計閾值方面,分別查看低速率DDoS攻擊流量和正常流量的各個特征值分布直方圖,選取直方圖分布存在明顯差異的特征;分別從攻擊原理、攻擊源碼、特征值生成源碼和攻擊時序圖角度,結合發起攻擊時Wireshark等工具的抓包情況,分析特征閾值分布及產生該分布的原因,總結各個特征的閾值情況及閾值分布原理。
在特征工程方面,本文選擇使用斯皮爾曼相關系數法、遞歸特征消除法、XGBoost、基于Gini系數的隨機森林和基于信息熵的隨機森林共5種方法[18],分別對每種類型的低速率DDoS攻擊進行特征選擇,依據特征重要性排序選取特征。最終選擇至少3種方法含有的特征,作為每種類型低速率DDoS攻擊特征分析的結論。
根據上述特征選擇和分析步驟,對于4種類型的低速率DDoS攻擊,分別確定可表征每種類型低速率DDoS攻擊特性的特征信息,匯總得到多類型低速率DDoS攻擊的40種有效特征。低速率DDoS攻擊的有效特征如圖2所示。例如,對于Slow Read攻擊而言,Flow Duration反映該攻擊長期保持連接的特性;Active Max反映該攻擊發包間隔時間長和周期性的特性;ACK Flag Cnt反映發起攻擊時頻繁建立和關閉HTTP連接時的交互情況;Flow Byts/s反映攻擊發包數目少且攻擊速率低的特性。
為驗證特征分析的有效性,基于本文得到的多類型低速率DDoS攻擊數據集和設計的檢測模型,使用模型的訓練時間、測試時間和準確率3個指標比較特征選擇前后同一檢測模型的相關性能,如表3所示。從表3可知,使用有效特征不僅將訓練時間降低約5.2%,測試時間降低約12.5%,而且將準確率提高了約1%。因此,使用圖2中的特征信息可描述多類型低速率DDoS攻擊實施時的相關特性,有利于降低模型的時間復雜度。

圖2 低速率DDoS攻擊的有效特征 Figure 2 Low-Rate DDoS attack effective characteristics
基于混合深度學習的低速率DDoS檢測方法主要用于區分4種不同類型的低速率攻擊流量和正常流量。本文將模擬的4種低速率DDoS攻擊均標識為攻擊流量,進行統一的檢測和防御。本文使用的檢測方法流程如圖3所示,使用混合深度學習算法構建攻擊檢測模型,利用生成的數據集實現模型的離線訓練,并將其部署至虛擬環境中實施在線檢測。
本文提出使用混合深度學習算法實現多類型低速率DDoS攻擊的在線檢測。所構建的攻擊檢測模型利用深度學習算法學習低速率DDoS攻擊數據集的隱藏特征,將機器學習算法作為分類器實現多類型低速率DDoS攻擊的在線檢測,最終準確地檢測出多種類型的低速率DDoS攻擊。

圖3 基于混合深度學習的低速率DDoS檢測方法流程
Figure 3 Process of low-rate DDoS detection method based on hybrid deep learning
卷積神經網絡引入權值共享、池化層和局部感受野[19],改善了傳統神經網絡存在的缺陷。權值共享特性保證卷積平面中的所有卷積單元共享同一個卷積核值;池化層則減小了數據的尺寸,改善過擬合問題;局部感受野使得每個神經元映射到局部特征,減少訓練的權值參數。隨機森林則采用CART決策樹作為弱分類器,通過Bagging的集成學習方法,將形成的許多決策樹結合起來形成森林,通過投票得到最終分類結果[19]。該算法能夠有效處理高維度數據和不平衡數據,檢測不同特征之間的相關性關系。因此,本文提出使用隨機森林代替卷積神經網絡原有的輸出層作分類,克服CNN訓練時間過長的問題,提高模型的檢測準確率。
本文提出的CNN-RF混合深度學習模型,能夠充分發揮卷積神經網絡在特征提取方面的優勢和隨機森林速度快且不易過擬合的優點。該模型使用卷積層和池化層提取輸入數據集特征間的隱藏特性,之后將其輸入RF分類器中得到分類結果。
模型的離線訓練階段,構建包含卷積層、池化層、全連接層和隨機森林算法的CNN-RF混合深度學習模型。其中,卷積層通過權值共享和稀疏連接保證單層卷積具有較小的訓練參數;池化層用于保留輸入數據集的顯著特征;全連接層則作為卷積層和池化層之間的連接層,輸出CNN提取的隱藏特征。基于特征分析結論,使用經特征選擇的低速率DDoS特征集進行混合深度學習算法的訓練和測試,并根據精確率和召回率等性能指標表現對模型進行調參優化,最后選擇分類性能最優的檢測模型。
本文提出的CNN-RF混合深度學習模型結構如圖4所示,包含3個卷積層,3個最大池化層,兩個零值填充層,一個AlphaDropout層及兩個全連接層,最后一個全連接層的輸出作為隨機森林分類器的輸入,分類器的輸出則作為檢測結果。輸入的流特征向量經過第一個卷積層以提取抽象的高維度特征,然后對這些特征進行最大池化處理,實現特征降維和數據壓縮。之后,經過第二個卷積層和第二個最大池化層,提取更深層次的特征。同時,使用零值填充層,用于保持數據的邊界信息。經過第3個卷積層、最大池化層和第二個零值填充層,得到更高維度的特征向量。之后,經過AlphaDropout層按照一定的概率將神經網絡訓練單元從網絡中移除,增加各個特征之間的正交性。最后,將這些高維特征向量輸入全連接層,經過該層的非線性變化提取特征之間的關聯。最終,在輸出端使用隨機森林分類器,并通過超參數搜索進行參數調優,選擇性能最優的模型作為最后的隨機森林分類器。

圖4 CNN-RF混合深度學習模型結構
Figure 4 CNN-RF hybrid deep learning model structure
本文通過小批量分批次的方式標準化處理輸入數據的特征。該方式對輸入數據進行規范化處理,通過縮放和平移使得丟棄后仍能保證數據的自規范性,防止在提取特征時,模型出現收斂較慢或特征無效等現象。
為了進一步提升模型的泛化性、克服模型的過擬合問題,本文使用了AlphaDropout技術。在CNN傳遞特征向量數據的過程中,AlphaDropout層將其中50%的隱藏神經元輸出設置為0,即丟棄對后續分類沒有貢獻的神經元,使神經網絡模型變得稀疏。因此,該方式能夠使CNN模型學習更多輸入流特征數據本身的特性,提高RF分類器的分類精度。
為驗證本文提出的CNN-RF混合深度學習算法的性能,將與同文獻[12]提出的LSTM- LightGBM算法和文獻[13]提出的LSTM-RF算法進行對比,分別在精確率、召回率和1值等方面衡量模型的分類性能。
在線測試環境中,重放不同類型的低速率DDoS攻擊流量和5G環境中不同場景下的正常通信流量,基于訓練好的CNN-RF混合深度學習模型在線檢測多類型低速率DDoS攻擊。輸出正常流量和不同類型低速率DDoS攻擊的檢測分類結果,并基于統計的方法分析模型的惡意流量檢測率和準確率等性能。
在采用CNN-RF混合深度學習模型實現多類型低速率DDoS攻擊在線檢測時,引入檢測時間窗口的概念。本文通過自定義改變檢測時間窗口,實現對網絡環境中不同類型低速率DDoS攻擊的檢測。由于較長的檢測時間窗口能夠存儲更多的低速率DDoS攻擊流量,并且可以更完整地反映低速率DDoS攻擊活動。因而引入檢測時間窗口,對于多類型低速率DDoS攻擊行為的檢測具有一定的說服力。
基于多類型低速率DDoS攻擊特征集中Flow Duration的分析,得到低速率DDoS攻擊的基準檢測時間窗口。通過繪制其核密度估計圖,能夠直觀地看到特征值的分布特征。以Slow Body攻擊為例,該攻擊Flow Duration特征值的核密度估計如圖5所示,可見該攻擊特征值分布在0.6×10?8的概率最大,特征值計數單位為毫秒,則表示分布在60 s的概率最大,其他3種類型的低速率攻擊表現相同。因此,多類型低速率DDoS攻擊的基準檢測時間窗口為60 s。

圖5 Flow Duration的核密度估計圖
Figure 5 A kernel density estimate for Flow Duration
按照選定的檢測時間窗口獲取網絡流量并提取流特征信息,依據特征分析結論進行特征選擇,得到低速率DDoS攻擊特征集。在線讀取已訓練好的多類型低速率DDoS攻擊檢測模型結構及參數,依次將緩存區的低速率DDoS攻擊數據集輸入攻擊檢測模型。該模型輸出信息包含預測標簽和真實標簽,基于統計的方法計算惡意流量檢測率和準確率等指標,分析模型在線檢測的性能。
本文實驗模擬5G環境下多種類型的低速率DDoS攻擊和正常通信請求,分別進行了不同混合深度學習檢測模型的性能評估及不同檢測時間窗口下的在線檢測性能測試。
為驗證本文方法對于多類型低速率DDoS攻擊的檢測效果,在網絡平臺采用真實的網絡設備搭建了相關測試平臺,其拓撲結構如圖6所示。

圖6 低速率DDoS攻擊實驗拓撲結構
Figure 6 Low-Rate DDoS attack experimental topology
本文實驗搭建了基于Vmware vSphere的虛擬平臺作為實驗環境。實驗一共使用9臺主機,其中包含兩臺路由器、一臺客戶端主機、4臺傀儡主機和兩臺Web服務器。本文實驗基于TensorFlow框架構建混合深度學習模型,編程語言采用Python3.8,并使用TensorFlow2.1、Keras2.2.4的機器學習庫進行模型搭建,軟件環境為Ubuntu18.04 Server操作系統,虛擬核數為8,內存為8 GB。圖6中將4臺主機作為傀儡主機,兩臺搭建Web服務器的虛擬機作為被攻擊服務器,在網絡入口路由器處實施檢測,并提供數據的采集和數據清洗功能。
如圖6所示,正常用戶使用Python腳本在客戶端和服務端之間建立連接,基于此連接模擬了包含公共服務、智能家居、PC機上網及MTC通信的4種場景,生成了海量正常通信數據請求。低速率DDoS攻擊由攻擊者控制4臺傀儡主機周期性地向Web服務器發送基于HTTP協議和基于TCP協議的低速率DDoS攻擊。實驗的低速率DDoS攻擊類型選擇基于HTTP協議的Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和基于TCP協議的Shrew攻擊。
低速率DDoS攻擊檢測框架基于混合深度學習算法對多類型低速率DDoS攻擊數據實現離線訓練和在線檢測。離線訓練主要通過準確率、精確率、召回率、1值、檢測時間和混淆矩陣6個評估指標來分析模型的分類性能。其中,準確率表示模型分類正確樣本數占總樣本數的比例;精確率表示模型判斷為攻擊類型的樣本數中,真正為攻擊類型樣本數所占的比例;召回率表示模型判斷為攻擊類型的樣本數占所有該攻擊類型樣本數的比例;1值綜合了查準率和查全率的結果,表示兩者的調和平均值,能夠更準確地反映模型性能;檢測時間反映模型的時間復雜度情況,用于衡量模型的時間效率;混淆矩陣則用于分析模型的分類效果及預測標簽與實際標簽相匹配的程度,在數值上與召回率相對應。
此外,為分析在線檢測的分類情況,新定義評估指標:錯誤攔截率和惡意流量檢測率,將其用于評估正常和惡意流量的在線檢測情況。其中,錯誤攔截率表示將正常流量誤判為不同類型低速率DDoS攻擊的比例,計算如式(1)所示;惡意流量檢測率表示檢測出的惡意流量占總惡意流量樣本數的比例,如式(2)所示。


其中,F表示經在線檢測后將網絡環境中的正常流量誤判為其他4種類型低速率DDoS攻擊流量的數據樣本數;表示網絡環境中正常流量的總數據樣本數;T則表示經在線檢測后網絡環境中低速率DDoS攻擊流量未被檢測出的數據樣本數;A表示網絡環境中不同類型低速率DDoS攻擊的總數據樣本數。
基于3.1節數據集生成模塊得到的低速率DDoS攻擊數據集,對其進行數據清洗,包括處理特征值為空及處理特征值為無窮大的特征數據等。根據圖2所示的40種有效特征進行特征選擇,并以7:3的比例劃分為訓練集和測試集,數據集如表4所示。低速率DDoS攻擊特征數據集的總數據樣本數為794 919條,其中包括訓練集556 444條,測試集238 475條。

表4 低速率DDoS攻擊數據集
在輸入相同低速率DDoS攻擊數據集和特征值的情況下,通過超參數搜索獲得最優性能時的CNN-RF模型。同時,將本文提出的CNN-RF模型同LSTM-LightGBM模型和LSTM-RF模型作比較,從中選擇最優的混合深度學習模型實現多類型低速率DDoS攻擊的在線檢測。本文使用了檢測時間、精確率、1值和混淆矩陣4個評估指標。圖7展示了3種混合深度學習模型的混淆矩陣表現。由圖7可知,LSTM-LightGBM模型對每種流量類型的識別準確率表現差異較大,尤其是對Slow Body攻擊的識別準確率僅為0.556 5,對Slow Headers攻擊產生0.269 5的誤報率;LSTM- RF模型對5種流量類型的識別準確率均優于LSTM-LightGBM模型,尤其對Slow Read攻擊的識別準確率達到0.999 2左右,但在識別Slow Body攻擊時會產生0.078 8的誤報率;CNN-RF模型的準確率表現均優于LSTM-RF,特別是對Slow Read攻擊和Shrew攻擊的識別準確率可達到0.999 9,同時對于Slow Headers攻擊流量的識別準確率也可達到0.956 6。
圖8展示了3種模型在精確率和1值方面的性能表現。由圖8可知,對于正常良性流量的識別,CNN-RF模型在精確率和1值上的表現均優于其他兩種模型;對于Slow Headers攻擊流量的檢測,CNN-RF模型的精確率表現最優,LSTM-RF

圖7 不同模型的混淆矩陣對比
Figure 7 Comparison of confusion matrix of different models
和LSTM-LightGBM模型在1值上表現相似;對于Slow Body和Slow Read攻擊流量的檢測,LSTM-LightGBM模型在精確率和1分數上的表現都較差,CNN-RF模型的表現最優;對于Shrew攻擊流量的檢測,3種模型在兩種評估指標中均表現良好。
Figure 8 Comparison of precision and1 scores of different models
不同混合深度學習模型的檢測時間對比如表5所示。由表5可知,CNN-RF模型的檢測時間為268.235 4 s,比LSTM-LightGBM模型檢測時間多約9 s,相比LSTM-RF模型檢測時間減少約40 s。但LSTM-LightGBM模型在檢測精確率和1分數方面,均明顯低于CNN-RF模型。因此,CNN-RF模型在檢測時間較短的同時,對于各類別低速率DDoS攻擊和正常流量的精確率和1值均有更為優異的表現。

表5 不同模型的檢測時間對比
綜合上述評價指標可以得出,相較于LSTM- LightGBM模型和LSTM-RF模型,本文提出的CNN-RF模型在正常流量、Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊流量的檢測分類方面均表現出優異的性能,能夠準確檢測出不同類型的低速率DDoS攻擊。
經4.3節離線訓練實驗及分析表明CNN-RF模型具有優異的檢測性能。為進一步說明該模型在線檢測時性能仍為最優,本節從準確率、錯誤攔截率和惡意流量檢測率方面,對比了LSTM- LightGBM、LSTM-RF和CNN-RF模型的性能。最終,選擇最優時間窗口下性能最優且已訓練好的模型,部署實現多類型低速率DDoS攻擊的細粒度在線檢測。首先,在線重放多類型低速率DDoS攻擊流量文件,使用Tcpdump抓取指定檢測時間窗口內的網絡流量,并通過CICFlowMeter提取流特征信息;然后,讀取已訓練好的檢測模型結構及參數并實施在線檢測,模型輸出檢測分類標簽、真實標簽及惡意流量IP地址;最后,基于統計的方法查看模型的檢測準確率和惡意流量檢測率等指標。
本節依據基準檢測時間窗口60 s,將其與120 s和180 s的檢測時間窗口進行性能對比,并分別比較LSTM-LightGBM、LSTM-RF和CNN-RF模型的性能表現,選擇最優檢測模型下的最優檢測時間窗口作為最終的在線檢測參數。表6展示了不同模型在不同時間窗口下的準確率、錯誤攔截率和惡意流量檢測率的性能對比。

表6 不同模型在不同時間窗口下在線檢測性能對比
由表6可知,在120 s的時間窗口下,LSTM- LightGBM、LSTM-RF和CNN-RF模型均表現出相對最優的檢測性能。LSTM-RF模型的準確率達到0.924 3,惡意流量檢測率為0.919 3。而當檢測時間窗口為180 s時,LSTM-RF模型的準確率下降至0.897 6;同時,錯誤攔截率提高至0.192 7,表示將大量的正常良性流量誤判為惡意流量。在120 s的時間窗口下,LSTM-LightGBM模型表現最差,準確率僅為0.896 5,錯誤攔截率則是0.203 1。對于CNN-RF模型,當在線檢測時間窗口為120 s時,錯誤攔截率最低為0.110 3,即正常流量被誤判為惡意流量的比例最低;同時,通過該檢測機制檢測出的惡意流量數據樣本數所占比例達0.962 2。經分析,120 s的檢測時間窗口下完整地包含不同類型低速率DDoS攻擊的特征信息,反映了完整的低速率DDoS攻擊活動,從而有效區分不同類型的低速率DDoS攻擊和正常流量。
因此,將檢測時間窗口設置為120 s,部署性能最優的CNN-RF模型實現在線檢測。通過在線檢測得到針對不同類型低速率攻擊及正常流量的檢測性能,如表7所示。由表7可得,CNN-RF混合深度學習模型對于Slow Headers攻擊、Shrew攻擊和正常流量的精確率均達到0.95以上;對于Slow Read攻擊和Slow Body攻擊流量的精確率和召回率均為0.86以上,兩種攻擊類型間產生較少的誤判。綜上,CNN-RF混合深度學習模型對于每種類型低速率DDoS攻擊和正常流量的檢測準確率達到0.965 2,能夠準確地在線檢測出不同類型的低速率DDoS攻擊。

表7 120 s時間窗口下的在線檢測性能
通過上述分析可見,本文提出的CNN-RF混合深度學習模型在線檢測性能優異,能夠實現對4種類型低速率DDoS攻擊的在線檢測。同時,每種低速率DDoS攻擊的精確率均達0.85以上,能夠防止該攻擊給網絡造成更大的破壞;惡意流量檢測率達到0.962 2,檢測準確率達到0.965 2,能夠有效地在線檢測出網絡中的惡意流量,降低了網絡入口處的低速率DDoS攻擊流量強度。
本文針對4種類型的低速率DDoS攻擊,獲得了低速率DDoS攻擊數據集,分析得到了低速率DDoS攻擊的40種有效特征,提出了一種基于CNN-RF混合深度學習的多類型低速率DDoS攻擊檢測方法,在線部署該模型實現了多類型低速率DDoS攻擊的在線檢測。此外,提出在線檢測時間窗口的概念,并使用錯誤攔截率和惡意流量檢測率評估了在線檢測性能。實驗表明基于CNN-RF混合深度學習算法的模型能夠準確檢測出不同類型的低速率DDoS攻擊。同時,本文的檢測方法有高度的可移植性,所用的低速率DDoS攻擊數據集接近真實情況,可以部署并應用在實際環境中。
混合深度學習模型在針對多類型低速率DDoS攻擊實現訓練和檢測時,不同場景下在線檢測精度有所下降,與攻擊流量發送速率和正常流量在檢測窗口中的占空比有關系。未來將研究優化模型及時間窗口,分析時間窗口與數據集和特征選擇之間的關系,使該模型更好地適應環境且具有更高的準確率和檢測效率。
[1] 陳興蜀, 滑強, 王毅桐, 等. 云環境下SDN網絡低速率DDoS攻擊的研究[J]. 通信學報, 2019, 40(6): 210-222.
CHEN X S, HUA Q, WANG Y T, et al. Research on low-rate DDoS attack of SDN network in cloud environment[J]. Journal on Communications, 2019, 40(6): 210-222.
[2] KUZMANOVIC A, KNIGHTLY E W. Low-rate TCP-targeted denial of service attacks and counter strategies[J]. IEEE/ACM Transactions on Networking, 2006, 14(4): 683-696.
[3] WU X, TANG D, TANG L, et al. A low-rate DoS attack detection method based on Hilbert spectrum and correlation[C]//Proceedings of 2018 IEEE Smart-World, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation. 2018: 1358-1363.
[4] WU Z, PAN Q, YUE M, et al. Sequence alignment detection of TCP-targeted synchronous low-rate DoS attacks[J]. Computer Networks, 2019, 152: 64-77.
[5] KAUR G, SAXENA V, GUPTA J P. Detection of TCP targeted high bandwidth attacks using self-similarity[J]. Journal of King Saud University: Computer and Information Sciences, 2020, 32(1): 35-49.
[6] ZHANG D, TANG D, TANG L, et al. Pca-svm-based approach of detecting low-rate DoS attack[C]//Proceedings of 2019 IEEE 21st International Conference on High Performance Computing and Communications. 2019: 1163-1170.
[7] LIU Z, YIN X, HU Y. CPSS LR-DDoS detection and defense in edge computing utilizing DCNN Q-Learning[J]. IEEE Access, 2020, 8: 42120-42130.
[8] WU Z J, XU Q, WANG J J, et al. Low-rate DDoS attack detection based on factorization machine in software defined network[J]. IEEE Access, 2020, 8: 17404-17418.
[9] PéREZ-DíAZ J A, VALDOVINOS I A, CHOO K K R, et al. A flexible SDN-based architecture for identifying and mitigating low-rate DDoS attacks using machine learning[J]. IEEE Access, 2020, 8: 155859-155872.
[10] MALIK J, AKHUNZADA A, BIBI I, et al. Hybrid deep learning: an efficient reconnaissance and surveillance detection mechanism in SDN[J]. IEEE Access, 2020, 8: 134695-134706.
[11] GARG S, KAUR K, KUMAR N, et al. Hybrid deep-learning-based anomaly detection scheme for suspicious flow detection in SDN: a social multimedia perspective[J]. IEEE Transactions on Multimedia, 2019, 21(3): 566-578.
[12] GUO Y K, LI Y Y, XU Y. Study on the application of LSTM-LightGBM model in stock rise and fall prediction[J]. MATEC Web of Conferences, 2021, 336: 05011.
[13] HU W, SHI Y X. Prediction of online consumers’ buying behavior based on LSTM-RF model[C]//Proceedings of 2020 5th International Conference on Communication, Image and Signal Processing (CCISP). 2020: 224-228.
[14] JAZI H H, GONZALEZ H, STAKHANOVA N, et al. Detecting HTTP-based application layer DoS attacks on web servers in the presence of sampling[J]. Computer Networks, 2017, 121: 25-36.
[15] 王子恒. 基于區塊鏈的海量連接管理架構設計與實現[D]. 北京: 北京交通大學, 2021.
WANG Z H. Design and implementation of mass connection management architecture based on blockchain[D]. Beijing: Beijing Jiaotong University, 2021.
[16] ROSENBROCK K H, ANDERSEN N P S. The third generation partnership project (3GPP)[M]//GSM and UMTS. Chichester, UK: John Wiley & Sons, Ltd, : 221-261.
[17] PACKET S. Institute of electrical and electronics engineers[J]. IEEE Standard Computer Dictionary a Compilation of IEEE Standard Computer Glossaries, 2009, 3(8): 128.
[18] GUALBERTO E S, DE SOUSA R T, DE BRITO VIEIRA T P, et al. The answer is in the text: multi-stage methods for phishing detection based on feature engineering[J]. IEEE Access, 2020, 8: 223529-223547.
[19] SUSILO B, SARI R F. Intrusion detection in IoT networks using deep learning algorithm[J]. Information, 2020, 11(5): 279.
Multi-type low-rate DDoS attack detection method based on hybrid deep learning
LI Lijuan, LI Man, BI Hongjun, ZHOU Huachun
Beijing Jiaotong University, Beijing 100044, China
Low-Rate distributed denial of service (DDoS) attack attacks the vulnerabilities in the adaptive mechanism of network protocols, posing a huge threat to the quality of network services. Low-Rate DDoS attack was characterized by high secrecy, low attack rate, and periodicity. Existing detection methods have the problems of single detection type and low identification accuracy. In order to solve them, a multi-type low-rate DDoS attack detection method based on hybrid deep learning was proposed. Different types of low-rate DDoS attacks and normal traffic in different scenarios under 5G environment were simulated. Traffic was collected at the network entrance and its traffic characteristic information was extracted to obtain multiple types of low-rate DDoS attack data sets. From the perspective of statistical threshold and feature engineering, the characteristics of different types of low-rate DDoS attacks were analyzed respectively, and the effective feature set of 40-dimension low-rate DDoS attacks was obtained. CNN-RF hybrid deep learning algorithm was used for offline training based on the effective feature set, and the performance of this algorithm was compared with LSTM-LightGBM and LSTM-RF algorithms. The CNN-RF detection model was deployed on the gateway to realize the online detection of multiple types of low-rate DDoS attacks, and the performance was evaluated by using the newly defined error interception rate and malicious traffic detection rate indexes. The results show that the proposed method can detect four types of low-rate DDoS attacks online, including Slow Headers attack, Slow Body attack, Slow Read attack and Shrew attack, and the error interception rate reaches 11.03% in 120 s time window. The detection rate of malicious traffic reaches 96.22%. It can be judged by the results that the proposed method can significantly reduce the intensity of low-rate DDoS attack traffic at the network entrance, and can be deployed and applied in the actual environment.
multi-type, low-rate DDoS attack, hybrid deep learning, feature analysis, attack detection
李麗娟, 李曼, 畢紅軍, 等. 基于混合深度學習的多類型低速率DDoS攻擊檢測方法[J]. 網絡與信息安全學報, 2022, 8(1): 73-85. Citation Format: LI L J, LI M, BI H J, et al. Multi-typelow-rate DDoS attack detection method based on hybrid deep learning[J]. Chinese Journal of Network and Information Security, 2022, 8(1): 73-85.
TP393
A
2021?07?20;
2021?10?22
李麗娟,19120069@bjtu.edu.cn
國家重點研發計劃(2018YFA0701604)
10.11959/j.issn.2096?109x.2022001

李麗娟(1997? ),女,山東泰安人,北京交通大學碩士生,主要研究方向為人工智能、網絡安全。
李曼(1997? ),女,河南洛陽人,北京交通大學博士生,主要研究方向為網絡安全、智能通信。

畢紅軍(1965? ),男,山東濰坊人,北京交通大學副教授,主要研究方向為光通信、網絡安全。
周華春(1965? ),男,博士,北京交通大學教授、博士生導師,主要研究方向為智能通信、移動互聯網、網絡安全與衛星網絡。
The National Key R&D Program of China (2018YFA0701604)