999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合特征選擇的隨機森林DDoS攻擊檢測

2023-11-29 10:24:04徐精誠陳學斌董燕靈楊佳
計算機應用 2023年11期
關鍵詞:特征檢測模型

徐精誠,陳學斌*,董燕靈,楊佳

融合特征選擇的隨機森林DDoS攻擊檢測

徐精誠1,2,3,陳學斌1,2,3*,董燕靈1,2,3,楊佳1

(1.華北理工大學 理學院,河北 唐山 063210; 2.河北省數據科學與應用重點實驗室(華北理工大學),河北 唐山 063210; 3.華北理工大學 唐山市數據科學重點實驗室,河北 唐山 063210)( ? 通信作者電子郵箱chxb@qq.com)

現有基于機器學習的分布式拒絕服務(DDoS)攻擊檢測方法在面對愈發復雜的網絡流量、不斷升維的數據結構時,檢測難度和成本不斷上升。針對這些問題,提出一種融合特征選擇的隨機森林DDoS攻擊檢測方法。該方法選用基于基尼系數的平均不純度算法作為特征選擇算法,對DDoS異常流量樣本進行降維,以降低訓練成本、提高訓練精度;同時將特征選擇算法嵌入隨機森林的單個基學習器,將特征子集搜索范圍由全部特征縮小到單個基學習器對應特征,在提高兩種算法耦合性的同時提高了模型精度。實驗結果表明,融合特征選擇的隨機森林DDoS攻擊檢測方法訓練所得到的模型,在限制決策樹棵數和訓練樣本數量的前提下,召回率相較于改進前提升21.8個百分點,F1-score值提升12.0個百分點,均優于傳統的隨機森林檢測方案。

分布式拒絕服務;特征選擇;基尼系數;平均不純度算法;隨機森林算法

0 引言

分布式拒絕服務(Distributed Denial-of-Service, DDoS)攻擊[1]是一種常見的網絡攻擊方式,具有發動成本低、溯源難度高的特點。近年來DDoS勒索攻擊頻頻出現,據綠盟科技聯合騰訊安全發布的《2021年全球DDoS威脅報告》[2]統計,2019年至今,全球DDoS每年攻擊次數翻倍并仍在持續增長,攻擊帶寬也在不斷提高,峰值瞬時流量甚至可以達到2.4 TB。愈加頻繁的DDoS攻擊已經成為企業無法忽視的一大威脅。

當今國內外提出的DDoS攻擊檢測方法主要可以分為以下幾種:基于數理統計進行檢測、根據流量特征進行匹配和利用機器學習算法建模檢測[3]。前兩種方式需要預先制定規則,面對突發流量時識別率較低,對瞬息萬變的網絡環境適應性較差,而基于機器學習算法的DDoS攻擊檢測方法具有識別率高、適應性強等優點,吸引了眾多學者從事相關研究。Suthaharan[4]使用多層感知機(MultiLayer Perceptron, MLP)算法對自主采集的DDoS攻擊數據集進行檢測,達到了98.6%的準確率;但因算法本身復雜度過高,無法保證實時性。Jia等[5]提出混合隨機森林(Random Forest, RF)、K-最近鄰(K-Nearest Neighbor, KNN)算法的集成學習DDoS攻擊檢測模型,再次提升了準確率;但模型結果趨向于中值而非最優解,模型穩定性有待提升。Najafimehr等[6]提出了一種混合聚類算法和分類算法的檢測策略,使用CICIDS 2017作為訓練集構建模型,在CICIDS 2019數據集上取得了良好的預測準確率,為DDoS攻擊檢測方向提供了一個新思路;但算法本身復雜度較高,實時性難以保證。孟曈[7]提出了一種基于機器學習與可逆sketch的DDoS攻擊檢測方法,明顯提高了攻擊檢測的實時性,但模型識別精度仍有待提升。

作為一種數據預處理方法,特征選擇可以提高對高維小樣本數據集的預測精度,防止“維度災難”和過擬合。基于機器學習的DDoS攻擊檢測通常需要在復雜網絡環境下實時訓練模型,采樣獲得的數據往往符合高維小樣本這一特征,因而整個檢測流程中十分依賴特征選擇,國內外也有很多相關研究。Osanaiye等[8]使用多種評估器對DDoS攻擊流量進行特征排序,取前1/3作為訓練用特征,這一方法顯著提高了訓練效率和模型精度;但選取的特征并不通用,魯棒性較差。Gu等[9]提出了一種基于混合特征選擇的半監督DDoS攻擊檢測算法(Semi-supervised weighted K-means Method using Hybrid Feature Selection algorithm, SKM-HFS),將K-means算法與混合特征選擇算法(Hybrid Feature Selection, HFS)相結合,對流量特征進行排序以獲得特征子集,提高了預測精度;但算法復雜度較高,實時性較差。

隨機森林(RF)是一種主流的集成學習算法,具有簡單、泛化能力強、抗過擬合能力強等優點,被廣泛應用到異常流量檢測領域。Pande等[10]提出了一種基于改進RF算法的DDoS攻擊檢測模型,分類準確率達到了99.76%,驗證了該算法的可行性與高效性。Cheng等[11]提出了一種基于流相關度特征的遺傳算法優化的增強RF方法,根據不對稱和半定向交互特征定義了流相關度特征,進行了特征升維;但是該算法較為復雜,訓練成本較高。

本文提出了一種基于融合特征選擇的隨機森林DDoS攻擊檢測方法,與常規隨機森林[12-13]模型訓練流程中先進行特征選取再進行Bootstrap采樣[14]不同,本文方法采用了先采樣再根據具體采樣數據集本身特點進行特征選擇的策略,從縱向的數據和橫向的特征兩個角度出發,提高了攻擊檢測的實時性與模型的精確度。

本文的主要工作包括:1)在RF算法的基礎上提出了一種改進的特征選擇策略,將特征選擇步驟細化到單棵決策樹,提高了模型訓練精度;2)將兩種基于平均不純度的特征選擇算法分別與RF融合,構建了性能較好的DDoS攻擊檢測模型;3)提出的融合特征選擇的隨機森林算法收斂速度大幅提升,相比改進前,能夠以更低的訓練成本得到高精度模型。

1 相關知識

1.1 DDoS攻擊原理

DDoS攻擊由拒絕服務(Denial of Service, DoS)攻擊演化而來,惡意人員首先需要操作控制大量僵尸主機集群,向目標服務器或者目標網絡發送大量的攻擊流量,消耗網絡的帶寬資源或者目標主機的計算資源,使目標網絡在攻擊流量下發生擁塞或無法向正常的用戶提供服務甚至宕機。它是一種簡單高效的攻擊方式,能夠十分輕易地對目標網絡或者主機造成嚴重的影響,且攻擊迅猛,防御與溯源追蹤都很困難。DDoS攻擊方式如圖1所示。

圖1 DDoS攻擊示意圖

DDoS攻擊類型多種多樣,主要有泛洪攻擊、挑戰黑洞(ChallengeCollapsar, CC)攻擊、分布式反射(Distributed Reflection Denial Of Servie, DrDOS)攻擊等。泛洪攻擊通常分為傳輸控制協議(Transmission Control Protocol, TCP)泛洪和用戶數據報協議(User Datagram Protocol, UDP)泛洪兩種。TCP泛洪攻擊是指利用TCP的握手流程發起虛假連接請求,以消耗目標主機資源的攻擊方式,可再次分為SYN泛洪攻擊和ACK泛洪攻擊。CC攻擊也稱挑戰黑洞攻擊,是基于應用層的攻擊,通過不斷向目標主機發送POST/GET請求,引發巨量瞬時數據庫操作,消耗主機資源;但CC的攻擊模式明顯,相對易于防御。DrDOS攻擊是通過向攻擊主機發送帶有目標主機IP的少量數據包,攻擊主機根據收到請求向目標主機返回大量數據包,以小流量換取大流量,也稱之為放大攻擊,一直是攻擊流量的主力軍。根據《2021年全球DDoS威脅報告》,100 GB以上的大流量攻擊手法除了主流的SYN大包和UDP反射,ACK泛洪、TCP反射、SYN小包等攻擊手法占比也逐漸上升,大流量攻擊手段逐漸呈多元化趨勢。

1.2 隨機森林算法

RF算法是一種基于決策樹的組合分類器,屬于集成學習中Bagging的一個變體,它選取分類與回歸樹(Classification And Regression Tree, CART)[15]作為基學習器,引入Bagging算法[16]對數據集和特征從橫向縱向兩個角度進行Bootstrap采樣,橫向采樣可以獲得特征相同且互有交集的多個訓練子集,減少了單個決策樹的樣本數量,進而訓練多個單獨決策樹分類器,最終構建組合模型,大幅提升了模型的準確率和穩定性,算法偽代碼如下:

算法1 RF算法。

5) end for

9) end for

1.3 特征選擇算法

特征選擇作為機器學習中一種重要的數據預處理手段,能夠有效提升高維小樣本數據集的訓練效果。本文模型采用集成學習中Bagging的訓練方案,單個樹模型中樣本量大幅減少,而特征數量維持不變,使用特征選擇算法縮小RF算法對特征的Bootstrap采樣范圍,能夠明顯提升模型訓練精度。

常規的特征選擇算法[17]主要分為四種:過濾式、封裝式、嵌入式和集成式。過濾式也稱fliter,又可以分為基于特征排序和基于搜索策略兩類:前者通過算法計算特征權重進行特征排序,常見算法有Relief[18]、Fisher得分[19]、Person相關系數等;后者則是通過搜索算法進行特征子集篩選,相比前者更易獲得全局最優解,但訓練成本更高。封裝式也稱wrapper,是將特征選擇與機器學習算法結合,以一種黑盒模型的形式進行特征選擇,通過訓練的方式調整策略并最終輸出能夠進行特征選擇的機器學習模型。嵌入式也稱embedded,通過將評價標準和機器學習算法相結合的方式構建黑盒模型,相較于wrapper中使用搜索算法和機器學習算法相結合,時間復雜度更低。集成式特征選擇借鑒了集成學習思想,訓練多個特征選擇算法并整合結果,可以有效提高算法穩定性,多適用于小樣本數據。

2 DDoS攻擊檢測方法

本文提出了一種融合特征選擇的隨機森林DDoS攻擊檢測方法,具體流程如圖2所示,主要由數據預處理模塊、特征選擇模塊、模型訓練模塊和攻擊檢測模塊四部分組成。

圖2 DDoS攻擊檢測流程

數據預處理模塊負責對原始攻擊流量數據進行數據建模,使用特征提取工具cicFlowmeter提取出五元組(源IP地址,源端口,目的IP地址,目的端口,傳輸層協議)、網絡流間隔、正反向窗口字節數等共計78個攻擊流量特征,匯總建模形成可以用于訓練集成學習模型的初始數據集,進行拆分后供后續模塊使用。

特征選擇模塊需要輔助RF模型訓練部分提前完成Bootstrap自主抽樣,從預處理得到的訓練集提取多個子訓練集,每個子訓練集對應RF中的一棵樹。同時該模塊會對每個子訓練集使用多種特征選擇算法進行特征排序,不同子訓練集中樣本有差異,因此特征重要性也有所不同,這種先采樣后排序的策略所得到的數據子集可以更好地凸顯樣本特征,更易達到好的訓練效果。完成各個子集的特征排序后,該模塊會根據給定比例輸出最終子訓練集用于后續集成學習的模型訓練。

模型訓練模塊基于改進的RF算法,且RF中的決策樹與特征選擇模塊得到的子訓練集一一對應,模型根據輸入的子訓練集生成多棵決策樹,并使用加權投票的方式進行集成,同時可以基于測試集進行驗證并輔助模型進行參數調整。

攻擊檢測模塊用于進行最后的預測,可以對實時的流量數據進行樣本提取并判斷是否屬于DDoS攻擊流量,判斷為真后可以基于樣本中的源IP參數進行IP封禁等防御操作。

2.1 針對DDoS攻擊數據集的特征選擇

DDoS攻擊數據集有維度高、數據量大等特征。過高的樣本維度往往意味著大量的冗余特征,這些冗余特征會淡化樣本特點,提高分類難度,導致模型訓練精度降低與“維度詛咒[20]”。同時樣本的升維也會導致指數級的計算量增長,大幅提高了運算成本,不利于DDoS攻擊檢測的實時性。因此對DDoS攻擊檢測模型進行特征選擇是非常必要的預處理流程。

本文選用基于平均不純度的集成式特征選擇算法進行特征排序。平均不純度算法是一種依據決策樹中的評價指標實現的算法,在決策樹算法中,每個節點都包含一個判斷條件,根據特征值產生分支,而分支的依據就是不純度,常用的不純度評判依據有信息熵、信息增益、信息增益率和基尼(Gini)系數等[21]。使用樹的集成算法進行模型訓練時可以根據平均不純度計算各個特征的重要程度。

本文基于RF和梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)兩種算法進行平均不純度減少量的計算,兩種算法共同點均為基于決策樹的集成學習算法,同時有以下差異:

1)RF算法面向并行的決策樹進行計算,而GBDT算法是面向每輪迭代后產生的新決策樹的串行計算。

2)RF算法基于Bootstrap抽樣,每棵決策樹構建的特征各不相同,因此需要多棵決策樹才可以覆蓋所有特征集合,進而計算特征權重;而GBDT則是基于所有特征構建決策樹,并通過Boosting進行迭代優化,因此最少只需要進行一次迭代就能完成所有特征的平均不純度計算。

兩種算法各有優劣:基于RF的特征選擇算法運算量更大,但參考對象更多,多樣性好,從模型訓練的角度來看泛化性更強,能夠抗過擬合,對應的特征篩選結果更適用于樣本量大、特征數量多的訓練集;基于GBDT的特征選擇算法需要的運算量相對較小,參照樣本數量較少,但單個樣本更全面,適用于欠擬合的情況,對應的篩選結果更適用于樣本量小、特征維度低的數據集。

2.1.1基于平均不純度減少的RF特征選擇算法

RF包含多棵CART決策樹,每棵決策樹對應的特征均為對原始特征集進行Bootstrap抽樣選取得到的特征子集。因此在RF中平均不純度降低值的計算方式也有所不同,需要對每棵樹進行特征的存在判定,最終在一個更大的范圍下計算平均不純度降低值。具體算法偽代碼如下:

算法2 基于平均不純度減少的RF特征選擇算法。

6) end for

7) end for

2.1.2基于平均不純度減少的GBDT特征選擇算法

除了RF算法,同樣基于決策樹的GBDT算法[22]也可以通過計算決策樹中非葉子節點的平均不純度減少量來評判特征的重要程度。基于平均不純度減少的GBDT特征選擇算法偽代碼如下:

算法3 基于平均不純度減少的GBDT特征選擇算法。

4) end for

本文采用兩種特征選擇算法分別與集成學習算法融合,一種是基于Boosting的GBDT算法,一種是基于Bagging的RF算法,兩者均為基于決策樹的集成學習算法,同時本文僅僅利用算法特性進行特征的計算,并不進行最終預測結果的集成,因此訓練成本遠低于這兩類算法的常規方案。

2.1.3性能分析

本文使用兩種基于平均不純度的特征選擇算法與RF算法進行融合,通過計算決策樹生成時的不純度下降比例進行特征排序,本文主要從時間復雜度來進行性能分析。

兩種排序算法時間復雜度較為接近,但實際情況中,RF的多個決策樹可以并行構建,而GBDT只支持串行,因此前者的實際運行耗時低于后者。

2.2 融合特征選擇的隨機森林算法

本文結合基于平均不純度的特征選擇算法與RF算法,提出了一種融合特征選擇的隨機森林算法。傳統RF算法與特征選擇算法結合時,通常會先對訓練集進行特征排序,根據排序結果進行特征降維,然后對降維后的數據集進行Bootstrap采樣以及模型訓練。但Bootstrap采樣獲得的數據子集各有差異,統一的特征排序方法不能適用于每一個特征子集的內部特征,因此本文提出了一種先采樣后排序的結合方式,實現步驟如下:

1)先對原始訓練數據集基于給定比例進行Bootstrap采樣,獲得多個訓練子集,每個子訓練集對應RF中的一個決策樹分類器。

2)使用基于平均不純度的特征選擇算法對每個子訓練集進行特征排序,根據特征排序結果對每個子集單獨進行特征降維,降維后的子訓練集將用于單棵決策樹的訓練。

3)基于每個子訓練集進行特征上的Bootstrap采樣,以此為訓練集構建多棵決策樹,使用委員會投票方法對結果進行集成,構成RF模型。

算法偽代碼如下:

算法4 融合特征選擇的隨機森林算法。

輸出 預測結果

10) end for

14) end for

相較于傳統的先特征選擇后訓練模型的RF算法,該方法將特征選擇步驟融合到單個決策樹訓練中,考慮到Bootstrap抽樣下不同決策樹的訓練樣本特征有所不同,訓練樣本對應的特征選擇的結果也會有所差異。改進方法擴展了特征選擇算法的使用范圍,細化了特征選擇這一步驟,能夠有效提升整體模型精度。

3 實驗設計

本文基于CICIDS 2017數據集模擬真實環境下的DDoS攻擊流量,實驗主要分為個三部分:1)數據預處理;2)分別選用兩種集成式特征選擇算法與RF算法進行融合,生成DDoS攻擊檢測模型;3)使用預測集驗證模型,設立評判指標并與其他算法進行橫向對比。

3.1 數據預處理

CICIDS 2017數據集標簽流量分類總數較多,但實際上對異常流量的處理方式大同小異,通常為溯源后進行IP封禁。因此本文將基于不同攻擊方式構建的多分類數據集轉化為只區分異常流量和正常流量的二分類數據集,同時對部分特征中無意義的空值和INF值置0進行數據清洗,以保證模型能夠正常進行訓練,最后以7∶3的比例將數據集劃分為訓練集和測試集。

3.2 模型對比方案

本文實現的是一個融合特征選擇算法和RF算法的預測模型,其中RF算法用于基本的模型訓練,特征選擇算法用于對Bootstrap抽樣后生成的子數據集進行特征排序,以縮小它對特征進行二次抽樣時的選擇范圍。主要選取了GBDT和兩種基于平均不純度降低的特征選擇算法進行對比,包括:

1)原始的隨機森林算法(RF);

2)通用的特征選擇算法與RF算法結合方法,即先使用特征選擇算法對原始數據集進行預處理后再使用RF算法進行訓練(Feature_RF);

3)融合特征選擇算法的RF算法,包含基于RF和梯度提升決策樹(GBDT)的兩種特征選擇方法GBDT_RF和RF_RF。

模型主要從兩個角度進行對比,首先是模型本身的預測精度,通過計算對DDoS攻擊樣本預測結果對應的評價指標,來判斷模型本身的精度提升程度。

其次考慮到模型復雜度有所提高,模型訓練與預測所用的時間成本也會有所提升,但模型精度的提升也會加快收斂,因此本文對不同決策樹棵樹下模型訓練時間進行測量,并結合預測精度進行實時性分析。

3.3 評判標準

使用準確率()精確率()、召回率()和F1-score (1)對DDoS攻擊檢測效果進行算法性能評估,它們均基于混淆矩陣中的4個評價指標:真陽性,表示被模型正確識別的DDoS惡意攻擊流量數;真陰性,表示被模型正確識別的普通流量個數;假陽性,表示被錯誤分類為惡意流量的普通流量個數;假陰性,表示被錯誤分類為普通流量的惡意流量個數。

1)準確率表示模型正確分類樣本占總樣本比例。

2)精確率表示被預測為惡意流量的所有流量中惡意流量的占比。

3)召回率表示惡意流量被模型正確分類的比率。

4 實驗與結果分析

4.1 數據集

本文選擇CICIDS 2017入侵檢測評估數據集作為驗證對象,它包含良性數據和最新的常見DDoS攻擊數據,提供類真實世界的PCAPS格式數據。數據集包含6類攻擊方式:Brute Force Attack(暴力攻擊)、Heartbleed Attack(心跳攻擊)、Botnet(僵尸網絡)、Dos Attack(拒絕服務攻擊)、Web Attack(網絡攻擊)和Infiltration Attack(滲透攻擊)。實際上這些攻擊方式均可以看作DDoS攻擊的分支。因此數據集預處理過程中會將數據集轉化為二分類,即異常流量和正常流量兩類。

4.2 實驗環境

實驗用服務器配置如下:CPU使用Intel Xeon CPU E5-2640,運行內存256 GB,運行環境基于Python3.9,使用scikit-learn 0.24.1、numpy、pandas等模塊構建模型。其中基于梯度提升決策樹及RF的特征排序算法基于scikit-learn中的軟件包,而訓練模型使用的RF算法則基于numpy和pandas編寫。

4.3 結果分析

從圖3可知,四種特征選擇方法的精確率和準確率均能迅速達到閾值,準確率值均達到了98%以上,而精確率則均達到99.6%以上,所有模型對正常流量的預測準確率都很高。但考慮到數據集中正負樣本分布極不均衡(異常流量與普通流量數量比例接近1∶40),模型不可避免地產生偏向性,對正向樣本的預測準確率天然較高。因此相較于精確率和準確率,對惡意流量的識別率(即召回率)更具參考價值。

F1-score的表現上,Feature_RF也明顯優于其他兩者,RF_RF算法F1-socre值為99.6%,GBDT_RF算法F1-socre值為99.6%,相較于Feature_RF算法的87.6%和傳統RF算法的86.7%,分別提升了12.0個百分點和11.1個百分點。在精確率相近的前提下,Feature_RF的高召回率自然伴隨著更高的F1-score得分,說明它擁有更好的魯棒性。

圖3 四種學習模型的訓練結果

對于DDoS攻擊檢測模型而言,訓練成本是不可忽視的重要參照,Fusion_RF(即GBDT_RF和RF_RF)相較于Feature_RF,特征選擇操作次數更多,因此具有更高的時間復雜度。如圖4所示,Feature_RF因為提前剔除部分冗余特征,減少了訓練量,整體訓練時間最短,訓練成本最低。而RF和Fusion_RF差距較小,這是因為Fusion_RF雖然增加了特征選擇環節,但也降低了模型訓練量,兩者互相抵消,保證了算法的實時性。

圖4 四種模型的訓練時長對比

5 結語

本文提出了一種融合特征選擇的隨機森林DDoS攻擊檢測方法,以限制隨機森林第二次Bootstrap范圍的方式,將特征選擇細化到單棵決策樹。實驗結果表明,相較于常規的特征選擇與RF的結合方法,本文方法在模型精度、收斂速度、魯棒性上均表現更優,同時也因它的高收斂速度特性,兼顧了DDoS攻擊檢測對實時性的需求。后續我們將進一步驗證模型在真實環境下的可用性,并從實時性的角度進一步優化模型。

[1] DOSHI R, APTHORPE N, FEAMSTER N. Machine learning DDoS detection for consumer internet of things devices[C]// Proceedings of the 2018 IEEE Security and Privacy Workshops. Piscataway: IEEE, 2018: 29-35.

[2] 騰訊云T-Sec DDoS防護團隊,綠盟科技威脅情報團隊. 2021年全球DDoS威脅報告[R/OL]. [2022-09-14].https://www.renrendoc.com/paper/227656572.html.(Tencent Cloud T-Sec DDoS Protection Group, NSFOCUS Threat Intelligence Group. Global DDoS threat report 2021[R/OL]. [2022-09-14].https://www.renrendoc.com/paper/227656572.html.)

[3] PRIYA S S, SIVARAM M, YUVARAJ D, et al. Machine learning based DDoS detection[C]// Proceedings of the 2020 International Conference on Emerging Smart Computing and Informatics. Piscataway: IEEE, 2020: 234-237.

[4] SUTHAHARAN S. Decision tree learning[M]// Machine Learning Models and Algorithms for Big Data Classification: Thinking with Examples for Effective Learning, ISIS 36. Cham: Springer, 2016:237-269.

[5] JIA B, HUANG X, LIU R, et al. A DDoS attack detection method based on hybrid heterogeneous multiclassifier ensemble learning[J]. Journal of Electrical and Computer Engineering, 2017, 2017: No.4975343.

[6] NAJAFIMEHR M, ZARIFZADEH S, MOSTAFAVI S. A hybrid machine learning approach for detecting unprecedented DDoS attacks[J]. The Journal of Supercomputing, 2022, 78(6): 8106-8136.

[7] 孟曈. 基于機器學習與可逆Sketch的DDoS攻擊檢測[D]. 西安:西安電子科技大學, 2020:92-92.(MENG T. DDoS intrusion detection based on machine learning and reversible sketch[D]. Xi’an: Xidian University, 2020: 92-92.)

[8] OSANAIYE O, CAI H, CHOO K K R, et al. Ensemble-based multi-filter feature selection method for DDoS detection in cloud computing[J]. EURASIP Journal on Wireless Communications and Networking, 2016, 2016: No.130.

[9] GU Y, LI K, GUO Z, et al. Semi-supervised k-means DDoS detection method using hybrid feature selection algorithm[J]. IEEE Access, 2019, 7: 64351-64365.

[10] PANDE S, KHAMPARIA A, GUPTA D, et al. DDOS detection using machine learning technique[M]// KHANNA A, SINGH A K, SWAROOP A. Recent Studies on Computational Intelligence: Doctoral Symposium on Computational Intelligence (DoSCI 2020), SCI 921. Singapore: Springer, 2021: 59-68.

[11] CHENG J, LI M, TANG X, et al. Flow correlation degree optimization driven random forest for detecting DDoS attacks in cloud computing[J]. Security and Communication Networks, 2018, 2018: No.6459326.

[12] LOUREN?O P, GODINHO S, SOUSA A, et al. Estimating tree aboveground biomass using multispectral satellite-based data in Mediterranean agroforestry system using random forest algorithm[J]. Remote Sensing Applications: Society and Environment, 2021, 23: No.100560.

[13] RIGATTI S J. Random forest[J]. Journal of Insurance Medicine, 2017, 47(1): 31-39.

[14] HESTERBERG T. Bootstrap[J]. WIREs: Computational Statistics, 2011, 3(6): 497-526.

[15] BREIMAN L, FRIEDMAN J H, OLSHEN R A, et al. Classification And Regression Trees (CART) [M]// Biometrics. [S.l]: Wadsworth, 1984: 358.

[16] BREIMAN L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.

[17] 李郅琴,杜建強,聶斌,等. 特征選擇方法綜述[J]. 計算機工程與應用, 2019, 55(24):10-19.(LI Z Q, DU J Q, NIE B, et al. Summary of feature selection methods[J]. Computer Engineering and Applications, 2019, 55(24): 10-19.)

[18] KIRA K, RENDELL L A. The feature selection problem: traditional methods and a new algorithm[C]// Proceedings of the 10th AAAI Conference on Artificial intelligence. Menlo Park, CA: AAAI Press, 1992: 129-134.

[19] MIKA S, RATSCH G, WESTON J, et al. Fisher discriminant analysis with kernels[C]// Neural Networks for Signal Processing IX: Proceedings of the 1999 IEEE Signal Processing Society Workshop. Piscataway: IEEE, 1999: 41-48.

[20] VERLEYSEN M, FRAN?OIS D. The curse of dimensionality in data mining and time series prediction[C]// Proceedings of the 2005 International Work-Conference on Artificial Neural Networks, LNCS 3512. Berlin: Springer, 2005: 758-770.

[21] TANGIRALA S. Evaluating the impact of GINI index and information gain on classification using decision tree classifier algorithm[J]. International Journal of Advanced Computer Science and Applications, 2020, 11(2): 612-619.

[22] RAO H, SHI X, RODRIGUE A K, et al. Feature selection based on artificial bee colony and gradient boosting decision tree[J]. Applied Soft Computing, 2019, 74: 634-642.

DDoS attack detection by random forest fused with feature selection

XU Jingcheng1,2,3, CHEN Xuebin1,2,3*, DONG Yanling1,2,3, YANG Jia1

(1,,063210,;2(),063210,;3,,063210,)

Exsiting machine learning-based methods for Distributed Denial-of-Service (DDoS) attack detection continue to increase in detection difficulty and cost when facing more and more complex network traffic and constantly increased data structures. To address these issues, a random forest DDoS attack detection method that integrates feature selection was proposed. In this method, the mean impurity algorithm based on Gini coefficient was used as the feature selection algorithm to reduce the dimensionality of DDoS abnormal traffic samples, thereby reducing training cost and improving training accuracy. Meanwhile, the feature selection algorithm was embedded into the single base learner of random forest, and the feature subset search range was reduced from all features to the features corresponding to a single base learner, which improved the coupling of the two algorithms and improved the model accuracy. Experimental results show that the model trained by the random forest DDoS attack detection method that integrates feature selection has a recall increased by 21.8 percentage points and an F1-score increased by 12.0 percentage points compared to the model before improvement under the premise of limiting decision tree number and training sample size, and both of them are also better than those of the traditional random forest detection scheme.

Distributed Denial-of-Service (DDoS); feature selection; Gini coefficient; mean impurity algorithm; random forest algorithm

1001-9081(2023)11-3497-07

10.11772/j.issn.1001-9081.2022111792

2022?12?06;

2023?03?02;

國家自然科學基金資助項目(U20A20179)。

徐精誠(1996—),男,江蘇常州人,碩士研究生,CCF會員,主要研究方向:數據安全、隱私保護; 陳學斌(1970—),男,河北唐山人,教授,博士,CCF杰出會員,主要研究方向:大數據安全、物聯網安全、網絡安全; 董燕靈(1998—),女,浙江寧波人,碩士研究生,CCF會員,主要研究方向:數據安全、隱私保護; 楊佳(1996—),男,河北唐山人,碩士研究生,主要研究方向:數據挖掘、網絡安全。

TP393.08

A

2023?03?03。

This work is partially supported by National Natural Science Foundation of China (U20A20179).

XU Jingcheng, born in 1996, M. S. candidate. His research interests include data security, privacy protection.

CHEN Xuebin, born in 1970, Ph. D., professor. His research interests include big data security, internet of things security, network security.

DONG Yanling, born in 1998, M. S. candidate. Her research interests include data security, privacy protection.

YANG Jia, born in 1996, M. S. candidate. His research interests include data mining, network security.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久综合五月| 天堂在线视频精品| 久久久久九九精品影院| 日韩中文字幕亚洲无线码| 亚洲无码精品在线播放| 国产成人AV综合久久| 亚洲欧洲美色一区二区三区| 亚洲国产精品一区二区高清无码久久| 国产精品福利一区二区久久| 一区二区三区国产| 亚洲成人免费在线| 欧美成人h精品网站| 在线色综合| 全色黄大色大片免费久久老太| 国产精品视频系列专区| 亚洲an第二区国产精品| 国产网站黄| 久久99精品国产麻豆宅宅| 成人午夜久久| 中国国产A一级毛片| 97超碰精品成人国产| 国产人成乱码视频免费观看| 国产爽歪歪免费视频在线观看| 色呦呦手机在线精品| 无码又爽又刺激的高潮视频| 五月天福利视频| 野花国产精品入口| 国产成人亚洲欧美激情| 国产成人久视频免费| 午夜福利视频一区| 国内a级毛片| 亚洲欧美成人综合| 99re热精品视频国产免费| 国产精品美女网站| 青青草国产免费国产| 2021国产精品自产拍在线观看| 亚洲三级影院| 亚洲AV无码久久天堂| 国产爽爽视频| 国产精品一区在线观看你懂的| 日韩中文欧美| 亚洲第一区欧美国产综合| 999福利激情视频| 在线亚洲精品自拍| 91尤物国产尤物福利在线| 色爽网免费视频| 夜精品a一区二区三区| 中国特黄美女一级视频| 免费高清a毛片| 福利视频99| 色噜噜综合网| 亚洲福利片无码最新在线播放| 国产精品免费p区| 色综合a怡红院怡红院首页| 色综合手机在线| 激情六月丁香婷婷| 99精品国产高清一区二区| 五月婷婷导航| 91久久国产热精品免费| 国产成人综合亚洲网址| 中文字幕1区2区| 亚洲色成人www在线观看| 国内熟女少妇一线天| 精品久久久久久成人AV| 国产亚洲视频中文字幕视频| 国产午夜在线观看视频| 无码粉嫩虎白一线天在线观看| 亚洲国产综合精品一区| 欧美激情第一欧美在线| 日本久久久久久免费网络| 日本不卡视频在线| 国产极品美女在线| 全午夜免费一级毛片| 亚洲成人在线免费| 日本黄色a视频| 青草视频久久| 综合亚洲网| 任我操在线视频| 亚洲永久色| 国产门事件在线| 久久五月天国产自| 亚洲欧洲美色一区二区三区|