999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林與人工免疫的入侵檢測算法

2020-08-19 07:00:58張建偉桑永宣侯澤翔
計算機工程 2020年8期
關鍵詞:分類檢測

張 玲,張建偉,桑永宣,王 博,侯澤翔

(鄭州輕工業大學 軟件學院,鄭州 450002)

0 概述

入侵檢測系統[1]被證明是一種有效的網絡安全防御方式。研究人員將深度學習、支持向量機[2-3]、模糊集[4]、隱馬爾可夫[5]、隨機森林[6-8]、離群點算法[9]、人工免疫原理[10-12]等人工智能技術引入入侵檢測進行研究,取得了較大的進展[13-15]。

文獻[3]提出了一種多層次的混合入侵檢測模型,該模型利用支持向量機和極限學習機來提高檢測已知和未知攻擊的效率,采用K-means算法來構建高質量的訓練數據集,提高了分類器的性能。文獻[4]提出了一種采用修正密度峰值聚類算法和深度信念網絡的入侵檢測系統(MDPCA-DBN),該系統采用改進的密度峰值模糊聚類算法減少訓練集的大小,利用深度信念子網絡對數據進行分類,解決樣本的不平衡問題。文獻[5]設計并實現了基于網絡的反對抗隱馬爾可夫模型(AA-HMM),定義了一個模式熵的概念,使用動態窗口和閾值技術提高系統的自適應、抗競爭和在線學習能力。

文獻[6]受bagging算法和隨機分割選擇算法的啟發提出隨機森林(Random Forest,RF)分類算法。文獻[7]設計并實現了基于條件式自編碼、生成式對抗網絡和隨機森林的入侵檢測系統(AE-CGAN-RF),該系統采用自編碼技術對高維特征數據進行降維,利用生成式對抗網絡進行數據采樣,運用隨機森林的方法進行分類,解決了在大型網絡環境中出現的高維特征和數據不平衡問題。文獻[8]利用不同決策樹之間的相似度,約簡決策樹中的冗余值,用分類性能指標值作為隨機森林的權重值,提高網絡流量分類的可擴展性和檢測率。文獻[9]提出了一種混合多層次入侵檢測模型,利用離群點檢測算法對冗余數據進行約簡刪除,根據攻擊行為網絡流量的相似性,構建多層次隨機森林模型檢測網絡異常行為,提高網絡攻擊的檢測性能。文獻[10]提出一種動態克隆選擇算法。人工免疫系統通過一個類似于生物免疫系統的功能構建了動態、自適應的信息防御系統。為了抵抗外部無用和有害信息的入侵,并確保有效性和接收到無害信息,文獻[11]提出一種改進的克隆選擇算法,選擇較好的個體并進行克隆,提高入侵檢測的準確率,降低誤報率。

支持向量機、模糊集、離群點、隨機森林檢測算法需要對大量的樣本進行學習,獲得有效的決策規則,并且系統自適應能力較弱,因此針對小樣本數據進行學習的效果較差,導致入侵行為的誤檢和漏檢。人工免疫原理在自適應能力方面優于其他算法,但是存在過早收斂的現象。

本文提出一種基于隨機森林和人工免疫的入侵檢測算法(RFAIID),并構建抗體森林模型。針對樣本集中的小樣本,采用克隆選擇算法獲得優良的大樣本抗體集提高入侵檢測的自適應性,運用隨機森林算法提高入侵檢測率,降低誤報率。在KDD99數據集上對RFAIID算法的參數進行設置,并在小樣本集上驗證算法的自適應性和檢測性能。

1 RFAIID算法

RFAIID算法主要包括4個階段:

1)對訓練數據和測試數據進行預處理,將兩種數據集處理成統一格式的抗體集和抗原集。

2)數據選擇階段,對不同類型的抗體總數分別進行統計,對樣本數量較少的抗體集采用人工免疫算法提高抗體質量和數量。

3)對新的抗體集采用多代理隨機森林分類器。

4)對抗原進行檢測得到檢測結果,并將新的抗體加入抗體集。

RFAIID算法的功能結構如圖1所示。

圖1 RFAIID算法功能結構Fig.1 RFAIID algorithm function structure

抗體的數量和質量決定抗原的檢測性能指標的好壞。隨機森林算法對于決策樹數量較少時,分類能力較弱,只有當決策樹數量較大時,才能夠得到有效的分類結果。因此,針對小樣本的數據集采用基于人工免疫的抗體優化算法能獲得更優的抗體集。RFAIID算法的實現步驟如算法1所示。

算法1RFAIID算法

輸入數據集、參數KNormal、KDos、KProbe、KU2R、KR2L、激活閾值γ

輸出網絡異常行為檢測結果

1.用式(1)將數據集進行歸一化處理;

2.歸一化后的數據集劃分成訓練數據集和測試數據集;

3.用抗原定義對測試數據集進行預處理,用抗體定義對訓練數據集進行預處理;

4.將抗體分成不同的種類;

5.判斷抗體的數量,抗體優化得到新的抗體集;

6.將新的抗體集訓練成隨機抗體森林;

7.利用隨機抗體森林對抗原進行檢測,得到檢測結果;

8.將獲得的新的抗體用于更新隨機抗體森林。

1.1 數據集預處理

RFAIID算法的第一個步驟是對數據集進行預處理,訓練數據集歸一化處理成抗體集,待檢測數據處理成抗原。

設x為日志的屬性值,x∈[m1,m2],對RFAIID算法中的抗原和抗體的處理方法采用式(1)歸一化處理[12]。

(1)

其中,m和n分別取該數據域內的最小值和最大值。

根據抗原、抗體的定義對數據集進行預處理:

定義1a∈A,A?D,D={0,1}l,(l∈N,l>0),A為待檢測日志抗原集,D是由0和1代碼組成的長度為l的二進制字符串,抗原a為待檢測日志屬性的二進制字符串[12]。

定義2抗體b∈B,B{},d∈D,g∈N。其中,B為抗體集,s表示b的狀態屬性,取值為0000、0001、0010等,每種取值代表b的不同類型,g為b的生存時間,c為a和b匹配數量,N是正整數集。B=BI∪BT∪BM,BI代表未成熟抗體集合,BI={Ib|Ib∈B,Ib.s)=00},BT代表成熟抗體集合,BT={Tb|Tb∈B,Tb.s)=01},BM代表記憶抗體集合,BM={Mb|Mb∈B,Mb.s)=10}[12]。

1.2 基于人工免疫的抗體優化方法

抗體的數量和質量決定抗原的檢測性能指標的好壞。隨機森林算法對于決策樹數量較少時,分類能力較弱,只有當決策樹數量較大時能夠得到有效的分類結果。因此,針對小樣本的數據集采用基于人工免疫的抗體優化算法獲得更優的抗體集。基于人工免疫的抗體優化算法的實現步驟如算法2所示。

算法2基于人工免疫的抗體優化算法

輸入訓練抗體、參數KNormal、KDos、KProbe、KU2R、KR2L

輸出新的抗體集

1.BNormal=BProbe=BDos=BU2R=…=BR2L=?;/*存儲不同抗體的抗體集*/

for each b in抗體集

將網絡日志轉換為抗體;

判斷b.s的值,根據b.s的值分別將抗體加入不同的類型的抗體集,并進行計數;

end for

/*if (b.s==0000) then BNormal.add(b)數據取0時,表示該抗體的類別是Normal

else if(b.s==0001) then BProbe.add(b)數據類型值取1時,表示該抗體的類別是Probe

else if(b.s==0010) then BDos.add(b)數據取2時,表示該抗體的類別是DoS,等*/

2.for each 抗體集

if (計數值

抗體生成算法;

end for

1.3 新抗體生成方法

本文用三元組Ω=(A,B,Θ)表示免疫進化操作,A={S,N}表示抗原集合,S為自體集合,N為非自體集合,S∩N=φ,B=BI∪BT∪BM為抗體集,Θ表示抗體交叉、變異。在抗體的生命周期內,抗體不斷變化。RFAIID中采集到的日志信息是動態變化的,A隨著動態變化。新抗體生成演化過程如圖2所示。

圖2 抗體演化示意圖Fig.2 Schematic diagram of antibody evolution

a與b之間的親和度計算采用歐拉(Euclidean)形態空間的歐拉距離計算方法[12]。

抗體優化算法如算法3所示。

算法3抗體優化算法

輸入選擇抗體,參數T1、T2、γ

輸出新的抗體

1.選擇適應度高的記憶抗體進行高斯變異;

2.將變異后的抗體注入BI;

3.隨機生成未成熟抗體,注入BI;

4.未成熟抗體在生存時間T1內,如果大于T1,則刪除該未成熟抗體,否則計算抗體與抗原適應度;

5.抗體匹配到任何一個抗原,則刪除抗體,否則注入BT;

6.成熟抗體T2內,判斷是否大于激活閾值,大于則刪除成熟抗體,小于則激活;

7.將激活的成熟抗體注入BM,轉步驟1。

1.4 隨機抗體森林檢測策略

RF是包含多個相同分布的決策樹集合,每個決策樹依賴于一個獨立的隨機向量[16]。RF的基本思想如下:在包含N個訓練樣本的數據集X中,通過有放回地隨機的方式獲取k個樣本(0

為彌補因抗體樣本數量的不足導致的較高的檢測錯誤率,并獲得優良的抗體提高檢出率,降低誤檢率,本文借鑒隨機森林和人工免疫理論對抗體決策樹設計了隨機抗體森林檢測策略。隨機抗體森林檢測策略模型如圖3所示。

圖3 隨機抗體森林檢測模型Fig.3 Random antibody forest detection model

提高抗體森林分類模型的外推預測能力對入侵檢測至關重要,因此需要生成不同的抗體集來增加抗體森林分類模型之間的差異,通過k輪的訓練,得到一個抗體決策樹集合{h1(b),h2(b),…,hk(b)},再經過少數服從多數的投票法,得到最終的抗體森林:

(2)

其中,H(b)是抗體森林分類模型,hi(b)是單個決策抗體樹的分類結果,Y表示抗體檢測抗原的輸出目標變量,I(·)是抗體森林代表的示性函數,運用抗體決策樹對抗原進行檢測,檢測結果為ai.lable,例如檢測結果為Probe,用式(3)計算I(·):

(3)

隨機抗體森林檢測算法如算法4所示。

算法4隨機抗體森林檢測算法

輸入抗體集

輸出抗原的檢測結果

1.對于每種類型的抗體集生成不剪枝的抗體決策樹集合,用式(2)生成抗體森林H(b);

2.用抗體森林H(b)對抗原進行檢測;

3.如果檢測結果為正常,轉步驟1;

4.如果檢測結果為一種類型的攻擊行為,將抗原轉化為抗體,將抗體加入抗體集,轉步驟1。

2 仿真結果與分析

2.1 測試數據和性能指標

采用美國林肯實驗室提供的KDD數據集[19]進行實驗仿真,研究RFAIID算法的性能。實驗中采取數據集中的kddcup.data_10_percent作為數據源。數據集中包含Normal、Dos、Probe、U2R和R2L 5種樣本。

實驗仿真中抽取50 000條數據,根據文獻[12]將訓練數據集轉化成抗體,測試數據集預處理成抗原,抗原的長度為92,檢測器(記憶抗體)的長度取值95、耐受期未成熟抗體的生命周期取值40、成熟抗體的生命周期取值50、激活閾值γ=5[20]。非記憶抗體的數量設置為100,抗體與抗原的匹配半徑在2.2節給出。

RFAIID算法用C編碼,所有的實驗在Linux平臺下運行(Intel Pentium Dual CPU E2180,16 GB RAM)。

IDS的檢測結果包括TP、TN、FP和FN4種[12]。TN和TP對應IDS的正確預測的總數,即樣本被正確分類為正常行為的數量或攻擊的數量;FP和FN則對應IDS的錯誤分類的總數,FP指正常樣本被誤分類為攻擊行為的數量,FN指攻擊樣本被錯誤識別為正常的總數。

RFAIID算法的性能評估指標主要包括以下5種:

1)抗體檢測率DR是指抗原集中攻擊行為被正確分類的比例,用式(4)計算抗體檢測率。

(4)

2)抗體誤報率FAR是指抗原集中所有被誤識別為攻擊的正??乖瓊€數與測試集中正??乖倲档谋戎?用式(5)計算抗體誤報率。

(5)

3)抗體精確率Pre是指抗原集中所有被IDS識別為攻擊抗原中真正為攻擊抗原的比值,用式(6)計算抗體精確率。

(6)

4)抗體分類準確率Acc是指抗原集中被正確分類的抗原個數與抗原集樣本總數的比值,是一個反映IDS對正??乖凸艨乖瓍^分能力大小的總體評價指標,用式(7)計算抗體準確率。

(7)

5)F1-score是綜合評價IDS對抗原檢測率和精確率的一個指標,用式(8)計算抗體F1-score指標。

(8)

2.2 匹配半徑

為了確定算法3中抗體和抗原的匹配半徑的值,對訓練數據集中所有異??贵w標記為異常,生成抗體森林,對測試集進行異常檢測,分別設置匹配半徑值為30~50的21個整數值,取10%的數據進行交叉實驗,運行10次,取平均值。檢測結果如圖4所示。

圖4 不同半徑下的檢測結果Fig.4 Detection results under different radius

圖4給出了在不同的匹配半徑下抗原的檢測率和誤報率。由檢測結果得出隨著檢測半徑的增大,檢測率增大,誤報率降低。當檢測半徑長度為41時,檢測率為94.8%,誤報率為6.2%。當檢測半徑大于41時,檢測率和誤報率趨于穩定。在后面的實驗中,取檢測半徑值為41。

2.3 參數K的設置

樣本集中不同類型的樣本數量差別較大,當樣本數量較少時,在分類效果上處于劣勢。針對不同的訓練樣本集,數據集抽樣原則如下:

1)DoS攻擊:Dos攻擊的訓練集包含391 458條樣本,屬于大樣本數據集。實驗中取10組訓練樣本集,每組隨機取訓練數據集中2%、5%、10%、15%、20%、21%、22%、23%、24%和25%的樣本集進行訓練得到抗體森林,采用測試集進行檢測,每組數據運行10次取平均值。

2)Normal:KDD99數據集中包含97 278條正常樣本,雖然屬于大樣本數據集,為了計算KDos值,將Normal樣本轉化成正??贵w,進行克隆選擇得到新抗體集、新抗體集和Dos攻擊數值相同的數據集。在計算Probe和R2L攻擊的檢出率時,取相同的樣本集。

3)Probe:Probe攻擊訓練樣本數為4 107條,為小樣本集。前3組分別取樣本集中的樣本,啟動克隆選擇算法獲得后7組抗體集。每組數據運行10次得到抗體森林,并對測試集進行檢測。

4)R2L:R2L攻擊訓練樣本數為1 126條,屬于小樣本集。前2組分別取樣本集中的樣本,啟動克隆選擇算法獲得后8組抗體集。每組數據運行10次得到抗體森林,并對測試集進行檢測。

5)U2R:U2R攻擊訓練樣本數為52條,屬于極小樣本集。第1組取全部樣本,啟動克隆選擇算法獲得后9組抗體集。每組數據運行10次得到抗體森林,并對測試集進行檢測。不同樣本集的抽樣數量如表1所示,實驗仿真結果如圖5所示。

表1 實驗樣本數Table 1 Nunber of experimental samples

圖5 不同攻擊識別結果Fig.5 Recognition results of different attacks

從圖5檢測結果可以得出,隨著抗體樣本數量的增加,抗原檢測率隨之增加,當樣本集增大到一定數量時,檢測率趨于穩定,檢測率穩定的拐點設置為樣本數值K。

1)隨著DoS攻擊抗體樣本數量的增加,檢測率隨之增加。當抗體樣本數量為40 000條時,DR值趨于穩定,KDos值為40 000,對應的正常樣本數為40 000條。

2)隨著抗體Probe攻擊樣本數量的增加,檢測率隨之增加。當抗原Probe攻擊樣本數量為8 000條時,DR值趨于穩定。因此,取KProbe值為8 000,對應的正常樣本數為88 000條 。

3)隨著R2L攻擊抗體樣本數量的增加,檢測率隨之增加。當抗原R2L攻擊樣本數量為3 500條時,DR值趨于穩定。因此,取KR2L值為3 500,對應的正常樣本數為88 000條。

4)從識別結果可以得出,隨著抗原U2R攻擊樣本數量的增加,檢測率隨之增加。當抗原U2R攻擊樣本數量為200條時,DR值趨于穩定。因此,取KR2L值為200,對應的正常樣本數為60 000條。

綜合以上4種情況,隨著樣本集數量的增多,檢測率隨之增加,證明本文提出的RFAIID算法具有可擴展性,通過實驗得到KNormal=88 000,KDoS=40 000,KProbe=8 000,KR2L=200。

2.4 RFAIID算法的分類性能和其他算法的比較

為了更好地驗證本文提出的算法,在KDD99數據集上運行RFAIID算法,算法的參數詳見2.1節~2.3節。將RFAIID與概述部分的算法進行對比,將所有攻擊行為作為異常樣本進行檢測。由于異常樣本屬于大樣本數據集,因此參照Dos攻擊,每組隨機取訓練數據集中10%、15%、20%、21%、22%、23%、24%和25%的樣本集進行訓練得到抗體森林,采用測試集進行檢測,每組數據運行10次得到平均值。不同算法異常檢測性能對比結果如表2所示,N/A表示結果不明確。

表2 不同算法異常檢測性能比較Table 2 Comparison of abnormal detection performances of different algorithms

從表2結果可以看出,本文提出的RFAIID算法檢測率比文獻[3]低0.010 7,準確率高0.007 2,誤報率低0.007 1,性能相近;比文獻[11]提出的改進克隆選擇算法的性能差;檢測性能比其他算法要高。

為測試RFAIID算法的分類性能,尤其是對小樣本數據集的檢測,將RFAIID算法和表2中算法進行比較,不同攻擊類型下的算法檢測率比較如表3所示。

表3 不同算法分類性能比較Table 3 Comparison of classification performance of different algorithms

從表3可以看出,本文提出的RFAIID算法對小樣本數據Probe、U2R和R2L攻擊的檢測性能優于其他算法。因此,得出RFAIID算法對各種攻擊的檢測率都較高,可提高算法的自適應能力,對小樣本的檢測性能較高。

3 結束語

在網絡異常檢測中,訓練集樣本的數量和質量決定了檢測的性能。目前較多入侵檢測系統的自適應能力較差,小樣本數據檢測率較低。針對該問題,本文提出一種基于隨機森林和人工免疫的入侵檢測算法(RFAIID),并構建了抗體森林的模型。通過人工免疫算法提高系統的自適應能力,針對小樣本數據提取較優良的抗體,提高檢測性能,并結合人工免疫算法給出抗體森林檢測的分類方法。實驗結果表明,該算法具有較好的自適應能力,且檢測率較高。由于算法中的冗余屬性影響檢測速度,因此下一步將對冗余屬性進行降維。

猜你喜歡
分類檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
“幾何圖形”檢測題
“角”檢測題
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产成人精品男人的天堂| 亚洲福利片无码最新在线播放| 亚洲视频影院| 久久99这里精品8国产| 激情六月丁香婷婷| 99久久精品免费看国产免费软件| 婷婷亚洲最大| 亚洲国产高清精品线久久| 色婷婷国产精品视频| 日韩无码视频专区| 99视频在线精品免费观看6| 国产全黄a一级毛片| 国产精品三级专区| 青青草91视频| 国产主播一区二区三区| 久久成人18免费| 国产福利一区视频| 亚洲天堂视频在线播放| 91精选国产大片| 毛片免费观看视频| 永久天堂网Av| 国产午夜无码专区喷水| 亚洲精品在线影院| 日本高清免费一本在线观看| 国产午夜无码专区喷水| 偷拍久久网| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品hd在线播放| 日韩欧美中文亚洲高清在线| 色成人综合| 国产最爽的乱婬视频国语对白| 88av在线| 激情无码字幕综合| 激情网址在线观看| 国产91丝袜在线观看| 六月婷婷综合| 国产激情无码一区二区免费| 亚洲中文字幕在线观看| 亚洲视频在线网| 夜精品a一区二区三区| 日本国产精品一区久久久| 在线观看av永久| 欧美日韩中文字幕在线| 日韩无码视频播放| 99热国产在线精品99| 凹凸国产分类在线观看| 老司国产精品视频91| 日本成人一区| 国产精品美乳| 国产一区二区三区在线观看视频| 日韩毛片免费观看| 免费无码网站| 九九热精品视频在线| 成人日韩视频| 国产成人一区免费观看| 88av在线| 日韩在线第三页| 大学生久久香蕉国产线观看| 国产黄在线免费观看| 欧美在线一级片| 亚洲色欲色欲www网| 456亚洲人成高清在线| 国产精品久久久精品三级| 亚洲成人精品在线| 免费高清自慰一区二区三区| 好吊色妇女免费视频免费| 毛片手机在线看| 18禁不卡免费网站| 丝袜国产一区| 中文字幕免费在线视频| 日韩免费毛片| 国产精品自在在线午夜| 免费一级毛片不卡在线播放| 日本在线亚洲| 色屁屁一区二区三区视频国产| 91久久夜色精品国产网站| 久久福利网| 欧美亚洲国产一区| 18黑白丝水手服自慰喷水网站| 国产大片喷水在线在线视频| 996免费视频国产在线播放| 亚洲免费播放|