馬勇
遺傳模糊系統結合迭代規則學習的網絡入侵檢測方案
馬勇
針對計算機網絡中安全性問題,提出一種遺傳模糊系統結合迭代規則學習的網絡入侵檢測方案。首先,通過一種啟發式過程來確定每個模糊if-then規則后件類和確定性分數。然后,利用遺傳算法的交叉和變異操作來進化模糊系統的規則,形成遺傳模糊系統。最后,利用迭代規則學習算法優化遺傳模糊系統的規則庫,獲得最優模糊模型,實現入侵檢測。在DARPA數據集上進行實驗,結果表明該方案能夠精確的檢測U2R、R2L、DoS和PRB類網絡攻擊,具有很高的安全性。
網絡入侵檢測;遺傳模糊系統;迭代規則學習;規則庫優化
當前計算機網絡盡管具有多重安全策略,譬如,訪問控制、加密以及防火墻的應用,然而,網絡安全的漏洞還是與日俱增。因此,迫切需要智能的入侵檢測系統(Intrusion Detection System,IDS)來自動地檢測新型的入侵行為[1]。
基于模糊if-then規則[2]的模糊系統在很多應用領域已得到成功應用。學者們也提出了多種基于模糊系統的IDS,例如,文獻[3]提出一種基于模糊規則學習模型的入侵檢測方案,創建了基于權重的模糊檢測規則,并引入一種反饋學習算法,用于對檢測規則的改進。文獻[4]提出一種基于模糊關聯規則挖掘的入侵檢測方案,實現了從數據集屬性到模糊映射的過程,并利用K-means聚類算法為量化屬性建立模糊集合和模糊隸屬函數,增強關聯規則的客觀性。
一般情況下,若模糊模型的精確性較高,其解釋性相對較差。而具備較高解釋性的模糊模型,其精確性又較低[5]。由于模糊邏輯的知識表達能力與進化計算的全局自學習能力可以互補[6]。所以,可引用進化計算來改進模糊系統。其中,遺傳算法是進化計算理論體系中最具代表性的算法,因此可形成一種有效的遺傳模糊系統[7]。然而,傳統遺傳模糊系統中,通過遺傳算法優化模糊模型中的單條規則。但是,單條規則并不能表示整個模型規則的性能,且編碼方式對于單條規則沒有局部尋優能力,容易造成獲得的模糊模型為全局次優解[8]。
本文針對傳統遺傳模糊系統的缺陷,提出一種融合迭代規則學習(Iterative Rule Learning,IRL)算法的改進型遺傳模糊系統,用于網絡入侵的檢測。首先,通過一種啟發式過程來確定每個模糊if-then規則后件類和確定性分數。然后,利用Michigan型遺傳算法進化模糊系統的規則,進行協同進化,獲得遺傳模糊系統。最后,通過迭代學習算法優化規則庫,最終形成最優模糊模型,實現網絡入侵檢測。實驗結果表明,本文方案能夠精確地檢測網絡攻擊。
在遺傳模糊系統中,將遺傳算法與模糊邏輯相結合,利用遺傳算法的全局自學習能力來彌補模糊邏輯中規則表達能力的缺陷。
本文中,首先通過一種啟發式過程來確定每個模糊if-then規則后件類和確定性分數。然后,利用Michigan型遺傳算法,通過交叉和變異操作來進化模糊系統的規則,產生高分類率的模糊規則,以此產生協同進化后的遺傳模糊系統。
1.1模糊規則
本文假設模式分類問題為具有連續屬性的n-維模式空間中的c-類問題。同時還假設給定m個實向量xp=(xp1,xp2,,xpn),p=1,2,,m ,并將其作為來自c個類的訓練模式c≤m。
由于模式空間為[0,1]n,所以每種模式的屬性值為xpi∈[0,1],p=1,2,,m;i=1,2,,n 。在本文中,將每個數據集的屬性值規范化到單位區間[0,1]。
本文提出的模糊分類器系統中,使用如下形式的if-then規則。xxA
規則Rj:If1為Aj1,…,n 為jn,Then類Cj滿足CF=CFj。
其中,Rj為第j個if-then規則的標簽,Aji,,Ajn為單位區間[0,1]上的前件模糊集,CjR為后件類(即給定C類中的一類),CFj為模糊if-then規則j的確定性分數。本文將一組典型的語言值用作圖1中的前件模糊集,并通過把每種屬性域劃分為對稱的三角模糊集,明確圖1中每個語言值的隸屬函數。值得注意的是,對于特定模式分類問題,本文在模糊分類系統中可以使用任何定制的隸屬度函數,如圖1所示:

圖1 五個語言值的隸屬度函數(S:小,MS:中小,M:中,ML:中大,L:大)
在n維模式分類問題中,模糊if-then規則的總數為5n。當屬性的數量(即n)很大時(如n=n41的入侵檢測問題),有可能在單模糊規則庫中使用所有5個模糊if-then規則。
本文模糊分類系統搜索相對數量較小的具有高分類能力的模糊if-then規則(如100個規則)。由于每個模糊if-then規則的后件類和確定性分數可以通過簡單的啟發式過程從訓練模式中確定,所以本文模糊分類系統的任務是,為一個模糊if-then規則集生成前件模糊集的組合。然而,該任務對于高維模式分類器問題來說是很難的,因為搜尋空間涉及5n個組合(如在n=13時,多于1000萬個)。
為此,在本文模糊分類器系統中,通過利用啟發式過程來確定每個模糊if-then后件類Ci和確定性分數CFj。步驟如下描述。
1.2Ci和CFj的確定
步驟1:通過下式運算,計算具有模糊if-then規則Rj的每個訓練模式的兼容性如公式(1):

公式(1)中,μji(xpi)為第p個模式中第i個屬性的隸屬度函數。
步驟2:對于每個類,計算具有模糊if-then規則Rj的訓練模式的兼容性分數如公式(2):

公式(2)中,βClass(Rj)為類h中具有模糊if-then規則Rj的訓練模式的兼容性分數總和。NClass為對應類為h的訓練模式的數量。
步驟3:找出具有最大βClass h(Rj)值的類如公式(3):

如果兩個或更多的類具有最大值,則不能確定唯一模糊if-then規則的后件類Cj。在這種情況下,令Cj為φ。如果沒有與模糊if-then規則Rj相配的訓練模式(即,對于h=1,2,,c ,βClassh(Rj)=0),則還將后件類Cj指定為φ。
步驟4:如果后件類Cj為φ,則令模糊if-then規則Rj的確定性分數CFj=0。否則,用以下公式計算確定性分數CFj如公式(4)、(5):

通過本文提出的啟發式過程,可以指定任意前件模糊集組合的后件類和確定性分數。
本文模糊分類器系統的任務是生成前件模糊集的組合,用以生成具有高分類能力的規則集S。然后,通過S中的單優先規則Rj 來分類xp=(xp1,xp2,,xpn),其確定如公式(6):

也就是說,優先原則選出具有最大兼容性和確定性分數CFj。如果不存在與輸入的模式xp一致的模糊規則(即,對于VRj∈S ,μj(xp)=0),則拒絕分類。
本文中,將每個模糊if-then規則編碼為字符串。利用下面的符號來表示五個語言值:1:小;2:中小;3:中;4:中大,5:大。例如,若模糊if-then規則被編碼為“1342”,即x1為小,x2為中,x3為中大,x4為中小,則類cj滿足CF=CFj。
1.3遺傳算法進化模糊規則
本文中利用的Michigan型遺傳模糊系統中,遺傳算法首先根據問題的分類數,預先給定一個冗余的初始聚類數c,即模糊模型的規則數。然后,初始化種群,初始種群由模糊聚類所產生的初始模糊模型采用實數編碼方式構成[9]。
隨機選擇種群中的染色體Ri,其適應度計算方法為:根據該染色體所代表的模糊規則的后件類標,計算訓練樣本中屬于該類的樣本數,設為Ni。計算該條規則對此Ni個樣本的錯誤劃分數Ei。計算該條規則的適應度函數值P(Ri)=Ei/Ni。
Michigan型遺傳模糊系統的執行步驟如下:
步驟1:利用聚類算法產生有c條模糊if-then規則的初始模糊模型,由初始模糊模型編碼產生初始種群。
步驟2:計算當前種群中的每一條染色體的適應度函數值。
步驟3:根據每條染色體的適應度值,通過二進制錦標賽選擇、交叉和變異產生Nreplace條新染色體,其中交叉和變異率預先設定。
步驟4:利用新產生的Nreplace條新染色體替代當前種群中Nreplace條適應度較低的染色體,產生下一代種群,并計算該種群對于訓練樣本的錯誤劃分數。
步驟5:重復步驟2-4,直至達到最大遺傳代數為止。
最終,把對樣本錯誤劃分數最小的種群作為所獲得的最優模糊模型。
本文針對傳統遺傳模糊系統的缺陷,提出一種基于迭代規則學習(IRL)的遺傳模糊系統,其是遺傳分類方法的一種升級算法。通過調用遺傳模糊規則生成算法,以增量的方式創建模糊規則庫。每次迭代時,選出對當前分布具有最好分類效果的模糊規則,并將其加入模糊規則庫,如圖2所示:

圖2 改進的遺傳模糊分類器的體系結構
本文將迭代規則學習算法應用到模糊規則庫系統設計中。由于本文進化算法一次優化一個模糊分類器規則,所以模糊規則庫是以增量的方式生成。升級算法利用新規則能夠有效減少分類器中訓練實例的權值。因此,下一條規則的生成過程主要專注于對目前未涉及或分類錯誤的實例,以給出解釋性的模糊規則。模糊規則的確定度反映了當升級算法分配規則類的相對強度。
在上面的學習框架中,本文提出的適應度函數如公式(7)~(16)所示:


其中,
f1:規則R1(第一個目標)所覆蓋的訓練實例數。
wk:反映訓練集中實例xk頻率的權值。
ci:Ri的類標簽。
kcov:一個實數,表示規則應覆蓋的部分實例的數量。
f2:規則的通用性(第二個目標)。:規則R1所覆蓋的正確分類加權實例的數目。:規則R1所覆蓋的錯誤分類加權實例的數目。
k:一個單獨規則所制造的錯誤的最大容忍度。
f3:第一個一致性準則(第三個目標)。:不考慮權值wk時,錯誤分類實例的數目。:不考慮權值wk時,正確分類實例的數目。
f4:第二個一致性準則(第四個目標)。
根據方程(17)和(18)計算每個模糊規則的確定性因子如公式(17)、(18)所示:

根據方程(19)改變訓練樣本的權值如公式(19)、(20):

3.1實驗環境
本文利用國際標準入侵檢測評估數據集DARPA[10]上進行實驗。數據庫由正常和惡意通訊相關的大量網絡連接組成,每條連接用41維的特征向量表示,并將連接標記屬于5類中的哪一類。這些類中的一個子類為正常類,其余為4個為不同的入侵類。4種入侵類分別為:探測(PRB)攻擊、拒絕服務(DoS)攻擊、非法遠程闖(R2L)攻擊和非法提升權限(U2R)攻擊。這些入侵類中包含了計算機網絡中22種不同的攻擊,4個入侵類的樣本數如表1所示:

表1 4種不同入侵類中不同類攻擊的分類
本文從這些數據集中選擇650個樣本作為訓練集,選擇6500個樣本作為測試集,訓練和測試集樣本數量如表2所示:

表2 訓練和測試集樣本數量
在本文提出的基于遺傳模糊系統的IDS中,設定遺傳算法所使用的參數如下:種群大小為100;交叉概率為0.9;變異概率為0.1;最大遺傳代數為20。迭代學習算法中的參數設定為:規則涉及的實例分數(kcoov)為0.5;單獨規則產生的錯誤的最大容忍度(k)為0.2。
3.2性能分析
首先,對本文IDS系統進行入侵檢測性能分析實驗,本文遺傳模糊系統分類網絡的混淆矩陣如表3所示:

表3 本文IDS入侵檢測的混淆矩陣
可以看出,本文系統對于正常類、U2R、R2L、DoS和PRB類的分類準確率分別為90.8%、81.4%、83.2%、97.8%和83.9%,整體平均準確識別率達到了87.36%。這說明,本文IDS具有較高的正確檢測率。
然后,將本文系統與現有入侵檢測方案:文獻[3]和文獻[4]方案進行比較。各種IDS的性能比較如表4所示:

表4 各種IDS的入侵檢測分類準確率比較
可以看出,本文IDS的性能在R2L和DoS類的分類率明顯高于其他方案,整體準確分類率也遠遠高于其它方案,分別比文獻[3]和文獻[4]方案性能提高了10.06%和6.5%和。這是因為本文使用的基于迭代規則學習改進型遺傳模糊系統的IDS比其他方法更可靠。
本文提出一種遺傳模糊系統結合迭代規則學習的網絡入侵檢測方案。通過一種啟發式過程來確定每個模糊if-then規則后件類和確定性分數。利用遺傳算法的交叉和變異操作來進化模糊系統的規則,形成遺傳模糊系統。利用迭代規則學習算法優化遺傳模糊系統的規則庫,獲得最優模糊模型,實現入侵檢測。實驗表明,本文方法對U2R、R2L、DoS和PRB類攻擊的整體檢測率達到了87.36%,具有很高的性能。
在今后工作中,將考慮使用多目標演化模糊系統來提取一個易于理解的模糊分類器,進一步提高本文IDS性能。
[1] 田志宏, 王佰玲, 張偉哲,等. 基于上下文驗證的網絡入侵檢測模型[J]. 計算機研究與發展, 2013,50(3):498-508.
[2] 李晶皎, 許哲萬, 王愛俠,等. 基于移動模糊推理的DoS攻擊檢測方法[J]. 東北大學學報:自然科學版,2012, 33(10):1394-1398.
[3] Elhag S, Fernández A, Bawakid A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on Intrusion Detection Systems[J]. Expert Systems with Applications, 2015,42(1):193-202.
[4] Khamphakdee N, Benjamas N, Saiyod S. Improving Intrusion Detection System Based on Snort Rules for Network Probe Attacks Detection with Association Rules Technique of Data Mining[J]. Journal of Ict Research & Applications, 2015, 8(3):234-250.
[5] 武玉剛, 秦勇, 宋繼光,等. 基于關聯規則的入侵檢測算法研究綜述[J]. 計算機工程與設計, 2011,32(3):834-838.
[6] 周豫蘋, 方建安. 神經模糊理論在入侵檢測系統中的應用研究[J]. 微電子學與計算機, 2010, 27(9):126-129.
[7] Hassan M M M. Current Studies On Intrusion Detection System, Genetic Algorithm And Fuzzy Logic[J]. International Journal of Distributed & Parallel Systems, 2013,4(2):79-91.
[8] 朱長江, 柴秀麗. 基于改進遺傳算法的模糊聚類研究及應用[J]. 科學技術與工程, 2013, 13(10):2863-2866.
[9] Acampora G. Exploiting timed automata based fuzzy controllers for designing adaptive intrusion detection systems[J]. Soft Computing, 2012, 16(7):1183-1196.
[10] Beigh B M. A New Classification Scheme for Intrusion Detection Systems[J]. International Journal of Computer Network & Information Security, 2014, 6(8):158-169.
A Network Intrusion Detection Schemer Base on Genetic Fuzzy System and Iterative Rule Learning
Ma Yong
(Sichuan Engineering Technical College, Deyang 618000, China)
For the issues that the security problem of computer network, a network intrusion detection schemer base on genetic fuzzy system and iterative rule learning is proposed. Firstly, a heuristic procedure is set to determine the consequent class and the certainty score of each fuzzy if-then rule. Then, the rules of fuzzy system are evolved by crossover and mutation operations of the Michigan genetic algorithm, to generate the fuzzy rules system. Finally, the iterative rule learning is used to optimize the genetic fuzzy system rule base, to obtain the optimal fuzzy model. Experiments on DARPA data sets show that the proposed scheme can accurately detect U2R, R2L, DoS and PRB attacks, and has high security.
Network Intrusion Detection; Genetic Fuzzy System; Iterative Rule Learning; Optimize Rule Base
TP393
A
1007-757X(2016)05-0025-04
2016.01.02)
四川省高校重點實驗室項目(2014WZY05)
馬 勇(1959-),男(漢),四川什邡人,四川工業職業技術學院,電氣信息工程系,副教授,研究方向:網絡安全、web挖掘等,德陽,618000