李 文
(廣東科貿職業學院 信息工程系,廣州 510640)
基于特征選擇的網絡入侵檢測模型研究
李 文
(廣東科貿職業學院 信息工程系,廣州 510640)
為了有效從收集的惡意數據中選擇特征去分析,保障網絡系統的安全與穩定,需要進行網絡入侵檢測模型研究;但目前方法是采用遺傳算法找出網絡入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優的特征子集,最后利用極限學習機對網絡入侵進行分類,但該方法準確性較低;為此,提出一種基于特征選擇的網絡入侵檢測模型研究方法;該方法首先以增強尋優性能為目標對網絡入侵檢測進行特征選擇,結合分析出的特征選擇利用特征屬性的Fisher比構造出特征子集的評價函數,然后結合計算出的特征子集評價函數進行支持向量機完成對基于特征選擇的網絡入侵檢測模型研究方法;仿真實驗表明,利用支持向量機對網絡入侵進行檢測能有效地提高入侵檢測的速度以及入侵檢測的準確性。
特征選擇;網絡入侵;Fisher比;支持向量機
隨著互聯網技術應用的日漸廣泛,互聯網絡的安全性以及可靠性越來越受到人們的關注[1]。互聯網絡平臺是一個雙邊平臺,具有共享性與開放性的特點,由于互聯網絡的開放性,加上入侵手段的多樣化[2],網絡的惡意入侵越來越頻繁。在這種情況下,如何提高網絡入侵的檢測率和檢測速度,保證互聯網絡的正常通信與數據運輸安全成為了網絡管理領域中急需解決的主要問題[3]。對于現有的網絡惡意入侵的檢測方法有很多,這是在不斷更新、不斷發展的網絡主動式的自我防御策略技術,利用網絡相互之間發生聯系時的動態特征來準確描述此時網絡是否受到了入侵,這項技術在當前網絡安全保護技術的發展中起著至關重要的作用[4]。隨著網絡復雜度的增高以及網絡需求速度的提升,惡意入侵行為日益增加,這是出現的明顯問題為不能對網絡傳輸的數據進行實時處理,網絡入侵檢測的復雜混亂特征的提純以及對入侵過程信息處理分析導致了對入侵檢測過程復雜度的增高,致使檢測時間加長[5]。而有效地對特征選擇的網絡入侵進行檢測是解決上述問題的有效途徑。已引起了該領域專家和學者的關注與重視,由于網絡入侵檢測具有廣泛的發展空間,因此,成為了計算機網絡檢測研究的核心,具有較大的發展潛力[6]。
近年來取得了一定的成果,裴恩斯提出了網絡入侵檢測系統的創建模型,根據該模型對網絡惡意入侵行為進行有效快速的檢測,利用在入侵過程主動記錄下的數據信息來構建關聯系統框架,通過對該框架的變化程度來對網絡入侵行為進行監測[7]。郎恩提出了基于神經網絡的檢測入侵系統,該系統利用圖論對網絡執行檢測入侵功能,解決大多數入侵識別檢測系統的穩定性不夠的問題,利用數據信息統計表來對不同種類入侵攻擊行為下存在的聯系以及區別,創建不同攻擊類型之間關系模型。王宇航提出了基于數據挖掘框架自適應的入侵檢測方法,通過審計程序對網絡會話連接的特征集進行提取,然后利用數據挖掘算法在數據特征集上表達入侵行為模式,采用這種模式對入侵進行指導。文獻[8]提出一種基于遺傳算法選擇特征的網絡入侵檢測方法,通過遺傳算法找出網絡入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優的特征子集,最后利用極限學習機對網絡入侵進行分類,但該方法存在準確性較低的問題。文獻[9]提出一種參數優化的特征選擇網絡入侵檢測方法。該方法首先將檢測的準確率作為問題優化的主要目標函數,網絡特征與參數作為約束條件建立檢測模型,通過對檢測模型進行求解,找出最優的特征子集和最優參數,但該方法存在過程較為復雜的問題。文獻[10]提出一種特征優化耦合的網絡入侵檢測模型。首先通過徑向函數將網絡特征映射到高維空間內對此進行計算,建立網絡特征和網絡入侵分類器間的聯系,在特征提取階段解決了分類器參數的設計問題,建立網絡入侵的檢測模型,但該方法存在檢測速度較慢的問題。
針對上述問題,提出一種基于特征選擇的網絡入侵檢測模型研究方法。該方法首先以增強尋優性能為目標對網絡入侵檢測進行特征選擇,結合分析出的特征選擇利用特征屬性的 Fisher 比構造出特征子集的評價函數,然后結合計算出的特征子集評價函數結果進行支持向量機完成對基于特征選擇的網絡入侵檢測模型研究方法。仿真實驗表明,利用支持向量機對網絡入侵進行檢測能有效地提高入侵檢測的速度以及入侵檢測的準確性。
首先以增強尋優性能為目標對網絡入侵檢測進行特征選擇,結合分析出的特征選擇利用特征屬性的 Fisher 比構造出特征子集的評價函數,然后結合計算出的特征子集評價函數結果進行支持向量機完成對基于特征選擇的網絡入侵檢測研究方法。具體步驟如下:
網絡入侵檢測的特征可用二進制字符來表示:S={s1,s2,…,sn},si∈{0,1},i=1,2,…,m,其中“1”代表較優特征,且被選中,反之,“0”代表沒有被選擇上的特征,m代表網絡入侵數據特征的整體維數,因此特征選擇的數學模型為:
(1)
由該公式可以推斷出,在網絡受到入侵的情況下,對滿足約束的最優特征子集的尋找是該問題中較為典型的組合優化問題。對網絡入侵中特征求取過程無法實現對特征的選擇,所以需要先對網絡入侵數據特征進行編碼。
特征選擇的目標是選擇較少的特征,獲取更高的網絡入侵檢測的檢測率,由此適應度函數的定義為:
(2)
公式(2)中,ωa為特征數量的權重,本文的取值是0.6,Nf為特征的總數,Acc為驗證集網絡入侵檢測的正確率,ωf是權重,本文的取值是0.4,fi為特征選擇的狀態,即:
(3)


(4)
(5)


(6)
(7)
為對特征選擇進行簡化計算,將網絡入侵檢測的數據樣本分為兩類:正常數據類與入侵數據類,稱為正類樣本和負類樣本,將網絡入侵檢測問題簡化為二分類問題。對上述的網絡樣本數據集X={x1,x2,…,xn},將X正類數據樣本集記為X1,負類數據樣本集X2,n1為正類樣本數,n2為負類數據樣本數,依據公式(6),公式(7)得:
(8)
(9)
Fisher比可以反映出網絡入侵特征檢測對數據分類的影響以及作用,該比值可大可小,比值越大,那么相對應的特征子集的分類能力就越強。因此,特征子集評價函數為:
(10)
結合上述分析出的網絡特征選擇為基礎,利用支持向量機對選擇出的特征進行分類,支持向量機為訓練數據集的子集,定義了超平面,把數據集分成2類。對于不能分成2類的情況,可把數據映射到高維特征空間中進行解決。支持向量機為凸優化問題,局部的最優解就是全局最優解。
假設有2類線性可分的數據樣本集合:(xi,yi),i=1,2,…,n,xi∈Rd,yi∈{+1,-1},滿足條件:
yi[(ω·xi)+b]-1≥0,i=1,2,…,n
(11)


(12)
其中:
a1≥0,i=1,2,…,n
(13)
約束條件為:
(14)
公式(14)中,a1表示Lagrange乘子,為二次函數尋優的問題,存在唯一的解。可證明,在方程解中存在部位0的a1,且不唯一,這些a1所對應的向量即為是支持向量機。根據以上的求解,得出最優分類面函數為:

(15)
假設最優分類面不能把2類點分開時,可通過引入松弛因子ξ(ξ≥0),這種情況下允許錯分數據樣本的存在。此時:
(16)
公式(16)中,C表示懲罰因子,可得出廣義的最優分類面。廣義最優分類面的對偶問題與線性分類情況完全相同,只是把公式(13)改為:
0≤ai≤C,I=1,2,…,n
(17)
對于分線性分類問題,可把相關關聯數據組進行映射處理,映射到高維空間后,進而實現關聯特征的線性分類來解決問題。此時特征相對應的分類函數為:
(18)

為了證明基于選擇特征的網絡入侵檢測模型研究方法的有效性,需要進行一次仿真實驗。選擇KDD2016數據集作為仿真對象,數據集包括拒絕攻擊(DoS)、未授權遠程訪問(Probe)、掃描與探測(R2L)以及對本地用戶非法訪問(R2R)4種攻擊方式,其余數據為正常數據。實驗采用Intel奔騰43.0CPU、內存為2 G的計算機上進行,在Matlab2016上進行編程實現。
為了使檢測結果更具有說服力,在相同的實驗下與相同的數據集進行對比實驗,在實驗中主要對文獻[8]給出的遺傳算法和文獻[9]給出的方法和本文方法進行特征選擇時的性能差異。在測試實驗中選取100次運行的平均值作為性能差異對比結果。
利用下述公式計算檢測率:
WA=NBce/NBei×100%
(19)
利用下述公式計算漏檢率:
CN=BAsd/BAfg×100%
(20)
其中:NBce表示網絡入侵數據次數、NBei表示網絡入侵異常次數、BAsd表示網絡入侵漏檢次數、BAfg表示網絡入侵全部次數。

表1 不同方法性能對比

圖1 不同方法的檢測率(%)
從表1和圖1 可看出,本文提出的基于特征選擇的網絡入侵檢測方法與文獻[8]中給出的遺傳算法和文獻[9]中給出方法相比較,在檢測時間方面,本文方法的時間最少、表現最好,網絡入侵的檢測率明顯高于文獻[8]和文獻[9]兩種方法,區別很明顯,能看出本文的方法能更有效地對網絡數據進行精簡,在檢測的時間以及檢測的準確性方面的表現明顯優于文獻[8]和文獻[9]中的方法,能有效地解決網絡入侵檢測特征選擇存在的問題,保證較高的準確率。

圖2 不同方法的網絡入侵適應度對比
由圖2可知,文獻[8]中給出的遺傳算法的適應度較差,雖然浮動很均勻,但隨著數據數目的增加,適應度越來越低,文獻[9]給出的方法雖然比文獻[8]的適應度會高一些,但總體來說可行性較差,本文所提方法的適應度較強,隨著數據數目的增加適應度也越來越高,雖然也略有波動,但和文獻[8]、文獻[9]相比,本文方法的網絡入侵檢測的適應度較高。

圖3 不同方法的數據漏檢率(%)對比
由圖3可看出文獻[8]給出方法的漏檢率隨著數據數目的增加,漏檢率越來越高,那么該方法檢測的準確性就會降低,文獻[9]給出方法的漏檢率相對于文獻[8]較低,但隨著數據數目的增加,漏檢率也在逐漸的提高,由此看出文獻[8]和文獻[9]給出的方法可行性較低,而本文方法隨著數據數目的增加漏檢率越來越低,由此可說明本文方法的準確性較高。
仿真實驗表明,本文所提方法能有效地提高對網絡入侵行為進行檢測,并且保證了入侵檢測的準確率。
采用遺傳算法找出網絡入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優的特征子集,最后利用極限學習機對網絡入侵進行分類,但該方法準確性較低。為此,提出一種基于征選擇的網絡入侵檢測模型研究方法。并通過實驗證明,本文所提方法能有效地提高特征選擇的網絡入侵檢測模型的準確性,具有廣泛的實用價值。
[1] 唐成華,劉鵬程,湯申生,等.基于特征選擇的模糊聚類異常入侵行為檢測[J].計算機研究與發展,2015,52(3):718-728.
[2] 張 拓,王建平.基于CQPSO-LSSVM的網絡入侵檢測模型[J].計算機工程與應用,2015,51(2):113-116.
[3] 劉白璐,楊雅輝,沈晴霓.一種基于遺傳算法的入侵早期特征選擇方法[J].小型微型計算機系統,2015,36(1):111-115.
[4] 黃春虎,努爾布力,解男男,等.基于Re-FCBF的入侵特征選擇算法研究[J].激光雜志,2016,37(1):103-107.
[5] 唐 喆,曹旭東.網頁分類中特征選擇方法的研究[J].電子設計工程,2016,24(5):120-122.
[6] 武小年,彭小金,楊宇洋,等.入侵檢測中基于SVM的兩級特征選擇方法[J].通信學報,2015,36(4):19-26.
[7] 姜 宏,陳庶樵,扈紅超,等.基于GAIG特征選擇算法的輕量化DDoS攻擊檢測方法[J].計算機應用研究,2016,33(2):502-506.
[8] 黃 亮,吳 帥,譚國律,等.基于EPSO-RVM的網絡入侵檢測模型[J].計算機工程與應用,2015,51(3):85-88.
[9] 梁 辰,李成海,周來恩.PCA-BP神經網絡入侵檢測方法[J].空軍工程大學學報:自然科學版,2016,17(6):93-98.
[10] 余文利,余建軍,方建文.一種新的基于KPCA和改進ε-SVM的入侵檢測模型[J].計算機工程與應用,2015,51(11):93-98.
Network Intrusion Model Based on Feature Selection Research
Li Wen
(Department of information Engineering, Guangdong Polytechnic of Science and Trade,Guangzhou 510640,China)
In order to effectively extract features from the malicious data collected to analyze, security network system security and stability, the need for network intrusion detection model is studied. But the current approach is to use genetic algorithm to find out the characteristics of the network intrusion subset of recycled for further selection of particle swarm optimization (pso), find out the optimal feature subset, finally using extreme learning machine classifying network intrusion, but this method has the problem of accuracy is low. Therefore, proposes a network intrusion detection methods based on feature selection. This method firstly in order to enhance optimal performance as the goal to feature selection of network intrusion detection, combined with analysis of characteristics of feature selection using the attributes of the Fisher than feature subset evaluation function is constructed, and combining with the feature subset of calculated results of evaluation function for support vector machine (SVM) to network intrusion detection based on feature selection methods. Simulation experiments show that support vector machine (SVM) is used to analyse the network intrusion detection can effectively improve the accuracy of the speed of intrusion detection and intrusion detection.
mobile application platform; Network security; Assessment
2017-04-15;
2017-04-26。
醫學院校課程考試與學業評價管理通用系統的改革與研究(桂教科研[2003]22號)。
李 文(1963-),男,廣西欽州人,碩士研究生,副教授,主要從事計算機網絡應用、軟件應用、網絡安全、大數據、云安全、軟件開發等方向的研究。
1671-4598(2017)08-0214-04
10.16526/j.cnki.11-4762/tp.2017.08.055
TP393
A