張寶華 趙瑩



摘要:隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息安全成為一個極具挑戰(zhàn)性的研究領(lǐng)域。入侵檢測系統(tǒng)(IDS)作為網(wǎng)絡(luò)防御的一個重要角色,它對網(wǎng)絡(luò)中流量進行實時監(jiān)視,以識別各種網(wǎng)絡(luò)安全漏洞。本文提出了基于對稱不確定性特征提取和遺傳算法優(yōu)化參數(shù)組合的支持向量機(SU-GA-SVM)模型,并將其應(yīng)用于KDDCUP99數(shù)據(jù)集進行入侵檢測仿真實驗,實驗結(jié)果表明該分類器能夠有效地提高IDS的分類檢測精度,誤警率也明顯降低。
Abstract: With the rapid development of network technology, the security of network information has become a very challenging research field. As an important role of network defense, IDS monitors the traffic in the network in real time in order to identify various intrusions. This paper presents SU-GA-SVM model and uses it in KDDCUP'99 data set for intrusion detection simulation experiments. The experimental results show that the accuracy of the classifier can be effectively improved, and the false alarm rate is significantly reduced.
關(guān)鍵詞:入侵檢測;分類器;對稱不確定性;遺傳算法
Key words: intrusion detection;classifier;SU;GA
中圖分類號:TP393.0 文獻標(biāo)識碼:A 文章編號:1006-4311(2018)19-0227-04
0 引言
近年來,隨著網(wǎng)絡(luò)技術(shù)和規(guī)模的高速發(fā)展,人們越來越關(guān)注網(wǎng)絡(luò)信息安全。入侵檢測系統(tǒng)(Intrusion Detection System,IDS)是一種主動的網(wǎng)絡(luò)安全防御工具,它通過收集和分析網(wǎng)絡(luò)行為、安全日志、審計數(shù)據(jù)以及計算機系統(tǒng)中若干關(guān)鍵點的信息,檢查網(wǎng)絡(luò)或者系統(tǒng)中是否存在被攻擊的跡象或者是否存在違法安全策略的行為。入侵檢測系統(tǒng)作為防火墻之后的第二道安全閘門,它能夠?qū)崟r保護網(wǎng)絡(luò)系統(tǒng),讓其在受到各類內(nèi)部攻擊、外部攻擊和誤操作危害之前攔截和響應(yīng)入侵[1]。
近些年來,將機器學(xué)習(xí)的方法引入到入侵檢測系統(tǒng)中是一種趨勢。目前,出現(xiàn)了許多基于神經(jīng)網(wǎng)絡(luò)、支持向量機、樸素貝葉斯、決策樹等機器學(xué)習(xí)方法的入侵檢測系統(tǒng)。這些入侵檢測系統(tǒng)的功能是對網(wǎng)絡(luò)和計算機系統(tǒng)進行實時監(jiān)測,發(fā)現(xiàn)和識別系統(tǒng)中的入侵行為,并做出響應(yīng)[2]。
支持向量機(Support Vector Machine,SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的采用結(jié)構(gòu)風(fēng)險最小化原則的機器學(xué)習(xí)方法,它通過構(gòu)造最優(yōu)分類面,將未知樣本的分類誤差降到最小,且具備較強的泛化能力。有效解決了傳統(tǒng)學(xué)習(xí)方法中存在的非線性、小樣本、過擬合等問題。將支持向量機應(yīng)用于入侵檢測中,能夠充分發(fā)揮SVM的優(yōu)勢,有效地實現(xiàn)了IDS的檢測功能。但是,目前的網(wǎng)絡(luò)數(shù)據(jù)中存在大量冗余和噪聲變量,并且網(wǎng)絡(luò)環(huán)境中的正常樣本和入侵樣本是極度不平衡的,這些勢必會影響檢測模型的檢測性能[3]。另外,網(wǎng)絡(luò)連接數(shù)據(jù)是動態(tài)的,用單一的分類器參數(shù)對其分類,存在很大的不確定因素。因此,在本文中提出了基于對稱不確定性特征提取和遺傳算法優(yōu)化參數(shù)組合的支持向量機(SU-GA-SVM)模型,并利用KDDCUP99數(shù)據(jù)集對該模型進行模擬實驗。實驗表明,該方法能夠有效地提高檢測精度,降低誤警率。
1 相關(guān)工作
1.1 對稱不確定性(SU)
在香農(nóng)信息熵理論中,H(X|Y)表示在給定隨機變量Y={y1,y2,…,yj}下變量X的條件熵,H(X)表示隨機變量X={x1,x2,…,xi}的信息熵,分別定義為
信息增益值越大,表示兩個隨機變量X和Y之間的相關(guān)性越強。但實際上,由于隨機變量及其值會影響到IG(X|Y),需在此基礎(chǔ)上進一步同質(zhì)化,一個有效措施便是采用規(guī)范化的信息增益,即對稱不確定性SU(X,Y)。
給定兩個隨機變量X和Y,
通過統(tǒng)一規(guī)范化后,SU(X,Y)取值范圍為[0,1]。當(dāng)SU(X,Y)=0時,表示X和Y為兩個相互獨立的變量,而當(dāng)SU(X,Y)=1時,表示X和Y為兩個完全相關(guān)的變量。
通過對稱不確定性(SU)相關(guān)性度量,特征g和類別C之間的相關(guān)性(C相關(guān))可表示為SU(g,C),兩個不同特征gi和gj(i≠j)之間的相關(guān)性(F相關(guān))可表示為SU(gi,gj)。給定特征gi和gj,若SU(gi,C)>SU(gj,C),表示gi比gj包含的分類信息更多[4]。
1.2 支持向量機(SVM)
Vapnik等提出的基于統(tǒng)計學(xué)VC維理論和結(jié)構(gòu)風(fēng)險最小原理的支持向量機機器學(xué)習(xí)方法,在解決小樣本、非線性和高維模式識別中都便顯出特有的優(yōu)勢。SVM的工作原理是:首先通過適當(dāng)?shù)姆蔷€性變換,把低維空間的輸入變量變換到一個更高維的特征空間,然后構(gòu)造出一個最優(yōu)分類超平面,把輸入的兩類數(shù)據(jù)用此超平面盡可能多地正確分割開來。為此,構(gòu)造一個有約束的凸二次規(guī)劃問題:
將樣本集設(shè)為{(x1,y1),(x2,y2),…,(x2l,yl)}∈(x·y)l,其中,xi∈x?奐Rn為輸入向量,yi={-1,1}為xi的輸出向量,i=1,2,…,l。
如果樣本集近似滿足線性分類,問題將轉(zhuǎn)化為: