999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監督學習和信息增益率的入侵檢測方案

2017-11-07 10:11:26許勐璠李興華馬建峰
計算機研究與發展 2017年10期
關鍵詞:特征檢測模型

許勐璠 李興華 劉 海 鐘 成 馬建峰

(西安電子科技大學網絡與信息安全學院 西安 710071)(812455541@qq.com)

2017-06-11;

2017-08-03

國家自然科學基金項目(U170820014,61372075,U1135002,61672408) This work was supported by the National Natural Science Foundation of China (U170820014, 61372075, U1135002, 61672408).

李興華(xhli1@mail.xidian.edu.cn)

基于半監督學習和信息增益率的入侵檢測方案

許勐璠 李興華 劉 海 鐘 成 馬建峰

(西安電子科技大學網絡與信息安全學院 西安 710071)(812455541@qq.com)

針對現有未知攻擊檢測方法僅定性選取特征而導致檢測精度較低的問題,提出一種基于半監督學習和信息增益率的入侵檢測方案.利用目標網絡在遭受攻擊時反應在底層重要網絡流量特征各異的特點,在模型訓練階段,為了克服訓練數據集規模有限的問題,采用半監督學習算法利用少量標記數據獲得大規模的訓練數據集;在模型檢測階段,引入信息增益率定量分析不同特征對檢測性能的影響程度,最大程度地保留了特征信息,以提高模型對未知攻擊的檢測性能.實驗結果表明:該方案能夠利用少量標記數據定量分析目標網絡中未知攻擊的重要網絡流量特征并進行檢測,其針對不同目標網絡中未知攻擊檢測的準確率均達到90%以上.

入侵檢測;未知攻擊;特征選取;半監督學習;信息增益率

隨著基于網絡的計算機服務及應用的快速發展,其安全問題日益凸顯.如何利用入侵檢測系統(intrusion detection system, IDS)來保護物聯網、工控網絡等免受入侵,成為當前網絡安全防御的一個關鍵問題.IDS作為監視和分析主機或網絡事件的一種系統,可以用于識別與正常主機/網絡行為的偏差.當前最常見的IDS可以分為基于誤用的和基于異常的2類[1].其中,基于誤用的IDS可以有效地檢測已知攻擊,例如最著名的開源系統Snort[2].這類IDS對已知類型的攻擊具有較低的誤報率,但是它無法識別出網絡上新的或未知的攻擊類型.而基于異常的IDS通過構建一個正常主機/網絡行為的模型,然后將與該模型有任何顯著偏差的行為判定為入侵.這種類型的IDS可以檢測新的或未知的攻擊,但是存在誤報和漏報率較高的問題.

為了降低基于異常的IDS的誤報和漏報率,研究者借用機器學習技術能夠在大量數據中提取特征的優勢,通過采用不同的特征選取方法對目標網絡的網絡流量特征進行選取,并結合監督學習算法檢測網絡中的未知攻擊.當前方案對未知攻擊的檢測均具有較高的檢測性能.然而,現有研究仍存在3種問題:

1) 當目標網絡遭受攻擊時,體現在底層的網絡流量特征的重要程度各不相同,即不同網絡流量特征的權重各異.然而,現有未知攻擊檢測方法均僅從定性的角度選出重要網絡流量特征,采用啟發式算法在全部的特征中搜索使分類結果最優的特征子集來選擇最終的分類特征,并結合監督學習的方法進行檢測,而忽略了大量未選取特征中包含的分類信息,從而導致了檢測模型較高的漏報率.

2) 目標網絡所遭受的未知攻擊也可能是隨時間的推移動態變化的,而不同的攻擊所表現出來的底層重要網絡流量特征也不盡相同.因此,如何自適應地選取重要的網絡流量特征并進行定量分析是當前未知攻擊檢測的另一大挑戰.

3) 現有基于機器學習的未知攻擊檢測方法均需要利用大量的已標記數據進行訓練.然而,在實際攻擊場景中,每條標記數據都需要利用專家知識人工生成,從而導致訓練數據集規模非常有限,即已標記數據量較小.有限規模的訓練數據集進一步地降低了模型的檢測精度.

針對上述問題,本文提出一種基于半監督學習和信息增益率的入侵檢測方案.主要貢獻有3個方面:

1) 針對未知攻擊流量特征難以定量選取的問題,引入信息增益率確定不同特征對檢測性能的影響程度,減少數據中冗余及噪聲特征的干擾,并將已檢測數據逐條加入訓練數據集以實時更新模型,從而定量選取重要的網絡流量特征,提高檢測模型的泛化能力,自適應地應對目標網絡中的未知攻擊.

2) 針對目標網絡準確訓練數據少的問題,提出了一種基于半監督學習的數據標記方法,利用改進的k-means算法來標記特征相似的數據,在少量人工標記數據的基礎上實現了大規模準確標記訓練數據集的生成,保證了模型的檢測精度.

3) 分別在NSL-KDD[3]數據集和密西西比州立大學關鍵基礎設施保護中心提出的標準數據集[4]上進行了對比實驗,并對不同時間段的網絡流量特征進行定量提取,驗證了本方案的有效性.

1 相關工作

1.1非機器學習的攻擊檢測

Delgado[5]基于2個參與者都有有限理性和有限戰略推理的假設,提出了一種識別無線傳感網絡惡意節點的入侵檢測系統,將惡意節點之間的相互作用建模為一個進化博弈,結果表明:設計的方案可以有效地檢測惡意節點,同時提高資源的利用率;Guo等人[6]提出了一種面向多協議的中間件入侵檢測方法,為無線傳感網絡的任何路由協議生成所有已知攻擊類型,并自動生成規則進行檢測,實驗結果表明該方法具有較高的檢測率;Jeffrey等人[7]設計了一個基于云系統安全的網絡攻擊博弈框架,利用傳統的信號博弈來建模云和設備之間的內在關系,并采用Flipit博弈來建模攻擊者和防御者之間的博弈;Fronimos等人[8]根據可用性和性能標準評估了3個低交互蜜罐(low interaction honeypots, LIHs),并進一步討論了基于LIHs的網絡攻擊早期特征發現方案.

然而,現有非機器學習的攻擊檢測方案更多集中于對已知攻擊的檢測,并且在處理大數據方面無能為力,難以檢測未知攻擊.

1.2基于機器學習的未知攻擊檢測

由于機器學習的方法在處理大數據上具有明顯的優勢,研究人員針對基于機器學習的入侵檢測開展了大量研究,其基本思想是利用網絡流量異常檢測或主機惡意行為異常檢測提取底層原始數據特征進行分析,以檢測出攻擊.

Taeshik等人[9]針對現有支持向量機(support vector machine, SVM)的檢測方法誤報率較高的問題,提出了一種基于非監督學習的改進SVM模型,通過自組織映射網方案構建初始的數據包流量特征,并通過被動TCP/IP指紋識別方法過濾不完整的流量信息,最終通過使用遺傳算法從KDD99數據集中分別提取了15,17,18和19個特征進行對比檢測,實現了一個非監督學習的SVM模型;Haq等人[10]考慮入侵檢測系統的檢測效率,通過對比3種特征選擇方法:最佳優先搜索、遺傳搜索以及排名搜索,從NSL-KDD數據集中分別提取5,12,24個特征,并分別對比在若干種機器學習算法上的表現,說明特征選擇在入侵檢測系統中起著至關重要的作用;Kanakarajan等人[11]提出了在大規模惡意活動的基礎設施環境下基于貪婪隨機的自適應搜索過程和隨機退火算法,使用特定的特征選擇方法分別在二分類和多分類問題中選取了NSL-KDD數據集中8,19,32和10,18,23個特征結合機器學習算法進行檢測,結果表明,檢測性能遠高于其他算法,并且檢測速率也大幅度提高;Lin等人[12]提出了一種新穎的特征表示方法,稱為聚類中心和最近鄰方法CANN,該方法通過衡量數據和其聚類中心的距離來構造一維距離的特性,使用該特性進行后續的分類,并使用現有的特征選擇方法進行特征提取有效地提高了檢測率和檢測速度;Liu等人[13]針對大多數現有的入侵檢測模型由于僅具有單層結構而導致模型僅能檢測濫用或異常攻擊中的一種的問題,提出了使用層次入侵檢測模型并利用主成分分析(principal component analysis, PCA)神經網絡克服這種短缺.在提出的模型中,PCA應用于特征降維,將高維度特征映射至低維度的新特征,并結合神經網絡實現了對復合攻擊的檢測.

以上方案均在未知攻擊檢測性能方面取得了顯著成果.然而,當前基于機器學習的未知攻擊檢測方案均僅從定性的角度結合專家知識人工選取重要的網絡流量特征,而忽略了大量未選取特征所包含的分類信息,導致了特征信息的損失,限制了模型的檢測精度.同時,由于目標網絡所遭受的未知攻擊也可能是隨時間的推移動態變化的,而不同的攻擊所表現出來的底層重要網絡流量特征也不盡相同,上述方法難以應對動態變化的未知攻擊.此外,現有研究均以訓練數據集規模足夠大為前提進行研究,如上述研究均以公開數據集KDD99或NSL-KDD為實驗數據集,但是在實際網絡攻擊場景中準確訓練數據集的規模都是非常有限的.

因此,本文提出了一種基于半監督學習和信息增益率的入侵檢測方案,在降低準確網絡流量數據標記成本的同時自適應地定量選取網絡流量特征,消除傳統特征提取方法人為因素的影響,盡可能多地保留特征的分類信息,以準確檢測網絡中的未知攻擊.

2 我們的方案

為了應對未知攻擊檢測中網絡流量特征難以自適應地定量選取和訓練數據集規模有限的挑戰,本方案首先采用半監督學習的方法,利用少量已標記數據生成大規模的數據集以訓練模型,之后引入信息增益率對檢測模型中劃分的每個子數據集進行特征提取,以實現對未知攻擊的準確識別.

未知攻擊方式雖然各異,但其最終均可反應到底層網絡流量數據中,因此本方案采用2014年發布的數據集中常用的網絡流量特征,如表1所示,其中包括Command_address,Response_address等.本方案對數據集進行歸一化處理,以減小特征之間量綱的影響,即保證每個特征的重要程度不受數值的影響.本方案利用min-max標準化法,將數據的大小范圍縮小到[0,1]之間,具體計算為

(1)

其中,xNormalized是某一特征歸一化后的值,xIntial為特征初始的屬性值,xmin是該特征的最小值,xmax是該特征的最大值.如一條數據N1(4,4,183,233,9,18,3,10,3,10,0,41,19,2,0,0,0.528 735 637 664 795,1.106 867 654 990 64,0)經過歸一化后為N1(0.016 064,1,0.717 647,1,1,1,0.157 895,0,1,1,0,0,0,1,0,0,0.397 213,0.356 227,0).

Table 1 Network Traffic Features

2.1基于半監督學習的訓練集生成

由于在未知攻擊檢測中目標網絡的歷史網絡流量數據量巨大,依賴專家知識進行人工標記只能得到少量準確標記的數據作為訓練樣本,這使得訓練出的模型無法準確檢測攻擊[14].半監督學習則是針對這類問題提出的,即利用少量具有先驗知識的數據來輔助無監督學習[15-16].為了實現對歷史數據的自動標記并獲得更大規模且準確標記的訓練數據集,本文提出改進的k-means半監督學習算法,如圖1所示:

Fig. 1 History of network traffic data labelling based on semi-supervised learning圖1 基于半監督學習的歷史網絡流量數據標記過程

1) 在已標記的正常和異常數據中分別隨機選取一條數據作為簇的中心,圖1中選取N1,N5作為已標記數據(正常)簇和已標記數據(異常)簇的簇心c1,c2;

2) 利用式(2)計算每條數據Ni分別與簇心c1,c2的距離(相似度)d(Ni,ck),并將d(Ni,ck)值小的數據劃分到一個簇內;

4) 重復步驟2),3)直至總的簇內離散度總和J達到最小時停止,其中離散度總和為每條數據Ni到其對應簇心ck的距離d(Ni,ck)的總和;

5) 計算每類已標記數據在每個簇中出現的概率Pl,k,并以Pl,k最大時的l標記簇k的類別,最終得到訓練數據集D.

具體計算為

(2)

(3)

(4)

(5)

l=arg maxPl,k,

(6)

其中,Ni,m表示第i條數據的第m個特征值,如N1,1=1.6064×10-2;ck,m表示第k個簇心的第m個特征值,m為網絡流量特征的個數,本方案中m=18;I為數據集中樣本總個數;I′為簇k中數據樣本總個數,如圖1所示,I=20,訓練數據集D的簇1中I′=15;d(Ni,ck)表示數據Ni到簇中心的歐氏距離,用來描述其相似度的大小;由于本方案將數據集劃分成2個簇,因此k=1或2;Pl,k表示第l類已標記類在第k個簇中出現的概率(l=0或1,0代表正常類,1代表異常類),nl,k表示第l類已標記樣本在第k個簇中的數量,nl表示第l類已標記樣本的總數量,因此當Pl,k最大時用l標記簇k的類別;arg maxf(x)表示滿足函數f(x)最大時自變量x的取值.例如在圖1中,正常已標記類在簇1中出現的概率P0,1=1,異常已標記類在簇1中出現的概率P1,1=0.33,P0,1>P1,1,因此將簇1標記為0,即簇1為正常類.同理,在簇2中P1,2=0.67,P0,2=0,因此簇2標記為1,即簇2為異常類.

本節成功利用少量已標記樣本生成更大規模的訓練數據集D,并用于檢測模型的訓練.

2.2基于信息增益率的流量特征提取

在基于機器學習的IDS中,隨機森林算法由于具有優良的泛化性能,相對于其他分類算法對攻擊的檢測更有優勢,使得其成為當前攻擊檢測普遍選取的基準算法[17].然而,目標網絡所遭受的未知攻擊可能不同,而不同的未知攻擊所反應在底層的重要網絡流量特征也是各異的.因此,需要定量選取最有助于劃分數據樣本的特征.

一個特征能夠為分類模型帶來的信息越多,該特征越重要[18],模型中它的有無將導致信息量發生較大的變化,而前后信息量的差值就是這個特征給模型帶來的信息增益[19].為了在構造決策樹的過程中選取更具有代表的特征,在本方案中引入信息增益的概念并用信息增益率來衡量給定的特征區分訓練樣例的能力,如圖2所示.

Fig. 2 Traffic features extraction based on information gain ratio圖2 基于信息增益率的流量特征提取

設2.1節中生成的訓練數據集D中含有I個不同的數據樣本{N1,N2,…,NI}.首先利用Bootstrap重采樣算法,每次有放回地從集合D中抽取一個數據樣本,一共抽取I次,除去重復的數據,得到一個子訓練集S1,重復此步驟q次,得到q個子訓練數據集{S1,S2,…,Sq}用于生成q個不同的決策樹以構建隨機森林.其中,生成每棵決策樹Tq的具體步驟如下:

1) 選取信息增益率最大的流量特征作為決策樹的根節點;

2) 找到選取的特征所對應數據集Sq中使該特征最快分裂到葉子節點的閾值,對該節點進行分裂;

3) 在每個非葉子節點(包括根節點)選擇特征前,以剩余特征作為當前節點的分裂特征集,選取信息增益率最大的流量特征作為根節點分裂的非葉子節點;

4) 重復步驟2),3)直至每個特征都對應有葉子節點為止,構建出Sq對應的決策樹Tq.

具體計算為

(7)

(8)

(9)

(10)

其中,Sq為通過Bootstrap重采樣隨機選取的訓練數據集D的子集:GainRatio(Sq,m),Gain(Sq,m),Split(Sq,m)分別表示子數據集Sq的信息增益率、信息增益和分裂信息,V(m)是特征m的值域;Sv是集合Sq中在特征m上值等于v的子集;A表示特征m的屬性總數;H(x)為數據集x的熵;pl為第l類樣本數占總數據集的比例.

如圖3所示,首先利用Bootstrap重采樣算法從訓練數據集中隨機抽取了一個數據集Sq,計算數據集Sq中特征的信息增益率,假定得到特征Mea-surement的信息增益率最大,將特征Measurement作為根節點開始構建決策樹Tq;然后根據數據集Sq中特征Measurement的屬性值分布進行分裂,即找出合適的閾值劃分數據集Sq.這里假定在數據集Sq中特征Measurement的分裂閾值為0.397,即在數據集Sq中的數據若其特征Measurement≤0.397,即劃分為異常,若當Measurement>0.397,則進一步提取特征;當Measurement>0.397,選取剩余特征中信息增益率最大的特征Command_address作為第2個特征,同理找出分裂閾值;最后,重復上述步驟,直到將數據集完全劃分為止.圖3中,當特征選取到Pump時,數據集完全劃分,此時決策樹Tq構建完成.

Fig. 3 Decision tree generation process based on feature extraction圖3 基于特征提取的決策樹生成過程

例如當一個含有I個流量數據的集合被特征A徹底分割(即分成I組,I>2),此時分裂信息為lbI;同時,存在一個布爾特征B分割同樣的集合,如果恰好平分(I=2),則其分裂信息為1.此時,若僅采用信息增益而不是信息增益率來選取特征,則可以利用式(8)知道Gain(Sq,A)>Gain(Sq,B),從而選取特征A作為構建決策樹的非葉子節點(根節點).然而,在實際中由于特征A具有較多屬性值,將數據集劃分為多個小空間,即每片葉子節點有可能僅包含單純的正常和異常,此時決策樹可以完美的擬合訓練數據.但是,當測試數據集中出現有不屬于特征A的屬性值的數據時,所構建的決策樹仍然僅通過特征A對測試數據進行分類,而不考慮其他特征,這必然導致模型的檢測性能大幅度下降.因此,本方案引入了信息增益率來解決上述問題.根據式(6),顯然特征B信息增益率更高,即優先選取特征B作為非葉子節點(根節點)構建決策樹,從而避免了選取屬性值多的特征A而導致模型對未知攻擊檢測能力的降低.因此,利用信息增益率作為一種補償措施來解決信息增益存在的問題,引入分裂信息來懲罰上述屬性值多的特征,以提高模型對未知流量檢測的精度.

為了說明特征提取和決策樹生成的過程.設Sq為通過Bootstrap算法從訓練數據集D={N1,N2,…,N20}抽取的子數據集,Sq={N1,N2,…,N10},為了方便計算,選特征Command_address,Time進行對比,其特征的屬性值如表2所示,其中數據類別正常異常用數字01表示,則Sq中正常和異常數據的個數分別為7和3.則特征Command_address的信息增益率計算為

0.1923,

同理計算GainRatio(Sq,Time)=41.27%,可知特征比Time有更大的信息增益率,因此,優先選取特征Time作為構建決策樹模型T1的非葉子節點.

Table2ThePropertyValuesandCategoriesoftheFeaturesCommand_address,TimefromN1toN10

表2 N1到N10特征Command_address,Time屬性值及類別

2.3基于加權多數算法(weightedmajorityalgorithm,WMA)的攻擊檢測

由于每棵決策樹都是利用Bootstrap算法去重后隨機生成的子數據集構建,子數據集規模以及正常/異常數據分布較訓練數據集D相比均發生變化,子數據集Sq的信息熵H(Sq)也隨之改變,從而導致每個子數據集Sq所對應構建的決策樹Tq對最終分類結果的影響程度也各不相同,標準RF中簡單地將最多數決策樹的分類結果確定為最終分類結果顯然是不合適的.同時,在檢測過程中測試數據是逐條通過模型進行檢測的,由于每次檢測都需要通過多次迭代對全部數據進行聚類而導致模型檢測效率極低,無法滿足實際環境中實時檢測的需求,并且僅采用基于半監督學習的方法進行檢測會由于其自身劃分精度與分類算法相比較低.因此,若直接采用基于半監督學習的方法對數據進行檢測標記會導致模型整體檢測精度下降.

針對上述挑戰,如圖4所示,本方案引入加權多數算法給每棵決策樹分配權值wq對網絡流量數據進行檢測,并分析子數據集Sq較訓練數據集D在通過Bootstrap重采樣算法去重后的集合規模以及數據分布的變化程度,以子數據集Sq較訓練數據集D的信息增益Gain(Sq,l)衡量其對應生成的每棵決策樹Tq對最終檢測結果的影響程度.由于l只有0,1兩類,根據2.2節中對信息增益的描述,不存在由于特征屬性值過多引起的過擬合問題.因此,采用信息增益Gain(Sq,l)而不是信息增益率來衡量每棵決策樹對最終檢測結果的影響程度,具體計算為

Gain(Sq,l)=H(D)-H(Sq),

(11)

(12)

Fig. 4 Attack detection based on information gain using WMA圖4 基于信息增益的WMA攻擊檢測

由于未知攻擊隨時間的推移,攻擊方式可能動態變化,使得反映在底層的網絡流量數據以及體現攻擊的特征也隨之改變.為了應對動態變化的攻擊方式,本方案將檢測完成的數據加入訓練數據集中,并去除較早的數據,動態更新訓練數據集以應對動態變化的攻擊方式.

3 實驗及結果分析

Fig. 5 Comparison of the effect of different datasets by using different features selection methods on detection performance圖5 不同數據集特征選取方法對檢測性能的影響對比

3.1實驗環境

采用密西西比州立大學關鍵基礎設施保護中心提出的標準數據集來評估本方案的檢測性能.該數據集于2014年發布,是當前入侵實驗中常用的標準數據集,其包含天然氣傳輸和儲水池2個控制系統遭受網絡攻擊的數據.其中,輸氣控制系統數據集采用gas_final.arff,共97 079條數據;儲水池控制系統數據集采用water_final.arff,共35 774條數據.為了驗證本方案在不同網絡環境中對未知攻擊的檢測性能,采用目前公開的較大規模的基準數據集NLS-KDD對本方案的檢測性能進行評估.實驗環境為PC機(i5-4590主頻3.3 GHz,內存為4 GB,操作系統為Win7 64 b),實驗工具采用Python 2.7.

3.2實驗結果分析

1) 方案的有效性分析

首先,分別選取2個系統中的特有特征和18個網絡流量特征以及利用PCA對2個數據集進行特征選取并與本方案對比.其中,2個系統中的特有特征如表3和表4所示,PCA差分占比為95%.

Table 3 The Unique Features of Gas System Dataset

Table4TheUniqueFeaturesofWaterStorageSystemDataset(Differentwaterlevelintervalwhenthespecificwaterlevel)

表4儲水系統數據集特有特征(不同水位區間時的具體水位)

FeatureDescriptionHHValueofHHsetpointHValueofHsetpointLValueofLsetpointLLValueofLLsetpoint

如圖5所示,本方案在數據集[9]上的準確率、檢測率、誤報率和漏報率分別達到了92.81%,92.56%,2.72%,4.84%和91.08%,90.56%,1.18%,1.33%,這主要是由于不同的特征選取方法均在不同程度上丟失了數據集的原有信息,使得訓練出的模型僅具有檢測特定某種攻擊的能力[20-22],而無法適用于對未知攻擊的檢測,尤其當特征數僅為各個系統的特有特征時,由于大部分數據信息丟失,數據集已經無法反映目標網絡的底層數據流量特征,從而導致訓練出的模型無法進行攻擊檢測.而本方案所采用的基于信息增益率的方法完整地保留了目標網絡中數據集的初始信息,使得訓練出的模型可以更好地反映目標網絡的底層網絡流量特征,具有更強的泛化能力以應對目標網絡中的不同攻擊.

其次,將本方案與標準RF,KNN,SVM算法進行對比.如圖6所示.其中,本方案和標準RF分別取gas_final.arff和water_final.arff數據集的10%作為訓練樣本.

Fig. 6 Comparison of the effect of different datasets by using different algorithm on detection performance圖6 不同算法對輸氣和儲水數據集的攻擊檢測性能對比

與標準RF相比,本方案的漏報率分別降低了38.88%和40.11%.分析可知,這是由于本方案利用半監督學習算法使得模型具有足夠的標記樣本進行訓練,保證了訓練出的模型的有效性,從而具有較高的檢測精度.

較SVM和KNN算法,本方案的檢測率分別提高了6.29%,10.31%和1.97%,4.08%.這是因為本方案通過引入信息增益率選取了最能體現當前目標網絡的流量特征,使得檢測模型能夠針對目標網絡中存在的不同異常行為進行檢測.同時,利用信息增益對不同決策樹賦予權重并基于WMA得到最終檢測結果,保證了不同決策樹對模型檢測性能的影響程度不同,使得模型不再單單依賴于標準隨機森林算法中樹的棵數的選取.因此,模型的檢測精度大幅度提高.

之后,采用NSL-KDD數據集來評估本方案的檢測性能,以驗證本方案在不同網絡環境中對未知攻擊的檢測能力,并與輸氣和儲水系統數據集對比.如圖7所示,本方案在2個數據集中均表現出對未知攻擊優良的檢測性能,其準確率均達到了90%以上,這驗證了本方案具有檢測目標網絡環境中未知攻擊能力的同時還可以檢測不同網絡中存在的未知攻擊.

Fig. 7 Comparison of the effect of different datasets by using our scheme on detection performance圖7 本方案在不同數據集中的檢測性能對比

此外,為了驗證不同初始聚類中心的選擇對模型檢測能力的影響,本方案分別在3個數據集中進行了1 000次實驗,實驗結果如圖8所示:

Fig. 8 Comparison of the effect of different initial cluster centers on detection performance(1 000 times)圖8 不同初始聚類中心的選擇對檢測性能的影響(1 000次實驗)

Fig. 9 The important features of the gas system dataset in the different time periods (10 before descending)圖9 輸氣系統數據集不同時間段重要特征排序(由大到小前10位)

本方案在NSL-KDD和文獻[9]中提出的3個數據集上的準確率分別在(89.80%, 91.24%),(92.40%, 93.40%),(89.97%, 91.90%),上下浮動均不超過2%.因此,我們認為在本方案中初始聚類中心的選擇對于最終的檢測精度影響較小.

Fig. 10 The important features of the water storage system dataset in the different time periods (10 before descending)圖10 儲水系統數據集不同時間段重要特征排序(由大到小前10位)

最后,本方案將數據集[9]中的2個子數據集劃分成3個時間段,通過分析不同時間段選取的重要特征,以驗證模型應對不同目標網絡中攻擊動態變化的能力,實驗結果如圖9和圖10所示:

如圖9和圖10所示,不同時間段模型檢測提取的特征略不相同,即使相同特征在不同時間段的重要程度也有所不同.特征Command_address,Response_address,Command_memory,Response_memory,Command_memory_count,Response_memory_count,Command_length,Resp_length,Measurement在2個系統的不同時間段中均為重要特征,其中特征Command_memory_count在2個系統的3個時間段中的特征權重均為最高.這說明本方案區別于傳統方案中根據檢測結果人工篩選重要特征,能夠計算不同目標網絡底層網絡流量數據在不同決策樹中的信息增益,選取當前時間段權重最高的數據特征進行檢測,最大程度地保留了數據特征中的信息,并通過計算權值定量地分析了各個時間段不同特征對模型檢測的重要性,從而成功應對目標網絡中攻擊動態變化的特點.

2) 決策樹個數對檢測性能的影響

如圖11所示,當決策樹個數分別為q=400和q=350時,檢測的準確率達到最高92.81%和91.08%,此時模型檢測花費的時間分別134 s和97 s,當q值大于上述閾值時,檢測精度趨于穩定,而檢測花費時間大幅度上升,使得模型無法保證對未知攻擊檢測的實時性.其中,決策樹個數q是影響模型性能和效率的一大主要因素,當決策樹個數q較小時,模型的檢測精度較差.另外,由于隨機森林具有不過擬合性質,因此可以使q盡量大,以保證模型的檢測精度.但是模型的復雜度與q成正比,即q過大,模型檢測時間花費過大.

Fig. 11 The effect of the number of decision trees q on the detection accuracy and the model detection time圖11 決策樹個數q對檢測準確率和模型檢測時間的影響

Fig. 12 The detection rate of the model under different d values and the accuracy of the training data set D圖12 不同d值下的模型檢測率與訓練數據集D準確率

3) 不同規模初始訓練數據集對檢測性能的影響

如圖12所示,本方案設已標記準確數據與未標記歷史數據的比例為1∶d,其中d表示未標記歷史數據的規模.從圖12中可以看出,訓練數據集D的準確率隨d值的增大逐漸下降,而模型檢測的準確率隨d值的增大呈先上升后下降的趨勢,分別在d=7和d=11時達到最大值92.81%和91.08%.這是由于當d值過小時,用于訓練模型的數據不足而導致模型檢測精度不高;而當d值過大時,由于生成的訓練數據集D已經不夠準確,而導致訓練出的模型自身準確率過低.因此實驗選取分別選取d=7和d=11構建訓練數據集D.

4) 自適應檢測過程中不同規模訓練數據集對檢測性能的影響

在初始訓練數據集規模確定的基礎上,本文進一步研究了在自適應檢測過程中訓練數據集的規模對檢測性能的影響.數據集規模分別選取50,100,300,500,1 000,3 000,5 000,10 000,30 000條進行測試.

如圖13所示,模型訓練所花費的時間隨數據集規模的擴大線性增加,分別在5 000條和3 000條數據規模時達到最大準確率92.81%和91.08%;而當數據集規模超過閾值時,模型訓練時間達到秒級,此時已無法滿足自適應檢測的需求.此外,當數據集規模過大時,自適應檢測的準確率也有下降的趨勢,這主要是由于數據集中存在過多無法反應當前網絡流量特征的噪聲或冗余數據,導致模型檢測性能下降,因此本方案分別選取5 000條和3 000條數據作為自適應檢測過程中的訓練數據集的規模.

Fig. 13 The effect of the size of training dataset on detection performance during dynamic detection圖13 自適應檢測過程中訓練數據集規模對檢測性能的影響

上述實驗結果表明:本方案能夠利用少量已標記準確數據集生成大規模準確標記訓練數據集保證模型訓練過程的有效,并能夠準確地提取目標網絡中的重要網絡流量的特征,保證了自適應檢測過程中模型對不同攻擊的檢測精度.

4 結 論

本文提出了一種基于信息增益率和半監督學習的入侵檢測方案,針對未知攻擊網絡流量特征難以定量選取、動態變化的攻擊難以自適應地應對以及訓練數據集規模過小而導致模型難以訓練3個問題,采用半監督學習算法通過少量已標記數據生成大規模訓練數據集,以此對檢測模型進行訓練,并引入信息增益率對網絡流量特征自適應地定量提取以實現對目標網絡中未知攻擊的檢測.通過實驗與RF, KNN和SVM算法的檢測結果對比以及在不同數據集上的檢測結果驗證了本方案的有效性,并分別分析了不同規模初始訓練數據集和決策樹個數的選取對檢測性能的影響,最后對比了自適應的檢測過程中不同規模訓練數據集對檢測性能的影響.

[1] Lee W, Stolfo S J, Mok K W. A data mining framework for building intrusion detection models[C] //Proc of the 1999 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 1999: 120-132

[2] Roesch M. Snort: Lightweight intrusion detection for networks[C] //Proc of the 13th Conf on Systems Administration. Berkeley, CA: USENIX Association, 1999: 229-238

[3] Tavallaee M, Bagheri E, Lu Wei. A detailed analysis of the KDD CUP 99 data set[C] //Proc of the 2nd IEEE Symp on Computational Intelligence for Security and Defense Applications. Piscataway, NJ: IEEE, 2009: 53-58

[4] Ghinita G, Kalnis P, Skiadopoulos S. Mobihide: A peer-to-peer system for anonymous location-based queries[C] //Proc of the 10th Int Symp. Boston, MA: DBLP, 2007: 221-238

[5] Delgado M L.On the effectiveness of intrusion detection strategies for wireless sensor networks: An evolutionary game approach[J]. Ad Hoc & Sensor Wireless Networks, 2017, 35(1/2): 25-40

[6] Guo Qi, Li Xiaohong, Xu Guangquan, et al. MP-MID: Multi-protocol oriented middleware-level intrusion detection method for wireless sensor networks[J]. Future Generation Computer System, 2017, 70(1): 42-47

[7] Jeffrey P, Sadegh F, Zhu Quanyan. Flip the cloud: Cyber-physical signaling games in the presence of advanced persistent threats[C] //Proc of the 6th Int Conf on Decision and Game Theory for Security. Berlin: Springer, 2015: 289-308

[8] Fronimos D, Emmanouil M, Vassilios C. Evaluating low interaction honeypots and on their use against advanced persistent threats[C] //Proc of the 18th Panhellenic Conf on Informatics. New York: ACM, 2014: 1-2

[9] Taeshik S, Jongsub M. A hybrid machine learning approach to network anomaly detection[J]. Information Sciences, 2007, 177(18): 3799-3821

[10] Haq N F, Onik A R, Shah F M. An ensemble framework of anomaly detection using hybridized feature selection approach (HFSA)[C] //Proc of the 2015 SAI Conf on Intelligent Systems. Piscataway, NJ: IEEE, 2015: 989-995

[11] Kanakarajan N K, Muniasamy K. Improving the accuracy of intrusion detection using GAR-Forest with feature selection[C] //Proc of the 4th Int Conf on Frontiers in Intelligent Computing: Theory and Applications. Berlin: Springer, 2015: 539-547

[12] Lin Weichao, Ke S W, Tsai C F. CANN: An intrusion detection system based on combining cluster centers and nearest neighbors[J]. Knowledge Based Systems, 2015, 78(1): 13-21

[13] Liu Guisong, Yi Zhang, Yang Shangming. A hierarchical intrusion detection model based on the PCA neural networks[J]. Neurocomputing, 2007, 70(7/9): 1561-1568

[14] Chapelle O, Scholkopf B, Zien A. Semi-supervised learning[J]. Journal of the Royal Statistical Society, 2006, 172(2): 1826-1831

[15] Basu S, Bilenko M, Mooney R J. A probabilistic framework for semi-supervised clustering[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD 2004). New York: ACM, 2004: 59-68

[16] Agtawal R, Gehrke J E, Gunopulos D. Automatic subspace clustering of high dimensional data for data mining applications[C] //Proc of the 4th ACM SIGMOD Int Conf on Management of Data. New York: ACM, 1998: 94-105

[17] Manuel F, Eva C, Senen B. Do we need hundreds of classifiers to solve real world classification problems?[J]. Journal of Machine Learning Research, 2014, 15(1): 3133-3181

[18] Leo B. Random forests[J]. Machine Learning, 2001, 45(1): 5-32

[19] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3): 379-423

[20] Wang Gang, Hao Jinxing, Ma Jian, et al. A new approach to intrusion detection using artificial neural networks and fuzzy clustering[J]. Expert Systems with Applications, 2010, 37(9): 6225-6232

[21] Zhang Xueqin, Gu Chunhua, Lin Jiajun. Intrusion detection system based on feature selection and support vector machine[C] //Proc of the 1st Int Conf on Communications and Networking. Piscataway, NJ: IEEE, 2006: 1-5

[22] Liu Guisong, Yi Zhang, Yang Shangming. A hierarchical intrusion detection model based on the PCA neural networks[J]. Neurocomputing, 2007, 70(7/9): 1561-1568

AnIntrusionDetectionSchemeBasedonSemi-SupervisedLearningandInformationGainRatio

Xu Mengfan, Li Xinghua, Liu Hai, Zhong Cheng, and Ma Jianfeng

(SchoolofCyberEngineering,XidianUniversality,Xi’an710071)

State-of-the-art intrusion detection schemes for unknown attacks employ machine learning techniques to identify anomaly features within network traffic data. However, due to the lack of enough training set, the difficulty of selecting features quantitatively and the dynamic change of unknown attacks, the existing schemes cannot detect unknown attacks effectually. To address this issue, an intrusion detection scheme based on semi-supervised learning and information gain ratio is proposed. In order to overcome the limited problem of training set in the training period, the semi-supervised learning algorithm is used to obtain large-scale training set with a small amount of labelled data. In the detection period, the information gain ratio is introduced to determine the impact of different features and weight voting to infer the final output label to identify unknown attacks adaptively and quantitatively, which can not only retain the information of features at utmost, but also adjust the weight of single decision tree adaptively against dynamic attacks. Extensive experiments indicate that the proposed scheme can quantitatively analyze the important network traffic features of unknown attacks and detect them by using a small amount of labelled data with no less than 91% accuracy and no more than 5% false negative rate, which have obvious advantages over existing schemes.

intrusion detection; unknown attacks; feature selection; semi-supervised learning; information gain ratio

TP309.7

XuMengfan, born in 1989. PhD candidate. His main research interests include network and information security, APT attack detection.

LiXinghua, born in 1978. Professor and PhD supervisor in Xidian University. His main research interests include wireless networks security, privacy protection, cloud computing, software defined network, and security protocol formal methodology.

LiuHai, born in 1984. PhD candidate at Xidian University. His main research interests include rational cryptographic protocol, location-based privacy protection, and software defined network (liuhai4757@163.com).

ZhongCheng, born in 1994. MSc candidate. His main research interests include network and information security, intrusion detection.

MaJianfeng, born in 1963. Professor and PhD supervisor in Xidian University. Member of CCF. His main research interests include information security, coding theory, and cryptography.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 色噜噜狠狠狠综合曰曰曰| 久久一色本道亚洲| 欧美一区精品| 亚洲乱码精品久久久久..| 久青草网站| 中文字幕在线一区二区在线| 亚洲视频影院| 国产福利免费观看| 国产福利在线免费| 欧美A级V片在线观看| 97人妻精品专区久久久久| 精品一区二区三区水蜜桃| 国产va免费精品| 国产精品免费露脸视频| 久久国产香蕉| 国产色网站| 日韩欧美在线观看| 五月婷婷导航| 婷婷亚洲综合五月天在线| 69av在线| 人妻精品全国免费视频| 久草性视频| 亚洲高清国产拍精品26u| 国产一区三区二区中文在线| 日本久久久久久免费网络| 真实国产乱子伦视频| 激情视频综合网| 日韩在线2020专区| 亚洲无码A视频在线| 99热这里只有精品国产99| 国产无吗一区二区三区在线欢| 免费99精品国产自在现线| 久久永久视频| 国产精品自在线天天看片| 无码国产伊人| 亚洲一区二区三区麻豆| 色香蕉网站| 久久精品人人做人人爽| 国产另类视频| 人妻熟妇日韩AV在线播放| 99久久国产自偷自偷免费一区| 91毛片网| 国产精品欧美亚洲韩国日本不卡| 青青青视频91在线 | 欧美a网站| 一本色道久久88综合日韩精品| 在线观看91精品国产剧情免费| a级毛片免费播放| 欧美成人午夜视频免看| 天天色天天操综合网| 国产精品美女自慰喷水| 五月天婷婷网亚洲综合在线| 亚洲综合二区| 国产欧美在线| 国外欧美一区另类中文字幕| 91美女视频在线观看| 国产亚洲精品无码专| 高清久久精品亚洲日韩Av| 欧美日韩中文国产| 欧美成一级| 天天综合网站| 亚洲水蜜桃久久综合网站| 欧美精品三级在线| 欧美专区日韩专区| 欧美一区福利| 久久综合色视频| 国产高清免费午夜在线视频| 欧美19综合中文字幕| 成人年鲁鲁在线观看视频| 萌白酱国产一区二区| 波多野结衣在线se| 中文字幕人妻av一区二区| 91久久偷偷做嫩草影院免费看| 久久精品一卡日本电影 | 国产亚卅精品无码| 中文国产成人精品久久一| 色妞永久免费视频| 国产精品黄色片| 四虎AV麻豆| 欧美69视频在线| 国产福利在线观看精品| 免费无码AV片在线观看国产|