999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征選擇和支持向量機的異常檢測方法

2013-09-10 01:18:34張潤蓮蔣曉鴿
計算機工程與設計 2013年9期
關鍵詞:分類特征檢測

張 昭,張潤蓮+,蔣曉鴿,曾 兵

(1.桂林電子科技大學信息與通信學院,廣西桂林541004;2.保密通信重點實驗室,四川成都610041)

0 引 言

入侵檢測作為一種主動防御技術,可以有效地檢測和阻斷網絡攻擊。入侵檢測系統按技術實現可分為誤用檢測和異常檢測。異常檢測因為可以檢測新型的未知攻擊行為,成為了研究的熱點。

異常檢測常用的方法有神經網絡、決策樹、聚類分析、貝 葉 斯 理 論、 支 持 向 量 機 (support vector machine,SVM)、K臨近值算法等。其中,支持向量機[1]將基于結構風險化最小原則運用到異常檢測中提高檢測性能,具有較高的泛化能力和分類準確率。支持向量機也存在一些不足,一方面,其所需要的參與模型訓練的標記數據較難獲得;另一方面,其分類時采用的核函數的選取以及核函數的參數優化是一個較難解決的問題。針對上述問題,文獻 [2]通過對比分析幾種特征去除方法,提出逐步特征剔除方法,以獲得較高的檢測率。文獻 [3]提出一種自動標記方法用于基于支持向量機的網絡流量異常檢測,通過剔除已知的入侵數據,構造不平衡數據集,提高對新型異常的檢測能力。文獻 [4]提出一種基于Fisher分的特征提取算法,在保持分類精度不變情況下,降低訓練時間和測試時間。文獻 [5]采用一種基于數據不一致率的快速特征提取算法,有效消除數據冗余,提高檢測效率。

本文提出一種基于分類模型分類準確率計算的特征選擇和支持向量機相結合的異常檢測方法。該方法通過測試網絡數據的每個特征對支持向量機分類模型的分類準確率,選取出分類準確率高的最優特征組合;并結合支持向量機分類方法進行異常檢測。

1 基于特征選擇和SVM的異常檢測系統結構

異常檢測的關鍵是如何準確、高效地進行數據的分類,即將網絡中正常行為產生的數據視為正常類,將入侵行為產生的數據視為異常類。本文采用支持向量機建立數據分類模型,再通過分類模型進行數據分類。為提高檢測準確率,在數據分類檢測中采用了一種基于分類模型分類準確率計算篩選特征。基于特征選擇和支持向量機的異常檢測系統模型結構如圖1所示。

圖1 基于SVM的異常檢測模型

在圖1中,網絡抓包模塊采用Sniffer工具實現從網絡中抓取數據包。

特征提取模塊提取網絡數據包的特征信息,構成一組關鍵特征組合。通常,對網絡數據描述的特征有很多,但這些特征有主有次。在數據識別中,通過幾個主要特征的組合就可以準確地識別數據。而次要的特征,不僅會增加系統開銷,還可能混淆對數據的識別,降低檢測的準確性。針對該問題,本文提出一種基于分類模型分類準確率計算的特征選擇算法,通過計算每維特征進行數據識別的模型準確率,選取準確率最高的最優特征組合。

數據預處理模塊將所提取的特征組合轉換為適合于支持向量機處理的特征向量數據。由于支持向量機只能處理數值型的數據,因此,需要對所提取數據進行標準化和歸一化處理,并完成數據類型的轉換等。對已標記的正常或異常數據經預處理后,將組成訓練集用于訓練SVM分類模型,而未標記的數據預處理后則用來進行分類檢測。

支持向量庫模塊用于存儲SVM訓練后所產生的支持向量。

SVM模型訓練主要是對輸入的訓練集進行訓練,產生數據分類模型。訓練集是由特征向量和其相應的類別標號組成。其中,類別標號是用于區分數據正常或異常的一種標記,通常以 (1,-1)表示。當訓練完成后可以產生新的區分正常或異常的分類模型,并將得到的新的支持向量替代原有的支持向量。當有新的訓練數據并入時,將支持向量融入到訓練數據中形成新的訓練集進行訓練。

SVM分類檢測利用訓練產生的分類模型和支持向量庫對輸入的未標記的數據進行分類檢測。這些未標記的數據初始時標注一種自定義的預測標號,在分類檢測后將變更為新的類別標號,標識其正常或異常。

輸出響應模塊則對檢測出的異常數據做出報警響應。

2 特征選擇算法

從實現網絡行為的數據包中提取數據的特征是一項費時和困難的工作。在數據處理前,去除冗余或者不重要的特征,只提取有效識別網絡行為的關鍵特征集,將有利于提高分類器的訓練速度和檢測精度。針對該問題,本文構造一種基于分類模型分類準確率計算的特征選擇算法。該算法通過逐一選取特征向量中的每一維特征,建立相應的分類模型,以同一數據集分別作為訓練集和測試集,分別測試各分類模型對不同類別數據的分類準確率;再根據分類準確率高低,選擇分類準確率高的特征集構成最優特征組合。

為更好地描述該算法,先對相關概念進行描述。

定義1 特征向量是指網絡數據中反映網絡行為的相關特征集合。以F={F1,F2,...,Fi,...,Fm}表示某種網絡行為的特征向量,其中,Fi為該特征向量中的第i維特征,1≤i≤m。

定義2 數據類別是指根據網絡攻擊行為的不同,將數據劃分為相應的類別,如Normal、Probe、Dos、R2l、U2r等網絡行為數據類別。以C={C1,C2,...,Cj,...,Cn}表示所劃分的數據類別,其中,Cj表示所劃分的第j種數據類別,1≤j≤n。

為評估所選特征對數據分類的影響,本文針對所選特征,采用支持向量機作為分類器建立分類模型,并分別測試各特征在分類模型中對不同類別數據的分類準確率。

定義3 分類準確率矩陣是在進行分類模型訓練中通過測試、評估不同向量特征對不同類別數據進行分類的準確率構成的矩陣。以M (i,j)表示分類準確率矩陣,1≤i≤m,1≤j≤n;其中,矩陣的每一行代表以某特征建立分類模型后對不同類別數據進行分類而產生的準確率;每一列表示各特征建立分類模型后針對某類數據的分類準確率。

特征選擇算法描述如下:

(1)設有 m 個特征F={F1,F2,...,Fi,...,Fm},n個數據類別 {C1,C2,...,Cj,...,Cn};并初始化分類準確率矩陣M (i,j),其中,1≤i≤m,1≤j≤n;

(2)從F中選取特征Fi作為測試特征,利用Fi建立分類模型并測試各個類別數據的分類準確率;

(3)將各個類別數據的分類準確率{A(Fi,C1),A(Fi,C2),...,A (Fi,Cj),...,A(Fi,Cm)}存入 M(i,j)中,其中A(Fi,Cj)表示以特征Fi建立分類模型后對Cj的分類準確率;

(4)重復執行 (2)和 (3),直到k個特征測試結束;

(5)構造特征矩陣。在分類準確率矩陣M(i,j)的每一列中,若對Cj的分類準確率最高為A(Fi,Cj),則表明Fi對Cj分類影響最大。對M(i,j)中的每一列分別進行非遞增排序,按照排序后的分類準確率,構造一個對應于準確率順序的特征序列;通過對所有列排序并構造特征序列,形成一個特征矩陣M’(i,j);

(6)在特征矩陣M’(i,j)中,選取第一行中對應的特征組合F’建立分類模型并測試其分類準確率A(F’,C’);

(7)順序選取矩陣M’(i,j)的下一行中對應的特征集,并將其并入到特征組合F’中,形成新特征組合F’’,利用F’’建立分類模型并測試其分類準確率A(F’’,C’’);

(8)比較上述兩組分類準確率A(F’,C’)和A(F’’,C’’),若分類準確率降低,即 A (F’’,C’’)≤A (F’,C’),則結束特征選擇過程,并確定分類準確率最高的特征組合F’為最優特征組合。否則,重復執行步驟 (7)和(8),每次將矩陣M’(i,j)下一行的特征組合并入到前面建立的特征組合中,重新測試并比較其與前一次的分類準確率,直到循環結束或獲得最優特征組合。

基于分類模型分類準確率計算的特征選擇算法通過選取對分類影響最大的特征組合,降低了參與訓練的特征維數,避免了冗余特征對分類檢測的影響,提高了檢測準確率,并降低了SVM模型在分類檢測時的檢測時間。

3 支持向量機分類方法

支持向量機分類方法是一種基于小樣本的學習方法,它可將由網絡連接提取并生成的特征向量映射到更高維空間里,并在此空間中尋求一個能夠實現數據分類的最大間隔超平面。將數據分開的最大間隔越大,獲得的數據分類誤差越小。支持向量機的分類結果可由少數支持向量決定,其計算的復雜性取決于支持向量的數目,而不是樣本的維數,從而避免了維數災難。支持向量機分類算法是一種機器學習方法,需要利用訓練集先訓練出分類模型,然后才能利用分類模型對測試集進行預測分析。

設已 標 記 訓 練 集 樣 本 集 合 為: (y1,x1),(y2,x2),…,(yi,xi),…, (yl,xl);其中,yi= {-1,1}l為類別標號,1表示正常類,-1表示異常類;xi∈Rn,i=1,……,l表示n維特征向量。

若要使樣本在輸入空間可分,則需要在特征空間中尋求如式 (1)所示的廣義最優分類超平面,使兩類樣本到超平面的距離為最大

式中:ω——權重向量,b——偏移值。尋找最優分類超平面的過程實際上是個機器學習問題,其學習問題的核心是最小化求解下列問題

其中,懲罰因子C>0,ξi為松弛變量,函數(x)用于將輸入向量映射到高維特征空間。利用KTT(Karush-Kuhn-Tucker)最優化條件理論和用拉格朗日乘子法可將式 (2)變成其對偶形式

其中,K(xi,xi)=(xi)T(xj)為核函數,用于將高維空間中的內積運算轉換為低維空間的核函數計算,避免了維數災難。αi和αj為拉格朗日乘子。

根據式 (3)的結果,利用式 (1)和其對偶式 (3)間的關系可得最優ω滿足下式

對于未知屬類的向量x,采用如下最終分類決策函數

在式 (5)中,可以選用不同的核函數構造不同的支持向量機。常用的核函數有多項式核函數、RBF核函數和Sigmoid核函數。本文采用綜合性能最優的RBF[6-7]核函數。

由式 (1)可知,支持向量機分類超平面中含有大量未知參數,通過選取已標記數據參與訓練,逐步獲取最優參數,從而得到分類模型即分類決策函數。在分類檢測時,利用已獲得的分類模型,可將輸入的待檢測未知數據進行分類,輸出數據的類別標號。根據類別標號,可判斷其為正常或異常數據。

4 仿真實驗分析

本文采用Kddcup99[8]數據集進行仿真實驗。Kddcup99提供了一個10%的訓練子集,其訓練集給出了類別標號,本文在訓練子集上進行實驗。為了便于模型的訓練,需要對Kddcup99數據集進行預處理,包括對字符類型數據的量化,以及數據的標準化和歸一化處理。

在實驗中,采用LibSVM[9-10]作為訓練和測試工具,采用C-SVM、RBF核函數,參數c、g、h設為1.2、2.8和0。在Matlab R2011b下實現本文的特征選擇算法和支持向量分類方法,并進行測試和仿真。實驗測試機器操作系統為 Windows 7,處理器為Intel Core(TM)i3 2.13GHz,內存為2GB。

4.1 數據預處理

在實驗中,從Kddcup99的10%訓練子集中隨機選取一部分作為訓練集,從剩余的數據中再隨機選取一部分作為測試集。

針對選取的數據集,先進行數據的量化,將數據集中的字符型數據轉換為數值型數據,如設置協議類型中的tcp為1,服務類型中的http為1,標志位中的sf為1,等。

其次,針對量化的數據,為避免量化取值的不同而對分類產生影響,進行數據標準化處理。以Zij表示第i條數據記錄第j個屬性的標準化結果,則Zij的計算方法如下

式中:xij——第i數據記錄的第j個屬性值;mj——所有數據記錄第j個屬性的平均值;Sj——所有數據記錄第j個屬性的平均絕對偏移。

第三,進一步對標準化的數據集采用線性函數轉換方法進行歸一化處理。以Yij表示數據歸一化后的結果,則

式中:zij——第i數據記錄的第j個屬性的標準化值,

zmax——所有數據記錄中第j個屬性標準化后的最大值,

zmin——所有數據記錄中第j個屬性標準化后的最小值。

4.2 實驗測試及結果分析

首先采用本文基于分類模型分類準確率計算的特征選擇算法對數據集的41維特征進行特征篩選。在測試中,從Kddcup99的10%訓練子集中以正常與異常數據比為4∶1的比率隨機選取約1萬條記錄作為測試集,并按照上述的數據預處理方法進行處理。在此基礎上,采用本文提出特征選擇算法建立分類模型并進行特征篩選,構成最優特征組合。本實驗通過計算、比較,測得由矩陣中前三行特征組合構成的最優特征組合具有最高的分類準確率,其包括了8個特征,分別為第1、2、3、5、6、23、33、36維特征。

其次,從Kddcup99的10%訓練子集中隨機選取約3萬條記錄作為訓練集,從剩余的數據中再隨機選取約1萬條記錄作為測試集,通過數據預處理,采用篩選出的最優特征組合,測試了其檢測準確率、誤報率、建模時間及測試時間,并與不進行特征選擇的原始41維特征集測試結果進行對比,結果見表1。

表1 不同特征集的測試結果對比

通過表1可以看出,特征選擇后誤報率有所增加,但其檢測率有所提高,且大幅度降低了測試時間,提高了檢測效率。

第三,在上一組所選擇并進行了數據預處理的訓練集和測試集上,進一步對比測試了本文方法、文獻 [2]中的GFA方法、文獻 [5]中的數據不一致率算法和文獻 [6]中的KPCA算法,篩選的特征向量根據相關文獻的方法獲得。測試結果見表2。

表2 本文方法和其它方法的對比測試結果

表3的結果顯示,本文方法的誤報率和建模時間略高于其它的方法,測試時間與其它方法相近,但其具有最高的檢測準確率。且本文方法在數據檢測時提取的特征維數少,也有效降低了系統的數據處理難度。

5 結束語

針對入侵檢測中的特征提取和檢測準確率問題,本文提出一種基于特征選擇和SVM相結合的異常檢測方法。該方法采用基于分類模型分類準確率計算的特征選擇算法,篩選出盡量少但能夠準確識別數據的最優特征組合,并將其與支持向量機分類算法相結合,以獲得好的檢測效果。實驗測試結果表明,本文方法有效提高了檢測準確率,降低了檢測時間,并降低了系統的數據處理難度。在將來的工作中,將進一步分析不同的核函數對分類準確率的影響并進行優化,降低誤報率。

[1]WANG Yanhua,TIAN Shengfeng,HUANG Houkuan.Feature weighted support vector machine [J].Journal of Electronics &Information Technology,2009,31 (3):514-518 (in Chinese).[汪延華,田盛豐,黃厚寬.特征加權支持向量機[J],電子與信息學報,2009,31 (3):514-518.]

[2]Li Y.An efficient intrusion detection system based on support vector machines and gradually feature removal method [J].Expert System with Applications,2012,39 (1):424-430.

[3]Carlos A Catania,Facundo Bromberg.An autonomous labeling approach to support vector machines algorithms for network traffic anomaly detection [J].Expert Systems with Applications,2012,39 (2):1822-1829.

[4]ZHANG Xueqin,GU Chunhua.A method of feture extraction[J].Journal of South China University of Technology(Natural Science Edition),2010,38 (1):81-86 (in Chinese). [張雪芹,顧春華.一種網絡特征提取方法 [J].華南理工大學學報(自然科學版),2010,38 (1):81-86.]

[5]CHEN Tieming,MA Jixia,XUAN Yiguang.Fast feature selection method and its application in intrusion detection [J].Journal of Communications,2010,31 (9A):233-238 (in Chinese).[陳鐵明,馬繼霞,宣以廣.快速特征選擇方法及其在入侵檢測中的應用 [J].通信學報,2010,31 (9A):233-238.]

[6]BAO Panqing,YANG Mingfu.Network intrusion detection based on KPCA and SVM [J].Computer Application and Software,2006,23 (2):125-127 (in Chinese). [包潘晴,楊明福.基于KPCA和SVM的網絡入侵檢測 [J].計算機應用與軟件,2006,23 (2):125-127.]

[7]Hsu C W,Chang C C,Lin C J.A practical guide to support vector classification [EB/OL].[2010-04-15].http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf.

[8]KDD Cup 99KDD dataset [EB/OL].[2011-06-16].http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.

[9]LibSVM [EB/OL].[2011-04-01].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.

[10]Chang ChihChung,Lin ChihJen.LIBSVM:A library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology,2011,2 (3):1-27.

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 99精品视频在线观看免费播放 | 日韩黄色在线| 成人看片欧美一区二区| 久久6免费视频| 欧美一级高清视频在线播放| 在线中文字幕日韩| 国产噜噜在线视频观看| 激情五月婷婷综合网| 香蕉网久久| 国产成人精品高清在线| 欧美影院久久| 亚洲欧美成人影院| 国产一级妓女av网站| 国产99精品视频| 亚洲欧洲天堂色AV| 亚洲精品制服丝袜二区| 伊伊人成亚洲综合人网7777| 国产精品天干天干在线观看| 高h视频在线| 99精品国产电影| 久久一级电影| 国产精品视频导航| 欧美怡红院视频一区二区三区| 男人的天堂久久精品激情| 69综合网| 国产免费人成视频网| 中文字幕免费在线视频| 国产麻豆福利av在线播放| 69av在线| 中文字幕亚洲专区第19页| 99久久精品无码专区免费| 无码有码中文字幕| 国产大片喷水在线在线视频| 欧美三级日韩三级| 国产精品黑色丝袜的老师| 99免费在线观看视频| 91丨九色丨首页在线播放| 久久96热在精品国产高清| 国产精品真实对白精彩久久 | 久久国产精品影院| 亚洲综合在线网| 亚洲午夜国产精品无卡| 国产成人精品一区二区不卡| 亚洲一区二区在线无码| 国产精品福利一区二区久久| 免费欧美一级| 久无码久无码av无码| 日韩一区二区在线电影| 热99精品视频| 一本大道东京热无码av| 成人国产精品网站在线看| 特级精品毛片免费观看| 免费aa毛片| 国产亚洲精品97AA片在线播放| 777国产精品永久免费观看| 国产视频a| 国产三级精品三级在线观看| 免费观看三级毛片| 国产精品午夜福利麻豆| 二级特黄绝大片免费视频大片| 国产精品视频a| 波多野吉衣一区二区三区av| 亚洲国产日韩在线成人蜜芽| 国产福利免费在线观看| 亚洲成a人片| 国产最新无码专区在线| 日本成人在线不卡视频| 91麻豆精品国产高清在线| 国产精品9| 亚洲v日韩v欧美在线观看| 国产亚洲欧美在线中文bt天堂| 成色7777精品在线| 亚洲国产精品一区二区高清无码久久| 欧美午夜视频| 成人亚洲视频| 免费一级毛片在线观看| 99色亚洲国产精品11p| 男女猛烈无遮挡午夜视频| 五月天天天色| 九九九精品成人免费视频7| 成年人免费国产视频| 九九九精品成人免费视频7|