張燕,杜紅樂,李楠
基于密度均衡的網絡入侵檢測
張燕,杜紅樂,李楠
針對網絡入侵檢測中數據集的不均衡性和異構性,提出了一種基于密度均衡的網絡入侵檢測算法,利用異構距離計算類密度,依據類密度之間的關系把多數類數據集劃分為多個子集;然后依據每個子集密度與少數類密度之間的關系動態計算重取樣后樣本數目,利用K-means聚類算法對每個子類進行重取樣,實現數據集的均衡化處理。最后在KDDCUP99數據集上進行仿真實驗,實驗結果表明,該算法提高支持向量機對少數類的分類性能,同時提高運行效率。
支持向量機;不均衡數據;欠取樣;K-均值聚類
入侵檢測被看作網絡安全的第二道防線,依據采用的方法把入侵檢測分為:誤用檢測和異常檢測。誤用檢測需要建立入侵者的行為模式,采用模式匹配法進行檢測,該方法適用于已知攻擊類型;異常檢測需要建立用戶的正常行為模式,判斷是否偏離正常模式為依據進行入侵檢測,該方法適用于未知入侵檢測。兩種方法都需要為用戶行為建立模式,都可以用分類的方法區分用戶行為。由于入侵者的行為數據難于收集,且不同入侵者行為數據也不盡相同,因此異常檢測受到更多的關注,支持向量機由于在解決小樣本、非線性、高維模式識別問題中表現出特有的優勢,也被許多專家學者應用到網絡入侵檢測中[1-4]。
由于入侵行為數據難于收集,樣本數量較少,而正常行為數據容易收集,樣本數量較多,即入侵檢測數據屬于不均衡數據。支持向量機為了保證最小化分類錯誤率、最大化分類間隔,分類超平面會向樣本密度小的區域偏移,即造成對多數類的過學習和少數類的欠學習現象。而在入侵檢測中,對少數類(入侵行為數據)的錯分代價要遠遠高于對多數類(正常行為數據)的錯分代價。提高不均衡數據下SVM的分類性能的方法分為兩類:數據層面的方法和算法層面的方法。數據層面的方法主要是通過一定策略對多數類樣本進行欠取樣或者對少數類樣本進行過取樣,從而達到數據集均衡化,進而提高分類器的分類性能;算法層面的方法主要有單類學習、代價敏感學習、核方法、集成方法如boosting等[5,6]。
文獻[7-12]都采用聚類算法對數據集進行相應處理:文獻[8]利用K-Means算法對多數類樣本進行聚類并提取類中心,得到與少數類樣本數量相當的樣本重構新的訓練集,為了避免少數類樣本過少導致最終訓練樣本過度稀疏,對少數類樣本采用SMOTE算法進行過取樣;文獻[9,10]為提高泛化能力,聚類在核空間中進行,并利用AdaBoost集成手段對該欠取樣算法進行集成;文獻[11]引入“聚類一致性系數”找出處于少數類邊界區域和處于多數類中心區域的樣本,然后用SMOTE對少數類樣本進行過取樣,用改進的隨機欠取樣對多數類樣本進行處理;文獻[12]利用譜聚類的優點對多


3.2 實驗數據選取
每條記錄有41個屬性,屬性中有數值類型的,也有字符類型的,但是SVM只能處理數值向量,因此在進行訓練之前首先把數值數據進行歸一化。多數算法對字符數據常采用數值化,即對字符屬性通過數字代替,例如70種service屬性數據用1,2,…,70替,然而1和2之間的區別與1和70間的區別相同,都表示不同的服務類型,但是數值化后在運算中就有很大的區別,為了減少他們之間的差別,本實驗中采用異構距離來描述樣本之間的關系。
為了減少訓練時間,同時保持數據原有的空間分布信息,采用等間隔法選取訓練數據和測試數據如表1所示:

表1 數據集中數據分布情況
訓練數據train從第一條開始每隔400條取一條,共1231條記錄,其中正常記錄298條,入侵記錄933條;無標簽數據及測試集為test(在訓練時作為無標簽數據,測試時依據原有的標簽驗證測試準確率),是從Correct數據集中第一條開始每100條取一條,共計3110條記錄,其中正常記錄607條,入侵記錄2503,可以看出數據屬于不均衡數據,但實際應用中是正常記錄遠遠大于入侵記錄。
3.3 實驗結果及分析
本實驗中對3種算法SVM、Cluster-SVM和DESVM進行結果比較,其中SVM為直接支持向量機算法,Cluster-SVM為對多數類樣本進行聚類后用支持向量機算法,DESVM為本文算法。對表1中數據訓練后的分類結果,由如表2所示:

表2 實驗結果對比表
DESVM算法提高了分類準確率,由Fv的值可以看出對少數類的分類性能也有所提高。
為了對比K值對實驗結果的影響,列出了不同K值的實驗結果,如表3所示:

表3 K值的影響
可以看到隨著K值的增加訓練速度越來越快,K=1表示在樣本標注時采用成對標注法,隨著K值的增加,每次標注的樣本數量也在不斷的增加,因此訓練速度不斷提高,但是被標注的樣本錯誤的可能性就會增加,即分類器學習到錯誤的信息,并且這些錯誤信息是會傳遞的,因此可以看到表3中的結果,K值越小,訓練速度越慢,分類器性能較好,K值越大,訓練速度越快,但是分類性能就差。
針對數據不均衡對分類超平面的影響,導致入侵檢測系統性能不高的問題,提出一種基于密度均衡的SVM入侵檢測算法,該方法在深入分析分類超平面偏移的本質原因,然后利用密度之間的關系對樣本密度進行均衡化處理,在一定程度上避免或減少數據不均衡的影響,提高分類器的泛化能力,實驗結果也表明,可以提高少數類的檢測準確率(入侵檢測中的漏檢率)。但是算法在大規模數據集下的訓練速度較慢,如何提高速度將是下階段的主要工作。
[1] 饒鮮,董春曦,楊紹全.基于支持向量機的入侵檢測系統[J].軟件學報,2003,14(4):798-803.
[2] 李輝,管曉宏,昝鑫,等.基于支持向量機的網絡入侵檢測[J].計算機研究與發展,2003,40(6):799-807.
[3] 武小年,彭小金,楊宇洋,等.入侵檢測中基于SVM的兩級特征選擇方法[J].通信學報,2015,36(4):1-8.
[4] 李國棟,胡建平,夏克文.基于云PSO的RVM入侵檢測[J].控制與決策,2015,30(4):698-702.
[5] WANG B X, Japkowicz N. Boosting support vector machines for imbalanced data sets[C]. Lecture Notes in Artificial Intelligence, 2008, 4994:38-47.
[6] 李雄飛,李軍,董元方,等.一種新的不平衡數據學習算法PCBoost[J].計算機學報, 2012, 35(2):202-209.
[7] 樓曉俊,孫雨軒,劉海濤.聚類邊界過采樣不平衡數據分類方法[J].浙江大學學報(工學版),2013,47(6):944-950.
[8] 林舒楊,李翠華,江弋,等.不平衡數據的降維采用方法研究[J].計算機研究與發展,2011,48:47-53.
[9] 陶新民,童智靖,劉玉.基于ODR和BSMOTE結合的不均衡數據SVM分類算法[J].控制與決策,2011.26(10):1535-1541.
[10] 杜紅樂.基于核空間中K-近鄰的不均衡數據算法[J].計算機科學與探索,2015,9(7):869-876.
[11] 李鵬,王曉龍,劉遠超.一種基于混合策略的失衡數據集分類方法[J].電子學報,2007,35(11):2161-2165.
[12] 王鵬,邱楓,張為華,等.一種任意維Line-Sweep計算的數據劃分算法[J].計算機學報,2012,35(12):2573-2586.
[13] He H B, Garcia E A. Learning from imbalanced data[J].IEEE Transactions on Knowledge and Data Engineering, 2009,21(9):1263-1284.
[14] Wilson D R. Tony R Martinez. Improved heterogeneous distance functions [J]. Journal Artificial Intelligence Research.1997, 6(1):1-34.
[15] CHANG C C, LIN C J. LIBSVM: a library for support vector machines, 2014.Software available at http://www. csie. ntu.tw/~cjlin/libsvm.
Network Intrusion Detection Based on Density Equalization
Zhang Yan, Du Hongle, Li Nan
(School of Mathematics and Computer Application, Shangluo University, Shangluo 726000, China)
In order to reduce the impact of imbalanced and Heterogeneous data for dataset of network intrusion detection, an intrusion detection algorithm based on density equalization is proposed. The algorithm calculates the class density according to Heterogeneous distance. Then majority class is divided into multiple sub classes according to the relation between sample density of particle density and minority class. Calculate the value of K and resampling for every sub classes with K-means cluster algorithm. Then get the balance data sets. Finally, experiment results with KDDCUP99 dataset show the algorithm can improve the classification performance at imbalanced dataset, especially for the minority class samples.
Support Vector Machine; Imbalanced Dataset; Under-sampling; K-means Clustering
TP311
A
1007-757X(2016)08-0036-04
2016.04.20)
陜西省自然科學基礎研究計劃資助項目(No.2015JM6347),陜西省教育廳科技計劃項目(No. 15JK1218),商洛學院科學與技術研究項目(No.15sky010)
張 燕(1977-),女(漢族),陜西商洛人,商洛學院,數學與計算機應用學院,講師,碩士,研究方向:機器學習、信息安全,商洛,726000
杜紅樂(1979-),男(漢族),河南洛陽人,商洛學院,數學與計算機應用學院,講師,碩士,研究方向:機器學習、數據挖掘,商洛,726000
李 楠(1981-),女(漢族),陜西渭南人,商洛學院,數學與計算機應用學院,講師,碩士,研究方向:機器學習、數據處理,商洛,726000