摘要:基于SVDD算法(一種改進的one-class支持向量機算法)提出了一種能夠處理無類標非純凈訓練集的異常檢測方法,可以在無類標非純凈訓練集上進行模型訓練,在很大程度上降低了對訓練數據集的要求。另外針對異構數據集,構造了一種新的基于距離的核函數,使得SVDD算法具有處理異構數據集的能力,使之能應用于入侵檢測中。通過在KDD CUP’99的標準入侵檢測數據集上進行實驗,證明了該方法的有效性和實用性。
關鍵詞:入侵檢測;支持向量機;核函數
中圖分類號:TP393文獻標志碼:A
文章編號:1001-3695(2007)12-0162-03
0引言
目前在入侵檢測研究中有許多學者使用基于機器學習的方法,但是傳統的各種機器學習的算法多是基于樣本數目趨于無窮大的假設,并且對數據的規律性要求比較高,應用到入侵檢測系統時通常都不能得到非常理想的結果。
入侵檢測的核心是通過建立正常或異常的行為模式來檢測入侵,因此從本質上講,入侵檢測實質上就是一個二值分類問題,但是入侵檢測系統中需要分類的數據通常是一種高維、小樣本、異構的數據。而支持向量機方法作為機器學習的一種新的學習和分類方法,具有較好的理論基礎(統計學習理論)和應用前景。近年來,許多關于支持向量機方法的研究,包括算法本身的改進和算法的實際應用,都陸續發展起來。因此將支持向量機的方法應用于入侵檢測是完全可行的,但是必須對其進行改進以處理異構數據。
1相關工作
將SVM的理論和方法應用于入侵檢測是最近幾年興起的。Mukkamala[1]、陳光英[2]及饒鮮等人[3]分別介紹了以網絡數據包和系統調用序列作為檢測對象建立基于SVC的入侵檢測系統的方法;Nguyen[4]、Eskin等人[5]提出基于one-class SVM的異常檢測技術。研究者們通過實驗證明了基于SVM的方法與基于神經網絡、聚類等技術的異常檢測方法相比,具有更好的檢測性能和效率。但是上述方法存在一個共同的問題:優良檢測性能的獲得依賴于訓練集選取。SVC是有監督的學習方法,基于SVC的入侵檢測算法要求正確分類的有類標訓練集;one-class SVM 算法盡管不使用類標,但是通常要求純凈的正常數據組成訓練集。然而在現實中,無論是有正確類標的訓練集或純凈的訓練集都并不容易保證。如果有攻擊數據被錯誤當做正常數據出現在訓練集中,那么由此得出的模型就不能檢測此種攻擊,導致漏警。
針對該問題,本文通過分析SVDD算法及其在包含異常的非純凈訓練集上學習的能力,構造了一種新的基于距離的核函數,提出了一種能夠處理無類標非純凈訓練集的異常檢測方法——SVDD-E方法,并使之能應用于入侵檢測中。通過在KDD CUP’99的標準入侵檢測數據集上進行實驗,證明了該方法的有效性和實用性。
2SVDD-E算法
如前所述,要使SVDD算法能夠應用于入侵檢測系統中,首先必須使其具有處理異構數據的能力;其次還應有一定的容噪能力,即應具有在非純凈數據集上的學習能力。下面討論對SVDD算法的改進算法SVDD-E(Extension)。
2.1SVDD算法在異構數據集上的推廣
4結束語
本文提出了一種新的基于SVDD算法的異常檢測方法——SVDD-E算法。該算法利用了第3章所定義的異構數據集上數據點之間的定義擴展了SVDD算法,并利用SVDD所具有的在非純凈訓練集上的學習能力,可以在包含攻擊數據的無類標數據集上訓練得到描述模型,使用該模型區分正常和攻擊數據。通過在KDD CUP’99 的標準數據集上的實驗,證明該方法經過一段時間的學習后能夠得到較高檢測率和較低誤警率。
現實環境中,考慮到正常行為模式也會隨著時間發生變化,任何一種異常檢測方法都不應該使用一成不變的模型,必須在適當時刻構造訓練集、重新訓練新模型、更新舊模型。基于SVDD的異常檢測方法降低了對訓練集的要求,使得及時地更新模型成為可能。如何進一步提高該方法的適應性、并將其應用于聯機環境下的訓練和檢測,是下一步的工作方向之一。
參考文獻:
[1]MUKKAMALA S,JANOSKI G I,SUNG A H.Intrusion detection using neural networks and support vector machines[C]//Proc of IEEE International Joint Conference on Neural Networks.Washington D C:IEEE Computer Society,2002:1702-1707.
[2]陳光英,張千里,李星.基于SVM分類機的入侵檢測系統[J]. 通信學報, 2002,23(5):51-56.
[3]饒鮮,董春曦,楊紹全.基于支持向量機的入侵檢測系統[J].軟件學報,2003,14(4):798-803.
[4]NGUYEN B V.An application of support vector machines to anomaly detection[EB/OL].(2002).http://132. 235.28.162/bnguyen/papers/IDS_SVM.pdf.
[5]ESKIN E,ARNOLD A,PRERAU M,et al.A geometric framework for unsupervised anomaly detection:detecting intrusions in unlabeled data[M]//BARBARA D,JAJODIA S. Applications of data mining in computer security.[S.l.]:Kluwer, 2002.
[6]SCHLKOPF B.The kernel trick for distance,MSR-TR-2000-51.[R].[S.l.]:Microsoft Research,2000.
[7]SCHLKOPF B.Statistical learning and kernel methods MSR-TR-2000-23[R].Microsoft Research,2000.
[8]TAX D M J,DUIN R P W.Data domain description using support vectors[C]//Proc of the European Symposium on Artificial Neural Networks. Brussel:D Facto,1999:251-256.
[9]TAX D M J.One-class classification[D].Delft,Holand:Delft University of Technology,2001.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”