基于分段核函數的SVM入侵檢測方法

2019-06-06 04:21:26談帥昕

軟件導刊 2019年3期

談帥昕

摘要：為了克服N-RBF核函數在處理取值完全相同特征時出現準確率、檢測率和誤報率異常的現象，提出一種分段核函數（P-RBF）。該核函數根據特征樣本方差是否為0對特征分別進行變換，但仍然以RBF核函數為基礎。實驗結果表明，在基于SVM的入侵檢測方法中，選用該分段核函數不僅避免了因選用N-RBF核函數而出現檢測率和誤報率異常的情況，而且較RBF核在準確率、檢測率和誤報率方面有一定改善，同時縮短了檢測時間。

關鍵詞：SVM;入侵檢測;分段核函數

DOI：10. 11907/rjdk. 182783

中圖分類號：TP306文獻標識碼：A文章編號：1672-7800（2019）003-0043-04

0 引言

長期以來，計算機網絡安全問題一直困擾著人們，其不僅源于計算機系統存在的各種漏洞，還源于各種復雜多變的網絡流量存在的潛在隱患，而后者往往導致計算機系統受到入侵。因此，入侵檢測顯得格外重要，從而促進了入侵檢測系統的研究和開發。在研發過程中，人們相繼提出了許多入侵檢測方法。

從現有各種入侵檢測方法來看，基于機器學習或數據挖掘的入侵檢測方法受到了人們重點關注，相關方法包括K-means[1]、極限學習機（ELM）[2]、決策樹（decision tree）[3]、支持向量機（SVM）[4-14]等。由于支持向量機是通過間隔實現分類的，能夠避免過擬合，因而應用更加廣泛。通常情況下，支持向量機非常適合數據規模較小的情形。

值得一提的是，核函數選取將直接影響支持向量機的分類效果。文獻[15]指出在特定領域選擇特定核函數是個公開的難題，因此在不知道任何先驗知識的情況下，優先選用徑向基（RBF）核函數[4-7，9-15]，在許多基于支持向量機的入侵檢測方法研究中也不例外。為了使核函數的選用更加靈活，趙夫群[13]構造了由多項式核函數和RBF核組成的混合核函數，使用PSO算法優化該混合核函數參數，并采用LSSVM進行分類。實驗結果顯示，對從KDD CUP 99測試集中抽取的測試子集異常數據所屬的大類DOS、Probe、U2R和R2L而言，在SVM中選用混合核函數分類相比于選用RBF核分類消耗時間更少，檢測率更高，且誤報率低;肖豐佳[14]構造了一種由多項式核函數、RBF核函數和sigmoid核組成的混合核函數，并采用PSO算法優化該混合核函數參數。實驗結果表明，對特征采用灰色關聯分析方法處理后，在基于SVM的入侵檢測方法中選用混合核函數雖然較選用RBF核函數能獲得更低的誤報率和更高的檢測率，但其檢測性能仍需進一步提升。當然，也有在RBF核基礎上改進核函數的相關研究，如Kuang等[9-10]提出的N-RBF核，其以RBF核為基礎，雖然能克服入侵檢測數據集中一些特征取值范圍相差過大導致檢測時間消耗過多的問題，但當入侵檢測樣本中存在取值完全相同的特征時，會導致準確率、檢測率和誤報率異常。在國外，已有學者將分段核函數用于SVM多分類[16]、圖像重構[17]等方面，均取得了良好效果;在國內，李渝等[12]提出一種基于RBF核函數和線性核函數的分段核函數，用于在支持向量機中對heart數據集進行分類，實驗結果表明，在支持向量機中選用該分段核函數，分類效果不僅優于僅選用RBF核和線性核函數，也優于由線性核函數和RBF核函數組成的組合核函數。受此啟發，為了克服N-RBF核函數存在的問題，本文提出一種分段核函數P-RBF，即對于每一個特征，根據其對應樣本方差是否為0分別進行變換，然后將變換后的特征向量應用于RBF核函數。

1 分段核函數P-RBF構造

1.1 核函數性質

1.2 N-RBF核

1.4 基于分段核函數P-RBF的SVM入侵檢測算法

為方便說明，規定選用的支持向量機算法為C-SVC[6]，核函數選用分段核函數P-RBF，且經過預處理的訓練集與測試集數據已經生成。

Step1：對預處理訓練集中的每一條數據，利用分段核函數P-RBF的分段歸一化功能，再次對輸入數據的各個特征根據其在訓練集中的樣本方差是否為0進行分段變換。如果該特征在訓練集中的樣本方差不為0，則根據該特征在訓練集中的均值和樣本方差進行歸一化變換，否則直接將該特征變換為0。之后將經過變換的訓練集數據劃分為正常和異常兩類，并保證兩類的間隔盡可能大，從而產生支持向量，形成分類模型。

Step3：輸出分類結果。

1.5 基于分段核函數P-RBF的SVM入侵檢測總體流程

Step1：抽取數據。從網絡中抽取一定量的連接數據。

Step2：特征提取。從抽取的連接數據中提取一些特征形成數據集，并分為測試集和訓練集。

Step3：數據預處理。將形成的訓練集和測試集字符特征向數字特征轉化，考慮到各特征取值范圍不同，需要對每個特征作線性歸一化變換。

Step4：訓練基于分段核函數的SVM。將訓練樣本用于訓練基于分段核函數的SVM，并形成分類模型。

Step5：利用訓練后的SVM對測試樣本進行檢測，并輸出分類結果。

Step6：根據分類結果，系統對檢測到的異常情況及時作出響應并采取相應措施。

2 模擬實驗及分析

2.1 數據集及評估標準

模擬實驗中選用的入侵檢測數據集為KDD CUP 99[20]，因而自然省去了基于分段核函數SVM入侵檢測流程中的前兩步。由于在KDD CUP 99數據集中包含Normal、DOS、Probe、U2R和R2L共5大類數據，而Probe、U2R和R2L的數據量相對較少，因而從KDD CUP 99 10%訓練集和KDDTest中隨機抽取數據進行實驗。抽取的數據分布如表1所示。

實驗中涉及的評價指標為準確率（AC）、檢測率（DR）和誤報率（FAR），分別用式（12）-（14）表示。

其中，TP表示被正確檢測成正常的數據記錄數目，FP表示被錯誤檢測成正常的數據記錄數目，TN表示被正確檢測成異常的數據記錄數目，FN表示被錯誤檢測成異常的數據記錄數目。

2.2 實驗數據預處理

由于抽取的訓練子集和測試子集包括41個特征，其中特征protocol_type、service和flag都是字符型，需要分別將其轉化為數字型。將以上3種特征向數字型轉化的方法有兩種，一種是直接將上述特征從字符型轉換為數字型，另一種則是采用獨熱碼（one hot code）方式[21]，即離散特征有n個取值，則可用n維向量表示該離散特征。對于離散特征中出現的每一個值，在n維向量中各自占用獨立的一位并用1表示，而該n維向量只有一位用1表示，其它位用0表示。顯然特征protocol_type、service和flag即可按該方式轉化為數字型，而這些特征取值分別有3種、70種和11種，從而實現了將特征從41維擴展到122維的變換。為了探究上述兩種特征處理方式分別對選用分段核函數的支持向量機性能帶來的影響，實驗會涉及到兩種特征處理方式。鑒于一些特征的內部取值相差非常大，因此在字符型特征向數字型特征變換之后會按照式（15）歸一化至[0，1]。

2.3 實驗分析

2.3.1 分段核函數P-RBF性能實驗

實驗環境為一臺配備了AMD 2.40GHz CPU與4GB內存，并安裝了64位Windows 10系統的電腦，實驗在MATLAB R2010B上進行，SVM分類器采用林志仁教授[9]開發的工具箱LIBSVM。實驗選用RBF核、N-RBF核和分段核函數P-RBF在SVM上作分類，分類采用二分類方式。實驗數據特征為122時的實驗結果如表2所示，實驗數據特征為41時的實驗結果如表3所示。

由表2、表3可見，不論數據特征數為41維還是122維，對于檢測時間而言，N-RBF核最短，其次是分段核函數P-RBF，RBF核最長。說明N-RBF核通過將特征均值和樣本方差嵌入到核函數中，實現了對特征的歸一化，避免了選用RBF核時因特征內部取值范圍差異過大帶來的分類時間過長問題，而分段核函數P-RBF需要根據特征樣本方差是否為0對特征進行變換，因而消耗的檢測時間略多于N-RBF核，但不會多于選用RBF核的情況。但對于準確率、檢測率和誤報率而言，在選用N-RBF核時，檢測率為NaN，誤報率為0，說明正常樣本都被錯誤分類，從而導致準確率非常低，究其原因在于訓練子集和測試子集中一定有取值完全相同的特征，使得該特征的樣本方差為0。但選用分段核函數P-RBF不僅不會出現檢測率為NaN和誤報率為0的現象，而且比選用RBF核的準確率和檢測率更高，誤報率更低。因此，將提出的分段核函數P-RBF用于支持向量機中，會得到較好的檢測效果，且檢測時間較短。

2.3.2 訓練樣本正常數據比例對入侵檢測實驗結果的影響

為了探究訓練樣本正常數據和異常數據比例對入侵檢測實驗結果的影響，從已抽取的訓練子集和測試子集中各抽取1 000條數據，分別作為訓練樣本和測試樣本。定義α為訓練樣本中正常數據占整個訓練樣本的百分比，為了方便研究α對測試樣本分類的影響，將測試樣本中正常數據和異常數據的比例設置為1∶1。但對離散特征protocol_type、service和flag而言，相對于直接轉化為離散數字的方法，用獨熱方式變換可以提高分類魯棒性。因此，在對訓練樣本和測試樣本特征進行預處理時，將特征從41維變換為122維。實驗仍然采用SVM進行分類，并將分段核函數P-RBF和RBF核函數作對照。實驗結果如表4所示。

由表4可見，無論α取0.2、0.5還是0.8，分段核函數P-RBF在測試樣本上的分類準確率不僅都超過90%，而且高于RBF核函數。當α=0.5時，雖然兩個核函數在測試樣本上的分類準確率都為最高，但分段核函數P-RBF的準確率仍高于RBF核。說明對基于支持向量機的入侵檢測方法而言，采用分段核函數P-RBF能取得比RBF核函數更穩定的分類效果。就檢測時間而言，無論α取0.2、0.5還是0.8，選用分段核函數P-RBF所需的時間依然比選用RBF核要短。說明分段核函數P-RBF對于取值不完全相同的特征，能夠根據其在樣本中的均值和樣本方差進行歸一化，并將取值完全相同的特征歸為0，從而達到使特征收斂的目的，不僅提高了分類準確率，而且減少了檢測時間。由此可見，基于分段核函數P-RBF的SVM入侵檢測方法是一種準確率高、檢測時間短且檢測性能穩定的方法。

3 結語

本文提出分段核函數P-RBF，將其應用于基于SVM的入侵檢測方法中，并比較了RBF核、N-RBF核在該入侵檢測方法中的準確率、檢測率與誤報率。實驗結果表明，不論數據特征是41維還是122維，在基于SVM的入侵檢測方法中選用分段核函數P-RBF不僅能有效處理取值完全相同的特征，避免出現異常的準確率、檢測率和誤報率，而且在一定程度上能夠改善相關性能，并縮短檢測時間。此外，為了探究訓練樣本中正常樣本占比對基于SVM的入侵檢測方法的影響，在測試樣本中正常樣本和異常樣本比為1∶1的情況下，對采用不同正常樣本和異常樣本比例的訓練樣本分別進行實驗。實驗結果表明，雖然需要將特征從41維變換至122維，但訓練樣本中正常樣本占總體的比例α無論取0.2、0.5還是0.8，在SVM中選用分段核函數P-RBF的準確率不僅高于選用RBF核函數時的情形，而且相對穩定，檢測時間也更短。因此，基于分段核函數P-RBF的SVM入侵檢測方法是行之有效的。

參考文獻：

[1] WANG X G， WANG L L. Research on intrusion detection based on feature extraction of autoencoder and the improved K-means algorithm[C]. 2017 10th International Symposium on Computational Intelligence and Design （ISCID）， 2017： 352-356.

[2] CHENG C， TAY W P， HUANG G B. Extreme learning machines for intrusion detection[C]. The 2012 International Joint Conference on Neural Networks （IJCNN）， 2012： 1-8.

[3] TENG L， Y TENG S H， TANG F Y， et al. A collaborative and adaptive intrusion detection based on SVMs and decision trees[C]. 2014 IEEE International Conference on Data Mining Workshop，2014： 898-905.

[4] CALIX R A，SANKARAN R. Feature ranking and support vector machines classification analysis of the NSL-KDD intrusion detection corpus[J]. Community Dentistry & Oral Epidemiology，2013，41（1）： 41-52.

[5] 范宇辰. 一種基于極限學習機的分類器及其應用研究[D]. 沈陽：東北大學， 2014.

[6] CHANG C C， LIN C J. LIBSVM： a library for support vector machines[J]. ACM transactions on intelligent systems and technology （TIST）， 2011， 2（3）： 1-27.

[7] AMBUSAIDI M A， HE X J， NANDA P， et al. Building an intrusion detection system using a filter-based feature selection algorithm[J]. IEEE transactions on computers， 2016， 65（10）： 2986-2998.

[8] 高妮，高嶺，賀毅岳，等. 基于自編碼網絡特征降維的輕量級入侵檢測模型[J]. 電子學報， 2017， 45（3）： 730-739.

[9] KUANG F J， XU W H， ZHANG S Y. A novel hybrid KPCA and SVM with GA model for intrusion detection[J]. Applied Soft Computing Journal， 2014， 18（4）： 178-184.

[10] KUANG F J， ZHANG S Y， JIN Z， et al. A novel SVM by combining kernel principal component analysis and improved chaotic particle swarm optimization for intrusion detection[J]. Soft Computing， 2015， 19（5）： 1187-1199.

[11] 譚琨，杜培軍. 基于再生核Hilbert空間小波核函數支持向量機的高光譜遙感影像分類[J]. 測繪學報， 2011， 40（2）： 142-147.

[12] 李渝，吳增印. 基于分段核函數的支持向量機及其應用[J]. 現代電子技術， 2013， 36（16）： 5-8.

[13] 趙夫群.基于混合核函數的LSSVM網絡入侵檢測方法[J].現代電子技術，2015，38（21）：96-99.

[14] 肖豐佳. 基于粒子群優化支持向量機的入侵檢測模型研究[D]. 重慶：西南大學， 2012.

[15] 汪廷華，陳峻婷. 核函數的選擇研究綜述[J]. 計算機工程與設計， 2012， 33（3）： 1181-1186.

[16] BREDENSTEINER E J， BENNETT K P. Multicategory classification by support vector machines[J]. Computational Optimization & Applications， 1999， 12（1-3）： 53-79.

[17] MEIJERING E H W， ZUIDERVELD K J， VIERGEVER M A. Image reconstruction by convolution with symmetrical piecewise nth-order polynomial kernels[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society， 1999， 8（2）： 192-201.

[18] CRISTIANINI N， TAYLOR J S. 支持向量機導論[M]. 李國正，王猛，曾華軍，譯. 北京：電子工業出版社， 2004.

[19] 鄧乃揚，田英杰. 支持向量機：理論、算法與拓展[M]. 北京：科學出版社， 2009.

[20] STOLFO S J， FAN W， LEE W K， et al. KDD cup 1999 data[EB/OL]. http：//kdd.ics.uci.edu/databases/ kddcup99/kddcup99.html.

[21] KELLEY D R， SNOEK J， RINN J. Basset： learning the regulatory code of the accessible genome with deep convolutional neural networks[J]. Genome Research， 2016， 26（7）： 990-999.

（責任編輯：黃 ?。?/p>

軟件導刊2019年3期

軟件導刊的其它文章: 高校學習管理系統選型研究; 基于MOOC的大學計算機基礎翻轉課堂實踐與探索; 新工科建設中地方普通高校過程化教育研究與實踐; “現代網絡通信工程設計”課程建設模式探索; 新工科背景下智慧課堂教學模式研究; 面向大數據專業的Java課程改革研究