◆邵子豪 宋汝鑫 王 萌 陳炫慧
?
基于改進型SVM的生存性增強方法
◆邵子豪 宋汝鑫 王 萌 陳炫慧
(哈爾濱師范大學計算機科學與信息工程學院 黑龍江 150025)
本文針對SVM方法在數據預處理中無法識別錯誤數據的問題,先使用消錯方法對生存態勢數據進行預處理,去除錯誤數據;接著使用SVM方法實現數據的識別。實驗表明,消錯方法可以識別可生存系統生存態勢中的錯誤態勢數據,保證數據正確性;相較于傳統的BP神經網絡在分類識別準確率提升了2.03%,在不斷增加的錯誤比重數據中,改進型SVM方法在識別準確率有很大改善,最終實現了生存性的增強。
可生存系統;消錯方法;SVM方法;生存性;增強
生存性的增強是可生存系統技術領域中的一個重要研究問題。姚蘇等[1]針對網絡可生存性中的網絡攻擊傳播速率與網絡修復速率進行研究,分析網絡生存性特點;陳天平等[2]研究了現有服務漂移策略的缺點,在可生存性態勢感知中提出一種新型的服務主動漂移模型,著重于改善抗毀能力與服務的間斷時間。
在解決少量樣本、非線性和高維識別問題中SVM方法具有很大的優勢。Erfani S M等[3]將SVM方法應用到高維問題的異常檢測中,實驗表明該方法計算效率高、模型可擴展,以此證明了SVM方法在異常檢測中的可用性;Cervantes J等[4]研究表明SVM在處理分類識別問題上的優勢,但在數據集中具有較多錯誤數據時,識別性能將會降低,說明了SVM在識別領域中的優越性但也存在局限性。
為此,本文彌補了SVM方法在識別數據中缺乏對數據進行預處理的問題,對SVM方法進行改進。首先,使用消錯方法對生存態勢數據進行數據預處理,去除錯誤數據,保證數據的正確性;其次,將處理后的數據使用SVM方法進行識別;最終,通過提高了測試數據的成功識別率,實現了可生存系統生存性的增強。
消錯方法[5]是一種以避免錯誤損失為目的的方法,它可以檢測出錯誤數據。在辨別多種正常可生存系統生存態勢數據問題中,假設有m個態勢數據表示為{aaa},則態勢數據中采集的n個屬性可表示為D={ddd},x為態勢數據ai在屬性dj下的測量值。消錯方法步驟如下:
步驟1:計算數據錯誤值E。
其中i = 1,2,…,m,j∈N。
步驟2:計算最大錯誤值E,表示為:
其中i=1,2,…,m,N={1,2,…,n}.當Ei*=1時,則態勢數據出現錯誤,去除該數據。
消錯方法的使用,將可生存系統生存態勢數據進行錯誤識別,區分該數據是否為正常數據,保證了測試數據在進入SVM方法中數據的正確性。
支持向量機(SVM)是由Vapnik首先提出的。它的主要優點包括:
可在各種函數集中構造函數,通用性較好;該方法受到的人為因素影響較少,優化技術簡單;具有嚴格的統計學習理論;因此,將SVM方法運用到可生存系統生存性增強中,不僅操作方法較為簡單,還可以保證識別的準確率。算法實現過程如下:
對于已知訓練生存態勢樣本數集{(1,1),...,(n,n)},構造最優決策函數:
式中:為權重矢量,為懲罰系數,為偏差值,i和i為松弛變量,為回歸函數誤差要求,n為樣本數量。
首先,需要從原始數據里把訓練集和測試集提取出來;接著,使用消錯方法對可生存系統生存態勢數據進行錯誤數據檢測,保證測試數據的正確性;最后,用訓練集對SVM方法進行訓練,訓練完畢后,對測試數據進行分類。
本文參考文獻[6]中指標體系,將生存性劃分為完整程度、信道使用性能和數據感知。
3.1 消錯方法實現
在實驗中,設網絡系統服務中提供4種級別的服務L1(最高),L2,L3,L4(最低),利用可生存系統生存態勢數據在不同評價指標體系下的表現進行識別。數據表如表1。

表1 數據表
表1規定當前狀態下,不同服務級別的各項性能指標不同,每一項性能指標都有其合理范圍。現隨機抽取5組數據,如表2。(d1為數據復用率,d2為校驗強度,d3為信道延遲,d4為信道吞吐率,d5為信道利用率,d6感知率)

表2 測試用戶數據
根據公式(1)和(2)求得極限損失值為1*=0.34、2*=1、3*=0.85、4*=1、5*=0.37。通過公式(2)可知a2和a4為錯誤數據,成功實現對錯誤數據的識別。
3.2 改進型SVM方法實現
現選取各級別服務數據各400個,共1600個數據,作為訓練集,分別對BP神經網絡、傳統型SVM和本文方法進行訓練,并選取400個無錯誤數據作為測試集,測試結果如表3。

表3 方法對比
觀察表3,使用SVM方法在可生存系統生存態勢數據中的識別準確率相較于BP神經網絡方法,提高了2.03%;在無錯誤數據下準確率與傳統方法一致,但隨著錯誤數據的增加,本文提出的方法優勢便會顯現。測試結果如圖1。

圖1測試結果
通過圖1可以發現,測試集中若沒有錯誤數據,SVM方法對數據識別的準確率高達98.75%,識別效果優異。隨著測試數據集中的錯誤數據比重不斷增多,傳統型SVM方法識別準確率呈現下降趨勢,但本文的改進型SVM識別準確率基本不變。這是因為,隨著錯誤數據的增多,增加了識別的困難,原本合理的數據也會由于過多的錯誤數據導致錯誤識別,本文的改進型SVM方法,去除了錯誤數據,以此提高了識別準確率。
綜上,本文提出的改進型SVM方法,不僅可對網絡系統服務中4種級別服務中產生的錯誤數據進行識別,保證測試數據的正確性,還可對其進行高準確率識別。通過此方法,實現了對可生存系統生存態勢生存性的增強。
本文針對生存態勢的生存性,提出了一種結合消錯方法的改進型SVM方法。在實驗中,通過對網絡系統服務中的數據識別的測試,并與傳統的BP神經網絡方法進行對比,最終實現了生存性的增強。但本文方法存在相應的不足,只研究了如何去除錯誤數據,缺乏對錯誤數據的進一步細分。在今后的研究工作重點是對去除的錯誤數據進行研究與分析。
[1]姚蘇,關建峰,潘華等.基于APT潛伏攻擊的網絡可生存性模型與分析[J].電子學報,2016.
[2]陳天平,孟相如,崔文巖等.基于網絡可生存性態勢感知的主動服務漂移模型[J].空軍工程大學學報·自然科學版,2015.
[3]Erfani S M,Rajasegarar S,Karunasekera S,et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J]. Pattern Recognition,2016.
[4]Cervantes J,García-Lamont F,López A,et al. PSO-Based Method for SVM Classification on Skewed Data-Sets[M]// Advanced Intelligent Computing Theories and Applications. Springer International Publishing,2015.
[5]黃灝然,江尚樂,蔡肯.關鍵重要型多屬性消錯決策方法[J].數學的實踐與認識,2015.
[6]趙國生,王慧強,王健.基于灰色關聯分析的網絡可生存性態勢評估研究[J].小型微型計算機系統,2006.