陳金鑫
(皖西學院,安徽 六安 237012)
雖然網絡技術可以使用戶充分感受大數據帶來的便利,但是隨著數據量的增多,網絡安全問題也逐漸顯現,因此有必要對網絡安全檢測技術進行研究。而無線網絡入侵特征提取是網絡安全檢測的關鍵技術之一,是近年來相關領域的重點問題。
很多研究人員提出了入侵特征檢測方法,其中楊文虎[1]提出了基于云計算的船舶通信網絡入侵特征提取方法,該方法通過對入侵問題進行描述,對特征數據進行信號處理,從而確定入侵特征數據,構建了特征檢測框架,實現對特征的提取;夏景明[2]等提出基于改進隨機森林分類器的網絡入侵檢測方法,該方法利用高斯混合模型將特征數據劃分成不同簇,通過隨機森林分類器對不同簇進行訓練,并在訓練好的簇中提取入侵特征。上述研究方法雖然能夠在大數據環境中對網絡入侵特征進行有效提取,但是特征提取過程中會遺漏部分特征數據,存在一定的漏檢率。
針對現有方法存在的問題,提出基于支持向量機的無線網絡入侵特征提取算法,通過建立入侵特征提取原則,提升算法實現的理論性,能夠在先驗知識不足的條件下保證特征提取的全面性,并能夠挖掘無線網絡中固有的冗余入侵數據,解決傳統方法由于訓練結果誤差導致的特征缺失問題。
在開始入侵特征提取之前,要建立面向海量入侵數據的提取原則,在該原則指導下,保證特征提取的科學性,具體原則如下:
全面性原則:由于無線網絡中包含各種數據類型,不同數據類型之間組成了一個又一個整體結構,因此,特征提取要對無線網絡結構中的數據類型進行檢測,入侵特征提取指標要具有全面性[3]。
層次性原則:為保證特征提取結果的全面性,需要選取大量指標,但是不同入侵數據的重要程度是不一樣的,如果忽略了部分指標會違反全面性原則,因此,可以根據層次性原則,有效避免特征提取過程中造成特征遺漏問題。
獨立性原則:由于部分特征數據會存在重疊現象,如果不考慮該因素會造成指標冗余,增加工作量,還會對提取結果產生影響,造成結果誤差偏大的問題。因此,指標選取時,盡可能選擇概括性較強、具有代表性的指標。
依據入侵特征提取原則,采用支持向量機對無線網絡入侵特征進行提取研究。支持向量機(Support Vector Machine,SVM)具有在先驗知識不足的條件下對不同類型數據進行精準分類的功能[4],因此,采用支持向量機對無線網絡中的入侵數據進行分類,在分類結果的基礎上,篩選入侵特征指標,最終構建一個矩陣,實現對入侵特征的提取。
篩選無線網絡入侵特征指標時,參考入侵特征提取原則,假設無線網絡中存在n個數據樣本S={s1,s2,sn},引入一個映射函數η,將整體特征數據映射至高維可用空間中,得到可用映射值特征數據集η(s1),η(s2),…,η(sn),映射值需要滿足下列條件:
(1)
其中,j表示入侵特征維度。在滿足公式(1)的基礎上,篩選不同維度的入侵特征主成分,得出:
η(sk)=T×[θ(si)-θ(sj)]
(2)
其中,T表示特征提取周期,θ表示全部特征向量,si表示入侵數據之間的特征關系,sj表示冗余特征。
根據入侵特征主成分,構建一個入侵特征篩選矩陣:
(3)
其中,b表示入侵特征分量。根據公式(3)給出的矩陣,篩選最優特征向量,篩選結果可以表示為:
(4)
其中,αik表示最優特征向量。
通過上述計算過程,剔除了無線網絡入侵特征中的冗余特征,實現對無線網絡入侵特征的準確提取,能夠為網絡環境安全與威脅檢測提供技術支撐。
為驗證基于支持向量機的無線網絡入侵特征提取算法能否實現對網絡入侵特征的有效提取,選擇基于云計算的船舶通信網絡入侵特征提取方法和基于改進隨機森林分類器的網絡入侵檢測方法作為對比方法,以特征提取中特征數據的漏檢率為指標,進行仿真實驗驗證。
以KDD CUP-99數據集為基礎數據集,其中包含各種用戶類型數據、網絡運行數據及網絡安全風險歷史數據,并由不同網絡攻擊手段生成了大量的真實數據集。在該數據集中選取700 M攻擊數據作為樣本,對其進行特征提取,對比不同方法提取過程中的入侵特征漏檢率,結果如圖1所示。

圖1 不同方法的入侵特征漏檢率Fig.1 Intrusion omission ratio of different methods
通過圖1可以看出,對無線網絡入侵特征提取的過程中,隨著數據量的增加,不同方法均呈現出整體上升趨勢,但是與文獻[1]方法和文獻[2]方法相比,所提算法的入侵特征漏檢率明顯更低,其漏檢率最高值僅為46%,而文獻[1]方法和文獻[2]方法的漏檢率最高值分別為86%和83%。通過數據對比可知,隨著入侵數據量的增加,所提算法仍然能夠保持較高水平,充分驗證了該算法的優勢性。該算法利用支持向量機精準分類的優勢,對入侵特征進行篩選,并提取其中的冗余特征,減少了工作量,降低了漏檢率。
網絡入侵是一種常見的網絡安全威脅,對不同類型的入侵特征進行提取能夠對入侵風險進行防范,因此提出了一種基于支持向量機的無線網絡入侵特征提取算法。通過實驗結果可知,該算法在特征提取過程中造成的漏檢率明顯低于傳統方法,說明該算法得出的提取結果更加全面,能夠涵蓋更多的入侵特征,為網絡安全保護提供可靠的理論支撐。