周湘貞, 李 帥, 隋 棟
(1.鄭州升達經(jīng)貿(mào)管理學(xué)院 信息工程學(xué)院, 河南 鄭州 451191;2.北京航空航天大學(xué) 計算機學(xué)院, 北京 100191; 3.北京建筑大學(xué) 電氣與信息工程學(xué)院, 北京 102406)
萬物互聯(lián)技術(shù)發(fā)展迅速,加入網(wǎng)絡(luò)的數(shù)據(jù)資源不斷增加,基于因特網(wǎng)的衍生服務(wù)增量明顯。不論是對于傳統(tǒng)網(wǎng)絡(luò)服務(wù),還是新生的創(chuàng)新網(wǎng)絡(luò)服務(wù),網(wǎng)絡(luò)安全問題都是無法規(guī)避的重要問題,直接影響多樣化的網(wǎng)絡(luò)服務(wù)在各行業(yè)的推廣。網(wǎng)絡(luò)入侵檢測作為被動應(yīng)對網(wǎng)絡(luò)入侵的主要策略方式[1],憑借其效率高且入侵檢出率高等優(yōu)點,在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)服務(wù)的安全保障中具有重要地位。通過與常用網(wǎng)絡(luò)入侵類型深度匹配,采用網(wǎng)絡(luò)入侵檢測技術(shù)確定網(wǎng)絡(luò)數(shù)據(jù)的入侵種類,可以采取合理的應(yīng)對措施,實時有效阻截常見網(wǎng)絡(luò)入侵。由于能夠解決大部分網(wǎng)絡(luò)入侵問題,因此網(wǎng)絡(luò)入侵檢測技術(shù)一直是網(wǎng)絡(luò)安全問題研究的熱點。
網(wǎng)絡(luò)入侵檢測算法在網(wǎng)絡(luò)安全中的作用與其性能密切相關(guān)[2], 優(yōu)秀的網(wǎng)絡(luò)入侵檢測算法能夠分辨正常數(shù)據(jù)和攻擊數(shù)據(jù), 而且能夠在較短時間內(nèi)準(zhǔn)確地辨認(rèn)不同入侵類型, 從而為有效阻截各種網(wǎng)絡(luò)入侵提供有效依據(jù)。 肖耿毅[3]采用加權(quán)核極限學(xué)習(xí)機算法進行入侵檢測, 運用稀疏主成分空間嵌入方法進行網(wǎng)絡(luò)數(shù)據(jù)特征處理, 構(gòu)造出適合極限學(xué)習(xí)機分類的樣本類型, 實現(xiàn)常見入侵類型的有效分類檢測。 王運兵等[4]采用多核最小二乘支持向量機(LSSVM)進行網(wǎng)絡(luò)入侵檢測, 運用混合粒子群優(yōu)化(HPSO)進行LSSVM參數(shù)尋優(yōu), 結(jié)果表明, HPSO-LSSVM算法的參數(shù)求解復(fù)雜度較低且檢測準(zhǔn)確率較高。
上述研究均獲得了較高的入侵檢測及分類準(zhǔn)確率;但是由于檢測算法復(fù)雜度高,因此無法快速實現(xiàn)大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的實時入侵類型檢測,對于海量網(wǎng)絡(luò)數(shù)據(jù)快速入侵檢測的適用性較差。本文中提出一種基于線性判別分析(LDA)優(yōu)化孿生支持向量機(TWSVM)的網(wǎng)絡(luò)入侵檢測算法,通過LDA對復(fù)雜異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)進行降維處理,降低TWSVM運算復(fù)雜度,提高TWSVM在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)入侵實時分類檢測中的適用性。
由于接入網(wǎng)絡(luò)設(shè)備類型差異、服務(wù)類型多樣化及網(wǎng)絡(luò)結(jié)構(gòu)的異構(gòu)化等特點,造成網(wǎng)絡(luò)入侵檢測數(shù)據(jù)分析的特征數(shù)量多而且結(jié)構(gòu)復(fù)雜,因此在采用TWSVM算法進行入侵類型分類之前,有必要對網(wǎng)絡(luò)數(shù)據(jù)進行降維處理。本文中采用LDA進行數(shù)據(jù)降維,具體數(shù)學(xué)描述如下。
設(shè)包含n個樣本的數(shù)據(jù)集X的類別數(shù)為C。X的類內(nèi)和類間散度分別為Sw和Sb。X經(jīng)過LDA降維后的變量q的推導(dǎo)方程[5]為
(1)
Sw和Sb計算公式[6]為
(2)
(3)
式中:ni為i類樣本個數(shù);μi為第i類類內(nèi)均值;xij為i類中第j個樣本。
第i類樣本類內(nèi)均值的計算公式為
(4)
總均值的計算公式為
(5)
J(q)的求解轉(zhuǎn)化[7]為
(6)
(7)
2 基于LDA-TWSVM算法的網(wǎng)絡(luò)入侵檢測
設(shè)包含n1+n2個不同類樣本的數(shù)據(jù)集經(jīng)過TWSVM分類, 其對應(yīng)的一次規(guī)劃(TWSVM-1)分解和二次規(guī)劃(TWSVM-2)分解的數(shù)學(xué)描述[8]為
(8)
式中上標(biāo)(1)和(2)分別對應(yīng)TWSVM-1分解和TWSVM-2分解,x為TWSVM的樣本變量。設(shè)A為TWSVM-1對應(yīng)的樣本變量,B為TWSVM-2對應(yīng)的樣本變量,那么可以對TWSVM-1、 TWSVM-2分別進行替代求解[9]。
(9)
(10)
式中: 偏差參數(shù)ζ和η均大于或等于0;c1和c2為控制常量;w、b為超平面的參數(shù)。
對式(2)進行拉格朗日乘子運算[10],
c1ζ+α(-(Bw(1)+b(1))+ζ)-βζ,
(11)
對w(1)、b(1)和ζ分別求偏導(dǎo)[11-13],得到
A(Aw(1)+e2b(1))+βα=0,
(12)
c1-α-β=0。
(13)
通過求解w(1)和b(1),從而確定TWSVM-1,即xw(1)+b(1)=0。
類似上述過程,通過求解w(2)和b(2),從而確定TWSVM-2,即xw(2)+b(2)=0。
在本文中提出的基于LDA-TWSVM算法的網(wǎng)絡(luò)入侵檢測方法中,首先對網(wǎng)絡(luò)樣本進行LDA處理,獲得樣本特征降維變量;然后,將特征降維變量輸入TWSVM算法進行分類檢測?;贚DA-TWSVM的網(wǎng)絡(luò)入侵檢測流程如圖1所示。

圖1 基于線性判別分析(LDA)優(yōu)化孿生支持向量機(TWSVM)的網(wǎng)絡(luò)入侵檢測流程
本文中選取4個常用公共網(wǎng)絡(luò)安全測試數(shù)據(jù)集, 如表1所示。 首先, 分別采用TWSVM和LDA-TWSVM算法對4個數(shù)據(jù)集進行入侵檢測仿真, 驗證LDA降維對TWSVM的網(wǎng)絡(luò)入侵檢測性能影響; 其次, 分別采用LDA-SVM算法和LDA-TWSVM算法對表中的4個數(shù)據(jù)集進行性能仿真, 比較不同SVM類型的檢測性能;最后,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[14]算法、 特征加權(quán)的Jensen-Shannon散度與反類別頻率改進樸素貝葉斯(JRNB)[15]算法、混合粒子群優(yōu)化多核最小二乘支持變量機(HPSO-LSSVM)算法與LDA-TWSVM算法進行仿真對比,驗證不同算法對于這4個數(shù)據(jù)集的網(wǎng)絡(luò)入侵檢測的適用性。

表1 常用公共網(wǎng)絡(luò)安全測試數(shù)據(jù)集
分別采用TWSVM算法和LDA-TWSVM算法進行網(wǎng)絡(luò)入侵檢測,對4類樣本的檢測性能見表2。由表中數(shù)據(jù)可以看出:經(jīng)過LDA優(yōu)化之后,網(wǎng)絡(luò)入侵檢測樣本的數(shù)據(jù)維度更小,TWSVM算法的入侵檢測適用度增強。與TWSVM算法相比,LDA-TWSVM算法的檢出率提升明顯,其中在KDD Cup99數(shù)據(jù)集中的檢出率最高,為98.21%;在HTTP DATASET CSIC數(shù)據(jù)集中的檢出率最低,為96.25%。相比之下,TWSVM算法在KDD Cup99數(shù)據(jù)集中的檢出率最高,為90.37%;在HTTP DATASET CSIC數(shù)據(jù)集中的檢出率僅為87.67%。

表2 不同算法對4個公共網(wǎng)絡(luò)安全測試數(shù)據(jù)集的網(wǎng)絡(luò)入侵檢測性能
經(jīng)過LDA優(yōu)化之后,網(wǎng)絡(luò)入侵檢測樣本的數(shù)據(jù)維度更小,TWSVM算法的入侵檢測穩(wěn)定性提升明顯,LDA-TWSVM算法在HTTP DATASET CSIC數(shù)據(jù)集中的檢出率均方根誤差(RMSE)值最小,LDA-TWSVM算法在4個數(shù)據(jù)集中的檢出率RMSE均小于1.14,而TWSVM算法的均大于1.17,表明LDA-TWSVM算法在這些數(shù)據(jù)集中的網(wǎng)絡(luò)入侵檢測性能更穩(wěn)定。
綜合而言, 對網(wǎng)絡(luò)入侵檢測樣本進行LDA降維處理, 能夠有效提高TWSVM算法的檢出率和穩(wěn)定性, 從側(cè)面說明TWSVM算法對樣本的維度依賴程度較高, 并不適合于對高維度樣本的網(wǎng)絡(luò)入侵檢測。
TWSVM算法和LDA-TWSVM算法的檢測時間差距較小,結(jié)果顯示在Masquerading User Data數(shù)據(jù)集中的檢測時間差距最大,僅為2.77 s。
分別選擇LDA-SVM算法與LDA-TWSVM算法對4個數(shù)據(jù)集進行網(wǎng)絡(luò)入侵檢測性能仿真,結(jié)果見圖2。

從圖2(a)可以看出,同樣進行網(wǎng)絡(luò)特征LDA降維,SVM算法和TWSVM算法對不同數(shù)據(jù)集的檢出率差異較大,其中LDA-SVM算法的網(wǎng)絡(luò)入侵檢出率維持在0.88~0.92,而LDA-TWSVM算法的檢出率均大于0.96。兩者在HTTP DATASET CSIC數(shù)據(jù)集中的檢出率差距最小,在ADFA IDS Datasets數(shù)據(jù)集中的檢出率差距最大,表明TWSVM算法在各類數(shù)據(jù)集中的網(wǎng)絡(luò)入侵檢測適應(yīng)性更強。
從圖2(b)中可知, SVM算法和TWSVM算法對不同數(shù)據(jù)集的網(wǎng)絡(luò)入侵檢測穩(wěn)定性差異較大, 其中LDA-SVM算法的檢出率RMSE均大于1.25且變化較大, 在HTTP DATASET CSIC數(shù)據(jù)集的穩(wěn)定性最好, 在Masquerading User Data數(shù)據(jù)集的穩(wěn)定性最差, 表明該算法的檢測穩(wěn)定性對網(wǎng)絡(luò)樣本的敏感度較高; 而LDA-TWSVM算法的檢出率RMSE均在1.13左右, 且不同數(shù)據(jù)集的RMSE差異非常小, 表明該算法對數(shù)據(jù)集的敏感度更低, 在不同數(shù)據(jù)集的網(wǎng)絡(luò)入侵檢測中的穩(wěn)定性更高。
分別采用不同算法對4個公共網(wǎng)絡(luò)安全測試數(shù)據(jù)集進行網(wǎng)絡(luò)入侵檢測性能仿真,結(jié)果見圖3。由圖可以看出,當(dāng)4種網(wǎng)絡(luò)入侵檢測算法穩(wěn)定時,LDA-TWSVM算法的檢出率最高, HPSO-LSSVM算法的次之。 4種算法在 KDD Cup99數(shù)據(jù)集中的檢出率最高, 接近于100%, 在HTTP DATASET CSIC數(shù)據(jù)集中的略差。 從檢測時間來看, JRNB算法具有明顯優(yōu)勢, 在50 s時就可以獲得最佳的檢測率, 原因是該算法的迭代運算量小。 相比之下, CNN、 HPSO-LSSVM算法的檢測時間長, 均需65 s以上的時間才能獲得最佳的檢測率, 主要原因是兩者都需要多次迭代網(wǎng)絡(luò)參數(shù), 大幅增加了檢測時間。

為了進一步驗證、 比較4種算法對不同網(wǎng)絡(luò)入侵類型的檢測性能, 選取常用的Normal、 DOS、 R2L、 PROBE、 U2R共5個入侵類型進行檢出率統(tǒng)計, 結(jié)果見表3。 從表中可以看出, 4種算法對不同網(wǎng)絡(luò)入侵類型的檢出率差異較大, 對DOS類型的檢出率最高, 其次是U2R類型, 對R2L類型的檢出率最低。 對于同一種入侵類型, 4類算法的檢出率各不相同, 其中LDA-TWSVM算法的檢出率均最高, 且對DOS、 U2R類型的檢出率分別高達0.994 3、 0.991 8,而對R2L類型的檢出率較低,為0.960 3,此時CNN算法的檢出率僅為0.883 5。

表3 不同算法對不同網(wǎng)絡(luò)入侵類型的檢出率
分別對4個網(wǎng)絡(luò)入侵檢測算法的檢出率RMSE進行仿真, 統(tǒng)計算法穩(wěn)定時的RMSE, 結(jié)果見表4。 從表中可以看出, 對于同一數(shù)據(jù)集, LDA-TWSVM算法的檢測RMSE最小, HPSO-LSSVM、 JRNB算法的次之, CNN算法的最大。 相比于CNN, LDA-TWSVM算法的RMSE值平均減小了約0.2。 針對不同的數(shù)據(jù)集, 4種算法的檢測RMSE差異較小, 表明這些種算法的檢測穩(wěn)定性受樣本本身的差異影響很小。

表4 不同算法對4個公共網(wǎng)絡(luò)安全測試數(shù)據(jù)集的網(wǎng)絡(luò)入侵檢測均方根誤差
采用LDA方法對樣本特征進行降維處理,降低了TWSVM算法的網(wǎng)絡(luò)入侵檢測復(fù)雜度,提高了TWSVM算法的網(wǎng)絡(luò)入侵檢出率,與LDA-SVM算法或者TWSVM算法相比,LDA-TWSVM算法均表現(xiàn)出更優(yōu)的網(wǎng)絡(luò)入侵檢測準(zhǔn)確率和RMSE性能。后續(xù)研究將進一步優(yōu)化LDA方法,提高網(wǎng)絡(luò)入侵特征降維效率,縮短LDA-TWSVM算法的檢測時間,進一步增強該算法的網(wǎng)絡(luò)入侵檢測的適用性。