王成滿
(四川外國語大學(xué)重慶南方翻譯學(xué)院,重慶 401120)
科學(xué)技術(shù)的迅速發(fā)展使社交網(wǎng)絡(luò)、交通運(yùn)輸、通信運(yùn)營等多個領(lǐng)域均形成著大量的數(shù)據(jù),這些數(shù)據(jù)存在著許多對管理者的決策起助力價值的信息[1]。隨著數(shù)據(jù)規(guī)模的增長,數(shù)據(jù)挖掘方法已變成當(dāng)今社會的重點(diǎn)研究項(xiàng)目之一。互聯(lián)網(wǎng)網(wǎng)絡(luò)規(guī)模的擴(kuò)大令越來越多的系統(tǒng)遭受到黑客的入侵,網(wǎng)絡(luò)攻擊的手段日漸復(fù)雜,網(wǎng)絡(luò)安全問題越來越突出[2-3]。
為了保障網(wǎng)絡(luò)的安全運(yùn)行,相關(guān)專家們展開了大量研究。文獻(xiàn)[4]提出了基于內(nèi)網(wǎng)行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,首先需要獲取網(wǎng)絡(luò)中的信息資源,其次對網(wǎng)絡(luò)中的行為異常風(fēng)險要素進(jìn)行分析,最后將信息的節(jié)點(diǎn)及資源獲取途徑當(dāng)作要素,創(chuàng)建一個攻擊檢測模型,利用該模型實(shí)現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。文獻(xiàn)[5]提出了基于流量和IP熵特性的DDoS攻擊檢測方法,構(gòu)建M-ATS的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,將博弈論(M-ATS)與馬爾可夫判決進(jìn)程(MJP)攻擊模式挖掘算法進(jìn)行了結(jié)合,通過M-ATS確定最佳網(wǎng)絡(luò)保護(hù)方法,利用MJP對未來發(fā)生的網(wǎng)絡(luò)攻擊進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果設(shè)計(jì)相應(yīng)的保護(hù)方案,實(shí)現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。文獻(xiàn)[6]提出了基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,將蟻群收斂到的路徑當(dāng)作網(wǎng)絡(luò)異常路徑,求解該異常路徑上各個節(jié)點(diǎn)的O-measure值,通過O-measure值來確定網(wǎng)絡(luò)攻擊所在位置,實(shí)現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。
雖然當(dāng)前研究取得一定進(jìn)展,但是依然存在網(wǎng)絡(luò)攻擊檢測率較低、網(wǎng)絡(luò)攻擊誤報率較高以及檢測時效性較差等問題,并不適用當(dāng)前的網(wǎng)絡(luò)攻擊檢測。因?yàn)榫W(wǎng)絡(luò)信息間拓?fù)潢P(guān)系不明確,所以在估算網(wǎng)絡(luò)信息的法向量及曲率時,需構(gòu)建網(wǎng)絡(luò)信息間的拓?fù)潢P(guān)系,提出基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型。
由于網(wǎng)絡(luò)信息間不存在明確的拓?fù)潢P(guān)系,在估算網(wǎng)絡(luò)信息的法向量及曲率時,需要構(gòu)建一個網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系[7]。
假設(shè)網(wǎng)絡(luò)信息點(diǎn)pj的k鄰域點(diǎn)集是Nk(pi)構(gòu)造關(guān)于pi的協(xié)方差矩陣

(1)

(2)
將式(2)得到的法矢方向調(diào)成相同的方向。
?pi∈P的k鄰域點(diǎn)集是qi∈Q(i=1,2,…,k),已知pi處的平均曲率是Hi,那么信息點(diǎn)pi在k鄰域下的局部權(quán)值求解公式為

(3)

(4)

模糊C均值聚類算法將包含n個l維向量pi(pi1,…,pil)的集合P={p1,p2,…,pn}分成m個組O={o1,o2,…,om],每個組和一個聚類中心相對應(yīng),求解每一個聚類組的聚類中心oj,(j=1,2,…,m),致使目標(biāo)函數(shù)J最小,目標(biāo)函數(shù)J(U,O)的表達(dá)式如下

(5)


(6)

(7)

(8)
模糊權(quán)重系數(shù)使距離遠(yuǎn)的向量uij對oj的影響變小,距離近的向量對oj的影響變大。這種控制方式有效地?cái)U(kuò)大了離群向量的特征[9]。特征保持權(quán)值求解方式如下

(9)
ωHi用于說明信息點(diǎn)pi的曲率對聚類的影響。
由于x,y,z在信息點(diǎn)附近的信息分布密度較大的情況下,信息點(diǎn)間的距離較近,信息點(diǎn)密度ρi較大,所以構(gòu)建了一個密度影響權(quán)值因子

(10)
ωρi表示信息點(diǎn)pi的密度對聚類的影響。利用模糊C均值聚類的權(quán)重因子能夠獲得目標(biāo)函數(shù),利用該目標(biāo)函數(shù)實(shí)現(xiàn)拓?fù)鋷缀螌W(xué)原理信息點(diǎn)的密度求解公式如下

(11)
基于上述分析,構(gòu)建一個網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系,其表達(dá)式為

(12)
利用該拓?fù)浣Y(jié)構(gòu)關(guān)系即可實(shí)現(xiàn)對網(wǎng)絡(luò)信息的噪聲去除,其公式為

(13)
式中,αH表示特征保持系數(shù),αρ表示密度影響系數(shù),J(U,C,ω)為去噪后的網(wǎng)絡(luò)信息。

φi′=(X″TX″)-1X″TY
(14)


(15)
式(16)與式(17)為AR(2)的參數(shù)估計(jì)

(16)

(17)

(18)
二階自回歸模型的參數(shù)X″TY由時間序列數(shù)據(jù)的線性估計(jì)得出。利用二階自回歸模型檢測移動網(wǎng)絡(luò)信息樣本et′

(19)
若et′是后移算子,那么

=x″t′-φ1Bx″t′-φ2B2x″t′
=(1-φ1B-φ2B2)
=φ(B)x″t′
(20)

λ<-L′||λ>U
(21)
其中,L′和U是正數(shù)。
在進(jìn)行網(wǎng)絡(luò)攻擊判定實(shí)現(xiàn)檢測的基礎(chǔ)上,假設(shè)離散型屬性連續(xù)化后的增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測信息矩陣如式(22)所示。

(22)
其中,n′表示去噪處理后數(shù)據(jù)集中樣本的數(shù)量,M表示去噪后數(shù)據(jù)狀態(tài)節(jié)點(diǎn)隊(duì)列,d表示樣本屬性數(shù)量。則均值標(biāo)準(zhǔn)差歸一化方法對數(shù)據(jù)集中每個屬性值做歸一化處理,歸一化求解公式如下

(23)
式(23)中,xmean(i)和xstd(i)分別表示第i列數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,xij表示歸一化處理后的屬性值。
對去噪處理后的樣本信息采用B-ISVM增量式學(xué)習(xí)算法[10]。利用該算法完成對網(wǎng)絡(luò)攻擊信息的歸一化處理。設(shè)X為增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測矩陣X′歸一化處理后得到的一個矩陣

(24)
將歸一化處理后的樣本信息作為一個滑動時間窗,設(shè)滑動時間窗的大小是N′+1,每次從時間窗中取出N′+1個樣本信息。
時間窗內(nèi)的N′+1個信息樣本利用y1,y2,…yN+1來說明,利用前N′個信息樣本構(gòu)建一個自回歸模型AR,判斷第N′+1個信息樣本是否存在異常。選取恰當(dāng)?shù)腁R階數(shù)q′,時間窗口大小N′應(yīng)該相對小一些,AR(q′)在擬合時間序列時,準(zhǔn)確使用FPE衡量。時間窗口大小N′和階數(shù)q′的約束條件是0≤q′≤0.1N′,利用x″1,x″2,…,x″N′+1對二階自回歸模型AR(2)進(jìn)行擬合,擬合后得到的基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測模型x″t′為
x″t′=φ1x″t′-1+φ2x″t′-2+et′J(U,C,ω)+xij
(25)

最后,完成了對基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型的構(gòu)建。
為了客觀評估實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中采用網(wǎng)絡(luò)攻擊檢測率、網(wǎng)絡(luò)攻擊誤報率、網(wǎng)絡(luò)攻擊時效性、抗網(wǎng)絡(luò)攻擊性能四項(xiàng)評估指標(biāo)來驗(yàn)證本文所提方法的有效性。
假設(shè)網(wǎng)絡(luò)攻擊檢測率為

(26)
其中,A表示網(wǎng)絡(luò)攻擊檢測率,B表示被正確分類的網(wǎng)絡(luò)攻擊樣本數(shù)量,C表示實(shí)驗(yàn)樣本集中網(wǎng)絡(luò)攻擊樣本的總量。
網(wǎng)絡(luò)攻擊誤報率的設(shè)定為

(27)
其中,D表示網(wǎng)絡(luò)攻擊誤報率,E表示被錯誤分類的正常樣本數(shù)量,F(xiàn)表示正常樣本的總量。
實(shí)驗(yàn)環(huán)境:本次實(shí)驗(yàn)在內(nèi)存為2G,操作系統(tǒng)為Windows的計(jì)算機(jī)上進(jìn)行,實(shí)驗(yàn)測試平臺是Matlab7.0。
實(shí)驗(yàn)從KDDCUP 1999數(shù)據(jù)集中隨機(jī)選取實(shí)驗(yàn)樣本,在對實(shí)驗(yàn)樣本進(jìn)行離散化后,形成的實(shí)驗(yàn)樣本集如表1所示。

表1 網(wǎng)絡(luò)攻擊檢測實(shí)驗(yàn)樣本集
數(shù)據(jù)集通常由正常和異常兩種信息構(gòu)成,異常信息分為四種類型,分別是DoS、Probe、R2L和U2R。其中每一種異常信息均包含多個子類型。
為了描述方便,將本文所構(gòu)建的檢測數(shù)學(xué)模型描述為A,基于行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型描述為B、基于流量和IP熵特性的DDoS攻擊檢測數(shù)學(xué)模型描述為C、基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型描述為D。四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型的檢測結(jié)果,如表2所示。

表2 網(wǎng)絡(luò)攻擊檢測結(jié)果
從表2可以看出,四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型中,本文所構(gòu)建模型的網(wǎng)絡(luò)攻擊檢測率是最高的,網(wǎng)絡(luò)攻擊誤報率是最低的,幾乎可以忽略不計(jì),且可以檢測出絕大多數(shù)的網(wǎng)絡(luò)攻擊,這是由于所構(gòu)建的數(shù)學(xué)模型在檢測網(wǎng)絡(luò)攻擊之前,對檢測數(shù)據(jù)進(jìn)行了去噪處理,通過上述實(shí)驗(yàn)數(shù)據(jù)可知,本文所構(gòu)建數(shù)學(xué)模型適用于對檢測率和誤報率有較高要求的場合。
3.3.1 網(wǎng)絡(luò)攻擊時效性對比
為了驗(yàn)證本文所構(gòu)建的檢測數(shù)學(xué)模型的時效性,將檢測模型A與B、C和D三種數(shù)學(xué)模型進(jìn)行了對比分析。四種數(shù)學(xué)模型的網(wǎng)絡(luò)攻擊檢測時效性對比結(jié)果如表3所示。

表3 時效性對比
從表3可以看出,四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型中,A數(shù)學(xué)模型的時效性最高,其次是B數(shù)學(xué)模型,D數(shù)學(xué)模型的時效性是四種數(shù)學(xué)模型中最差的。以閾值25和閾值100為例,當(dāng)閾值為25時,A模型實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測所需的時間要比B、C、D三種模型分別縮短17.5%、26.8%、31.58%;當(dāng)閾值為100時,A模型實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測所需的時間要比B、C、D三種模型分別縮短18.58%、21.03%、22.36%,通過上述實(shí)驗(yàn)數(shù)據(jù)可知,所構(gòu)建數(shù)學(xué)模型A較B模型、C模型和D模型得到了極大的改進(jìn),采用本文所構(gòu)建數(shù)學(xué)模型A能夠高效實(shí)現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。
3.3.2 網(wǎng)絡(luò)攻擊時效性對比
為了驗(yàn)證本文所構(gòu)建網(wǎng)絡(luò)攻擊數(shù)學(xué)模型的抗攻擊能力,將本文所構(gòu)建模型A與B、C和D三種數(shù)學(xué)模型的抗攻擊能力進(jìn)行了對比。對比結(jié)果如圖1所示,其中橫坐標(biāo)為網(wǎng)絡(luò)攻擊數(shù)量,單位是個,縱坐標(biāo)為抗網(wǎng)絡(luò)攻擊性能,單位是百分比(%)。

圖1 四種數(shù)學(xué)模型的抗網(wǎng)絡(luò)攻擊性能對比圖
從圖1可以看出,在相同網(wǎng)絡(luò)攻擊數(shù)量的情況下,四種模型中所構(gòu)建模型A的抗攻擊性能最高,其次是模型C,模型D的抗攻擊性能最低。通過上述實(shí)驗(yàn)數(shù)據(jù)可知,采用所構(gòu)建模型A可以在準(zhǔn)確檢測網(wǎng)絡(luò)攻擊的前提下,提高網(wǎng)絡(luò)的抗攻擊能力。
綜上所述,本文所構(gòu)建的數(shù)學(xué)模型A具有高檢測率、低誤報率、高時效性、高抗攻擊能力的特點(diǎn)。采用本文所構(gòu)建的數(shù)學(xué)模型能夠在高時效、高檢測率、高抗攻擊能力的情況下實(shí)現(xiàn)對網(wǎng)絡(luò)攻擊的檢測,且誤報率較低。表明本文所構(gòu)建的模型具有較好的檢測性能。
針對現(xiàn)有網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型存在的網(wǎng)絡(luò)攻擊檢測率較低、網(wǎng)絡(luò)攻擊誤報率較高、檢測時效性較差等問題,構(gòu)建了基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型。
所構(gòu)建模型的創(chuàng)新點(diǎn):
1)噪聲去除;
2)網(wǎng)絡(luò)信息歸一化處理;
經(jīng)上述實(shí)驗(yàn)驗(yàn)證,所構(gòu)建數(shù)學(xué)模型在網(wǎng)絡(luò)攻擊檢測率、網(wǎng)絡(luò)攻擊誤報率、網(wǎng)絡(luò)攻擊檢測時效性等方面均優(yōu)于基于行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型、基于流量和IP熵特性的DDoS攻擊檢測數(shù)學(xué)模型和基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,采用本文所構(gòu)建的數(shù)學(xué)模型可以在高網(wǎng)絡(luò)攻擊檢測率、低網(wǎng)絡(luò)攻擊誤報率、高網(wǎng)絡(luò)攻擊檢測時效性的情況下更好的完成對網(wǎng)絡(luò)攻擊的檢測。