摘 要:
進行網絡流量異常檢測,需要對正常流量行為建立準確的模型,根據異常流量與正常模型間的偏離程度作出判斷。針對現有網絡流量模型中自相似模型與多分形模型無法全面刻畫流量特征的不足,提出了一種基于流量層疊模型分析的異常檢測算法,采用層疊模型對整個時間尺度上的流量特征進行更準確的描述,并運用小波變換對流量的層疊模型進行估計,分析異常流量對模型估計的影響,提出統計累計偏離量進行異常流量檢測的方法。仿真結果表明,該方法能夠有效檢測出基于自相似Hurst系數方法不能檢測的弱異常以及未明顯影響Hurst系數變化的異常流。
關鍵詞:異常檢測; 層疊模型; 小波變換模極大
中圖分類號:TP39308 文獻標志碼:A
文章編號:10013695(2008)09283903
Network traffic anomaly detection method based on cascade model
LI Zonglin, HU Guangmin, ZHOU Ruqiang
(Key Laboratory of Broadband Optical Fiber Transmission Communication Networks, University of Electronic Science Technology of China, Chengdu 610054, China)
Abstract:
Traffic modeling as one of the ways to describe the normal behavior of network traffic was used to detect anomaly. Due to the selfsimilar model and multifractal model were inherently unable to capture the nature of traffic data in all time scales. This paper proposed a novel anomaly detection method based on cascade model analysis to describe the characteristic of traffic data more accurately. By studying the influences of anomalous traffic on the estimation of cascade model through wavelet transform modulus maxima, defined a cumulative deviation to estimate abnormal behavior. The simulation results show that this method is more sensitive to small anomalous traffic than detection methods based on H parameter analysis, and can accurately detect the anomalies which will not cause the Hurst parameter change evidently. Therefore, it is suite for the early stage detection of anomaly traffic.
Key words:anomaly detection; cascade model; wavelet transform modulus maxima(WTMM)
0 引言
網絡流量的正常行為模式描述,對流量異常檢測至關重要,為后期判斷流量是否偏離正常提供依據。作為描述流量行為模式的方法之一,網絡流量建模采用流量模型來刻畫流量的變化,通過判斷當前流量是否符合流量模型檢測異常。
文獻[1]的研究表明,流量具有自相似特性,自相似模型較傳統的泊松模型等更適合描述網絡流量,流量的負載變化會影響其統計特性,從而導致該模型中表征流量突發特性的H(Hurst)系數發生變化。學者們在異常流量對H系數的影響方面作了大量研究,提出了對流量建立自相似模型,根據H系數變化程度檢測異常的方法。如小波[2,3]、方差時間法[4]分別采用不同的方法計算H系數,分析H系數的變化,達到異常檢測的目的。H系數從一個側面描述了流量的突發特性,但由于網絡流量本身的復雜性,采用單一的H系數不能完全描述網絡流量的行為。正常流量的H系數本身會隨時間波動,若異常流與正常流聚合后,H系數未發生明顯變化,采用上述方法可能產生漏檢,本文將在仿真實驗中證明這一點。
進一步的網絡流量分析發現,在小時間尺度流量應該用多分形模型來刻畫[5]。多分形模型較自相似包含了更豐富的尺度變化,即尺度變換的原過程與新過程之間的關系,不再僅限于某個固定的H系數,而是一個隨機過程。因此學者們又考慮從多分形模型角度出發建立正常行為的描述。文獻[6]根據流量的分形特征,引入了計算時間序列分形維度的相關積分C(r),對正常流量建立相關積分的標準模板,檢測時,通過KS測試,比較滑動窗口中子段的相關積分矢量與標準模板間的差異。
基于上述兩種流量模型,學者們提出了許多異常檢測方法,這些成果推動了異常檢測技術的不斷發展,但這兩種模型自身只能分別從大或小時間尺度上對流量進行描述,缺乏對流量特征全面地刻畫,因而采用這些模型對流量進行描述在準確性上還存在一些有待進一步改進的問題,而層疊模型(cascade model)[7,8]作為前兩種模型概念上更廣義的拓展,能統一整個時間尺度,從本質上揭示流量的尺度伸縮特性,因此該模型能更完整地刻畫流量特性,從而使用該類模型的參數作為異常發生的判據會更加準確。根據檢索到的文獻來看,國內外開展的基于層疊模型的異常流量檢測研究較少。本文將層疊模型的分析應用于異常檢測中,利用小波變換,分析正常和異常流量的層疊模型估計,針對異常流量層疊模型估計的偏移,提出了統計累計偏離量作為異常流量檢測判據的方法。
1 層疊模型及其小波定義式
若X(t)表示流量序列,WX(u,s)d=〈X,φu,s〉表示序列X(t)小波變換后得到的小波系數。其中:φu,s(t)=(1/s)φ((t-u)/s),其在尺度s下的觀察用小波變換WXs={WX(t,s)}表示。定義小波系數的絕對值對數h(s)ln|WXs|。若不同尺度下h(s)的概率密度函數ps(h)間滿足如下關系,則認為該序列滿足層疊模型描述
ps(h)=Gs,s′(h)*ps′(h)(1)
其中:函數Gs,s′(h)稱為層疊模型的核或者傳播因子。不同層疊模型取決于其核的不同形式,無窮可分層疊模型(infinitely divisible cascades,IDC)認為Gs,s′(h)為無限可分,即傳播因子可由一個基本核G0(h)多次自卷積而成,卷積次數取決于尺度s
若Gs,s′(h)的拉氏變換為G~s,s′(q),對式(1)作拉氏變換,取對數,并將矩母函數和累積量的定義代入可得
將尺度因素s和頻率因素q分離成兩個因子表達,可得層疊模型的兩個主要結論:
其中:H(q)=lnG~0(q)。
綜合等式(3)和(4),并作適當變形可得
ln E|WXs|q=[H(q)/H(p)]ln E|WXs|p+κq,p(5)
其中:E|WXs|q稱為原序列X(t)的結構函數。
采用小波變換分析尺度過程的方法可以分為兩個不同的思路:a)使用離散小波變換的多分辨分析(multiresolution analyze,MRA)方法;b)利用連續小波變換的模極大值來構造過程的配分函數進行分析的小波變換模極大(wavelet transform modulus maxima,WTMM)方法。其中WTMM方法較MRA有更廣的使用范圍和更強的魯棒性,已經廣泛應用到尺度過程,特別是層疊模型的統計檢驗中 [7]。因此本文采用WTMM方法對IDC進行分析。
小波變換模極大在層疊模型分析中的應用就是用其配分函數
Z(q,s)=∑p|WX(up(s),s)|q(6)
來替代式(5)中{X(t)}的結構函數。其中:{up(s)}p∈z是在固定尺度s上|WY(u,s)|所有局部極大值點的位置,而式(6)為所有這些點的小波系數的q階矩。將式(6)代入(4)可得
其中:H″(q)=H(q)+q/2-1。代入式(5)可得
式(8)說明,對于層疊模型,若固定兩個階矩p和q,隨尺度s變化,則ln Z(q,s)與ln Z(q,s)之間呈線性關系。
2 基于層疊模型的流量異常檢測方法
2.1 方法原理
由式(8)可知,層疊模型的ln Z(q,s)與ln Z(q,s)之間應該滿足線性關系。首先假設,在有異常流量的情況下,這種線性關系會遭到破壞,然而,通過大量地分析異常流量對這種線性關系的影響過程中,發現即使包含異常流量,其ln Z(p,s)與ln Z(q,s)關系仍然近似地滿足線性,屬于層疊模型,但這種線性關系較正常情況下有一個比較大的偏移。
以真實流量加上3.1節中介紹的DDoS攻擊數據為例,采用WTMM估計分析,圖1為五段不同的正常流量的ln Z(p,s)與ln Z(q,s)關系圖,固定p=01,q=10,每一子段的ln Z(p,s)與ln Z(q,s)近似呈線性關系,驗證了其各子段都屬于層疊模型,且這五條線段基本聚集在一起;圖1中的第三子段加入異常流量,所有線段也大致呈線性,但第三子段對應線段偏離其他線段。因此可以根據這種偏離程度的大小檢測是否發生了異常。
基于上述觀察,本文提出基于層疊模型估計分析的異常流量檢測方法。該方法使用滑動時窗技術進行檢測,其檢測流程如下:a)檢測窗口在流量數據上滑動,每滑動一次,對該檢測窗口內截取的流量數據進行檢測(具體檢測方法見后),輸出一個檢測值。b)將該檢測值與歷史正常流量的層疊模型分析的統計結果相比較,取閾值T=mean+3δ。其中:mean為歷史正常流量采用滑動時窗技術所輸出的檢測值的均值,δ為其方差。若每個滑動時窗的檢測值大于該閾值說明發生異常。窗口每次滑動的大小以及檢測窗口的大小可根據實際安全級別事先定義。
下面對該方法在滑動時窗內的一次檢測方法進行說明:
a)將滑動時窗內的流量數據分成等長五個子段,分別采用WTMM進行估計,得到ln Z(p,s)與ln Z(q,s)關系的數據點對集{(ln Z(q,2j),ln Z(p,2j)); j=1,2,…,16}。
b)分別對得到的五個子段的數據點對集進行最小二乘直線擬合,得到各自線性表達式y=kix+bi。
c)對五條直線取一組相同的橫坐標{xi};i=1,2,…,100,對每個橫坐標求取其對應的五個縱坐標的平均值,得到一組橫縱坐標對(xi,yi);i=1,2,…,100,最小二乘擬合后得到一條處于五條直線平均縱坐標位置的直線,記為y=ax+b。
d)分別計算五條直線對c)中所得到直線y=ax+b的累積偏移量,并比較得出其中具有最大累積偏移量的直線,以獲得偏離平均位置最遠的那一條線。該累計偏移量描述直線相對平均直線而言的偏離程度,是一個相對量綱。累積偏移量的計算方法如下:以五條直線中的一條為例,記它的直線方程為y=a′x+b′,將橫坐標{xi};i=1,2,…,100代入平均線方程y=ax+b可得到{y′i};i=1,2,…,100,然后將橫坐標{xi}代入該直線方程y=a′x+b′可得到{y″i};i=1,2,…,100,則累積偏移量按如下公式來計算:
ξ=∑100i=1|y′i-y″i|(9)
e)除去d)中找出的偏離平均位置直線最遠的那一條線后,再通過c)中方法求取剩余四條直線的平均縱坐標直線,以得到集中直線的縱坐標所在位置的更準確描述。
f)再次分別求取五條直線與e)中求出的平均線的累積偏移量,記為{ξi};i=1,2,…,5。累積偏移量的計算方法與d)的方法相同;然后計算窗口中第一個子段的異常判別統計量,作為該檢測窗口的結果輸出:
D=(|ξ1-ξ|)/(max|ξ1-ξ|)ξ(10)
其中:ξ=∑5k=1ξk/5,異常判別統計量D量化了檢測窗口中第一個子段數據偏離其他四個子段的程度,值越大表示這種偏離的程度越大。由于異常流的注入,會使得所在子段明顯偏離其他四個子段,通過對異常判別統計量的計算,設定如前所述的門限值,則可以檢測是否發生異常。
3 仿真實驗與分析
3.1 數據說明
在本文仿真的實驗中,將算法用于檢測四種異常流量。正常網絡流量數據采用加州大學Berkeley分校的Lawrence Berkeley[10]實驗室采集的真實流量數據,其采樣間隔為10 ms。根據文獻[11]中對攻擊流以及正常流量頻域特性的研究表明,正常流的功率譜在各個頻段都比較均勻,而異常攻擊流的功率譜主要集中在某些頻帶上,因此在本文中加入的前三種攻擊在頻域中其頻帶分別對應低頻、中頻和高頻,并根據以下原則注入:注入的異常與背景流量的均值呈正比;異常流量大小可通過權重參數調節,且與正常流量幅值相比不易察覺。
在仿真實驗中,WTMM估計使用Gaussian函數的導數作母小波。設θ為歸一化的Gaussian函數:θ(t)=1/(2π)e-t2/4則母小波為ψ(t)=-θ′(t)=te-t2/4/(4π),這能保證所有極大值線都能延伸到最小的尺度,能去除由于小波變換接近于0而得到的錯誤模極大值。該實驗采用的檢測窗口的長度為210×5=5 120,設定每次窗口滑動的步長為210=1 024,即每隔大約10 s滑動一次窗口。本文仿真實驗均在24 GHz的Pentium 4計算機(內存512 MB)上完成。
3.2 檢測結果
32.1 對不同頻率弱異常進行檢測的仿真實驗結果
圖3為異常注入前后的流量對比,實際注入攻擊的幅值調整系數選取為15,注入攻擊的位置在2 048~2 448采樣點間(對應起止時間:20~24 s,對應圖中箭頭所指處)分別加入低頻、中頻和高頻異常。
采用本文方法對加入不同頻率異常進行檢測的仿真實驗結果如圖4所示,攻擊所在位置對應該圖中的第三個檢測點。判決門限取值為正常歷史流量的異常判別統計量的均值加上三倍標準差的大小,如圖4中的虛線處。實驗結果表明,當異常流量進入檢測時窗時,其異常判別統計量較正常流情況下均發生突變,通過計算異常判別統計量可以檢測出高頻、中頻以及低頻的弱DDoS異常流。
圖5為采用H系數估計的方法,對注入同樣大小、同樣位置的上述三種異常進行檢測的結果。選用的H系數的估計方法是Abry等人在文獻[12]中提出的AV小波方法。異常所在位置對應圖中32~38點,圖中實線為H系數在正常情況下的估計結果,注入異常后,H系數的抖動并不明顯,尚不及正常流量H系數隨時間變化的抖動程度(如圖中75~100位置),因此采用基于自相似H系數變化程度的檢測方法無法檢測出異常流量相對較小的弱攻擊。
32.2 對與背景流量自相似性類似的異常流量檢測
若異常流與正常流聚合后,未明顯影響H系數變化,本文仿真試驗證明,在這種情況下,采用基于自相似模型H系數的變化程度的方法將失效。
采用與上節相同的背景流,使用FGN[13]生成與背景流量H系數值接近的異常流量(H系數值為0877),在2 048~3 048(約20~30 s)采樣點間注入。H系數方法檢測結果如圖6所示,異常注入時刻對應32~47點位置,異常注入后的H系數變化微小,甚至不及正常情況下H系數自身的變化幅度,因此采用基于自相似H系數的方法無法檢測與背景流自相似性接近的異常流。圖7為同樣條件下本文方法的檢測結果,在異常對應的第三個檢測點出現明顯的尖峰,通過上節所述門限可以有效地檢測出與背景流量自相似性接近異常流量。
4 結束語
通過對正常流量及異常流量層疊模型的WTMM估計分析,本文提出了基于層疊模型分析的異常檢測方法。該方法能夠有效檢測出弱異常流以及未明顯影響H系數變化的異常流,對異常發生初期檢測效果明顯,為攻擊響應贏得寶貴的處理時間;該方法檢測窗口與窗口滑動步長可根據不同的需要作相應的調整,以適應不同安全級別監控中心的需要。下一步工作的重心將放在如何開發層疊模型分析檢測的快速算法,達到在線檢測的目的。
參考文獻:
[1]LELAND W E, TAQQU M S, WILLINGER W, et al. On the selfsimilar nature of Ethernet traffic(extended version)[J]. IEEE/ACM Trans on Networking, 1994,2(1):115.
[2]LI L, LEE G. DDoS attack detection and wavelets[C]//Proc of the 12th International Conference on Computer Communications and Networks. 2003:421427.
[3]任勛益,王汝傳,王海艷. 基于自相似檢測DDoS攻擊的小波分析方法[J].通信學報,2006,27(5):611.
[4]李金明,王汝傳.基于Hurst參數的DoS/DDoS攻擊實時檢測技術研究[J].計算機工程與應用,2007,43(6):2023.
[5]TAQQU M S, TEVEROVSKY V, WILLINGER W. Is network traffic selfsimilar of multifractal?[J]. Fractals, 1997,5:6373.
[6]LUO S. Network traffic anomaly detection through correlation integrals[EB/OL].[2005].http://www.sigcomm.org/ sigcomm 2005/poster111.pdf.
[7]ARNEODO A, MUZY J F, ROUX S G. Experimental analysis of selfsimilar random cascade processes: application to fully developed turbulence[J].Journal de Physique II. 1997,7:363370.
[8]FELDMANN A, GILBERT A, WILLINGER W. Data networks as cascades:investigating the multifractal nature of Internet WAN traffic[C]//Proc of ACM SIGCOMM 1998. Vancouver:[s.n.], 1998:4266.
[9]ROUX S, VEITCH D, ABRY P, et al. Statistical scaling analysis of TCP/IP data using cascades[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP’01). Salt Lake City:[s.n.], 2001:711.
[10]Lawrence Berkeley National Laboratory, the Internet Traffic Archive[EB/OL].[2002].http://ita.ee.lbl.gov/index.html.
[11]HUSSIAN A, HEIDEMANN J, PAPADOPOULOS C. A framework for classifying denial of service attack[C]//Proc of ACM SIGCOMM 2003. Karlsruhe:[s.n.], 2003:99110.
[12]ABRY P, VEITCH D. Wavelet analysis of long range dependent traffic[J]. IEEE Trans on Information Theory, 1998,44(1):215.
[13]Lawrence berkeley national laboratory. The Internet Traffic Archive[EB/OL].[199605].http://ita.ee.lbl.gov/html/contrib./fft_fgn_c.html.