李宇翀,羅興國,錢葉魁,趙鑫
(1. 國家數字交換系統(tǒng)工程技術研究中心,河南 鄭州 450002;2. 通信網信息傳輸與分發(fā)技術重點實驗室,河北 石家莊 050000;3. 解放軍防空兵學院,河南 鄭州 450052)
當前因特網環(huán)境下各種網絡異常事件層出不窮,DDoS攻擊、僵尸網絡等大規(guī)模的網絡入侵給互聯網的安全運營帶來嚴重威脅,而網絡擁塞、網絡故障等也會嚴重影響互聯網的服務質量,因此網絡異常行為的檢測是非常必要的。同時,由于網絡異常種類繁多、變化快速,且常常隱藏在復雜龐大的背景流量中,給網絡異常的檢測帶來極大的困難。
針對網絡異常檢測的研究也有很多,文獻[1,2]等使用主機的系統(tǒng)日志、審計信息等為數據源,采用數據挖掘等方法提出基于主機的異常檢測方法;文獻[3,4]等使用端到端往返時延、分組丟失率等性能測量數據,采用一元時間序列分析法提出基于單路徑的異常檢測方法;文獻[5]等使用單條鏈路的SNMP、NetFlow等網絡流量數據,采用機器學習、小波分析等方法提出基于單鏈路的異常檢測方法。上述方法主要關注網絡的局部信息,監(jiān)測范圍有限,但隨著網絡規(guī)模不斷擴大,數據傳輸速度持續(xù)加快,許多網絡異常呈現出很強的全局特性[6~8],其影響分散到網絡中多條鏈路或路徑,在局部表征信息并不明顯。采用上述基于主機、單路徑或單鏈路的分析檢測方法無法對網絡進行綜合測量和全局分析,在檢測精度方面也很難保證。
針對以上問題 Lakhina等[9]首次提出了基于主元分析子空間構建(subspace construction via PCA)的全網絡(network-wide)異常檢測方法,綜合利用多條路徑的流量統(tǒng)計信息構建正常模型,通過判斷當前情形是否偏離正常模型從而確定異常是否發(fā)生;隨后文獻[10~20]沿著全網絡檢測的思路,在檢測算法的時空擴展性[10~13]、頑健性[14~16]、實時性[17,18]和異常測度[19,20]等方面進行了研究,豐富了全網絡異常檢測的內容。上述方法綜合利用整個網絡的流量數據,取得了優(yōu)于單節(jié)點、單路徑或單鏈路方法的檢測性能,同時由于采用建立正常模型并與其相比較的異常檢測方法,無需建立異常特征庫,因而既可以檢測已知異常也可以檢測未知異常,應用范圍廣。基于流量統(tǒng)計量的全網絡異常檢測方法通過引入范圍更廣、維度更多的網絡信息改善檢測性能,但該方法部署在大規(guī)模高速骨干網上時也面臨一些現實問題:一是采集范圍的擴大、采集設備的增多、網絡速度的加快,使得必須考慮由于部分設備故障造成的采集數據缺失的情況,或者流量數據在傳輸的過程中出現缺失的情況[21],會使上述的異常檢測方法因為數據不完整而變得不可用;二是實際的骨干網流量不但數據量巨大,而且非常復雜,使模型參數難以選擇,異常檢測方法的穩(wěn)定性極難保證[22]。
本文提出了一種基于健壯的多元概率校準模型(RMPCM, robust multivariate probabilistic calibration model)的異常檢測方法,該方法將多元t分布取代正態(tài)分布引入隱變量概率模型,進而建立流量矩陣的常態(tài)模型,通過比較樣本與常態(tài)模型之間的馬氏距離(Mahalanobis distance)進行流量異常檢測。該方法的健壯性較好,應用場景廣泛,既可以處理完整數據也可以處理數據缺失的情況,對異常噪聲干擾的抵抗力較強,并且對模型參數的敏感性較低,性能穩(wěn)定。本文主要貢獻包括以下3個方面。
1) 通過建立隱變量概率模型的方法解決了待檢數據不完整情況下的異常檢測問題。
2) 通過將多元t分布引入概率建模過程中解決了噪聲干擾問題,提高了檢測精度。
3) 本文提出RMPCM方法具有很強的穩(wěn)健性,對模型參數的敏感性較低,減少了實際部署中復雜的參數調試工作。
早期的因特網流量研究主要集中在一個互聯網服務提供商(ISP, internet service provider)中的單鏈路數據分組的時間特征,由此得到了在自相似、長相關等流量特性。但是一個ISP中常包含數百上千條鏈路,而因特網由幾萬個這樣的ISP組成,當在這樣大的背景中觀察,流量的空間特性就凸顯出來了。但是同時分析整個網絡所有鏈路的流量數據是難以完成的任務,而流量矩陣作為一種給定網絡結構下節(jié)點間流量的緊縮和簡潔的描述,可以反映整體網絡的時空特性,是全網絡流量研究中一種常用的模型結構。流量矩陣是全網流量的概覽,使用流量矩陣進行整個網絡的流量分析更加直接和清晰[8],本文采用了PoP(point of presence)級流量矩陣作為研究的數據源。
定義1 (PoP級流量矩陣) 假設某自治系統(tǒng)(AS,autonomous system)有n個PoP節(jié)點,以一定的周期連續(xù)地被動測量任意一對PoP節(jié)點之間的流量,流量的流入節(jié)點為源節(jié)點,流出節(jié)點為目的節(jié)點,這樣就可記為源—目的(OD)流流量,然后將該測量值排列成一個N×D的矩陣X,稱為該AS的PoP級流量矩陣,其中,N表示測量的周期數,通常將每個周期的測量值作為一個樣本,因此N為樣本數,D表示OD流量測量值的個數 (D=n×n),即樣本的維度。流量矩陣第i行表示第i個周期由各OD流量測量值組成的向量;第j列表示第j個OD由各時間測量值序列組成的向量。流量矩陣的任一元素xij表示第i個周期第j個OD上的某種流量測度大小。本文采用的流量測度為流量大小(字節(jié)數、分組數或流數)。
在數據采集的過程中,由于高速骨干網數據量龐大、傳輸快速,可能造成采集設備的負擔加大、穩(wěn)定性下降,從而出現數據缺失;在數據傳輸過程中由于網絡擁塞、設備或鏈路故障也會造成數據缺失。
網絡測量中流量數據的缺失并非都是完全隨機化的,許多情況下缺失是高度結構化的,這里提出了4種缺失的機制用來描述網絡數據采集和傳輸過程可能遇到的數據缺失的情況。
1) 完全隨機缺失
完全隨機缺失是指流量矩陣X中的任意元素xij以隨機概率q丟失,這種丟失情況可能出現在流量測量設備偶然出現的擁塞,或測量數據采用了不可靠的傳輸機制而出現的隨機數據缺失。
2) 時間段隨機缺失
流量矩陣的行對應于流量的采集周期,時間段隨機缺失是指流量矩陣X中任意一行元素以概率q丟失,這種情況可能發(fā)生在測量數據集中處理時由于數據量過大導致存儲設備過載或程序故障等原因造成該時段的采集數據丟失。
3) OD隨機缺失
流量矩陣的列對應于OD流,OD隨機缺失對應于流量矩陣X中任意一列元素以概率q丟失。這種情況的出現可能由于流過濾或采集程序錯誤造成的OD源或目的識別錯誤,鏈路或路由器故障也會造成相關OD上數據的缺失。
4) 塊隨機缺失
塊隨機缺失是指流量矩陣X的某一子矩陣以概率q丟失,這種結構化的缺失可能出現在采集設備故障或存儲器滿并持續(xù)若干采集周期的情況下,對應于流量矩陣多個相鄰行列的數據缺失。如果把缺失的子塊設為流量矩陣的某一行則轉變?yōu)闀r間段隨機缺失,設為某一列則轉變?yōu)镺D隨機缺失。
RMPCM異常檢測方法首先使用采集到的流量數據建立常態(tài)模型,再利用樣本與常態(tài)模型的馬氏距離衡量該樣本是否異常。RMPCM方法可分為正常流量建模、流量異常檢測2個步驟。
在流量數據不完整的情況下,以往傳統(tǒng)的網絡異常檢測方法都無法應用,本文考慮采用Bayes統(tǒng)計方法,但由于網絡流量數據的復雜性并不能直接應用Bayes方法得到后驗均值估計及其漸進方差,而是引入隱變量概率模型,即在已知測量數據的基礎上添加一些“潛在數據”,從而簡化計算完成參數估計,在這過程中可以將“數據缺失部分”連同未知參數一起作為“潛在數據”,采用EM(expectation-maximization)算法求取模型參數的極大似然估計(MLE)。
在進行極大似然估計時需要已知數據的概率分布,通常假設其滿足正態(tài)分布,但由于實際網絡流量中含有一些噪聲流量干擾,采用正態(tài)分布假設會造成參數估計的偏差過大,故本文引入多元t分布取代多元正態(tài)分布。相對于正態(tài)分布,t分布具有重尾特性,引入t分布后在極大似然估計過程中根據不同樣本的馬氏距離為樣本分配不同的權重,而異常樣本具有較低的權重,故可減少對參數估計的影響。
RMPCM方法通過引入基于t分布的隱變量概率模型,解決了上述問題,建立了正常流量模型。
假設每個d維的隱向量ti都來自于一個D(D≥d)維特征向量xi的線性概率投影,以此建立隱變量概率模型,并選擇單位方差t分布作為隱向量的先驗分布,概率模型如下

其中,W為投影矩陣(projection matrix),μ為位置向量,I為單位矩陣。
對該概率模型無法直接使用極大似然估計進行求解,但由文獻[23]可知,t分布模型可以擴展為均值相同的無限高斯混合模型,其先驗分布為伽瑪分布,且參數只與t分布的自由度v有關



可以采用EM算法求取模型參數的極大似然估計,為了簡化計算,本文采用了一種快速算法REM(rapid expectation-maximization),REM可顯著提高算法收斂速度,該算法可分為2個階段,每個階段都采用EM算法對不同參數進行估計,然后迭代進行2個階段的循環(huán)直至滿足收斂條件。
第1階段。該階段不考慮ti,只對參數μ進行估計[26],表示計算期望。


圖1 缺失數據下正常建模步驟

對于復雜的流量數據需要選擇度量標準從而判定其中的異常流量樣本。判斷數據中哪些是異常樣本常用2種策略,即通過判斷Hotelling's T2是否超過閾值確定樣本點是否為高杠桿異常點(leverage outlier),通過判斷平方預測誤差(SPE, squared prediction error)是否超過閾值確定樣本點的正交異常點(orthogonal outlier)[27]。但本文由于建立了概率模型可以簡單地采用樣本的馬氏距離來衡量,無需采用2種異常判定方法[28]。
對于完整數據樣本,其馬氏距離平方為


其中,Φ(·)為標準正態(tài)分布的概率分布函數。
采用“3σ”控制圖來判讀異常即當取值偏離均值超過3倍標準差時,可以判斷異常事件的發(fā)生,其置信度為99.74%。
在RMPCM算法中,主要的計算開銷是流量矩陣的尺度矩陣Ψ求逆和REM算法的迭代次數。Ψ為D×D的矩陣,D為X的維數,對應于流量矩陣的列數,即OD的個數(n×n)。在計算過程中,直接計算對算法復雜度影響很大,本文利用Woodbury矩陣恒等式,可得的矩陣,使用PCA降維方法確定固有維度數d,可知d?D,這樣就將求D×D的矩陣Ψ的逆轉化為求d×d的矩陣M的逆,極大地簡化了計算復雜度,其時間復雜度為O(Nd2)。算法的時間復雜度還與EM算法的迭代次數有關,本文采用快速EM算法計算中迭代次數一般小于15次。采用Matlab對選用數據集執(zhí)行 RMPCM檢測算法,執(zhí)行時間如表1所示,計算機配置為Win7系統(tǒng)、酷睿i7 3.5 GHz的CPU、4 GB內存。

表1 RMPCM檢測算法執(zhí)行時間
通常評價網絡異常檢測算法的性能主要有2種實驗方法:仿真平臺實驗方法[19]和網絡實測數據分析[9,10,20,27,29]的方法。仿真平臺的實驗方法易于掌控,但缺點是不夠真實;實測數據分析法場景真實但較難獲取標準答案(benchmark)。為了更加客觀地評價RMPCM方法的性能表現,本文采用2種方法相結合的網絡異常檢測評價辦法。
在性能比較評價方面,本文選擇基于 PCA的子空間構建的異常檢測方法[9]與本文的RMPCM方法進行比較。基于 PCA子空間構建的異常檢測方法已經得到了廣泛的認可,著名的商用異常檢測系統(tǒng)NetReflex就是基于該方法的[29]。
本文選擇采用南加州大學提出的 DETERLab(cyber-defense technology experimental research laboratory testbed)[30]安全實驗平臺。它可將原型系統(tǒng)中的節(jié)點用任何拓撲結構互聯拓展,并可對實驗條件靈活配置,為研究者提供網絡攻防實驗所需的背景流量和攻擊流量的注入方法,并研究部署和評價可能的解決方案。它可充分整合本地的硬件資源,比NS2等仿真軟件具有更真實的仿真效果。
本文將基于Metasploit框架的攻擊工具集成到Deterlab的SEER(security experimentation environment)軟件套裝中,生成該仿真平臺上的多種異常流量。實驗設置了10個PoP節(jié)點,并選擇與各PoP節(jié)點相鄰的一個節(jié)點配置為采集設備,拓撲配置如圖2所示。實驗時間持續(xù)1個星期,每5 min采集一次數據,記為一個采集周期,共2 016個周期,采集的數據按字節(jié)計數。
4.1.1 噪聲環(huán)境中的異常檢測
實驗設置3種情形并與基于PCA子空間的檢測方法進行比較,分別驗證了2種方法的檢測精度、性能影響因素、突發(fā)大流的毒害性。
500時刻和1 000時刻開始從PoP1向PoP2進行TCP SYN泛洪DoS攻擊,1 800時刻開始從PoP3向PoP4進行DoS攻擊,持續(xù)時間皆為4個周期;800時刻開始采用Nmat從PoP1對PoP2、PoP5、PoP6進行掃描,持續(xù)時間5周期;1 200時刻開始將PoP1至PoP2的流量減少50%,并將這部分轉移到PoP7至PoP8的流量上,持續(xù)時間40周期后恢復;1 500時刻開始同時從PoP2、PoP4、PoP5、PoP8向PoP10發(fā)動UDP洪水DDoS攻擊,持續(xù)時間6周期。使用 RMPCM 的檢測結果和使用基于 PCA子空間方法的檢測結果如圖3(a)所示,產生的6次異常2種方法都檢測到了,但PCA方法并未在每次異常持續(xù)的周期中都檢出異常,尤其是對1 200~1 239的出口/入口流量轉移異常,PCA檢出的異常周期遠小于異常設定,而RMPCM方法檢出的異常周期與異常設定非常接近。
為了進一步比較2種方法的差異及影響因素,本文對異常進行調整:500時刻和1 800時開始的DoS攻擊強度減小50%;800時刻開始的掃描范圍減少到從PoP1至Pop2,掃描頻率減少50%;1 200時刻開始的出口/入口轉移持續(xù)時間減小 20個周期;1 500時刻開始DDoS攻擊范圍縮小到PoP2、PoP4至PoP10,攻擊強度不變;1 000時刻開始的DoS保持不變。從圖3(b)中可以看出異常大小和異常影響范圍的變化對 2種檢測方法的性能都有影響,800時刻開始的異常均未被檢出;而異常持續(xù)時間的縮短對檢測效果影響不大。2種方法相比,PCA方法在時刻1 272、1 407、1 451等10個時刻出現了誤報,虛警率高于RMPCM方法。

圖2 Deterlab平臺拓撲配置

圖3 Deterlab平臺上RMPCM與PCA檢測結果對比
在第一種實驗設定的基礎上將500時刻開始的DoS的攻擊強度提升為原來的 220%,產生突發(fā)大流,其他保持不變。突發(fā)大流可提高所在路徑上的方差水平,造成小方差的異常被誤認為正常事件。如圖3(c)所示,大流造成PCA方法檢測精度下降,凡是包含大流所在OD(PoP1至PoP2)的異常其檢出率都受到影響:1 000時刻開始的DoS與大流處于同一路徑上,因而影響最大,在圖中已不可見;出口/入口轉移涉及的 2條 OD其中一條為大流所在OD,其殘余向量也衰減嚴重未達到檢出閾值;端口掃描和DDoS也包含大流所在OD,其殘余向量不同程度受到影響;1 800時刻開始的DoS不包含大流所在OD則未受影響。而RMPCM方法對大流毒害的健壯性較強,檢測精度未受到影響。
由上述實驗可知本文提出的RMPCM方法在異常噪聲環(huán)境中精度高、抗干擾能力強,優(yōu)于經典的基于PCA子空間的方法。
4.1.2 數據缺失條件下異常檢測
如果網絡故障等原因造成數據缺失,那么傳統(tǒng)的基于非概率模型的方法會因為數據的不完整而變得不可用,而本文提出的基于t分布隱變量概率模型的RMPCM方法在處理缺失數據的問題時具有優(yōu)勢。在Deterlab仿真平臺上驗證數據缺失條件下RMPCM方法的檢測性能時,數據缺失場景的設置分別按照鏈路故障、采集設備故障、PoP節(jié)點故障3種進行,鏈路故障會造成通過的OD流數據缺失,采集設備故障會造成以其相連PoP節(jié)點為源節(jié)點的 OD流數據丟失,PoP節(jié)點故障造成的數據缺失與故障類型、網絡拓撲以及路由策略有關。實驗的拓撲配置如圖 2所示,實驗按照4.1.1節(jié)產生異常的方法選擇100個周期注入異常。為了盡量消除實驗中的偶然情況,本文對每種故障情況都進行了10次實驗,每次實驗隨機選擇403個周期和1 008個周期(占1個星期2 016個周期中的20%和50%),并在選中的周期中隨機選擇某一鏈路(采集設備、PoP節(jié)點)發(fā)生故障,每次故障持續(xù)時間為20個周期,最后取10次實驗均值繪出ROC曲線。圖4分別為完整數據、403個周期故障和1 008個周期故障的檢測結果的ROC曲線。從實驗結果中可以看出鏈路故障、采集設備故障、PoP節(jié)點故障所造成的數據缺失對檢測精度的影響逐漸加深,而且在每種場景下發(fā)生數據缺失的周期越多檢測精度越低,但總體而言RMPCM方法在數據不完整的條件下健壯性較好,20%的周期中發(fā)生數據缺失時檢測精度較高,即便是在最嚴重的情況下(50%的周期中發(fā)生PoP節(jié)點故障)仍以20%的虛警率得到接近70%的檢測率(如圖4(c)所示)。

圖4 Deterlab平臺數據缺失條件下RMPCM檢測結果
4.2.1 數據集
實測數據集選擇了網絡流量研究中常用的骨干網Abilene的數據集[2,9,10,16,18,20],Abilene網絡主要用戶為美國的大學和科研機構等。由于其 2003年的數據較為完整也有較多方法采用便于參考,本文選擇了2003年12月15日~12月21日11個PoP節(jié)點的NetFlow數據,并根據BGP和ISIS選路表得到每條流的入口點和出口點,求得OD流量大小及流量矩陣,如表2所示。本文使用該數據集進行缺失數據條件下的檢測性能評價以及敏感性分析。

表2 Abilene流量矩陣數據集
4.2.2 數據缺失條件下異常檢測
在進行實測數據集缺失條件下的異常檢測實驗時,選擇分組數(P)數據集按照2.2節(jié)提出的4種缺失機制依次進行測試。為了比較各種缺失機制下RMPCM 方法的異同從而分析影響檢測性能的因素,在完全隨機缺失、時間段隨機缺失、OD隨機缺失3種機制下設置相同的丟失率比較不同機制對檢測性能的影響,在第4種塊隨機缺失的機制下比較相同丟失率不同塊大小對檢測性能的影響。為了消除丟失數據實驗的偶然性,進行了 10次實驗,取實驗均值并以完整數據下RMPCM的檢測結果為基準繪出ROC曲線。

圖5 實測數據在4種缺失機制下的檢測結果
完全隨機缺失實驗選擇了3種丟失率,丟失數據占流量矩陣總數據量的 10%、20%、50%,如圖5(a)所示;時間段隨機缺失實驗設置隨機缺失的周期數分別為200、400、1 000,由于總的時間周期為 2 010,故時間段隨機缺失的數據丟失率接近10%、20%、50%,分別與完全隨機缺失一一對應,結果如圖 5(b)所示;OD隨機缺失實驗時由于算法限制矩陣的整列數據不能全部丟失,故選擇某列一半相鄰數據設為空,設置缺失的OD數分別為24、48、121,每個OD的數據丟失率為50%,OD總數為121,所以OD隨機缺失實驗的數據丟失率仍為10%、20%、50%,結果如圖5(c)所示。3種機制的實驗都表明在數據缺失的條件下RMPCM方法仍保持了較高的檢測精度,在數據缺失10%時,檢測器性能損失較小,隨著數據缺失率的增大,檢測器性能也逐漸變差,但即便是數據缺失率達到50%的嚴苛條件下,檢測結果仍然可用。3種機制相比較也可發(fā)現檢測性能受完全隨機缺失影響最小,時間段隨機缺失次之,OD隨機缺失影響最大。3種缺失機制下數據缺失總量保持一致,但檢測器性能卻逐漸惡化,分析原因應與每次結構化缺失的數據量增加有關,完全隨機缺失實驗丟失的數據塊最小,OD隨機缺失實驗丟失的數據塊最大。
為了進一步驗證結構化缺失對檢測性能的影響,在進行第4種塊隨機缺失實驗時,設定不同塊大小但保持相同丟失總量:分別設定3種塊大小5×5、16×16、40×40,缺失的塊數量分別為2 000、200、30,保持丟失量占總數據量約20%。實驗結果如圖 5(d)所示,通過 ROC曲線可知:在相同數據丟失率下,結構化缺失的數據量越大,檢測性能下降得越多。但總體而言,RMPCM方法在塊隨機缺失機制下以20%的虛警率得到了70%以上的檢測率,檢測性能可以滿足需求。
4.2.3 敏感性分析
文獻[22]指出了基于PCA的子空間方法對于固有維度和流量測度的敏感性問題,本文通過實驗驗證RMPCM方法是否也存在這樣的問題。實驗分為2種情況:一是對固有維度d的敏感性分析,二是對流量測度的敏感性分析。實驗選用基于 PCA的子空間方法進行對比。
選擇實測數據集流數(F)進行固有維度的敏感性分析實驗。固有維度d因實驗設定的主元累計方差貢獻率的不同而不同,實驗結果如圖6所示。圖6(a)和圖6(b)分別為PCA固有維度d為4和5時的檢測曲線,可見曲線輪廓完全不同,檢測結果差別很大;圖6(c)和圖6(d)分別為RMPCM對應的檢測曲線,曲線輪廓及檢測結果均保持一致。實驗中進一步驗證了RMPCM方法d取2~10的檢測情況,檢測結果基本一致,保持了很高的頑健性。

圖6 PCA(圖左側)與RMPCM(圖右側)對固有維度的敏感性
本文分別選擇實測數據集B、P、F進行流量測度的敏感性分析,實驗設定主元的累計方差貢獻率閾值為0.85,結果如圖7所示,PCA方法在3種測度下得到的曲線輪廓完全不同,檢測結果也差別很大;而RMPCM方法的檢測曲線輪廓近似,檢測結果雖有不同但有較大聯系。由于無法獲得該實測數據集的異常標注,故不知異常發(fā)生的實際情況。但實際上以流數、字節(jié)數、分組數為測度得到的統(tǒng)計量是有關聯的,相應的異常檢測結果也應該有所重合,而 PCA方法得到的結果有多處相互沖突,說明對流量測度過于敏感,相比之下RMPCM方法穩(wěn)健性很強,得到的結果更加合理。
綜上可知,RMPCM方法對固有維度和流量測度等模型參數的敏感性較低,性能穩(wěn)定,便于實際部署。

圖7 PCA(圖左側)與RMPCM(圖右側)對流量測度的敏感性
本文針對現有全網方法在數據不完整時噪聲干擾時存在的問題,通過建立基于多元t分布的隱變量概率模型,提出一種基于RMPCM的全網絡異常檢測方法。仿真實驗和因特網實測數據分析表明:RMPCM方法的檢測性能優(yōu)于經典PCA方法,并且健壯性很好,無論待檢數據完整與否、檢測環(huán)境是否有干擾,該方法都表現出較為穩(wěn)定的檢測性能,對模型參數的敏感性也較低。下一步,將對更細粒度的異常定位和RMPCM的在線算法進行研究。
致謝:
感謝英國薩里大學陳濤教授在本文算法研究過程中給予的無私幫助。
[1] DANIEL T, KIRILL L, STEFAN S,et al. A comparison of syslog and IS-IS for network failure analysis[A]. Proc of the ACM Internet Measurement Conf[C]. Barcelona: ACM Press, 2013.
[2] RISTO V, MAUNO P. Using security logs for collecting and reporting technical security metrics[A]. Proc of the IEEE Military Communications Conf[C]. Baltimore: IEEE Press, 2014.
[3] NAIDU K V M, PANIGRAHI D, RASTOGI R. Detecting anomalies using end-to-end path measurements[A]. INFOCOM[C]. 2008.
[4] BARFORD P, DUFFIELD N, RON A,et al. Network performance anomaly detection and localization[A]. INFOCOM[C]. 2009.
[5] 程國振, 程東年, 俞定玖. 基于多尺度低秩模型的網絡異常流量檢測方法[J]. 通信學報, 2012, 33(1): 182-190.CHENG G Z, CHENG D N, YU D J. Network traffic detection based on multi resolution low rank model[J]. Journal on Communications,2012, 33(1): 182-190.
[6] JIANG D, XU Z, ZHANG P,et al.A transform domain-based anomaly detection approach to network-wide traffic [J]. Journal of Network &Computer Applications, 2013, 40(2):292-306.
[7] YEGNESWARAN V, BARFORD P, ULLRICH J. Internet intrusions:global characteristics and prevalence[J]. ACM Sigmetrics Performance Evaluation Review, 2003, 31(1): 138-147.
[8] LAKHINA A, PAPAGIANNAKI K, CROVELLA M. Structural analysis of network traffic flows[A]. SIGMETRICS[C]. New York, 2004.
[9] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies[A]. Proc of the ACM SIGCOMM[C]. New York:ACM Press, 2004. 65-76.
[10] SOULE A, SALAMATIAN K E, TAFT N. Combining filtering and statistical methods for anomaly detection[A]. Proc of the ACM IMC[C]. Boston,USA,2005.311-312.
[11] JIANG D, YAO C, XU Z,et al. Multi-scale anomaly detection for high-speed network traffic[J]. Transactions on Emerging Telecommunications Technologies, 2015,26:308-317.
[12] 錢葉魁, 陳鳴, 葉立新. 基于多尺度主成分分析的全網絡異常檢測方法[J]. 軟件學報, 2012, 23(2): 361-377.QIAN Y K, CHEN M, YE L X. Network-wide anomaly detection method based on multiscale principal component analysis[J]. Journal of Software, 2012, 23(2): 361-377.
[13] BRAUCKHOFF D, SALAMATIAN K, MAY M. Applying PCA for traffic anomaly detection: problems and solutions[A]. Proc of the INFOCOM[C]. New York: IEEE Press, 2009,46-53.
[14] RUBINSTEIN B I P, NELSON B, HUANG L,et al. Stealthy poisoning attacks on PCA-based anomaly detectors[A]. Proc of the ACM SIGMETRICS[C]. New York: ACM Press, 2009.
[15] RUBINSTEIN B I P, NELSON B, HUANG L,et al. ANTIDOTE:understanding and defending against poisoning of anomaly detectors[A]. Proc of the ACM Internet Measurement Conf[C]. Chicago,2009.
[16] 錢葉魁, 陳鳴. 面向 PCA異常檢測器的毒害攻擊和防御機制[J].電子學報, 2011,39(3):543-548.QIAN Y K, CHEN M. Poison attack and defense strategies on PCA-based anomaly detector[J]. Acta Electronica Sinica, 2011,39(3):543-548.
[17] AHMED T, COATES M, LAKHINA A. Multivariate online anomaly detection using kernel recursive least squares[A]. INFOCOM[C]. 2007.
[18] 錢葉魁, 陳鳴. MOADA-SVR: 一種基于支持向量回歸的多元在線異常檢測方法[J]. 通信學報, 2011, 32(2): 106-113.QIAN Y K, CHEN M. MOADA-SVR:a multivariate online anomaly detection algorithm based on SVR[J]. Journal on Communications,2011, 32(2): 106-113.
[19] WENJI C, YANG L, YONG G. Cardinality change-based early detection of large-scale cyber-attacks[A]. Proc of the INFOCOM[C]. 2013.1788-1796.
[20] 錢葉魁, 陳鳴, 郝強. ODC: 在線檢測和分類全網絡流量異常的方法[J]. 通信學報, 2011, 32(1): 111-120.QIAN Y K, CHEN M, HAO Q. ODC: a method for online detecting&classifying network-wide traffic anomalles[J]. Journal on Communications, 2011, 32(1): 111-120.
[21] YIN Z, MATTHEW R, WALTER W,et al. Spatio-temporal compressive sensing and internet traffic matrices[A]. Proc of the ACM SIGCOMM[C]. Barcelona: ACM Press, 2009.65-76.
[22] RINGBERG H, SOULE A, REXFORD J,et al. Sensitivity of PCA for traffic anomaly detection[A]. Proc of the ACM SIGMETRICS[C].New York: ACM Press, 2007.78- 89.
[23] LIU C, RUBIN D B. ML estimation of the t distribution using EM and its extensions[J]. ECM and ECME Statistica Sinica, 1995, 5: 19-39.
[24] PEEL D, Mclachlan G J. Robust mixture modelling using thetdistribution[J]. Statistics and Computing , 2000,10: 339-348.
[25] LITTLE R J A, RUBIN D B. Statistical Analysis with Missing Data[M]. Chichester: Wiley, 1987.
[26] TIPPING M E, BISHOP C M. Mixtures of probabilistic principal component analyzers[J]. Neural Computation, 1999, 11(2): 443-482.
[27] LAKHINA A, CROVELLA M, DIOT C. Characterization of network-wide anomalies in traffic flows[A]. Proc of the ACM Internet Measurement Conf[C]. New York: ACM Press, 2004. 34-55.
[28] CHEN T, MORRIS J, MARTIN E. Probability density estimation via an infinite Gaussian mixture model: application to statistical process monitoring[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 2006, 55(5): 699-715.
[29] PAREDES-OLIVA I, DIMITROPOULOS X, MOLINA M,et al.Automating root-cause analysis of network anomalies using frequent itemset mining[J]. ACM SIGCOMM Computer Communication Review, 2011, 41(4): 467-468.
[30] BENZEL T, BRADEN R, KIM D,et al. Experiences with DETER: a testbed for security research[A]. Proc of the TRIDENTCOM[C]. IEEE Press, 2006.388-397.