卓瑩,龔春葉,龔正虎
(國防科學技術大學 計算機學院,湖南 長沙 410073)
隨著信息網絡規模的迅速擴大,系統復雜性也隨之增加。傳統的網絡管理中各功能單元處于獨立的工作狀態,缺少有效的信息提取和信息融合機制,無法建立網絡資源之間的聯系,全局信息表現能力差。海量的網管信息非但不能加強管理,反而增加了網絡管理員的負擔。現代網絡管理必須能夠提供多樣化、個性化的管理行為,提供被管對象的詳細信息,了解整個網絡的運行狀況,并且能夠根據指揮人員的需求提供服務。因此,基于融合的網絡態勢感知必將成為網絡管理的發展方向[1,2]。
傳輸是網絡最基本的功能。網絡傳輸態勢感知(NTSA)是指在大規模信息網絡中,從傳統的單元網管獲取鏈路流量信息、資源運行狀況、網絡拓撲結構等能夠對傳輸產生影響的各種測量指標(稱為態勢因子),評估當前狀態、預測未來發展趨勢,并以可視化的方式進行展示。NTSA包括獲取、評估、預測以及可視化4個環節,強調網絡元素之間的關系,決定了態勢因子的匯聚方式,給出一種有利或不利的判斷性結果。簡而言之就是態勢因子集合R與態勢空間框架θ的映射關系∶fRθ→。
NTSA的目標是將態勢感知技術應用于網絡管理,在急劇動態變化的復雜環境中,高效組織各種信息,將已有的表示網絡局部特征的指標綜合化,使其能夠表示網絡傳輸的宏觀整體狀態,從而加強管理員對網絡的理解能力,為高層指揮人員提供決策支持。
態勢感知的研究主要包括3個方面:模型、知識表示和評估方法。其中模型研究比較完善,趨于統一;評估方法作為態勢感知的重點,理論研究相對成熟[3];有關知識表示的研究相對較少[4]。然而現有的研究面向通用問題,沒有很好地將態勢感知技術運用到網絡傳輸領域,缺少針對網絡傳輸具體特點設計的模型和評估方法;另一方面,有關網絡傳輸的研究還沒有上升到態勢的高度,仍舊停留在數據層面上,采用的指標體系比較簡單,沒有綜合分析各種態勢因子,而層次結構、加權函數為主流的評估方法缺少理論支持,無法展現網絡傳輸系統元素間錯綜復雜的關系。
本文充分利用態勢感知研究成果,結合網絡傳輸具體問題展開NTSA研究。首先結合空間流量分析和數據挖掘技術,提出了基于空間流量聚類的網絡傳輸態勢感知模型(STC模型)。接下來分別討論了特征選擇、聚類算法、拓撲分析等關鍵技術:證明了互信息和信息增益的等價性,并以此為基礎進行態勢因子選擇,降低態勢空間規模;在分析網絡數據特點的基礎上,提出了一種面向傳輸模式劃分的高維數據流聚類算法(SACluster算法),并且結合聚類和粗集技術設計了網元傳輸態勢評估方法;以圖論為基礎,進行拓撲重要性分析,確定網元對傳輸態勢的影響。最后設計了NTSA系統邏輯結構,實驗和試運行論證了系統的可行性和有效性,并且簡要給出相關工作以及比較結果。
針對現有研究存在的問題,本文結合空間流量分析和數據挖掘技術,提出了基于空間流量聚類的網絡傳輸態勢感知模型——STC模型。首先介紹STC模型的基本思想。
所謂空間流量分析[5],相對時間流量分析而言,不僅僅分析單條鏈路流量的時間行為,而是綜合考慮鏈路流量特征和互連方式,分析跨越多條鏈路或全網鏈路的流量模式,支持全網視圖。空間流量分析利用“所有網絡事件都會在流量上有所反映”這一基本假設[6],實現了網絡拓撲和流量特征的交互,能夠建立高度概括的完整的網絡態勢視圖。
空間流量分析最大的挑戰在于缺少先驗知識。傳輸態勢涉及的測量指標眾多,單一指標對傳輸產生的影響不同,指標之間也存在復雜的關系相互影響,加之相關研究很少,沒有對傳輸模式進行劃分的成果可以借鑒。如果通過領域專家對傳輸模式進行劃分,不可避免帶有主觀色彩,而且很難公平準確地判斷每一個指標對態勢做出的貢獻。聚類作為數據挖掘的主要方法,屬于無監督機器學習方法,具備獲取知識、揭示規律的能力。聚類分析能夠根據海量網絡數據自動完成對傳輸態勢的模式劃分,提取典型態勢特征,不需要任何先驗知識,科學客觀。
STC模型彌補了簡單指標、單條鏈路的不足,既能夠融合多種影響傳輸態勢的因素,揭示各種已知和未知的異常事件,避免了采用層次結構和權重分析方法的缺陷;又能夠綜合考慮拓撲結構的影響,揭示網絡元素間錯綜復雜的關系,實現全網傳輸態勢感知,體現了態勢整體性和宏觀性的特點;而且模式聚類擴展靈活、適用性強,不局限于流量特征。
結合空間流量數據的特點,對網絡傳輸態勢感知進行建模:STC(Topo, Traffic),其中Topo代表拓撲信息,Traffic代表流量信息。
拓撲信息包括網絡元素及其之間的連接關系,表示為Topo(ID, Time, Node, Link, ψ)。其中,ID代表某一次拓撲發現的標識,是唯一的。Time代表此次拓撲發現的時間。Node代表節點集合,使用四元組(IDN, C, W, Dsc)來表示;其中,IDN是節點的唯一標識;C代表節點處理能力;W代表節點的重要性權值,由網絡拓撲結構以及節點處理能力決定;Dsc用于描述節點相關信息,是一個可擴展項。Link代表鏈路集合,與節點集合類似,統一使用四元組(IDL,C,W,Dsc)來表示,不同之處在于C代表鏈路容量。ψ 代表連接關系,ψ ? N ode× N ode 。
流量信息包括通過流量分析挖掘所獲取的有關態勢感知的各類信息和知識,表示為 Traffic(ID,Time, Trace, IS, SF, SP, AR)。其中:ID為某個網元(節點或者鏈路統稱為網絡元素,簡稱網元)的標識。Time代表流量發生時間。Trace代表流量采集獲得的原始報文信息。IS代表指標體系(index system),通過對Trace進行流量分析獲得反映網絡傳輸態勢的特征的集合。IS={a1,a2,…,an},其中,ai為流量特征。SF代表態勢因子(situation factor),經過特征選擇獲得能夠引起網絡態勢發生變化的重要因素的集合;SF={f1,f2,…,fd},其中,fk為態勢因子,fk∈IS。SF是指標體系的子集,SFIS?。SP代表態勢模式(situation pattern),依據態勢因子的取值,通過聚類對傳輸態勢模式進行劃分;每種態勢模式形如:

其中,vk為態勢因子 fk的取值。AR代表評估規則(assessment rule),在態勢模式劃分的基礎上,確定每種模式的態勢取值,生成態勢評估規則。
基于 STC模型進行傳輸態勢感知建模的流程如下:
{ 對拓撲數據進行建模 }
step1 拓撲發現 TopoDiscovery,獲取拓撲信息 Topo(ID, Time, Node, Link, ψ);
step2 拓撲推理 TopoReference(Node, Link,ψ),修正拓撲信息;
step3 拓撲分析 TopoAnalysis(ψ, C),確定鏈路的重要性W;
{ 對流量數據進行建模 }
step4 流量采集TrafficCollection,獲取原始流量數據Trace;
step5 流量分析 TrafficAnalysis(Trace),建立指標體系IS;
step6 對每一個指標 ai∈IS,進行離散化Discretization(ai)和標準化Standardization(ai);
step7 流量特征選擇 FeatureSelection(IS),建立態勢因子集合SF;
step8 在態勢因子集合上進行模式劃分PatternMining(Trace,SF),建立態勢模式SP;
step9 依據態勢模式劃分結果進行規則設計RuleDesign(SP),建立態勢評估規則AR;
{ 人機交互,專家分析和確認 }
step10 模式分析PatternAnalysis(SP);
step11 模型調整ModelAdjustment(W,AR);
{迭代}
step12 判斷模型是否有效,如果不再適用,重復以上步驟進行建模。
其中,拓撲分析(step 3)執行拓撲重要性分析,確定網元對傳輸態勢的影響;特征選擇(step 7)執行態勢因子選擇,縮小指標體系的規模,建立精簡的態勢空間;模式挖掘(step 8)執行傳輸態勢模式劃分,通過聚類分析提取網元傳輸模式。下面將對上述STC模型的3個關鍵技術,逐一進行深入討論。規則設計(step 9)通過引入粗集分析,自動生成態勢評估規則,相關內容已經另文敘述[7]。其他技術或者來自傳統的網絡管理,例如拓撲發現和推理(step1和step2)、流量采集和分析(step4和step5);或者可以借鑒成熟的研究成果,例如數據標準化和離散化(step 6);或者需要領域專家的參與,例如模式分析和模型調整(step10和step11),本文不作介紹。
降低數據空間的維度主要有2種方法。①特征提取方法,或者稱為維度約簡,通過線性或者非線性組合原始維度產生新的維度,把原始數據空間映射到使用新維建立的低維空間,最具代表性的是主成分分析PCA。②特征選擇方法,即從維度空間中選擇一個維度子集,往往需要用戶指定。由于流量指標都有明確的意義,揭示了流量的某種特征;但是新維的含義則很難給出解釋[8]。考慮到評估結果易于理解,本文選擇后者。
常用的特征選擇方法包括文檔頻率(DF, document frequency)、信息增益(IG, information gain)和互信息(MI, mutual information)等,在文本分類中得到深入研究并廣泛應用[9]。由于態勢評估盡可能采用便于監測的指標,又經過level 1融合和level 2數據標準化,因此數據比較完整,使得DF失去作用,本文只討論IG和MI。
不同于文本分類,一個特征只區分出現與否 2種情況;高維數據的每一維可以有多個不同的取值,需要綜合所有取值對分類的作用。為此,對IG和MI的定義進行如下修改。
定義1 設態勢模式S共有n種,記作Sk(k=1,2, …, n)。令表示樣本總數,則模式Sk的概率用p(Sk)=Sk/S估計,簡記為pk。為簡單起見,沒有區分態勢模式的名稱和數量|Sk|,統一記作Sk。
態勢因子F共有d個,對于某一個因子Fi(i=1, 2, …,d)可能有m種取值,記作vj(j=1, 2, …, m)。則互信息定義為:

信息增益定義為: I G( F ) = I( S ) - E ( F)。
盡管已有的實驗結果表明:IG是最有效的特征選擇方法之一;DF的效果稍差,但和IG基本相似;而MI相對較差。然而筆者發現,考慮特征取值的影響對原有定義進行修改之后,IG和MI 2種方法對于特征的評價是一致的。下面給出IG和MI等價性的證明。
證明

無論是信息增益還是互信息,都是衡量2個隨機變量相互之間獨立程度的測度,反映了態勢因子f導致態勢模式S不確定度的縮減量。由定義可知,IG/MI的取值越大,f和S之間的相關性越強,f越重要。由于缺少態勢模式的先驗知識,態勢因子選擇只能在聚類的基礎上,計算F和S之間的IG/MI。
考慮到網絡傳輸的特點,對聚類算法提出了更高的要求,具體分析如下。① 網絡數據是一種典型的數據流,數據量大,潛在無限,到達速率不確定,只能按到達順序訪問且僅能被掃描一次或有限幾次,因此要求聚類算法滿足一遍掃描,有限內存,輸入順序不敏感等原則。② 網絡測量數據具有連續性、動態變化,要求聚類算法既能夠跟上流的速度,又能夠反映流的演化情況。③ 指標體系龐大、維數眾多,要求聚類算法可以解決高維數據聚類問題,并且具有良好的可擴展性。④ 高維數據的稀疏性,導致數據在低維子空間形成聚類,而在高維空間沒有聚類特征。⑤ 網絡測量數據是結構化數據,測量指標既有連續型又有離散型,要求聚類算法可以處理混合屬性數據。
根據以上分析,提出了一種面向傳輸模式劃分的聚類(SACluster)算法。SACluster算法首先對數據空間進行“網格”劃分,在此基礎上,進行全空間聚類,通過合并相連密集網格形成簇。緊接著進行子空間聚類,對不滿足密度閾值的簇采用自頂向下的策略、兼顧密度與維度雙重標準進行2次聚類:通過降低聚類空間的維度,使不滿足密度閾值的簇實現相連,從而建立所有可能包含投影簇的子空間;然后進行迭代,在候選子空間中逐一搜索最優投影簇,直到發現所有滿足密度閾值的投影簇,并且采用滑動窗口技術實現增量更新,動態維護聚類結果。所謂最優投影簇,是指簇中的點盡可能多,簇的維度盡可能高,即投影簇質量函數取值最大。
SACluster算法描述如下:
step1 聚類空間網格劃分;
step2 一遍掃描數據流,統計網格密度信息;
step3 合并相連密集網格(密度大于 τg),在全空間建立簇;
step4 輸出滿足密度閾值τc的簇;
step5 合并任意 2 個密度滿足[τs,τc)的簇,建立最高維度候選投影簇;
step6 搜索不滿足密度閾值τc的簇,統計候選投影簇的密度信息;
step7 從候選投影簇中選出一個最優投影簇;
step8 如果最優投影簇滿足密度閾值τc,輸出該投影簇;
step9 重復step 6~step 8,直到沒有滿足密度閾值τc的投影簇或者達到終止條件;
step10 如果到達更新間隔,增量更新聚類結果。
SACluster算法結合密度和網格2種方法,有效降低大規模數據流聚類空間的規模,擴展靈活,能夠處理混合屬性數據,產生任意形狀的簇,且對噪聲和輸入順序不敏感。子空間方法使用原始維而非新維建立子空間,簡單、易理解,同時有效解決了高維數據稀疏性問題。自頂向下的搜索策略充分利用網絡數據的分布特征,滿足數據流一遍掃描的需求,而且實現了在不同維度的不同子空間搜索投影簇。增量更新既能夠反映數據流的演化過程;又以較短的時間間隔更新結果,滿足在線聚類對響應時間的要求。借助滑動窗口技術,有效降低算法復雜性的同時,保證參與聚類的樣本量,維護模式劃分穩定性。增量更新算法已經另文敘述[10]。
SACluster是一個高效的高維數據流子空間聚類算法。假設有n個數據點,分布在g個網格中,則全空間聚類的時間復雜度為O(n+g2);簇個數c,不滿足密度閾值τc的簇個數近似取c(略小于 c),候選子空間的個數s,投影簇的個數p,則子空間聚類的時間復雜度為O(c2+pcs)。可以通過限制參與聚類的密集網格的密度 τg以及建立子空間的候選簇的密度τs來降低算法復雜度。如果態勢因子d個,增量更新維護w個窗口,則算法的空間復雜度為O(wdg)。
評估整個網絡的傳輸態勢,還需要了解每個網元對網絡傳輸態勢的影響,即鏈路/節點的拓撲重要性,主要包括網元對網絡拓撲的貢獻以及網元自身的傳輸能力2個方面。本文運用圖論中有關“容量網絡”的理論[11],進行網元的拓撲重要性分析。
在圖論中,網絡是指具有2個特定頂點:發點(source)x和收點(sink)y的加權連通圖,記作N=(Dxy, w)。若N為非負的容量函數c,則稱網絡N=(Dxy, c)為容量網絡(capacity network)。對應到傳輸網絡,圖論中的“容量網絡”是指網絡中2個節點:源(source)和目的(destination)之間所有路徑(path)組成的包含傳輸能力信息的連接圖。為了避免混淆,下文中全部采用傳輸網絡術語。假設傳輸網絡 N(node, link, ψ, c),由 v 個節點(node)、ε條鏈路(link)組成,ψ表示節點到鏈路的關聯函數(incident function),c表示網元傳輸能力,即容量函數;則網絡中包含r種連接,r=v(v-1)/2,即任意2個節點之間的連接,記作Rxy。
首先討論鏈路的重要性。對于源s到目的d的連接 Rsd,當連接中的所有鏈路正常運行時,該連接可以達到最大傳輸容量CN(Rsd);若某一鏈路l失效,最大傳輸容量將受到影響而減小,記作CN-{l}(Rsd)。CN(Rsd)和 CN-{l}(Rsd)的差別反映了鏈路l對連接Rsd的影響。由此定義鏈路l對連接Rsd的重要性LIl,Rsd:

進而定義鏈路l對整個傳輸網絡的重要性LIl:

其中l=1, 2, …, ε。式(2)CN(Ri)的計算建立在網絡拓撲結構的基礎上,充分考慮了鏈路l的拓撲重要性。分母CN(Ri)-CN-{l}(Ri)表示鏈路l為連接Ri提供的傳輸能力,以鏈路容量為依據,體現了鏈路對傳輸的貢獻。
接下來討論節點的重要性。節點重要性同樣考慮拓撲重要性和處理能力2個方面。若節點失效,則以該節點為頂點的鏈路也會失效,可見節點的重要性受到與之關聯的所有鏈路重要性的影響,前者應該是后者重要性之和。同時考慮到節點處理能力t和關聯鏈路傳輸容量存在差別,若前者小于后則,則該節點將會成為瓶頸限制網絡傳輸能力。據此分析定義容量因子Fn:

則節點重要性NIn定義如下:

式(4)中Fn反映節點處理能力對傳輸的影響,而鏈路拓撲重要性以及節點的度隱含地體現了節點的拓撲重要性。
分析了鏈路/節點重要性之后,只需對重要性進行簡單的歸一化處理(令),即可獲得網元重要性權值。

圖論中計算最大傳輸容量的方法比較成熟,例如標號法[12,13]。對網元傳輸能力c為非負整數的整容量網絡,標號法是有效算法,復雜度為O(vε2)。
本文在STC模型的基礎上,結合網絡傳輸這一具體應用,提出了網絡傳輸態勢感知系統結構。如圖1所示,NTSA體系結構堅持closing-the-loop的理念,始終將人作為NTSA中的一個重要環節,突出動態循環的本質,強調反饋的重要作用,體現了DFIG模型的6層結構以及Endsley模型對態勢感知的細化。該體系結構包括通信模塊、知識發現模塊、評估模塊、預測模塊、可視化模塊、人機交互模塊、自主管理模塊以及模式表。
不同于DFIG模型的信息總線結構,本文采用基于Web服務的信息交換機制構建通信平臺,作為各級融合進行信息交換和互操作的方式,實現了NTSA原型系統。

圖1 網絡傳輸態勢感知系統結構
為了驗證 STC模型,本節對所提出的算法以及原型系統進行測試。實驗平臺配置如下:AMD Athlon Dual Core 4200+GHz/2GB,Windows XP,所用代碼均用ActivePerl(5.8.8)實現。實驗所使用的數據有2種,第1種是來源于 MIT Lincoln實驗室的 KDDCup’99入侵檢測數據集[14],第2種數據來源于美國應用網絡研究國家實驗室(NLANR)被動測量和分析工作組(PMA)在 HPC網絡中設置多個測量點被動測量Internet數據[15]。
由于缺少有關網絡傳輸態勢的研究作為比較,本文采用通用的測試數據集KDDCup’99驗證聚類SACluster算法。KDDCup’99記錄了4 898 431條流(flow)記錄,分為正常模式和22種入侵模式,每條記錄點包括1維連接模式(正常或者入侵)和41維屬性,其中連續型屬性33維,離散型屬性8維注1①注 1 在KDDCup’99描述文檔中,特征su_attempted的類型被標記為離散型,實際在數據集中特征su_attempted記錄了嘗試“su root”命令的次數,取值0,1,2,應該屬于連續型。。KDDCup’99數據集來自真實的網絡,和本文研究的網絡傳輸數據具有相似性,故可以用來做測試數據。
聚類準確性:本文使用聚類純度[16]和分類正確率2個指標衡量聚類質量。
定義2 聚類純度。聚類純度定義為簇/投影簇中主體類別i的數據點在簇/投影簇中所占的比例,形式化描述,c為簇的個數。
定義 3 分類正確率。分類正確率定義為在參與聚類的數據點中最終被正確劃分到真實分類的比例,形式化描述如下,n為數據點總數。

聚類純度由簇純度和投影簇純度共同決定,如圖2所示,簇純度全部達到100%,投影簇純度隨數據點個數的增加逐漸降低,但由于投影簇覆蓋的數據點個數較少,對純度的影響也較小,故純度始終保持較高水平,均在98%以上。

圖2 聚類純度
由于非密集網格不參與聚類,使得非密集網格覆蓋的數據點沒有被劃分到簇/投影簇中,因此分類正確率受到網格密度閾值的限制,不可能超過密集網格覆蓋數據點的比例,如圖 3所示,τg=0.01%。

圖3 分類正確率
時間復雜性:SACluster的初始化聚類包括統計網格(grid)分布以及合并相連網格形成簇(cluster)2個階段,圖4顯示了指數坐標下算法運行時間,τc=0.01, τg=0.01τc, τs=0.10τc。結果表明,隨著數據點個數的增加,grid時間線性增加,而cluster時間增長較慢。說明算法具有良好的規模可擴展性。

圖4 執行效率
態勢因子選擇的效果:從KDDCup’99選擇10組數據,每組100 000個數據點,分別根據聚類結果以及連接模式信息計算每一維特征與記錄類型之間的互信息,并對各組數據取平均值。如圖5所示,2條曲線極其吻合,說明根據聚類結果計算的近似互信息與已知分類情況獲得的互信息一致,如實反映了特征與模式之間的相關性,顯示了特征對聚類的重要程度,因此根據聚類結果獲得的互信息能夠作為態勢因子選擇的依據。同時還注意到,根據聚類結果計算的互信息偏高,這是因為在基于網格的聚類結果中去除了噪聲以及低密度網格的影響,故每一維特征包含的有關模式劃分的信息量增大。

圖5 特征與類型之間的互信息
維度可擴展性:緊承上一實驗,驗證 SACluster算法的維度可擴展性,實驗數據保持不變。根據態勢因子選擇的結果,選取不同數量的特征,分別取2、7、17、19、22、26、41維特征。聚類運行時間如圖 6所示,仍舊分成grid和cluster 2個階段。可以看到,隨著數據點個數的增加,grid時間線性增加,而cluster時間趨于平緩。說明算法具有良好的維度可擴展性。

圖6 維度可擴展性
態勢因子選擇(維度)對聚類準確性的影響:如圖7所示,隨著聚類空間維度的增加,聚類純度略有增加,但由于純度始終保持較高水平,故增加不明顯;分類正確率首先明顯提升,繼而緩慢下降,這是由于維度的增加,使得密集網格的個數有所減少,密集網格覆蓋記錄點的比例也隨之減少,分類正確率因為受到網格密度閾值的限制有所降低。

圖7 特征選擇對精度的影響

圖8 Abilene骨干網
為了檢驗 NTSA原型系統的效果,本文采用NLANR提供的Abilene網絡流量數據。Abilene[17]網絡是美國教育科研網,如圖8所示,其核心網絡拓撲包括11個節點和14條雙向鏈路。NLANR數據采集Abilene網絡的報文信息,每天采樣8次,每次90s。并且于2001年7月~9月、2003年1月、2004年1月記錄了Code Red Worm、Slammer worm、W32 Mydoom的爆發。
NTSA原型系統選擇了報文個數、帶寬、估計延遲、報文長度分布、報文協議分布、帶寬協議分布、新流個數、活動流個數、流平均時長、流平均報文數、流平均字節數、流協議分布、TCP標志位分布等多個指標評估傳輸態勢,圖9顯示了某鏈路2天的評估結果,時間間隔選擇1min。從圖中可以看到評估結果既反映了傳輸狀態以24h為單位的周期性變化,也體現出流量的異常變化。

圖9 2天態勢評估
NTSA原型系統在Code Red Worm、Slammer worm和W32 Mydoom爆發的3個時段進行傳輸態勢評估。如圖 10所示,當網絡異常發生時,態勢曲線發生明顯變化,取值相對較大。

圖10 注入異常
NTSA原型系統不僅能夠很好地反映網絡異常,而且能夠檢測未知異常并及時提取異常特征。為了全面細節地揭示異常的特征,展現異常發生時各種態勢因子的表現,采用雷達圖繪制態勢因子圖譜,如圖 11所示。在雷達圖上,各種異常的特征一目了然,不僅能夠同時表現多種態勢因子,而且便于不同異常以及正常狀態之間的比較。

圖11 態勢因子圖譜
自1999年Tim Bass提出網絡態勢感知的概念以來,網絡態勢感知已經成為網絡管理和網絡安全領域的熱點,絕大多數研究圍繞安全態勢展開[2,18~20],也有少量涉及傳輸態勢、信息優勢、生存性等。有關傳輸態勢感知的研究,集中在態勢可視化階段。Lau等提出的Internet級網絡流量可視化工具,在三維空間(例如選擇IP地址和端口號建立IP-IP-port邏輯空間)用點來表示網絡流量信息,提供整個網絡的態勢感知,易于發現網絡攻擊行為,提取攻擊行為特征[21~24]。國內一些關于網絡傳輸性能評價的研究和網絡傳輸態勢感知關系比較緊密,其中楊雅輝建立了網絡性能指標體系,并給出形式化描述框架[25],林闖、江勇等以評價函數作為標準展開網絡傳輸控制的性能評價[26,27],張冬艷等以權重分析為基礎評價網絡性能[28,29]。

表1 相關工作比較
本文是對傳輸態勢感知的第一次嘗試,側重于揭示網絡運行狀況,結合流量和拓撲信息創新性的提出了 STM 模型。由于和現有研究差異較大,因此從數據來源、態勢因子、評估方法、結果形式等幾方面進行簡單比較,結果見表1。
從結果可以看出,本文方法擴展靈活、科學客觀、運行效率高。安全態勢感知和本文思路比較接近,不同之處在于側重點不同,因此選擇的數據源也不同。而流量可視化和性能評價等方法,或者停留在數據層面上,或者采用公式法分析少數指標,都沒有上升到態勢的高度。
本文面向網絡管理需求,結合態勢感知的先進技術,建立了基于空間流量聚類的網絡傳輸態勢感知模型,證明了信息增益和互信息用于態勢因子選擇的等價性,提出了一種面向傳輸模式劃分的高維數據流聚類算法,設計了基于圖論的拓撲重要性分析方法。實驗分析證明了算法的準確性、時空可行性以及可擴展性,原型系統能夠綜合各種單元網管信息,從宏觀上把握網絡態勢,體現了系統的應用價值和現實意義。本文是對網絡傳輸態勢感知的一次嘗試,相關研究還有巨大的發展空間。在接下來的工作中,將關注態勢感知的理論方法,深化關鍵技術研究,同時利用 CPU雙核的特點,進一步提高模式聚類的精度和效率。
[1] BASS T. Multisensor data fusion for next generation distributed intrusion detection systems[A]. 1999 IRIS National Symposium on Sensor and Data Fusion[C]. Laurel, 1999. 24-27.
[2] BASS T. Intrusion detection systems and multisensor data fusion[J].Communications of the ACM, 2000, 43(4)∶ 99-105.
[3] HINMAN M. Some computational approaches for situation assessment and impact assessment[A]. ISIF[C]. New York, USA, 2002.687-693.
[4] ZHUO Y, ZHANG Q, GONG Z H. Cyberspace situation representation based on niche theory[A]. ICIA[C]. Zhangjiajie, China, 2008.1400-1405.
[5] CROVELLA M, KOLACZYK E. Graph wavelets for spatial traffic analysis[A]. Infocom[C]. 2003. 1848-1857.
[6] LAKKARAJU K. NVisionIP∶ netflow visualizations of system state for security situational awareness[A]. ACM Workshop Visualization and Data Mining for Computer Security[C]. New York, USA, 2004.65-72.
[7] ZHUO Y, ZHANG Q, GONG Z H. Network situation assessment based on RST[A]. PACIIC[C]. Wuhan, China, 2008. 502-506.
[8] AGRAWAL R, GEHRKE J, GUNOPULOS D. Automatic subspace clustering of high dimensional data for data mining applications[A].SIGMOD[C]. 1998. 94-105.
[9] 徐燕,李錦濤,王斌.基于區分類別能力的高性能特征選擇方法[J].軟件學報,2008,19(1)∶82-89.XU Y, LI J T, WANG B. A category resolve power-based feature selection method[J]. Journal of Software. 2008, 19(1)∶ 82-89.
[10] ZHUO Y, ZHANG Q, GONG Z H. Research and implementation of network transmission situation awareness[A]. CSIE[C]. Los Angeles,USA, 2009. 210-214.
[11] 許俊明.圖論及其應用[M]. 合肥∶ 中國科學技術大學出版社,2004.XU J M. Graph Theory and Its Application[M]. Hefei∶ Publishing House of University of Science and Technology of China, 2004.
[12] FORD L R J, FULKERSON D R. A simple algorithm for finding maximal network flows and an application to the hitchcock problem[J].Canada J Math, 1957, 9∶ 210-218.
[13] EDMONDS J, KARP R M. Theoretical improvements[J]. J Assoc Compute Math, 1972, 19∶ 248-264.
[14] KDD Cup 1999 Data[EB/OL]. http∶//kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.
[15] NLANR. http∶//pma.nlanr.net/Traces/Traces/long/auck/8/[EB/OL].
[16] LU Y. A Grid-based clustering algorithm for high-dimensional data streams[A]. Proc of the 1st International Conference on Advanced Data Mining and Applications[C]. LNCS, 2005. 824-831.
[17] Internet2. http∶//www.internet2.edu[EB/OL].
[18] BASS T. Defense-in-depth revisited∶ qualitative risk analysis methodology for complex network-centric operations[A]. Military Communications Conference (MILCOM), Communications for Network Centric Operations∶ Creating the Information Force[C]. 2001. 64-70.
[19] 陳秀真,鄭慶華,管曉宏.層次化網絡安全威脅態勢量化評估方法[J].軟件學報, 2006,17(4)∶885-897.CHEN X Z, ZHENG Q H, GUAN X H. Quantitative hierarchical threat evaluation model for network security[J]. Journal of Software.2006, 17(4)∶ 885-897.
[20] 韋勇,連一峰,馮登國.基于信息融合的網絡安全態勢評估模型[J].計算機研究與發展,2009,46(3)∶353-362.WEI Y, LIAN Y F, FENG G D. A network security situational awareness model based on information fusion[J]. Journal of Computer Research and Development, 2009, 46(3)∶ 353-362.
[21] LAU S. The spinning cube of potential doom[EB/OL]. http∶//www.nersc.gov/nusers/security/TheSpinningCube.php, 2003.
[22] CONTI G, ABDULLAH K. Passive visual fingerprinting of network attack tools[A]. Proceedings of 2004 ACM Workshop on Visualization and Data Mining for Computer Security[C]. New York, USA, 2004.45-54.
[23] KRASSER S, CONTI G, GRIZZARD J. Real-time and forensic network data analysis using animated and coordinated visualization[A].Proceedings of the 2005 IEEE Workshop on Information Assurance[C].2005. 42-49.
[24] Carnegie Mellon’s SEI. system for internet level knowledge(SILK)[EB/OL]. http∶//silktools.sourceforge.net, 2005.
[25] 楊雅輝,李小東.IP 網絡性能指標體系的研究[J].通信學報,2002,23(11)∶1-7.YANG Y H, LI X D. The study of a framework for IP network performance metrics[J]. Journal on Communications, 2002, 23(11)∶ 2-7.
[26] 江勇,林闖,吳建平.網絡傳輸控制的綜合性能評價標準[J]. 計算機學報, 2002,25(8)∶870-887.JIANG Y, LIN C, WU J P. Integrated performance evaluation criteria for network traffic control[J]. Chinese Journal Computers, 2002, 25(8)∶869-877.
[27] 林闖,周文江,田立勤.IP網絡傳輸控制的性能評價標準研究[J]. 電子學報,2002,30(12A)∶1973-1977.LIN C, ZHOU W J, TIAN L Q. Research on performance evaluation criteria for IP network traffic control[J]. Acta Electronica Sinica. 2002,30(12A)∶ 1973-1977.
[28] 張冬艷, 胡銘曾, 張宏莉. 基于測量的網絡性能評價方法研究[J].通信學報, 2006,27(10)∶74-79.ZHANG D Y, HU M Z, ZHANG H L. Study on network performance evaluation method based on measurement[J]. Journal on Communications, 2006, 27(10)∶ 74-79.
[29] 蔣序平.網絡性能綜合評估方法IEMoNP的設計和實現[J].海軍工程大學學報,2006,18(5)∶74-78.JIANG X P. Design and realization of an integrated evaluation method of network performance[J]. Journal of Naval University of Engineering, 2006, 18(5)∶ 74-78.