毛軍禮,汲錫林
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;2.中國電子設備系統工程公司研究所,北京 100141)
網絡態勢感知(Cyberspace situational Awareness,CSA)的概念[1]在1999年首次提出。網絡態勢是指由各種網絡設備運行狀況、網絡行為以及用戶行為等因素所構成的整個網絡的當前狀態和變化趨勢。態勢強調環境、動態性以及實體間的關系,是一種狀態、一種趨勢、一個整體和宏觀的概念,任何單一的情況或狀態都不能稱其為態勢。網絡態勢感知是指在大規模網絡環境中,對能夠引起網絡態勢發生變化的要素進行獲取、理解、評估、顯示以及對未來發展趨勢的預測。態勢感知能力是網絡化信息服務能力的重要組成部分。
網絡態勢感知的目標是將態勢感知的成熟理論和技術應用于網絡管理,在急劇動態變化的復雜環境中,高效組織各種信息,將已有的表示網絡局部特征的指標綜合化,使其能夠表示網絡的宏觀、整體狀態,加強管理員對網絡的理解能力,為高層指揮人員提供決策支持。隨著信息化技術的深入發展,網絡空間產生的數據數量級迅速加大、數據類型更為復雜、數據的來源愈加多樣、病毒和攻擊事件更加隱蔽,亟需研究大數據環境下的網絡態勢感知技術。
網絡態勢感知作為數據融合的一部分,向下從Level 1融合獲取各類感知數據,向上為Level 3融合提供態勢信息,用于威脅分析和決策支持。網絡態勢感知研究包括多方面內容,其總體研究框架[2]如圖1所示。

圖1 網絡態勢感知研究框架
網絡態勢感知包括態勢元素提取、當前態勢分析和未來態勢預測幾個部分,主要涵蓋以下幾個方面:
① 在一定的網絡環境下,利用數據挖掘和數據融合技術提取進行態勢評估要考慮的各要素,為態勢推理做準備。
② 通過特征分析、態勢因子的提取等技術確定事件發生的深層次原因,確立態勢評價指標,給出對所監控網絡當前態勢的綜合評價。
③ 已知T時刻發生的事件,運用預測技術確定T+1,T+2,...,T+n時刻可能發生的事件,進而確定網絡態勢的發展趨勢。
④ 形成態勢圖,以不同圖標表示不同網絡狀態,運用可視化技術使管理員能直觀地了解網絡安全狀況。態勢感知的結果是形成態勢分析報告和網絡綜合態勢圖,為網絡管理員提供輔助決策信息。
多年過去,研究者提出了幾十種數據融合模型,被引用最多是美國國防部的實驗室聯合會(Joint Directors of Laboratories,JDL)模型[3-4]。JDL模型是由美國國防部提出的信息融合模型,在軍事領域被廣泛使用,信息融合模型主要包括信息的采集、信息的處理和精煉、態勢評估、威脅評估、過程精煉、數據的存儲和管理,以及人機接口,其結構如圖2所示。

圖2 JDL模型
JDL模型將數據融合過程分為:信息預處理、對象精煉、態勢評估、威脅評估和過程精煉5個層次。信息預處理執行數據預篩選的最初過程,分配數據到適合的層次。對象精煉通過結合位置、參數和身份信息實現精確的個體對象的表達。態勢評估確定態勢中的對象與事件之間的關聯。威脅評估是根據目前的狀況預測未來。過程精煉被看作一個元過程,關注其他過程的進行。
2000年,Tim Bass提出了應用數據融合技術建立網絡態勢感知系統的框架,指出“下一代的網絡管理和入侵檢測系統將在統一的模型下交互,把數據融合成信息和知識,這樣網絡操作員就能夠對自身網絡的系統健康和實時安全狀況做出有根據的決策”。BASS模型[5]整體共分5層,如圖3所示,分別為數據精煉、攻擊對象識別、態勢評估、威脅評估和資源管理,整體思路體現了由數據到信息,最后到知識的處理過程。受BASS模型的啟發,網絡態勢感知的研究領域出現了諸多基于多源異構信息的模型。

圖3 BASS模型
為了保障網絡信息體系的安全運行,開展大規模網絡態勢感知技術研究十分必要,網絡態勢感知技術作為一項新技術,有很大的發展空間。能對大規模網絡進行實時或者近實時的態勢感知,快速準確地判斷出網絡安全狀態,實現實時的態勢可視化顯示,利用網絡安全事件的歷史記錄,為用戶提供一個比較準確的網絡安全演變趨勢。
大規模網絡條件下態勢感知涉及的信息,不僅來源豐富,信息量巨大,信息種類多,結構復雜,信息的元結構和多維特性更加突出,而且更新動態性、處理實時性要求十分強烈,態勢感知信息已經具備了大數據典型的“4V”特征[6-7]。大數據自身擁有的Variety支持多類型數據格式、Volume大數據量存儲、Velocity快速處理、Value價值密度低的4大特征,符合網絡態勢感知對于海量數據處理的實時性、準確性、高效率的要求。利用大數據所提供的基礎平臺和海量數據處理技術進行網絡安全態勢的分析處理勢在必行。
把大數據技術應用到態勢感知領域,解決態勢感知在大數據時代可能面臨的諸多問題,是值得深入研究的技術方向。當前,傳感器網絡的快速發展帶來了強大的數據獲取優勢,獲取原始數據已不是難題,但是對數據的處理能力卻極大制約著有效、有用信息的快速提取;“數據總量大,價值密度低”問題十分突出,數據處理現狀難以應對大數據時代諸如“垃圾數據多”“數據污染嚴重”和“數據利用難”等困境。
針對大規模網絡空間中數據的海量、多模式、多粒度的特點,滿足并行性、實時性數據處理的要求,將大數據技術引進網絡態勢感知領域,并融合網絡安全態勢經典模型和演進模型,提出基于大數據的網絡態勢感知體系架構,如圖4所示,包括數據采集、數據預處理、態勢理解、態勢評估、態勢預測和態勢展示6層。

圖4 基于大數據的網絡態勢分析感知體系結構
態勢感知系統的輸入來自不同數據源。系統通過多類傳感器和探測設備觀測網絡系統的運行狀況,采集網絡系統的各種信息。網絡態勢的評估和預測需要結合網絡特征,進行從物理層、鏈路層直到行為層的多層次全方位的信息探測與獲取?;诰W絡特征的層次化信息探測技術,是獲取網絡態勢感知大數據的重要技術途徑,沒有這些大數據的支撐,網絡態勢感知的結果必定是不全面和不準確的。
大規模網絡中的安全工具復雜多樣,既有部署的網絡安全探針,又有運營商、網絡安全監管部門等的上報數據。因此數據具備不同的模式和粒度,同時數量巨大。這些特征要求大數據計算系統具備高性能、實時性、分布式、易用性、可擴展性等特征。系統無法確定數據的到來時刻和到來順序,也無法將全部數據存儲起來,并且對數據實時性要求高。因此,不再進行流式數據的存儲,而是當流動的數據到來后在內存中直接進行數據的實時計算,將大數據技術的流式計算技術[8]應用到數據采集處理過程。
由于網絡態勢感知的數據來自眾多的網絡設備,其數據格式、數據內容、數據質量千差萬別,存儲形式各異,表達的語義也不盡相同。如果能夠將這些使用不同途徑、來源于不同網絡位置、具有不同格式的數據進行預處理,并在此基礎上進行歸一化融合操作,就可以為網絡安全態勢感知提供更為全面、精準的數據源,從而得到更為準確的網絡安全態勢。數據預處理包括數據清洗、數據轉換和數據歸并。數據預處理應用大數據所提供的Hadoop[9-10]基礎平臺和MapReduce[11-12]分布式并行計算技術。
態勢理解對獲取的數據進行分析處理和篩選,為后續態勢評估和預測提供準確、有效的數據源。態勢理解通常采用關聯規則分析方法,為了從海量的告警數據中提取出真正的風險事件,需要將來自不同數據源的各類網絡安全事件進行關聯分析。關聯分析是指對不同地點、不同時間、不同層次的網絡安全事件進行綜合分析,從而挖掘出在時間和空間上分散的協同多步攻擊,識別真正的網絡風險,降低誤報和重復報警率。關聯規則分析融合原始數據,去除重復、錯誤項,修改不一致項,統一數據格式,提供規范化的數據供態勢評估模塊使用,研究基于關聯規則的智能態勢理解技術是態勢感知的重要基礎。
網絡安全態勢評估是將采集到的大量網絡安全事件進行分析處理,通過相應的模型和算法計算出一組或幾組有意義的數值,并據此研究網絡的安全態勢。
因此,進行態勢評估首先要建立一套態勢感知量化評估指標體系,以指標體系作為量化評估的基準。指標體系的建立,為數據融合、歸一化等數據處理工作提供參考標準,同時為網絡態勢評估、趨勢預測、態勢可視化提供了比較豐富的經過組織整理的有序的信息來源。
網絡態勢評估的目的是為提高整個網絡和系統的安全性,其著眼點在于整體的狀況,與網絡結構和網絡業務緊密相關。D-S證據組合方法和模糊邏輯結合是目前研究熱點,首先模糊量化多源多屬性信息的不確定性,然后利用規則進行邏輯推理,實現網絡安全態勢的評估,其中涉及很多算法,要處理非線性問題,使結果全面、準確,還要避免緯度災難。未來的研究方向主要是解決基于大數據的高維非線性網絡安全態勢評估技術。
網絡安全態勢預測就是根據網絡運行狀況發展變化的實際數據和歷史資料,運用科學的理論、方法和各種經驗、判斷、知識去推測、估計、分析其在未來一定時期內可能的變化情況,是網絡態勢感知的一個重要組成部分。
由于網絡攻擊的隨機性和不確定性,使得以此為基礎的安全態勢變化是一個復雜的非線性過程,限制了傳統預測模型的使用。而大數據技術具有自學習、自適應性、非線性處理的優點,因此大數據技術在網絡態勢預測方面應用十分廣泛。基于人工神經網絡的安全態勢預測技術采用人工智能的方法,該方法具有全局優化、收斂速度快,自學習、自適應、自組織和免疫記憶,未來研究的重點是如何避免維度災難、降低計算復雜度以及降低空間和時間的預測代價。
態勢展示利用計算機圖形學和圖像處理技術,通過將大量的、抽象的數據以圖形的方式表現,實現并行的圖形信息搜索,提高可視化系統信息處理的速度和效率。它涉及計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域。目前已有很多研究將可視化技術和可視化工具應用于態勢感知領域,在網絡態勢感知的每一個階段都充分利用可視化方法,將網絡安全態勢合并為連貫的網絡安全態勢圖,快速發現網絡安全威脅,直觀把握網絡安全狀況。
根據網絡系統組織結構,網絡的安全狀態應該分層描述,而且是自下而上、先局部后整體。參考已有的網絡安全風險評估的一些成果,擬采用自下而上、先局部后整體的評估策略,以攻擊報警、掃描結果和網絡流量等信息為原始數據,發現各個主機系統所提供服務存在的漏洞情況,進而評估各項服務的安全狀況。在此基礎上,綜合評估網絡系統中各關鍵設備的安全狀況,最后根據網絡系統結構,評估多個局部范圍網絡的安全態勢,然后再綜合分析和統計整個宏觀網絡的安全態勢。因此,網絡安全態勢指標的選取需綜合考慮不同層次(宏觀網絡、局部網絡、主機、服務、攻擊/漏洞),不同信息來源(流量、報警、日志、靜態配置)和不同需求(普通用戶、管理者、維護者)。
網絡安全狀態是由多因素決定的,以上三方面為網絡安全態勢感知的指標體系建立提供了來源參考。根據指標體系的構建原則:相似相近原則、分層原則、動靜結合原則,提煉出4個表征宏觀網絡性質的二級綜合性指標:脆弱性、容災性、威脅性和穩定性。網絡安全態勢評估指標體系如表1所示。
表 1網絡安全態勢評估指標體系

二級指標一級指標脆弱性網絡漏洞數目及等級關鍵設備漏洞數據及等級子網內安全設備數目子網內各關鍵設備提供的服務種類及其版本子網內各關鍵設備的操作系統類型及其版本子網內各關鍵設備開放端口的總量網絡拓撲容災性網絡帶寬子網內安全設備數目子網內各關鍵設備的操作系統類型及其版本子網內各關鍵設備訪問主流安全網站的頻率子網內各關鍵設備提供的服務種類及其版本網絡拓撲子網內主要服務器支持的并發線程數威脅性報警數目子網帶寬使用率子網內安全事件歷史發生頻率子網內各關鍵設備提供的服務種類及其版本子網數據流入量子網流入量增長率子網內不同協議數據包的分布子網內不同大小數據包的分布流入子網內數據包源IP分布穩定性子網內關鍵設備平均存活時間子網流量變化率子網內不同協議數據包分布比值的變化率子網內不同大小數據包分布比值的變化率子網數據流總量流出子網數據包目的IP的分布子網內存活關鍵設備數目子網平均無故障時間
態勢感知需要根據網絡特征進行多層次(通常包括物理層、鏈路層、網絡傳輸層、信息層和行為層)信息的探測與融合,生成綜合態勢,引導網絡攻防,評估網絡效能,反饋業務質量,如圖5所示。

圖5 信息探測和分層處理分析
物理層:提供信息傳輸的基礎連接,實現波形信號或比特流收發,信號電磁頻譜截獲與時域、頻域、空域分析,信息比特流截獲。鏈路層:以數據幀為單位,實現具備鏈路資源分配與差錯控制能力的信息傳輸,節點連接關系配對、鏈路復用體制識別、鏈路報文截獲與解釋。網絡傳輸層:以報文為單位,實現網絡接入、管理及維持功能,同時提供路由服務功能,實現多節點間信息傳輸管理,以及拓撲結構探測、網絡協議識別、網絡傳輸報文的截獲與解譯。信息層:實現傳輸信息的信源編碼、解碼及收發信息的加解密處理,以及信息加密方式識別及解密、網絡傳輸信息內容挖掘與解譯。行為層:實現系統信息的使用以及信息系統的管理,以及目標行為識別與預測、基于網絡態勢變化的攻防有效性分析等。
為了從海量的告警數據中提取出真正的風險事件,需要將來自不同數據源的各類網絡安全事件進行關聯分析。通過關聯規則分析實現智能化的態勢理解。關聯規則挖掘過程主要包含2個階段:第1階段必須先從資料集合中找出所有的高頻項目組,第2階段再由這些高頻項目組中產生關聯規則。需要選取合適的算法,來從大量數據中提取出高頻項目組并產生關聯規則。
事件關聯規則就是對采集到的大量數據進行分析,從各種不同類型的數據中找出它們的聯系,從而還原一個攻擊行為。事件關聯規則技術通過對收集到的大量的安全事件進行處理,減少了事件的數量,并提高了事件的準確性。
關聯分析主要完成2個過程:① 解析樹型關聯規則并存儲到內存中;② 根據解析的規則與事件進行層次化規則匹配,如果多條報警滿足了某條規則場景中的所有層次,就將其放入表中,在界面上可以調用該表的數據用于顯示場景分析,為用戶提供場景描述,關聯規則分析流程如圖6所示。

圖6 基于關聯規則的分析流程
數據融合技術是一個多級、多層面的數據處理過程,主要完成對來自網絡中具有相似或不同特征模式的多源信息進行互補集成,完成對數據的自動監測、關聯、相關、估計及組合等處理,從而獲取宏觀的網絡安全態勢。
網絡安全態勢評估摒棄了研究單一的安全事件,而是從宏觀角度去考慮網絡整體的安全狀態,以期獲得網絡安全的綜合評估,達到輔助決策的目的。目前應用于網絡安全態勢評估的數據融合算法,大致分為以下幾類:基于數學模型的融合算法、基于邏輯關系的融合算法、基于知識推理的融合算法和基于模式識別的融合算法[13]。
網絡安全態勢評估未來的研究方向主要是解決基于大數據的高維非線性網絡安全態勢評估技術。研究思路如下:
① 利用改進的D-S理論[14-15]融合多個安全設備的日志,得到攻擊發生支持概率。
② 將攻擊發生支持概率、攻擊成功支持概率和攻擊威脅進行融合,計算主機節點安全態勢。
③ 將各主機節點的安全態勢及其權重進行融合,得到網絡的安全態勢指標。
④ 將D-S理論與模糊集相結合的方法,能夠處理非線性問題,使結果全面、準確,還能避免緯度災難。
目前,D-S理論與模糊集相結合的應用研究較少,下一步研究重點放在如何將2種算法更好地融合并應用于網絡安全態勢評估中。
網絡安全態勢指標具有非線性時間序列的特點,基于RBF神經網絡[16-17]借助神經網絡處理混沌、非線性數據的優勢可以進行態勢預測。該方法通過訓練RBF神經網絡找出態勢值的前N個數據和隨后M個數據的非線性映射關系,進而利用該關系進行態勢值預測。利用該方法對獲得的數據進行預測仿真,并對其預測的網絡安全態勢結果進行預測誤差分析和針對性的網絡安全態勢分析。神經網絡應用于態勢評估的預測框架如圖7所示。

圖7 基于神經網絡的態勢評估預測框架
基于人工神經網絡的安全態勢預測方法,全局優化、收斂速度快,自學習、自適應、自組織和免疫記憶,是未來研究的重點,避免維度災難,降低計算復雜度,降低空間和時間的預測代價。
神經網絡算法具有非線性、分布式、并行計算、自適應和自組織的優點,但目前使用各種核函數的神經網絡存在2個問題。一是算法還存在經常停止于局部最優解,而不是全局最優解。二是算法的培訓時間過長時,會出現過度擬合,把噪音當作有效信號。下一步的研究重點是解決這2個問題。
將大數據技術應用到態勢感知領域,解決態勢感知在大數據時代可能面臨的諸多問題,是值得深入研究的課題。網絡態勢感知技術能夠綜合網絡、安全和應用系統等各方面因素,從整體上動態反映網絡的安全狀況和運行狀況,并對其發展趨勢進行關聯分析和評估預測。大數據技術特有的海量存儲、并行計算、高效查詢等特點,為大規模網絡安全態勢感知技術的突破創造了機遇。通過研究大數據條件下的網絡態勢感知需求和技術框架,提出一種基于大數據的層次化網絡態勢感知體系架構,對態勢感知各個層次和大數據技術的結合點進行了研究,并提出了網絡態勢感知量化評估指標體系、基于網絡特征的層次化信息探測等關鍵技術的初步方案和研究方向。對于大數據在網絡態勢感知領域的應用研究具有重要探索價值。
[1]本刊編輯部.美國:網絡態勢感知研究的進展與趨勢[J].中國信息安全,2011(02):30-35.
[2]龔正虎,卓瑩.網絡態勢感知研究[J].軟件學報,2010,21(7):1605-1619.
[3]Schreiber-Ehle S,Koch W.The JDL Model of Data Fusion Applied to Cyber-Defence——A Review Paper[C]∥Sensor Data Fusion: Trends,Solutions,Applications (SDF),2012 Workshop on,2012(9): 116-119.
[4]馮波.網絡安全態勢評估模型研究[D].成都:電子科技大學,2016.
[5]Bass T.Intrusion Detection Systems and Multisensor Data Fusion[J].Communications of the ACM,2000,43(4): 99-105.
[6]王壽彪,李新明.面向聯合態勢感知的大數據應用模式研究[J].中國電子科學研究院學報,2014,9(4):408-414.
[7]朱德君.基于大數據的分析技術[J].科技展望,2017,27(8):15.
[8]祝錫永,龐培培.大數據流式計算系統綜述[J].成組技術與生產現代化,2016,33(4):49-54.
[9]陳忠義.基于Hadoop的分布式文件系統[J].電子技術與軟件工程,2017(9):175-175.
[10] Bu Y,Howe B,Balazinska M,et al.Erns.Ha Loop:Efficient Iterative Data Processing on Large Clusterspdf[J].Proceedings of the VLDB Endowment,2010,3(1-2):285-296.
[11] Dean J,Ghemawat S.MapReduce: Simplified Data Processing on Large Clusters[C]∥In: Proc.of Operating Systems Design and Implementation,San Francisco,CA,2004:137-150.
[12] Mavani M,Ragha L.Map Reduce Frame Work: Investigating Suitability for Faster Data Analytics[J].Communications in Computer & Information Science,2013,361:119-130.
[13] 樓巍.面向大數據的高維數據挖掘技術研究[D].上海:上海大學,2013.
[14] 趙爭業.面向網絡空間態勢的多源數據融合技術研究[D].長沙:國防科技大學,2015.
[15] 劉煒,劉魯.基于模糊模式識別和D-S證據理論的安全態勢估計[J].計算機工程與應用,2006,42(22):20-22.
[16] Palftta M,Herrero P.Foreseeing Cooperation Behaviors in Collaborative Grid Environments[C]∥ Springer: 7th International Conference on Practical Applications of Agents and Multi-Agent Systems (PAAMS 2009),Spain.Heidelberg: Springer,2009: 120-129.
[17] 薛麗敏,李忠,藍灣灣.基于在線學習RBFNN的網絡安全態勢預測技術研究[J].信息網絡安全, 2016(4):23-30.