(洛陽電子裝備試驗中心 洛陽 471003)
隨著網絡技術的不斷發展和網絡的迅速普及,人們越來越依賴網絡,同時針對計算機和網絡的攻擊也變得越來越普遍,網絡安全面臨新的挑戰[1]。目前網絡正朝著大規模、高度分布式的方向發展,入侵攻擊行為也正朝著規模化、分布式、復雜化、多樣化、智能化等方向發展和演化[2]。日益嚴峻的安全威脅迫使各職能部門不得不加強對網絡系統的安全防護,不斷追求多層次、立體化的安全防御體系,逐步建立了以網絡入侵檢測、網絡防火墻、防病毒系統、終端監控系統等大量異構安全防御技術為基礎的縱深防御體系[3]。然而,如果安全防御體系仍然以孤立的單點防御為主,相互間缺乏有效協作,必將形成一個個的安全“孤島”,無法體現網絡系統全局安全態勢。因此,網絡安全態勢感知系統的發展趨勢就是要采集并融合處理多源異構網絡安全狀態數據,從而做到對大規模網絡的全面監控,及時掌握網絡安全狀況。
網絡安全數據采集的目的是為網絡安全態勢感知系統提供數據支撐,防御體系中各類安全傳感器產生的數據量大,數據類型、數據格式存在差異,數據之間相互支持或互補,也可能相互矛盾,必然給數據采集和利用帶來一定困難。因此,有必要設計一種網絡安全數據采集模型,實時采集各類安全傳感器產生的數據,并將這些數據統一表示和管理,消除語義理解差異,融合處理各類安全數據,同時鑒于網絡安全技術的快速發展和設備的不斷更新,設計的數據采集模型必須具備可擴展性。
Agent是一種在分布式系統或協作系統中能持續自主地發揮作用的計算實體,常簡稱為智能體或主體。由于Agent具有自治性、社會能力、反應性、能動性、開放性和魯棒性等特點,將其應用于網絡安全數據采集系統中能夠在全網絡范圍內進行統一部署,具有良好的跨平臺性和可伸縮性。Agent在配置和更新過程中對網絡和主機資源的低開銷,使得系統瓶頸出現的可能得到了減少。
語義網技術的發展使得一系列計算機可理解和處理的表達語義信息的語言和技術得以誕生,以支持對網絡中多源異構和分布的信息提供智能訪問,使得萬維網上的信息具有計算機可以理解的語義。語義網的層次結構如圖1[4]所示。通過語義網技術,能夠實現對信息資源的統一描述,建立信息資源之間的語義聯系,使得各計算機程序能夠進行語義上的相互交流。

圖1 語義網層次結構圖
語義Agent技術是語義網技術與Agent技術兩者的結合。語義網技術為傳統Agent技術的研究注入了新鮮的血液和活力,將語義網技術引入Agent,使得Agent能夠更加有效地實現知識的表示、獲取、共享和更新,進行語義層次上的分析和推理,使得Agent 之間的交互和協作更加方便快捷[5]。
基于Agent的網絡數據采集已經有過很多研究[6~7],基于相關語義技術如XML 的網絡數據采集也有過相關研究[8],但是目前還沒有人將數據的語義表示與基于Agent的數據采集結合使用,而對數據的語義表示存在易于使用、便于集成等諸多優點,如果在采集后再對數據進行統一語義表示,由于數據存儲時間長等原因,可能造成對數據來源、數據表示意義等的模糊混亂問題。為此,本文考慮在存儲數據之前完成數據采集與數據的語義表示這兩個動作,建立基于語義Agent的網絡安全數據采集模型。
為全面采集網絡安全數據,需要對網絡安全數據源進行分析,確定數據采集對象,并對采集數據類型進行劃分,從而為采集方法的制定和采集工具的設計實現提供支撐。分別對入侵檢測系統、防火墻、終端監控系統、網絡性能監測、網絡防病毒系統和漏洞掃描系統這幾類常見的安全數據源[9]及其產生的數據類型進行分析。
1)入侵檢測系統
作為網絡安全系統的重要組成部分和其他安全系統的重要補充,入侵檢測系統發揮著越來越重要的作用。入侵檢測系統分為基于主機的和基于網絡的入侵檢測系統兩種。入侵檢測系統最大的挑戰是其產生的虛假錯誤警報以及漏報,其產生的數據形式是報警日志,由于其可能產生虛假錯誤警報,使得有必要通過其他安全系統來彌補這一缺陷,并通過其他系統對網絡安全進行補充,在后期數據處理中要著重解決虛假信息的問題。
2)防火墻
防火墻是建立在內外網邊界上的過濾封鎖機制,其認為內部網絡是安全和可信賴的,而外部網絡是不安全和不可靠的。防火墻具有訪問控制、內容控制、流量控制等功能,從而可以防止不希望的、未經授權的通信進出被保護的內部網絡。防火墻產生的安全數據是網絡訪問日志,記錄網絡訪問情況,包括內外網進出的訪問,并記錄在什么時間進行了什么操作。
3)終端監控系統
終端監控系統主要通過相關手段對終端的文件操作、配置修改、網絡連接、系統服務、內存使用等進行監控。常用的終端監控方式包括進程監控、服務監控、注冊表監控、操作系統性能監控等。相關性能數據包括CPU 利用率、內存利用率、磁盤I/O、數據庫并發用戶數、注冊表信息修改、系統文件修改等。
4)網絡性能監測
網絡性能監測的主要目的是發現網絡瓶頸,優化網絡配置,并進一步發現網絡中可能存在的危險,更加有效地進行網絡性能管理,提供網絡服務質量的驗證和控制,對服務質量指標進行量化、比較和驗證。衡量網絡性能的指標主要包括網絡連通性、帶寬利用率、網絡延遲等。
5)網絡防病毒系統
網絡防病毒系統通過在網絡層、郵件網關、Web網關、群件、應用服務器、客戶端等節點進行病毒攔截,實現對網絡的全方位、多層次防毒。網絡防病毒系統產生的安全數據是病毒攔截日志。
6)漏洞掃描系統
漏洞掃描系統的主要功能是識別網絡中終端的工作狀態(開機/關機)、識別端口狀態(監聽/關閉)、識別系統及服務類型和版本、掃描并分析系統漏洞和泄露,生成掃描結果和各式報告。
計算機網絡系統復雜龐大,運行過程中產生的數據具有多源、海量、異構等特點,由于種種原因很難全面、及時、準確地獲取這些數據。因此,只能退而求其次,選取具有代表性、信息量相對豐富、采集容易、可靠度較高以及冗余度較低的數據作為系統數據采集對象。同時考慮各數據源之間存在數據交叉和數據互補,應盡量擴大數據采集覆蓋面。由于數據實時采集會對系統帶來一定的開銷,嚴重時會影響系統性能,為此,通過對數據進行分析,將數據分為靜態數據和動態數據[10]。
靜態數據是指來自終端監控系統、漏洞掃描系統和防火墻等系統中靜態配置的安全信息,這些目標系統配置信息是相對穩定的信息,基本不隨網絡攻擊發生變化,不需要實時采集,只需存放在數據庫中定時更新。
動態數據是指受網絡攻擊影響實時產生的數據,包括日志數據、服務數據、SNMP 數據和Net-Flow 數據。
日志數據包括文件日志、協議日志和API日志等,主要從主機、路由器、交換機以及其他安全系統產生的日志,如入侵檢測系統生成的報警日志等。
服務數據包括服務配置文件信息、關鍵進程狀態信息、服務漏洞數據、性能數據等。
SNMP數據是指根據SNMP協議實時采集的網絡交換設備和終端設備等設備管理信息庫中的相關數據。
NetFlow 數據是指網絡交換設備產生的Net-Flow 數據。
依據網絡縱深防御體系,設計如圖2所示的基于語義Agent的網絡安全數據采集模型,該模型采用三層架構形式,包括數據采集層、管理層和融合存儲層。

圖2 基于語義Agent的網絡安全數據采集模型
根據層次結構模型,各層次的功能為:
1)數據采集層
數據采集層由各數據采集Agent組成,采用分布式數據采集框架,將各數據采集Agent獨立部署在網絡中,各數據采集Agent與入侵檢測系統、防火墻等網絡安全設備或系統直接相連,根據數據采集對象的不同部署配置具有相應采集功能的數據采集Agent,通過Agent讀取捕獲各設備信息或系統輸出信息文件,并對數據進行分析處理。
2)管理層
管理層由各管理Agent構成,各管理Agent實現對各個采集Agent的啟停管理、狀態監控,以及采集規則或策略的動態調整等,并對數據采集Agent上傳的安全數據進行語義封裝,將封裝后的數據匯聚到語義融合Agent。
3)融合存儲層
融合存儲層由安全信息數據庫和語義融合Agent構成,安全信息數據庫用于對采集的數據進行存儲管理,語義融合Agent用于對匯聚的安全數據進行融合處理,并將融合后數據統一定向到安全信息數據庫中。
為了適應大規模網絡安全數據的多源異構特性,本文設計的網絡安全數據采集模型具有系統可擴展、分布式采集、集中式管理、統一語義封裝、數據融合等特點。
1)系統可擴展
新的網絡安全問題會不斷出現,如果系統具備可擴展能力,可以使系統能夠不斷發展和擴充,從而能夠及時適應新型安全設備數據采集需求。由系統功能結構模型可知,每個數據采集Agent對應一個管理Agent,每對“管理-采集”Agent之間采用內部通信協議進行交互。這種結構使得管理與采集分開,通過管理Agent作為數據庫和采集工具的溝通媒介,使得管理接口編寫可以獨立于具體的采集工具,系統更為通用;采集工具不再受制于管理方式的變化,使得系統進一步兼容了采集工具的差異性。
2)分布式采集
對于大規模計算機網絡,安全數據采集點多,采集模型依據Agent是一種分布式系統中的智能體的特點,將Agent思想融入數據采集工具中,將各個安全數據采集Agent獨立部署在計算機網絡中,并通過一個語義融合Agent對各采集Agent的數據進行融合處理。
3)集中式管理
管理Agent與采集Agent之間通過內部協議進行交互,各管理Agent對外接口一致,使得系統可以通過統一的接口對采集Agent集中控制管理,而具體的控制操作則由管理Agent進行解釋執行,這樣就使得不同的Agent在采集數據的同時能夠接受統一管理。
4)統一語義封裝
為了避免數據歧義,解決多源數據引起的數據異構問題,模型采用語義表示方法,將各采集Agent采集的數據進行語義封裝,實現了安全數據的統一表示,避免了數據歧義和數據異構帶來的數據共享難題。
5)數據融合
在由不同類型安全設備組成的網絡防御體系中,同一個攻擊往往會在各個安全設備上留下痕跡,這些異構的安全設備從不同側面反映攻擊的影響。因而,對各安全設備的數據采集結果,必然存在一定的冗余,模型對匯聚后的數據進行語義融合,利用來自多個安全數據源信息的互補性,可降低安全數據信息的冗余度,并為后續應用提供更加全面、可靠、準確、有效的數據。
圖3為本文設計的安全數據采集框架的數據采集流程。用戶在采集數據前對數據采集策略進行設置,由管理層各管理Agent對采集策略進行解釋,傳達給采集層對應數據采集Agent,數據采集Agent在接收到管理信息后,啟動采集進程,采集所需安全數據,并對數據進行分析處理和格式化。各數據采集Agent通過內部協議將格式化數據傳輸給相應管理Agent,由管理Agent完成語義封裝,通過統一外部協議將語義數據匯聚到語義融合Agent,完成安全數據融合,將數據存入安全信息數據庫。

圖3 安全數據采集流程
結合Agent在主動性和智能性等方面的優勢和語義網技術在異構數據統一描述方面的優勢,設計數據采集Agent、管理Agent和語義融合Agent。
1)數據采集Agent
對于不同種類的安全數據類型,需要開發相應的數據采集Agent,比如日志類、服務類數據采集Agent等。各類數據采集Agent采集內容與方式不同,但功能框架基本一致,主要包括數據采集、數據分析處理和數據格式化等模塊,如圖4所示。
數據采集模塊從各個安全數據源采集相關信息,采集內容不同,采用的方法和相關協議也不同。如網元信息采集采用SNMP 協議,流量信息采集采用NetFlow 協議等。
數據分析處理模塊接收數據采集模塊采集的數據,負責對采集到的數據進行分析處理,包括統計分析、關聯分析、指標計算等。
數據格式化模塊通過對數據過濾、約簡和合并等,按照制定的格式進行數據格式的統一轉換。

圖4 數據采集Agent功能框架
2)管理Agent
管理Agent負責數據采集Agent的接入和管理,主要包括數據接入、數據格式化處理和數據集成封裝等模塊,如圖5所示。

圖5 管理Agent功能框架
數據接入模塊負責接收數據采集Agent采集的數據,能適應采集的不同格式要求,完成對各類數據采集Agent的接入。
數據格式化處理模塊對接收的各類數據進行格式統一,完成數據格式的統一轉換,從而屏蔽各采集Agent細節,為數據集成封裝模塊提供統一格式數據。
數據集成封裝模塊采用XML、本體等語義網技術對格式化后的數據進行語義封裝。
3)語義融合Agent
語義融合Agent負責匯聚和融合處理各管理Agent上傳的語義數據,主要包括數據匯聚、數據關聯、數據融合和數據持久化等模塊,如圖6所示。

圖6 語義融合Agent功能框架
數據匯聚模塊負責將各個管理Agent封裝的語義數據進行匯聚,根據數據時間戳、對象等屬性,將數據傳輸到數據關聯模塊。
數據關聯模塊通過對匯聚的語義數據進行分析,依據數據采集對象等屬性,將從多個數據源獲取的語義數據進行關聯,為數據融合奠定基礎。
數據融合模塊根據數據關聯結果,將關聯后的數據通過冗余化處理、數據清洗、合并等過程進行融合,充分利用數據源的多源異構特性,實現安全數據的相互補充。
數據持久化模塊將融合后的語義數據,存入數據庫中,為網絡安全態勢顯示系統或其他系統提供可用數據源。
本文首先對網絡安全數據的多源異構特性進行分析,并對Agent技術和語義網技術進行了介紹,在此基礎上,將語義網技術和Agent技術相結合,給出基于語義Agent的網絡安全數據采集模型,對該模型的功能、特點、數據采集流程進行了詳細說明,并對模型中的各類Agent進行了具體設計說明。本文提出一種新的、將Agent和語義網技術相結合的數據采集方法,并設計出數據采集框架,對多源異構網絡安全數據采集具有一定的指導意義。
[1]張斌,王銘皓,王瑋.我國網絡犯罪現狀與內部網絡安全管理模式探討[J].國土資源信息化,2004(4):6-10.
[2]劉效武.基于多源融合的網絡安全態勢量化感知與評估[D].哈爾濱:哈爾濱工程大學,2009.
[3]李建平.面向異構數據源的網絡安全態勢感知模型與方法研究[D].哈爾濱:哈爾濱工程大學,2010.
[4](美)安東尼奧(Antonio,G.),(美)海爾梅萊恩(Harmelen,F.).語義網基本教程[M].北京:機械工業出版社,2008.
[5]傅魁,聶規劃.基于語義Agent的談判提案效用挖掘研究[J].情報雜志,2007(8):75-78.
[6]張曉娜,黃赪東,綦磊升.基于多Agent的網絡安全性測試數據采集系統[J].艦船電子工程,2010,30(11):121-124.
[7]王會梅,王永杰,鮮明.基于移動agent的網絡攻擊效果評估數據采集[J].計算機工程,2007,33(14):160-162.
[8]趙成棟.基于XML 的電信網絡管理數據采集與處理[J].計算機工程與應用,2003(22):149-150,163.
[9]彭琪.統一網絡安全管理系統中數據采集關鍵技術的研究[D].武漢:華中師范大學,2008.
[10]馬琳茹,楊林,王建新.多源異構安全信息融合關聯技術研究[J].系統仿真學報,2008,20(4):981-985.