許慶帥 孔貴琴 王學良 江南機電設計研究所
關鍵字:日志采集 分布式存儲 數據融合 攻擊樹推理
網絡安全態勢感知是實現網絡安全防御的前提,網絡安全態勢感知就是通過獲取網絡安全態勢要素,根據獲取的網絡安全要素識別出網絡攻擊行為。文獻[1]介紹了網絡日志類型及分類采集方式,提出了采用文件型日志采集和基于syslog 協議的日志采集兩種方法。文獻[2]介紹了基于Hadoop 的分布式存儲存儲架構,用于解決海量數據的存儲問題。文獻[3]介紹了多種融合算法,提出了一種決策級融合模型,該決策模型通過持續跟蹤網絡動態變化,實時選擇合適的融合算法,以對網絡狀態精確檢測。
根據系統網絡拓撲結構,在充分分析多種網絡攻擊手段的基礎上,研究基于多源日志的安全信息獲取、融合、分析、預警防御及效能評估的網絡安全感知及防御系統技術。具體研究方案如下圖所示:

圖1 網絡安全態勢感知及防御技術研究思路
基于多源日志的態勢感知要素獲取技術主要研究日志采集技術、數據預處理技術、海量日志數據存儲技術。
a)日志采集技術
下圖是某系統網絡拓撲結構圖,本系統采用文件型日志采集(操作系統)和基于syslog 協議的日志采集(網絡設備)兩種方法。對于采集到的海量日志數據,考慮采用基于Hadoop 的分布式存儲方式進行存儲,而Hadoop 架構在Linux 系統中運行狀態良好,并且網絡攻防系統也是在Linux下搭建的,因此,主機操作系統安裝Linux 操作系統。配置一臺高性能的計算作為網絡安全監控中心,其他兩臺較低性能的計算機作為靶標計算機,網絡安全監控中心和靶標計算機組成內網,網絡攻擊計算機組成外網,在內網和外網之間連接路由器、防火墻和入侵檢測設備。各設備利用日志采集器采集并預處理日志給日志服務器。日志服務器將預處理的日志數據通過網絡協議傳輸給網絡監控中心。在采集器采集的過程中,加入日志完整性檢測模塊,對采集到的日志數據進行完整性和真實性檢測。

圖2 系統網絡拓撲結構示意圖
b)日志數據預處理技術
數據預處理主要分為以下幾個步驟:數據清洗、數據約簡、數據合并、數據規范化。
1)數據清洗:填補缺失數據、過濾重復數據。
2)數據約簡:數據約簡技術可以得到數據集的屬性歸約表示,屬性減少,但仍接近于保持原數據的完整性。比較常用的數據簡約方法,本系統采用基于粗糙集理論的數據約簡方法,具體如下:
①根據已有的網絡安全規則集對采集的日志信息進行初始化分類,得到決策表S={V,C ∪D,v,f}。其中,V 為采集到的日志的集合,C ∪D 為初始化關鍵屬性集,v 為屬性C ∪D 指定的屬性值,f 為屬性和屬性值的對應關系。
②針對V 中的某個個體R,建立關于R 的目標函數。
f(R)=1-card(R)/card(V), card(R)=card(C)
f(R)=(1-card(R)/card(V))β, card(R)≠card(C)
其 中,card(R)為 個 體R 所 包 含 的 屬 性 個 數,如 果card(R)=card(C),則個體R 存在的概率增強,如果card(R)≠card(C),β<1,個體R 存在的概率減弱。
③基于步驟二的優選準則,采用遺傳算法或神經網絡等尋優算法,優選出具有代表性的個體R,組成必要集D,D 包含C 的所有屬性,作為數據分類的輸入。
3)數據合并
數據合并是對重復的日志數據進行合并。數據合并的原則如下:
①對于數據約簡后的個體Ri 和Rj,如果Ri 包含的所有屬性都在Rj 包含的屬性集中能夠找到,則可以將個體Ri 刪除;
②如果個體Ri 和Rj 所包含的關鍵屬性相同,則可以將個體Ri 刪除。
4)數據規范化
數據規范化就是將不同數據格式的日志進行格式統一化處理,以使交給網絡監控中心日志數據具有統一的格式。
XML 是一種采用文本標記描述數據的語言,具有靈活、開放、跨平臺、跨語種等的特點,因而被廣泛用于信息的表達和交換。網絡設備和安全設備對數據合并處理后,在發往網絡監控設備之前,首先將數據格式轉換為XML文檔格式,然后按照syslog 協議將各設備生成的XML文檔傳輸到網絡監控中心。
c)基于Hadoop 的分布式存儲方法
網絡攻防平臺中每個計算機上安裝HDFS 文件系統,用于實現基于Hadoop 的分布式存儲架構。對每個計算機利用OpenStack 開發平臺分配一個中等配置虛擬機和多個低等配置虛擬機。支持數據的寫入和讀出。
信息融合包括數據層融合、特征層融合和決策層融合。表1 為信息融合級別對比情況。

表1 信息融合級別對比
在不同網絡設備、安全設備和主機上對采集的日志數據進行預處理即為日志信息的數據級融合。
網絡監控中心對于收到的不同設備的日志數據進行特征級融合。在進行特征級融合之前,首先進行重復日志數據的合并。
由于日志屬性是對某一網絡行為的特點進行定性描述,不需要用精確的數量表示。因此,采用基于粗糙集理論的方法對關鍵日志屬性進行定性描述,建立日志屬性和網絡狀態的輸入輸出關系。日志數據特征級融合過程如下:
①首先對經過數據合并后的每條日志進行屬性提?。?/p>
②將日志屬性離散化,建立決策表;
③將日志數據的屬性做為輸入,將網絡狀態作為輸出,采用數據挖掘技術(包括決策樹、遺傳算法、神經網絡、機器學習、關聯規則、貝葉斯網絡等),建立網絡狀態與日志數據屬性的對應關系。
網絡安全態勢評估需要對網絡的安全性,包括正常,危險及危險程度實時識別并顯示。本文設計網絡安全評估過程如下:
①設網絡中有N 個節點,根據網絡節點被訪問的頻率和節點與其他節點的聯系緊密度,確定節點的重要程度為
②根據節點日志信息的屬性,推測網絡節點是否受到攻擊和攻擊的威脅程度,以此分配網絡節點安全威脅權重為
在檢測某個網絡節點的網絡安全威脅程度時,首先將檢測時間內按時間間隔T 劃分多個時間段,檢測各個時間段內記錄日志中出現某類屬性的次數統計在檢測時間內的平均值標準差利用準則對網絡安全威脅程度進行判斷,判斷標準如下:

本方案根據系統網絡拓撲結構,對網絡安全態勢感知及防御系統進行總體設計,并對網絡安全要素的獲取、數據融合、安全評估進行了研究,明確了研究思路和研究方法。