黃智勇,林仁明,劉 宏,朱舉異,李嘉坤
(1.電子科技大學信息與軟件工程學院,四川成都 610054;2.四川省市場監督管理局信息中心,四川成都 610017)
市場監管領域中業務平臺每天經過的流量大、涉及的域名多,在網絡安全的防護過程中日志系統和警報系統每天都會產生大量的數據,難以分析和預處理。同時,當今網絡活動相當復雜,無論是單個入侵檢測系統工作,還是多個入侵檢測系統配合都容易出現誤報、漏報和重復報警的問題,對于市場監管系統復雜的網絡情況,難以快速準確地識別網絡安全風險。為減輕市場監管領域網絡安全防控壓力,本文提出一種基于異構日志和警報源的安全數據融合算法,利用DS(Dempster-Shafer)證據理論對攻擊數據進行關聯和融合,快速獲取系統最關鍵的安全態勢信息,輔助市場監管網絡安全態勢決策。
由于目前的網絡環境復雜,網絡安全形勢非常嚴峻,并隨著各個企業與部門對網絡安全的關注程度不斷提升,對于網絡安全態勢預測的相關研究越來越多,也有許多研究已經構建了相應的網絡安全態勢預測模型。文獻[1-2]首次將情景意識應用于網絡安全中,將多源異構網絡傳感器數據進行數據融合之后再用于網絡安全態勢分析的技術中是十分重要的,這也引發了互聯網安全領域的一場革命。
在構建網絡安全態勢感知框架的研究中,文獻[3]提出一種具有多層次架構的網絡安全態勢感知框架,對該框架中的數據進行分類,針對每一個類分別分配對應的處理引擎,識別特定因素、特定類別的數據。文獻[4]針對網絡中的原始數據量超載導致的響應速度慢,以及網絡中數據尤其是文本情感數據缺乏上下文聯系并不和網絡上視圖保持統一的問題,提出一種分布式數據流處理方法,通過分布式處理減少數據處理的時間,同時將原始數據轉換為通用格式的規范化數據來保證分布式框架的通用性。針對態勢感知中的感知結果可視化方面,文獻[5]提出一種態勢可視化工具,能夠可視化不同級別上的流量活動,并且發現不同的原始數據量可能會導致態勢數據關系和模式的不同,從而為態勢感知提供不同的分析能力。文獻[6]提出在同一系統中,不同角色的人希望了解不同業務下的網絡安全狀態,針對不同網絡安全配置文件,將有關網絡節點的信息與由此產生的業務影響相關聯,從而明確網絡的哪一部分是角色希望感知的網絡安全狀態。文獻[7]提出一種網絡安全態勢模型,該模型對態勢感知中的功能屬性進行研究,最后預測或模擬可能的場景等。
多源數據融合理論及其應用在網絡安全態勢評估中是重要并且關鍵的,由于網絡安全態勢評估正確與否對于數據的要求比較高,所以多源數據融合后得到的融合結果是否準確直接與網絡安全態勢評估結果的正確性成正比,同時多源數據融合結果是否合理也直接影響網絡安全態勢評估結果的合理性。網絡安全態勢評估中的數據融合一般指的是針對不同來源、不同時間但是具有一定相關性的安全態勢數據的融合,目的是解決以往使用單一數據源對網絡安全進行態勢評估導致的不準確與不合理的問題。數據融合的概念自1967 年由Dempster 提出以來,隨著計算機技術的發展與廣泛應用,尤其是在大數據、機器學習等極其需要數據的技術出現之后,數據融合技術也變得越發重要,尤其是在多傳感器領域。多傳感器信息融合技術通過選擇合適的信息處理算法來處理從多個傳感器獲得的獨立觀測數據。傳統的多傳感器融合方法有卡爾曼濾波[8]、統計方法[9]、貝葉斯推理[10]、經驗推理[11]、模板法等[12-13]。但是實際應用中,由于惡劣天氣、傳感器故障、能量供應不足、通信故障等內部和外部影響,從多傳感器系統獲得的數據可能不完整或不準確。在網絡安全態勢中應用數據融合也是如此,自文獻[1-2]將數據融合模型應用于入侵檢測系統和威脅感知之后,誕生了許多與此相關方面的研究,比如文獻[14]改進了數據融合的方法,使其能在復雜環境下保證IDS 系統的目標檢測能力與跟蹤警報的能力。文獻[15]在前人的研究基礎上構建了一個以多源數據融合為基礎的一種入侵檢測系統框架。
國內對于數據融合以及數據融合在網絡安全領域如何應用的研究起步比較晚,并且以高校和研究機構為主,在應用方面仍然缺乏相關的研究。文獻[16]通過對網絡中節點主機對外的服務信息、網絡的訪問信息和系統漏洞數據等多種數據進行分析和評估,并在對這些多源數據進行融合的基礎上,對目標網絡中實際的安全狀況進行評價與分析。文獻[17]主要使用D-S 證據理論對多源數據進行了可信可靠的融合分析,通過在DS證據理論中使用相似系數考察證據之間的相似性,減小沖突證據對于數據融合帶來的影響而導致的數據融合結果的準確性降低的問題。文獻[18]通過引入卡爾曼濾波結合數據融合框架來過濾數據,同時采用迭代的方法進行每輪融合,提高了融合的實時性。文獻[19]注意到DS 證據理論中證據相互沖突的問題,提出在DS 證據理論進行數據融合時將證據的相對距離和證據的不確定性作為參數,減弱證據之間的沖突性,能夠提高沖突證據之間融合的可行性。
DS 證據理論基礎嚴謹,組合規則簡單,被廣泛應用于決策、目標識別等信息融合領域。DS 證據理論在某種程度上是概率論和貝葉斯推理的推廣。基于證據的累積,其可以使多傳感器系統在不需要先驗信息和條件概率的情況下提供有效、準確的信息融合結果,所以與傳統的概率論相比,具有更嚴密的邏輯性,預測結果也有更高的魯棒性,且其所需要的先驗數據比概率推理理論中更直觀、更容易獲得,滿足比貝葉斯概率理論更弱的條件,即不必滿足概率可加性。同時,DS 證據理論是一種將同一證據體中的多個證據組合為一個抽象證據的方法。該方法能夠整合大量特定證據的信息,能夠處理缺乏先驗信息的不確定性和不精確性問題,建模靈活有效。因此,對于網絡安全態勢這樣一個模糊評估問題,采用DS 證據推理完成不確定性表達是非常合適并且準確的。
DS 證據理論首先定義了自己的識別框架,即針對一個具體的概率問題,假設所能認識到的所有可能的結果:
用集合表示,其中R在概率論中被稱為樣本空間也即此處的識別框架,定義R的冪集為:
而此時有一個函數m能將識別框架中的所有可能結果映射為[0,1]中的一個值,即滿足:
則稱函數m為此識別框架下的基本概率分配函數,即BPA,又稱mass 函數或證據函數,其中經函數m運算的非零值子集又稱為焦元。
在確定識別框架和基本概率分配之后,就需要用Dempster 合成規則來進行證據的合成,通過D-S 證據理論合成公式,可以把n個獨立的證據組合起來得到證據的結果。
1)兩個mass 函數的Dempster 組合規則
對于?A?Θ,設m1、m2為同一識別框架Θ上的兩個不同證據的基本概率分配函數,對它們的正交和m=m1⊕m2可確定為:
式中K為歸一化常數。
式中,K為歸一化常數,如果K= 0,則正交和m也是一個基本概率分配函數,否則,則不存在正交和m,即沒有可能存在概率函數,也就是m1和m2矛盾。
2)n個mass 函數的Dempster 組合規則
對于?A?Θ,設m1,m2,…,mn為同一識別框架Θ上的有限個不同證據的基本概率分配函數,對它們的正交和m=m1⊕m2⊕,…,⊕mn可確定為:
其中:
由式(6)可以看出,如果兩個合成對象不是完全沖突的話,任意兩個函數的正交和都是可計算、成立的,且合成規則的數學性質滿足結合律和交換律,所以無論合成順序如何,多個證據的合成結果都是一定的,然后再選取恰當的決策方法就可以得到基于基本DS 證據理論的數據融合結果。
本文模型的目標是實現對于多網絡傳感器監測到的流量數據以及給出的報警數據進行數據融合。由于在同一個時段針對同一個攻擊,不同廠家的網絡傳感器可能會給出不同的報警數據,此時就會導致針對一個行為得到的數據具有差異性,同時對于報警數據,應該主要關注攻擊來源、攻擊方式、攻擊的危害性和資產組別相關的信息,對于其他的信息比如攻擊維度、地理信息以及其他需要人員處理的信息不應進行關注。考慮到本文模型的目標是在不損失數據意義的基礎上盡可能地減少冗余數據以為安全態勢感知提供數據級基礎,該模型應該主要包含數據預處理模塊、DS 識別框架、BPA置信函數分配模塊與證據決策模塊。
多源數據融合流程圖如圖1 所示。

圖1 多源數據融合流程圖
2.3.1 數據預處理環節
當網絡環境中攻擊事件發生的時候會引起多個傳感器產生多個警報日志,雖然這些警報日志引起的報警類型可能不一樣,但是如果這些警報日志具有共同的特征比如說IP 地址,或者在一段時間內出現的次數非常頻繁,就可以將這些警報認定為一次攻擊,如果在一段時間內只有很少的一些警報,就不能判別這是否是一次攻擊。所以在數據預處理階段,應對所需要的屬性進行選擇,去除掉無用的屬性信息,只保留跟網絡攻擊相關的信息。
對于不同的數據源,比如說系統日志,多個不同層級的流量傳感器以及防火墻等應該根據不同的需求進行數據過濾,并建立相應的規則庫。在市場監管領域中關注的是一段時間內網絡中發生的攻擊類型以及影響的資產組。所以在經過數據預處理后應該保留的關鍵信息類型和部分數據如表1 所示。

表1 關鍵信息留存表
2.3.2 確定基本識別框架
在市場監管領域網絡安全態勢中主要關注的是攻擊類型的準確性,本文的識別框架Θ即為多傳感器以及安全軟件等能夠檢測到的所有攻擊,在實際的數據集中,根據關注點的不同,對于流量傳感器來說主要包含攻擊利用和惡意軟件兩類攻擊。在攻擊利用中主要包含弱口令、配置不當、信息泄露以及其他攻擊利用四種攻擊;而在惡意軟件中主要包含遠控木馬和流氓推廣兩種攻擊,對于一些抓包分析工具如PCAP 日志就主要包含具體的攻擊比如端口掃描、SYN 洪泛、拒絕服務、XSS 跨站腳本攻擊等。針對不同的信息格式,考慮分別建立對應的識別框架,即對于流量傳感器來說所有的可能結果:
而對于PCAP 來說,可能結果就為:
其識別框架為:
兩者完全不同,得到的結果也不同。根據市場監管的數據來源,得到對應于不同信息的部分識別框架如表2 所示。在確定識別框架之后,需要對每一種類別進行基本概率分配。

表2 部分來源識別框架表
2.3.3 基本概率分配函數
由于市場監管領域中網絡安全數據十分復雜,存在可能誤報的情況,所以不能直接根據統計然后歸一化的方法進行基本概率分配,而應該采用動態的方法進行基本可信度分配。比如針對一個具體的攻擊,如果某個傳感器在一個周期內對于判斷弱口令攻擊的正確率高,那么就應該在下一個周期中的數據融合同樣對弱口令攻擊的判斷具有較高的信任度。
所以本文對基本可信度分配采用建立動態的遞推公式,方法如下:
式中:JT表示在第T個周期判斷此類警報的信任度;JT-1表示該傳感器上一個周期計算出的此類警報的信任度;為所有傳感器在第T個周期獲取到的此類警報的總數;UT-1表示在上一個周期的判斷中得到的警報正誤判斷的比率,UT-1= 0 表示報警正確率>50%,UT-1= 1表示誤報率>50%,是由前一輪周期融合結果與實際情況相比較確定的;Ni表示第i個傳感器在第T個周期獲取到的此類警報的總數;N0為常數,用于控制收斂速度。
于是可以通過式(11)計算出不同設備在同一個周期中對不同的攻擊類別判斷能力的信任度。此公式的計算結果體現了同一類設備對于不同攻擊類別警報正確告警的能力。通過證據理論的合成計算能夠綜合評估在某一段時間周期內網絡中主要出現的入侵行為。
在經過計算之后得到第T個周期針對流量傳感器部分識別框架的部分警報的基本BPA 概率分配,如表3所示。其中r1為弱口令,r2為XSS,r3為網絡蠕蟲,r4為代碼執行,r5為遠控木馬。從運算得到的結果發現,其實各個傳感器對于具體的攻擊手段的判別能力都還是比較低下的,其中出現很多誤報和不能夠判清報警的具體種類的情況,所以此時更需要對其進行數據融合,綜合評判在一段時間內得到的信息進行攻擊的類型判斷。

表3 BPA 概率分配結果
運用Dempster 融合規則進行數據融合,對于多個具有相同識別框架的數據源中的數據進行合成,運用式(12):
對其進行合成,合成得到的結果如表4 所示。
由于在識別框架下的命題都是互斥的,所以置信函數和似然函數都等于合成后的信度函數分配。于是可直接利用合成后的信度值進行網絡安全情況分析。由表4 可知,在周期T中對于攻擊r5遠控木馬給出的警報是最可信的,即在周期T中最有可能出現的攻擊為r5遠控木馬攻擊,由此就可以分析每個周期可能出現的攻擊情況。
2.3.4 相似性分析
由于攻擊者攻擊的維度不同,可能同時對市場監管系統進行著多方位的攻擊,并且不同數據源之間的識別框架并不沖突,所以針對具有不同識別框架的數據來源得到的網絡安全情況進行分析,需要進行攻擊的相似性分析。
要考慮兩條報警的相似度,首先要考慮的是這兩條報警的共有屬性,包括時間信息、攻擊源地址、目標地址、攻擊類型等。對每一種屬性需要定義一個相似度函數來判別屬性之間是否具有相似性,如果屬性具有相似性,則可以從多方位為報警信息的正確性提供支撐(網絡攻擊在一段時間內被多個設備檢測到,則可以證明該攻擊是目前網絡中正在發生的)。
1)攻擊源地址與目標地址相似度計算
對于攻擊源IP 地址與攻擊目標IP 地址的相似度計算,本文考慮對于源IP 地址或目標IP 的某一個子網,如果在一定時間內存在大量的源IP 地址屬于同一個子網或者目標IP 地址屬于同一個子網的情況下,都定義為相似的攻擊。
設有兩個IP 地址A和B,如果有:
則判定A與B屬于同一網段,即具有相似性,其中Mask表示子網掩碼,“&”表示與運算。
2)時間相似性判斷
由于時間具有連續性,所以可以直接使用歐氏距離度量時間屬性的相似度,在市場監管網絡安全數據中,警報的時間向量主要為(年,月,日,時,分,秒),可以假設兩條警報的時間向量分別為a= (ay,am,ad,ah,am,as)和b= (by,bm,bd,bh,bm,bs),則兩條警報的時間相似度可以定義為:
式中wi,i∈(y,m,d,h,m,s)為每一項對應的權重值,在大多數情況下兩條警報的數據都只會在分鐘和秒數上有差異,所以可以將wi,i∈(y,m,d,h)四項都設置為0,如果出現跨長時間段的攻擊再添加對應的權重值。在確定每項屬性的相似度之后需要進行綜合相似度的評判。
在進行相似性分析后得到最終融合后的部分數據,如表5 所示。

表5 融合后得到的數據列表
本文實驗中,在一段時間內共采集了來自4 個流量傳感器的網絡安全數據,并且根據該段時間不同傳感器給出的不同警報進行了統計,得到如圖2所示的統計圖。

圖2 多源數據警報數量統計圖
將從流量傳感器采集數據的這一段時間一共劃分為3 個周期,將每一個周期內得到的網絡安全警報數據進行數據融合操作,然后得到對應的融合概率,再得到對每個警報的可信度,每一個周期得到的可信度合成結果如圖3 所示。

圖3 各周期可信度合成結果
由圖3 的數據融合結果可以得到以下結論:
1)命題為“遠控木馬”的可信度明顯要大于其他命題,顯然在周期T1中“遠控木馬”的警報數量也是最多的,因此可以判斷,網絡中存在同一攻擊者正在進行有關“遠控木馬”的入侵行為。
2)命題“代碼執行”的可信度相對較大,但只根據某種攻擊事件所對應的可信度來判斷所遭受到的攻擊,有時候可能是不準確的,雖然“代碼執行”的可信度大,攻擊者可能同時也在進行“代碼執行”的相關攻擊,但也有可能是誤報。所以在具體評判網絡環境正在遭受怎樣的攻擊時,需要考慮多方面的因素來共同判斷。
3)命題“弱口令”的可信度相對較小,但是“弱口令”的警報數量卻是相對較多的,但是由于上一個周期的誤報較多,導致這一個周期對于“弱口令”的警報的可信度相對較小。
4)命題“XSS”攻擊和“網絡蠕蟲”的可信度非常小,這是因為其警報的相對數量非常少,并且提供證據的數據源相對單一,所以對于網絡中有攻擊者正在進行“XSS”攻擊和“網絡蠕蟲”的入侵行為的信任度就會很小,由結果可以推斷當前網絡中大概率正在遭受“遠控木馬”攻擊。
據統計可知,在目前的大多數系統中,對于大部分網絡入侵檢測系統,其反饋的報警信息中僅有10%是有用的,剩余的報警信息中大部分都是誤報、漏報。所以,在報警信息大量都是漏報和誤報的情況下,網絡入侵檢測系統包含的信息將給網絡和管理員帶來如下困擾:
1)網絡管理員很難從大量的報警信息中發現真實的入侵事件;
2)容易引起網絡的入侵和信息泄漏;
3)網絡傳輸負載變大的同時使日志存儲系統空間占滿,導致真實的入侵事件無法進行審計。
本文提出的方法在進行BPA 分配時考慮了誤報與漏報的情況,同時實驗也是在真實數據下運行得到的結果,所以本文提出的方法能夠對誤報和漏報具有一定的解決能力。
本文通過研究DS 證據理論,提出了基于DS 證據理論的多源數據融合方法,驗證了多源日志安全信息融合系統模型中通過數據預處理、融合框架構建、BPA 分配、證據融合過程對多源日志融合分析的有效性;運用融合系統模型對目前網絡安全態勢的簡單評估驗證了融合模型在具有誤報、漏報的不良影響下能夠減少無效報警并保證數據的有效性。
實驗結果表明:本文方法可有效降低數據庫中多源日志記錄的冗余度;同時通過事件關聯和相似性判別對具有高相似度、相對準確的判定警報進行聚合,在數據預處理的基礎上更大程度地降低了警報日志的處理數量。
注:本文通訊作者為朱舉異。