楊婉琳
(審計署計算機技術中心,北京 100073)
態勢感知是一種基于環境的、動態的、系統的洞悉安全風險的能力,可以全面地發現、識別安全威脅,并能準確分析、及時處理安全威脅的一種方式。態勢感知這一概念最早出現在軍事領域,分為覆蓋感知、理解和預測3個層次。
網絡態勢感知分為3個層次。第一層,安全信息的收集。網絡安全態勢可以從海量的數據信息中提取與態勢相關的信息,然后進行統一的處理。比如采用多傳感器數據融合技術,對入侵檢測系統中的數據進行融合,并統一化處理。即使檢測出入侵者的信息,判斷安全威脅等級。第二層,評估網絡安全態勢情況。網絡安全態勢評估方法主要有4種,即數學模型、知識推理、模式識別和機器學習。基于機器學習的評估方法是謝麗霞等人提出的,利用布谷鳥搜索算法對反向傳播網絡的閾值進行優化評估,可以優化網絡態勢感知的評估方法,減少迭代次數,提高評估的準確性與評估效率。第三層預估未來安全態勢情況。利用機器學習的網絡安全態勢預測,可以有效降低網絡安全態勢預測的復雜度,提高網絡安全態勢預測結果的準確性[1]。
國內一般采用馬爾科夫博弈論、知識發現、對比序列進行SQL注入檢測、機器學習技術等分析當前的網絡安全態勢。國外,分析對象特征和關系之間的依賴,利用本體知識理論來預測網絡安全態勢;相似性評估,借助以往的經驗評估網絡安全態勢感知;基于隱馬爾可夫模型的對數分析;協同過濾和基于密度的聚類檢測DGA僵尸網絡方法;基于遞歸神經網絡的機器學習方法,對域名進行高精度檢測,提取相關特征,檢測出惡意混淆的代碼。
網絡安全態勢評估技術有很多,基于機器學習的方法是網絡安全態勢預測技術的重點研究方向,可以詳細劃分為3個方向,即基于人工神經網絡、深度學習和集成學習。
人工神經網絡,也稱神經網絡,是20世紀80年代人工智能領域興起的研究熱點。主要是抽象人類腦神經元網絡,并對其進行建模,然后連接組成不同的網絡,從而來達到實現模擬人類神經網絡的目的。一般來說,神經網絡是由輸入層、隱含層和輸出層構成。輸入層的每一個神經元都是一個特定的輸出函數,每兩個節點之間的連接就是隱含層,隱含層的層數和神經元的個數可以自由指定。輸出層的主要作用是輸出神經網絡結果。
人工神經網絡具有4個基本特征。第一,非線性關系。這是自然界中存在的普遍特征,人工神經元處于激活、抑制狀態的時候,在數學上就表現為非線性關系。非線性關系可以提高神經元的容錯性與存儲容量,優化人工神經網絡的網絡性能。第二,非局限性。神經網絡是由多個神經元連接而成,是多個神經元特征以及神經元單元相互作用的結果,因此可以模擬大腦的非局限性特征。第三,非常定性。人工神經網絡擁有高度的自主學習能力,可以適應多個不同的環境,在處理信息的過程中,會根據信息的不同采用不同的處理方式,是一個迭代過程。第四,多樣性。神經元的輸出函數存在多個極值,人工神經網絡系統存在多個穩定的平衡狀態,從而實現系統的多樣性。因此,人工神經網絡應用在網絡安全態勢預測方面,取得了較好的效果,但是由于結構不完善,會有預測速度慢、模擬度欠缺、局部最優等不足[2]。
深度學習是神經網絡的延伸。深度學習結構是含有多個隱藏層的多層感知器,可以融合低層特征將其組成抽象的高層,然后再用高層來表示特征、類別,從而找到數據的分布式特征。一般來說,深度學習是模式分析方法的統稱,主要分為3類方法:第一,基于卷積運算的神經網絡系統,這種系統是仿造生物視覺和知覺構建起來的,具有表征學習能力,可以實現對像素和音頻進行學習,對數據格式沒有特殊的要求,從而實現數據的穩定效果。第二,基于多層神經元的自編碼神經網絡,其功能是將輸入信息作為學習目標,對輸入的信息進行表征學習。自編碼一般具有表征學習算法功能,主要應用在降維和異常值檢測。第三類,深度置信網絡。深度置信網絡是一個概率生成模型,運用這個模型可以訓練神經元之間的權重,讓整個神經網絡按照最大概率來生產訓練數據,實用性強,應用范圍廣,擴展性也強,廣泛應用在語音識別、圖像處理等領域。深度學習的模型可以有效解決網絡安全態勢預測問題,但是算法性能不高,自我學習性差,適應性不強。
集成學習不是一個單獨的機器學習算法,而是通過構建并結合多個機器學習來完成學習任務,因此,也被稱為多分類器系統。集成學習的一般結構,先產生一組“個體學習器”,然后再選取相應的組合策略將其結合起來。個體學習器有兩種,一種是同質的,都是由一個學習算法訓練數據產生;一種是異質的,是由不同類型的個體學習器集成的。同質的個體學習器被稱為“基學習算法”,異質的沒有“基學習算法”。這里應用較為廣泛的就是同質個體學習器,主要應用的模型是CART決策樹和神經網絡。集成學習比單一學習器具有更為顯著的泛化功能,就是在進行預測的時候,個體學習器出現問題,其他學習器也可以將其糾正過來,從而提高預測結果的準確性。當前被廣泛應用在網絡安全態勢預測的有Boosting系列算法,他們的個體學習器之間存在極強的依賴關系,容易實施,但是得到的結果不一定是最準確的。還有一種就是不存在強依賴關系的隨機森林算法,準確率高,對噪聲敏感,很容易受到外界因素的影響。集成學習主要應用于分類問題集成、回歸問題集成、特征選取集成和異常點檢測集成等方面。
網絡安全態勢的評估。要構建網絡態勢評估指標體系,這是網絡安全態勢評估的基礎,如果指標體系過大,就會增加計算量,從而降低評估的性能與實時性;指標體系過小,就會使得評估不夠全面,評估結果也失去了原有的價值。這就需要選取科學、合理的網絡安全態勢評估指標體系,從而得到全面、準確的評估結果,高效、客觀地展示網絡安全狀況。因此,構建網絡安全態勢評估指標要遵循系統性、近似性、層次性和易操作性原則。要建立指標體系來源參考,構建網元、流量、報警、漏洞和靜態配置信息的指標,并將其劃分為穩定性、威脅性、脆弱性3個綜合性指標。脆弱性指標包含網絡漏洞和靜態配置信息兩個方面,是網絡自身存在的安全隱患,網絡的脆弱性指數越高,網絡受到攻擊的可能性越大。威脅性包含報警和流量兩個方面,可以直觀反映網絡受到攻擊的危害程度。威脅性指標與子網內安全事件發生頻率、子網寬帶使用率、子網流入量占比率有關,指標越大,網絡安全狀況越不理想。穩定性是網元的體現,穩定性衡量指標與子網內數據包分布比值的變化率有關,變化率越大,網絡狀況越不穩定。
本文的網絡環境將評估等級設置為{G1=優;G2=良;G3=中;G4=危};評估規則參考用戶手冊,根據實驗數據,并按照下列公式來計算:
(1)
(2)
(3)

網絡安全態勢的預測主要是借助預測模型,基于機器學習的網絡安全態勢預測模型有長短期記憶神經網絡,利用該模型進行預測之前,要先確定其結構和超參數,但是目前還沒有統一的參數確定辦法,在使用的過程中需要不斷地嘗試從而來達到最佳預測效果。眾所周知,機器學習算法中超參數,可以定義模型屬性或者訓練過程,直接影響神經網絡模型的性能與收斂速度。這就需要借助貝葉斯優化方法來確定長短期記憶神經網絡模型超參數,充分發揮其價值。采用貝葉斯優化算法是基于全局優化理念,通過大量的樣本數量來擬合目標函數的概率分布,從而達到優化模型超參數的目的。長短期記憶神經網絡模型分為4層,輸入層、神經網絡結構層、全連接層和輸出層。輸入層的作用是將之前取得的態勢值輸入到預測模型中;神經網絡結構層將對其進行計算分析,并獲取輸出;連接層可以處理非線性關系,對結構層的輸出數據進行加權處理再傳輸給輸出層;輸出層輸出模型預測的網絡安全態勢值[3]。
利用網絡安全態勢預測模型進行態勢預測的時候,需要構造訓練集和測試集,將網絡安全態勢評估方法中得到的態勢值表示為{x1,x2,…,xt},xt就是t時間系統的安全態勢值。在預測的時候,要根據前一刻的數據得到后一時間的數據,這就需要對得到的數據進行訓練,將這些數據分為輸入、輸出兩個部分,如表1所示。

表1 輸入、輸出數據
然后,利用貝葉斯優化模型的超參數訓練模型,進而進行態勢預測。需要注意的是,評價指標有絕對平均誤差、均方誤差和均方根誤差。
(4)
(5)
(6)

網絡安全態勢感知系統的實現要明確系統的整體架構,詳細劃分系統模塊。一般來說,網絡安全態勢感知系統模塊分為5個部分,即數據采集塊、態勢評估模塊、態勢預測模塊、可視化展示模塊和管理模塊。
網絡安全態勢感知系統要滿足5個方面的需求。第一,數據采集。就是在網絡數據中,快速、全面、及時地收集影響網絡安全的各項指標,這就需要借助開源安全信息管理系統(OSSIM)作為數據采集工具,OSSIM可以實現安全功能監控,是一種集中式、有組織的監測和顯示框架式系統,此外,還可以對原始數據進行處理和分析,減少網絡安全態勢感知系統在數據處理方面的工作。第二,態勢評估模塊。將數據采集處理好的指標信息進行分析計算,客觀得出當前的網絡安全態勢值。首先,要對收集的數據信息進行預處理;其次,利用模糊層次分析法計算各個指標的權重,確定組合權重,對威脅性、脆弱性、穩定性的證據進行推理評估;最后,將網絡安全態勢感知系統所得的數據進行量化處理,并存儲起來,將其作為歷史指標數據進行保存,方便后期查詢。第三,態勢預測模塊。根據歷史態勢預測未來的網絡安全態勢走向,這里需要借助人工神經網絡模型,構建模型結構,對其進行訓練后再利用模型進行態勢預測。第四,可視化展示。可視化展示模塊需要為管理人員提供直觀、清晰的可視化界面。界面內主要包含歷史動態展示、當前態勢展示、未來態勢展示以及各項數據指標。第五,管理模塊。管理模塊主要由管理員操作態勢感知流程,分為任務管理和數據管理兩個方面。任務管理模塊主要是對數據請求進行處理,并控制整個態勢感知的流程。數據管理是管理員處理數據請求的過程[5]。
網絡安全態勢感知技術是網絡時代快速發展的產物,機器學習技術也日趨成熟,將機器學習算法應用到網絡安全態勢感知評估和預測方面,可以發現網絡運行環境中潛在的安全隱患并及時對其清除,保障網絡運行安全。在網絡態勢評估方面,可以采用基于證據推理方法來完成對網絡安全態勢的評估,采用長短期記憶神經網絡模型來完成網絡安全態勢預測,提高了網絡安全態勢預測的準確性。