梁晶亮,黃軍勝,白樹軍,王 鵬,李 睿
(貴州省遵義市供電局 信息中心,遵義 563000)
態勢可視化,是將事物運動劇烈程度進行高度抽象數據化,并將復雜和抽象的事物狀態和形式以非量化的、直觀的形式呈現給用戶,實現用戶對態勢的可信、可靠、可用感知.
網絡安全威脅可視化,深度融合網絡狀態和攻擊形式,將網絡中安全態勢感知與可視化技術結合,實現全域網絡可信狀態下受到入侵風險、法律風險、通報風險、漏洞風險等威脅時[1],網絡安全性變化趨勢的可視化表征.
電力數據傳輸網絡是連接管理中心、數據中心、用戶中心、發電中心、輸配電中心的連接通道,是地區電網的基礎設施.2016年,習近平在網信工作座談會上明確指出需要構筑網絡安全防線.
世界各國均將網絡安全確定為科技競爭的戰略制高點.2013年美國政府推動“數據美國”項目形成包括網絡安全在內的數據可視化工具.2015年,IEEE組織包括態勢感知(Situation awareness)、協助主動安全配置和部署(Assisting proactive security configuration and deployment)、逆向工程與惡意軟件分析(Reverse engineering and malware analysis)等網絡安全可視化主題會議.2017年度信息安全大會中Redseal、Skybox、FireMon、Tufin、Algosec、安博通等公司展示了整網路徑計算、漏洞評級、策略管理、風險分析、流量分析等網絡安全狀態分析可視化工具和性能.2016年,英國建立基于DNS的國家防火墻,阻止釣魚郵件使用惡意域名進行網絡犯罪.
調查統計表明,2015年全球信息安全市場規模已突破1100億美元,而2017年由于網絡攻擊造成系統癱瘓和信息泄露導致經濟損失達到上萬億美元.
由此,如何高效地監測網絡安全威脅引起了世界各國的關注.網絡安全威脅可視化,是當前預測網絡安全事件發展趨勢和保障網絡穩定的發展趨勢,如圖1.

圖1 網絡安全威脅可視化的特點示意圖
其主要包括基于網絡流量數據、時間序列數據、邊界網關協議、日志數據等可視化技術.基于網絡流量數據的可視化技術,主要采用點陣圖、網格圖、餅狀圖等對端口流量以及總體變化趨勢進行顯示監測[2],實現數據的靜態與動態統計分析和多方式顯示流量特征,直觀的顯示網絡狀況[3]、網絡異常和攻擊行為.基于時間序列數據的可視化技術,利用層次關系的樹圖進行不同的數據維度的展示[4,5].其能夠描述一個包含多個狀態轉換的事件,每個狀態都具有時間屬性,且狀態之間的轉換存在多條路徑[6,7].通過多視圖協作,支撐由整體到個體、由點到面以及由歷史到未來的網絡流量時序數據分析過程.基于邊界網關協議的可視化技術,是可視化網關協議的路徑變化、通告,以及路由跟蹤等信息,及時告警網絡異常行為和攻擊[8].通過簡易抽象描述方法,使用Promela構建協議模型可視化,能夠有效分析攻擊對路徑的正確選擇[6].使用柱狀圖識別每個特定類型的如路由器配置錯誤及蠕蟲攻擊的BGP異常行為表征.基于日志數據的可視化技術,通過圖形元素與監測數據進行屬性關聯,有效地向用戶展示網絡中蘊涵的態勢狀況[9,10].基于Echarts可視化技術對電力數據網絡報警日志進行處理[11],分別從統計和分布的角度實現報警信息的可視化.
綜上所述,電力數據網絡威脅可視化技術仍存在以下難題:
(1)傳統數據模型的表征能力受限,難以表達多狀態、多階段、多維度的電力數據網絡威脅.電力數據網絡中包含靜態和動態數據,文件、多媒體、控制數據的格式和結構差異性大,需要進一步建立能夠描述網絡攻擊威脅的行為模型.
(2)大型復雜網絡的安全狀態特征冗余和離散,導致可視化的圖元關系混亂,網絡安全態勢表達可用程度低.電力數據網絡是一個綜合性網絡,包括產電、輸電、配電、售電和用電全過程,特征相互混疊且冗余,相互關系交叉非獨立,即使以圖元可視化展現,安全態勢復雜性反而增加,因此,需要有效聚類安全特征.
為此,針對傳統數據模型的表征能力受限以及狀態特征冗余和離散導致表達可用程度低的問題,本文提出了融合本體理論與態勢演變的電網動態威脅網格化可視感知.首先設計了統一攻擊威脅行為模型,基于不同的網絡攻擊行為和電力網絡數據,形成了靜態啟發式規則、動態攻擊生命周期、行為潛伏等效轉化的數據模型實體化,實現了對電力數據網絡的安全特征準確描述.提出了基于本體特征的深度內容檢測方法,從統一攻擊威脅行為模型進一步抽象出威脅本體特征,實現本體的數據關聯處理和檢測.精細化處理后的網絡威脅數據將通過態勢階梯,實現攻擊行為的圖形表征平滑漸變.通過搭建網絡環境,驗證本文方法在表征復雜度和內容檢測精度等方面的性能提升.
數據是所有可視化的基礎.電力數據網絡的應用程序數據流異構多源,其包括P2P流量、實時通訊流量以及流媒體流量.而業務數據封裝在傳輸幀結構中,在傳輸過程中不經過解封裝是無法判斷業務內容.APT(Advanced Persistent Threat)攻擊將大量威脅代碼構筑在靜態文件中,特別是相互傳輸的文檔、日志和壓縮包.因此,只有通過靜態數據模型構建,在不對靜態文件傳輸形態進行解封裝時,即可對內容特征文件進行可視化感知.
將一個文件集合F細分為N個子文件集合F={F1,F2,F3,···,FK},惡意文件的執行代碼長度下限為LK,則有0<K<sum(F).假定惡意文件與正常文件同時接入可信網絡,即F整體均服從相同的業務源模型,其包括用戶行為到達過程和業務行為過程.
靜態啟發式規則的數據模型主要包括靜態文件傳輸會話到達過程、靜態文件會話呼叫數目、靜態文件會話呼叫間隔、單靜態文件會話文件數、子文件的到達間隔、文件包大小,如圖2所示.

圖2 統一攻擊威脅行為模型
數據模型可進一步描述如下:
(1)靜態文件傳輸會話到達過程:靜態文件傳輸發起事件的規律,約定傳輸開始時間Tstart服從泊松分布,隨機參數λ根據傳輸的應用類型有所不同,則有到達過程,

(2)靜態文件會話呼叫數目:同時需要處理的請求業務數量,服從幾何分布,均值為μN.
(3)靜態文件會話呼叫間隔:由于特定時間內,呼叫數目服從幾何分布,因此呼叫間隔也服從幾何分布,均值為μD.
(4)單靜態文件會話文件數:從整體文件進行細分后,單事件同樣服從幾何分布,均值為μK.
(5)子文件的到達間隔:為了保持數據模型的整體性,子文件的到達間隔同樣服從幾何分布,均值為μft.
(6)文件包大小:每個子文件服從截斷的Pareto分布,其標準分布如下:

其均值和方差如下:

其中,α為Pareto分布的定值,設定m為最大允許的分組大小.則當分組大小滿足x>m,則文件包大小的均值為:

動態攻擊生命周期的數據模型,是將在靜態分析或行為檢測中發現的可疑文件放入可持續攻擊的生命周期模型搭模型中,并判定攻擊的危險程度[12].
動態攻擊初始植入階段可分為攻擊者攻擊入侵過程以及終端接入過程.攻擊者攻擊入侵的隨機性低,因此分布規律主要由終端接入過程控制.電力網絡用戶使用電網進行數據傳輸的到達服從泊松分布,持續時長服從指數分布,則有動態攻擊初始植入階段的持續時間tsa概率密度函數為:

將λsa設定為非隨機變化,即在持續時間ts1內APT初始植入事件可數,假定為Nsa.


由此可以得到,動態攻擊信息收集階段下潛入威脅將總能獲得導致攻擊事件發生的伺機概率.
當處于動態攻擊發起階段,攻擊模型可以從可信系統的邊界安全進行可逆計算,為:

由于APT攻擊采用社會工程學等巧妙手法,要想完全防止入侵是十分困難的.為了掌握潛伏在網絡內的威脅,需要對攻擊進行危險度轉換,其依托是基于正常數據行為模型,通過該模型,可視化異常數據及可疑行為關聯.
不同生命周期下所有的危險程度與信息量I、攻擊性強度A和安全策略強度S具有以下關系:

當電網數據的信息量I越大,則遭受網絡攻擊和安全風險將隨之增大.網絡攻擊性強度A越大,則數據被泄露的風險越大.安全策略強度S越大,則數據將獲得更大的保障,安全風險降低.信息量I、攻擊性強度A和安全策略強度S均能根據網絡安全事件進行細分,即I={I1,I2,I3,···,Ik},A={A1,A2,A3,···,Ak},S={S1,S2,S3,···,Sk}.I,A與S及其子集應為相互獨立.
基于統一攻擊威脅行為模型,形成信息量、攻擊性強度和安全策略強度的數據模型及其子集,并具有靜態啟發式規則、動態攻擊生命周期、行為潛伏等效轉化的數據模型實體化,實現了對電力數據網絡的安全特征準確描述.模型的具體化也帶來了電力網絡安全特征的冗余,導致可視化處理的細粒度模糊.
從大量冗余特征中遴選出核心要素的方法通常包括層次分析法、加權評估法等等.這些方法都依賴于強先驗概率下的專家知識庫,與系統特性關聯緊密,數據結構化差,語義難以跨平臺適用,且對動態變化的本體描述能力低.而在APT威脅下,突發攻擊將長時潛伏隱匿的漏洞威脅瞬態激發,將會造成跨平臺、多時段、多應用的系統崩潰.因此,在進行APT深度內容檢測時,構建的知識庫需要能夠滿足在不同建模方法、范式、語言和軟件工具下的快速轉換.由于本體理論[13]是面向對象的形式化描述重要實體、屬性、過程和相互關系的跨數據關聯理論,其將能更適合無健全專家知識體系的網絡.因此,本文將進一步引入本體理論,挖掘電網動態威脅關聯最緊密的特征.
將前述威脅數據模型、周期和行為統一轉化為本體描述特征,即

其中,EI為信息量之間的關系,EA為攻擊量之間的關系,ES為網絡安全保障之間的關系,E(·)為信息量、供給量和安全保障之間的關系.可以具體化為E(I,A)、E(I,S)和E(A,S),分別信息量與攻擊量之間的關系,信息量與安全保障之間的關系,攻擊量與安全保障之間的關系.
可由電力網絡的威脅本體特征集合中任意選定需要可視化的特征組成待考察組合.與利用k-means算法[14]可以將目標威脅本體特征群分為k′個簇.
步驟一:k′個初始聚類中心是O={o1,o2,···,on}.傳統k-means算法隨機選定點作為初始類簇中心點,聚類性能穩定差.為了提升威脅本體特征集合的聚類效果,通過加大初始類簇中心點的平均相對歐氏距離,增加最優解的全局性能.因此首先選定初始類簇中心點o1,然后選定距離該點最遠的那個點作為第二個初始類簇中心點o2,再選擇距離o1與o2的距離最大的點作為第三個初始類簇的中心點o3.此時選擇聚類最大迭代次數m;確定迭代結束的最小目標威脅函數T.
步驟二:根據歐氏距離公式,計算每個數據到簇的距離,將各數據分到最小距離的簇中,其中計算距離公式為:是第j個威脅本體特征數據到第n個聚類中心的距離.

步驟三:重新計算k′個聚類的中心值O={m1,m2,···,mn},其計算公式為:

其中,mj為第j個聚類的聚類中心.
步驟四:若迭代次數等于m,則結束聚類,否則判斷聚類結果是否滿足小于給定參數T,如果滿足則結束,不滿足重復步驟二、三[15].本體特征深度內容無標度聚類如圖3所示.

圖3 本體特征的深度內容檢測無標度聚類
為了驗證本文動態威脅模型和可視化感知的效果,新方法將基于貴州省遵義市供電局的電網進行驗證.可視化效果驗證環境包括攻擊模擬設備、電網數據中心、電網網絡中心、電網服務中心、安全路由以及威脅監控平臺,如圖4所示.

圖4 網絡安全可視化環境構建
威脅監控平臺能夠實現數據、模型、關系和表達的綜合處理,并可以根據攻擊模擬出適用的人機交互方案,包括功能流程設計、運行監測模式設計以及可視化決策主體頁面設計等.攻擊模擬設備的模擬攻擊事件包括P2P流量、實時通訊流量以及流媒體流量[16],具體設定如表1所示.

表1 攻擊模擬設備的模擬攻擊事
實驗中將從表1中任意選定三種攻擊事件,組成不同的應用程序下的攻擊威脅事件發現.將流量監測方法以及日志跟蹤方法,與本文方法共同配置到威脅監控平臺.通過長時間觀察,分析不同方法在監測誤差以及監測表達能力的性能表現.
圖5為不同方法的網絡安全威脅監測錯誤分析.由圖4中可以看出,基于本體的網絡威脅感知錯誤率要低于流量監測方法以及日志跟蹤方法的感知錯誤率.當并發任務數量為40個時,基于本體的網絡威脅感知錯誤率為9.86%,流量監測方法以及日志跟蹤方法的感知錯誤率分別為13.9%以及14.2%,分別提升了4.04%以及4.34%.
監測表達能力分析實驗,從表1中選取三個攻擊事件作為觀察對象.攻擊事件一(Bittorent,違規鏈接)、攻擊事件二(Goggle Talk,隱形通道)、攻擊事件三(RTMP,零日漏洞).收集監測表達能力的數據,利用蒙特卡洛分析法和均方根誤差( Root Mean Square Error)分析監測表達的準確度,預測結果如圖6所示.
由圖6中可以看出,基于本體的網絡威脅表達能力RMSE要低于流量監測方法以及日志跟蹤方法的威脅表達能力RMSE,這是由于新方法引入本體理論,挖掘電網動態威脅關聯最緊密的特征,降低了可視化構建的特征冗余度.可視化監測威脅的實際效果如圖7所示.

圖5 網絡安全威脅監測錯誤分析

圖6 網絡安全威脅監測錯誤分析

圖7 網絡安全威脅可視化實際效果
本文提出了融合本體理論與態勢演變的電網動態威脅網格化可視感知.基于不同的網絡攻擊行為和電力網絡數據,形成了靜態啟發式規則、動態攻擊生命周期、行為潛伏等效轉化的數據模型實體化,實現了對電力數據網絡的安全特征準確描述.提出了基于本體特征的深度內容檢測方法,從統一攻擊威脅行為模型進一步抽象出威脅本體特征,實現本體的數據關聯處理和檢測.精細化處理后的網絡威脅數據將通過態勢階梯,實現攻擊行為的圖形表征平滑漸變,優化了網絡安全威脅監測錯誤和監測表達能力,有效解決了傳統數據模型的表征能力受限以及狀態特征冗余和離散導致表達可用程度低的問題.