謝東剛,呂連
(廣西工業職業技術學院,廣西 南寧 530001)
高職院校的網絡安全特點為漏洞類型多樣、數據來源豐富、數據規模較大,當前主流的安全態勢感知模型難以滿足其評估和預測需求,因此需要建立一種能夠融合多種數據源的新型系統,關鍵是要滿足安全大數據轉換、態勢評估計算、態勢值可視化展示等需求,探索相關問題具有突出的實用價值。
“教育漏洞報告平臺”是國家信息安全漏洞共享平臺(China National Vulnerability Database,CNVD)的重要協作單位,該平臺于2017年投用,主要采集、通告教育行業的網絡安全漏洞,至今已收集數萬條漏洞信息。查詢平臺信息可知,高職院校的嚴重危險漏洞包括弱口令、SQL注入、代碼執行漏洞,高危漏洞涵蓋跨站腳本攻擊、敏感信息泄露,中危漏洞為操作系統存在后門、任意文件讀取、未授權訪問、任意文件上傳,低危漏洞為任意文件下載、服務器端請求偽造[1]。
1)數據類型多樣
高職院校不同于企業,其網絡安全防護能力相對較差,進而導致網絡安全信息類型多樣、數據量大。在安全態勢感知中需要進行網絡安全評估和預測,高職院校的網絡安全現狀不利于建立評價指標體系。
2)數據來源多樣
高職院校的網絡安全系統由硬件和軟件兩部分組成,安全態勢感知的信息來源呈現出多樣化的特點,包含入侵檢測系統(Intrusion Detection System,IDS)、殺毒軟件、服務器防火墻、權限管理、系統身份認證、數據庫加密訪問等,這些數據的結構和呈現方式存在較大的差異,在安全態勢感知中需要實現多源異構數據的融合。
當前主流的網絡安全態勢感知模型為Endsley模型、JDL 模型以及Tim Bass 提出的CSA 模型。Endsley模型率先建立了層次化的分析路徑,在態勢感知中提出態勢要素、態勢理解、態勢預測三個層次。CSA 模型以多種類型的入侵檢測傳感器為基礎,借助傳感器采集安全信息,進行數據挖掘和分析。JDL 模型具備多源數據融合功能,可形成態勢圖。但這三種經典模型在高職院校網絡安全態勢感知應用中存在一定的局限性,Endsley 模型和CSA 模型缺乏多源異構數據融合功能,JDL模型不具備層次分析的特點,算法實現難度較大[2]。鑒于以上原因,研究過程提出一種新的網絡安全態勢感知模型,其整體架構見圖1。該系統以大數據為分析對象,在態勢感知中設計有三個層次,分別為態勢覺察、態勢評估以及態勢預測,其優點體現在以下方面:

圖1 基于大數據的網絡安全態勢感知系統整體架構
1)繼承了Endsley模型的層次化特點;
2)具備多源異構數據融合能力;
3)以大數據為基礎實現量化評價和預測;
4)具備可視化展示功能。
1)態勢覺察及其算法實現
①態勢要素采集
態勢覺察重在收集與態勢評估、預測相關的數據要素,涵蓋脆弱性數據、威脅性數據和穩定性數據。脆弱性數據主要是高職院校網絡系統中存在的漏洞;威脅性數據是指網絡攻擊相關的數據,如木馬病毒;穩定性數據是指維持網絡系統安全運行的數據資源。
②主成分分析
經過大數據清洗(降噪、缺漏填充、不一致檢驗與處理)與集成(統一實體命名、統一數據格式、消除冗余)之后,依然存在多種類型的數據,為了突出重點,可采用主成分分析法提取主要的態勢因素。假設初步收集的高職院校網絡安全態勢要素中存在m個指標,分別記為x1、x2、...、xm,評價對象的數量為n個。xij為評價對象i 對評價指標j 的評價結果,i∈[1,n],j∈[1,m]。對原始數據進行標準化處理,方法如下。
式中x'j表示第j個指標的樣本均值,指標j對應的樣本差記為sj,x'ij是指標xij經過標準化處理的結果。根據標準化處理的數據指標建立相關系數矩陣,記為R=(rij)m×n,矩陣元素rij的計算方法為:
式中將第i個指標與第j 個指標的相關系數記為rij,x'ki、x'kj為xki、xkj的標準化處理結果。指標數量為m個,n個評價對象針對每一個指標的評價結果可形成一個相關系數矩陣,計算各個矩陣的特征根,記為λ1、λ2、...、λm,將特征根λj對應的特征向量記為uj。將主成分記為y1、y2、...、yp,將特征根λj的信息貢獻率記為bj[3]。
式中ap為累計貢獻率,如果ap>0.85,則y1、y2、...、yj為主成分,其對應的安全態勢要素為主要影響因素。
2)態勢評估及其算法實現
①建立安全態勢評估指標體系
安全態勢評估指標體系應繼承態勢覺察階段的數據分類,經過主成分分析,基本確定了安全態勢感知的主要因素,再建立如表1所示指標體系,共分為三個層級。
②指標權重分配
各指標雖然都與高職院校網絡安全態勢評估存在聯系,但不同指標對總目標的影響程度存在差異,因而需要對各指標分配影響權重,此處可綜合運用層次分析法和熵權法,實現量化權重分配。安全態勢評估的數據來源包括六大類,分別記為f1(系統靜態配置數據)、f2(設備數據)、f3(用戶訪問數據)、f4(網絡及設備流量數據)、f5(報警數據)、f6(系統漏洞數據)[4]。
每個態勢評估要素的屬性都在f1~f6之間,假設態勢評估要素的數量為L個,要素l∈[1,L],則要素l 的屬性向量可表示為Xl={x1,x2,...,xl},l∈[1,6]。Xl中的元素表示態勢評估要素某一屬性向量的信息來源。此時,態勢評估要素的信息來源可表示為6×6矩陣。
式中l表示代表安全態勢評估要素,Rl為判斷矩陣,a∈[1,6],b∈[1,6]。rab表示態勢評估要素a對態勢評估要素b的相對重要性,其賦值依據見表2。求得矩陣的特征根,再進行一致性檢驗,如果通過一致性檢驗,說明各態勢評估要素的重要性賦值合理,如果未通過,則要重新進行賦值,直至通過一致性檢驗。在賦值過程中,可引入熵權法,消除賦值操作的主觀性。

表2 網絡安全態勢預測值與實際評估值對比
3)態勢預測及其算法實現
①態勢預測的方法選型
態勢預測是利用高職院校網絡安全相關的大數據進行短期內的安全態勢預測,其直接結果是生成態勢預測值,以折線圖的方式進行視覺化展示。校園網絡安全大數據通常按照時間進行分類采集,因此可采用時間序列相關算法。
②基于時間序列的態勢預測算法模型
時間序列的建模方法為獲得網絡系統的真實時間序列數據、根據數據變化趨勢求取相關函數,再利用算法模型擬合數據曲線,根據擬合效果選取最佳的時間序列預測算法。常用的時間序列算法模型包括自回歸模型(Autoregressive Model,AR)、滑動平均模型(moving average model,MA)等。在本次研究中采用季節性差分自回歸滑動平均模型(Seasonal Autoregressive Integrated Moving Average,SARIMA),其實施步驟為獲取原始數據→數據平穩性檢驗→差分運算(當數據不平穩時才進行)→再次進行平穩性檢驗→擬合差分自回歸滑動平均模型。通過該算法建立的網絡安全態勢預測擬合曲線為:
式中yt表示時刻t的預測值,yt-1和yt-2分別為時刻t-1、時刻t-2對應的歷史數據,εt為時刻t的誤差,α0為平滑參數。
以SARIMA 模型為基礎進行高職院校網絡安全態勢值預測,同時將真實的網絡安全態勢評估數據作為預測值的對比,相關數據見表2。從中可知,算法模型的預測結果與實際的安全態勢評估結果偏差在-7.88%~+7.2%之間,偏差不超過±10%,說明安全態勢預測值具有較高的參考價值。
網絡安全態勢感知系統由服務器、數據庫、前后端管理界面組成。服務器采用高性能計算機,CPU為10 核20 線程,內存為32G,運行頻率為2.4GHz。校園網絡安全相關的大數據存儲在MySQL數據庫集群中。后端程序邏輯開發采用Python語言,后端開發框架采用Django,前端界面通過Vue 框架實現,整體為前后端分離開發模式。
1)數據采集模塊
數據采集模塊用于收集、存儲高職院校的網絡安全原始監測數據,通過開源安全信息管理系統(OPEN Source Security Information System,OSSIM)實現數據采集[5]。該系統具有入侵檢測、漏洞掃描、日志分析、流量分析、安全監控、資產管理等一系列功能,能夠有效獲取高職院校的網絡安全大數據,為后續的安全態勢評估和預測提供依據。
2)數據處理模塊
數據處理模塊由數據清洗子模塊、態勢評估子模塊、態勢預測子模塊構成。數據清洗子模塊負責數據格式轉換、規格統一、重復項刪除、數據分類,在前端界面上要設計數據展示頁面,管理人員可通過該頁面查詢處理后的原始數據[6]。態勢評估模塊融合計算處理后的數據集,進而產生真實的網絡安全態勢值,并展示相關結果,折線圖采用Echarts插件。態勢預測模塊由后端程序代碼和前端展示界面組成,通過歷史數據預測安全態勢值,并進行展示。管理模塊用于網絡安全態勢感知系統的整體統籌,負責各模塊之間的交互。
綜合研究內容,高職院校網絡安全態勢感知系統由算法模型和軟硬件功能模塊組成,其算法包括態勢覺察、態勢評估、態勢預測三個核心模塊,通過OSSIM采集校園網絡安全大數據,利用SARIMA 算法預測網絡安全態勢值。系統硬件采用高性能計算機,利用Mysql8 搭建數據庫集群,前后端開發框架分別為Django、VUE。軟件包括數據采集、數據處理結果查詢、態勢評估值展示、態勢預測值展示等界面。