于繼江, 胡康
(中國食品藥品檢定研究院, 北京 102629)
隨著互聯網+科技逐漸滲透到居民生活的各個方面,網絡安全事件的后果,已經從單純的個人信息泄露、交際人脈被利用等早期后果,升級成當前可能直接影響移動支付安全、智能門鎖、車輛定位等個人人身安全等諸多更嚴重后果。網絡在給人們帶來巨大便利的同時,也存在一定的安全隱患[1]。因此,對于云服務商而言,對網絡安全態勢進行更加深入的感知已經成為核心工作內容。早期的網絡安全態勢感知,本質上基于硬件防火墻、行為管理設備等硬件安全系統支持,但此類安全系統已經無法對當前同步發展的網絡攻擊技術有效抑制。網絡安全態勢感知的可用方法較為豐富,可用的數據融合算法也較為豐富。丁華東等[2]在網絡安全態勢感知過程中使用了貝葉斯算法。俞中華等[3]在網絡安全態勢感知過程中使用了深度自編碼網絡的技術。肖喜生等[4]梳理了網絡安全態勢感知過程中可用的人工智能技術和機器學習算法。而如果在網絡安全態勢感知中使用人工智能技術和機器學習算法,數據的覆蓋域與融合度將是影響其最終效果的核心影響因素,所以,劉蓓等[5]研究了網絡安全態勢感知過程中的異構數據融合技術。鄭忠斌等[6]以工業互聯網為個案,特別就其物聯網部分的網絡安全態勢感知技術進行了個案研究和設計部署實踐。
所以,基于全系統大數據分析的網絡安全態勢感知系統已經在各云計算中心中得到部署,如果實現更高效的網絡安全數據融合,已經成為當前技術條件下實現更深度網絡安全態勢感知的核心工作內容。
數據報是數據鏈路的基本構成,而網絡安全的所有攻擊行為中,絕大部分都要通過數據報實現。不論采用IP欺騙、MAC克隆、身份欺騙等任何攻擊手段,包括傳統的DDoC拒絕服務攻擊、偵聽攻擊等,在數據報文中均不可能做到不留任何痕跡。所以,在核心交換設備和核心路由設備中,克隆數據報文對其報頭信息進行監控,成為網絡安全態勢感知的核心數據來源。除鏈路層的數據報報頭外,網絡層、傳輸層、表示層等其他各層設備產生的報頭信息,也會成為網絡安全態勢感知的數據集。通過對一系列的報頭信息進行克隆分析,可以得到所有的連接收發雙方的IP地址和MAC地址、端口號信息、并發連接數信息、數據流量負荷信息、身份及權限識別信息等,這些信息可以在P2DR網絡安全模型的監測環節提供較大的數據量(見圖1)。

圖1 網絡安全態勢感知的數據需求圖
P2DR模型是美國ISS公司提出的動態網絡安全體系的代表模型[7]。在此模型基礎上,網絡安全態勢感知可以構成動態、實時、智能化過程。該模型從監測、響應、防護三螺旋維護模型入手,在安全策略的整體協調下,實現對網絡安全的動態實時感知(見圖2)。
該模型下,通過構建機房日志采集及管理系統構建機房日志數據倉庫,使用浮點計算主機集群進行基于大數據的分析計算,最終通過值班報警系統等及時將響應結果報送給值班人員和機房運維技術人員,以做出及時的安全防御操作。以某互動社區的私有云系統為例,其服務相關主機達到1 800臺,每日所產生的網絡安全相關數據達到2TB左右,所以該P2DR系統的實際數據倉庫級別達到了20TB。浮點計算主機集群使用6臺GPU計算主機進行數據處理,響應過程通過內部郵件系統與機房OA系統實現數據通聯(見圖3)。

圖2 P2DR網絡安全模型

圖3 某IDC私有云系統的P2DR安全態勢感知系統
該系統主要有2個數據來源,基于主交換機鏡像接口的鏡像數據,經過數據報分析網橋進行初步數據橋接后,接入P2DR交換機。相關的硬件防火墻、邊界路由器、行為管理主機及其他數據量較大的主機產生的日志信息,也經過P2DR交換機向P2DR系統報送數據倉庫的同步信息。因此,該系統包括機房內大多數設備的日志信息匯總數據來源,以及主要網絡節點的鏡像接口數據報報頭提取信息數據來源。
在傳輸層設備上的鏡像接口中,提取基于TCP/UDP數據報頭的端口號信息,在網絡層設備上的鏡像接口中,提取基于IP協議的IP地址信息,在鏈路層設備的鏡像接口中,提取基于MAC協議的物理地址信息。同時,在應用層設備的運行日志中,提取某時間點的連接并發數、帶寬占用量信息,以及各種接入行為的用戶身份信息、接入IP跳點信息。
因為大部分入侵者都會采用基于IP、MAC、用戶身份等的多次跳點和偽裝欺騙,試圖繞開包括硬件防火墻和行為控制主機等傳統安全設施的監測和審計,但其行為必然在上述各層同步監測的基礎上留下一定痕跡。此痕跡很難通過人工審計的方式獲得,但在擁有海量浮點計算能力的A.I.系統的支持下,則能夠分析出其部分威脅網絡安全的訪問行為。
A.I.機器學習系統需要相對穩定的數據輸入矩陣,所以有必要將上述行為構成邏輯圖矩陣,如圖4所示。
即將網絡運行狀態劃分為間隔足夠小的時間窗口,將窗口內發生的所有數據連接形成包含表1中信息的連接矢量線,這些矢量線為多維度矢量,控制點以時間戳+發送方MAC為準。
訪問行為信息的本質是IDC之外用戶的行為畫像系統,與上述邏輯圖不同,該行為畫像的核心數據來源并非用戶的前四層數據,而是來自用戶的應用層數據,即用戶訪問IDC時的用戶名、密碼信息和訪問操作過程。通過對用戶的單次訪問信息構成表2中的訪問行為日志,從而對該日志進行數據同構化處理和時域頻域分析,最終得到用戶的行為畫像信息。

圖4 某時刻t的網絡行為邏輯圖矩陣示意圖

表1 邏輯圖矩陣的矢量線數據結構

表2 用戶訪問信息數據的數據結構
觀察表1和表2的數據來源和數據結構,所有數據均為純名義數據,不存在標度和有序數據,所以,可以將以上數據類型全部強行轉化為BIN數據,實現數據的去量綱和同構化。
將表1及表2數據按照固定時間間隔進行輸入,勢必造成時間周期內的數據記錄數并不一致,這對模糊神經網絡的輸入模塊設計帶來壓力。而如果在模糊過程中對數據進行篩選和壓縮,可能造成數據損失并帶來網絡風險行為的漏報現象。所以,本文在數據模糊過程中采用動態窗口的方式,按照事件觸發的記錄數進行數據輸入和模糊,如形成每6記錄構成輸入矩陣進行輸入的方式進行數據輸入管理。且在數據輸入時,以每一條記錄作為首記錄均產生后續6記錄的輸入矩陣,確保數據分析過程存在足夠的冗余。

圖5 邏輯圖矩陣輸入及模糊示意圖
圖5中,將每記錄數據通過輸入模塊A1、A2、A3、A4、A5、A6共6個模塊進行初步整合,各形成一個雙精度變量輸出,該6個雙精度變量輸入到列輸入模塊中,形成1個雙精度變量,輸入到B0模塊中,進行進一步整合后,輸出1個雙精度變量作為上述輸入的參考值。將每字段數據的6個輸入量分別輸入到輸入模塊B1、B2、B3、B4、B5、B6、B7中,與上述B0一起,形成8個雙精度變量,輸入到輸入模塊中,形成1個雙精度變量,此變量輸入到神經網絡中。
而對用戶訪問行為畫像矩陣的輸入,也采用該模式,其字段量共11個,而輸入的記錄量同樣為6個,所以,其輸入模塊包括A1、A2、A3、A4、A5、A6及B1、B2、B3、B4、B5、B6、B7、B8、B9、B10、B11,結合A1、A2、A3、A4、A5、A6形成的B0模塊,輸入模塊包括12個雙精度變量輸入。
模糊矩陣的每個模塊均為一個小型的基于多項式函數回歸算法的神經網絡,隱藏層3層,分別為11節點、7節點、3節點,所有節點均采用多項式函數進行管理,其輸出函數寫作式(1):
Y=∑i∑6j=0AjXji
(1)
其中,Xi為第i個輸入變量,Aj為多項式階數為j時的待回歸變量,Y為輸出變量。
模糊矩陣輸出變量為1個雙精度變量Y,通過判斷該雙精度變量Y的發生值和變化幅度,得到最終的網絡安全態勢評價結果。采用二維模糊矩陣的方式對該變量的輸出結果進行解模糊并形成輸出值,輸出值共5個,分別為無風險(0)、藍色預警(1)、黃色預警(2)、橙色預警(3)、紅色預警(4)。模糊矩陣的構建方式如表3所示。

表3 解模糊過程的模糊矩陣構建策略
其中,上述的模糊矩陣輸入值為1個雙精度變量,在進入模糊矩陣前,使用四舍五入算法將其整理為小數點后3位的模式,以方便模糊矩陣的計算。
通過前文分析,該神經網絡包含2個雙精度變量輸入量和1個雙精度變量輸出量,但該神經網絡應具備一定的卷積特性,以充分融合數據的時域特征。故該神經網絡的設計,如圖6所示。

圖6 神經網絡設計圖
圖6中,共設計了4個神經網絡模塊,其中I1、I2、I3模塊構成數據卷積,O模塊整合I1、I2、I3模塊的輸出數據,構成1個Double輸出變量。I1、I2、I3按照5層隱藏層設計,分別為3節點、11節點、23節點、7節點、3節點,均采用多項式函數進行節點設計,基函數如式(1)。O模塊按照3層隱藏層設計,分別為3節點、7節點、3節點,其中前2層使用對數函數進行設計:
Y=∑(A·logeXi+B)
(2)
其中,Xi為輸入變量,A、B為待回歸變量。
e為自然常數:
e=limNξ→∞1+1nN
(3)
本文算法中,e取近似值2.718 28。
第3層采用二值化函數進行設計:
Y=∑1A·eXi+B
(4)
其中,Xi為輸入變量,A、B為待回歸變量,e取近似值2.718 28。
本文個案中,服務器集群規模為1 800臺,系統配置5T規模的數據倉庫主機6臺,維護一個20T的基于D-Base和HaDoop的日志服務器,計算中心主機采用2個主頻2.4 GHz的4核心CPU,分別配16 GByte的1 333 MHz動態存儲內存RAM,6個主頻2.0 GHz的8核心GPU,分別配8 GByte的1 333 MHz動態存儲內存RAM。計算中心主機共配置6臺。對網絡進行攻擊并觀察系統對網絡安全態勢感知的預警結果,測試結果如表4所示。

表4 網絡安全態勢感知測試結果表
可見網絡安全態勢感知算法中,對測試中的160次攻擊均做出了預警,預警率100%。其中DDoS飽和攻擊發出紅色預警24次,占60.0%;MAC欺騙攻擊發出紅色預警31次,占77.5%;數據注入攻擊發出紅色預警21次,占52.5%;肉機搭建攻擊發出紅色預警19次,占47.5%。但4輪次攻擊中,DDoS飽和攻擊和MAC欺騙攻擊屬于鏈路層或物理層的攻擊,響應時間均小于100 ms,數據注入攻擊和肉機搭建攻擊屬于應用層攻擊,響應時間均大于1 000 ms。
本文通過對機房局端網絡安全信息的采集模式優化,構建機房安全態勢數據矩陣,并對矩陣數據進行同構化處理后,輸入模糊神經元網絡進行數據分析,最終對機房安全態勢做出預警評價。在系統測試中,共進行包含DDoS飽和攻擊、MAC欺騙攻擊、數據注入攻擊、肉機搭建攻擊等4種共160次攻擊,系統均做出預警。所以,本文認為該機房網絡安全態勢感知系統對機房安全管理有積極意義。