


作者簡介:王可陽(1996— ),女,吉林長春人,助教,碩士;研究方向:大數據與云計算。
摘要:隨著信息技術的快速發展,網絡環境變得更為復雜,網絡攻擊手段也越來越多,網絡空間的安全性就更為重要。在此背景下,網絡安全態勢感知技術應運而生,成為評估網絡安全現狀,洞察網絡安全風險,預測網絡未來發展的關鍵技術。研究網絡安全態勢感知系統可以提高網絡的監控能力、應急響應能力等,文章分析了當前網絡安全態勢感知模型和網絡安全態勢指標,采用雙向LSTM網絡安全預測模型,并用貝葉斯優化方法確定模型的超參數,從而提高了網絡安全態勢預測模型精度與效率。
關鍵詞:網絡安全態勢感知;網絡安全態勢預測;LSTM模型
中圖分類號:TN915 文獻標志碼:A
0 引言
隨著網絡的日益發展,互聯網用戶數量攀升,網絡技術日新月異,安全問題層出不窮。為了保障網絡環境的安全,研究人員在網絡安全方面進行了大量的研究,采用多種技術防護網絡安全,但是這些技術都是采用被動的方式來防護網絡攻擊,網絡管理人員要從被動防護轉換成主動防御,就需要采用網絡安全態勢感知技術。網絡安全態勢感知系統可以收集影響網絡安全的相關因素,并對其進行分析、處理,從而來推斷未來網絡變化趨勢,可以幫助網絡管理員預測網絡發展趨勢,及時做出相關的對策來進行預防,因此,網絡安全態勢感知系統有著極為重要的研究意義。
1 網絡安全態勢感知概述
態勢是一個全局的概念,主要體現系統與系統對象之間的關系。感知是對系統數據進行收集、處理、分析等操作。態勢感知(Situation Awareness)指的是在一定的時空范圍內,認知、理解環境因素,并對未來發展趨勢進行預測。1999年,Tim Bass將態勢感知引入網絡安全,網絡安全態勢感知就此誕生。現在學術界對于網絡安全態勢感知還沒有一個明確統一的定義,研究人員認為網絡安全態勢感知就是在網絡環境下,提取影響網絡安全態勢變化的安全因素,對其進行處理、分析,并預測網絡安全發展趨勢。因此,網絡安全態勢感知是一個宏觀的概念,強調的是網絡整體狀態和整體的發展趨勢[1]。實際上,它融合了多元素數據,采用人工智能與大數據技術,深入挖掘數據,并對其進行分析處理,然后將預測的網絡安全狀況提供給網絡管理人員。網絡管理人員可以直觀地了解網絡環境下存在的威脅和風險,并及時采取相關措施進行防范。
2 網絡安全態勢感知關鍵技術分析
現階段,網絡安全態勢感知技術更加整體化、自動化,可以及時地發現網絡環境中存在的安全隱患,有針對性地制定處理方案。網絡安全態勢感知技術就是采集網絡安全要素信息,然后對其進行處理,提取安全態勢要素特征,再進行評估和預測。這就需要使用到數據融合技術、數據挖掘技術、特征提取技術和態勢預測技術[2]。
數據融合技術是網絡安全態勢感知的基礎,網絡復雜化,數據的來源與種類非常多,不同的數據來源,帶來不同的數據類型,而網絡安全態勢的判斷需要多種類型的數據,這就需要采用數據融合技術對這些數據進行統一化融合處理,為網絡安全態勢感知提供精準、全面的數據支持。數據挖掘技術是數據融合技術的進一步操作,在得到統一化的數據后,可以對這些數據進行篩選,借助人工智能、大數據技術對海量數據進行挖掘,找出有關聯的數據,從而來預測相應的結果。這是一個非常有用的技術手段,發現數據與數據之間的關聯關系,找出暗藏的重要信息,可以幫助網絡管理人員及時發現網絡環境中隱藏的安全威脅。特征提取技術就是在機器學習、模式識別和圖像處理中,從初始的一組數據開始,建立提供信息和特征,促進后續的泛化步驟。這里的特征提取就是將數據中的多元化數據,比如文本數據、二進制數據、流數據等,通過相應的技術和方法,提取相關特征供機器學習算法來使用。這些數值特征可以很好地反映出當前的網絡態勢情況,需要注意的是,網絡安全態勢特征提取效率與網絡安全態勢感知評估與預測的結果息息相關,特征提取越好,其結果就更為準確。在網絡安全態勢感知中,網絡攻擊時間、攻擊手段與攻擊目標都是隨機的,網絡安全態勢變化是非常復雜的非線性過程,使用簡單的線性預測模型無法滿足當前的需要,需要使用預測模型來進行預測。
3 基于機器學習的網絡安全態勢感知系統研究
網絡安全態勢感知系統構建主要分為4步:第一,態勢感知模型;第二,構建指標體系;第三,網絡態勢評估;第四,網絡態勢預測。
3.1 態勢感知模型
模型是網絡安全態勢感知的重要研究內容之一,也是構建網絡安全態勢感知系統的基礎[3]。網絡安全態勢感知模型對于網絡安全態勢感知系統的構造是非常重要的,現階段,根據網絡環境的不同,有針對性的網絡感知模型。安全態勢感知模型分為3層:第一層,態勢提取,目的是獲取網絡系統的配置信息、運行狀態、流量數據等與網絡安全相關的因素;第二層,態勢評估,這是態勢感知技術的核心,對獲取的數據進行分析、理解,然后借助相關模型來評估網絡運行的安全狀態;第三層,態勢預測,根據之前的運行情況,預測未來的網絡安全態勢。其模型如圖1所示。
態勢感知模型指的是態勢感知在一定時間范圍內對環境中安全因素進行感知和理解,并對未來的網絡趨勢進行預測。態勢感知模型的核心就是態勢感知部分,信息的來源主要是依賴網絡安全相關設備或 者是自主開發相關軟件等。態勢感知模型主要由數據源、人機接口、數據庫管理系統、數據預處理、數據融合、態勢評估、態勢預測、過程處理等組成。這里采用的態勢感知模型為LSTM模型,如圖2所示。
LSTM預測模型有4層:輸入層、全連接層、雙向LSTM層和輸出層。輸入層是將網絡安全態勢前面的態勢值輸入預測模型中;全連接層的作用是對雙向LTSM層輸出的非線性特征進行加權處理;雙向LSTM層的作用是對數據進行計算,并向輸出層輸出結果;輸出層輸出模型預測的網絡安全態勢值。
3.2 構建指標體系
合理的網絡安全態勢評估指標體系是網絡安全態勢評估準確的基礎,如果指標體系過大,就會增加評估的計算量,影響評估的性能;指標體系過小,就會導致評估指標不完整,結果不準確。因此,在構建指標體系的時候,要遵循系統性原則、近似性原則、層次性原則和易操作原則,構建科學合理的指標體系,才能保證全面、準確的評估結果。這里采用的評價指標是平均絕對誤差(MAE)、均方誤差(MSE)和均方根誤差(RMSE)。
其中,xt是t時刻網絡安全態勢真實值;xt是t時刻網絡安全態勢預測值;N是樣本總數。
3.3 利用機器學習技術來訓練模型
訓練模型的技術有很多,最為出色的是BP神經網絡,這里選用BP神經網絡對模型進行訓練。反向誤差(BP)神經網絡是對人類大腦和智能的探索,是一種模仿人腦結構和功能的信息處理系統,可以快速地適應環境,學習處理外界事物。神經網絡用處廣泛,主要用在預測、分類和聚類中,需要利用歷史數據來訓練神經網絡,然后再對其分類、提取并進行預測。一般來說,BP神經網絡分為輸入層、隱藏層和輸出層3個部分,是從輸入層輸入訓練數據,這個訓練數據是網絡安全特征向量,再根據相應的計算公式進行運算,得出一個激勵函數,進行轉換后,形成一個計算結果,對比實際結果與計算結果,得出誤差,然后將誤差反向傳遞,及時調整參與計算的權重值以及偏置值。多次重復上述計算過程,直到二者數值達到相應的誤差范圍內為止。
這樣就完成了網絡安全態勢預測模型的實時更新,在網絡訓練過程中,可以使得網絡結構更加穩定。
3.4 利用機器學習技術預測網絡安全態勢
網絡安全態勢預測主要是根據網絡環境的歷史狀態,對其進行預測,幫助網絡管理人員及時了解網絡的安全狀況,化被動為主動,及時采取相應措施解決網絡中的安全威脅。這里采用基于雙向LSTM的網絡模型預測網絡安全態勢,利用前t時刻的態勢值x1,x2…xt,預測后k個時刻的態勢值xt+1,xt+2…xt+k。當k=1,就是預測下一時刻的態勢值。為了提高預測的精準度,可以采用下面相關技術對態勢預測相關的因素進行優化。
在使用基于雙向LSTM的網絡安全態勢預測模型的時候,為了提高模型的收斂速度,避免過度擬合的問題,模型訓練完成后,還需要確定超參數,可以使用貝葉斯優化對模型參數進行全局優化。貝葉斯優化是貝葉斯全局優化算法,其流傳就是采用近似逼近方法,利用函數來選擇樣本點進行計算,直到收斂為止,從而優化超參數。優化的超參數包括:輸入層、雙向LSTM層神經元節點個數、batch_size和dropout率。優化后的參數值如表1所示。
根據上表可知,輸入層時序是3,隱藏層雙向LSTM是一層包含32個神經單元,單次傳遞給程序用以訓練的參數個數(batch_size)為32,dropout率是神經網絡模型的正則化方法,取值范圍為0.2~0.5,這里給定的概率是20%,即0.2。
超參數優化完畢后,需要初始化權值。權值初始化也是機器學習領域的關鍵,直接影響著神經網絡的收斂性能。這是由于初始化權值與網絡模型結構的參數傳遞息息相關,如果權值過大,數據就會喪失自身的意義,權值太小,就會影響數據在傳遞過程中對后續節點的影響,對整個神經網絡來說是非常不利的。這就需要使用Xavier初始化權值,根據對比發現,使用Xavier初始化權值的迭代次數更少,模型收斂速度更快。
Xavier初始化權值與節點個數的計算公式為:
其中,fanin是神經網絡輸入節點;fanout是神經網絡輸出節點;Uniform是均勻隨機取值。
神經網絡過度擬合可以提高預測的精準度,然而過度擬合又會降低模型的泛化能力,這就需要使用Dropout技術,可以有效避免神經網絡過度擬合,提高模型的泛化能力。如果原模型過度擬合,Dropout技術也可以提升模型性能。由上述內容可知,神經網絡在訓練數據的時候會將輸入的數據通過網絡向前傳播,再將誤差進行反向傳輸。Dropout技術的核心是刪除隱藏層不工作的節點,改變模型的本身,依舊保留完整的訓練模型。在更新模型的時候,這些節點就會被隱藏不更新,但是在進行數據計算的時候,這些節點也會使用,保證數據完整性。Dropout技術減少神經元之間共同適應的復雜性,即使在個體不完整的情況下,也可以保證神經網絡的精確計算。
在對模型、超參數等信息進行優化完畢后,就可以借助上述的數據進行態勢預測,其流程如下。
(1)將采集到的數據進行預處理。
(2)使用貝葉斯優化。
(3)確定使用基于雙向LSTM的態勢預測模型。
(4)訓練模型。
(5)判斷是否達到迭代次數,當沒有達到最大迭代次數就繼續進行計算輸出。
(6)達到迭代次數就輸出預測結果。
4 結語
機器學習技術這幾年日趨成熟,在網絡安全態勢感知系統中應用機器學習算法進行評估和預測,可以利用機器自主學習能力對數據進行訓練,借助相關模型對其預測,提高網絡安全態勢評估和預測效果,保障網絡環境的運行安全。
參考文獻
[1]錢國慶.基于機器學習的網絡安全態勢感知[D].成都:電子科技大學,2019.
[2]李營.基于機器學習的網絡安全態勢感知系統的研究與實現[D].北京:北京郵電大學,2020.
[3]李欣濤.基于機器學習的網絡安全態勢感知系統設計與實現[D].北京:北京郵電大學,2020.
(編輯 沈 強)
Abstract: With the rapid development of information technology, the network environment has become more complex, and there are more and more methods of network attacks, making the security of the cyberspace even more important. In this context, network security situational awareness technology has emerged as a key technology for assessing the current state of network security, insight into network security risks, and predicting the future development of the network. The research on network security situation awareness system can improve the network monitoring ability, emergency response ability, etc. This paper analyzes the current network security situation awareness model and network security situation indicators, uses two-way LSTM network security prediction model, and uses Bayesian optimization method to determine the models hyperparameter, thus improving the accuracy and efficiency of network security situation prediction model.
Key words: network security situation awareness; network security situation prediction; LSTM model