魏建立
(北京華科軟科技有限公司 北京市 100044)
網絡安全攻擊在日常生活層面和國家政治層面都比較常見,新聞媒體經常爆料哪個國家的哪些部門在哪些時間段遭受到不明目標的入侵。例如FireEye在2020年12月透露目前多個國家部門、企業、機構正在遭受網絡安全攻擊,黑客通過木馬滲透目標網絡,通過網絡監控管理軟件控制目標簽名證書,這樣黑客就可以直接對目標用戶的賬戶進行控制,一旦入侵目標的公司簽名證書被黑客獲取則表示目標用戶的賬號已經被完全控制。如果沒有網絡安全攻擊檢測系統可能人們使用的電腦在不知情的情況下淪為黑客的肉雞,可見網絡安全攻擊系統的研發和更新非常重要,而目前網絡安全攻擊檢測研發的方向是智能化、可視化。
信息化、智能化、數字化已經潛移默化地成為當前時代的標志,一方面互聯網帶給了我們生活和工作上的便利,另一方面互聯網又將我們的隱私信息置于隨時可能暴露的網絡之中。在此背景下,網絡安全防護技術人員開始研發更加智能化的網絡安全攻擊檢測系統,但是目前網絡安全攻擊檢測技術發展仍然沒有明確的方向,研發人員必須在此背景下積極從不同思路研發智能網絡安全攻擊檢測系統,哪家企業能先研發出智能化水平更高的網絡安全攻擊系統,該企業就在這個信息化、智能化、數字化時代搶占先機,從而提高互聯網信息數據交互過程中的安全性。
智能化網絡安全攻擊檢測平臺應該具備分析網絡風險因素、感知網絡風險因素以及預測防范網絡風險因素的能力,因此可以基于數據展示層、數據分析層、數據抽取層、數據庫四個層面搭建智能化網絡安全攻擊檢測平臺框架,具體框架圖如圖1所示。
根據圖1可知:智能化網絡安全攻擊檢測平臺框架先通過業務系統和物聯網輸入數據,然后再分別經過數據庫、數據抽取層、數據分析層、數據展示層處理網絡數據,最后才能辨識其中存在的網絡安全風險。其中數據庫包括告警數據、日志數據、流量數據等內容;數據抽取層主要將使用數據抽取模型將日志數據和流量數據抽取到數據分析層的大數據分析中,或者直接將告警數據抽取到數據分析層的威脅態勢分析中;而數據分析層中大數據分析通過置信傳播和邏輯回歸將數據傳輸到展示層中,而威脅態勢分析直接將分析結果傳輸到數據展示層;數據展示層主要分為用戶管理、運維管理及可視化展示等模塊。
網絡安全攻擊檢測平臺需要盡可能檢測出更多數據,但是網絡安全檢測數據包括漏洞、補丁、惡意軟件等數據,基于分詞方法建立數據抽取模型的智能化水平不足,因此必須從算法角度進行更新,確保網絡安全攻擊檢測平臺數據抽取模型能夠智能化辨識各類網絡安全檢測數據。其中基于模型特征模板、卷積神經網絡算法、隨機場算法構建的智能化網絡安全攻擊檢測平臺數據抽取模型如圖2所示。

圖1:智能化網絡安全攻擊檢測平臺框架
根據圖2可知:智能化網絡安全攻擊檢測平臺數據抽取模型先從數據庫中抽取漏洞、補丁、惡意軟件等網絡安全檢測數據,然后經過模型特征模板和卷積神經網絡算法(CNN算法)可以得到對應特征向量,而特征向量經過隨機場算法可以抽取最優特征向量序列,最后智能化網絡安全攻擊檢測平臺數據抽取模型輸出網絡安全檢測數據。

圖2:智能化網絡安全攻擊檢測平臺數據抽取模型
3.1.1 模型特征模板
智能化網絡安全攻擊檢測平臺數據抽取模型采用模型特征模板則首先需要收集大量的網絡安全檢測數據,通過提取數據的特征向量建立不同類型網絡安全檢測數據的模板,專業在識別新的網絡安全檢測數據時即可直接按照模板特征向量判斷數據類型。但是模型特征模板在建立模板窗口過程中容易出現窗口過大問題,而窗口過大會導致過擬合現象出現,此時模板窗口提取特征向量的效率大大降低。因此模板特征模板想要得到合理應用必須調整模板窗口的大小,這樣才能得到所有特征向量的總序列。網絡安全檢測數據特征與網絡安全檢測數據字段、特征數據、數據信息字符的相對位置有關,而網絡安全檢測數據特征信息可以向特征向量序列轉換,因此基于模型特征模板可以得到特征向量的總序列。
3.1.2 卷積神經網絡算法
智能化網絡安全攻擊檢測平臺應用卷積神經網絡算法可以抽取數據的字符級特征,該算法的優點是可以對細粒度更高級別的特征進行處理,而且卷積神經網絡算法本身自身在數據處理靈活性方面具有較好表現。卷積神經網絡算法下數據抽取模型特征提取首先需要初始化數據、輸入字符向量、設置參數,在保證模型特征提取速率的情況下盡量減少內存消耗;然后才能構建卷積神經網絡模型,該模型由卷積層、池化層、全連接層、輸出層組成;最后通過開始訓練、模型測試、內存優化、字符特征向量提取等流程輸出網絡安全檢測數據的特征信息。
3.1.3 隨機場算法
智能化網絡安全攻擊檢測平臺應用隨機場算法可以獨立提取數據特征向量,而基于模型特征模板和卷積神經網絡算法提出網絡安全檢測數據特征向量無法做到這一點,因此隨機場算法可以與模型特征模板、卷積神經網絡算法形成互補。鏈式隨機場算法可以根據整體特征向量的標簽順序的概率計算出特征向量損失值,首先數據抽取模型輸入網絡安全檢測數據標簽特征序列,然后使用模型特征模板根據特征向量在不同時刻的標簽權重計算出權重值、權重向量和特征向量的總序列、權重矩陣和輸出層數據特征向量,最后才能得到最有標簽的網絡安全檢測數據結果。
智能化網絡安全攻擊檢測平臺數據分析應該采用邏輯回歸下的網絡安全分析方法,該方法采用二元分類處理網絡安全檢測數據,其邏輯回歸模型需要根據網絡安全檢測數據的特征序列對應類集合和預訂類幾何確定,然后根據網絡安全檢測數據特征序列的權重系數以及特征向量的攻擊概率即可得到抽取數據的二元分類結果。為了減少二元分類結果的分析偏差,可以采用置信傳播判斷網絡安全檢測數據的分析結果可信度。置信傳播首先需要構建智能化網絡安全攻擊檢測貝葉斯網絡,然后根據樣本攻擊特征概率和條件概率更新貝葉斯網絡節點并得出置信度,最后根據置信度判斷二元平衡分類結果是否可行,如果可信則先更新數據庫再輸出網絡安全檢測數據的數據分析結果,如果不可信則直接輸出網絡安全檢測數據的數據分析結果。
智能化網絡安全攻擊檢測平臺應該同時使用模型特征模板、卷積神經網絡算法、隨機場算法搭建數據抽取模型,并且使用邏輯回歸和置信傳播的網絡安全分析方法提高樣本分析的精確程度。
智能化網絡安全攻擊檢測中數據抽取實驗在CentOS6.8 64位操作系統、英特爾22納米工藝、8核心十六線程E5-2640v2CPU(主頻2.0GHz)、16G內存、1T硬盤等硬件環境下進行,而實驗軟件在Win10操作系統下進行操作。
智能化網絡安全攻擊檢測中數據抽取實驗共使用六個服務器與以上硬件設備構成的主機一同構建智能化網絡安全攻擊檢測平臺,服務器網絡安全檢測數據全部來自于用戶服務器,根據抽取的網絡安全檢測數據評估該數據是否存在惡意入侵或者攻擊客戶服務器的可能。實驗使用的網絡安全檢測數據樣本包括反向惡意代碼、僵尸網絡、Xing GuoQuan等惡意軟件,其中反向惡意代碼的執行空間為用戶空間,其特性為能夠與用戶服務器建立外方向連接;僵尸網絡的執行空間同樣為用戶空間,但是其特性為能夠與用戶服務器建立主從僵尸網絡連接;Xing GuoQuan惡意軟件的執行空間為內核空間,其特性為能夠在內核執行的過程中與用戶服務器建立外連接。
智能化網絡安全攻擊檢測中數據抽取采用基于模型特征模板、卷積神經網絡算法、隨機場算法構建的數據抽取模型,數據分析采用置信傳播模型和邏輯回歸網絡安全分析方法,實驗數據樣本從反向惡意代碼、僵尸網絡、Xing GuoQuan等惡意軟件中隨機選擇,對攻擊用戶服務器概率與真實值分布在0~2GB數據量之間的樣本進行分析對比,同時使用仿真軟件對數據量與攻擊概率和損失值之間關系進行分析。
根據實驗環境、數據樣本和實驗內容可以得到網絡安全檢測數據量與攻擊概率與損失值之間的關系。網絡安全檢測數據量從0GB增加到2GB時,置信傳播模型下攻擊概率在攻擊概率真實值上下波動,真實值攻擊概率為84%,置信傳播模型攻擊概率在82~86%之間;邏輯回歸網絡安全分析方法的攻擊概率同樣在攻擊概率真實值上下波動,但是波動頻率較置信傳播模型更大,網絡安全分析方法的攻擊頻率在77~88%之間;網絡安全分析方法的網絡安全檢測數據損失值比貝葉斯分類法低,可見網絡安全分析方法更加智能。
綜上所述,智能化網絡安全攻擊檢測中數據抽取與分析首先應該構建數據抽取模型,而數據抽取模型可以同時應用模型特征模板、卷積神經網絡算法、隨機場算法搭建,三種算法結合可以彌補網絡安全攻擊檢測數據抽取靈活性、檢測效率、檢測量等方面的缺點,合理使用不同算法才能提高網絡安全攻擊檢測的智能化水平。而網絡安全攻擊檢測中數據分析可以采用邏輯回歸和置信傳播得到網絡安全檢測數據的分析結果,這種判斷方式可以減小判斷結果偏差。