郭暢
(沈陽現代制造服務學校,遼寧 沈陽 110148)
當下,計算機網絡信息普遍存在著黑客攻擊與篡改、病毒或木馬程序入侵與竊取等風險,從而給國家、企業或個人帶來威脅與損失。強化計算機網絡信息安全,對于民航、鐵路、電力、氣象等信息化產業而言,既是自身安全發展的需要,而且也關系著經濟社會安全。因此,國家和企業均十分重視計算機網絡信息防護。從防護方法運用看,多數運用貝葉斯分類算法(BC),但此種防護方法運用領域的廣度遠不及大數據聚類算法(CALD)。大數據聚類算法不僅應用領域廣,而且其技術成果相對較為成熟,但在網絡信息安全防護的研究與運用中,該方法也存在著對目標屬性的非線性關系的揭示不夠明晰,造成一些問題來源不夠確定。這就需要準確應用大數據聚類算法的反向傳播模型,精準計算網絡中的各中復雜關系,從而提高網絡信息安全分析的科學性。本文以民航空管部門值班記錄數據為樣本,對計算機網絡數據進行仿真與測試,以期為防護計算機網絡信息安全提供技術支持。
作為數據挖掘的一個主要概念,聚類意即根據某一標準,把數據集分割成不同的類或簇,使得同一類或同一簇的數據彼此足夠相似、非同一類或非同一簇的數據非足夠相,有助于分析者發現數據中隱藏的邏輯關系與形勢。該算法包括單機與多機聚類算法,前者又分為傳統聚類算法(基于分區、分層、密度、網絡、模型的聚類算法)、抽樣聚類算法(基于隨機選擇、層次方法、大型數據庫聚類算法)和降維聚類算法,后者又分為并行聚類算法(劃分數據并將其分布于不同機器上)以及基于Map Reduce 聚類算法如圖1所示。這些算法既有優點,也有其缺點,如傳統聚類算法雖然實現簡單,但難以處理數量較大的數據;抽樣聚類算法雖然時空開銷較小,但聚類的精確性卻容易受到抽樣質量的影響;降維聚類算法雖然能夠減少數據集、優化處理開銷、高效且可擴展,但難以為高維數據集提供有效解決方案;并行聚類算法雖然高效,但算法卻不容易實現;基于Map Reduce 聚類算法雖然具有很強的擴展性,但軟、硬件資源消耗較多,難以為選擇、提取等常用操作提供原語,且基于Map Reduce 的每個查詢難以實現。

圖1 大數據聚類算法分類
這需要在大數據聚類算法運用中強化其合理性,充分發揮其優點而規避其缺點。隨著聚類技術的發展,大數據聚類算法已廣泛運用于市場營銷、金融、通信、農業、醫療、移動網絡等領域,為這些領域的計算機網絡信息安全防護提供了技術支撐與保障。比如,在金融領域,基于上市企業的盈利、償債能力指標等進行聚類試驗,可以獲得股票板塊分類,為投資者提供借鑒;在移動通信領域,根據原始數據處理,通過聚類算法挖掘用戶的關注熱點及其行為模式,從而為用戶提供精確的位置服務等。
計算機網絡信息存在的風險問題,主要包括網絡安全風險,如網絡系統存在漏洞與缺陷、病毒與黑客攻擊、惡意代碼或惡意設備植入系統等;計算機系統風險,如相關設備配置不盡合理、運行不盡穩定、功能不盡完善,加之系統設計不夠科學、管理不夠規范,容易計算機病毒入侵、傳染和擴散,從而造成計算機主板損壞、數據丟失、工作效率下降;信息數據風險,如數據泄露、數據篡改、數據濫用、違規傳輸、非法訪問、流量異常等。大數據聚類算法運用的基本思路,是通過構建評估模型,分析計算機網絡系統弱點及其安全策略的抵御攻擊能力,針對系統、漏洞、攻擊行為及安全策略進行綜合評估,分析和評估這些要素的相互作用及影響,從而形成對計算機網絡信息安全防護的綜合評估。
在基于大數據聚類算法的計算機網絡信息安全防護中,對于網絡權值的調節,該算法一般運用后向傳播方式,其中算法模型結構具體包括3 層,即輸入層、隱含層及輸出層如圖2所示,其中在隱含層中又可能存在多層結構。

圖2 大數據聚類算法拓撲圖
在該結構模型的運用中,輸入網絡中的向量,經過隱含層的處理后輸入向量,再經過輸出層處理后輸出向量,然后獲得期望輸出向量。在此過程中,一方面應注意輸入層同隱含層之間的權值矩陣,可將其表示為,其中列向量V表示的是第個信息相匹配的權向量;另一方面應注意輸出層與隱含層之間的權值矩陣,可將其表示為,其中列向量W表示的是第個信息能夠實現的匹配性權向量。

以民航空管部門值班記錄數據為樣本,對計算機網絡數據進行仿真與測試。按照一定規則,筆者將安全防護策略的涉密信息安全分為五個等級如表1所示。基于大數據聚類算法,在一定條件下,對計算機網絡信息防護策略進行模擬仿真,并運用相關數據對其進行測試。在大數據聚類算法設計與運用中,考慮防護策略體系包含廣域網、局域網等多個子系統,且網絡測試性能可能受到隱含層信息數量的影響,因此把12 個實際計算機網絡設備作為分析對象,對參數進行設定。其中,最小訓練誤差goal、最大訓練步數epochs、show 的取值分別為0.01、1 000、20,剩余參數則采取默認取值。其中,goal 值受到設備的正常率、完全好兩個最小誤差值的共同影響。

表1 安全及涉密信息安全等級一覽
以12 組計算機網絡的實際運行數據為測試對象和分析樣本,實驗測試結果如表2所示。

表2 樣本測試結果

續表
在驗證文中的網絡性能方面,運用函數Trainlm 進行處理和驗證,將目標值設定為0.01,通過3步訓練,結果為0.001 201 54。這一結果在設計誤差范圍內,達到降低錯誤率的預期目的。從圖3可以看出各種錯誤率相對應的實際效果。

圖3 計算機網絡錯誤率
在驗證上述訓練方法獲得的網絡性能,筆者運用Postreg 函數對各項數據進行非線性回歸分析,由此獲得效果最優的結果。基于擬合度=0.999,非線性回歸分析結果如圖4所示。

圖4 非線性回歸分析所得擬合曲線
在此基礎上,運用仿真輸出與目標兩種向量,進行線性回歸分析,并以相關系數作為線性回歸分析的依據。在網絡性能最優條件下,斜率與截距分別為1、0,其擬合度為1,這表明該方法較適用于計算機網絡安全的非線性特征。
基于大數據聚類算法,探求計算機網絡信息安全防護方法,并通過模擬仿真對此進行驗證。結果表明,所提方法適用于計算機網絡安全的非線性特征,能夠準確反映計算機網絡安全運行的狀態,從而為防護計算機網絡信息安全提供了有效的思路與保障。誠然,大數據聚類算法的運用,并不能完全解決計算機網絡信息安全防護問題,應在此基礎上,一方面,強化和完善計算機網絡信息安全防御,如建立計算機網絡信息安全檢測系統、安全反應機制,定期對其安全性進行檢查,以降低其安全問題發生的概率;另一方面,在內網與外網之間構建防火墻,提高其防火等級,為計算機網絡運行提供有效保障。