張寶飛
計算機網絡已經成為當前和今后支撐并引領經濟社會發展的一股重要力量,它使社會生產和生活方式發生了巨大變革,激發了市場活力,為我國的發展和進步注入了新動能。但與此同時,我們也要清醒地認識到,隨著計算機網絡尤其是移動互聯網的普及應用,網絡世界中每天都會誕生海量的信息數據,這些數據的形態各異、來源復雜,甚至摻雜了不少危及個人隱私和國家安全的信息,再加上病毒、木馬以及黑客的肆虐影響,網絡安全問題日益嚴重,對網絡安全分析提出了更高的要求。
大數據技術作為一種新興的信息處理手段,它在處理大規模、多元化、結構形態各異的信息時表現出了得天獨厚的優勢,而且大數據技術目前還處于不斷發展完善的階段中,技術能力還在不斷地升級改進,這些都決定了將其應用到網絡安全分析領域正當其時。
網絡安全問題涉及的因素眾多,牽扯到與網絡運行相關的所有流程節點,要求對網絡世界中產生的各種海量數據進行廣泛采集和分析。但傳統的數據分析手段無法達成這一要求,一般只是圍繞某一具體問題進行資料的收集和分析,這就制約了網絡安全分析結果的可靠性,使工作價值無法得到保障。
大數據技術的誕生就為了解決海量、非結構化數據的處理問題,利用該技術可以對網絡世界中產生的海量信息進行廣泛采集和處理,這顯然極大地豐富了分析資料,據此得到的結論也更加可靠。
與大數據技術相比,傳統的數據處理手段在處理大規模且結構形態各異的復雜信息時,數據的分析處理效率偏低。而網絡安全分析立足于互聯網領域,網絡世界中每天都會產生與安全相關的海量信息,這就造成了過去的數據處理技術呈現出了“小馬拉大車”的不利局面,為工作效率的提升造成了阻礙。基于此,有必要強化大數據技術在網絡安全分析領域的應用,尤其要強化基于大數據技術的信息分析平臺的構建和使用,通過對采集到的海量異構數據進行分布式存儲和并行計算,全面提升數據的處理效率。
信息數據的采集可以通過對現有網絡設施的小幅改動實現,而信息數據的處理則可以交由云端進行。因為數據處理任務主要放在云端,本地不需要部署海量的計算分析資源,從而有效降低了運行成本。
相對于傳統數據處理手段大多圍繞一個具體問題進行有限量數據的采集和分析,大數據技術在數據吞吐方面具有海量的特性,它能夠廣泛收集與當前網絡安全相關的各種信息,并能從不同層級、不同角度對采集的海量異構數據進行耦合分析,這樣得到的結論顯然比從單一角度、圍繞一個具體問題得到的結果更加準確可靠。
在網絡安全分析中,利用大數據技術可以對網絡運行的日志數據和流量數據進行整合,并通過綜合采用分布式存儲和集中存儲技術,實現對海量信息數據的聚集管理;在此基礎上,進一步應用并行計算、數據挖掘等技術手段,就可以及時觀測到涉及安全相關的敏感信息;接著,通過多種層級、不同角度的數據耦合計算,對與敏感信息關聯的安全問題進行可靠性驗證,為安全問題的及時發現與處理提供依據。顯而易見,通過應用大數據技術,網絡安全問題的主動識別和處理能力將得到有效加強。具體應用流程如下。
一方面,通過應用分布式采集和存儲技術,加強對網絡運行日志數據的收集工作;另一方面,可以對當前的網絡設施進行改造,對涉及安全運行的一些關鍵網絡節點,應重點提升監測能力。數據的采集是大數據產生的前提和基礎,其覆蓋是否全面、信息量是否足夠豐富,將對最終的網絡安全分析結果產生重要影響。
利用大數據技術收集到的信息具有體量規模龐大、結構形態各異、數據來源復雜的特點,如果不加以甄別處理,就會使數據分析工作無從下手,增加了數據處理的盲目性。此時就需要依據數據的結構形式,構建分門別類的信息預加工庫。針對特定數據,調用相應的數據預加工策略,從而使采集到的數據由體量龐大、混亂無序、價值隱性向規模較小、有序、價值顯性的方向轉變。
數據經過預加工后,會被大數據處理模型識別,從而進入數據處理階段。基于大數據技術的網絡安全分析模型是建立在分布式計算、并行計算以及信息融合的基礎之上。分布式計算可以實現對采集數據的就近分析處理,與分布式存儲聯合應用可有效提升數據處理效率,并降低大數據處理中心的業務壓力;并行計算可以保證信息數據的聚集分類與計算處理同步進行,提升數據處理的實時性;信息融合技術主要瞄準采集數據結構形態各異的特點,通過信息融合與耦合計算,可以挖掘到信息數據的本質特征,為挖掘信息安全的本質特征并加以驗證提供了有效手段。