崔玉禮 黃麗君
1 引言
網絡安全分析的數據隨著網絡架構的越來越復雜,來源越來越豐富,數量呈指數曲線增長,從TB的數量級邁向PB數量級,內容越來越細致,維度范圍越來越大;網絡設備的性能越來越強,發送數據的速度越來越快,安全信息的采集速度要求越來越高;網絡安全漏洞日益增多,影響范圍廣泛。除此以外,一些有組織、有預謀的高持續性攻擊行為十分猖獗,要求網絡安全維護時的分析安全信息的多種類和手段的多樣性。
2013年Gartner分析數據顯示,未來信息架構的發展趨勢以大數據技術為魁首,其最近一段時間在多個領域得到了發展和應用。大數據技術具有數據量大、速度快、種類多、價值密度底等特點,滿足于網絡安全數據要求的效率高、容量大、成本低等要求。
2 大數據技術在網絡安全分析中的應用
日志和流量是當前網絡安全分析的主要數據對象,資產、配置、漏洞、訪問、應用行為、用戶行為、業務行為、外部報告等作為關聯的輔助信息。將大數據技術引用進來,原理是將分散的日志與流量數據集中到一起,運用高效的采集、儲存、分析和檢索技術,提升網絡安全分析和處理的成效,縮短分析的時間。在使用信息關聯、階段性組合、場景關聯等手段進行分析,發現安全事件之間的關聯性,預測安全漏洞、高持續性攻擊和數據泄露等安全事件的發生,變被動防御為主動防御。
(1) 信息的采集。數據采集可以使用Chukwa等工具,使用分布采集的手段進行對于日志信息每秒數百找的采集;通過傳統的數據鏡像的采集方式,可以采集全流量數據。
(2)信息的存儲。面對繁雜的數據種類和各種各樣的應用方式,想要滿足各種分析需求的數據儲存,提升檢索與分析的速度,應采取不同的儲存方式來儲存不同類型的數據。
供檢索的原始安全數據,如日志信息、流量歷史數據等,可使用GBase、Hbase等列式存儲,其具有快速索引的特性,能夠快速響應數據檢索。
進行標準化處理后安全數據,可以根據Hahoop分布式進行其構架計算,把分析的數據置于計算節點上,使用Hive等進行腳本分析,挖掘與分析安全數據,完成統計報告和分析警告,再將結果存放于列式存儲,
需要進行實時分析的安全數據,可采取Storm、Spark等流式計算方法,把需要分析的數據置于各個計算節點,當實時數據流流經節點時系統自動進行分析,形成數據統計與安全警告,再把分析結果存放到流式存儲中。
(3)信息的檢索。安全數據的查詢與檢索可以使用以MapReduce為基礎的檢索架構,把數據查詢的請求主語各個分析節點進行處理,利用分布式的并行計算方法,將安全數據的檢索速度有效提升。
(4)數據的分析。實時數據分析可以利用Storm或者Spark等流式計算架構為基礎,聯合復雜事件處理技術和定制的電聯分析計算方法。采用以上方法對于實時分析數據內存、實時監控與關聯安全信息,能夠及時捕捉異常行為。非實時數據的分析可采取Hadoop架構,利用HDFS分布式存儲和MapReduce分布式計算,聯合數據聚合、數據挖掘、數據抽取等技術,離線統計風險、分析事態、尋找攻擊源。
(5)多源數據與多階段組合的關聯分析。大數據技術能夠有效提升存儲與分析的速率,使短時間內挖掘分析多源異構數據,關聯挖掘大規模系統的安全隱患、關聯不同階段的攻擊行為特征等可能性存在。例如,要分析僵尸網絡,不單單能夠結合流量同DNS的訪問特征,還可以將數據源進一步擴充與分析,將全分組數據集合、對溯源數據和莫管數據進行攻擊、深度關聯分析外界情報等信息。又例如,發現某個主機被攻擊或者存在漏洞,能夠關聯系統中的其他主機是否受到相同的攻擊或者存在相同的漏洞,使隱患及時被發現,提前做好防范準備。
3 基數大數據技術的網絡安全平臺建設
3.1 基于大數據的網絡安全平臺架構
此平臺由下至上分別為數據采集層、大數據存儲層、數據挖掘分析層、數據呈現層。當中數據采集層能夠分布式采集基于流、用戶身份信息、事件和威脅情報等多源異構信息。大數據存儲層能夠應用分布式文件系統長期全量存儲海量信息,并能實現結構化、半結構化以及非結構化的數據統一存儲,使用均衡算法將現實數據均勻分布在分布式文件系統上,為將來的數據檢索提高速度。數據挖掘分析層能夠實將時數據分析關聯、分析情境、提取特征,以此來實現安全事件的挖掘,迅速發現異常網絡行為并溯其根源,同時能夠對信息數據進行搜索查詢以及定位。數據呈現層能夠將大數據分析結構進行可視化的呈現,通過多種維度展現網絡安全狀態。
3.2 平臺實現的技術支持
(1)數據采集技術。本平臺采取Flume、Kafka、Storm結合的形式進行數據采集。使用Flume進行海量安全數據的采集、整合與傳輸具有可呈現分布式、可靠性高、可用性高的特點,利用定制的數據,讓發送方能夠手機到源自不同數據源的數據,把數據簡單處理后發送給各個數據的定制方。
面對活躍的流式數據進行處理,是可將Kafka當做數據采集與流式數據處理間的緩存。Kafka包含許多生產者、代理、消費者,整體性的提供邏輯服務,使其成為一個高吞吐量的分布式發布訂閱系統。面對分布式中的數據管理,Kafka使用了Zookeeper框架對于集群配置進行管理,實現了負載的均衡。
(2)數據存儲技術。使用HDFS進行采集后的數據存儲,HDFS分布式文件系統有著高吞吐量和高容錯性的特點,命名空間使用的是元數據管理節點文件系統,數據節點被用來存儲數據文件,將64兆字節的數據塊作為最基本存儲單位。元數據節點的數量與數據文件的大小成粉筆,同一時間如果訪問過多的文件就會造成系統性能的嚴重下降。所以,想要保障數據處理和分析的效率,此平臺使用的存儲單位就是HDFS數據塊存儲,把采集得來的數據歸納處理之后,保證每個文件的大小滿足64兆字節。
(3)數據分析技術。此平臺使用Hive完成數據統計與分析,采取類似SQL的HiveQL語言滿足HDFS與HBase對于非結構化的數據進行快速檢索的。該平臺使用Hive對API進行封裝,使用定制的插件開發和實現各種數據的處理、分析與統計。
對于數據的挖掘分析,給平臺使用Mahout完成基于Hadoop的機械學習,同時完成數據的挖掘與整理。針對事件流的關聯與分析,該平臺使用了CPE,把系統數據當作是各種類型的事件,對時間之間的關聯性進行分析,構建起分門別類的事件關系序列庫,完成從簡單事件到高級事件的轉化,在大量的信息中尋找到網絡安全隱患。
4 結束語
大數據技術在網絡安全中的應用實現了精準、迅速、價格低廉的目的?,F階段,在網絡安全中如何更加有效地運用大數據技術已經成為了業內探討的熱點與焦點。本文以當前針對網絡漏洞與攻擊的情況的防御需求為出發點,討論了將大數據技術應用到網絡安全領域的收集、存儲、檢索以及分析的應用手段,有效地提升了網絡安全防御的準確度和效率。
參考文獻
[1] 孫大為,張廣艷,鄭諱民.大數據流式計算:關鍵技術及系列實例.[J]軟件學報,2014,25(4):839-862.
[2] 楊巨龍.大數據技術全解——基礎、設計、開發與實踐[M].北京:電子工業出版社,2014.
[3] 唐宏,羅志強,沈軍.僵尸網絡DDoS攻擊主動防御技術研究與應用[J].電信技術. 2014(11) .
[4] 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述[J].軟件學報. 2014(09).