陶然 張蘇炯
目前,傳統技術的安全審計系統已經不能符合時代發展的要求。在經濟水平不斷提高的背景下,大數據技術得到了應用,可以為安全審計系統的改造和開發提供技術保障。與傳統安全審計系統進行比較,應用大數據技術的安全審計系統可以提高應對結構化數據和非結構化數據的能力,同時可以在大量數據中挖掘對用戶具有價值的信息數據,從而保證審計信息的有效性。
隨著新時代的到來,信息化程度不斷提高,信息系統得到了迅速發展,信息系統安全審計內容和對象越來越復雜,一定程度上增加了審計信息的工作量。在企業中,對于大型信息系統而言,管理節點個數動輒將超過幾十萬。在需要審計的重要節點中,一般會超過1000個。此外,它的節點類型存在不同,主要包括應用系統、網絡設備、數據庫、服務器和安全設備等。在每天的操作日志和訪問中,已經超過了數億條,甚至達到了幾百億條。在數據量到達TB數量級后,會對傳統安全審計系統造成嚴重威脅。在進行審計工作的過程中,審計對象類型各種各樣,日志格式也會存在不同。運用傳統關系型數據庫的過程中,儲存這些大量的異構數據存在一定的難度。
在運用大數據技術構建安全審計系統的過程中,需要分析和采集大量的數據,保證大量異構數據處理的質量。在大數據技術不斷成熟的背景下,可以為網絡技術的發展提供技術保障。運用大數據技術構建安全審計系統的過程中,以下幾點得到了優化:
安全審計系統處理數據的過程中,提升了存儲、采集和分析能;
不僅提升了應對結構化數據的能力,還提高了處理非結構化數據的能力;
運用大數據技術可以建立相關的模型和算法,更加深入地分析歷史信息數據,從大量數據中挖掘出對用戶有價值的信息。
(一) 大數據量的審計數據采集與存儲
在采集大量審計數據的過程中,審計系統的采集能力受到了很大威脅,導致出現系統響應慢和數據丟失的現象,甚至可能存在進程擁塞和停止響應的情況。大數據時代背景下,可以運用采集探針的部署方法,按照實際采集數據量的需求部署一個或者多個數據采集探針。探針得到數據后,需要運用TCP協議與分析平臺進行連接,壓縮并加密需要傳輸的信息數據,以提高采集數據的能力。對于數據冗余模塊而言,這并不必需。但是,在日志數據中并沒有充足的維度信息,或者需要提高增加維度的次數,需要設置定義數據冗余模塊。通過運用冗余維度定義器,可以定義冗余的維度信息和來源,如內存、數據庫和文件等,并且需要指定擴展方式,在數據日志中納入信息數據。在存儲數據的過程中,需要運用較快的內存NoSQL對原始數據進行冗余,并且采取一定的節點實施并行冗余;或者可以在Hadoop中完全執行批量Map,從而可以轉化數據的格式。
(二)數據歸一化和關聯分析
在采集審計數據后,需要對這些大量的數據進行劃分,然后根據標準要求對這些數據進行歸一化,同時可以對這些數據進行預處理。與傳統審計產品進行對比,它處理事件的流程一樣,但是也存在不同,需要處理大量的數據。在對傳統產品進行實時關聯分析的過程中,通常使用內存數據庫的方式,但是存在板內存資源或者SQL語句效率問題的情況下,會對規則引擎的處理能力造成影響,造成規則引擎出現檢測不出異常的現象。在實時規則分析引擎中,以大數據集群的復雜事件處理流程作為引擎,保證并行運行多種規則的有效性,從而保證檢測異常事件的實時性。實際中,需要運用Storm+Esper的方式。對于Storm而言,在統計計算大量數據方面得到了應用,可以提高反饋統計效果的速度。在Storm框架中,需要運用事件處理流程,保證運算數據的準確性。在運用Storm的內存數據過程中,可以進行關聯分析運算。在運用Esper的情況下,它的實時關聯分析的引擎為復雜事件處理功能,可以提高系統關聯分析的有效性。
(三) 歷史數據統計分析
在安全審計系統中,對統計分析提出了一定的要求,需要在離線狀態下對存儲在集群中的海量數據進行統計分析。在面對大量數據的情況下,對于傳統的審計產品,它的ETL工具并不能起到什么作用。究其原因,主要在于轉化數據格式時需要的成本較大,能力方面不能滿足大量數據的處理需求。在傳統的審計產品中,關系型數據庫不能滿足大量數據的運算,并且已經超出了檢索數據的范圍。在大數據技術的審計系統中,主要包括離線統計和分析功能。在對存儲大量數據進行分類總結和分析的過程中,運用分布式計算集群的方式可以滿足常見分析的多種需求。在Hadoop上層中,對Hive+Hbase框架進行部署,其對于Hive和Hbase來說含有的特征不同。Hbase的特征為面向編程、低延遲、非結構化等,而Hive的特征為面向分析、高延遲、結構化等。在Hive數據倉庫中,對于Hadoop屬于高延遲,而Hive集成Hbase,目的為使用Hbase含有的特性,通過Hive提供的Hive SQL簡化對Map/Reduce任務的編寫,利用Hive與Hbase之間的互補提高事件分析結果運算的效率,然后通過核心模塊將該命令轉變為Map-Reduce,交給Hadoop集群后生產報表,方便報表中心進行查看,從而可以離線統計分析存儲在HDFS上的數據。
(四)數據挖掘
挖掘數據的過程中也運用大量歷史數據進行分析,但是與前面統計及分析過程存在不同。在運用大數據技術的情況下,挖掘數據不會存在預先設定的主題,主要是在現有數據的基礎上運用各種算法進行計算,從而保證預測效果的有效性,滿足分析高級數據的各種需求。同時,運用各種挖掘算法可以運算已經成型的審計分析模型。這些挖掘數據方式是傳統審計產品中不存在的。通過挖掘數據技術的運用,可以發現存在的系統配置誤配現象,還可以發現較為隱藏的違規訪問和網絡攻擊?,F階段,已經有很多挖掘數據法得到了應用,現有技術中不存在難度,但是有效結合算法與信息安全行業模式還需要很長時間進行調試和訓練。
(五)高效便捷的海量事件追溯
在安全審計系統中,追溯系統有著重要地位。實際運用時,在分析大量數據的基礎上,對用戶使用中存在的問題進行解決,通過追溯系統的運用,分析平臺中含有的各種結果,然后定位事件源。因此,運用追溯系統可以保證處理大量事件的高效便捷。
隨著新時代的到來,信息化程度得到了迅速發展,信息系統的復雜程度也在不斷提高,說明安全審計的內容會更加繁瑣,增加了單位審計信息的工作量。在我國社會經濟不斷發展進步的背景下,各種數據不斷涌現,形成了大數據技術系統,并得到了廣泛應用。與傳統信息系統進行比較,應用大數據技術的安全審計系統不僅可以提高計算的工作效率,還可以提高系統的存儲能力。
作者單位:陶然 四川省公安廳科技信息化處
張蘇炯 北京北信源軟件股份有限公司