汪莉
(長江大學工程技術學院 湖北 荊州 434020)
入侵檢測的目的是為了發現系統或用戶行為的異常,其實質歸結為對從各種渠道獲得的反映網絡狀況和網絡行為的安全審計數據的分析處理。然而,操作系統的日益復雜化和網絡數據流量的急劇膨脹,導致了安全審計數據同樣以驚人的速度遞增。驟增的數據背后隱藏著許多與安全有關的重要信息,如何從包含大量冗余信息的數據中提取出具有代表性的入侵模式是入侵檢測的關鍵,而靠傳統數據檢索機制和統計分析方法不能滿足安全信息有效提取的需要。數據挖掘能夠從海量數據中提取出隱含的、事先未知的、潛在有用的信息和知識,很好地解決了這些問題。
盡管將數據挖掘引入入侵檢測研究,以此建立的檢測模型在適應性和可擴展性方面具有優勢并得到實驗驗證,但進行檢測時仍存在一定困難:
此類模型通過訓練集中的行為特征學習,對已知入侵和攻擊行為具備較高的檢測率和較低的誤報率;而對于未在訓練集出現的和全新的入侵行為,則出現較低的檢測率和較高的誤檢率,這種現象對于大多數檢測模型有普遍性。
由于現有入侵檢測中的數據挖掘算法需要對大量已標識的歷史數據進行訓練學習,然后才能進行測試數據集的檢測,造成了對訓練集數據的強烈依賴性,訓練集數據的分布特征決定了檢測算法的性能;而訓練集數據的獲取及其真實性在現實環境中不能完全保證,造成了檢測模型較高的計算成本和相對局限性。
現在國內外已有一些研究機構利用數據挖掘進行入侵檢測,針對一些入侵行為獲得了較為理想的結果。采用數據挖掘技術來構造入侵檢測模型,優勢在于:
基于數據挖掘的檢測方法可以從大量數據中挖掘出不易被明顯看出的重要特征和規則,能分析大量審計數據并提取對入侵行為的最具概括性的描述,使得構造出的特征能夠更加精確、有效地區分用戶的正常行為和異常行為。
在入侵檢測中,收集到的數據越多,分析結果就越準確。如何從海量數據中提取出入侵行為和正常行為的最顯著區別,傳統方法對此無能為力,而數據挖掘技術能從海量數據中提取有價值的信息,很好地解決了這個問題。
應用數據挖掘方法的檢測系統不是基于預定義的檢測模型,而是通過機器學習算法從審計數據中學習到的模型,因此對于新型攻擊及已知攻擊的變種具有適應性。
同樣的數據挖掘工具能用于多個數據源,不依賴于任何系統而存在,因而當檢測環境變化時檢測系統不需要做什么改動,具有較強的可擴展性。
近年來數據挖掘技術的快速發展已從很多領域中得到了大量的算法,一些算法尤其適用于入侵檢測。目前有以下幾種常用于入侵檢測的數據挖掘算法:
關聯規則分析方法的目的是以規則的形式給出隱藏在數據中各屬性間的相互關系。在入侵檢測系統中,用戶的正常行為和惡意的入侵行為都將反映到審計記錄數據中,不論是正常行為還是異常行為,都將留下一條或多條記錄。這些記錄都不是孤立的,記錄內部的屬性或記錄之間都存在某些必然的聯系。利用關聯分析找出入侵行為的各種屬性之間的相關特性,或者是提取出某種操作和入侵行為之間或各種入侵行為之間的相互關系等知識。
序列分析發現不同數據記錄之間的相關性,獲取序列模式模型。序列模式分析和關聯分析相似,其目的也是為了挖掘數據的聯系,但序列模式分析的側重點在于分析數據間的前后關系,發現系統審計事件中頻繁發生的事件序列。可以為最后生成入侵檢測模型提供時間統計屬性,即使用序列分析方法對各種入侵行為和某些操作發生的先后關系做出歸納。
分類分析是一種有監督的學習方法,它通過分析實例數據,提取數據項的特征屬性,并建立一個分類函數或分類模型,該函數或模型能把數據集中的數據映射到某個給定的類上。分類過程首先考察分類數據的屬性,通過訓練數據集對系統進行訓練,找出描述并區分數據類或概念的模型,以便將收集到的數據歸類到某個預定義的類標記下。為了構建這樣的一個分類模型,需要一個樣本數據庫作為訓練集,樣本數據庫中的每一個元組與大型數據庫中的元組包含著同樣的屬性集,并且每一個元組有一個已知的類標記。
聚類分析是將數據集分成由類似的對象組成的多個類的過程,由聚類所生成的同一類中的對象彼此相似,不同類中的對象相異。聚類算法用于對未經標記的訓練數據進行特征分析,把具有相似特征的數據歸于一類,可以在不具備完整領域知識背景的情況下執行入侵檢測功能。與分類分析方法不同,聚類分析的輸入集是一組未標定的記錄,也就是說此時輸入的記錄沒有被進行任何分類,而是通過聚類算法采用全自動方式獲得的,而所依據的這些規則是由聚類分析工具定義的。
在網絡安全問題日益突出的今天,如何迅速而有效地利用基于數據挖掘的入侵檢測系統發現各種入侵行為,對于保證系統和網絡資源的安全十分重要。傳統的基于人工建模的入侵檢測技術已經越來越無法適應新的網絡環境,而基于數據挖掘的入侵檢測系統能從大量的審計數據中自動產生精確適用的檢測模型,使入侵檢測系統適用于任何計算環境。
[1]唐正軍.網絡入侵檢測系統的設計與實現[M].北京:電子工業出版社,2002.
[2]李守國.數據挖掘技術在入侵檢測中應用研究[D].南京航空航天大學,2005.
[3]郭愛偉.入侵檢測系統分類算法的研究[D].中北大學,2006.