基于聚類算法的入侵檢測模型設(shè)計

2010-12-31 00:00:00吳卉男

考試周刊 2010年38期

摘要: 本文提出了一種基于數(shù)據(jù)挖掘方法的入侵檢測模型，通過數(shù)據(jù)挖掘的聚類算法，提高入侵檢測的時效性與準確性。

關(guān)鍵詞: 入侵檢測數(shù)據(jù)挖掘聚類算法模型設(shè)計

網(wǎng)絡攻擊和新攻擊手段的日益增長對入侵檢測技術(shù)提出了更高的要求。目前的入侵檢測系統(tǒng)普遍存在缺乏可適應性、有效性和擴展性的問題。基于數(shù)據(jù)挖掘技術(shù)的入侵檢測很好地解決了快速處理海量數(shù)據(jù)的問題，而且通過利用數(shù)據(jù)挖掘技術(shù)建立自適應的入侵檢測模型，它還能夠提供很好的適應性，解決了傳統(tǒng)入侵檢測系統(tǒng)要通過人工編碼進行更新的難題。本文采用數(shù)據(jù)挖掘聚類算法構(gòu)造異常入侵檢測模型。基于通用的入侵檢測模型，在模型中最重要的模塊檢測模塊中應用數(shù)據(jù)挖掘聚類算法的方法，采用兩種聚類算法最大最小值法和C-均值算法來識別和檢測入侵信息。

一、系統(tǒng)總體結(jié)構(gòu)設(shè)計

該入侵檢測模型的總體結(jié)構(gòu)主要分為三大模塊:預處理模塊、檢測模塊和決策響應模塊。具體結(jié)構(gòu)如圖1所示。

二、數(shù)據(jù)預處理模塊

(一)網(wǎng)絡數(shù)據(jù)包捕獲

根據(jù)入侵檢測的特點，在運用聚類算法進行挖掘前，我們首先要收集網(wǎng)絡上的原始數(shù)據(jù)，并對其進行分析，使得原始網(wǎng)絡數(shù)據(jù)包恢復成TCP/IP層的連接記錄，然后對其進行標準化的處理，將其轉(zhuǎn)換成符合數(shù)據(jù)挖掘的數(shù)據(jù)源。

以太網(wǎng)(Ethernet)具有共享介質(zhì)的特征，信息是以明文的形式在網(wǎng)絡上傳輸，當網(wǎng)絡適配器設(shè)置為監(jiān)聽模式(混雜模式，Promiscuous)時，由于采用以太網(wǎng)廣播信道爭用的方式，監(jiān)聽系統(tǒng)與正常通信的網(wǎng)絡能夠并聯(lián)連接，并可以捕獲任何一個在同一沖突域上傳輸?shù)臄?shù)據(jù)包。IEEE802.3標準的以太網(wǎng)采用的是持續(xù)CSMA/CD(載波偵聽多址訪問/沖突檢測)的方式，正是由于以太網(wǎng)采用這種廣播信道爭用的方式，各個站點可以獲得其它站點發(fā)送的數(shù)據(jù)。運用這一原理，信息捕獲系統(tǒng)能夠攔截我們所要的信息，這是捕獲數(shù)據(jù)包的物理基礎(chǔ)[1]。

網(wǎng)絡上數(shù)據(jù)的截獲主要依賴于所使用的操作系統(tǒng)，不同的操作系統(tǒng)一般有不同的實現(xiàn)途徑。在UNIX或Linux系統(tǒng)中，一般采用由美國洛倫茲伯克利國家實驗室所編寫的專用于數(shù)據(jù)包捕獲功能的API函數(shù)庫Libpcap來實現(xiàn)。而在Windows系統(tǒng)中，則使用WinPcap，WinPcap是由伯克利分組捕獲庫派生而來的分組捕獲庫，它能夠在Windows操作平臺上來實現(xiàn)對底層包的截取過濾。捕獲數(shù)據(jù)包的過程如圖2。

(二)數(shù)據(jù)預處理

預處理階段主要的工作是把從網(wǎng)絡中收集到的各種網(wǎng)絡連接記錄和從計算機內(nèi)部收集到各種記錄等數(shù)據(jù)信息進行過濾、格式轉(zhuǎn)換等預處理。其中計算機內(nèi)部的數(shù)據(jù)信息主要包括操作系統(tǒng)審計記錄、系統(tǒng)日志和應用程序的日志信息。除此之外，還包括其他的一些數(shù)據(jù)來源，主要包括其他安全產(chǎn)品提供的數(shù)據(jù)、網(wǎng)絡設(shè)備提供的數(shù)據(jù)，以及所謂的“帶外”信息。

數(shù)據(jù)收集器在事件信息收集之后，通過多種數(shù)據(jù)轉(zhuǎn)換工作，把信息定制成統(tǒng)一的規(guī)范格式。在某些時候還需要包括數(shù)據(jù)的結(jié)構(gòu)化、特征屬性的選取，以及其他的相關(guān)的處理。在基于網(wǎng)絡的入侵檢測系統(tǒng)中，數(shù)據(jù)包可以被緩存并重新還原為TCP會話。在異常檢測中，可以根據(jù)一些用于分類的特征數(shù)據(jù)(例如主機名)，將事件數(shù)據(jù)轉(zhuǎn)化成以數(shù)字形式表示的數(shù)組或表格(例如IP地址)。與誤用檢測相類似，不同形式的信息可能被轉(zhuǎn)換成統(tǒng)一的規(guī)范格式。系統(tǒng)收集用戶會話數(shù)據(jù)，并將之提煉成數(shù)字形式的特征向量，這使得事件數(shù)據(jù)可以占據(jù)更少的存儲空間。它還允許特定數(shù)據(jù)字段的聚合，以便檢測引擎可以方便地辨認出特定的用戶行為模式。

原始的網(wǎng)絡數(shù)據(jù)包本身還不適合于進行數(shù)據(jù)挖掘，需要將原始的網(wǎng)絡數(shù)據(jù)包恢復成TCP/IP層的連接記錄。具體對于TCP協(xié)議的數(shù)據(jù)包，預處理過程如下:按照包中的源地址/端口、目的地址/端口、序列號、確認序列號、標志位等信息將歸屬于同一次TCP連接的數(shù)據(jù)包組合成連接記錄的形式，并進行相應的統(tǒng)計處理。預處理結(jié)果為產(chǎn)生TCP連接記錄，其中包含有關(guān)本次TCP連接的統(tǒng)計信息，例如連接起始時間、持續(xù)時間、雙方發(fā)送的數(shù)據(jù)字節(jié)數(shù)等。同時，由于網(wǎng)絡事件通常在時間上具有很強的相關(guān)性，尤其對于探測攻擊(Port Sweep等)及拒絕服務攻擊(SYN-Flood，teardrop等)來說更是如此。因此我們可以考慮在檢測數(shù)據(jù)中加入基于時間的統(tǒng)計特性，如將時間窗大小設(shè)定為2秒，針對每一條連接記錄，統(tǒng)計出在2秒時間窗內(nèi)目標地址是某臺主機的記錄和在2秒時間窗內(nèi)目標端口是某服務端口的記錄。對于其他如HTTP、TELENT等協(xié)議的預處理過程與處理TCP的過程相似。

(三)數(shù)據(jù)標準化處理

聚類算法的輸入通常為一個包含N條記錄R，R，…，R的數(shù)據(jù)集，這N條記錄的d維特征向為X，X，…，X，即R=(X，X，…，X)，1≤i≤N，其中X是一個連續(xù)或離散類型的變量，代表數(shù)據(jù)的一個特征的取值。一個通用的聚類算法應該能夠從給定的任意分布的數(shù)據(jù)集中產(chǎn)生聚類。然而如果直接根據(jù)某個固定的距離(聚類寬度)來對數(shù)據(jù)點進行聚類，由于不同的特征可能具有不同的衡量標準，因而可能導致它們在距離計算的過程中起到不同的作用，產(chǎn)生大數(shù)吃小數(shù)的問題，最終影響聚類和異常結(jié)果的準確性。例如有兩條二維的記錄，利用下列公式得到Euclidean距離為:D(R，R)==。

可以看到整個距離完全由記錄的第一項屬性值所決定。為了解決這些問題，在運用聚類法進行入侵檢測前，首先應該對每條記錄的特征向量值進行標準化處理，所謂標準化處理就是賦予所有特征相同的權(quán)值，將初始測量值轉(zhuǎn)換為無單位變量。

對于經(jīng)過分析處理后的每條網(wǎng)絡連接記錄，都包含有兩種類型的特征向量，分別是數(shù)字形式的特征值和離散形式的特征值，如連接傳送的字節(jié)數(shù)、同一端口的連接數(shù)都屬于數(shù)字形式的特征值，而連接使用的協(xié)議類型等則屬于離散形式的特征值。還有一些用數(shù)字表示的特征值實際上也屬于離散形式的特征值，如連接的目的端口地址等。

三、數(shù)據(jù)挖掘檢測模塊

基于數(shù)據(jù)挖掘的入侵檢測模型檢測模塊主要的任務是利用數(shù)據(jù)挖掘技術(shù)執(zhí)行實時入侵檢測工作。檢測階段接收來自經(jīng)過數(shù)據(jù)預處理過的各種數(shù)據(jù)記錄，使用數(shù)據(jù)挖掘技術(shù)分析數(shù)據(jù)記錄中的各種關(guān)聯(lián)關(guān)系和隱藏的、潛在的關(guān)系，并將其與正常的入侵檢測規(guī)則集進行對比來實現(xiàn)對各種入侵行為的檢測。檢測模塊是入侵檢測系統(tǒng)的最核心部分，也是最復雜的一部分。在此模型中應用聚類分析的數(shù)據(jù)挖掘算法，來檢測已知或未知入侵信息。

因為聚類能夠把數(shù)據(jù)按照數(shù)據(jù)自身的特點進行歸類，所以入侵檢測中引入此方法，用來識別未知的攻擊，這里假設(shè)各種攻擊能夠根據(jù)各自的特征聚為一類[2]。

(一)聚類算法

下面介紹C-均值算法步驟，它分為以下幾步。

1.條件及約定

設(shè)待分類的模式特征矢量集為{x，x，…，x}，類的數(shù)目C是預先取定的。

2.基本思想

該方法取定C類和選取C個初始聚類中心，按最小距離原則將各模式分配到C類中的某一類，之后不斷地計算類心和調(diào)整各模式的類別，最終使各模式到其類別中心的距離平方值的和最小。

3.算法步驟

(1)任選C個模式特征矢量作為初始聚類中心:z，z，…，z，令k=0。

(2)將待分類的模式特征矢量集{x}模式逐個按最小距離原則分化給c類中的某一類，即:

如果d=min[d]，i=1，2，…，N (公式1)，則判x∈w。

式中d表示x和w的中心z的距離，上角表示迭代次數(shù)。于是產(chǎn)生新的聚類w(j=1，2，…，c)。

(3)計算重新分類后的各類心

z=1/nx，i=1，2，…，c (公式2)。

式中n為w類中所含模式的個數(shù)。因為這種一步采取平均的方法將計算調(diào)整后各類的中心，且定為C類，故稱C-均值法。

(4)收斂性分析

我們以Euclidean距離為例，簡單地分析該算法的收斂性。在上述的算法中，雖然沒有直接運用準則函數(shù)J=||x-z|| (公式3)進行分類，但在(2)中根據(jù)(公式3)進行模式劃分可使J趨于變小。設(shè)某樣本x從聚類w移至聚類w中，w移出x后的集合記為，w移入x后的集合記為。設(shè)w和w所含樣本數(shù)分別為n和n，聚類w、、w和的均值分別為m、、m和，顯然有:

=m-(x-m)/(n-1) (公式4)，

=m+(x-m)/(n+1) (公式5)。

而這兩個新的聚類的類內(nèi)Euclidean距離(平方)和與原來的兩個聚類的類內(nèi)Euclidean距離(平方)J和J的關(guān)系是:=J-nj(||x-m||)/(n-1) (公式6)，=J+n(||x-m||)/(n+1) (公式7)。

當x距m比距m更近時，就有:n||x-m||/(n+1)

C-均值法是以確定的類數(shù)及選定的初始聚類中心為前提，使各模式到其所判屬類別中心距離(平方)值和最小的最佳聚類。顯然，該算法的分類結(jié)果受到取定的類別數(shù)目及聚類中心的初始位置的影響，所以結(jié)果只能是局部最優(yōu)。但其結(jié)果簡單，結(jié)果尚能令人滿意，故應用較多。如模式分布呈類內(nèi)團聚狀，該算法是能達到很好的聚類結(jié)果的。在實際中需要試探不同的C值和選取不同的聚類中心初始值，以進一步達到更大范圍的最優(yōu)結(jié)果。

(二)特征提取與特征選擇[3]

特征提取與選擇的過程是對原始數(shù)據(jù)進行變換，得到最能反映分類本質(zhì)的特征。在不同的書籍和文獻中“特征提取”、“特征選擇”的意義并不是完全相同的:“特征提取”在有的文獻中專指特征的形成過程，有的則指從形成、經(jīng)選擇或變換到得出有效特征這一全過程。在文中，“特征提取”指的是從高維的測量空間通過映射(或變換)的方法降低維數(shù)得到特征空間的過程。“特征選擇”指的是從一組特征中挑選出一些最有效的特征以達到降低特征空間維數(shù)的目的的過程。從定義中可以看出實際上“特征選擇”是“特征提取”的特例。

特征選擇和提取通過去除不相關(guān)的和冗余的特征使特征數(shù)減少，即N的值變小。由于特征數(shù)的減少，還可以去掉一些重復的實例，使P也減小。這樣可以有效地避免“維數(shù)災難”和“組合爆炸”。而由于N和P的減小，可以減少算法學習的時間，提高分類的準確性。這對于解決變化較大數(shù)據(jù)集合的學習問題是有幫助的。而且，數(shù)據(jù)集合的減小也使遺失數(shù)據(jù)和錯誤數(shù)據(jù)的絕對數(shù)減小。

從現(xiàn)有的特征選擇算法來看，一個特征選擇算法由三個重要的方面決定:評判特征子集優(yōu)劣的指標、搜索策略和搜索方向。這三個方面也構(gòu)成了研究特征選擇的框架。

搜索策略有:窮舉搜索、啟發(fā)式搜索和不確定搜索。窮舉搜索是搜索所有可能的特征子集，這種搜索策略一定可以發(fā)現(xiàn)最優(yōu)的特征子集，但搜索空間大，當特征數(shù)較多時是無法實現(xiàn)的:啟發(fā)式搜索按照一定的啟發(fā)式規(guī)則搜索特征子集，這種搜索策略，搜索空間比較小，可能丟失最優(yōu)子集。這兩種搜索方法各有優(yōu)劣，實際中需要平衡效率和結(jié)果之間的關(guān)系，作出選擇。不確定搜索實際上就是一種平衡方法，比較典型的不確定搜索有遺傳算法和模擬退火算法。

搜索方向分為:順序前進產(chǎn)生(SFG)、順序后退產(chǎn)生(SBG)、雙向產(chǎn)生(BG)和隨機產(chǎn)生(RG)。SFG從一個空集開始，逐步添加特征，自到發(fā)現(xiàn)最優(yōu)解或滿足算法停止條件:SBG從特征全集開始逐步減少特征，發(fā)現(xiàn)最優(yōu)解或滿足算法停止條件。RG隨機地產(chǎn)生特征子集，主要用于不確定搜索。

四、決策響應模塊

決策響應模塊的主要目的是對經(jīng)過檢測階段分析的各種分析結(jié)果作出具體的判斷，并給予具體的響應(報警或更新)。當數(shù)據(jù)記錄經(jīng)過數(shù)據(jù)挖掘算法的分析和特征提取器提取的特征后與正常規(guī)則庫中的規(guī)則進行比較，如果發(fā)現(xiàn)有新的入侵行為，則發(fā)出入侵警告，并將該入侵特征作為一個新的特征模式去更新規(guī)則庫以實現(xiàn)入侵檢測系統(tǒng)的規(guī)則庫的自動更新。當然，我們還可以通過專家手動更新規(guī)則庫。如果是正常活動數(shù)據(jù)，則不傳給系統(tǒng)安全人員，從保守的角度同時也是降低漏報率角度出發(fā)，將模糊的、未知的、事件按未知攻擊類型處理，并把它們和警報記錄一起傳給安全人員。

本文提出了一種聚類的數(shù)據(jù)挖掘方法進行異常入侵檢測的模型模型，分析了各個模塊的功能及聚類的經(jīng)典算法。聚類算法可以有效地將入侵數(shù)據(jù)和正常數(shù)據(jù)區(qū)分開來，從而在檢測率和誤警率上也可以取得較好的效果。聚類挖掘技術(shù)作為一種從大量數(shù)據(jù)集中發(fā)現(xiàn)知識的智能化手段，可以從海量安全審計數(shù)據(jù)中自動提取出盡可能多的隱藏的安全信息，近幾年在入侵檢測系統(tǒng)研究中得到應用，已成為信息安全中的一個熱點信息。

參考文獻:

[1]唐正軍.入侵檢測技術(shù)導論.機械工業(yè)出版社，2004:15.

[2]張培帥.聚類算法在瓦網(wǎng)絡入侵檢測技術(shù)中的作用[J].電腦知識與技術(shù)，2008:1194-1196.

[3]李向偉.數(shù)據(jù)挖掘及實現(xiàn)技術(shù)研究.計算機與現(xiàn)代化，2006.8.

考試周刊2010年38期

考試周刊的其它文章: 計算機教學中的語言藝術(shù); 如何提高大學課堂全英授課的教學效果; 高中數(shù)學教學如何培養(yǎng)學生的解題能力; 讓初中語文教學成效在互動過程中得到提升; 關(guān)注學困生要從心開始; 中學歷史教學中學法指導的若干嘗試