摘要:目前入侵防御機(jī)制上大多采用誤用檢測(cè)為主的機(jī)制,其機(jī)制需要已知的特征來(lái)進(jìn)行比對(duì),然而誤用檢測(cè)本身存在著以下的問(wèn)題:(1)針對(duì)警報(bào)方面缺乏真實(shí)性,(2)對(duì)于區(qū)域網(wǎng)絡(luò)內(nèi)部防護(hù)能比較弱。此外,入侵檢測(cè)系統(tǒng)必須面對(duì)更大量的數(shù)據(jù)里檢測(cè)入侵的行為,當(dāng)我們收集這些大量數(shù)據(jù)的信息時(shí),入侵檢測(cè)規(guī)則的數(shù)據(jù)庫(kù)規(guī)模將會(huì)激增,導(dǎo)致入侵檢測(cè)系統(tǒng)性能日益低下。數(shù)據(jù)挖掘是一種有效的從大規(guī)模的海量數(shù)據(jù)中有效挖掘其中所蘊(yùn)含的規(guī)則的一種方法。本論文中為了解決上述問(wèn)題,在異常入侵檢測(cè)的架構(gòu)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)搜集當(dāng)攻擊事件發(fā)生時(shí)系統(tǒng)本身與網(wǎng)絡(luò)環(huán)境之間的相互關(guān)系,基于關(guān)聯(lián)規(guī)則算法來(lái)獲得更加有效的規(guī)則庫(kù),實(shí)現(xiàn)更加準(zhǔn)確快速的入侵檢測(cè)。
關(guān)鍵詞:入侵檢測(cè);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP193 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712(2012)20-0030-01
一、引言
目前有關(guān)入侵檢測(cè)系統(tǒng)設(shè)計(jì)的方法相當(dāng)多,其中采用了不同的檢測(cè)方法,例如,有的文獻(xiàn)提出實(shí)時(shí)在線檢測(cè)的架構(gòu),有的使用數(shù)據(jù)挖掘技術(shù)于入侵檢測(cè)系統(tǒng),如聚類技術(shù)、關(guān)聯(lián)規(guī)則和人工神經(jīng)網(wǎng)絡(luò)等都被應(yīng)用在入侵檢測(cè)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以概括的分為三大類:分類(classification)、頻繁集(frequent itemsets)、關(guān)聯(lián)規(guī)則(association rules)。因此將數(shù)據(jù)挖掘技術(shù)應(yīng)用于入侵檢測(cè)模型,也分為三方面的應(yīng)用:第一種為分類:將數(shù)據(jù)分類到事先定義好的類別。第二種為關(guān)聯(lián)分析:分析不同數(shù)據(jù)字段之間的關(guān)系。第三種為序列分析:分析事件或數(shù)據(jù)字段間的連續(xù)關(guān)系。所構(gòu)建的基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)是基于關(guān)聯(lián)分析的。
二、入侵檢測(cè)系統(tǒng)功能架構(gòu)
本文所提出的基于數(shù)據(jù)挖掘的入侵檢測(cè)模型由以下六個(gè)主要部分組成:數(shù)據(jù)采集子模塊、數(shù)據(jù)接口子模塊、數(shù)據(jù)挖掘子模塊模塊。
(一)數(shù)據(jù)采集子模塊
數(shù)據(jù)采集子模塊的功能是采集網(wǎng)絡(luò)上的數(shù)據(jù)并進(jìn)行記錄,保存該記錄的源IP地址,目的IP地址,發(fā)送時(shí)間,目的端口號(hào)等信息,提供給基于數(shù)據(jù)挖掘的入侵監(jiān)測(cè)系統(tǒng)使用。
(二)數(shù)據(jù)接口子模塊
完成數(shù)據(jù)格式的轉(zhuǎn)變,運(yùn)用數(shù)據(jù)庫(kù)技術(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行管理,提供給數(shù)據(jù)挖掘子模塊來(lái)使用。
(三)數(shù)據(jù)挖掘子模塊
數(shù)據(jù)挖掘子模塊完成的主要功能是用各種數(shù)據(jù)挖掘算法實(shí)現(xiàn)有效的關(guān)聯(lián)規(guī)則分析、分類等。
在入侵檢測(cè)中,為了要完成封包字段特征的關(guān)聯(lián)性分析,本論文采用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析法,快速找出各封包字段特征的關(guān)聯(lián)性。
三、基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘
對(duì)于能正確將一變量的變碼值分類于不同類型中的分析,采用常見(jiàn)數(shù)據(jù)集分析,計(jì)算不同特征組合的出現(xiàn)頻率。傳統(tǒng)上是將數(shù)據(jù)挖掘用來(lái)做為數(shù)據(jù)分類的工具,除了可直接關(guān)聯(lián)性法則得到基礎(chǔ)可做為識(shí)別入侵的工具外,在入侵檢測(cè)系統(tǒng)中,更進(jìn)一步的為要提高不同種類的入侵識(shí)別率,可將識(shí)別出的不同攻擊行為特征,交予最適當(dāng)?shù)娜肭謾z測(cè)分析法。
挖掘頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則提取中最重要的一步,它的算法效率和準(zhǔn)確度直接影響了整個(gè)系統(tǒng)的性能。Apriori算法是一種典型的挖掘頻繁項(xiàng)集的算法,它可利用“候選產(chǎn)生集合”找出常見(jiàn)數(shù)據(jù)出現(xiàn)的頻率[1-3]。在Apriori算法中,尋找最大項(xiàng)目集的基本思想是:算法需要對(duì)數(shù)據(jù)集進(jìn)行多步處理。第一步,簡(jiǎn)單統(tǒng)計(jì)所有含一個(gè)元素項(xiàng)目集出現(xiàn)的頻率,并找出那些不小于最小支持度的項(xiàng)目集,即一維最大項(xiàng)目集.從第二步開(kāi)始循環(huán)處理直到再?zèng)]有最大項(xiàng)目集生成。循環(huán)過(guò)程是:第k步中,根據(jù)第k-1步生成的(k-1)維最大項(xiàng)目集產(chǎn)生k維侯選項(xiàng)目集,然后對(duì)數(shù)據(jù)庫(kù)進(jìn)行搜索,得到侯選項(xiàng)目集的項(xiàng)集支持度,與最小支持度比較,從而找到k維最大項(xiàng)目集。
利用連續(xù)事件挖掘的Apriori算法,找出連續(xù)事件的關(guān)聯(lián)性。接著進(jìn)行靈敏度分析的流程,靈敏度分析以一次一個(gè)變量的靈敏度和其他的變量作比較,借著常見(jiàn)數(shù)據(jù)集的分析,出現(xiàn)最頻繁的特征(特征域值)及該特征的跟隨特征,即是最適時(shí)檢測(cè)該類型攻擊的特征。此部分可能需由人工事先設(shè)定或者迭代的調(diào)整。將各種類型各種型態(tài)的網(wǎng)絡(luò)流量特征,識(shí)別出特征合理范圍,先制定門限值,將其事先定義好流量特征類型。除了待評(píng)估的特征之外,其他特征則固定其范圍值,以關(guān)聯(lián)法則分析,觀看此一特征的一般流量變化,并與各類型攻擊流量作范圍值進(jìn)行分析,重復(fù)該步驟取得各特征合理范圍值的分布。
四、結(jié)論
目前入侵防御機(jī)制上大多采用誤用檢測(cè)為主的機(jī)制,其機(jī)制需要已知的特征來(lái)進(jìn)行比對(duì)。本論文中為了解決上述問(wèn)題,在異常入侵檢測(cè)的架構(gòu)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)搜集當(dāng)攻擊事件發(fā)生時(shí)系統(tǒng)本身與網(wǎng)絡(luò)環(huán)境之間的相互關(guān)系,基于關(guān)聯(lián)規(guī)則算法來(lái)獲得更加有效的規(guī)則庫(kù),實(shí)現(xiàn)更加準(zhǔn)確快速的入侵檢測(cè)。
參考文獻(xiàn):
[1]R.Agrawal,T.Imielinski,and A.Swami.Mining association rules between sets of items in large databases.In SIG-MOD'93,pp207-216,Washington,DC,May,1993.
[2]A.Savasere,E.Omiecinski,and S.Navathe.An efficient algorithm for mining association rules in larges databases.Proceedings of the 21th Int'l Conference on Very Large.
[3]Peter Cabena,Discovering Data Mining From Concept to Implementation,IBM,1997.