◆鄭 軍
(包頭師范學(xué)院網(wǎng)絡(luò)信息中心 內(nèi)蒙古 014030)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測規(guī)則提取方法研究
◆鄭 軍
(包頭師范學(xué)院網(wǎng)絡(luò)信息中心 內(nèi)蒙古 014030)
本文應(yīng)用數(shù)據(jù)挖掘技術(shù)以KDD CUP99數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),對(duì)網(wǎng)絡(luò)入侵檢測規(guī)則提取的方法進(jìn)行了研究和實(shí)驗(yàn)。本文深入探討了數(shù)據(jù)預(yù)處理的方法;研究了高維度網(wǎng)絡(luò)數(shù)據(jù)降維的方法;研究了使用決策樹模型提取出入侵檢測規(guī)則的方法;最后對(duì)算法模型進(jìn)行了交叉驗(yàn)證,實(shí)驗(yàn)表明本方法具有較高的精確度。
入侵檢測;數(shù)據(jù)挖掘;決策樹;檢測規(guī)則提取
當(dāng)今世界,互聯(lián)網(wǎng)的應(yīng)用已經(jīng)深入到了各行各業(yè),社會(huì)影響力十分重大,網(wǎng)絡(luò)安全問題備受關(guān)注。隨著計(jì)算機(jī)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)安全審計(jì)數(shù)據(jù)也呈指數(shù)級(jí)增長。面對(duì)海量的審計(jì)數(shù)據(jù),傳統(tǒng)的入侵檢測方法根本無力應(yīng)對(duì),因此必須采用數(shù)據(jù)挖掘的技術(shù)手段來進(jìn)行網(wǎng)絡(luò)安全的研究。
本研究采用KDD CUP99數(shù)據(jù)集作為研究對(duì)象,KDD CUP99數(shù)據(jù)集是進(jìn)行入侵檢測研究的一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集。它包含了5,000,000多個(gè)網(wǎng)絡(luò)連接記錄,模擬了各種用戶類型、各種網(wǎng)絡(luò)流攻擊手段。KDD CUP99數(shù)據(jù)集中每個(gè)連接用41個(gè)特征屬性和一個(gè)標(biāo)記屬性共42個(gè)屬性來描述。其具體名稱和含義參見參考文獻(xiàn)[1-2]。
為了提高算法的執(zhí)行效率,本研究采用抽樣的方法抽取了KDD CUP99原始數(shù)據(jù)10%的數(shù)據(jù)作為算法運(yùn)算數(shù)據(jù)。每個(gè)網(wǎng)絡(luò)連接異常標(biāo)記有4大類共39種攻擊類型,為了使提取出的檢測規(guī)則簡潔,我們將這些異常標(biāo)記統(tǒng)一處理為unnormal,網(wǎng)絡(luò)連接正常標(biāo)記仍為normal。
本研究采用的KDD CUP99實(shí)驗(yàn)數(shù)據(jù)有41維度的特征,維度過高一方面會(huì)造成檢測太慢,產(chǎn)生“維度災(zāi)難”,另一方面,也會(huì)給算法帶來很多噪聲,使算法的準(zhǔn)確率下降。因此,必須要提取出數(shù)據(jù)的主成分,對(duì)數(shù)據(jù)進(jìn)行降維處理。本研究采用主成分分析進(jìn)行降維處理,其具體算法參見參考文獻(xiàn)[3-5]。
我們采用主成分分析算法提取出了數(shù)據(jù)的主成分,其各個(gè)主成分的信息分布如下表1所示:

表1 實(shí)驗(yàn)數(shù)據(jù)主成分的信息分布
由表1可知pc_1一個(gè)主成分就可以涵蓋原始數(shù)據(jù)0.999的信息,因此,我們只選取pc_1一個(gè)維度作為降維后的結(jié)果進(jìn)行入侵檢測規(guī)則提取研究。
將主成分pc_1的數(shù)據(jù)進(jìn)行決策樹分析可以挖掘出如圖1所示的檢測規(guī)則。
得到的入侵檢測規(guī)則描述為:



圖1 入侵檢測規(guī)則
將KDD CUP99數(shù)據(jù)帶入以上規(guī)則進(jìn)行交叉驗(yàn)證(其具體過程參見參考文獻(xiàn)[6-8])得到如表2所示的準(zhǔn)確率和召回率:

表2 驗(yàn)證準(zhǔn)確率和召回率
本文深入探討了數(shù)據(jù)預(yù)處理的方法,研究了高維度網(wǎng)絡(luò)數(shù)據(jù)降維的方法,研究了使用決策樹模型提取出入侵檢測規(guī)則的方法,最后對(duì)算法模型進(jìn)行了交叉驗(yàn)證,實(shí)驗(yàn)表明本方法具有較高的精確度。
[1]csdn博客.KDD CUP 99數(shù)據(jù)集[EB/OL].http://blog.csdn.net/com_stu_zhang/article/details/6987632.
[2]163博客.KDD CUP 99數(shù)據(jù)集之特征描述[EB/OL].http://blog.163.com/li_205213/blog/static/11789679320137298058110/.
[3]梁勝杰,張志華,崔立林,鐘強(qiáng)暉.基于主成分分析與核獨(dú)立成分分析的降維方法[J].系統(tǒng)工程與電子技術(shù),2011.
[3]田野,趙春暉,季亞新.主成分分析在高光譜遙感圖像降維中的應(yīng)用[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2007.
[5]高宏賓,侯杰,李瑞光.基于核主成分分析的數(shù)據(jù)流降維研究[J].計(jì)算機(jī)工程與應(yīng)用,2013.
[6]王家華,高海余.利用循環(huán)交叉驗(yàn)證法確定變異函數(shù)[J].西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),1992.
[7]聞斌,江其保.通過交叉驗(yàn)證準(zhǔn)則選擇線性模型[J].華東交通大學(xué)學(xué)報(bào),2005.
[8]高紅.基于交叉驗(yàn)證的錯(cuò)誤率估計(jì)分析[J].科技信息,2011.
內(nèi)蒙古自治區(qū)高等學(xué)校科學(xué)研究項(xiàng)目(項(xiàng)目編號(hào):NJZY16238)資助。