999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于矩陣的模糊關聯規則挖掘算法及其應用研究

2010-05-13 09:17:24林,易云飛,黃潛,覃
現代電子技術 2009年20期

李 林,易云飛,黃 潛,覃 俊

摘 要:針對布爾型關聯規則不能表達挖掘對象中模糊信息的關聯性,給出了一系列有關模糊關聯規則的定義,并提出了一種基于矩陣結構的模糊關聯規則數據挖掘算法(FARMBM)。該算法通過構造矩陣結構來壓縮存儲模糊模式候選集和頻繁集,有效節約了存儲模糊模式候選集和模糊模式頻繁集內存花銷,只需掃描數據庫兩遍,且可以有效減少系統的I/O開銷。這里把FARMBM運用到入侵檢測的仿真實驗中,實驗結果表明,該算法是有效的。

關鍵詞:Apriori;矩陣;模糊關聯規則;隸屬函數;入侵檢測

中圖分類號:TP39308文獻標識碼:A

文章編號:1004-373X(2009)20-069-04

Study and Application of Fuzzy Association Rule Mining Based on Matrix

LI Lin1,YI Yunfei1,2,HUANG Qian1,QIN Jun1

(1.College of Computer Science,South-central University for Nationalities,Wuhan,430074,China;

2.Hechi University,Yizhou,546300,China)

Abstract:In allusion to the Boolean association rules can′t express the association of fuzzy data,a series of definitions of fuzzy association rules and mining algorithm based on matrix for fuzzy association rules are proposed.The algorithm can store fuzzy pattern candidate sets and frequent sets compressible by constructing matrix structure,which effectively saves the memory cost for storing fuzzy pattern candidate sets and frequent sets,it only scans database twice,besides it can effectively reduce the I/O spending.FARMBM is applied to the simulation results of intrusion detection,and efficiency of the algorithm is verified by the experiment.

Keywords:Apriori;matrix;fuzzy association rule;membership function;intrusion detection

0 引 言

入侵檢測技術[1-3]是網絡安全的核心技術之一,是網絡信息系統的一種重要的動態防護手段。入侵檢測技術的研究是進一步研究網絡安全問題的基礎,是解決網絡安全問題的前提和保證。當然,網絡入侵技術也在不斷的發展,隨著網絡數據的增大,入侵的行為表現為不確定性、復雜性等特點。那么入侵檢測怎么樣才能做到既減小數據量,又能有效地檢測到入侵。在入侵檢測技術中引入數據挖掘就能有效的解決這一問題。數據挖掘技術在從大量數據中提取特征和規則方面具有很大的優勢,將數據挖掘技術應用于入侵檢測中,能夠克服目前入侵檢測技術存在的缺陷,建立一個準確性高的、易于擴展的、適應性好、伸縮性好、智能的入侵檢測系統。在對關聯規則深入分析的基礎上,把模糊集合理論與數據挖掘技術中關聯規則挖掘結合起來,提出了一種基于矩陣結構的模糊關聯規則數據挖掘算法(FARMBM),并把FARMBM運用到了入侵檢測技術當中。

1 關聯規則的概念與算法

1.1 關聯規則的概念

關聯規則是當前數據挖掘研究的主要模式之一,它用于確定數據集中不同領域或屬性之間的聯系,找出可信的、有價值的多個域之間的依賴關系。關聯規則的挖掘目標是從數據庫中找出形如“由于某些事件的發生而引起另外一些事件的發生”的規則[4-10]。

定義1 設I={i1,i2,…,im}是由m個不同的數據項目組成的集合,其中的元素稱為項(item),項的集合成為項集,包含k個項的項集成為k項集,給定一個事務(交易)D,即交易數據庫,其中的每一個事務(交易)T是數據項I的一個子集,即T罥,T有一個惟一的標識符TID;當且僅當X罷時,稱交易T包含項集X;那么關聯規則就形如X軾的蘊含式;其中,X罥,Y罥,X∩Y=h,即表示滿足X中條件的記錄也一定滿足Y。關聯規則X軾在數據庫中成立,就有支持度s和具有置信度c。這也就是交易數據集D中具有支持度s,即D中至少有s%的事務包含X∪Y,描述為:support(X軾)=P(X∪Y)。

同時交易數據集D中具有置信度c,即D中包含X的事務至少有c%同時也包含Y,描述為:

confidence(X軾)=P(Y|X)

大多數關聯規則挖掘算法通常采用的一種策略是:將關聯規則挖掘任務分解為如下兩個子任務:

(1) 頻繁項集產生:其目標是發現滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(Frequent Itemset)。

(2) 規則的產生:其目標是從上一步發現的頻繁項集中提取所有高置信度的規則,這些規則稱強規則(Strong Rule)。

Apriori算法是挖掘產生關聯規則所需頻繁項集的基本算法;它也是一個很有影響的關聯規則挖掘算法。Apriori 算法就是根據有關頻繁項集特性的先驗知識(Prior Knowledge)而命名的。該算法利用了一個層次順序搜索的循環方法來完成頻繁項集的挖掘工作。

Apriori算法[2]的基本思想是先找出所有頻繁1-項集,這些項集組成L1,然后由L1產生頻繁2-項集,直到有某個r值使得Lr為空,此時算法結束。從Lk-1到Lk的實現,是把Lk-1與自身連接生成候選k-項集合,記為Ck,Ck中的每一個項集是對兩個只有一個項不同屬于Lk-1的頻集做一個(k-2)連接來產生的。Ck中的項集是用來產生頻集的候選集,最后的頻集Lk必須是Ck的一個子集。

由于Ck中的每個元素需在交易數據庫中進行驗證來決定其是否加入Lk,那么這個方法就要求多次掃描可能很大的交易數據庫,即如果頻集最多包含10個項,那么就需要掃描交易數據庫10遍,這需要很大的I/O負載。

1.2 基于矩陣結構的關聯規則數據挖掘算法

從Apriori算法的步驟可以看出,該算法有三個缺點:

(1) 在每一步產生的候選項集過多,沒有排除不應參與組合的元素;

(2) 每次計算子項集的支持度時,都要進行一遍數據庫掃描比較,大大增加系統的I/O開銷,并且數據庫有些可以刪除的項或事務被多次掃描;

(3) 連接程序中相同的項重復比較太多。

針對這些缺點,采用矩陣結構改進Apriori算法,算法思想如下:

(1) 首先把所要挖掘的數據轉化為矩陣結構:事務集T作為行的標記,項I作為列的標記,矩陣中每個元素對應某一事務對應某個屬性的支持計數,這樣每一列的和除以事務的總和,就是所有事務對這一列所對應屬性的支持度。

(2) 如果某一事務中只包含一個屬性,那么它不可能再包含任一個鏈接后的2-項集或者k-項集(k≥2),這一事務在以后統計更高階的頻繁集時不再用到,為了提高掃描速度,可以把這一事務刪除,對應矩陣就是把這一行給刪除。

(3) 接下來把每一列所對應屬性的支持度與最小支持度minsup進行比較,如果小于minsup則把這一列刪除,保留下來的就是頻繁1-項集。

(4) 然后矩陣與自身進行一次連接,這樣就產生了2-項集。

(5)接著重復做步驟(2)~(4),直到矩陣為空或只剩一列,這時候已經找到所有支持度大于最小支持度的項集,即頻集,算法結束。

可以看出,此算法可以有效地減小事務集以及屬性集,這就避免了數據庫有些可以刪除的項或事務被多次掃描。同時解決了連接程序中相同的項重復比較太多的問題。

2 基于矩陣結構的模糊關聯規則數據挖掘算法

2.1 模糊關聯規則

用于入侵檢測技術[2,3]的關聯規則挖掘,需要考慮網絡數據特有的特點,否則會產生很多無用的規則。由于關聯規則數據挖掘通常只能對離散值進行處理,在數據預處理中要將連續屬性域劃分為若干離散區間,這就導致了所謂的“尖銳邊界”(Sharp Boundary)問題。這就引出了關聯規則數據挖掘存在兩個缺陷:

(1) 關聯規則直接依賴于審計記錄,與審計記錄具有一一對應的關系,缺少靈活性。

(2) 屬性值的微小變化將會引起分類上的突變。比如:設定TCP包在區間[0.5,0.9]是挖掘出某一屬性的正常模式,那么如果TCP包是0.900 001,就會判斷為異常,也就是說某個行為如果與表示正常模式的區間稍有偏差,會被判為異常。那么,入侵行為如稍有一些變化而落入區間內,就不會被檢測出來。

這里采用屬性論域上的模糊集來軟化邊界。這是因為模糊集可以在集合元素和非集合元素之間提供平滑的過渡[4,5]。

定義2 數據集D={t1,t2,…,tk,…,tn},I={i1,i2,…,im}為m個不同的數據項目組成的集合,要發現的模糊關聯規則是形如的蘊涵式。其中,X={x1,x2,…,xn},Y={y1,y2,…,yn}且X∩Y=h,A={fx1,fx2,…,fxp},B={fy1,fy2,…,fyq}分別是與X,Y中屬性相應的模糊集集合。

則支持度描述為:

support()=∑∈D(∧xj∈

X{αaj(di[xj])}/|D|

其中,αaj(di[xj])為di的隸屬度。

置信度[6]描述為:

confidence()=support

A∪B>/support

由關聯規則挖掘所產生的規則集,其模式是準確的,而在入侵檢測系統中,對于規則集的建立,往往更偏重于語義的,而不是非常準確的區間描述,比如采用數據包傳輸的大與小,由TCP協議傳輸的數據包所占比例的高與低來描述網絡傳輸數據的性質,要比用精確的區間如用[100,110)來描述更符合實際處理的需要。因此,將模糊關聯規則應用于入侵檢測系統中,更符合入侵檢測的數據處理模式,使得規則集的建立更趨于準確降低了規則集建立的疏漏和誤判。為此,把模糊集合理論與關聯規則挖掘結合起來,提出基于矩陣結構的模糊關聯規則數據挖掘算法(Fuzzy Association Rule Mining Base on Matrix,FARMBM)。

2.2 算法的描述

FARMBM算法與基于矩陣結構的關聯規則數據挖掘算法基本相似,只有一點不同就是首先需要將挖掘的數據通過隸屬函數轉化為模糊數據集后再進行挖掘。具體算法如下:

算法:FARMBM

輸入:模糊數據集D、最小支持度minsup;

輸出:模糊關聯規則集。

方法:

初始化矩陣行和列數:countrow和countcol;

初始化矩陣:

double[,] arraya;//使用一個二維數組存放矩陣

double[] tempa;//使用一個一維數組存放每個屬性的支持度

String[,]strArr;//使用一個字符串數組來存放各個屬性

While(countcol>1);//矩陣至少大于一列

for(int i=0;i

{for(int k=0;k

if(arraya[i,k]!=0)

num++;

if(num<2) Delete Ti;//刪除行

for(int k=0;k

{ for(int i=0;i

tempa[k]=tempa[k]+arraya[i,k];}

//把各個屬性的隸屬度相加,得出各個屬性的支持度

if(tempa[k]

if(arraya[m,countrol-1]!= arraya[n,countrol-1])

for(w=countrol-1;w>=0;w--)

if(arraya[m,w]== arraya[n,w])

TstrArr[i]= arraya[m,w]+arraya[n,w];

for(int f=0;f

{c++;

if(c==count){e++;c=e+1;}

for(int i=0;i

arrayb[i,f]=arraya[i,e]*arraya[i,c];}

//如果第m列與第n列中除了最后一個頻繁項不同,其余的都相同,則組成一個新的頻繁項,這兩列各元素相乘;接著對arrayb做刪除行和刪除列,自身連接,直到矩陣為空或只剩一列,算法結束

3 基于FARMBM的入侵檢測技術

3.1 實驗環境

操作系統:Microsoft Windows XP Professional,CPU;Pentium (R) 2.40 GHz;內存:256 MB;開發平臺:Microsoft Visual Studio.Net 2003;編程語言:C#。

3.2 實驗方法

首先選擇與網絡流量相關的4個屬性:TCP和UDP包在全部數據包中的比例PTCP和PUDP,網絡中每秒的平均數據包數量Avg.Packet/s 以及每秒平均數據位Avg.Mb/s。

利用Wincap抓取網絡數據,將它們劃分為High和Low如表1所示的兩個模糊集,PTCP,PUDP,Avg.Packet/s以及Avg.Mb/s的隸屬函數如圖1所示。

表1 模糊集

TID

PTCPPUDPAvg.PacketAvg.Mb

ABCDEFGH

T100.881000.6301

T200.920.91000.7500.92

T300.56100101

T400.920100.7300.86

T500.870.5300.89010

T60000.500.6101

T7010.56000.9301

T810100100.91

T90.730100.63010

T100.910100100.83

圖1 隸屬函數

High:

μA(X)=0, x

(x-a)/(b-a),a≤x≤b

1,x>b

Low:

μA(X)=1, x

(b-x)/(b-a),a≤x≤b

0,x>b

為了在數組中便于表示,采用如下表示方法:

A:Ptcp Low,B:Ptcp High,C:Pudp Low,D:Pudp High,E:Avg.Packet/s High,F:Avg.Packet/s Low G:Avg.Mb/s Low,H:Avg.Mb/s High。

運行FARMBM程序,對表1數據經行挖掘:最小支持度minsup設定為0.25。首先產生頻繁1-項集。頻繁1-項集自身連接,經過刪除行和列,產生頻繁2-項集。最后產生頻繁3-項集。于是,可以發現以下關聯規則:

R1:B:PtcpHigh,F:Avg.Packet/s Low→H:Avg.Mb/s High

支持度為:28.4%,可信度為:2.839 11/3.397 2=83.57%

R2:C:PUDP Low,F:Avg.Packet/s Low→H:Avg.Mb/s High

支持度為:42.2%,可信度:4.223 037/4.832 3=87.39%

這些規則揭示了網絡各數據屬性的潛在關系,比如:在高TCP,低每秒的平均數據包數量的時候,有83.57%的可能產生高每秒平均數據位;在低UDP,低每秒的平均數據包數量的時候,有87.39%的可能產生高每秒平均數據位。這些規則對網絡數據流量的監控與判斷檢測異常是非常有用的。FARMBM算法與Apriori算法時間消耗的比較如圖2所示。

圖2 FARMBM算法與Apriori算法時間消耗的比較

4 結 語

數據挖掘技術是一種處理大量數據的復雜過程,它為入侵檢測提供了新的方法,為入侵檢測的發展注入了強大的動力。模糊集合理論與數據挖掘技術中關聯規則挖掘的結合為入侵檢測技術提供了更有效的方法。在此提出FARMBM算法,給出算法的描述,并以實例進行了分析與驗證。實驗表明,改進后的算法用于入侵檢測技術中是可行的,有效的。

參考文獻

[1]Li Tianrui,Pan Wuming.Intrusion Detection System Based on New Association Rule Mining Model[A].Granular Computing,2005 IEEE International Conference[C].2005,2:512-515.

[2]覃俊,易云飛,李林.改進k均值聚類算法在網絡入侵檢測中的應用研究[J].中南民族大學學報:自然科學版,2008,27(9):75-78.

[3]谷保平,許孝元,郭紅艷.基于粒子群優化的k均值算法在網絡入侵檢測中的應用[J].計算機應用,2007,27(6):1 368-1 370.

[4]Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].China Machine Press,2007.

[5]Ji Lei,Zhang Baowen,Li Jianhua.A New Improvement on Apriori Algorithm[A].2006 International Conference on Computational Intelligence and Security[C].2006,1:840-844.

[6]Kuok C,Fu A,Wong M.Mining Fuzzy Association Rules in Databases[J].ACM SIGMOD Record,1998,27(1):41-46.

[7]Agarwal R,Aggrawal C,Prasad V V V.A Tree Projection Algorithm for Generation of Frequent Itemsets[J].Journal of Parallel and Distributed Computing,2000:427-434.

[8]Holt J D,Chung S M.Mining Association Rules in Text Databases Using Multipass with Inverted Hashing and Pruning Tools with Artificial Intelligence[A].ICTAI[C].2002:49-56.

[9]Ayouni S,Ben Yahia S.Extracting Compact and Information Lossless Set of Fuzzy Association Rules[A].Fuzzy Systems Conference[C].2007:1-6.

[10]朱天清,熊平.模糊關聯規則挖掘及其算法研究[J].武漢工業學院學報,2005,24(1):24-28.

[11]朱燁,葉高英.關聯規則挖掘Apriori算法的改進[J].現代電子技術,2008,31(18):78-80.

主站蜘蛛池模板: 国产二级毛片| 国产精品自拍合集| 欧美在线一二区| 亚洲国产成人麻豆精品| 成人中文在线| 欧美性天天| 理论片一区| 精品久久久久久成人AV| 欧洲亚洲欧美国产日本高清| 亚洲人成网站色7777| 一级毛片无毒不卡直接观看| 尤物国产在线| 91精品国产情侣高潮露脸| 激情视频综合网| 亚洲国产天堂久久综合| 熟女视频91| 一边摸一边做爽的视频17国产| 亚洲三级a| 在线观看免费AV网| 欧美在线综合视频| 91精品在线视频观看| 亚洲人成网站在线观看播放不卡| 国产日本一区二区三区| 青青青视频91在线 | 欧美三级视频网站| 国产人成午夜免费看| 午夜成人在线视频| 国产精品女主播| 国产在线视频欧美亚综合| 69国产精品视频免费| 国产区在线观看视频| 国产高潮流白浆视频| 亚洲精品麻豆| 亚洲经典在线中文字幕 | 精品乱码久久久久久久| 国产91小视频在线观看| 亚洲IV视频免费在线光看| 国产午夜不卡| 国产福利一区视频| 国产精品观看视频免费完整版| 亚洲国产成熟视频在线多多 | 亚洲va在线观看| 久久永久免费人妻精品| 亚洲激情区| 综合网天天| 欧美不卡视频一区发布| 亚洲无码视频一区二区三区| 狠狠久久综合伊人不卡| 国产在线97| av在线无码浏览| 日韩美女福利视频| 国产成人亚洲精品色欲AV| 日本欧美视频在线观看| 国产噜噜噜视频在线观看 | 九色综合伊人久久富二代| 亚洲免费人成影院| 在线欧美a| 久久香蕉国产线看观| 97超碰精品成人国产| 美女一级免费毛片| 99精品视频九九精品| 国产美女自慰在线观看| 天天干天天色综合网| 欧美成人免费一区在线播放| 亚洲不卡网| 免费啪啪网址| 国产欧美专区在线观看| 中文无码精品A∨在线观看不卡 | 久久久久中文字幕精品视频| 老色鬼久久亚洲AV综合| 亚洲资源站av无码网址| 国产男女免费视频| 多人乱p欧美在线观看| 青青国产视频| 日韩天堂在线观看| 成人国产精品一级毛片天堂| 99这里精品| 高清国产在线| 亚洲综合片| 热这里只有精品国产热门精品| 日韩视频精品在线| AⅤ色综合久久天堂AV色综合|