999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Ap riori算法的改進關聯規則的算法研究

2012-01-29 09:38:50謝美萍芮廷先
泰山學院學報 2012年3期
關鍵詞:關聯規則數據庫

謝美萍,芮廷先

(上海財經大學信息管理與工程學院,上海 200433)

1 引言

關聯規則的最經典算法就是Apriori算法,但是該算法在實際應用時,存在著很多缺陷,比如需要多次掃描事務數據庫,需要很大的I/O負載,而且可能產生龐大的候選集.針對這些缺陷,許多學者提出了改進的算法,王培吉等[1]提出一種基于分辨矩陣的含負屬性項的關聯規則挖掘算法;王娟琴等[2]在研究ApriorTid算法的基礎上提出了一種高效的關聯規則挖掘算法AprioriTidD,在計算數據庫中的頻繁項集時依靠有效的裁剪減少無效項集的產生,同時可以減少候選項集,從而提高算法效率;方煒煒等[3]針對可快速在大型交易事務數據庫中挖掘關聯規則的問題,提出了一種基于布爾矩陣的挖掘算法,該算法通過僅需存儲布爾位節約了內存,提高求解頻繁項集的效率.針對關聯規則的特點,本文也提出了一種基于Apriori算法的改進算法,通過內存矩陣,將事務數據庫的相關信息存放到內存矩陣中,同時在找頻繁項目集的時候采用數組分組的方法來減少對內存矩陣的掃描.為了減少候選集,采用從大到小篩選頻繁項目集的方法,同時把相應的事務從矩陣中刪除以減少掃描范圍.

2 關聯規則的定義

設I={i1,i2,…,im}為項目集,事務數據庫D={t1,t2,…,tn}是由一系列具有唯一標識TID的事務組成,每個事務ti(i=1,2,…,n)都對應項目集I上的一個子集.關聯規則就是一個蘊涵式,形如X?Y,其中X∈I,Y∈I,并且滿足X∩Y=?.其中X是關聯規則的條件,Y是關聯規則的結果.在使用關聯規則前,需設定最小支持度(Minsupport)與最小置信度(Minconfidence),最小支持度的定義是事務集合D中包含有X和Y的百分比.最小置信度的定義是事務集合D中同時包含X和Y的事務占X的百分比.因此使用關聯規則的關鍵問題就轉換為如下兩個問題:

(1)發現頻繁項目集:通過用戶給定Minsupport,尋找所有頻繁項目集或者最大頻繁項目集.

(2)生成關聯規則:通過用戶給定Minconfidence,在頻繁項目集中,尋找關聯規則.

發現頻繁項目集的典型算法就是前面提及的Apriori算法,本文針對該算法提出一些改進,可以減少掃描數據庫的次數,很快找到最大頻繁項目集.

3 模型介紹

利用Apriori算法的頻繁項目集的兩個性質,即任何強項集的子集必定是強項集;任何弱項集的超集必定是弱項集.這樣就可以解決Apriori算法要多次掃描事務數據庫的問題,采用掃描一次事務數據庫把信息存放到內存矩陣中來實現,同時在找頻繁項目集的時候采用數組分組法來減少對矩陣的掃描.為了減少候選集,采用從大到小的篩選頻繁項目集的方法,同時把相應的事務從矩陣中刪除以減少掃描范圍.

具體算法描述如下:

設有n個事務,k個項目.

(1)把事務數據庫存入矩陣.項目為行,事務為列;事務中有對應項目則在矩陣相應位置填1,否則填0.

(2)掃描矩陣,記下所有項目均存在的事物,并把矩陣中相應的行刪掉,形成新的矩陣.

(3)L-(k-m)的生成:掃描矩陣,對每行中為1的元素作排列組合,得出的項目集存入相應的數組中,數組第一個數為項目個數.找出大于規定的最小支持度的項目集,把矩陣中的包含這個項目集所有元素且元素數等于k-m的行刪除.

(4)重復(3),直到矩陣中行數小于給定的minsupport_count時停止.

此時,很容易找出事務數據庫的最大頻繁項目集,各個不同維度的頻繁項目集即是已求出的頻繁項目集的子集的并集.

4 模型仿真

設有如下事務數據庫(表1),共含有5件商品,6條事務,項目分別用ABCDE表示:設定最小支持度為50%,即minsupport_count=3,用三中描述的算法尋找各個不同維度的頻繁項目集,步驟如下:

第一步,生成L5.因為沒有同時含有ABCDE的事務,所以,候選集C5為空集.

第二步,生成L4.掃描矩陣,生成以下數組,如表2所示:

表2 4-項目集的數組分配實例

因為最小支持度為50%,即minsupport_count=3,則L4={A,B,D,E}

同時刪除矩陣的第二行、第四行與第五行,得到新矩陣如下.

第三步,生成L3.掃描矩陣,生成以下數組,如表3所示:

表3 3-項目集的數組分配實例

因為最小支持度為50%,即minsupport_count=3,以上各3項集均不滿足,則保留原矩陣.第四步,生成L2.

表4 2-項目集的數組分配實例

因為最小支持度為50%,即minsupport_count=3,則{B,C}滿足最小支持度,而{B,C}所對應的行為第一行、第二行與第三行,這樣刪除矩陣中的這三行,剩下一個空矩陣,不必再繼續找下去了.算法終止,見表4.

從上面的計算可以很容易的看出,該事務數據庫最大頻繁項目集為{ABDE},與{BC},并且可一次求出其他各維項目集可由{ABDE},{BC}的子集的并集求出:

1-項目集{A},{B},{C},{D},{E};

2-項目集{AB},{AD},{AE},{BD},{BE},{DE},{BC};

3-項目集{ABD},{BDE},{ADE},{ABE};

4-項目集{ABDE}.

5 結論

從算法的運行過程可以看出該算法與傳統的Apriori算法相比,計算量大大減少,只需要掃描數據庫一次,從而也減少了I/O的次數.在生成頻繁項目集中用矩陣保存數據,并將生成的頻繁項目集所在矩陣的行刪除,減少了候選集的數目,從而減少了訪問數據庫的次數,提高了運行的速度.

[1]王培吉,趙玉琳,呂劍峰.基于Apriori算法的關聯規則數據挖掘研究[J].統計與決策,2011(23):19-21.

[2]王娟勤,李書琴.一種高效關聯規則挖掘算法[J].湖南科技大學學報(自然科學版),2011,26(4):60-63.

[3]方煒煒,楊炳儒,宋威.基于布爾矩陣的關聯規則算法研究[J].計算機應用研究,2008,25(7):1964-1966.

猜你喜歡
關聯規則數據庫
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
數據庫
財經(2017年2期)2017-03-10 14:35:35
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 国产精品黑色丝袜的老师| a国产精品| 日韩中文无码av超清| 国产亚洲精| 午夜老司机永久免费看片| 丁香综合在线| 亚洲手机在线| 精品国产福利在线| 亚洲精品欧美日韩在线| 国产av无码日韩av无码网站| 狼友视频国产精品首页| 亚洲 欧美 偷自乱 图片| 在线亚洲精品福利网址导航| 中文一级毛片| 99久久国产精品无码| 日韩中文字幕免费在线观看| 在线免费亚洲无码视频| 久久久久无码国产精品不卡| 免费av一区二区三区在线| 日韩区欧美区| 亚洲精品欧美日本中文字幕| 亚洲国产AV无码综合原创| 国产91丝袜在线播放动漫| 亚洲人成网线在线播放va| 一本久道热中字伊人| 欧美在线黄| 最新日本中文字幕| 国产99热| 婷婷六月综合| 成人福利在线观看| 精品少妇人妻无码久久| 99在线观看免费视频| 国产精品一区在线观看你懂的| 亚洲视频免| 日韩欧美网址| 成人福利免费在线观看| 亚洲精品欧美日韩在线| 亚洲欧美日韩视频一区| 欧美一级大片在线观看| 国产精品自在线天天看片| 永久免费无码成人网站| 亚洲人精品亚洲人成在线| 免费一级毛片在线播放傲雪网| 沈阳少妇高潮在线| 狼友av永久网站免费观看| 亚洲人成网站在线观看播放不卡| 久久久久久久久亚洲精品| 蜜桃臀无码内射一区二区三区| 欧美综合区自拍亚洲综合绿色| 国产精品女主播| 88国产经典欧美一区二区三区| 婷婷在线网站| 久久免费成人| 欧美一区二区三区不卡免费| 亚洲国产综合精品一区| 伊人中文网| 国产美女主播一级成人毛片| 99re热精品视频国产免费| 国产欧美精品专区一区二区| 免费国产在线精品一区| 国产剧情一区二区| 成年av福利永久免费观看| 久久不卡国产精品无码| 伊人久久青草青青综合| 久久香蕉国产线看观看亚洲片| 国产成人精品亚洲日本对白优播| 亚洲黄色网站视频| 亚洲欧美在线综合一区二区三区| 国产AV无码专区亚洲精品网站| 国内精品久久久久鸭| 久久久亚洲国产美女国产盗摄| 亚洲第一区欧美国产综合| 亚洲成aⅴ人片在线影院八| 国产特一级毛片| 国产成人亚洲精品色欲AV| 国产免费看久久久| 国产jizzjizz视频| 国产国语一级毛片| av免费在线观看美女叉开腿| 国产制服丝袜91在线| 久久精品一卡日本电影| 欧美成人综合视频|