999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談Apriori算法

2012-04-29 00:00:00羅剛
企業導報 2012年10期

【摘要】隨著大量數據不斷收集和存儲,許多業界人士對于從他們的數據庫中挖掘關聯規則越來越感興趣。Apriori算法就是經典的關聯挖掘算法,文章分析了Apriori的算法思想、算法具體方法及其不足。

【關鍵詞】數據;關聯規則;Apriori算法

一、Apriori算法概述

Apriori算法是一種最有影響力的挖掘布爾關聯規則的頻繁項集的算法,它是由Rakesh Agrawal和Ramakrishnan Skrikant提出的。它使用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L2,如此下去,直到不能找到k-項集。每找一個Lk需要一次數據庫掃描。為提高頻繁項集逐層產生的效率,一種稱作Apriori性質的重要性質用于壓縮搜索空間。其運行定理在于一是頻繁項集的所有非空子集都必須也是頻繁的,二是非頻繁項集的所有父集都是非頻繁的。

二、Apriori算法思想

Apriori中提出了一個基于兩階段頻集思想的方法,其核心思想如下:(1)連接步:為找Lk,通過Lk-ι與自己連接產生候選k-項集的集合。該候選項集的集合記作Ck。設I1和I2是Lk-1中的項集。記號Li[j]表示Li的第j項。為方便計,假定事物或項集中的項按字典次序排序。如果它們前(k-2)個項相同,則它們是可連接的。如果:(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1),條件L■K-1<L■k-1是保證不產生重復,則Lk-1中的元素I1和I2是可連接的,結果項集是I11I12…I1k-1I2k-1。(2)剪枝步:Ck是Lk的超集;即,Ck的成員可能是或可能不是大項集,但所有k-大項集都包含在Ck中。掃描數據庫,確定每個侯選集的計數,計數值不小于最小支持度的所有侯選集為大項集,從而確定Lk。然而Ck,可能很大,因此要確定侯選計數的量可能很大。為壓縮Ck,可由性質:任何非頻繁(k-1)項集都不可能是k-項集的子集。因此,如果一個侯選k-項集的(k-1)項子集不在Lk-1中,則該侯選項集也不是頻繁的,從而可從Ck中刪除。

三、Apriori算法具體方法

Apriori算法在于Apriori使用根據候選生成的逐層迭代找出頻繁項集。輸入事物數據庫D,最小支持度閡值min_supp;輸出D中的頻繁項集L。方法如下:={large1-itemsets};for(k=2;Lk-1≠¢;k++){ Ck=Apriori_gen(Lk-1,min_supp);//產生侯選集for each transaction t∈D { Ct=subset(Ck,t);//交易t中包含的侯選集for each candidate c∈Ct c.count++;}//end for t Lk={c∈Ck|c.count≥min_supp}}//end for k ReturnL=∪kLk;Procedure Apriori_gen(Lk-1;frequent(k-1)-itemsets;min_supp){ for each itemset L1∈Lk-1 for each itemset L2∈Lk-1 if(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1){ c=L1×L2;//連接步 產生侯選集 if has_infrequent_subset(c,) Delete c;//剪枝步 刪除不頻繁侯選else add c to Ck;} RenturenCk } Procedure has_infrequent_subset(c:candidate;k-itemset;Lk-1) { for each(k-1)-sebset s of c if s∈Lk-1 Return True;else Return False;}

四、Apriori算法的不足之處

Apriori首先產生頻繁1-項集L1,然后是頻繁2-項集L2,直到有某個r值使得Lr為空,這時算法停止。這里在第k次循環中,過程先產生候選k-項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做連接來產生的。Ck中的項集是用來產生頻集的候選集,最后的頻集Lk必須是Ck的一個子集。Ck中的每個元素需在交易數據庫中進行驗證來決定其是否加入Lk,這里的驗證過程是算法性能的一個瓶頸。這個方法要求多次掃描可能很大的交易數據庫,即如果頻集最多包含10個項,那么就需要掃描交易數據庫10遍,這需要很大的I/O負載,因而挖掘效率很低。其次,該算法使用起來不方便,因為它只讓用戶提供最小支持度和最小可信度,然后將所有滿足條件的關聯規則都挖掘出來,導致結果集很大,用戶難以理解,需要進行大量的篩選才能抽取有用的規則。由此可見,關聯規則所采用的算法應注重用戶的參與性,因為不可能簡單的通過把許多數據輸入一個“黑匣子”以期望得到有用的知識。同時用戶必須了解所屬領域的背景知識,然后才可選擇感興趣的數據集合和模式。因此,關聯規則的任務應該是一個交互式工具而非僅僅是自動分析。

參 考 文獻

[1]朱其祥,徐勇,張林.基于改進Apriori算法的關聯規則挖掘研究[J].計算機技術與發展.2006(7)

[2]李曉虹,尚晉.一種改進的新Apriori算法[J].計算機科學.2007(4)

[3]文蓉,李仁發.一種優化的Apriori算法[J].計算機系統應用.2008(1)

[4]頓毅杰.關聯規則挖掘中的Apriori算法淺析[J].中國科技信息.2009(22)

[5]況莉莉.Apriori算法與FP-tree算法的探討[J].淮北煤炭師范學院學報(自然科學版).2010(2)

主站蜘蛛池模板: 婷婷综合在线观看丁香| 欧美不卡二区| 麻豆精品在线视频| 日本免费a视频| 国产在线一区二区视频| 日韩无码视频播放| 欧美精品亚洲精品日韩专区| 国产又大又粗又猛又爽的视频| 日韩一二三区视频精品| 久久黄色一级片| 亚洲第一视频网| 日韩免费成人| 亚洲人成成无码网WWW| 免费视频在线2021入口| 国产精品黄色片| 99久久99这里只有免费的精品| 激情综合婷婷丁香五月尤物| 久久国产精品无码hdav| 制服丝袜 91视频| 亚洲高清在线播放| 天天躁夜夜躁狠狠躁躁88| 中文字幕欧美日韩| 欧美国产三级| 日韩中文字幕亚洲无线码| 中国国产高清免费AV片| 91香蕉国产亚洲一二三区| 国产一区二区影院| 成人一级黄色毛片| 香蕉在线视频网站| 日韩美女福利视频| 四虎国产在线观看| 日韩A∨精品日韩精品无码| 国产成人亚洲综合a∨婷婷| 国产拍在线| 国产亚洲欧美日本一二三本道| 伊人婷婷色香五月综合缴缴情| 成人一区专区在线观看| 99ri精品视频在线观看播放| 伊人网址在线| 9啪在线视频| 亚洲欧美不卡视频| 性视频久久| 亚洲 欧美 中文 AⅤ在线视频| 婷婷六月综合网| 99视频在线看| 国产白浆一区二区三区视频在线| 欧美一级一级做性视频| 亚洲成人免费在线| 亚洲丝袜中文字幕| 91久久精品国产| 极品国产在线| 中文字幕在线视频免费| 久久大香香蕉国产免费网站| 久久久久无码国产精品不卡| 91精品福利自产拍在线观看| 亚洲成人www| 国产精品嫩草影院av| 国产成人精品视频一区二区电影| 国产情精品嫩草影院88av| 欧美日本在线观看| 中文字幕中文字字幕码一二区| 亚洲第一成年网| 国产人妖视频一区在线观看| 国产精品任我爽爆在线播放6080| 动漫精品啪啪一区二区三区| 97久久免费视频| 91精品伊人久久大香线蕉| 一级爆乳无码av| 亚洲美女操| 国产农村妇女精品一二区| 精品免费在线视频| 日韩精品亚洲一区中文字幕| 成人在线观看不卡| 无码'专区第一页| 免费一极毛片| 在线无码av一区二区三区| 亚洲不卡无码av中文字幕| 亚洲人成人无码www| 亚洲国产精品不卡在线| 亚洲国产天堂久久九九九| 77777亚洲午夜久久多人| 粉嫩国产白浆在线观看|