999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的頻繁項集挖掘算法

2007-01-01 00:00:00劉德喜何炎祥邢顯黎
計算機應用研究 2007年2期

摘 要:首先對傳統集合操作進行了擴展,提出基于擴展集合操作的最大頻繁項集生成算法FIS-ES,并從理論和實驗上對算法的復雜度進行了詳細的分析。實驗表明,在最小支持度較小的情況下,FIS-ES比Apriori算法具有更快的挖掘速度、更少的空間占用等優點,與Apriori有很好的互補性。

關鍵詞:擴展集合操作; 關聯規則; FIS-ES算法

中圖法分類號:P208; TP393文獻標識碼:A

文章編號:1001—3695(2007)02—0017—03

關聯規則的挖掘分為兩步[1,7]:首先找出滿足最小支持度要求的頻繁項集;然后根據頻繁項集生成滿足最小置信度要求的關聯規則集。其中,第二步比較成熟,挖掘關聯規則的總體性能則由第一步決定。經典頻繁項集挖掘算法Apriori[1,2]的主要問題是由于多次重復掃描而帶來的I/O 代價過高, 因此, 之后的研究提出了許多減少數據庫掃描次數的方法, 比較有代表性的是分塊、采樣等[2—6]。近年來, 通過減少項目集的搜索空間來減少數據庫的掃描次數已經被廣泛研究,典型的代表有Han 提出的FP-增長算法[4]。該方法不用候選頻繁集,而是通過狀態樹記錄掃描信息,一次掃描數據庫生成頻繁項集。本文算法將利用擴展后的集合操作,通過一次掃描數據庫,逐步生成最終的最大頻繁項集。

1 基本概念

定義1(集合上的亞操作)[8] 設S1和S2是定義在相空間上的兩個項目集,I是定義在相空間上的一個項。定義如下操作:

2 基于擴展集合操作的頻繁項集挖掘算法(FIS-ES)

2.1 理論依據

FIS-ES算法與Apriori算法具有相同的理論依據,即Apriori性質:頻繁項集的所有非空子集也都必須是頻繁的,算法均使用了頻繁項集性質的先驗知識,只是使用的方向不同。Apriori性質屬于一種反單調的分類。如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。基于此,Apriori算法使用逐層搜索的迭代方法,頻繁K-1項集通過與自身連接生成候選的K項集,再對候選的K項集進行剪枝,保留滿足最小支持度要求的項,以壓縮搜索空間。如此反復,直到不能找到頻繁K項集為止。

Apriori性質同時還表明,如果一個集合通過了測試,則它的所有子集也都能通過相同的測試。FIS-ES算法正是基于此性質。算法逐個讀取數據庫中的記錄,并考查當前是否有符合最小支持度要求的頻繁項,如果有,則刪除該頻繁項的真子集,重復該操作直到數據庫中的記錄全部讀完為止。該算法通過只保留最大的頻繁項集來達到壓縮搜索空間、提高效率的目的。FIS-ES算法與Apriori算法的另一個不同之處是,FIS-ES只需掃描一次數據庫,而Apriori算法的每一層搜索都需要掃描一次數據庫。當數據庫較大,不能一次放入內存時,多次重復的I/O操作會嚴重影響Apriori算法的效率。

2.2 三個基本函數

數據庫每個記錄的掃描可以看作是新的項目加入項集的過程,這一工作可以通過項集的并操作來完成。為了方便,通常使用支持數Nms代替支持度Pms,即以該項在數據庫中的出現次數來進行相關討論。

2.3 最大頻繁項集的挖掘算法 

基于擴展集合操作的關聯規則挖掘算法在內存中建立了兩個線性數據結構S和S*,S存儲從數據庫掃描中得到的項,S*存儲生成的頻繁項集,它們的元素隨著項的增加和裁減而變化。基于擴展集合操作的最大頻繁項集的生成算法FIS-ES如下。

2.4 FIS-ES算法執行示例

對于包含項{ABCD,BCE,ABCE,BDE,ABCD}的事務數據庫,我們跟蹤FIS-ES算法的執行。表1給出了FIS-ES對它的處理過程(假設Pms=40%,則Nmin=2)

2.5 FIS-ES算法分析

2.5.1 空間與時間復雜度的理論分析

假定NT為事務數據庫中項的個數,NI為項目空間大小,LMI為事務數據庫中最長項的長度,NDI為事務數據庫中所包括的不同項數目。

FIS-ES算法在空間上的代價主要是項集S、頻繁項集S*及MakeFre中I的所有子集的存儲。FIS-ES算法的時間和空間效率的理論分析如下。

2.5.2 實驗結果分析 

本節通過三組試驗對以下三個因素進行測試。試驗是在Celeron 1.7GHz/256MB RAM的PC上進行的,試驗用的數據庫是隨機產生的項,其中的項均以大寫英文字母標志。FIS-ES算法的可用性取決于以下幾個因素:

(1)空間占用試驗

本試驗描述在不同事務數據庫容量下,FIS-ES算法中的空間占用情況。圖1和圖2顯示了LMI=8,NI=10,最小支持度Pms=0.05時的實驗結果。

如圖1所示,隨著數據量的增大,S*保持平穩,即使在數據隨機的情況下,S*也會遠小于它的理論值;而S的空間復雜度呈現O(log NT)的趨勢,不會發生膨脹的指數增長結果。另外,由于數據是隨機產生的,因此項重復的可能性較小(選擇最小支持度較小,也是這個原因),如果項的重復性大,S的空間占用會有下降的趨勢。

(2)時間占用試驗

本試驗描述在不同事務數據庫容量下,FIS-ES算法的時間占用情況。圖2給出了隨著數據庫容量增大,FIS-ES算法的時間攀升趨勢。從圖2可以看出,FIS-ES算法的執行時間呈線性增長,遠小于理論上限值。

(3)FIS-ES與Apriori算法的對比試驗

①時間/空間占用隨項數目的變化

圖3是在LMI=8,NI=10,最小支持度Pms=0.005時,兩種算法時間占用和空間占用情況的比較。結果表明,在最小支持度比較低的情況下,FIS-ES的時間和空間占用要比Apriori要少。

②時間/空間占用隨最小支持度的變化

圖4是在NT=4K,LMI=8,NI=10的條件下,兩種算法的時間和空間占用隨最小支持度變化的情況。

如圖4所示,隨著最小支持度的降低,FIS-ES算法的時間和空間占用呈下降趨勢,而Apriori算法則呈上升趨勢。因為最小支持下降,Apriori中的候選項目集會指數增加,從而導致時間和空間占用急劇加大。相反,FIS-ES算法在最小支持度降低時,最大頻繁項集中項目的長度增加、數據增多,從而S中的項目因裁減得越來越多,待考查的項目相對減少,所以占用的時間和空間會呈下降趨勢。由此可見,FIS-ES算法與Apriori有著很好的互補性。

3 結束語

FIS-ES算法只需一次事務數據庫掃描就可以獲得最大頻繁項集,其使用的線性數據結構比FP-Tree算法存儲結構簡單,而且通過及時裁減,提高了內存的利用率。實驗表明FIS-ES算法在時間和空間的占用上是遠小于它的理論上界值的,在最小支持度較小的情況下,FIS-ES比Apriori算法具有更快的挖掘速度、更少的空間占用等優點,與Apriori具有很好的互補性。FIS-ES算法有待改進之處在于:①算法的時間和空間占用隨項目長度的增加呈指數增長,這種情況在最小支持度較大時表現得尤為突出;②所有的中間數據都存放在內存中,這種方式在事務數據庫很大時是不可取的。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: h视频在线播放| 国产午夜无码专区喷水| 久久情精品国产品免费| 中文字幕无线码一区| 日本国产一区在线观看| 日韩精品一区二区三区视频免费看| 91精品最新国内在线播放| 国产精品毛片在线直播完整版| 最新国产精品第1页| 91av成人日本不卡三区| 国产乱人免费视频| 欧美午夜在线观看| 国产精品国产主播在线观看| 成人免费视频一区二区三区 | 亚洲欧美日本国产综合在线| 欧美一级高清片久久99| 都市激情亚洲综合久久| 亚洲国产精品人久久电影| 久热re国产手机在线观看| 欧美国产成人在线| 亚洲综合一区国产精品| 国产美女91呻吟求| 欧日韩在线不卡视频| 国产色伊人| 国产色偷丝袜婷婷无码麻豆制服| 性色一区| 青青国产在线| 日韩天堂在线观看| 精品视频在线观看你懂的一区| 在线国产欧美| 91欧美在线| 国产黄色免费看| 色哟哟国产精品| 在线视频精品一区| 色亚洲成人| 麻豆精品在线| 国产综合在线观看视频| 国产一级毛片网站| 亚洲天堂首页| 国产又粗又猛又爽视频| 精品国产三级在线观看| 国产成人精品视频一区二区电影| jijzzizz老师出水喷水喷出| 91久久青青草原精品国产| 国内自拍久第一页| 国产精品美女自慰喷水| 色欲综合久久中文字幕网| 黄色一级视频欧美| 91在线一9|永久视频在线| 日本91视频| 欧美色视频日本| 亚洲成肉网| 欧美精品高清| 精品1区2区3区| 婷婷激情亚洲| 日本不卡视频在线| 美女国产在线| 日韩欧美视频第一区在线观看 | 毛片在线播放a| 91青青草视频在线观看的| 国产精品lululu在线观看| 国产精品3p视频| 国产哺乳奶水91在线播放| 日本影院一区| 国产精品不卡永久免费| 国产在线精品99一区不卡| 欧美日韩中文字幕在线| 精品久久国产综合精麻豆| 伊人激情久久综合中文字幕| 日韩欧美在线观看| 国产不卡网| 香蕉久久永久视频| 亚洲人成网7777777国产| 国产噜噜噜视频在线观看| 成人欧美日韩| 99久久精品国产综合婷婷| 亚洲一区国色天香| 9cao视频精品| 国产成人区在线观看视频| 欧美午夜小视频| 在线观看免费国产| 天天色天天综合网|