一種自底向上的最大頻繁項(xiàng)集挖掘方法

2017-09-01 15:54:43吳廖丹

計(jì)算機(jī)技術(shù)與發(fā)展 2017年8期

趙陽(yáng)，吳廖丹

(江南計(jì)算技術(shù)研究所，江蘇無(wú)錫 214083)

趙陽(yáng)，吳廖丹

(江南計(jì)算技術(shù)研究所，江蘇無(wú)錫 214083)

頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則挖掘中最關(guān)鍵的步驟。最大頻繁項(xiàng)集是一種常用的頻繁項(xiàng)集簡(jiǎn)化表示方法。自頂向下的最大頻繁項(xiàng)集挖掘方法在最大頻繁項(xiàng)集維度遠(yuǎn)小于頻繁項(xiàng)數(shù)時(shí)往往會(huì)產(chǎn)生過(guò)多的候選頻繁項(xiàng)集。已有的自底向上的最大頻繁項(xiàng)集挖掘方法或者需多次遍歷數(shù)據(jù)庫(kù)，或者需遞歸生成條件頻繁模式樹(shù)，而預(yù)測(cè)剪枝策略有進(jìn)一步提升的空間。為此，提出了基于最小非頻繁項(xiàng)集的最大頻繁項(xiàng)集挖掘算法(BNFIA)，采用基于DFP-tree的存儲(chǔ)結(jié)構(gòu)，通過(guò)自底向上的方式挖掘出最小非頻繁項(xiàng)集，利用最小非頻繁項(xiàng)集的性質(zhì)進(jìn)行預(yù)測(cè)剪枝，以縮小搜索空間，再通過(guò)邊界頻繁項(xiàng)集快速挖掘出最大頻繁項(xiàng)集。驗(yàn)證實(shí)驗(yàn)結(jié)果表明，提出算法的性能較同類(lèi)算法有較為明顯的提升。

最大頻繁項(xiàng)集；關(guān)聯(lián)規(guī)則挖掘；FP-tree；最小非頻繁項(xiàng)集；邊界頻繁項(xiàng)集

0 引言

關(guān)聯(lián)規(guī)則挖掘的概念由Agrawal等于1993年提出[1-3]，用于發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)目或項(xiàng)目集之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系，同時(shí)提出了經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法—Apriori。此后眾多學(xué)者對(duì)Apriori算法進(jìn)行了改進(jìn)。但Apriori系列算法需要多次掃描數(shù)據(jù)集的固有缺陷，使其在處理大型數(shù)據(jù)集時(shí)面臨無(wú)法容忍的時(shí)間開(kāi)銷(xiāo)。針對(duì)這一問(wèn)題，Han等[4]提出用FP-tree對(duì)數(shù)據(jù)進(jìn)行壓縮存儲(chǔ)以及基于FP-tree的頻繁模式挖掘方法—FP-growth。該算法只需掃描數(shù)據(jù)集兩次，避免了Apriori算法需多次掃描數(shù)據(jù)集的缺陷。……

登錄APP查看全文

計(jì)算機(jī)技術(shù)與發(fā)展 2017年8期

計(jì)算機(jī)技術(shù)與發(fā)展的其它文章: 一種圖像感興趣區(qū)域提取方法研究; 轉(zhuǎn)向架基礎(chǔ)制動(dòng)裝置的故障診斷專(zhuān)家系統(tǒng)研究; 基于AT-SBTM的交通標(biāo)志檢測(cè); 改進(jìn)的Shark-search算法在網(wǎng)絡(luò)采集中的應(yīng)用; 電力通信中基于動(dòng)態(tài)閾值的流量控制機(jī)制研究; RFID技術(shù)在西服生產(chǎn)訂單跟蹤管理中的應(yīng)用研究

一種自底向上的最大頻繁項(xiàng)集挖掘方法

0 引 言

0 引言