999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MRClose:一種基于MapReduce的并行閉頻繁項(xiàng)集挖掘算法

2018-01-17 15:58:50胡娟
電子技術(shù)與軟件工程 2017年22期
關(guān)鍵詞:數(shù)據(jù)挖掘

胡娟

頻繁項(xiàng)集挖掘是最重要的數(shù)據(jù)挖掘任務(wù)之一,閉頻繁模式項(xiàng)集是頻繁項(xiàng)集的一種無損壓縮形式,具有挖掘效率高、無冗余信息等優(yōu)點(diǎn)。在大數(shù)據(jù)時(shí)代,基于單機(jī)的閉頻繁項(xiàng)集挖掘算法不能適應(yīng)海量數(shù)據(jù)的挖掘需求,需要并行的算法來解決。本文分析了并行閉頻繁項(xiàng)集挖掘中搜索空間劃分、剪枝策略的策略選擇,設(shè)計(jì)了一種并行的全局閉項(xiàng)集篩選方法,提出一種基于MapReduce計(jì)算模型的并行閉頻繁項(xiàng)集挖掘算法MRClose。實(shí)驗(yàn)表明提出的算法實(shí)現(xiàn)了較好的均衡負(fù)載和低I/O量,在執(zhí)行效率和結(jié)果壓縮兩方面較并行頻繁項(xiàng)集挖掘算法具有更好的效果。

【關(guān)鍵詞】數(shù)據(jù)挖掘 并行 閉頻繁項(xiàng)集挖掘 MapReduce Hadoop

1 引言

頻繁項(xiàng)集挖掘(Frequent Itemset Mining,F(xiàn)IM)是最重要的數(shù)據(jù)挖掘任務(wù)之一,也是關(guān)聯(lián)規(guī)則、分類、聚集、關(guān)聯(lián)等眾多數(shù)據(jù)挖掘任務(wù)的基礎(chǔ),自它被提出以來,受到了越來越多的關(guān)注。經(jīng)典的FIM算法可以分為三類:“產(chǎn)生-計(jì)數(shù)”方法如Apriori、DHP、DIC等、“模式增長”方法如FP-Growth、LP-Tree、FIUT、IFP、FPL/TPL以及基于垂直數(shù)據(jù)格式的算法如Eclat等。閉頻繁項(xiàng)集(Closed Frequent Itemset,CFI)是頻繁項(xiàng)集的一種壓縮形式,在尺寸上比頻繁項(xiàng)集有較大地減少,消除了信息冗余且沒有信息丟失,有利于挖掘結(jié)果的進(jìn)一步使用。可以通過將FIM問題轉(zhuǎn)換為CFIM問題來提高頻繁項(xiàng)集挖掘效率。

與FIM類似,經(jīng)典的CFIM算法也可以分為三類:“產(chǎn)生-計(jì)數(shù)”方法如A-Close等、“模式增長”方法如CLOSET、CLOSET+、AFOPT-Close等以及基于垂直數(shù)據(jù)格式的如CHARM等。隨著信息技術(shù)的飛速發(fā)展,人類已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,需要分析和挖掘的數(shù)據(jù)量呈爆炸式增長,傳統(tǒng)的單機(jī)算法已經(jīng)不能滿足大數(shù)據(jù)挖掘的要求,主要挑戰(zhàn)是:單一計(jì)算機(jī)無法存儲所需要挖掘的所有數(shù)據(jù)及挖掘過程中產(chǎn)生的中間結(jié)果;挖掘過程所需要的內(nèi)存遠(yuǎn)遠(yuǎn)超過單一機(jī)器的存儲量;計(jì)算時(shí)間太長無法忍受等問題。需要設(shè)計(jì)并行的CFIM算法解決上述問題。

MapReduce是一種簡單易用的并行編程模型,由Google于2004年提出,因其自動容錯(cuò)、負(fù)載均衡、伸縮性好等優(yōu)點(diǎn),已有很多數(shù)據(jù)挖掘方法實(shí)現(xiàn)了基于MapReduce計(jì)算模型的并行化,顯示出這種計(jì)算模式適用于多種并行數(shù)據(jù)挖掘任務(wù)。MapReduce計(jì)算模型流程圖如圖1所示。

Hadoop是MapReduce的一個(gè)開源實(shí)現(xiàn),其核心組件是一個(gè)分布式文件系統(tǒng)HDFS及MapReduce并行編程模型。HDFS自動將海量數(shù)據(jù)進(jìn)行分片,分別存儲集群中不同的節(jié)點(diǎn)上;Map方法在存儲數(shù)據(jù)分片的節(jié)點(diǎn)運(yùn)行,通過數(shù)據(jù)本地化、減少IO來提高運(yùn)行的效率。

陳光鵬等提出了一種基于MapReduce的CFIM并行算法,實(shí)現(xiàn)了經(jīng)典算法AFOPT-Close算法的并行化,并討論了并行化后帶來的局部閉項(xiàng)集和全局閉項(xiàng)集不一致的問題。Wang等將上述算法進(jìn)行了改進(jìn),主要提升了檢查局部閉項(xiàng)集是否為全局閉項(xiàng)集的效率。Gonen等實(shí)現(xiàn)了一種基于MapReduce的CFIM并行算法,算法使用了A-Close的基本思想,通過迭代產(chǎn)生G1-Gk(長度1~k的generators)及其閉項(xiàng)集,每一次迭代使用一個(gè)MapReduce任務(wù)實(shí)現(xiàn),最后對所有計(jì)算得到的閉項(xiàng)集進(jìn)行重復(fù)檢查刪去重復(fù)項(xiàng),得到全局閉項(xiàng)集。

本文設(shè)計(jì)了一種并行的全局閉頻繁項(xiàng)集篩選方法。提出了MRClose算法,該算法基于“模式增長”方法的基本思想和搜索空間劃分策略,實(shí)現(xiàn)了對局部閉頻繁項(xiàng)集的并行過濾。

2 相關(guān)研究討論

Lucchese等提出了一個(gè)基于多核CPU的并行DCI-Closed算法MT-Closed,實(shí)現(xiàn)了CFIM的并行化,但該算法基于單一計(jì)算機(jī)的多線程架構(gòu),線程的數(shù)量是有限的,線程之間需要共享內(nèi)存,海量數(shù)據(jù)無法裝入單一計(jì)算機(jī)的內(nèi)存中進(jìn)行計(jì)算; D-Closed算法與MT-Closed類似,通過迭代搜索子樹來搜索閉頻繁項(xiàng)集,是一個(gè)分布式的并行CFIM算法,但它仍需要在不同節(jié)點(diǎn)之間共享搜索索引及候選的閉頻繁項(xiàng)集。

已有一些研究將傳統(tǒng)CFIM算法向MapReduce計(jì)算模型進(jìn)行了遷移。陳光鵬等提出了一種基于MapReduce的CFIM并行算法,實(shí)現(xiàn)了經(jīng)典算法AFOPT-Close算法的并行化。它的設(shè)計(jì)思想和基于MapReduce的FIM算法PFP十分相似,通過三個(gè)MapReduce任務(wù)完成并行挖掘。文獻(xiàn)[9]通過減少第三個(gè)任務(wù)的I/O數(shù)據(jù)量進(jìn)一步提升了上述算法的性能。Gonen等提出的基于MapReduce的CFIM算法基于A-Close算法的基本思想,通過多次迭代產(chǎn)生長度1~n的等價(jià)類最小閉項(xiàng)集G1~Gi及它們的閉包。現(xiàn)有算法主要是將CFIM的經(jīng)典算法向MapReduce計(jì)算模型進(jìn)行了遷移,沒有從并行計(jì)算的負(fù)載均衡、降低I/O數(shù)據(jù)量等重要方面考慮CFIM并行化中關(guān)鍵問題的策略選擇問題。

3 提出算法

本文提出的算法MRClose基于“模式增長”方法的基本思想和搜索空間劃分策略,算法使用FP-Tree壓縮存儲子搜索空間,在并行挖掘局部閉頻繁項(xiàng)集的過程中使用引理1、item skipping策略進(jìn)行剪枝,對局部挖掘結(jié)果使用引理2進(jìn)行校驗(yàn)。最后并行執(zhí)行全局閉頻繁項(xiàng)集的篩選,得到全局閉頻繁項(xiàng)集。

給定一個(gè)事務(wù)數(shù)據(jù)集D和最小支持度minsup,算法主要包含5個(gè)步驟,主要框架如下:

Step 1:數(shù)據(jù)分片及存儲。將數(shù)據(jù)集D分為若干個(gè)連續(xù)的分片,每個(gè)分片分別存儲在集群中的計(jì)算節(jié)點(diǎn)上,一個(gè)節(jié)點(diǎn)可以存儲一個(gè)或多個(gè)數(shù)據(jù)分片。這個(gè)過程可以由HDFS自動完成。

Step 2:并行計(jì)數(shù)。并行計(jì)數(shù)是MapReduce計(jì)算模型的經(jīng)典用法,十分容易實(shí)現(xiàn),可以使用一個(gè)MapReduce任務(wù)來統(tǒng)計(jì)D中所有項(xiàng)的支持度,得到頻繁項(xiàng)的集合FList。endprint

Step 3:分組頻繁項(xiàng)。若FList={I1,I2,…,In},則整個(gè)搜索空間可以劃分為{g(I1), g(I2),…,g(In)}n個(gè)子搜索空間。當(dāng)|FList|的值很大時(shí),會在并行挖掘階段產(chǎn)生n個(gè)子挖掘任務(wù),帶來極大的系統(tǒng)初始化成本、高I/O,也不利于負(fù)載均衡。為了減少子搜索空間的數(shù)量,可以將n個(gè)頻繁項(xiàng)進(jìn)行分組。設(shè)將n個(gè)頻繁項(xiàng)分成m組,第i組中有得頻繁項(xiàng)為{Ij,…,Ik},則第i個(gè)子搜索空間為{g(Ij)∪,…,∪g(Ik)},當(dāng)g(Ij)∩g(Ik)≠□時(shí),可以減少子搜索空間的事務(wù)數(shù),進(jìn)而可以減少節(jié)點(diǎn)之間的I/O數(shù)據(jù)量。為了進(jìn)一步實(shí)現(xiàn)負(fù)載均衡,可以根據(jù)頻繁項(xiàng)的支持度進(jìn)行平衡分組。

Step 4:生成子搜索空間,并行挖掘局部閉頻繁項(xiàng)集。這是算法最核心的步驟,使用一個(gè)MapReduce任務(wù)完成。Map方法輸入每一條事務(wù)數(shù)據(jù)Ti,將Ti中非頻繁項(xiàng)刪去,剩下的頻繁項(xiàng)按照FList中項(xiàng)的順序進(jìn)行排序得到Ti。若Ti中的所有項(xiàng)分屬于m個(gè)組,則針對每個(gè)組輸出<組號, Ti>,實(shí)際上生成的是所有子搜索空間。每一個(gè)Reduce處理一個(gè)組號相關(guān)的所有事務(wù),構(gòu)造FP-Tree后,使用FP-Grwoth算法進(jìn)行挖掘,在挖掘過程中運(yùn)用剪枝策略加快挖掘過程。最后該階段得到的是所有的局部閉頻繁項(xiàng)集。

Step 5:過濾得到全局閉頻繁項(xiàng)集。該階段可以使用一個(gè)MapReduce并行執(zhí)行。Map方法讀取每一個(gè)局部閉頻繁項(xiàng)集,輸出。每一個(gè)Reduce方法處理同一支持度的所有項(xiàng)集,運(yùn)用引理2對上述所有項(xiàng)集進(jìn)行子集檢查將非全局閉項(xiàng)集刪去,可以使用前綴樹來加快子集檢查的速度。

4 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)環(huán)境使用基于MapReduce計(jì)算模型的開源系統(tǒng)Hadoop 1.2.1做為平臺搭建集群,具體方案為如下:使用1臺計(jì)算機(jī)做為Master節(jié)點(diǎn),CPU為 i7-4790 3.60Gz 8核,內(nèi)存8G,操作系統(tǒng)為Red Hat Enterprise Linux Server 6.6,Java平臺為Java 1.6;使用6臺計(jì)算機(jī)做為Slave節(jié)點(diǎn),CPU為 i3-4150 3.50Gz 4核,內(nèi)存4G,操作系統(tǒng)為Red Hat Enterprise Linux Server 6.6,Java平臺為Java 1.6。集群計(jì)算機(jī)之間使用百兆以太網(wǎng)相互連接。

為了適應(yīng)實(shí)驗(yàn)數(shù)據(jù)集尺寸較小,提高并行化程序以優(yōu)化集群的性能,實(shí)驗(yàn)環(huán)境將HDFS文件塊的大小設(shè)置為256KB(默認(rèn)為64MB)以增加Map任務(wù)數(shù);將reduce任務(wù)數(shù)設(shè)置為12以充分利用每個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算能力(平均每個(gè)節(jié)點(diǎn)執(zhí)行2個(gè)reduce任務(wù))。使用Java語言編寫PFP和MRClose算法,比較兩個(gè)算法的效率及結(jié)果壓縮率。使用的實(shí)驗(yàn)數(shù)據(jù)集特征如表1所示。

retail是來自于FIMI的真實(shí)數(shù)據(jù)集,是一個(gè)非常稀疏的數(shù)據(jù)集;T10I4D100K是一個(gè)使用IBM Quest Data Generator生成的合成數(shù)據(jù),相對來說比retail要密集一些。

4.1 實(shí)驗(yàn)結(jié)果分析

PFP和MRClose算法在retail數(shù)據(jù)集上最小支持度分別為0.01%、0.025%、0.05%時(shí)的執(zhí)行時(shí)間如圖2所示。

PFP和MRClose算法在retail數(shù)據(jù)集上最小支持度分別為0.01%、0.025%、0.05%時(shí)的結(jié)果集尺寸如圖3所示。

從圖2和圖3可以看出:

(1)MRClose算法在稀疏數(shù)據(jù)集上的加速性十分有限,主要原因在于由稀疏數(shù)據(jù)壓縮得到的FP-Tree具有分支很多、共享前綴很少的特征,運(yùn)用剪枝策略減去的搜索空間在總搜索空間中的比重很低,對算法加速性貢獻(xiàn)有限。

(2)MRClose算法在稀疏數(shù)據(jù)集上仍表現(xiàn)出了較好的結(jié)果壓縮比例,壓縮率與最小支持度呈反比。

PFP和MRClose算法在T10I4D100K數(shù)據(jù)集最小支持度分別為上1%、2%、5%時(shí)的執(zhí)行時(shí)間如圖4所示。

PFP和MRClose算法在T10I4D100K數(shù)據(jù)集最小支持度分別為上1%、2%、5%時(shí)的執(zhí)行的結(jié)果集尺寸如圖5所示。

從圖4和圖5可以看出:

(1)MRClose算法在密集數(shù)據(jù)集上的加速性比在稀疏數(shù)據(jù)集上有所提高,加速性與數(shù)據(jù)集的密集程度呈正比,與最小支持度也成正比,主要原因在于由密集數(shù)據(jù)壓縮得到的FP-Tree具有更多的共享前綴,共享前綴越多,運(yùn)用剪枝策略減去的子搜索空間也越大,對算法加速性貢獻(xiàn)越大。

(2)數(shù)據(jù)集越密集,|L|和|G|之間的差值則越小,算法壓縮率與最小支持度呈反比。

(3)從圖2和圖4可以看到,由于MRClose算法采用了均衡分組的策略,實(shí)現(xiàn)了較好的負(fù)載均衡。但在并行計(jì)算中,對算法效率有決定性影響的已不在是單個(gè)節(jié)點(diǎn)的計(jì)算效率,負(fù)載均衡、I/O數(shù)據(jù)量有更加顯著的影響。在挖掘L時(shí)雖然運(yùn)用了剪枝策略,但對整個(gè)算法的效率提升作用仍是比較有限的。

5 總結(jié)

本文討論了并行CFIM算法在搜索空間劃分、剪枝策略、全局閉頻繁檢查這三個(gè)關(guān)鍵方面的策略選擇,提出了一種基于MapReduce計(jì)算模型的并行CFIM算法,算法MRClose基于“模式增長”方法的基本思想和搜索空間劃分策略,采用FP-Tree壓縮存儲子搜索空間,在并行挖掘局部閉頻繁項(xiàng)集的過程中進(jìn)行了剪枝,對局部挖掘結(jié)果進(jìn)行了并行篩選。實(shí)驗(yàn)驗(yàn)證了MRClose算法在負(fù)載均衡、算法加速、全局結(jié)果集篩選等方面的有效性。算法持續(xù)改進(jìn)可以從兩個(gè)方面來考慮:

(1)子搜索空間劃分采用更加有效的數(shù)據(jù)結(jié)構(gòu)存儲,提高并行挖掘L的效率(特別是針對稀疏數(shù)據(jù)集提高剪枝策略的效率);

(2)從L中并行篩選G時(shí)進(jìn)一步考慮負(fù)載均衡的問題。

參考文獻(xiàn)

[1]Han Jiawei,Kamber M.Data Mining: Concepts and Techniques[M].London,UK: Morgan Kaufmann,2006.

[2]N.Pasquier,Y.Bastide,R.Taouil,and L. Lakhal,Discovering frequent closed itemsets for association rules, Database Theory-ICDT99,1999,398-416.

[3]Pei Jian,Han Jiawei,Mao Runying. CLOSET:an efficient algorithm for mining frequent closed itemsets[C].Proc of the ACM SIG-MOD International Workshop on Data Mining and Knowledge Dis-covery.Dallas,USA,2000:21-30.

[4]Wang Jianyong,Han Jiawei,Pei Jian.CLOSET +:Searching for the best strategies for mining frequent closed itemsets[C].Proc of the 9th ACM SIGKDD International Conference on Knowledge Dis-covery and Data Min-ing.Washington,USA,2003:236-245.

[5]M.J.Zaki and C.Hsiao.CHARM:An efficient algorithm for closed itemset mining.Technical Report 99-10,Rensselaer Polytechnic Institute,1999.

[6]Liu Guimei,Lu Hongjun,Xu Yabo,et al.Ascending frequency ordered prefixtree:efficient mining of frequent patterns[C].Proc of the 8th International Conference on Database Systems for AdvancedApplica-tions.Kyoto,Japan,2003:65-72.

[7]Welcome to ApacheHadoop![EB/OL].[2017-01-10].http://hadoop.apache.org/.

[8]陳光鵬,楊育彬,高陽等.一種基于MapReduce的頻繁閉項(xiàng)集挖掘算法[J].模式識別與人工智能,2012,25(02):220-224.

[9]Wang S Q,Yang Y B,Chen G P,et al.MapReduce-based closed frequent itemset mining with efficient redundancy filtering[C].Proc of IEEE,International Conference on Data Mining Workshops.IEEE Computer Society,2012:449-453.

[10]C.Lucchese,S.Orlando,and R.Perego, Parallel mining of frequent closed patterns:harnessing modern computer architectures in DataMining[C]//Proc of ICDM 2007.Seventh IEEE International Conference on.IEEE,2007,pp.242-251.

作者單位

河海大學(xué)文天學(xué)院 安徽省馬鞍山市 243000endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 日本一区高清| 欧美成人精品在线| 国产精品女在线观看| 色国产视频| 国产精品永久在线| 国产香蕉97碰碰视频VA碰碰看| 亚洲熟女偷拍| 国产一级小视频| 日本欧美精品| 中文字幕日韩视频欧美一区| 99视频全部免费| 国产午夜不卡| 亚洲成人在线免费| 日韩第一页在线| 国产精品第三页在线看| 日本一区二区三区精品视频| 欧美日韩91| 国产男女免费视频| 国产欧美日韩va另类在线播放| 亚洲一级毛片在线观播放| 亚洲日韩精品伊甸| 九色国产在线| 国产精品99久久久| 亚洲精品视频在线观看视频| 精品一区二区无码av| 国产丰满大乳无码免费播放| 国产毛片片精品天天看视频| 中文字幕2区| 婷婷丁香在线观看| 免费一级毛片在线观看| 亚洲一区波多野结衣二区三区| 啪啪永久免费av| 亚洲精品在线91| 国产后式a一视频| 欧美亚洲香蕉| 免费观看精品视频999| 亚洲 欧美 日韩综合一区| 69免费在线视频| 国产亚洲欧美日韩在线一区二区三区| 亚洲无线一二三四区男男| 成人午夜视频免费看欧美| 国产精品页| 亚洲va精品中文字幕| 精品久久久久无码| 亚洲一级毛片在线播放| AV无码无在线观看免费| 色妞www精品视频一级下载| 亚洲成人网在线播放| 亚洲精品卡2卡3卡4卡5卡区| 亚洲精品桃花岛av在线| 男女性午夜福利网站| 精品国产自| 亚洲欧美另类久久久精品播放的| 国产欧美日韩另类| 国产免费精彩视频| 国产黑丝一区| 色婷婷电影网| 欧美天堂在线| 中国精品久久| 国产欧美日韩精品综合在线| 婷婷午夜影院| 亚洲精品波多野结衣| 亚洲人成网18禁| 91亚瑟视频| 国产网站一区二区三区| 国产激情第一页| 五月天久久综合国产一区二区| 日韩成人在线一区二区| 女人爽到高潮免费视频大全| 免费高清a毛片| 97影院午夜在线观看视频| 国产特级毛片aaaaaa| 国产国语一级毛片| 国产拍在线| 久久无码高潮喷水| 免费观看成人久久网免费观看| 久久久久亚洲精品无码网站| 99久久国产综合精品2020| 亚洲精品在线91| 午夜精品国产自在| h网站在线播放| 亚洲欧美一区二区三区蜜芽|