基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

2016-02-27 06:48:55劉木林朱慶華

計(jì)算機(jī)技術(shù)與發(fā)展 2016年7期

關(guān)鍵詞：關(guān)聯(lián)規(guī)則效率

劉木林，朱慶華

(南京大學(xué) 信息管理學(xué)院，江蘇南京 210023)

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

劉木林，朱慶華

(南京大學(xué) 信息管理學(xué)院，江蘇南京 210023)

為了解決傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法在挖掘效率、算法擴(kuò)展性等方面無法適應(yīng)大數(shù)據(jù)挖掘需求的問題，以經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法—Apriori算法為例，首先基于Hadoop平臺和MapReduce編程模型，實(shí)現(xiàn)算法的并行化。在此基礎(chǔ)上，基于事務(wù)縮減的思想對算法進(jìn)行優(yōu)化，進(jìn)一步提高算法的挖掘效率。搭建Hadoop集群環(huán)境，對算法的挖掘結(jié)果和挖掘效率進(jìn)行實(shí)驗(yàn)。通過并行挖掘結(jié)果驗(yàn)證、串行版與并行版效率對比、挖掘時間與節(jié)點(diǎn)數(shù)目的變化關(guān)系、挖掘時間與數(shù)據(jù)量的變化關(guān)系4組實(shí)驗(yàn)，結(jié)果表明：文中實(shí)現(xiàn)的Apriori算法不僅能夠準(zhǔn)確挖掘頻繁項(xiàng)集，而且比傳統(tǒng)串行算法具有更高的挖掘性能和可擴(kuò)展性。該算法能夠更好地適應(yīng)大數(shù)據(jù)集的挖掘要求，能夠?qū)崿F(xiàn)從大規(guī)模數(shù)據(jù)集中高效挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。

數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；Hadoop；Apriori

0 引言

關(guān)聯(lián)規(guī)則是指存在于兩個或多個變量之間的一類重要的能被發(fā)現(xiàn)的規(guī)律性，這種規(guī)律性往往對實(shí)際的生產(chǎn)生活有著重要的指導(dǎo)作用，因此關(guān)聯(lián)規(guī)則挖掘一直都是數(shù)據(jù)挖掘的一個重要方面。隨著大數(shù)據(jù)時代的來臨，傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法已難以滿足大數(shù)據(jù)量的挖掘需求。Hadoop平臺是在大數(shù)據(jù)背景下誕生的分布式計(jì)算平臺。Hadoop的工作方式是并行的，通過并行提高處理效率。因此將傳統(tǒng)挖掘算法的思想基于Hadoop平臺實(shí)現(xiàn)，使得傳統(tǒng)關(guān)聯(lián)規(guī)則算法能夠適應(yīng)大規(guī)模數(shù)據(jù)集的處理要求，同時借助Hadoop平臺在分布式處理方面的優(yōu)勢，獲得處理性能方面的提升無疑是很有意義的，而這也正是文中研究的目的所在。

1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

1993年，Agrawal提出關(guān)聯(lián)規(guī)則挖掘后，關(guān)聯(lián)規(guī)則的挖掘算法就成為了研究的一個熱點(diǎn)，相繼出現(xiàn)了很多研究成果。其中最著名的包括Agrawal提出的Apriori算法[1]，這是布爾型關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)算法，此外Han等提出的改進(jìn)算法—FP-Growth算法[2]。隨著數(shù)據(jù)量的不斷積累，串行算法越來越難以滿足需要，因此Agrawal等又在1996年創(chuàng)造性地提出了并行的挖掘算法[3]。而Hadoop平臺誕生后，也有研究將關(guān)聯(lián)規(guī)則算法通過Hadoop平臺進(jìn)行移植和改進(jìn)。

表1總結(jié)了目前關(guān)聯(lián)規(guī)則算法研究的現(xiàn)狀。

表1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

從文獻(xiàn)調(diào)研中發(fā)現(xiàn)，基于Hadoop平臺實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘仍然主要基于Apriori和FP-Growth這兩種基礎(chǔ)算法，在實(shí)現(xiàn)并行化的基礎(chǔ)上，再采用優(yōu)化策略對算法進(jìn)行性能優(yōu)化。但是已有的研究在對算法進(jìn)行實(shí)驗(yàn)時，大都只專注于提高挖掘性能，并不注重對挖掘結(jié)果的驗(yàn)證和比較。基于這種情況，文中重點(diǎn)關(guān)注Apriori算法，首先將算法在Hadoop平臺上進(jìn)行實(shí)現(xiàn)，同時利用事務(wù)縮減思想對算法進(jìn)行改進(jìn)，在保證挖掘結(jié)果正確性的前提下，提高算法的挖掘性能和可擴(kuò)展性。

2 基于Hadoop的Apriori算法的實(shí)現(xiàn)與改進(jìn)

2.1 Hadoop平臺簡介

Hadoop是基于主從結(jié)構(gòu)的架構(gòu)，集群中主要分為master節(jié)點(diǎn)和slave節(jié)點(diǎn)。整個平臺最核心的兩個部分是HDFS(Hadoop Distributed File System)和MapReduce。

HDFS是GFS(Google File System)的開源實(shí)現(xiàn)，從架構(gòu)上看是一個主從體系結(jié)構(gòu)，以流式數(shù)據(jù)訪問模式來存儲超大文件[28]。它的高容錯性、高可擴(kuò)展性、高吞吐率與高獲得性等特點(diǎn)為大數(shù)據(jù)提供了可靠的存儲。而MapReduce則大大降低了并行編程的門檻，并行編程中的工作調(diào)度、負(fù)載均衡以及容錯處理等問題均由MapReduce框架負(fù)責(zé)。使用MapReduce框架編寫分布式并行程序時，只需要實(shí)現(xiàn)框架下的map()和reduce()函數(shù)即可。

2.2 Apriori算法的Hadoop實(shí)現(xiàn)

Apriori的Hadoop實(shí)現(xiàn)一般有兩種思路，筆者這里是通過迭代MapReduce的方法來實(shí)現(xiàn)，因?yàn)镠DFS默認(rèn)的數(shù)據(jù)分塊大小是64 MB，如果采取另一種思路來實(shí)現(xiàn)，則意味著每個節(jié)點(diǎn)都需要單獨(dú)處理64 MB的數(shù)據(jù)量，同時可能會產(chǎn)生數(shù)量龐大的局部頻繁項(xiàng)集。雖然Hadoop允許自定義文件塊的大小，但是這種更改會對Hadoop的可擴(kuò)展性、伸縮性以及并行性造成影響，并不值得提倡。實(shí)現(xiàn)后的程序流程圖見圖1。

圖1 并行后的程序流程圖

下面對程序?qū)崿F(xiàn)的關(guān)鍵細(xì)節(jié)進(jìn)行說明。

(1)初始化過程。

挖掘頻繁項(xiàng)集首先需要確定實(shí)際的支持度計(jì)數(shù)，這要根據(jù)事務(wù)總數(shù)和輸入的支持度百分比來確定，但實(shí)驗(yàn)中是以文件代替數(shù)據(jù)庫來存儲事務(wù)集，因此需要通過一個單獨(dú)的Job來完成事務(wù)總數(shù)的統(tǒng)計(jì)，統(tǒng)計(jì)完成后再計(jì)算出最小支持度計(jì)數(shù)，并放入全局配置對象中。

(2)挖掘頻繁1項(xiàng)集。

挖掘頻繁1項(xiàng)集的過程類似于單詞計(jì)數(shù)過程，不同的是需要Reducer判斷每個條目的計(jì)數(shù)是否滿足最小支持度，并將滿足最小支持度的條目輸出，這個過程同樣需要主進(jìn)程新建一個Job。

(3)迭代挖掘頻繁k項(xiàng)集。

這一步是整個算法實(shí)現(xiàn)的核心。首先需要讀入上一步得出的頻繁1項(xiàng)集，進(jìn)行連接后產(chǎn)生候選2項(xiàng)集，由于候選2項(xiàng)集的產(chǎn)生無法進(jìn)行剪枝，因此只需要進(jìn)行連接步即可，然后再進(jìn)行候選2項(xiàng)集的支持度計(jì)數(shù)與篩選。隨后Mapper從全局配置對象中獲取候選2項(xiàng)集的路徑，然后將文件中的條目讀入放到內(nèi)存中。隨后在map函數(shù)中按行讀入每一條事務(wù)，并將包含于事務(wù)中的候選2項(xiàng)集輸出至Combiner中。Combiner先對本地相同key值的條目進(jìn)行匯總，將本地匯總結(jié)果輸出至Reducer中，Reducer對全部的結(jié)果進(jìn)行最終匯總，并且判斷條目的支持度計(jì)數(shù)是否滿足最小支持度計(jì)數(shù)，如果滿足，則將條目及其支持度輸出至HDFS。主進(jìn)程在Job完成之后，到對應(yīng)的上一次頻繁項(xiàng)集的輸出路徑中讀取k-1項(xiàng)頻繁項(xiàng)集，并且判斷k-1項(xiàng)頻繁項(xiàng)集是否為空，如果是，則結(jié)束挖掘，如果否，則對讀入的k-1項(xiàng)頻繁項(xiàng)集進(jìn)行自連接，并利用先驗(yàn)性質(zhì)進(jìn)行剪枝，隨后開始一個Job對候選頻繁項(xiàng)集進(jìn)行支持度計(jì)數(shù)，并且不斷迭代這個過程，直到產(chǎn)生的頻繁項(xiàng)集為空。

2.3 基于事務(wù)縮減的算法改進(jìn)策略

上節(jié)敘述了Apriori算法在Hadoop平臺上實(shí)現(xiàn)的基本思路，在這一思路中將數(shù)據(jù)庫的掃描過程實(shí)現(xiàn)了并行化，而數(shù)據(jù)庫掃描是Apriori算法的主要瓶頸之一。在基本實(shí)現(xiàn)的基礎(chǔ)上，還可以對算法的實(shí)現(xiàn)進(jìn)行改進(jìn)。表1中分析了Apriori算法的兩處性能瓶頸，對于問題二，文中算法在主程序產(chǎn)生候選項(xiàng)集的過程中應(yīng)用了先驗(yàn)剪枝，對于候選項(xiàng)集的數(shù)量產(chǎn)生了限制作用。而對于問題一，文中進(jìn)一步采用事務(wù)縮減的思想來減少數(shù)據(jù)庫事務(wù)的掃描次數(shù)。事務(wù)縮減思想同樣基于頻繁項(xiàng)集的一種性質(zhì)即：不包含任何k-1項(xiàng)頻繁集的事務(wù)不可能包含k項(xiàng)頻繁集，因此在數(shù)據(jù)庫掃描過程中可以將這些事務(wù)進(jìn)行標(biāo)記，從而減少需要掃描的事務(wù)數(shù)目，提高挖掘效率。而文中利用了與此相似的另外一種性質(zhì)即：不包含任何候選k項(xiàng)集的事務(wù)不可能包含任何k項(xiàng)頻繁集。

基于事務(wù)縮減的算法改進(jìn)策略需要解決的第一個問題就是如何唯一地標(biāo)識每一條事務(wù)記錄。在HDFS中，每個文件都會以64MB的塊為單位進(jìn)行存儲，每個塊都有一個唯一的URL。此外，在MapReduce執(zhí)行過程中，每個Mapper都需要單獨(dú)處理一個split(split與HDFS中的block是相對應(yīng)的)，采用按行讀入事務(wù)記錄的方式時，key值為該行記錄在文件中的偏移字節(jié)數(shù)，對于該記錄而言，此key值可以作為其在該split中的唯一標(biāo)識。這樣，由split的URL加該事務(wù)記錄的key值便可以將其唯一地標(biāo)識出來。按照該策略，改進(jìn)的重點(diǎn)就在Mapper的執(zhí)行邏輯中。即Mapper首先需要獲取split的URL，存入Mapper中的一個成員變量。同時根據(jù)split的URL，根據(jù)約定的路徑找到存儲其剔除列表的文件，并將剔除列表讀入一個HashSet中。map函數(shù)對候選項(xiàng)集計(jì)數(shù)時，如果發(fā)現(xiàn)該條事務(wù)不包含任何候選項(xiàng)集，則將其加入最新的剔除列表。最后在Mapper的cleanup函數(shù)中將新的剔除列表附加到剔除文件中，以供下一次掃描時使用。

筆者在測試中發(fā)現(xiàn)，采用事務(wù)縮減進(jìn)行改進(jìn)后，在挖掘頻繁3項(xiàng)集時可以剔除約5%的事務(wù)，4項(xiàng)集時可以剔除約10%的事務(wù)，5項(xiàng)集時可以剔除約17%的事務(wù)，6項(xiàng)集時可以剔除約25%的事務(wù)。因此，隨著挖掘的不斷進(jìn)行，剔除的事務(wù)量會不斷增多，挖掘效率的提升也更加明顯。

3 實(shí) 驗(yàn)

3.1 Hadoop分布式環(huán)境搭建

為了進(jìn)行實(shí)驗(yàn)，筆者搭建了一個小型的集群環(huán)境，包括1個master節(jié)點(diǎn)和2個slave節(jié)點(diǎn)(節(jié)點(diǎn)計(jì)算機(jī)配置如表2所示)，namenode、jobtracker均位于master節(jié)點(diǎn)，datanode、tasktracker均位于slave節(jié)點(diǎn)，3個節(jié)點(diǎn)統(tǒng)一使用JDK1.7.0_45版本，Hadoop版本則為1.2.1。

表2 集群節(jié)點(diǎn)配置情況

3.2 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)采用的數(shù)據(jù)為FIMI Repository(Frequent Itemset Mining Implementations Repository，該網(wǎng)站提供大量IEEE國際數(shù)據(jù)挖掘大會上關(guān)于頻繁項(xiàng)集挖掘方面的數(shù)據(jù)集、論文、實(shí)驗(yàn)結(jié)果等資料)提供的一份webdocs事務(wù)數(shù)據(jù)集，該數(shù)據(jù)是由意大利國家研究理事會的Claudio Lucchese等通過Web爬蟲爬取了170萬Web文檔后，通過初步清理(取出html標(biāo)簽)和分詞，并通過詞干提取算法，獲得了出現(xiàn)在文檔中的所有單詞的事務(wù)集(同一個文檔中一個單詞只計(jì)1次，并將相應(yīng)的單詞轉(zhuǎn)換為數(shù)字id來表示)。文件大小為1.4 GB，包含169萬條事務(wù)集，其中最長的事務(wù)集約包含7萬個條目。為了方便實(shí)驗(yàn)的進(jìn)行，在原文件的基礎(chǔ)上，將文件分割成50 MB，100 MB，150 MB，200 MB，250 MB，300 MB，500 MB，750 MB，1 GB，1.4 GB等分塊。另外，筆者利用Java語言實(shí)現(xiàn)了單機(jī)串行版的Apriori算法(以下簡稱串行版)，并將串行版與并行算法的效率進(jìn)行對比，其中串行版程序都運(yùn)行在slave1節(jié)點(diǎn)上，實(shí)驗(yàn)共分為3組進(jìn)行，每次實(shí)驗(yàn)都運(yùn)行3次取平均值。

(1)并行挖掘結(jié)果驗(yàn)證。

挖掘結(jié)果的驗(yàn)證主要通過串行程序與并行程序挖掘結(jié)果的對比來展示，如果并行程序的挖掘結(jié)果與串行程序的一致，則說明筆者實(shí)現(xiàn)的并行算法是可靠的，反之則說明并行算法的設(shè)計(jì)與實(shí)現(xiàn)存在問題，無法得出正確的挖掘結(jié)果。

表3顯示了150 M文件的挖掘結(jié)果；表4顯示了250 M文件的挖掘結(jié)果(FIM1代表頻繁項(xiàng)集1項(xiàng)集，其他的依此類推)。

表3 150 M文件挖掘結(jié)果

表4 250 M文件挖掘結(jié)果

從表中可以看出，串行算法與并行算法挖掘出的頻繁項(xiàng)集的數(shù)目是一致的，另外，筆者對比了從頻繁1項(xiàng)集到頻繁5項(xiàng)集的具體挖掘結(jié)果，均完全一致。因此，文中提出的并行挖掘算法是可靠的，能夠準(zhǔn)確挖掘出滿足最小支持度的頻繁項(xiàng)集。

(2)串行版與并行版效率對比。

分別利用串行版程序與并行版程序?qū)Υ笮?0 MB，100 MB，150 MB，200 MB，250 MB，300 MB，350 MB，400 MB，450 MB，500 MB的數(shù)據(jù)進(jìn)行挖掘，最小支持度設(shè)為0.25，實(shí)驗(yàn)結(jié)果見圖2。

圖2 串行版與并行版效率對比

從圖中可以看出，在數(shù)據(jù)量較小時，并行算法由于在工作調(diào)度等方面的開銷，并沒有體現(xiàn)出挖掘效率的優(yōu)勢。而隨著數(shù)據(jù)量的不斷積累，并行算法的優(yōu)勢逐漸體現(xiàn)出來，挖掘時間也大大少于串行算法。更重要的是，串行算法在挖掘500 MB以上的數(shù)據(jù)量時，內(nèi)存不足等方面的限制會導(dǎo)致運(yùn)行失敗，除非繼續(xù)改進(jìn)單機(jī)的配置，否則無法繼續(xù)挖掘更大的數(shù)據(jù)，而并行算法則不存在這樣的問題。

(3)挖掘時間與節(jié)點(diǎn)數(shù)目的變化關(guān)系。

筆者搭建的集群共有3臺計(jì)算機(jī)，其中配置較好的一臺即作為NameNode、JobTracker，也作為DataNode、TaskTracker。分別將集群調(diào)整為1個節(jié)點(diǎn)、2個節(jié)點(diǎn)、3個節(jié)點(diǎn)，并對300 M的數(shù)據(jù)進(jìn)行挖掘，設(shè)最小支持度為0.25，實(shí)驗(yàn)結(jié)果見圖3。

圖3 挖掘時間與節(jié)點(diǎn)數(shù)目的變化關(guān)系

從圖中可以看出，計(jì)算節(jié)點(diǎn)的增大能夠明顯提高挖掘效率，這也是分布式計(jì)算可擴(kuò)展性方面的最大優(yōu)勢之一，即通過節(jié)點(diǎn)的靈活配置，可以很輕松地應(yīng)對大數(shù)據(jù)的處理。

(4)挖掘時間與數(shù)據(jù)量的變化關(guān)系。

采用并行版程序分別挖掘大小為100 MB，200 MB，300 MB，400 MB，500 MB，600 MB，700 MB，800 MB，900 MB，1 000 MB，1 100 MB，1 200 MB，1 300 MB，1 400 MB的數(shù)據(jù)集，設(shè)置最小支持度為0.25，觀察隨著數(shù)據(jù)量的增加挖掘時間的變化情況，實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 挖掘時間與數(shù)據(jù)量的變化關(guān)系

從圖中可以看出，隨著挖掘數(shù)據(jù)量的不斷增長，挖掘時間的增長速度低于線性增長速度，并且接近于對數(shù)增長速度，而圖3中的普通串行算法的挖掘時間會因數(shù)據(jù)量的增加而迅速增長，說明文中算法對于數(shù)據(jù)量的增長有著更好的適應(yīng)性。如果結(jié)合計(jì)算節(jié)點(diǎn)的適當(dāng)擴(kuò)展，完全能夠適應(yīng)更大數(shù)據(jù)量的挖掘要求。

4 結(jié)束語

文中通過Hadoop平臺實(shí)現(xiàn)了Apriori算法的并行化，通過事務(wù)集的并行掃描大大提高了算法的執(zhí)行效率，同時為了減少數(shù)據(jù)庫的掃描消耗，運(yùn)用事務(wù)縮減思想優(yōu)化算法實(shí)現(xiàn)，進(jìn)一步提高了算法效率。經(jīng)過一系列的實(shí)驗(yàn)表明，文中實(shí)現(xiàn)的并行Apriori算法在保證挖掘結(jié)果準(zhǔn)確的前提下，比普通串行挖掘具有更少的時間消耗，能夠更快速地挖掘出頻繁項(xiàng)集，同時從實(shí)驗(yàn)中看出，并行算法對數(shù)據(jù)量的不斷增長有著更好的適應(yīng)能力，對于大文件也有著很好的挖掘性能。此外，實(shí)驗(yàn)結(jié)果還表明，計(jì)算節(jié)點(diǎn)的增加同樣能夠提高挖掘效率，這也是分布式集群系統(tǒng)的最大威力所在。綜合來看，文中的研究能夠?yàn)榇髷?shù)據(jù)條件下關(guān)聯(lián)規(guī)則的高效挖掘提供借鑒意義。當(dāng)然，目前也還存在一些不足，比如最小支持度的變化對算法性能的影響比較明顯，特別在頻繁2項(xiàng)集的挖掘上，因?yàn)橄闰?yàn)剪枝無法對候選2項(xiàng)集的產(chǎn)生進(jìn)行限制，同時文中提出的事務(wù)縮減思想同樣也無法提高頻繁2項(xiàng)集的挖掘效率。因此，下一步的研究重點(diǎn)主要是如何利用哈希散列的方式來限制候選2項(xiàng)集的產(chǎn)生，進(jìn)一步提高算法的效率。

[1] Agrawal R,Srikant R.Fast algorithms for mining association rules[C]//Proceedings of the 20th VLDB conference.Santiago,Chile:[s.n.],1994:487-499.

[2] Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record,2000,29(2):1-12.

[3] Agrawal R,Shafer J C.Parallel mining of association rules[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969.

[4] Zaki M J.Scalable algorithms for association mining[J].IEEE Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

[5] Park J S,Chen M S,Yu P S.An effective hash-based algorithm for mining association rules[J].ACM SIGMOD Record,1995,24(2):175-186.

[6] Sarasere A,Omiecinsky E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proc of 21st international conference on very large databases.Zurich,Switzerland:[s.n.],1995.

[7] Toivonen H. Sampling large databases for association rules[C]//Proc of conference on very large data bases.[s.l.]:[s.n.],1999:134-145.

[8] 孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進(jìn)算法[J].計(jì)算機(jī)仿真,2013,30(8):245-249.

[9] 羅丹,李陶深.一種基于壓縮矩陣的Apriori算法改進(jìn)研究[J].計(jì)算機(jī)科學(xué),2013,40(12):75-80.

[10] 高海洋,沈強(qiáng),張軒溢,等.一種基于數(shù)據(jù)壓縮的Apriori算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):117-120.

[11] 楊云,羅艷霞.FP-Growth算法的改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(7):1506-1509.

[12] 張玉芳,熊忠陽,耿曉斐,等.Eclat算法的分析及改進(jìn)[J].計(jì)算機(jī)工程,2010,36(23):28-30.

[13] 馮培恩,劉嶼,邱清盈,等.提高Eclat算法效率的策略[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2013,47(2):223-230.

[14] Za?ane O R,El-Hajj M,Lu P.Fast parallel association rule mining without candidacy generation[C]//Proceedings IEEE international conference on data mining.[s.l.]:IEEE,2001:665-668.

[15] Park J S,Chen M S,Yu P.Efficient parallel data mining for association rules[C]//Pissinou N,Silberschatz A,Park E K,et al.Proceedings of the fourth international conference on information and knowledge management.New York,NY,USA:ACM,1995:31-36.

[16] Cheung D W,Han J,Ng V T,et al.A fast distributed algorithm for mining association rules[C]//Proc of fourth international conference on parallel and distributed information systems.[s.l.]:IEEE,1996:31-42.

[17] Yang X Y,Liu Z,Fu Y.MapReduce as a programming model for association rules algorithm on Hadoop[C]//Proc of 3rd international conference on information sciences and interaction sciences.[s.l.]:IEEE,2010:99-102.

[18] Li N,Zeng L,He Q,et al.Parallel implementation of Apriori algorithm based on MapReduce[C]//Proc of 13th ACIS international conference on software engineering,artificial intelligence,networking and parallel & distributed computing.[s.l.]:IEEE,2012:236-241.

[19] Lin M Y,Lee P Y,Hsueh S C.Apriori-based frequent itemset mining algorithms on MapReduce[C]//Proceedings of the 6th international conference on ubiquitous information management and communication.[s.l.]:ACM,2012.

[20] Li L,Zhang M.The strategy of mining association rule based on cloud computing[C]//Proc of international conference on business computing and global informatization.[s.l.]:IEEE,2011:475-478.

[21] Woo J.Apriori-Map/Reduce algorithm[C]//Proc of the 2012 international conference on parallel and distributed processing techniques and applications.Las Vegas:[s.n.],2012.

[22] 章志剛,吉根林.基于迭代式MapReduce的Apriori算法設(shè)計(jì)與實(shí)現(xiàn)[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2012(S1):9-12.

[23] 黃立勤,柳燕煌.基于MapReduce并行的Apriori算法改進(jìn)研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2011,39(5):680-685.

[24] 范燕燕.基于MapReduce的分布式關(guān)聯(lián)規(guī)則挖掘算法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

[25] Yong W,Zhe Z,Fang W.A parallel algorithm of association rules based on cloud computing[C]//Proc of 8th international ICST conference on communications and networking in China.[s.l.]:IEEE,2013:415-419.

[26] Zhou L,Zhong Z,Chang J,et al.Balanced parallel FP-growth with MapReduce[C]//Proc of IEEE youth conference on information computing and telecommunications.Beijing:IEEE,2010:243-246.

[27] 周詩慧.基于Hadoop的改進(jìn)的并行Fp-Growth算法[D].濟(jì)南:山東大學(xué),2013.

[28] White T.Hadoop:the definitive guide[M].3rd ed.USA:O'Reillv Media,2012.

Research on Association Rules Mining Algorithm Based on Hadoop—Taking Apriori as an Example

LIU Mu-lin，ZHU Qing-hua

(School of Information Management，Nanjing University，Nanjing 210023，China)

In order to solve the problem that the traditional association rules mining algorithm has been unable to meet the mining needs of large amount of data in the aspect of efficiency and scalability,take Apriori as an example,the algorithm is realized in the parallelization based on Hadoop framework and MapReduce model.On the basis,it is improved using the transaction reduce method for further enhancement of the algorithm’s mining efficiency.The experiment,which consists of verification of parallel mining results,comparison on efficiency between serials and parallel,variable relationship between mining time and node number and between mining time and data amounts,is carried out in the mining results and efficiency by Hadoop clustering.Experiments show that the paralleled Apriori algorithm implemented is able to accurately mine frequent item sets,with a better performance and scalability.It can be better to meet the requirements of big data mining and efficiently mine frequent item sets and association rules from large dataset.

data mining;association rules;Hadoop;Apriori

2015-08-13

2015-11-18

時間：2016-06-22

國家自科基金面上項(xiàng)目(71473114)

劉木林(1991-)，男，碩士研究生，通訊作者，研究方向?yàn)榛ヂ?lián)網(wǎng)用戶行為分析；朱慶華，教授，博士生導(dǎo)師，研究方向?yàn)榫W(wǎng)絡(luò)信息資源管理、信息用戶行為、信息政策分析、決策咨詢服務(wù)等。

http://www.cnki.net/kcms/detail/61.1450.TP.20160621.1701.010.html

TP393

1673-629X(2016)07-0001-05

10.3969/j.issn.1673-629X.2016.07.001

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究——以Apriori算法為例

0 引 言

1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

2 基于Hadoop的Apriori算法的實(shí)現(xiàn)與改進(jìn)

3 實(shí) 驗(yàn)

4 結(jié)束語

基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
——以Apriori算法為例

0 引言