馬月坤 劉鵬飛 張振友 孫燕 丁鐵凡



摘要:針對傳統FP-Growth算法在大規模數據環境下挖掘效率低下的問題,提出了一種改進的FP-Growth算法。該算法主要是通過基于頻繁閉項集策略對完備模式樹進行剪枝進而減小搜索空間規模,達到提高算法挖掘效率的目的。并將改進后的FP-Growth算法的分治策略與分布式計算框架Hadoop的MapReduce編程模式有機結合,進一步提高了大數據環境下的挖掘效率。實驗證明,基于Hadoop的改進FP-Growth算法的效率較傳統FP-Growth算法有所提高。endprint