玄文啟
一種大數據挖掘技術
——Apriori算法分析
玄文啟
隨著互聯網的廣泛應用與云計算技術得到飛速發展,如何從大數據中尋求數據規律,并以此做出科學的預測與決策,成為目前數據挖掘技術的主要研究方向之一。Apriori算法就是一種基于海量數據并挖掘關聯規則頻繁項集的典型算法,其在大數據挖掘分析中具有較大研究與應用價值。
隨著計算機技術廣泛應用,在日常管理工作中形成了海量的大數據,這使人們更加需要能夠快速高效地從數據形式不同的、有噪聲的大數據中分析數據內涵,并從中發現有用的知識體系與規律,從而指導人們做出科學預測與決策,Apriori算法就應此而生,成為基于大數據挖掘過程的經典算法之一。
Apriori算法是一種挖掘布爾型關聯規則的頻繁項集的迭代算法,該算法需要在數據挖掘過程中通過多次描述數據庫來不斷尋找候選集,然后實現剪枝,即除去包含非頻繁子集的候選集。此算法通過對最小支持度閾值的設置,能系統地控制了候選項數量的無序增長,,并在大數據的數據挖掘過程中產生較大的研究價值。
就其工作原理而言,Apriori算法是應用逐層搜索的迭代方法原理實現,主要包括兩個步驟 :一是通過算法的迭代來檢索出事務數據庫中的所有頻繁項集;二是利用頻繁項集構造出滿足用戶最小信任度的處理規則來實現數據挖掘分析過程。
Apriori算法具體實現過程如下:
(1)通過掃描事務數據庫D,計算出支持度Ci,得到頻繁項集的集合Li;
(2)連接步:這是算法自連接過程,其原則是保證與前項相同,并按關聯規則實現連接;
(3)剪枝步:就是使任一頻繁項集的所有非空子集也必須保持頻繁屬性。即若某候選非空子集不是頻繁的,則該候選肯定也不是頻繁的,可將其刪除;
(4)通過迭代掃描數據庫D,從而計算出各個項集支持度,并將不滿足的項集去掉,即通過迭代循環,直到使某個值為空,算法停止(如圖1所示)。

圖1 Apriori算法過程
通過對上述算法分析,可以看到Apriori算法存在的主要缺點:一是每次尋找頻繁項集和候選項集時都要掃描數據庫D;二是當事務數據庫數據量較為龐大時,所形成的頻繁項集和候選項集數量也很龐大,這對于在海量的數據庫檢索分析過程中,會使得Apriori 算法效率就會大打折扣,并對計算機資源占用開銷也相應增大。
為了進一步改進Apriori算法,就其原理分析,在實際算法應用中,可通過在處理候選頻繁項目集生成實現時,當進行掃描事務時可先刪除其中不需要的候選頻繁集、并實時進行數據壓縮,動態整理事務數據庫記錄,這樣可使掃描的效率更高,同時降低對計算機資源開銷。即當第一次掃描數據庫D后,候選集將不再使用事務數據庫來計算支持度,而是從第二步開始循環處理生成多維數據項集,一直到再無頻繁項集生成為止。
目前Apriori算法的改進主要技術主要包括AprioriTid算法、基于散列(Hash)、基于采樣(Sampling)、基于數據分割(Partition)、事務壓縮技術等方法。
目前,隨著計算機網絡、通信技術、云計算等飛速發展,在大數時代基于Apriori算法的數據挖掘技術得到了更加廣泛的應用,主要應用為:
(1)教學質量動態檢測與評價:通過數據挖掘,可從海量的學生對教學評價數據中挖掘出關聯規則,從而分析出相關課程教學效果與教師教學狀態之間關系,以促使教學質量改進與提高;
(2)電子商務交易:應用Apriori算法可基于網絡實現電商交易實時,及時分析出客戶消費習慣、消費能力、消費群體,為電商的供應商動態掌握消費市場,并與客戶實現良性商務互動提供數據支撐;
(3)學生就業狀況分析:應用Apriori算法可從人才培養模式中相關的專業、知識體系、從業資格等海量數據中分析大學生受教育程度與社會就業需求之間的關聯性,建立大學與社會雙向互動模式,從而為高校實現教育改革,進一步推動大學為適應社會需求培養人才模式提供準確、客觀的數據分析;
(4)動態網絡輿情監控:應用Apriori算法,通過借助internet平臺,對海量的網絡信息傳輸交互實時采集、分析,實時掌握網絡用戶的信息關注情況,為政府等有關部門及時掌握網絡輿情,并進行實時指導、疏通提供客戶依據。

玄文啟
云南財經大學信息學院
玄文啟,男,1971年4月生,云南嵩明人,云南財經大學副教授,碩士,主要從事計算機應用技術、信息處理技術研究。
10.3969/j.issn.1001-8972.2015.07.001