摘 要:本文從大數據角度分析了現代數據的特點,概述了關聯規則的三種方法思想及優缺點,并且列舉了其在幾個行業中的應用。
關鍵詞:大數據;關聯規則;應用
DOI:10.16640/j.cnki.37-1222/t.2017.18.134
關聯規則用于表示對象之間的關系和規律,而數據挖掘領域中最重要的研究內容也正是規則的提取。關聯規則挖掘吸引了諸多國內外專家學者的研究興趣,并取得了良好成果,如Apriori 算法和FP-Growth算法。經過多年多為學者的研究,商業決策、醫療數據分析等各個領域都對關聯規則相關算法進行了驗證,并產生了良好的經濟和社會價值。
1 大數據
隨著網絡和移動互聯的發展,企業所獲得的數據越來越多、結構也越來越復雜,傳統的數據挖掘技術已經不能滿足需求,這就促使企業在收集數據之余,也開始尋求新方法來解決大量數據無法存儲和處理分析的問題。由此,“大數據”應運而生。
從“Data”到“BigData”,數據的數量和質量都有了本質的區別。在“數據時代”專家學者都是用聯機分析處理(OLAP)、數據倉庫、數據挖掘等方式處理數據,而在“大數據時代”,數據已不僅僅是需要分析處理的內容,人們更看重的是使用更為高端專業的技術從大量繁雜的數據中,進行整理和分析,得出有意義的關聯信息,為社會經濟生活中各個行業的預測、規劃和決策做出支持。
如何在大數據時代的繁雜數據中抽取出更有價值的關聯規則,對各個行業的發展決策起指導性作用就顯得尤為重要。
2 關聯規則
2.1 關聯規則定義
關聯規則是數據庫中不同數據項之間有意義和價值的聯系,可用A =>B 表示,其中 A 、B 均為非空項集。通過描述數據項之間預先未知的和被隱藏的潛在規則,找出滿足給定支持度(support)和置信度(confidence)閾值的多個數據項之間的依賴關系。例如,由R.Arawal等人首先提出的“啤酒與尿布”典型例子,就是:“80%的男士在為自己買啤酒的同時也會為孩子買尿布”。
2.2 Apriori算法
Apriori算法由R.Arawal提出,是最經典的以概率為基礎的挖掘布爾關聯規則頻繁項集的算法。它使用逐層搜索的迭代方法:設有數據集D,算法在第一次遍歷D時僅僅計算每個項目的具體數量值,用來確定頻繁1-項目集(L1),然后,通過L1自身連接、剪枝兩個步驟,得到頻繁2-項集L2(L2),如此下去,通過L2 找出L3 ,直到k-項集(LK)不是頻繁項集為止。需要注意的是,找出每個Lk 均需要一次數據庫的完整掃描。
之后很多學者對Apriori算法進行了改進,但無論怎么改進,該類算法都有一缺憾,就是在搜索過程的連接、剪枝兩個步驟會產生大量的候選集,計算和存儲這些候選集會大大消耗時間、空間成本。
2.3 FP-Growth 算法
為了解決Apriori一類算法的缺憾,JiaWeihan提出了摒掉產生候選集的新思路—FP-Growth算法。利用高度壓縮的數據結構方式在生成頻繁項集的時候不必產生候選集。
該算法分為兩個步驟:
(1)構造FP樹。第一次遍歷數據庫生成全部頻繁1-項集,并按照支持度從大到小存儲在表中,在進行第二次數據庫的遍歷,將每一次的頻繁項集保存在FP樹中的相應分枝上。
(2)在上步的頻繁項集基礎上提出發現算法FP-Growth。具體是從頻繁i項集(記作Li)的條件模式庫中采用由底向上的搜索方法發現所有包含Li的頻繁項集。這樣就將一個大型樹結構分解成多個小的子樹結構,相應地就將一個大型的復雜搜索問題轉化成了多個小簡單的搜索問題。
2.4 并行關聯規則挖掘算法
FP-Growth 算法雖簡化了時間和空間成本,但是并不適用于大型的數據庫。并行計算是指能夠同時對多條指令、多個任務或者多個數據集進行處理,將并行計算應用到關聯規則挖掘中,能夠有效提高挖掘效率。
并行關聯規則挖掘算法也是僅需要掃描兩次數據庫就能挖掘頻繁項集。步驟如下:首先將整個數據庫D隨機分割成n個非重疊且大小相似的區域。以此類推,每個區域還可分別劃分成更小互不影響的區域進行挖掘,從而實現了挖掘過程的分層執行。
3 關聯規則挖掘的應用
3.1 關聯規則在商業決策中的應用
將關聯規則應用商業決策中,從大量的數據中經過深層分析,有助于從商務信息系統的大型數據庫中提取對企業決策者有價值的信息,會大大提升決策效率和正確度。比如,在制訂銷售配貨、產品目錄設計、產品定價和促銷以及顧客的購買行為模式等商業決策時給企業決策者予以指導,有利于提高企業經濟效益,提升競爭優勢。
3.2 關聯規則在醫療中的應用
隨著醫療數據的與日俱增,對臨床疾病監測與診斷、藥物治療效果的評價及疾病預防事件的主觀判斷越來越困難,如何將關聯規則運用其中,從繁雜的醫學數據中找出其內在關聯規則,提升診斷效率和正確率,顯得尤為重要。
比如,分析醫學數據特點,使用Apriori算法對婚檢數據中各類傳染病、血液關系、肝病之間的關系,為其制定全面科學體檢方案;兒童肺炎的治療,建立治療用藥字典,從治療效果和維護患者利益的角度出發,為其規范性用藥提供決策依據,制定最佳用藥方案。
3.3 關聯規則在推薦系統中的應用
推薦系統是在數據挖掘的基礎上建立的一種高級商務智能平臺,根據用戶的個性化和興趣愛好,向其推薦感興趣的商品和信息。基于關聯規則的推薦系統是把用戶已經購商品作為規則頭,將推薦對象作為規則體。首先經過數據清理后計算兩兩商品或信息之間的支持度和執行度,將低于設定的最小值的規則去掉,再找出某種商品或信息的所有規則,按置信度從大到小排序,Top-N即為與該商品或信息最相關的前N中上品或信息。
4 小結
本文從大數據角度分析了現代數據的特點,概述了關聯規則的三種方法思想及優缺點,并且列舉了其在幾個行業中的應用。
課題:本文系山東協和學院校級課題:大數據環境下OLAP關聯規則挖掘在國有固定資產統計中的研究(項目編號:XHXY201616);山東省統計局課題:大數據環境下OLAP關聯規則挖掘在高校固定資產統計中的研究(項目編號:KT16218)。
作者簡介:陳梅(1982-),女,山東武城人,碩士研究生,講師,研究方向:大數據和教學研究。endprint