何棟
摘 要
當今是一個信息技術飛速發展的時代,人們在日常的生活和工作中產生的數據量越來越大,要讓人們理解和接受這些錯綜復雜的數據,數據研究工作者需要采用數據挖掘技術來解決這一難題。本研究就對數據挖掘技術進行分析,并對當前運用較多的關聯規則挖掘算法進行探討。
【關鍵詞】數據挖掘 關聯規則算法
數據挖掘是對數據進行理解分析,對數據中隱藏的知識進行挖掘發現的技術,所以也稱為數據庫中的知識發現(KDD)。數據挖掘技術在近幾年來的研究越來越深入,這是數據研究工作者經過長期在大量的應用過程中探索研究的成果。在數據挖掘技術中的關聯規則是應用較為廣泛的一種算法,數據研究工作者在大量數據中獲取微量信息時,關聯規則能發揮其重要的價值。本研究在對數據挖掘技術相關概念進行分析的基礎上,對關聯規則中的集中常用算法進行探討,以期為數據研究工作這提供可靠參考。
1 數據挖掘技術介紹
1.1 數據挖掘技術的概念
數據挖掘技術是一門包容性以及開放性較強的跨領域數據信息揭示學科,這項技術能從大量含有噪聲,且模糊不確定的實際業務數據中進行計算,在這些數據中對當前尚未發現,或者沒有被明確認知的具有一定價值的知識信息進行揭示。在進行數據挖掘中的業務數據形式不是單一固定的,是復雜多樣的,所以數據挖掘得出的分析結果形式能以多種形式表現出來,可以是具有較強邏輯性的數學表達式,也可以是容易被一般用戶理解的結果。且數據挖掘技術在科學研究、市場分析等領域均得到了廣泛的應用。
1.2 數據挖掘技術分類
數據挖掘功能的分類主要是根據數據挖掘功能的不同進行的,當前的數據挖掘技術主要有關聯規則挖掘技術、分類挖掘技術、孤立點挖掘技術以及聚類挖掘技術等。本研究主要對關聯規則挖掘算法進行詳細探討。
2 關聯規則挖掘算法
2.1 關聯規則種類介紹
關聯規則按照不同的標準,能用各種不同的方法分成不同類型。將關聯規則分為挖掘頻繁項集、閉頻繁項集、被約束頻繁項集、極大頻繁項集,是根據挖掘模式的完全性分類的;將關聯規則分為多層和單層關聯規則,以及單位和多維關聯規則是根據規則所涉及的數據進行分類的;將關聯規則分為量化關聯規則和挖掘布爾型規則是根據規則處理值類型分類的;將關聯規則分為序列模式挖掘、頻繁項集挖掘以及結構模式挖掘是根據俄關聯規則挖掘模式進行分類的;將關聯規則分為興趣度約束、知識類型約束、數據約束,是根據規則所挖掘的約束類型分類的。
2.2 關聯規則挖掘算法分析
2.2.1 Apriori算法分析
關聯規則算法中的挖掘完全頻繁項集中,Apriori算法該類型中最具有應用價值,影響力最大的算法。Apriori算法主要有兩個步驟:
(1)發現所有的頻繁集;
(2)生成強關聯規則。
在Apriori算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個數據庫,在第一次數據庫掃描中找出所有支持度大于等于最小支持度的項目組成頻繁1—項集,也就是L1,1—項集C1,由L1進行連接得到;接著進行第二次數據庫掃描,將C1中所有支持度大于等于最小支持度的項集組成頻繁2—項集,也就是L2,候選2—項集C2由L2連接得到。以此類推,直到找出最大項頻繁集。即在進行第N次數據庫掃描時,找出CN-1中所有支持度大于等于最小支持度的項集組成頻繁N—項集,即是LN,N—項集CN要由LN連接得出,一直到找不出新的選集為止。在這里還要用到Apriori算法性質,即是頻繁項集是頻繁項集的子集,非頻繁項集是非頻繁項集的超集。在Apriori算法中對數據庫的掃描次數需要大于最大頻繁項集的項數。
Apriori算法的操作具有兩個明顯的缺點。(1)該算法的使用需要對數據庫進行多次掃描,因此在讀寫操作上會花費很多的時間,從而增加挖掘算法的時間成本,這種成本的增加不可小覷,因為它是有數據庫存儲數據的增加,以幾何級數上升的成本;
(2)Apriori算法會出現眾多的候選頻繁集,頻發集的產生量在每一步都很大,這會使算法在廣泛度和深入度上的適應性較差。
2.2.2 FP—growth算法分析
FP—growth算法是關聯規則算法中屬于深度優化的一種算法,這種算法是深度優化算法中較新且具有較高成效的,不同于Apriori算法本質的常用算法。FP?—growth算法的基本基本步驟有兩個:
(1)先將頻繁模式樹FP—tree生成;
(2)在生成的FP—tree頻繁模式樹中搜索頻繁項集。
(1)需要將項集關聯信息保留住,并采用一棵頻繁模式樹(FP—tree)用來容納壓縮后的數據庫;
(2)再將壓縮后的FP—tree再分散為幾個小的條件數據庫,再分別對這些數據庫進行信息挖掘。FP—growth算法相較于Apriori算法,只需要對數據庫進行兩次掃描,不需要多次掃描,大幅度減少了挖掘算法的時間成本;也不會出現大量的候選項集,大幅度減少了頻繁集的搜索空間。也就是說FP—growth算法能明顯提高時間和空間效率。但是該算法也有缺點,在對龐大且松散的數據庫進行挖掘處理過程中,不管是遞歸計算還是信息挖掘都需要占據大量的空間。
3 總結
綜上所述,本研究對對數據挖掘技術概念和分類進行了簡單的介紹,并對關聯規則的種類進行了詳細的分析,對關聯規則中常用的兩種算法FP—growth算法和Apriori算法進行了詳細的分析。兩種算法都還存在各自需要改進缺點,怎樣在挖掘過程中提高挖掘效率,滿足人們對挖掘系統的需求,這將是數據研究工作者仍然需要突破的重難點。
參考文獻
[1]毛國君.數據挖掘技術與關聯規則挖掘算法研究[D].北京:北京工業大學,2015.
[2]張弛,王本德,李偉等.數據挖掘技術在水文預報中的應用及水文預報發展趨勢研究[J].水文,2015,27(02):74-77,85.
[3]魏陵博,付先軍.基于Aprio關聯規則挖掘技術分析歸心經中藥與抗心律失常藥理作用的相關因素[J].中西醫結合心腦血管病雜志,2014(05):517-518.
[4]付先軍,周永紅,王中琳等.基于頻繁項集與關聯規則挖掘技術探索王新陸臨床用藥及處方配伍規律的初步研究[J].中國中醫藥信息雜志,2015,17(09):92-94.
[5]郭濤,門瑞.關于數據挖掘技術與關聯規則挖掘算法的研究[J].無線互聯科技,2014(10):150-150,264.
作者單位
山西輕工職業技術學院 山西省太原市 030013