摘要:企業在管理過程中產生了大量的數據,這些數據的背后隱藏著與企業密切相關的極其重要的知識。聚類、關聯規則、序列模式、統計分析、特征規則等數據挖掘方法能從這些海量數據中發現有用的知識,使數據真正成為企業的財富,為企業的決策和發展服務。目前數據挖掘已被廣泛應用于銀行、電信等行業,用來對客戶數據進行正確的分析,挖掘消費模式,預測客戶未來的行為,針對客戶的需求提供個性化的服務。
關鍵詞:數據挖掘; 聚類; 關聯規則
中圖分類號:F270.7 文獻標識碼:A
The Application of Data Miningin Enterprise Management
SUN Hua-mei
(School of Management Harbin Institute of Technology, Harbin 150001, China)
Abstract:
The enormous data, generated during management process of enterprise, together with very critical knowledge hidden therein, are closely connected to the enterprise. Data mining methods such as clustering, association rules, sequential pattern, statistics analysis, characteristics rules, etc. can be used to find out useful knowledge, enabling such data to become the real fortune of enterprise and serve enterprise decision making and development. Currently, Data mining has been widely used in industries such as banking and telecommunication, for analyzing customer data accurately, mining consumption mode, predicting future behavior of customer and providing individuation service according to customer requirements.
一、引言
隨著網絡技術和信息技術的迅猛發展,企業在業務操作、商務管理等過程中產生了大量的數據,這些數據背后隱藏著與企業密切相關的極其重要的知識。
隨著人們對信息技術利用能力的增強,對數據的應用也從低級的查詢操作,提升到為企業經營管理提供決策支持。如何從海量數據中發現有用的知識,使數據真正成為企業的財富,為企業的決策和發展服務,這是信息時代極具挑戰性的課題。數據挖掘技術的產生,滿足了企業的迫切需求,顯示出了強大的生命力, 隨著研究的不斷深入,有關理論和方法將日益完善。
二、數據挖掘的基本概念
數據挖掘(Data Mining)的概念是1995年在美國計算機學會ACM會議上首次被提出的。目前對于數據挖掘,比較一致的看法是:數據挖掘是從大量的、不完全的、有噪聲的、模糊的原始數據中抽取隱含的,以前未知的,潛在有用的信息和知識的過程。
數據挖掘是一門交叉性學科,它涉及人工智能、數據庫技術、機器學習、模式識別、信息學、信息檢索、統計學等多個領域。在對數據庫技術研究的歷程中,相繼出現了一些相似的術語,例如數據庫中的知識發現(KDD)、數據融合(Data Fusion)等。KDD是1989年8月在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上首次提出的, 由Fayyad等給出了比較完整的定義[1], 即“KDD是從大量數據集中識別出有效的,新穎的,潛在有用的以及最終可理解模式的高級處理過程。” Fayyad將 KDD分為九個階段,即數據準備、數據選擇、數據預處理、數據縮減、KDD目標確定、挖掘算法確定、數據挖掘、模式解釋及評價。在KDD處理過程中,首先需要了解領域的背景知識,分析相關數據或樣本,檢驗數據的完整性和一致性,去除與挖掘無關的數據;然后要選擇合適的知識發現算法完成KDD目標,挖掘出用戶所需要的知識;最后要對挖掘出的知識進行解釋,并提供給用戶并進行正確的評價。
隨著Internet的迅速發展,Web上的信息以驚人的速度在增長。Web上的信息資源具有海量、分布、動態、異質等特點,我們將傳統的數據挖掘思想和方法應用于Web數據,形成了Web數據挖掘這樣一個新的研究方向。
Web數據挖掘是以從Web上挖掘有用知識為目標,它將傳統的數據挖掘技術與Web結合起來,利用數據挖掘技術從Web文檔和Web活動中發現有效的、新穎的、潛在有用的,并且最終可理解的信息和模式[2-4]。按照挖掘對象的不同,將Web數據挖掘分為三類:Web內容挖掘(Web Content Mining),Web結構挖掘(Web Structure Mining),Web使用挖掘(Web Usage Mining),其中最有意義的部分應在使用挖掘,因為它同客戶行為密切相關。
三、數據挖掘技術
由于數據易受噪聲、不一致等因素的影響,所以在進行數據挖掘前要進行數據預處理,以降低原始數據的維數,提高數據的質量和挖掘的速度。數據預處理后,要對數據挖掘模式進行分析,這是數據挖掘的重點。下面將對數據挖掘能夠發現的模式如聚類、關聯規則等及相應的挖掘技術進行深入的探討。
(一)聚類
聚類著重于發現數據集中數據的共性和差異, 通過描述數據對象的一組屬性,按照類間相似度最小,類內相似度最大的原則,將無標識的對象劃分成為不同的類屬。
1963年,由Robert Sokal等人著的《Principles of Numerical Taxonomy》一書對聚類的研究起了很大的推動作用。隨著研究的不斷深入,研究人員開發出了許多聚類算法,主要有層次方法,劃分方法,基于密度的方法,基于網格的方法,基于模型的方法等。
層次聚類(Hierarchical Method)對給定的數據對象,創建一個層次性的分解或聚合,層次聚類又分為聚合式層次聚類(Agglomerative)和分裂式層次聚類(Divisive),兩者層次開展的方向恰好相反。研究人員正努力將層次聚類和其他聚類方法結合起來,以期提高聚類的效果。BIRCH (Blanced Interative Reducing and Clustering Using Hierarchy)采用了聚類特征的概念和聚類特征樹的數據結構,通過對數據對象的單遍掃描產生基礎聚類,經過多遍掃描后顯著地提高了聚類的質量[5]。
劃分方法(Partitional Clustering)是將包含n個數據對象的數據庫通過一定的劃分算法和劃分準則分為K個簇,K為算法的輸入參數,常用的劃分方法有K-均值和K-中心點兩種。CLARANS(Clustering Large Applications Based on RANdomized Search)是典型的劃分聚類方法,它通過迭代控制策略來優化聚類的結果,能較好地處理大的數據集合[6]。
基于密度的方法(Density-based Clustering)的一個顯著的特點是:它不是基于各種形式定義的距離,而是基于密度。鑒于聚類的原則是使類內的相似度盡可能地大,類間的相似度盡可能地小,那么從密度的角度來看,聚類內部的點的密度應盡可能地大,聚類之間的點的密度應盡可能地小。DBSCAN是基于密度的典型聚類系統,優點是聚類效率高,抗噪聲能力強。
基于網格的聚類(Grid-based Clustering)將數據空間量化,并將其劃分為有限個網格單元(Grid Cell),該方法的優勢在于快速的處理過程。Wave Cluster是一種基于小波分析的網格聚類方法,善于處理大規模的數據,輸出不受數據噪音的影響[7]。
基于模型的聚類方法(Model-based Clustering)在數據與模型之間建立最好的適應結合關系,它試圖去尋找滿足給定模型的最合理的數據集。基于圖的聚類(Graph-based Clustering)方法進一步充實了傳統的聚類,提供了許多能更好地解決聚類問題的途徑。
聚類分析在企業的應用極其廣泛。企業通過聚類可以從消費者中區分出具有不同特征的消費者群,并給出每一類群體的消費模式,從而為營銷決策提供有力的指導, 例如正確地細分產品市場和客戶,挖掘潛在顧客,提高顧客忠誠等。聚類分析涉及到人類活動的方方面面,它幫助人們發現數據類的特征,在市場研究,數據分析等許多領域發揮了巨大的作用。
(二)關聯規則
關聯規則挖掘(Association Rule Mining)是數據挖掘眾多分枝中極為重要的一種。1993年R. Agrawal等人在對市場購物籃(Market Basket)問題進行研究時首先提出了關聯規則。
定義1 設集合I={i,i2,…,∧,im}由m個不同項目組成,事務數據庫記為D,D中的每一條事務記為T,TI。
若X、Y均為項目集,且XI,YI,XIY=Φ,則稱蘊含式XY為關聯規則,其中X為規則的前件,Y為規則的后件。
定義2 支持度sup(XY)=P(XYY),表示同時包含X與Y的事務在事務數據庫中出現的概率。
定義3 置信度con(XY)=[SX(]sup(XY)[]sup(X)[SX)]=P(Y/X)
關聯規則挖掘算法中最基本的算法是Apriori算法。Apriori采用了層次搜索的方法,通過第k-1個頻繁集搜索生成第k個頻繁集,同時使用了Apriori性質, 即頻繁項集的所有非空子集都是頻繁項集,任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集[8] 。
根據規則處理的變量的不同,可將關聯規則分為布爾型關聯規則(Boolean Association Rules)和多值關聯規則(Quantitative Association Rules);根據規則中涉及的數據維的不同,可將關聯規則分為單維關聯規則和多維關聯規則。文獻[9]提出了一種基于免疫遺傳算法的多維關聯規則挖掘方法,該方法在遺傳算法中引入了免疫機制,能快速有效地進行全局優化搜索。
關聯規則最原始的應用是對超級市場購物籃的分析,挖掘經常被顧客一同購買的商品之間隱含的規則,從而輔助商家進行經營決策。通過對歷史銷售數據進行分析,可以挖掘用戶的消費模式。若商品X與Y之間存在規則 ,則可將Y作為促銷產品與X一起捆綁銷售。如今,人們已將關聯規則應用到各行各業,象金融業、保險業、通訊領域等等,并取得了一系列的成果。
(三)序列模式
序列模式是指在時序數據集中發現數據之間的前后(因果順序等)關系模式。從大量事件序列中發現頻繁出現的事件序列稱為序列模式挖掘[10]。
序列模式和時間屬性有著密切的關系,可以說序列模式是在具有時間特征的數據庫中進行的關聯發現。例如,如果一個人購買物品A,那么他一定會在1個月內繼續購買物品B,這樣的例子描述的是序列模式。現實世界中大量的數據采集都與時間有關,時間序列中包含很多有價值的信息,因此對時間序列數據挖掘的研究對企業的管理也具有重要的意義。
數據挖掘方法中除了前面講到的聚類、關聯規則、序列模式外,還有許多其他方法,如分類、統計分析、特征規則等。各種方法都從不同角度對數據挖掘進行了詮釋,顯示了數據挖掘理論和方法的優越性和廣泛的適用性。
四、數據挖掘在企業管理中的應用
面對激烈的市場競爭,如何能建立有效的途徑,加強與客戶之間的溝通和理解,提高贏利能力,這些需求促使企業認識到應用數據挖掘的必要性。客戶是企業利潤的源泉,正確對客戶數據進行分析,挖掘消費模式,減少投資風險,加強客戶關系管理等等,這都是數據挖掘為企業帶來的益處。下面以電信業和銀行業為例談談數據挖掘的應用。
在電信行業,如今許多電信企業都已建起了不同規模的數據倉庫系統,利用數據挖掘技術有效地抽取數據中的信息, 輔助企業進行經營預測和戰略決策。例如,對于象呼叫時間等具有多維性的電信數據,利用數據挖掘的多維分析等技術,便可以了解數據通信狀況,發現最佳客戶及流失客戶等,提高企業的業績。
數據挖掘在銀行業的應用早已受到普遍的關注,許多銀行都成立了數據挖掘部門,用來輔助銀行進行風險評估、預測等方面的工作。例如美國某著名銀行使用數據挖掘工具,分析顧客的消費規律,通過客戶以往的需求趨勢,預測客戶未來的行為,顯著提高了銀行的競爭優勢。目前結合數據挖掘技術開發出的實時營銷工具,將數據挖掘模型與客戶的實時交互集成起來,能有效地整合營銷的各個環節,并針對客戶的需求提供個性化的服務。例如,當客戶訪問銀行站點時,相關系統會將訪問信息進行及時地處理,并根據處理的結果指導銀行調整已有的戰略,做出正確的經營管理決策,從而提高客戶滿意度和忠誠度。如今數據挖掘技術已成為金融服務領域中極為重要的應用。
五、結束語
數據挖掘是近年來十分熱門的研究領域,尤其是Web數據挖掘的研究拓展了這一領域的深度和廣度。新的數據挖掘方法不斷問世,應用于企業的數據挖掘工具也不斷產生和完善。盡管數據挖掘技術仍面臨著很大的挑戰,許多問題有待于進一步探索,但有一點毋庸置疑,那就是數據挖掘的研究和應用產生了巨大的社會效益和經濟效益,為信息社會的發展做出了貢獻。
參考文獻:
[1] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM. 1996,39(11):27-34
[2] S. Chakrabarti. Data Mining for Hypertext: A Tutorial Survey. SIGKDD Explorations. 2000,1(2):1-11
[3] J. Lee and W. Shiu. An Adaptive Website System to Improve Efficiency with Web Mining Techniques. Advanced Engineering Informatics. 2004,18(3):130-140
[4] Q.Song and M. Shepperd. Mining Web Browsing Patterns for E-commerce. Computers in Industry. 2006,57(7):623-629
[5] T. Zhang, R. Ramakrishnan, M. Linvy. BIRCH: An Efficient Data Clustering Method for Very Large Databases. Proc. of ACM SIGMOD Int. Conf. on Management of Data, ACM Press, 1996: 103-114
[6] R. Ng, J. Han. Efficient and Effective Clustering Methods for Spatial Data Mining. In Proceedings of the 20th International Conference on Very Large Databases, Santiago, Chile, Morgan Kaufmann, 1994: 144-155
[7] G. Sheikholeslami, S. Chatterjee, A. Zhang. Wavecluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases. Proceedings of the 24th International Conference on Very Large Databases, New York ,1998: 428-439
[8] 黃明, 魏靜波, 牛娃. 對Apriori算法的進一步改進[J]. 大連鐵道學院學報. 2003, 24(4):48-49
[9] 高堅.基于免疫遺傳算法的多維關聯規則挖掘[J]. 計算機工程與應用. 2003(32): 185-186
[10] N. Chen , A. Chen, L. Zhou, L. Liu. A Fast Algorithm for Mining Sequential Patterns from Large Databases. Computer Science and Technology. 2001,16 (1): 1-12
(責任編輯:石樹文)
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”