[摘 要] 大量商業交易數據中隱含著許多對商業決策有益的知識,數據挖掘技術可以發現這些隱藏的模式和關系。本文分析并指出了通用數據挖掘體系結構的特點和不足,應用并行處理技術和數據挖掘結果存儲兩方面對現有數據挖掘體系結構進行改進。提出了面向商業智能應用的帶有模式存儲的并行數據挖掘體系結構,并對其特點進行了分析,分析表明所提出的并行數據挖掘體系結構對于商業智能的應用具有可行性。
[關鍵詞] 并行數據挖掘 體系結構 商業智能 模式庫
引言
企業為迎接市場的挑戰,必須對市場運作有準確的分析。商業流通領域積累的大量交易數據中隱含著許多對商業決策有益的知識,傳統的分析方法很難從中提取出這些知識,利用數據挖掘技術可以得到準確、及時的信息,決策人員以企業的數據倉庫為基礎,通過聯機分析處理(OLAP)、數據挖掘和決策規劃人員的專業知識,借助商務智能的核心技術,利用企業中長期積累的海量數據可以實現四方面的應用:客戶分類和特征分析、市場營銷策略分析、經營成本與收入分析、欺詐行為分析和預防,數據挖掘技術可以發現這些隱藏的模式和關系。
并行數據挖掘體系結構是并行數據挖掘技術研究的重要內容,是實現并行數據挖掘的基礎,選擇適當的、高效的、具有較高性價比的商用并行體系結構是整個研究工作的基礎。
一、通用數據挖掘系統結構
特定領域的數據挖掘工具主要針對某個特定領域的問題提供解決方案。在進行數據挖掘算法設計時,設計者需要充分考慮特定領域的數據特點和挖掘需求等特殊性,并有針對性地對數據挖掘算法進行優化。
通用的數據挖掘應用系統大都以數據倉庫或大型關系數據庫為基礎,且具有查詢、分析、表示等功能,它是企業決策支持系統的核心組成部分,可以將這些現有數據挖掘系統的共同特點抽象成圖1所示的結構。
二、通用的數據挖掘系統結構的不足及改進思路
通用的數據挖掘系統己經在一定程度上滿足用戶的需要,但是在應用實施過程中也存在著一些問題和不足。主要有以下幾點:數據挖掘的效率有待進一步提高;歷史模式不能得到有效利用;不同系統之間的互操作性差;面向不同應用對象的針對性不強。
數據挖掘往往面對的是巨大的數據集,即GB甚至TB數量級的數據集,數據挖掘技術研究的核心問題之一就是如何提高數據挖掘的效率,提高數據挖掘效率的途徑主要有以下幾個方面:
1.對數據集進行預處理,去除噪音數據,按照挖掘要求對數據進行清理和遷移,盡可能減少挖掘的數據量。
2.針對各種數據挖掘和數據分析要求,研究、設計效率更高的各類數據挖掘算法。
3.提高數據挖掘系統應用的硬件性能或者采用并行處理技術提高數據挖掘的速度。
4.借用緩存的概念,對挖掘結果進行存儲再利用,以提高用戶挖掘請求的響應速度。
針對一般商業智能應用領域的實際情況和需要,以提高數據挖掘應用的效率為目標,本文將主要從并行處理技術和體系結構方面對現有數據挖掘系統進行改進和提高。
三、并行數據挖掘體系結構設計及特點
為解決通用數據挖掘系統中存在的一些問題和針對商業智能的特點,面向商業智能應用的并行數據挖掘體系結構如圖2所示,由6部分組成:
1.高性能并行計算環境:并行數據挖掘體系結構中采用了高性價比的并行體系結構COW(Cluster of Workstations)、數據挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數據挖掘結果保存在模式庫中。并行處理技術的運用無疑對于數據挖掘效率的提高具有重要意義和實用價值,為數據挖掘效率的提高奠定了堅實的基礎,對于商業智能應用的推廣也具有重要作用。
2.數據源:數據倉庫和其他數據源是數據挖掘的基礎,商業智能應用系統應具有多種數據來源的處理能力,例如普通文件(電子郵件等)、關系數據庫、數據倉庫、數據集市等。
3.模式庫:為了提高數據挖掘的效率以及商業邏輯的處理速度,借助硬件內存的“緩存”概念,將最近數據挖掘或者數據分析的結果(模式也許只是一個簡單的規則描述)保存在模式庫中,以便再次發生類似或者相同操作請求時能先在模式庫中查找挖掘結果,從而盡量避免每次都從海量數據中進行挖掘操作,這樣可以較大幅度提高處理速度。因此,模式庫的建立為歷史模式的有效利用提供了可能和基礎
另外,由于模式庫中存儲的是歷次挖掘出來的模式,可以從分析模式的變化來進行趨勢預測,從而為決策支持提供了更多的分析手段。
4.學習和推薦Agent:增加了一個用戶興趣分析檔案庫,由學習Agent進行更新維護,供推薦Agent分析使用。學習Agent將根據權值的計算方法對用戶興趣檔案中沒有出現過的關鍵字進行加權操作。推薦Agent根據已有的用戶興趣檔案,分析用戶可能感興趣的模式,并推薦給用戶。
5.并行數據挖掘工具/多維分析工具:數據挖掘是商業智能的核心,并行數據挖掘算法對于提高數據挖掘效率具有重要意義。為了適應商業智能應用的需要,僅提供多維分析工具是遠遠不夠的,應盡可能多的提供對多種模式的支持。商業智能涉及關聯、分類、聚類、時序等模式,并行數據挖掘工具盡能包含對這些模式的支持,這也是衡量并行數據挖掘工具好壞的標準之一。
6.可視化工具:為用戶提供數據挖掘結果的自觀表示方法。
除上述特點外,通過對并行數據挖掘體系結構的設計與改進在以下兩個方面取得了較好的效果:
(1)提高了系統之間的互操作性:現有的數據挖掘產品,對挖掘結果都有各自特殊的存儲格式,不同挖掘工具之間要共享挖掘的結果非常困難。然而,對模式的集中存儲就可以有效地解決上述問題,即設計類似SQL的查詢語言,或設計通用的模式庫接口。不同的挖掘工具通過使用模式查詢語言或調用模式庫接口的功能函數就可以共享模式庫中存儲的模式。
(2)并行處理能力強、可擴展性好、可用性高:改進后的并行數據挖掘體系結構建立在可擴展機群之上,除了具有較高的.可伸縮的并行處理能力之外,系統的可擴展性也非常好,可以通過增加或者減少處理結點數調整系統的處理能力,從而適應不同數據規模的處理需要,除此之外,系統的可用性高也是其顯著特點,一般情況下COW的可用性指標都在99.9%以上,為商業智能應用系統的穩定運行提供了可靠保證。
四、結束語
并行數據挖掘體系結構具有較高的并行處理能力和性價比,以及方便靈活的并行程序設計環境,對于實施商業智能應用的客戶和應用領域來講,具有可操作性。大多商業智能應用客戶已經或者容易獲得本文給出的并行處理環境,不需要投入大量的經費購置專用的并行處理系統。
模式庫的提出是一種新的有益的探索。由于模式庫中存儲了歷史挖掘模式,如果其中的模式接近挖掘請求的時間,則可用這些模式自接作為挖掘的結果,不用再進行新的數據挖掘,在模式庫中進行查詢操作的響應會明顯加快,大大提高了數據挖掘的效率。
參考文獻:
[1]熊忠陽:面向商業智能的并行數據挖掘技術及應用研究[學位論文].重慶大學,2004
[2]Mohammed J. Zaki,Yi Pan. Introduction: Recent Developments in Parallel and Distributed Data Mining. Kluwer Academic Publishers. 2002
[3]Efrem G. Mallach. Decision support and data warehouse systems[J], Boston: McGraw-Hill, 2005.12,79-80