[摘 要]本文概述了數據挖掘的定義及其軟件的分類,對經典的幾種數據挖掘軟件進行了詳細的介紹,提出了企業選擇數據挖掘軟件的方法,最后通過分析數據挖掘現存的問題,探討了數據挖掘軟件的發展趨勢。
[關鍵詞]數據挖掘 數據庫 軟件應用
作者簡介:鞏軍全(1978-),男,甘肅甘谷人,天水師范學院經濟與社會管理學院教師。
一、數據挖掘的涵義
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程[2]。是從信息海洋中提取有價值的知識,從而幫助企業在業務管理及發展上做出及時、正確的判斷,然后采取明智的行動,做到在競爭中占據主動權的新途徑、新方法。
二、數據挖掘軟件
(一)數據挖掘軟件分類
一般來講,數據挖掘軟件根據其適用的范圍分為兩類[3]:專用數據挖掘軟件和通用數據挖掘軟件。專用數據挖掘軟件是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數據、需求的特殊性;而通用數據挖掘軟件不區分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。
(二)數據挖掘軟件介紹
當前推出的通用數據挖掘軟件有三十多種[4],下面分別按:軟件產品及其特點、應用行業案例等方面詳細介紹經典的SAS、SPSS、Oracle、IBM公司的軟件產品,以便對挖掘軟件有一個比較深刻的認識。
1.SAS的數挖軟件Enterprise Miner
平臺:Windows NT
功能:EM為所有的模型開發產生全部的記分代碼,這些記分代碼能夠立即應用到新的數據中。優點:圖形化的界面,可視化的操作,可導引即使是數理統計經驗不太多的使用者也能按照SEMMA的原則成功的進行數據挖掘。缺點:臨時文件花費了許多空間,打印決策樹比較困難。
應用行業:多用于一些的零售公司。如美國AutoTrader.com是世界上最大的汽車銷售站點,每天都會有大量的用戶對網站上的信息點擊,尋求信息,其運用了SAS軟件進行數據挖掘,每天對數據進行分析,找出用戶的訪問模式,對產品的喜歡程度進行判斷,并設特定服務項,取得了巨大的成功。
2.SPSS的數挖軟件Clementine
平臺:Windows 95, Windows NT.
功能:SPSS是數據清洗、數據挖掘、統計分析工具。優點:界面友好,不需要編程,統計功能強大。缺點:用戶很難知道選擇存儲時存儲的是什么信息,即存儲輸出和存儲數據比較容易混淆。應用行業案例:多方位的金融服務商。如美國HSBC銀行有多于1.4億個人銀行客戶。使用SPSS的數據挖掘工具分析客戶,發現模型。三年內增加了15%的銷售量,留住了更多的客戶,取得很好的效益。
3.Oracle的數挖軟件Darwin
平臺:Windows NT/95
功能: Darwin支持數據挖掘算法:神經網絡,分類和回歸樹,K-最近鄰居、遺傳算法、基于記憶的推理(memory-based reasoning)、聚集和貝葉斯算法。優點:第一,高度的可擴展性,由于能夠使數據挖掘算法并行實現,所以能夠挖掘海量數據;第二,模型能夠容易導出,和其他應用集成;第三是Windows風格的客戶端易于使用。缺點:缺乏在數據挖掘之前對數據的可視化探索。工作流不能可視化編輯。應用行業:適合專門的數據挖掘和數據倉庫市場分析和咨詢公司。全球最大的零售商——沃爾瑪百貨有限公司用Oracle商業智能套件企業加強版在所有經營活動中實現全面的數據智能和分析。
4.IBM的數挖軟件Intelligent Miner
平臺:Window NT
功能:自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據挖掘操作。優點:Intelligent Miner可以提供一定程度的定制,具有可擴展性,索引的速度很快,具有先進的語言分析能力、聚集和過濾能力、支持并行處理,查詢速度很快。缺點:Intelligent Miner圖形界面不友好。元數據不開放,結構復雜。文檔缺乏錯誤代碼的詳細解釋。沒有對算法的詳細說明。應用行業:Bass Export是世界最大的啤酒進出口商之一,每個星期傳送23000份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,IM很好的解決了上述問題。
總的來說[5],SAS在數理統計分析、數據挖掘方面具有很大的優勢,是熟悉統計學并擅長編程的專業人士的首選。與SAS比較,SPSS則是非統計學專業人士的首選。Oracle在全球數據庫領域占有很大的份額,在并行計算方面具有優勢。IBM在巨量數據的存儲方面具有很強的能力,在數據整合速度、并行處理等方面具有優勢。
(三)數據挖掘軟件的選擇 數據挖掘是一個過程,只有將數據挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘軟件的時候,要全面考慮多方面的因素,主要從下面幾點進行考慮:
1.數據挖掘的功能和方法。即是否可以完成各種數據挖掘的任務[6],如:關聯分析、分類分析、序列分析、回歸分析、聚類分析、自動預測等。2.操作的簡易性。一個好的數據挖掘軟件應該為用戶提供友好的可視化操作界面和圖形化報表工具,在進行數據挖掘的過程中應該盡可能提高自動化運行程度。3.數據挖掘軟件的可伸縮性。也就是說解決復雜問題的能力,一個好的數據挖掘軟件應該可以處理盡可能大的數據量,可以處理盡可能多的數據類型,如果在數據量和挖掘維數增加的情況下,挖掘的時間呈線性增長,那么可以認為該挖掘軟件的伸縮性較好。4.數據挖掘軟件的開放性。即數據挖掘軟件與數據庫的結合能力。好的數據挖掘軟件應該可以連接盡可能多的數據庫管理系統和其他的數據資源,應盡可能的與其他軟件進行集成;而且開發模型,測試模型,部署模型都要充分利用數據倉庫的處理能力,另外,多個數據挖掘項目可以同時進行。5.數據挖掘軟件的可視化。 內容包括源數據的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結果的可視化,可視化的程度、質量和交互的靈活性都將嚴重影響到數據挖掘系統的使用和解釋能力[7]。
三、數據挖掘軟件的發展趨勢
(1)Web挖掘;加強對各種非結構化數據的開采,如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采。(2)數據挖掘軟件的跨平臺系統集成。(3)生物信息或基因的數據挖掘等。(4)可視化數據挖掘;數據挖掘過程中的可視化以使知識發現的過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互。(5)數據倉庫系統和Web數據庫系統的集成[8];動態數據倉庫要具備真正的競爭力,使用者必須預測將要發生的事,而且更要有正確的信息,來驅動想要讓它發生的事。(6)數據挖掘中的隱私保護與信息安全的研究。
參考文獻
[1]黃勇,曾薇,黃毅。數據挖掘技術在企業管理中的應用研究,福建電腦 2007(4)
[2]李成。數據挖掘技術的應用探析,學術探討,2008(6)
[3]葛新紅。數據挖掘軟件應用分析。微計算機應用,2005年第3期:374
[4]田宏政。數據挖掘技術及其應用,IT技術,2007(34)
[5]林宇等。數據倉庫原理與實踐。人民郵電出版社,2003年1月
[6] Margaret H·Dunham。數據挖掘教程[M]北京:清華大學出版社,2005
[7]劉英。數據挖掘及其應用科技信息 2008(18)
[8]梅薇。數據挖掘初探,中國集體經濟 2008(2)