[摘要]隨著人們認識和管理水平的提高,對客觀世界的描述愈來愈全面,存儲的數據量愈來愈大,然而,對數據庫中數據的開發應用主要是檢索查詢,效率很低,此外,相當數量的數據具有很強的時效性,數據的價值隨著時間的推移而迅速降低,決策者迫切需要從海量數據庫中提取有價值知識的工具。就數據挖掘的功能、應用及發展問題進行分析。
[關鍵詞]數據挖掘系統發展趨勢
中圖分類號:TP3文獻標識碼;A文章編號:1671-7597(2009)0210057-01
數據挖掘一詞是在1989年8月于美國底特律市召開的第十一屆國際聯合人工智能學術會議上正式形成的。從1995年開始,每年主辦一次KDD國際學術會議,將KDD和數據挖掘方面的研究推向了高潮,從此數據挖掘一詞開始流行。快速增長的海量數據收集存放在若干大型數據庫中,如果沒有強有力的工具來幫助,其結果是重要的決策不是基于數據庫中豐富的信息,而是基于決策者的直覺。為此,決策者追切需要從海量數據庫中提取有價值知識的工具,數據挖掘技術正是為滿足上述要求而產生的。
一、數據挖掘的定義與構成
數據挖掘(Data Mining),又稱信息發掘(Knowledge Discovery),是用自動或半自動化的方法在數據中找到潛在的,有價值的信息和規則。數據挖掘技術來源于數據庫,統計和人工智能。數據挖掘系統的構成主要有以下方面:
(1)數據庫、數據倉庫和其他信息庫:這是一個或一組數據庫、數據倉庫、電子表格或其他類型的信息庫。(2)數據庫或數據倉庫服務器:根據用戶的數據挖掘請求,數據庫或數據倉庫服務器負責提取相關數據。(3)知識庫:這是領域知識,用于指導搜索,或評估結果模式的興趣度。(4)數據挖掘引擎:這是數據挖掘系統基本的部分,由一組功能模塊組成,用于特征化、關聯、分類、聚類分析以及演變和偏差分析。(5)模式評估模塊:通常,此成分使用興趣度度量,并與數據挖掘模塊交互,以便將搜索聚焦在有趣的模式上。它可能使用興趣度閥值過濾發現的模式。模式評估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數據挖掘方法的實現。(6)圖形用戶界面:本模塊在用戶和挖掘系統之間通信,允許用戶和系統交互,制定數據挖掘查詢或任務,提供信息、幫助搜索聚焦,根據數據挖掘的中間結果進行探索式數據挖掘。此外,此成分還允許用戶瀏覽數據庫和數據倉庫模式或數據結構,評估挖掘的模式,以不同的形式對模式可視化。
二、數據挖掘的應用
數據挖掘技術的潛在應用是十分廣泛的,從政府管理決策、商業經營、科學研究和工業企業決策支持等各個領域都可以找到數據挖掘技術的用武之地。下面列舉出目前開展得比較活躍的數據挖掘的應用方向:
(1)市場營銷:預測顧客的購買行為;劃分顧客群體。(2)銀行業:偵測信用卡的欺詐行為;客戶信譽分析。(3)生產、銷售和零售業:預測銷售額;決定庫存量:批發點分布的規劃、調度。(4)制造:預測機器故障:發掘影響生產能力的關鍵因素。經紀業和安全交易:預測債券價格的變化;預報股票價格升降;決定交易的最佳時刻。(5)保險業:分析決定醫療保險額的主要因素;預測顧客保險的模式。(6)計算機硬件和軟件:監測磁盤驅動故障;估計潛在的安全漏洞。(7)政府和防衛:估計軍事裝備轉移的成本;預測資源的消耗;評估軍事戰略。(8)醫藥:驗證藥物的治療機理:醫藥公司劃分出哪部分大夫會再次購買某類藥品。(9)交通:航空公司可以根據歷史資料尋找乘客的旅行模式,改進航線的設置。(10)電信:電話公司評估哪一類客戶會在短期內轉向別的公司或其它服務項目,從而限制對這部分客戶的廣告投入。(11)公司經營管理:評價客戶信譽;評估部門業績;評估員工業績:監測子公司或部門財務舞弊行為。
三、數據挖掘的發展趨勢
1、算法效率和可伸縮性。目前,數據庫的規模呈指數增長,Mb規模的數據庫已經很普遍。在商業數據庫中,Gb和Tb規模的數據庫也已經在使用。當把WWW包括進來的時候,Pb規模的數據庫正在出現。
2、處理不同類型的數據和數據源。目前數據挖掘系統處理的數據庫大多是關系數據庫。隨著數據庫應用范圍的日益擴大和規模、功能的日益完善,數據庫中將包含大量復雜的數據類型。如結構化的數據,復雜的數據對象,混合文本,多媒體數據,時空數據,事務數據及歷史數據等,甚至出現新的數據庫模型,因此保證數據挖掘系統能有效的處理此類數據庫中的數據是非常重要的。
3、數據挖掘系統的交互性。數據挖掘中操作者的適當參與能加速數據挖掘過程。一方面,交互界面接收用戶的檢索、查詢要求和數據挖掘策略,為用戶表達要求和策略提供了方便;另一方面,交互界面又把生成的結果傳遞給用戶,由于生成的結果可以是多種多樣,因此,準確而直觀地描述挖掘結果和友好而高效的用戶界面一直是研究的重要課題。
4、Web挖掘。由于Web上存在大量信息,并且Web在當今社會扮演越來越重要的角色,有關Web內容挖掘、Web日志挖掘和因特網上的數據挖掘服務,將成為數據挖掘中一個最為重要和繁榮的子領域。
5、數據挖掘中的隱私保護與信息安全。數據挖掘能從不同的角度、不同的抽象層上看待數據,這將潛在地影響數據的私有性和安全性。隨著計算機網絡的日益普及,研究數據挖掘可能導致的非法數據入侵是實際應用中需要解決的問題之一。
6、探索新的應用領域。信息產業的發展為數據挖掘提供了廣闊的空間,數據挖掘技術的應用范圍將不斷得到拓寬,特別是在生物工程、商業智能、網絡服務等領域的應用將成為新的研究熱點。同時由于通用數據挖掘系統在處理特定應用問題時有其局限性,因此,目前的一種趨勢是開發針對特定應用的數據挖掘系統。
7、數據挖掘語言的標準化。標準的數據挖掘語言或有關方面的標準化工作將有助于數據挖掘系統的研究和開發,有利于用戶學習和使用數據挖掘系統。研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化。
8、可視化數據挖掘。可視化數據挖掘是從大量數據中發現知識的有效途徑。目前數據挖掘的可視化僅體現在結果的簡單描述,而數據可視化、挖掘過程和結果可視化,將揭開數據挖掘神秘的面紗,使其變得更為生動、形象和具體。數據和結果的圖形展示可以放大、縮小、平移、旋轉和變換角度,使分析人員和用戶更加容易理解,將大大推動數據挖掘工具在發現知識和數據分析中的應用。
總之,數據挖掘的可視化具有重要的理論意義和應用價值。隨著計算機計算能力的發展和業務復雜性的提高,數據的類型會越來越多、越來越復雜,數據挖掘將發揮出越來越大的作用。
作者簡介:
崔永君,男,碩士,遼寧開原人,講師,計算機網絡研究方向。