武書彥,李 咚
WU Shu-yan1,LI Dong2
(1.鄭州牧業工程高等專科學校,鄭州 450011;2.鄭鐵職業技術學院,鄭州 450052)
隨著計算機技術的飛速發展以及網絡技術的普及,使得許多行業都有了更多的信息交流,促使數據庫的規模、范圍和深度都有了較大規模的擴大,從而積累了大量及以不同形式存儲的數據資料,同時在許多領域也建立了數據倉庫。在這些海量數據中往往隱含著各種各樣的信息,這些信息往往人們憑直覺與經驗是難以發現的如何從大量的數據中獲得有價值的信息,采用傳統的數據庫技術己顯得微不足道。數據的迅速增加與數據分析處理方法滯后的矛盾越來越大,人們希望能夠在對已有的大量數據分析的基礎上進行科學研究、商業決策或企業管理,從而達到為決策服務的目的。數據挖掘就是為了滿足這種需求而迅速發展起來的一種新的數據處理技術。
l)數據挖掘的定義:目前有關數據挖掘的定義雖然有很多,但目前一種比較公認的定義是:數據挖掘(DM)就是從大型數據庫的數據中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念、規則、規律、模式等形式。數據挖掘所要處理的問題,就是在龐大的數據庫中尋找出有價值的隱藏事件,加以分析,并將這些有意義的信息歸納成結構模式,提供給有關部門在進行決策時參考。此外,數據挖掘看重的是數據庫的再分析,包括模式的建構或是資料特征的判定,其主要目的就是要從數據庫中發現先前關心卻未曾獲悉的有價值信息。數據挖掘是人工智能和數據庫發展相結合的產物。下圖為典型的數據挖掘系統:

圖1 典型的數據挖掘系統
2)數據挖掘的特點:
(1)挖掘對象是海量的、復雜的各種類型的數據。
(2)挖掘的結果是潛在的、未知的、多樣性的(發現的知識可以是多種形式的)。
(3)挖掘方法是不確定的。數據挖掘方面沒有所謂最好的技術或通用的技術,因此,問題不是某一種方法比另一種方法更好,而是哪一種更適合所要解決的問題;
(4)數據挖掘支持在線數據存取。
(5)技術的綜合性。數據挖掘融入了人工智能技術、數據庫技術、數理統計技術、可視化技術等技術和哲學、邏輯學等學科的知識。
3)知識發現:知識發現的目的是從數據中發現知識,而數據挖掘則是知識發現中的一個特定步驟。二者都是從數據中發現知識,它們的區別可以這樣來理解:只是發現比數據挖掘更廣泛,而數據挖掘則是更具體更深入的概念。但在很多地方,就用數據挖掘表示知識發現。
數據挖掘的研究現狀目前,國外在數據挖掘方面的發展趨勢及研究主要有:對知識發現(簡稱KDD)方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;統計學回歸法在KDD中的應用;KDD與數據庫的緊密結合;對網絡信息挖掘方法的研究等。目前國內外出現了一些比較有影響的數據挖掘系統,包括各種專用或通用的數據挖掘軟件。但總的來說,現有的數據挖掘系統由于各自的算法和模型不同,跨平臺操作還受到很大的限制,一個普遍實用的模型還有待研究。
數據挖掘的任務就是從數據集中發現模式。模式可以有很多種,按功能可分為兩大類:預測型模式和描述型模式。在實際應用中,往往根據模式的實際作用又可分為以下幾種:分類,聚類,關聯,序列等。
1)分類:用于預測事件所屬的類別,其中樣本數據中包含標識樣本事件所屬類別的數據項,類別是己知的,由數據挖掘根據樣本數據構建對這些類別的模式的描述,再利用所發現的模式,參照新的數據的特征變量。將其映射入己知類別中,如在醫療應用中,可根據患者的各種特征進行疾病診斷等。
2)聚類:用于描述和發現數據庫中以前未知的數據類型,其中樣本數據中不包含類別變量,數據挖掘將具有共同趨勢和模式的數據元組聚集為一類,使類內各元組相似程序最高,類間差異最大。
3)關聯:用于發現給定事件或紀錄中經常一起發生的項目,由此推斷事件間潛在的關聯,識別有可能重復發生的模式。
4)序列模式:與關聯分析類似,只是擴展為一段時間的項目集間的關系。常把序列模式看作由時間變量連接起來的關聯。序列分析可分析長時間的相關紀錄,發現經常發生的模式。
1)數據挖掘采用的典型方法針對上述應用類型,數據挖掘領域提出了多種實現模式。
(1)神經網絡。它建立在數學模型的基礎之上,可以對大量復雜的數據進行分析,并完成極為復雜的模式抽取及趨勢分析。
(2)決策樹。它是通過一系列規則對數據進行分類,建立起相應的數學模型。采用決策樹,可以將數據規則可視化,其輸出結果也容易理解。決策樹方法精確度比較高,構造過程簡單。
(3)聯機分析處理。根據分析人員的要求,對大量數據進行復雜的處理,專門用來支持復雜的分析操作,對用戶當前及歷史數據進行分析、查詢和總結,輔助領導決策。它主要是用來完成用戶的事物處理,對響應的時間要求比較高。
(4)數據可視化。數據倉庫中包含大量的數據,充實著各種數據模型,將如此大量的數據可視化需要復雜的數據可視化工具。
(5)遺傳算法。它是一種優化技術,利用生物進化的一系列概念進行問題的搜索與挖掘,以達到優化組合的目的,在信息挖掘中以它強大的搜索能力找到最優解。
(6)統計學方法。旨在從抽樣分析中提取未知的數學模型,在數據挖掘中常會遇到大量的統計數據,通過模型分析來獲得普遍運行的模式規律。
(7)數據倉庫技術。以傳統的數據存貯和管理為基本手段,以統計分析作為數據分析和提取的有效方法,以人工智能作為知識挖掘和發現的科學途徑。
目前,數據挖掘技術正處在發展當中。數據挖掘涉及到數理統計、粗集理論、模糊邏輯理論、神經網絡、人工智能、專家系統等多種技術,技術含量比較高,實現難度較大。然而,數據挖掘技術與可視化技術、地理信息系統、統計分析系統相結合,可以豐富數據挖掘技術及工具的功能與性能。
2)數據挖掘的一般流程如下:
(1)定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
(2)數據準備:數據準備包括:選擇數據--在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理--進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。
(3)數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。
(4)結果分析對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。
(5)知識的運用:將分析所得到的知識集成到業務信息系統的組織結構中去。
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1)數據的抽取
數據的抽取是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便于管理和維護。
2)數據的存儲和管理
數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優化查詢等。目前,許多數據庫廠家提供的技術解決方案是擴展關系型數據庫的功能,將普通關系數據庫改造成適合擔當數據倉庫的服務器。
3)數據的展現
在數據展現方面主要的方式有:查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的識。
數據挖掘技術在各行各業的使用都是較為突出的,而基于Web的數據挖掘正是當前熱門研究方向之一,而且其應用范圍廣闊,潛力巨大。Web挖掘技術也在不斷提出和改進之中,一般地Web挖掘可分為三類:Web內容挖掘、Web 結構挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括:Web 文本的自動分類、多層次Web 信息庫的建立、Web log 挖掘,以及其它涉及信息安全、搜索的效率、查詢結果的質量、搜索工具的可伸縮性等方面的問題研究。可以預見,隨著XML的興起,Web 頁面會蘊涵更多的結構化和語義信息,這會使Web 挖掘變得更有效。
Web通過數據挖掘技術,可以使我們得到相關的信息數據:①內容數據,即用戶在網頁上看到的信息,主要是文本與圖像等;②結構數據,描述網頁內容的組織方式的數據,其中,頁內結構以HTML 和XML 表示成樹形結構,頁間結構以連接不同網頁的超鏈接結構表示;③訪問特征數據,主要指與用戶訪問相關的IP 地址、URL 、訪問日期、訪問時間長度等數據;④用戶背景數據,包括用戶的注冊信息,如姓名、年齡、籍貫、收入、職業、學歷、專業、需求重點、個人愛好等。
數據挖掘是目前國際上數據庫和信息系統最前沿的研究方向之一,可以說它已成為國際上一個研究熱點。然而就現狀而言,數據挖掘仍有一定的局限性,如系統的低性能和挖掘對象的單一性等,但可預見,隨著研究的進一步深入和數據存儲及表達方式的日趨標準化,數據挖掘將變得更為有效并將得到更為廣泛的應用。
[1]宋愛波,黃逸生,等.Web挖掘研究綜述[J].計算機科學,2001,28(11):73-77.
[2]陳寧,周龍驤.數據采掘在Internet 中的應用[J].計算機科學,1999 ,26(7):44-49.
[3]張志強,周立柱,等.Web 數據庫技術簡述[J ].計算機科學,2001,28(10):1-6.
[4]王清毅,陳恩紅,蔡慶生.知識發現的若干問題及應用研究[J ].計算機科學,1997,24(5):13-16.
[5]胡侃,夏紹瑋.基于大型數據倉庫的數據采掘:研究綜述[J].軟件學報,1998,9(1).