田春雨
隨著信息技術的不斷發展,人們對數據處理的要求也越來越高。比如利用其預測未來發展趨勢或得到其它有價值的信息等。而這些功能對于傳統的數據管理系統往往是做不到的。因為一般的數據庫管理系統只提供數據的一些簡單處理功能,如果想從中發現數據之間存在的內在聯系或發現現其規律,對龐大的數據進行處理是極其困難的。由于數據在日常決策中的重要性變得越來越重要,因此人們希望找到一種可以幫助我們處理大量繁雜數據的方法,進而發現有價值的信息最終為決策服務,同時也可減輕人工處理的負擔。
數據挖掘(Data Mining)又譯為數據開采。即是從大量的、有噪聲的、不完全的、模糊的、隨機的數據中,提取隱含在其中的而又是潛在有用的信息及知識的過程。也稱之為知識發現(KDD),一直以來,對于“知識發現”和“數據挖掘”這兩個術語的使用界限一直很模糊,在1996 年召開的KDD 國際會議上,Fayyd 等對這兩個術語進行了定義:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程,指的是數據庫中知識發現的全過程,而數據挖掘只是 KDD 過程中的一個特定步驟,它一般分為五個階段:選擇目標數據、預處理數據、轉化數據、進行數據挖掘以提取模式和關系、解釋并評價發現的結構。
數據挖掘主要是利用特定的知識發現算法,進而從數據中發現相關的知識。它只是 KDD 當中的一個步驟,而人們則經常不嚴格區分數據挖掘和知識發現,將二者混淆使用。一般情況下,在科研領域中稱之為 KDD,而在工程領域則稱之為數據挖掘。
人們往住把原始數據看作是形成知識的源泉。而原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化,如文本、圖形、圖像數據,甚至是分布在網絡上的異構數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘與計算機科學有關,它涉及到數據庫、人工智能、數理統計、機器學習、數據可視化技術、模式識別、神經網絡、歸納推理、高性能并行等多個領域,因此它是一門交叉型學科,而其研究內容也非常的廣泛。
從不同的角度看,數據挖掘技術可分為以下多種分類方法:
(1)根據挖掘的數據庫分類數據挖掘根據數據庫類型進行分類,包括:關系型( Relational )、事務型(Transactional)、面向對象型(Objected-Oriented)、主動型(Active)、空間型(Spacial)、時間型(Temporal)、文本型(Textual)、對媒體型(Multimedia)等。
(2)根據所采用技術分類數據挖掘基于所采用技術進行分類,可分為:規則歸納、神經網絡、決策樹、遺傳算法、可視化等。
由此可知,數據挖掘的過程是多個步驟相互連接、反復進行人機交互的過程。