張 毅
四川省宜賓市第一人民醫院網絡中心,四川宜賓 644000
數據挖掘系統是信息化自然進化的結果,在信息科技時代,隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,在大量的數據背后隱藏著許多重要的信息。信息中包含大量的數據,如何從大量的數據中獲取有用的知識是我們面臨的一個重要而且緊迫的課題。數據挖掘技術正是從這樣的商業角度出發孕育而生的。 簡單的說,數據挖掘就是從大量數據中提取或挖掘知識。數據挖掘步驟可以與用戶或知識庫交互的平臺。
數據挖掘系統可以根據挖掘的數據類型分類。數據庫系統本身可以根據不同的標準分類,每一類可以需要自己的數據挖掘技術,這樣就可以根據數據類型分類。
數據挖掘融 合了數據庫技術,人工智能和統計學是目前的研究熱點、為了能夠集成當前數據挖掘的主要技術并使它們協同工作,在進行數據挖掘基本算法研究的基礎上研制開發了一個數據挖掘系統-Golden-Eye-系統實現了數據控制研究中的一些 最新成果,集成了泛化、數據清洗這兩個數據準備操作以及關聯規則發現,例外規則發現、時序模 式發現、分類器構造、聚類分析等基本數據挖掘操作,并實現了對挖掘操作的基本管理和結果和圖形化顯示,整個框架設計充分體現了系統的完整性、協調性和高效性;自底向上將存儲控 制模塊、數據預處理模塊、挖掘操作模塊、挖掘庫管理模塊有機地結合在一起,在底層實現了對包括中間結果在內的數據的統一管理,在上層為用戶提供了可視化的界面,實驗結果表明,該系統 能夠在大規模數據庫上成功地完成用戶所指定的數據挖掘操作。
集成了泛化、數據清洗、關聯規則發現、時序模式(sequential pattern)發現、分類、聚類等多種基本數據挖掘操作。
集成了一些新的操作和新的算法,比如改進的DBSCAN聚類算法以及例外規則發現、數據清洗、類別屬性(categorical attribute)聚類這些數據挖掘領域里較新的操作。
能處理大規模的數據級,測試的最大記錄數目達到了10000000條以上。
在系統框架的設計上充分考慮到了系統的完整性、協調性和高效性。
我們開發的數據挖掘系統Golden-Eye成功地集成了數據挖掘和數據準備的幾個方面的功能。從結構上看,系統利用挖掘庫將各個挖掘操作松散且一致地結合起來,便于擴充新的挖掘操作模塊;從功能上看,我們集成了一些新興的數據挖掘操作;從實現上看,我們實現了一些自創或者經過改進的算法。
當然,本系統還存在著一些不足之處。首先,對各挖掘操作的集成還不夠緊密,挖掘操作只能簡單地按順序進行;其次,系統并未考慮與DBMS和OLAP工具的集成。
我們還需要在以下幾個方面做更多的工作:
1)集成簡單的數據庫操作和數據倉庫操作;
2)更緊密地集成各個數據挖掘操作;
3)在現有平臺的基礎上開發新的挖掘操作。
當前,數據挖掘研究方興未艾,,其研究與開發的總體水平相當于數據庫技術在90年代所處的地位,迫切需要類似于關系模式,數據系統和SQL查詢語言等理論和方法的指導,才 能使數據挖掘的應用得以普遍推廣。預計在本世紀,數據挖掘的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
發現語言的形式化描述,即研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;
尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互;
研究在網絡環境下的數據挖掘技術(WebMining),特別是在因特網上建立DMKD服務器,并且與數據庫服務器配合,實現分布式數據采掘;
加強對各種非結構化數據的開采(DataMiningforAudio&Video),如對文本數據,圖形數據,視頻圖像數據,聲音數據乃至綜合多媒體數據的開采;
處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據準備的一些工具和軟件。
需求牽引與市場推動是永恒的,將首先滿足信息時代用戶的急需,大量的基于數據挖掘的決策支持軟件產品將會問世。只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務,也只有到那時,數據才能夠真正成為與物質,能源相媲美的資源,信息時代才會真正到來。
[1]魏藜,錢海蕾,錢衛寧,王焱,周傲英.數據挖掘原型系統軟件學報,2001(8).
[2]王小虎,韓家偉.數據挖掘的概念與技術.計算機工程與設計,2002(10).
[3]錢衛寧,周傲英.一個面向大規模數據庫的數據挖掘系統,2009(1).