劉芬 延安大學計算機學院
伴隨著互聯網及其相關產業的飛速發展,在互聯網從單一的行業成長為深入我國各行各業的最具影響力和市場潛力的產業之一的同時,數據庫應用范圍日趨拓寬,使用頻率日漸加快,深度也在不斷加深,使得各行各業在過去的幾年間積累了海量的儲存形式各異的數據資料,而這些海量數據仍以驚人的速度增長著且日益復雜,這些無疑對查詢和檢索相關資料帶來了極大的困難,因此一個智能的可以自動對信息進行分類和篩選的技術是目前所迫切需要的,而數據挖掘就是為這種需求應該而生的。那么何為數據挖掘?顧名思義,數據挖掘就是指一種在海量數據中幫人們篩選出所需的數據的新的開發信息資源的數據處理技術。下面本文將從數據挖掘技術算法,數據挖掘技術的主要方法以及數據挖掘技術的研究方向三個角度對數據挖掘技術進行分析。
數據挖掘方法的具體實現方式就是數據挖掘算法,數據挖掘算法通說認為由模型表示,模型評價標準以及發現方法三個部分組成。其中模型表示相當于對發現模型加以描述所需要的語言,只有模型表示能力強,也就是對發現的模型描述的越精確,發現的數學模型就會越精確。
模型評價標準相當于對發現模型進行預測的標尺,利用這些評價標準對模型的精確度、實用性、新穎性、及可認識程度等方面進行預測和評價。
其中發現方法相當于確定結論,發現方法由參量發現和模型發現組成,參量發現是在以上兩個部分確定后找出的最合適數量的模型;模型發現是在不斷更改模型的過程中經過試探確定的適當數量的模型。一個算法一般只在某個領域非常的有效,卻不能普遍適用,故在不同的領域應當精心挖掘出最適合的該領域的數據挖掘算法,應當具體問題具體分析,切不可一概而論。
根據知識的種類,所挖掘的數據庫的種類,數據庫挖掘方法或者是挖掘數據庫使用的技術等的不同可以對數據挖掘技術的方法進行多種多樣的分類,不過學界比較認可的數據挖掘技術的方法大致有如下十種。
一是決策樹方法,即以信息論中的信息增益為標準劃分字段,建立結點,再以不同的取值在結點上建立數的分支,以此重復進行結點和分支,進而建立決策樹,信息數據越多書的分支越多,樹越龐大,同樣的數據越少,分支越少,樹也就越小。二是神經網絡方法,即以MP模型和Hebb學習規則為基本單位來對大腦神經元進行模擬,以神經網絡的連接的結點作為知識結點,進而進行逐步計算,而目前主要以前饋式網絡,反饋式網絡以及自組織網絡三大神經網絡模型為典型。三是覆蓋正例排斥反例方法,即通過總結利用正例,排斥反例的方式尋找規律。四是粗集方法,即在一組數據庫之中,將行元素作為對象,將列元素作為屬性進行研究。五是概念樹方法,即將數據庫中的數據按照不同屬性進行歸類構建出具有層次的概念樹。六是遺傳算法,即將繁殖,交叉和變異作為三個基本單位對生物的進化過程進行模擬的一種算法。七是公式發現方法,即對數據庫中的各種變量進行數學演算進而推導出所需的數學公式的方法。八是統計分析方法,即通過回歸分析、相關分析、主成分分析等方法確定數據庫中數據之間所具備的函數關系或者是相關關系等關系的算法。九是模糊集方法,即對實際問題進行模糊集理論中的評判、決策、模式識別和聚類分析從而推斷出的一種方法。十是可視化技術,即通過可視化數據分析技術使得數據更加形象具體化的展現在使用者面前。
目前的數據挖掘技術數據輸入方式單一,只能對數值型和結構型的數據加以處理,有很大的局限性,故數據挖掘技術應當朝著數據輸入形式的多樣性的研究方向發展;目前數據挖掘技術所針對的數據庫日益龐大,故數據挖掘技術中的算法應當朝著有效性與可測性的方向發展;目前網絡挖掘技術缺乏與用戶的交流,故應朝著加大用戶參與度的研究方向發展;除以上研究方向外,數據挖掘技術還應該朝著突破證實技術的局限性,完善知識的表達和解釋機制以及知識的維護和更新機制的研究方向發展,在加強數據挖掘技術的私有性和安全性的同時解決數據挖掘技術支持系統具有局限性等問題,促進數據挖掘技術更好的發展,為信息化現代化助力。
面對海量的數據,為了便利使用者對信息的獲取和利用,數據挖掘技術應運而生,但是面對這樣一個新興的事物很多人不了解也不理解,故本文從數據挖掘技術的主要方法以及數據挖掘技術的研究方向三個角度對數據挖掘技術的主要方法及今后的發展方向進行論述,以其對于人們了解和理解數據挖掘技術有所助益,促進數據挖掘技術的發展,進而促進信息化和現代化的發展。