隨著數(shù)字信息技術和計算機硬件技術中新存儲介質和存儲方式的不斷發(fā)展,人類生活中的各類數(shù)據(jù)產(chǎn)生了爆炸式的增長,如何對這些數(shù)據(jù)進行整理和使用成為當前數(shù)據(jù)領域的研究熱點,數(shù)據(jù)庫技術的成熟與普及為這些龐大數(shù)據(jù)量的整理及挖掘帶來了可能。但是傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)和統(tǒng)計分析方法已經(jīng)無法應對如此海量的數(shù)據(jù),如何進行有效的數(shù)據(jù)挖掘還有待分析和整理。
一、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是數(shù)據(jù)知識發(fā)現(xiàn)的不可或缺的一個部分,其通過采用不同的分類手段和分析方法對大量數(shù)據(jù)進行分析,揭示它們之間的內在聯(lián)系和發(fā)展趨勢。數(shù)據(jù)挖掘是一門綜合性學科,是隨著人工智能技術和數(shù)據(jù)庫技術發(fā)展起來的。其發(fā)展基礎是超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、更加快速的計算機硬件突破、對巨大數(shù)據(jù)的快速訪問需求及更為精確的數(shù)據(jù)機構算法。
數(shù)據(jù)挖掘的主要任務就是對隱藏在數(shù)據(jù)中的模式進行發(fā)掘,描述當前數(shù)據(jù)的一般特性,并利用當前數(shù)據(jù)和歷史數(shù)據(jù)對未來數(shù)據(jù)進行預測和分析。數(shù)據(jù)挖掘主要通過以下幾種模式實現(xiàn)數(shù)據(jù)的分類處理:
1.分類模式。該模式通過對訓練數(shù)據(jù)集進行學習建立相應的符合模型特征的數(shù)據(jù)模型,進而建立模型規(guī)則、決策樹或者數(shù)學表達式等,將新的數(shù)據(jù)按照上述規(guī)則進行數(shù)據(jù)分類和映射,實現(xiàn)不同數(shù)據(jù)的分類。
2.聚類模式。該模式是利用數(shù)據(jù)的差別和相似性進行分類,主要針對未知的數(shù)據(jù)。具體實現(xiàn)為,將數(shù)據(jù)項按照不同類間的數(shù)據(jù)差別最大、同類間的數(shù)據(jù)茶杯最小的規(guī)則進行數(shù)據(jù)分類。該模式不依賴訓練數(shù)據(jù)集和預先定義的類即可實現(xiàn)自動分類。
3.回歸模式。該模式類似于分類模式,但是不同點在于回歸模式使用的是連續(xù)的預測值,而分類模式使用的是離散的預測值。回歸模式優(yōu)點在于將大量非線性問題進行變量轉換變?yōu)榫€性問題,進而利用線性回歸等處理手段進行模式歸類,簡化了歸類算法。
4.關聯(lián)模式。該模式是通過利用預先已知的一套數(shù)據(jù)之間的關聯(lián)規(guī)則對不同的數(shù)據(jù)進行挖掘,通過掃描前一次的數(shù)據(jù)庫應用結果產(chǎn)生本次的掃描候選集,根據(jù)數(shù)據(jù)間的最小支持度和最小可信度實現(xiàn)不同數(shù)據(jù)間的關聯(lián)。
5.序列模式。該模式基于時間或者其他規(guī)律或趨勢進行了建模和分類,是關聯(lián)模式和時間序列模式的結合模式。這種模式主要在時間維度上對數(shù)據(jù)進行關聯(lián)分類。
6.偏差模式。該模式主要用來描述差異性數(shù)據(jù)。在某些情況下,差異型數(shù)據(jù)比普通數(shù)據(jù)更有使用和分析價值,這種模式就是對這種少數(shù)數(shù)據(jù)情況進行分析和歸類的一種模式。
二、經(jīng)典數(shù)據(jù)挖掘方式
具體數(shù)據(jù)挖掘的算法可以按照不同視角進行多種方式分類,這些視角主要包括生物學方法、信息論方法、集合論方法、最近研究趨勢等。經(jīng)過十幾年的蓬勃發(fā)展,數(shù)據(jù)挖掘基本算法已經(jīng)相對趨于成熟,而在其基礎上進行的改進算法對數(shù)據(jù)挖掘的提升相對有限。
1、神經(jīng)網(wǎng)絡算法。神經(jīng)網(wǎng)絡算法是生物學方向的一種經(jīng)典算法,該算法通過某種規(guī)則對多個神經(jīng)元進行關聯(lián),進而利用網(wǎng)絡狀態(tài)對外部輸入信息的動態(tài)響應實現(xiàn)信息的處理,由于神經(jīng)元具有分布式存儲結構,故該種算法具有很強的容錯性和魯棒性。鑒于神經(jīng)網(wǎng)絡主要被用來獲取分類模式,而該模式無法用明顯的規(guī)則來表述,故這類算法的可理解性較差。同時由于要進行多次掃描和訓練,故其在數(shù)據(jù)處理時間上具有明顯的劣勢。2、歸納學習。該算法以信息論為基礎,通過對大量經(jīng)驗數(shù)據(jù)進行歸納和整理進行規(guī)則和模式的抽象總結,進而實現(xiàn)數(shù)據(jù)挖掘。C4.5是其中的一種經(jīng)典決策樹算法,其通過信息熵實現(xiàn)屬性的分類,適用于大數(shù)據(jù)庫中的學習和歸類。3、粗糙集理論。該算法是一種用于對不完整、不確定數(shù)據(jù)進行表達學習和歸納的算法。該類算法不需要除所需處理的數(shù)據(jù)集合之外的其他任何先驗信息即可實現(xiàn)數(shù)據(jù)的挖掘,對知識獲取瓶頸的突破具有明顯效果,可以發(fā)現(xiàn)差異性數(shù)據(jù)或者噪聲數(shù)據(jù)的內在聯(lián)系。
三、數(shù)據(jù)挖掘研究熱點及發(fā)展趨勢
鑒于數(shù)據(jù)庫系統(tǒng)已經(jīng)被廣泛應用到各個領域,而各個領域又具有不同于其他領域的特點及需求,使得數(shù)據(jù)挖掘成為當前時期內信息系統(tǒng)領域研究的熱點。尤其是在一些尖端科學及熱門應用領域的數(shù)據(jù)庫應用中的數(shù)據(jù)挖掘技術更是體現(xiàn)出了數(shù)據(jù)挖掘研究的發(fā)展趨勢。
數(shù)據(jù)表明,網(wǎng)絡已經(jīng)成為人們生活中不可或缺的組成部分,網(wǎng)站,尤其是電子商務網(wǎng)站每天都會生成龐大的日志文件和訪問記錄信息,如何對這些數(shù)據(jù)進行分析和挖掘可以幫助企業(yè)根據(jù)用戶需求設計出更為人性化的交互界面,幫助企業(yè)增強市場競爭力。雖然基于網(wǎng)站的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘建模技術和算法使用差別不大,但是需要注意到,網(wǎng)站的數(shù)據(jù)庫格式與傳統(tǒng)的數(shù)據(jù)庫還是存在一定差別,如何實現(xiàn)特定環(huán)境的數(shù)據(jù)挖掘優(yōu)化是當前研究的一個方向。
空間地理數(shù)據(jù)和視頻流媒體數(shù)據(jù)也都建立在數(shù)據(jù)庫的基礎上。但是這類信息的數(shù)據(jù)挖掘還處于初步階段,如何在海量數(shù)據(jù)中挖掘事先未知的和潛在有用的數(shù)據(jù)關系,幫助確定數(shù)據(jù)的內在聯(lián)系和發(fā)展趨勢還有待研究。但是可以確定的是,由于這類數(shù)據(jù)具有跨學科的綜合性,故無法使用一般的方法進行數(shù)據(jù)挖掘,而應該建立多角度多學科交叉性的數(shù)據(jù)挖掘方式。
未來基于數(shù)據(jù)庫的數(shù)據(jù)挖掘肯定會朝著智能化、可視化、實時化、多維化、交互化方向發(fā)展,以適應更為復雜的和現(xiàn)實的數(shù)據(jù)環(huán)境。
無論是在研究領域還是在商業(yè)應用中,基于數(shù)據(jù)庫的數(shù)據(jù)挖掘都是一個熱點話題,并且得到了越來越多的關注。隨著數(shù)據(jù)挖掘技術的逐漸成熟,必須結合數(shù)據(jù)來源領域、數(shù)據(jù)應用領域、數(shù)據(jù)模型建立和算法理論基礎等多方面因素進行數(shù)據(jù)的挖掘工作才能保證數(shù)據(jù)挖掘的有效性。