武書彥,李 咚
WU Shu-yan1,LI Dong2
(1.鄭州牧業(yè)工程高等專科學(xué)校,鄭州 450011;2.鄭鐵職業(yè)技術(shù)學(xué)院,鄭州 450052)
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)的普及,使得許多行業(yè)都有了更多的信息交流,促使數(shù)據(jù)庫(kù)的規(guī)模、范圍和深度都有了較大規(guī)模的擴(kuò)大,從而積累了大量及以不同形式存儲(chǔ)的數(shù)據(jù)資料,同時(shí)在許多領(lǐng)域也建立了數(shù)據(jù)倉(cāng)庫(kù)。在這些海量數(shù)據(jù)中往往隱含著各種各樣的信息,這些信息往往人們憑直覺(jué)與經(jīng)驗(yàn)是難以發(fā)現(xiàn)的如何從大量的數(shù)據(jù)中獲得有價(jià)值的信息,采用傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)己顯得微不足道。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析處理方法滯后的矛盾越來(lái)越大,人們希望能夠在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或企業(yè)管理,從而達(dá)到為決策服務(wù)的目的。數(shù)據(jù)挖掘就是為了滿足這種需求而迅速發(fā)展起來(lái)的一種新的數(shù)據(jù)處理技術(shù)。
l)數(shù)據(jù)挖掘的定義:目前有關(guān)數(shù)據(jù)挖掘的定義雖然有很多,但目前一種比較公認(rèn)的定義是:數(shù)據(jù)挖掘(DM)就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問(wèn)題,就是在龐大的數(shù)據(jù)庫(kù)中尋找出有價(jià)值的隱藏事件,加以分析,并將這些有意義的信息歸納成結(jié)構(gòu)模式,提供給有關(guān)部門在進(jìn)行決策時(shí)參考。此外,數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫(kù)的再分析,包括模式的建構(gòu)或是資料特征的判定,其主要目的就是要從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價(jià)值信息。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)發(fā)展相結(jié)合的產(chǎn)物。下圖為典型的數(shù)據(jù)挖掘系統(tǒng):

圖1 典型的數(shù)據(jù)挖掘系統(tǒng)
2)數(shù)據(jù)挖掘的特點(diǎn):
(1)挖掘?qū)ο笫呛A康摹?fù)雜的各種類型的數(shù)據(jù)。
(2)挖掘的結(jié)果是潛在的、未知的、多樣性的(發(fā)現(xiàn)的知識(shí)可以是多種形式的)。
(3)挖掘方法是不確定的。數(shù)據(jù)挖掘方面沒(méi)有所謂最好的技術(shù)或通用的技術(shù),因此,問(wèn)題不是某一種方法比另一種方法更好,而是哪一種更適合所要解決的問(wèn)題;
(4)數(shù)據(jù)挖掘支持在線數(shù)據(jù)存取。
(5)技術(shù)的綜合性。數(shù)據(jù)挖掘融入了人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、數(shù)理統(tǒng)計(jì)技術(shù)、可視化技術(shù)等技術(shù)和哲學(xué)、邏輯學(xué)等學(xué)科的知識(shí)。
3)知識(shí)發(fā)現(xiàn):知識(shí)發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),而數(shù)據(jù)挖掘則是知識(shí)發(fā)現(xiàn)中的一個(gè)特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),它們的區(qū)別可以這樣來(lái)理解:只是發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣泛,而數(shù)據(jù)挖掘則是更具體更深入的概念。但在很多地方,就用數(shù)據(jù)挖掘表示知識(shí)發(fā)現(xiàn)。
數(shù)據(jù)挖掘的研究現(xiàn)狀目前,國(guó)外在數(shù)據(jù)挖掘方面的發(fā)展趨勢(shì)及研究主要有:對(duì)知識(shí)發(fā)現(xiàn)(簡(jiǎn)稱KDD)方法的進(jìn)一步研究,如近年來(lái)注重對(duì)Bayes(貝葉斯)方法以及Boosting方法的研究和提高;統(tǒng)計(jì)學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫(kù)的緊密結(jié)合;對(duì)網(wǎng)絡(luò)信息挖掘方法的研究等。目前國(guó)內(nèi)外出現(xiàn)了一些比較有影響的數(shù)據(jù)挖掘系統(tǒng),包括各種專用或通用的數(shù)據(jù)挖掘軟件。但總的來(lái)說(shuō),現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)由于各自的算法和模型不同,跨平臺(tái)操作還受到很大的限制,一個(gè)普遍實(shí)用的模型還有待研究。
數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測(cè)型模式和描述型模式。在實(shí)際應(yīng)用中,往往根據(jù)模式的實(shí)際作用又可分為以下幾種:分類,聚類,關(guān)聯(lián),序列等。
1)分類:用于預(yù)測(cè)事件所屬的類別,其中樣本數(shù)據(jù)中包含標(biāo)識(shí)樣本事件所屬類別的數(shù)據(jù)項(xiàng),類別是己知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對(duì)這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量。將其映射入己知類別中,如在醫(yī)療應(yīng)用中,可根據(jù)患者的各種特征進(jìn)行疾病診斷等。
2)聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫(kù)中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔?shì)和模式的數(shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程序最高,類間差異最大。
3)關(guān)聯(lián):用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項(xiàng)目,由此推斷事件間潛在的關(guān)聯(lián),識(shí)別有可能重復(fù)發(fā)生的模式。
4)序列模式:與關(guān)聯(lián)分析類似,只是擴(kuò)展為一段時(shí)間的項(xiàng)目集間的關(guān)系。常把序列模式看作由時(shí)間變量連接起來(lái)的關(guān)聯(lián)。序列分析可分析長(zhǎng)時(shí)間的相關(guān)紀(jì)錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。
1)數(shù)據(jù)挖掘采用的典型方法針對(duì)上述應(yīng)用類型,數(shù)據(jù)挖掘領(lǐng)域提出了多種實(shí)現(xiàn)模式。
(1)神經(jīng)網(wǎng)絡(luò)。它建立在數(shù)學(xué)模型的基礎(chǔ)之上,可以對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,并完成極為復(fù)雜的模式抽取及趨勢(shì)分析。
(2)決策樹。它是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,建立起相應(yīng)的數(shù)學(xué)模型。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,其輸出結(jié)果也容易理解。決策樹方法精確度比較高,構(gòu)造過(guò)程簡(jiǎn)單。
(3)聯(lián)機(jī)分析處理。根據(jù)分析人員的要求,對(duì)大量數(shù)據(jù)進(jìn)行復(fù)雜的處理,專門用來(lái)支持復(fù)雜的分析操作,對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、查詢和總結(jié),輔助領(lǐng)導(dǎo)決策。它主要是用來(lái)完成用戶的事物處理,對(duì)響應(yīng)的時(shí)間要求比較高。
(4)數(shù)據(jù)可視化。數(shù)據(jù)倉(cāng)庫(kù)中包含大量的數(shù)據(jù),充實(shí)著各種數(shù)據(jù)模型,將如此大量的數(shù)據(jù)可視化需要復(fù)雜的數(shù)據(jù)可視化工具。
(5)遺傳算法。它是一種優(yōu)化技術(shù),利用生物進(jìn)化的一系列概念進(jìn)行問(wèn)題的搜索與挖掘,以達(dá)到優(yōu)化組合的目的,在信息挖掘中以它強(qiáng)大的搜索能力找到最優(yōu)解。
(6)統(tǒng)計(jì)學(xué)方法。旨在從抽樣分析中提取未知的數(shù)學(xué)模型,在數(shù)據(jù)挖掘中常會(huì)遇到大量的統(tǒng)計(jì)數(shù)據(jù),通過(guò)模型分析來(lái)獲得普遍運(yùn)行的模式規(guī)律。
(7)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。以傳統(tǒng)的數(shù)據(jù)存貯和管理為基本手段,以統(tǒng)計(jì)分析作為數(shù)據(jù)分析和提取的有效方法,以人工智能作為知識(shí)挖掘和發(fā)現(xiàn)的科學(xué)途徑。
目前,數(shù)據(jù)挖掘技術(shù)正處在發(fā)展當(dāng)中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計(jì)、粗集理論、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、人工智能、專家系統(tǒng)等多種技術(shù),技術(shù)含量比較高,實(shí)現(xiàn)難度較大。然而,數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計(jì)分析系統(tǒng)相結(jié)合,可以豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。
2)數(shù)據(jù)挖掘的一般流程如下:
(1)定義問(wèn)題:清晰地定義出業(yè)務(wù)問(wèn)題,確定數(shù)據(jù)挖掘的目的。
(2)數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備包括:選擇數(shù)據(jù)--在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理--進(jìn)行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補(bǔ)丟失的域,刪除無(wú)效數(shù)據(jù)等。
(3)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。
(4)結(jié)果分析對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。
(5)知識(shí)的運(yùn)用:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
1)數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。
2)數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。
3)數(shù)據(jù)的展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。
數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的使用都是較為突出的,而基于Web的數(shù)據(jù)挖掘正是當(dāng)前熱門研究方向之一,而且其應(yīng)用范圍廣闊,潛力巨大。Web挖掘技術(shù)也在不斷提出和改進(jìn)之中,一般地Web挖掘可分為三類:Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括:Web 文本的自動(dòng)分類、多層次Web 信息庫(kù)的建立、Web log 挖掘,以及其它涉及信息安全、搜索的效率、查詢結(jié)果的質(zhì)量、搜索工具的可伸縮性等方面的問(wèn)題研究。可以預(yù)見,隨著XML的興起,Web 頁(yè)面會(huì)蘊(yùn)涵更多的結(jié)構(gòu)化和語(yǔ)義信息,這會(huì)使Web 挖掘變得更有效。
Web通過(guò)數(shù)據(jù)挖掘技術(shù),可以使我們得到相關(guān)的信息數(shù)據(jù):①內(nèi)容數(shù)據(jù),即用戶在網(wǎng)頁(yè)上看到的信息,主要是文本與圖像等;②結(jié)構(gòu)數(shù)據(jù),描述網(wǎng)頁(yè)內(nèi)容的組織方式的數(shù)據(jù),其中,頁(yè)內(nèi)結(jié)構(gòu)以HTML 和XML 表示成樹形結(jié)構(gòu),頁(yè)間結(jié)構(gòu)以連接不同網(wǎng)頁(yè)的超鏈接結(jié)構(gòu)表示;③訪問(wèn)特征數(shù)據(jù),主要指與用戶訪問(wèn)相關(guān)的IP 地址、URL 、訪問(wèn)日期、訪問(wèn)時(shí)間長(zhǎng)度等數(shù)據(jù);④用戶背景數(shù)據(jù),包括用戶的注冊(cè)信息,如姓名、年齡、籍貫、收入、職業(yè)、學(xué)歷、專業(yè)、需求重點(diǎn)、個(gè)人愛好等。
數(shù)據(jù)挖掘是目前國(guó)際上數(shù)據(jù)庫(kù)和信息系統(tǒng)最前沿的研究方向之一,可以說(shuō)它已成為國(guó)際上一個(gè)研究熱點(diǎn)。然而就現(xiàn)狀而言,數(shù)據(jù)挖掘仍有一定的局限性,如系統(tǒng)的低性能和挖掘?qū)ο蟮膯我恍缘龋深A(yù)見,隨著研究的進(jìn)一步深入和數(shù)據(jù)存儲(chǔ)及表達(dá)方式的日趨標(biāo)準(zhǔn)化,數(shù)據(jù)挖掘?qū)⒆兊酶鼮橛行Р⒌玫礁鼮閺V泛的應(yīng)用。
[1]宋愛波,黃逸生,等.Web挖掘研究綜述[J].計(jì)算機(jī)科學(xué),2001,28(11):73-77.
[2]陳寧,周龍?bào)J.數(shù)據(jù)采掘在Internet 中的應(yīng)用[J].計(jì)算機(jī)科學(xué),1999 ,26(7):44-49.
[3]張志強(qiáng),周立柱,等.Web 數(shù)據(jù)庫(kù)技術(shù)簡(jiǎn)述[J ].計(jì)算機(jī)科學(xué),2001,28(10):1-6.
[4]王清毅,陳恩紅,蔡慶生.知識(shí)發(fā)現(xiàn)的若干問(wèn)題及應(yīng)用研究[J ].計(jì)算機(jī)科學(xué),1997,24(5):13-16.
[5]胡侃,夏紹瑋.基于大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報(bào),1998,9(1).