數(shù)據(jù)挖掘的探索性研究

2011-02-19 07:49:02武書彥

制造業(yè)自動(dòng)化 2011年2期

關(guān)鍵詞：數(shù)據(jù)挖掘可視化數(shù)據(jù)庫(kù)

武書彥，李咚

WU Shu-yan1，LI Dong2

（1.鄭州牧業(yè)工程高等專科學(xué)校，鄭州 450011；2.鄭鐵職業(yè)技術(shù)學(xué)院，鄭州 450052）

0 引言

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)的普及，使得許多行業(yè)都有了更多的信息交流，促使數(shù)據(jù)庫(kù)的規(guī)模、范圍和深度都有了較大規(guī)模的擴(kuò)大，從而積累了大量及以不同形式存儲(chǔ)的數(shù)據(jù)資料，同時(shí)在許多領(lǐng)域也建立了數(shù)據(jù)倉(cāng)庫(kù)。在這些海量數(shù)據(jù)中往往隱含著各種各樣的信息，這些信息往往人們憑直覺(jué)與經(jīng)驗(yàn)是難以發(fā)現(xiàn)的如何從大量的數(shù)據(jù)中獲得有價(jià)值的信息，采用傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)己顯得微不足道。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析處理方法滯后的矛盾越來(lái)越大，人們希望能夠在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或企業(yè)管理，從而達(dá)到為決策服務(wù)的目的。數(shù)據(jù)挖掘就是為了滿足這種需求而迅速發(fā)展起來(lái)的一種新的數(shù)據(jù)處理技術(shù)。

1 數(shù)據(jù)挖掘的基本概念及特點(diǎn)

l）數(shù)據(jù)挖掘的定義：目前有關(guān)數(shù)據(jù)挖掘的定義雖然有很多，但目前一種比較公認(rèn)的定義是：數(shù)據(jù)挖掘（DM）就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息，提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問(wèn)題，就是在龐大的數(shù)據(jù)庫(kù)中尋找出有價(jià)值的隱藏事件，加以分析，并將這些有意義的信息歸納成結(jié)構(gòu)模式，提供給有關(guān)部門在進(jìn)行決策時(shí)參考。此外，數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫(kù)的再分析，包括模式的建構(gòu)或是資料特征的判定，其主要目的就是要從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價(jià)值信息。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)發(fā)展相結(jié)合的產(chǎn)物。下圖為典型的數(shù)據(jù)挖掘系統(tǒng)：

圖1 典型的數(shù)據(jù)挖掘系統(tǒng)

2）數(shù)據(jù)挖掘的特點(diǎn)：

（1）挖掘?qū)ο笫呛Ａ康摹?fù)雜的各種類型的數(shù)據(jù)。

（2）挖掘的結(jié)果是潛在的、未知的、多樣性的（發(fā)現(xiàn)的知識(shí)可以是多種形式的）。

（3）挖掘方法是不確定的。數(shù)據(jù)挖掘方面沒(méi)有所謂最好的技術(shù)或通用的技術(shù)，因此，問(wèn)題不是某一種方法比另一種方法更好，而是哪一種更適合所要解決的問(wèn)題；

（4）數(shù)據(jù)挖掘支持在線數(shù)據(jù)存取。

（5）技術(shù)的綜合性。數(shù)據(jù)挖掘融入了人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、數(shù)理統(tǒng)計(jì)技術(shù)、可視化技術(shù)等技術(shù)和哲學(xué)、邏輯學(xué)等學(xué)科的知識(shí)。

3）知識(shí)發(fā)現(xiàn)：知識(shí)發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，而數(shù)據(jù)挖掘則是知識(shí)發(fā)現(xiàn)中的一個(gè)特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，它們的區(qū)別可以這樣來(lái)理解：只是發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣泛，而數(shù)據(jù)挖掘則是更具體更深入的概念。但在很多地方，就用數(shù)據(jù)挖掘表示知識(shí)發(fā)現(xiàn)。

2 數(shù)據(jù)挖掘現(xiàn)狀

數(shù)據(jù)挖掘的研究現(xiàn)狀目前，國(guó)外在數(shù)據(jù)挖掘方面的發(fā)展趨勢(shì)及研究主要有：對(duì)知識(shí)發(fā)現(xiàn)（簡(jiǎn)稱KDD）方法的進(jìn)一步研究，如近年來(lái)注重對(duì)Bayes（貝葉斯）方法以及Boosting方法的研究和提高；統(tǒng)計(jì)學(xué)回歸法在KDD中的應(yīng)用；KDD與數(shù)據(jù)庫(kù)的緊密結(jié)合；對(duì)網(wǎng)絡(luò)信息挖掘方法的研究等。目前國(guó)內(nèi)外出現(xiàn)了一些比較有影響的數(shù)據(jù)挖掘系統(tǒng)，包括各種專用或通用的數(shù)據(jù)挖掘軟件。但總的來(lái)說(shuō)，現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)由于各自的算法和模型不同，跨平臺(tái)操作還受到很大的限制，一個(gè)普遍實(shí)用的模型還有待研究。

3 數(shù)據(jù)挖掘的任務(wù)

數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種，按功能可分為兩大類：預(yù)測(cè)型模式和描述型模式。在實(shí)際應(yīng)用中，往往根據(jù)模式的實(shí)際作用又可分為以下幾種：分類，聚類，關(guān)聯(lián)，序列等。

1）分類：用于預(yù)測(cè)事件所屬的類別，其中樣本數(shù)據(jù)中包含標(biāo)識(shí)樣本事件所屬類別的數(shù)據(jù)項(xiàng)，類別是己知的，由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對(duì)這些類別的模式的描述，再利用所發(fā)現(xiàn)的模式，參照新的數(shù)據(jù)的特征變量。將其映射入己知類別中，如在醫(yī)療應(yīng)用中，可根據(jù)患者的各種特征進(jìn)行疾病診斷等。

2）聚類：用于描述和發(fā)現(xiàn)數(shù)據(jù)庫(kù)中以前未知的數(shù)據(jù)類型，其中樣本數(shù)據(jù)中不包含類別變量，數(shù)據(jù)挖掘?qū)⒕哂泄餐厔?shì)和模式的數(shù)據(jù)元組聚集為一類，使類內(nèi)各元組相似程序最高，類間差異最大。

3）關(guān)聯(lián)：用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項(xiàng)目，由此推斷事件間潛在的關(guān)聯(lián)，識(shí)別有可能重復(fù)發(fā)生的模式。

4）序列模式：與關(guān)聯(lián)分析類似，只是擴(kuò)展為一段時(shí)間的項(xiàng)目集間的關(guān)系。常把序列模式看作由時(shí)間變量連接起來(lái)的關(guān)聯(lián)。序列分析可分析長(zhǎng)時(shí)間的相關(guān)紀(jì)錄，發(fā)現(xiàn)經(jīng)常發(fā)生的模式。

4 數(shù)據(jù)挖掘采用的典型方法及一般流程

1）數(shù)據(jù)挖掘采用的典型方法針對(duì)上述應(yīng)用類型，數(shù)據(jù)挖掘領(lǐng)域提出了多種實(shí)現(xiàn)模式。

（1）神經(jīng)網(wǎng)絡(luò)。它建立在數(shù)學(xué)模型的基礎(chǔ)之上，可以對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析，并完成極為復(fù)雜的模式抽取及趨勢(shì)分析。

（2）決策樹。它是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類，建立起相應(yīng)的數(shù)學(xué)模型。采用決策樹，可以將數(shù)據(jù)規(guī)則可視化，其輸出結(jié)果也容易理解。決策樹方法精確度比較高，構(gòu)造過(guò)程簡(jiǎn)單。

（3）聯(lián)機(jī)分析處理。根據(jù)分析人員的要求，對(duì)大量數(shù)據(jù)進(jìn)行復(fù)雜的處理，專門用來(lái)支持復(fù)雜的分析操作，對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、查詢和總結(jié)，輔助領(lǐng)導(dǎo)決策。它主要是用來(lái)完成用戶的事物處理，對(duì)響應(yīng)的時(shí)間要求比較高。

（4）數(shù)據(jù)可視化。數(shù)據(jù)倉(cāng)庫(kù)中包含大量的數(shù)據(jù)，充實(shí)著各種數(shù)據(jù)模型，將如此大量的數(shù)據(jù)可視化需要復(fù)雜的數(shù)據(jù)可視化工具。

（5）遺傳算法。它是一種優(yōu)化技術(shù)，利用生物進(jìn)化的一系列概念進(jìn)行問(wèn)題的搜索與挖掘，以達(dá)到優(yōu)化組合的目的，在信息挖掘中以它強(qiáng)大的搜索能力找到最優(yōu)解。

（6）統(tǒng)計(jì)學(xué)方法。旨在從抽樣分析中提取未知的數(shù)學(xué)模型，在數(shù)據(jù)挖掘中常會(huì)遇到大量的統(tǒng)計(jì)數(shù)據(jù)，通過(guò)模型分析來(lái)獲得普遍運(yùn)行的模式規(guī)律。

（7）數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。以傳統(tǒng)的數(shù)據(jù)存貯和管理為基本手段，以統(tǒng)計(jì)分析作為數(shù)據(jù)分析和提取的有效方法，以人工智能作為知識(shí)挖掘和發(fā)現(xiàn)的科學(xué)途徑。

目前，數(shù)據(jù)挖掘技術(shù)正處在發(fā)展當(dāng)中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計(jì)、粗集理論、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、人工智能、專家系統(tǒng)等多種技術(shù)，技術(shù)含量比較高，實(shí)現(xiàn)難度較大。然而，數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計(jì)分析系統(tǒng)相結(jié)合，可以豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。

2）數(shù)據(jù)挖掘的一般流程如下：

（1）定義問(wèn)題：清晰地定義出業(yè)務(wù)問(wèn)題，確定數(shù)據(jù)挖掘的目的。

（2）數(shù)據(jù)準(zhǔn)備：數(shù)據(jù)準(zhǔn)備包括：選擇數(shù)據(jù)--在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集；數(shù)據(jù)預(yù)處理--進(jìn)行數(shù)據(jù)再加工，包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲，填補(bǔ)丟失的域，刪除無(wú)效數(shù)據(jù)等。

（3）數(shù)據(jù)挖掘：根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法，在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。

（4）結(jié)果分析對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià)，轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。

（5）知識(shí)的運(yùn)用：將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

5 數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)

在技術(shù)上可以根據(jù)它的工作過(guò)程分為：數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

1）數(shù)據(jù)的抽取

數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境，它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面，未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面，以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化，使系統(tǒng)更便于管理和維護(hù)。

2）數(shù)據(jù)的存儲(chǔ)和管理

數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性，也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多，且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前，許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能，將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。

3）數(shù)據(jù)的展現(xiàn)

在數(shù)據(jù)展現(xiàn)方面主要的方式有：查詢：實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢；報(bào)表：產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表；可視化：用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系；統(tǒng)計(jì)：進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析；挖掘：利用數(shù)據(jù)挖掘等方法，從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。

6 Web數(shù)據(jù)挖掘的研究分析

數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的使用都是較為突出的，而基于Web的數(shù)據(jù)挖掘正是當(dāng)前熱門研究方向之一，而且其應(yīng)用范圍廣闊，潛力巨大。Web挖掘技術(shù)也在不斷提出和改進(jìn)之中，一般地Web挖掘可分為三類：Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括：Web 文本的自動(dòng)分類、多層次Web 信息庫(kù)的建立、Web log 挖掘，以及其它涉及信息安全、搜索的效率、查詢結(jié)果的質(zhì)量、搜索工具的可伸縮性等方面的問(wèn)題研究。可以預(yù)見，隨著XML的興起，Web 頁(yè)面會(huì)蘊(yùn)涵更多的結(jié)構(gòu)化和語(yǔ)義信息，這會(huì)使Web 挖掘變得更有效。

Web通過(guò)數(shù)據(jù)挖掘技術(shù)，可以使我們得到相關(guān)的信息數(shù)據(jù)：①內(nèi)容數(shù)據(jù)，即用戶在網(wǎng)頁(yè)上看到的信息，主要是文本與圖像等；②結(jié)構(gòu)數(shù)據(jù)，描述網(wǎng)頁(yè)內(nèi)容的組織方式的數(shù)據(jù)，其中，頁(yè)內(nèi)結(jié)構(gòu)以HTML 和XML 表示成樹形結(jié)構(gòu)，頁(yè)間結(jié)構(gòu)以連接不同網(wǎng)頁(yè)的超鏈接結(jié)構(gòu)表示；③訪問(wèn)特征數(shù)據(jù)，主要指與用戶訪問(wèn)相關(guān)的IP 地址、URL 、訪問(wèn)日期、訪問(wèn)時(shí)間長(zhǎng)度等數(shù)據(jù)；④用戶背景數(shù)據(jù)，包括用戶的注冊(cè)信息，如姓名、年齡、籍貫、收入、職業(yè)、學(xué)歷、專業(yè)、需求重點(diǎn)、個(gè)人愛好等。

7 結(jié)束語(yǔ)

數(shù)據(jù)挖掘是目前國(guó)際上數(shù)據(jù)庫(kù)和信息系統(tǒng)最前沿的研究方向之一，可以說(shuō)它已成為國(guó)際上一個(gè)研究熱點(diǎn)。然而就現(xiàn)狀而言，數(shù)據(jù)挖掘仍有一定的局限性，如系統(tǒng)的低性能和挖掘?qū)ο蟮膯我恍缘龋深A(yù)見，隨著研究的進(jìn)一步深入和數(shù)據(jù)存儲(chǔ)及表達(dá)方式的日趨標(biāo)準(zhǔn)化，數(shù)據(jù)挖掘?qū)⒆兊酶鼮橛行Р⒌玫礁鼮閺V泛的應(yīng)用。

[1]宋愛波，黃逸生，等.Web挖掘研究綜述[J].計(jì)算機(jī)科學(xué)，2001，28（11）：73-77.

[2]陳寧，周龍?bào)J.數(shù)據(jù)采掘在Internet 中的應(yīng)用[J].計(jì)算機(jī)科學(xué)，1999 ，26（7）：44-49.

[3]張志強(qiáng)，周立柱，等.Web 數(shù)據(jù)庫(kù)技術(shù)簡(jiǎn)述[J ].計(jì)算機(jī)科學(xué)，2001，28（10）：1-6.

[4]王清毅，陳恩紅，蔡慶生.知識(shí)發(fā)現(xiàn)的若干問(wèn)題及應(yīng)用研究[J ].計(jì)算機(jī)科學(xué)，1997，24（5）：13-16.

[5]胡侃，夏紹瑋.基于大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采掘：研究綜述[J].軟件學(xué)報(bào)，1998，9（1）.