摘要Web數(shù)據(jù)挖掘是目前信息技術(shù)中的研究熱點(diǎn),它是現(xiàn)代科學(xué)技術(shù)相互滲透融合的必然結(jié)果。文章首先介紹了web 數(shù)據(jù)挖掘的含義,重點(diǎn)討論了web 數(shù)據(jù)挖掘的類型以各種類型的web 數(shù)據(jù)挖掘的基本過程以及它們所使用的一些相關(guān)技術(shù)及應(yīng)用,并對(duì)數(shù)據(jù)挖掘的發(fā)展前景和方向進(jìn)行了展望。
關(guān)鍵詞數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;相關(guān)技術(shù)
引言
隨著Internet 的進(jìn)一步發(fā)展和完善,各種基于Internet的應(yīng)用業(yè)務(wù)也如雨后春筍般的發(fā)展起來,例如網(wǎng)上商店、網(wǎng)上銀行、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療等。我們應(yīng)該看到Internet在給我們帶來機(jī)遇的同時(shí)也帶來了挑戰(zhàn),它使得WWW 上的一些主要工作, 例如Web 站點(diǎn)設(shè)計(jì)、Web 服務(wù)設(shè)計(jì)、Web 站點(diǎn)的導(dǎo)航設(shè)計(jì)、電子商務(wù)等工作變得更為復(fù)雜更為繁重。對(duì)于網(wǎng)站經(jīng)營(yíng)方來說,他們需要更好的自動(dòng)輔助設(shè)計(jì)工具, 可以根據(jù)用戶的訪問興趣、訪問頻度、訪問時(shí)間動(dòng)態(tài)的調(diào)整頁面結(jié)構(gòu),改進(jìn)服務(wù), 開展有針對(duì)性的電子商務(wù)以更好的滿足訪問者的需求。解決這種需求的一個(gè)有利的工具就是Web 數(shù)據(jù)挖掘。
1. Web 數(shù)據(jù)挖掘概述
Web挖掘是一項(xiàng)綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息學(xué)等多個(gè)領(lǐng)域。Web挖掘就是從Web 文檔、Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏信息。Web 挖掘是指從大量Web文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入,p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個(gè)映射ξ:C→p
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似,都是在對(duì)大量的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,作出歸納性的推理,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策的過程。但是對(duì)Web 進(jìn)行有效的資源和知識(shí)挖掘面臨極大的挑戰(zhàn):(1)對(duì)有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言,Web 似乎太龐大了。(2)Web頁面的復(fù)雜性高于任何傳統(tǒng)的文本文件。(3) Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源。(4) Web上的信息只有很小的一部分是相關(guān)的或有用的。這些挑戰(zhàn)推動(dòng)了如何有效地發(fā)現(xiàn)和利用Internet 的資源的研究工作。
1.1 與傳統(tǒng)的數(shù)據(jù)挖掘相比較
1.1.1 數(shù)據(jù)源具有很強(qiáng)的動(dòng)態(tài)性。
1.1.2 挖掘目的的模糊性。
1.1.3 數(shù)據(jù)類型的多態(tài)性。
1.1.4 數(shù)據(jù)信息的分布性、多維性。
1.2 Web 數(shù)據(jù)的特點(diǎn)
1.2.1 數(shù)據(jù)量巨大
Internet把分布于世界不同位置的電腦(服務(wù)器)連接了起來,每個(gè)電腦上都存有豐富的數(shù)據(jù),這些數(shù)據(jù)涉及各種不同的行業(yè)和領(lǐng)域,又由于連接于Internet 的電腦數(shù)量非常巨大。
1.2.2 異構(gòu)數(shù)據(jù)庫環(huán)境
每一個(gè)Web站點(diǎn)都可以看作是一個(gè)數(shù)據(jù)源,由于各站點(diǎn)是相互獨(dú)立的, 之間除了可以互相訪問之外并沒有任何關(guān)系,所以每個(gè)站點(diǎn)之間的信息及信息組織方式都是不相同的,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。
1.2.3半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)不同之處還在于傳統(tǒng)數(shù)據(jù)庫都有一定的模型,可以根據(jù)數(shù)據(jù)模型來對(duì)具體的數(shù)據(jù)進(jìn)行描述,而Web 站點(diǎn)中的數(shù)據(jù)不存在統(tǒng)一的模型,各站點(diǎn)都是獨(dú)自設(shè)計(jì),并且站點(diǎn)中的數(shù)據(jù)是處于不停變化之中的。
2.Web數(shù)據(jù)挖掘相關(guān)技術(shù)
Web 挖掘應(yīng)用非常廣泛,對(duì)Web挖掘相關(guān)技術(shù)的研究也很多,針對(duì)上述不同類別的Web 挖掘,有不同的相關(guān)技術(shù),下面分別介紹。一般地,Web挖掘可以分為三類:Web 內(nèi)容挖掘(Web content mining)、Web 結(jié)構(gòu)挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。
2.1技術(shù)分類
2.1.1Web內(nèi)容挖掘
Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識(shí)的過程。主要有兩種策略:直接挖掘文檔的內(nèi)容,或在其它工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web 的查詢語言WebLOG,利用啟發(fā)式規(guī)則來尋找個(gè)人主頁信息的AHOY等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。
2.1.2 Web 結(jié)構(gòu)挖掘
Web 結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。由于文檔之間的互連WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對(duì)頁面進(jìn)行排序發(fā)現(xiàn)重要頁面。這方面的代表有PageRank〗和CL EVER,此外,在多層次Web數(shù)據(jù)倉庫(MLDB)中也利用了頁面的鏈接結(jié)構(gòu)。
2.1.3 Web 使用挖掘
Web使用挖掘的主要目標(biāo)是從Web 的訪問記錄中抽取感興趣的模式。WWW 中每個(gè)服務(wù)器保留了訪問日志,記錄關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。
2.2 Web 數(shù)據(jù)挖掘研究領(lǐng)域及發(fā)展
2.2.1 Web 數(shù)據(jù)挖掘的研究領(lǐng)域類型根據(jù)對(duì)Web 數(shù)據(jù)的感興趣程度不同,Web 挖掘一般可以分為三類: 網(wǎng)絡(luò)內(nèi)容挖掘(Web Content mining) 、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Web structure mining) 、網(wǎng)絡(luò)用法挖掘(Web usage Mining)
2.2.2 網(wǎng)絡(luò)內(nèi)容挖掘網(wǎng)絡(luò)信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的數(shù)據(jù)組成的。網(wǎng)絡(luò)內(nèi)容挖掘就是一個(gè)從網(wǎng)絡(luò)信息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡(luò)信息內(nèi)容有很多是多媒體數(shù)據(jù), 因此網(wǎng)絡(luò)內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘形式。
2.2.3 網(wǎng)絡(luò)結(jié)構(gòu)挖掘網(wǎng)絡(luò)結(jié)構(gòu)挖掘就是挖掘Web潛在的鏈接結(jié)構(gòu)模式。通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對(duì)象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。
2.2.4網(wǎng)絡(luò)用法挖掘網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘面對(duì)的則是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù),包括網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡(jiǎn)介、注冊(cè)信息、用戶對(duì)話或交易信息、用戶提問方式等。通過網(wǎng)絡(luò)用法挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。
2.3 Web數(shù)據(jù)挖掘的四個(gè)步驟
2.3.1查找資源:任務(wù)是從目標(biāo)Web 文檔中得到數(shù)據(jù)。
2.3.2信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無用信息和將信息進(jìn)行必要的整理。2.3.3模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)。可以在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。
2.3.4模式分析: 驗(yàn)證、解釋上一步驟產(chǎn)生的模式。
3. Web數(shù)據(jù)挖掘的應(yīng)用
3.1 Web挖掘在搜索引擎方面的應(yīng)用
通過對(duì)網(wǎng)頁內(nèi)容的挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁的聚類和分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索。運(yùn)用Web挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度, 改善檢索效果。參與搜索服務(wù)市場(chǎng)的有多家實(shí)力企業(yè),如Google、雅虎(Yahoo!) 及微軟(Microsoft) 等巨頭企業(yè), 以及若干規(guī)模較小但有特定市場(chǎng)區(qū)隔或技術(shù)者如dTSearch、Copernic 等Google 提供更多的技術(shù),會(huì)自動(dòng)找尋常用的字詞,盡量縮短搜索時(shí)間,提高效率。
3.2Web挖掘在電子商務(wù)方面的應(yīng)用
Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類和客戶聚類。對(duì)Web 的客戶訪問信息進(jìn)行挖掘,對(duì)客戶進(jìn)行分類分析。應(yīng)用聚類分析對(duì)客戶進(jìn)行分組, 并且分析組中客戶的共同特征, 這樣就可以讓商家更好了解自己的客戶, 向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web 的客戶訪問信息的挖掘中, 利用分類技術(shù)可在因特網(wǎng)上找到未來的潛在客戶。最后保留客戶的駐留時(shí)間, 對(duì)于客戶而言,在網(wǎng)上每個(gè)銷售商對(duì)于客戶來說都是一樣的, 如何盡量使客戶在自己的網(wǎng)上駐留更長(zhǎng)的時(shí)間, 這樣對(duì)于商家才能有更多客戶和更大的利潤(rùn)空間。
3.3 Web 數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用
教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性,網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供,是通過將傳統(tǒng)的數(shù)據(jù)挖掘(Data Mining) 同Web 結(jié)合起來,進(jìn)行Web 數(shù)據(jù)挖掘,即從Web 文檔和Web 活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息,作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu),提高站點(diǎn)效率,更好地為網(wǎng)絡(luò)教育服務(wù)。
3.4在網(wǎng)站設(shè)計(jì)中的應(yīng)用
在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用,主要是通過對(duì)網(wǎng)站內(nèi)容的挖掘,特別是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過對(duì)用戶訪問日志記錄信息的挖掘,把握用戶感興趣的信息,從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。
4. 結(jié)束語
社會(huì)的發(fā)展越來越離不開信息的傳播與使用,在數(shù)據(jù)量急劇增長(zhǎng)的情況下如何高效地檢索出使用者需要的信息更加顯得重要,Web 數(shù)據(jù)挖掘正是因?yàn)闈M足了這方面的需要才能獲得如此迅速的發(fā)展, Web 挖掘技術(shù)也將成為重要的研究課題和方向。
參考文獻(xiàn)
[1] 曼麗春, 朱宏, 楊全勝. Web 數(shù)據(jù)挖掘研究與探討[J].現(xiàn)在電子技術(shù)2005 (8) :3~6
[2] 夏火松. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M]. 科學(xué)出版社,2004.207- 227.
[3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.
[4] 陳文偉.黃金才.趙新昱.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:北京大學(xué)出版社,2002.1- 14.
[5] 王繼成.潘金貴.Web 文本挖掘技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2000,37(5):513- 520.
(作者單位:浙江理工大學(xué))