摘要:Internet應(yīng)用的普及使得數(shù)據(jù)挖掘技術(shù)的重點(diǎn)已經(jīng)從傳統(tǒng)的基于數(shù)據(jù)庫的應(yīng)用轉(zhuǎn)移到了基于Web的應(yīng)用。本文就Web挖掘技術(shù)的概念、分類、研究現(xiàn)狀及其相關(guān)實(shí)現(xiàn)技術(shù)做了詳細(xì)的闡述,并在此基礎(chǔ)上指出其發(fā)展方向和趨勢(shì)。
關(guān)鍵詞:Web內(nèi)容挖掘;Web結(jié)構(gòu)挖掘;Web使用記錄挖掘;數(shù)據(jù)挖掘
1 引言
Internet上包括了大量的Web站點(diǎn),并且這些站點(diǎn)的數(shù)目呈指數(shù)級(jí)增長(zhǎng)。雖然Internet上有海量的數(shù)據(jù),但由于Web是無結(jié)構(gòu)的、動(dòng)態(tài)的,并且Web頁面的復(fù)雜度遠(yuǎn)遠(yuǎn)超過了文本文檔以及數(shù)據(jù)庫數(shù)據(jù),因此人們想要找到自己感興趣的信息猶如大海撈針一般。而Web面對(duì)的是一個(gè)廣泛的形形色色的用戶群體,各個(gè)用戶可以有不同的背景、興趣和使用目的,對(duì)于任何單個(gè)用戶來說,Web上的信息只有很少一部分是相關(guān)的或有用的,而其余信息對(duì)用戶來說則是不感興趣的,而且會(huì)淹沒所希望得到的搜索結(jié)果。解決這一問題的途徑就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來,進(jìn)行Web數(shù)據(jù)挖掘。
2 Web挖掘定義
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的并且最終可理解的信息和知識(shí)的非平凡過程。
Web挖掘是從數(shù)據(jù)挖掘發(fā)展而來的,是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web。一般將Web挖掘定義為:從WWW的資源和行為中抽取感興趣的、有用的模式和隱含的信息。數(shù)據(jù)挖掘是一項(xiàng)綜合性交叉技術(shù),融合了Internet技術(shù)、數(shù)據(jù)庫、人工智能等多個(gè)領(lǐng)域的理論和技術(shù)。
3 Web挖掘分類
當(dāng)前Web上的信息主要分為三類:1)Web頁面中的內(nèi)容,包括文本信息和各種媒體信息;2)Web頁面中超鏈接之間相互引用的數(shù)據(jù);3)Web服務(wù)器上的用戶登錄網(wǎng)站的訪問日志數(shù)據(jù)。對(duì)這三種數(shù)據(jù)采用的處理算法有很大的差異,由此將Web挖掘分為三類[1]:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web日志挖掘,即Web使用記錄挖掘(Web Usage Mining)。Web挖掘的分類圖如圖1所示。
3.1Web內(nèi)容挖掘
Web內(nèi)容挖掘,即為從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過程。Web文檔內(nèi)容的挖掘、基于概念索引的資源發(fā)現(xiàn)和基于代理的技術(shù)都屬于這一類。Web內(nèi)容挖掘有兩種策略[2],即直接挖掘文檔的內(nèi)容,或在其他工具,主要是在搜索引擎搜索的基礎(chǔ)上進(jìn)行改進(jìn)。
Web內(nèi)容挖掘的對(duì)象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。其中針對(duì)無結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類到基于文本的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Textual Database,簡(jiǎn)稱KDT)領(lǐng)域,也稱文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。最近在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn)。
3.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是對(duì)Web頁面鏈接關(guān)系、文檔內(nèi)部結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等的挖掘,即從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)[3]。這種思想源于引文分析,即通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對(duì)象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。這一領(lǐng)域最為常用的分析算法是獨(dú)立于查詢的PageRank算法以及查詢相關(guān)的HITS算法。
此外,Web結(jié)構(gòu)挖掘的另一個(gè)嘗試是在Web數(shù)據(jù)倉庫環(huán)境下的挖掘,包括通過檢查同一臺(tái)服務(wù)器上的本地連接衡量Web站點(diǎn)的完全性,在不同的Web數(shù)據(jù)倉庫中檢查副本以幫助定位鏡像站點(diǎn),通過發(fā)現(xiàn)針對(duì)某一特定領(lǐng)域的超鏈接的層次屬性去探索信息流動(dòng)如何影響Web站點(diǎn)的設(shè)計(jì)。
3.3 Web日志挖掘
Web日志挖掘是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶訪問模式[4]。主要的Web日志挖掘包括網(wǎng)頁相關(guān)性分析和用戶訪問模式分析。Web日志挖掘主要應(yīng)用于以下的五個(gè)方面:
⑴個(gè)性化服務(wù)與定制:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化服務(wù)。
⑵改進(jìn)系統(tǒng)性能和結(jié)構(gòu):Web服務(wù)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo),Web 日志挖掘可以通過用戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,可以通過分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。
⑶站點(diǎn)修改:站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵,Web日志挖掘通過挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù)。
⑷商業(yè)智能:通過對(duì)用戶行為和購物等關(guān)系的挖掘,更好地理解用戶的購買意圖,發(fā)現(xiàn)其中的用戶購物特征和購買趨勢(shì),識(shí)別電子商務(wù)的潛在客戶,確定電子商務(wù)的潛在客戶群,以此進(jìn)行商業(yè)智能,支持商業(yè)決策,合理制訂網(wǎng)絡(luò)廣告策略等。
⑸Web特征描述:這類研究通過分析用戶對(duì)站點(diǎn)的訪問記錄,統(tǒng)計(jì)各個(gè)用戶在頁面上的交互情況,從而對(duì)用戶訪問情況進(jìn)行特征描述。
4 Web數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘方法通常可分為兩類,一類是建立在統(tǒng)計(jì)模型的基礎(chǔ)上,采用的技術(shù)有分類、聚類、關(guān)聯(lián)規(guī)則等;另一類是建立在以機(jī)器學(xué)習(xí)為主的人工智能模型,采用的方法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,主要技術(shù)有以下幾類:
⑴分類:分類包括的挖掘技術(shù)將找出定義了一個(gè)項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類的規(guī)則。該類技術(shù)是最廣泛應(yīng)用于各類業(yè)務(wù)問題的一類挖掘技術(shù)。分類算法最知名的是決策樹方法,此外還有神經(jīng)元網(wǎng)絡(luò)、Bayesian分類等。
⑵聚類:聚類是將數(shù)據(jù)集劃分為多個(gè)類, 使得在同一類中的數(shù)據(jù)之間有較高的相似度, 而在不同類中的數(shù)據(jù)差別盡可能大。在聚類技術(shù)中,沒有預(yù)先定義好的類別和訓(xùn)練樣本存在,所有記錄都根據(jù)彼此相似程度來加以歸類。主要算法有k-means、DBSCAN等。
⑶關(guān)聯(lián)分析:關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動(dòng)探測(cè)以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有Apriori、FP-growth算法等。
結(jié)束語
Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先,Web挖掘的對(duì)象是大量、異質(zhì)、分布的Web文檔。其次,Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的。此外,由于Web數(shù)據(jù)本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,且缺乏機(jī)器可理解的語義,而數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并利用關(guān)系表格等存儲(chǔ)結(jié)構(gòu)來發(fā)現(xiàn)知識(shí),因此有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可用也需要建立在對(duì)Web數(shù)據(jù)進(jìn)行預(yù)處理的基礎(chǔ)之上。因此,開發(fā)新的Web挖掘技術(shù)、對(duì)原有數(shù)據(jù)挖掘技術(shù)進(jìn)行相應(yīng)修改或改進(jìn)已成為Web挖掘研究的重點(diǎn)內(nèi)容。
參考文獻(xiàn)
[1]Jaideep Srivastava, Robert Cooley, Mukund Deshpande, Pang-Ning Tan. Web usage mining: discovery and application of usage patterns from web data. SIGKDD Explorations, 2000, 1(2):12-23
[2]韓家煒,孟小峰.Web挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001, 38(4): 405-414
[3]Ellen Spertus. Mining structural information on the web. In: Proceedings of the 6th International World Wide Web Conference, April 1997
[4]涂承勝,陸玉昌.Web使用挖掘技術(shù)研究.小型微型計(jì)算機(jī)系統(tǒng).2004, 25(7):1177-1184