[摘 要]在Web信息資源迅猛發(fā)展的今天,“信息爆炸”的問題也相應(yīng)出現(xiàn),即信息極大豐富而知識相對匱乏。在這些大量、異質(zhì)的Web信息資源中,蘊含著具有巨大潛在價值的知識。人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識的工具。為了從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有效、新穎、有用、可理解的模式,數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù)。但是,數(shù)據(jù)挖掘的絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫,很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作。而本文介紹的web挖掘會對Web上的異質(zhì)、非結(jié)構(gòu)化信息有很好的處理效果。
[關(guān)鍵詞]Web挖掘 數(shù)據(jù)挖掘 信息檢索
[中圖分類號]TP [文獻標識碼]A [文章編號]1009-5489(2009)12-0204-02
一、Web挖掘的定義、特點及其與相關(guān)科學(xué)的聯(lián)系
1.Web挖掘的定義和特點
Web挖掘是一項綜合技術(shù),涉及網(wǎng)絡(luò)、數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域。不同研究者從自身的領(lǐng)域出發(fā),對Web挖掘的含義有著不同的理解,項目開發(fā)也各有其側(cè)重點。我們對Web挖掘作如下定義:
定義1 Web挖掘是指從大量Web文檔的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p
Web挖掘的特點
Web挖掘以Internet上的信息作為操作對象。這些信息包括:頁面內(nèi)容信息、頁面連接結(jié)構(gòu)信息、用戶行為信息。這些信息具有如下特點:
信息的海量性(Bulk)
信息的動態(tài)性(Dynamic)
信息的異構(gòu)性(Heterogeneous)
Web文檔的規(guī)范標準多種多樣
信息的重復(fù)性(Duplication)
強連接性(High Linkage)
2.Web挖掘與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處:
(1)Web挖掘的對象是大量、異質(zhì)、分布的Web文檔。
(2)Web在邏輯上是一個由文檔節(jié)點和超鏈構(gòu)成的圖。
3.Web挖掘與信息檢索的區(qū)別和聯(lián)系.
Web挖掘的某些重要理論和方法,如Web文檔的內(nèi)容挖掘、特征選擇、基于引用的連接分析是借鑒信息檢索領(lǐng)域的知識得到的。但是,它們之間也存在一些區(qū)別:
(1)方法論不同。信息檢索是目標驅(qū)動的,用戶需要明確提出查詢要求;而挖掘是機會主義的,其結(jié)果獨立于用戶的信息需求,也是用戶所無法預(yù)知的。
(2)著眼點不同。信息檢索著重于文檔中顯式存儲的字詞,而挖掘試圖更多地理解其內(nèi)容和結(jié)構(gòu)。
(3)目的不同。信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量文檔中找到滿足其查詢請求的文檔子集,而挖掘是為了揭示文檔中隱含的知識。
(4)評價方法不同。信息檢索使用精度(precision)和召回率(recall)來評價其性能,要求返回盡可能多的相關(guān)文檔,同時不相關(guān)的文檔盡可能少,而挖掘采用收益(gain)、置信度(certainty)、簡潔性(simplicity)等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。
(5)使用場合不同。有時信息檢索系統(tǒng)返回太多的結(jié)果以致用戶無法一一瀏覽,有時用戶沒有明確的信息需求,有時用戶希望發(fā)現(xiàn)文檔集合中所具有的結(jié)構(gòu)、趨勢、含義,在這些場合下,就需要使用挖掘技術(shù)。

二、Web挖掘類型分類
根據(jù)挖掘的對象不同,Web挖掘可以分為:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)以及..Web應(yīng)用挖掘(Web usage mining)。
1.Web內(nèi)容挖掘
Web內(nèi)容挖掘即從網(wǎng)絡(luò)的內(nèi)容(數(shù)據(jù)/文檔)中發(fā)現(xiàn)有用信息的過程。網(wǎng)絡(luò)信息資源類型眾多,Internet出現(xiàn)之前的..Gopher、FTP、Usenet資源逐漸隱藏到..WWW形式之后,但這些資源仍可以通過..web進行訪問;目前..WWW信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體。然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)檢索服務(wù)的資源之外,一些網(wǎng)絡(luò)信息是“隱藏”著的數(shù)據(jù),如由用戶的提問而動態(tài)生成的結(jié)果,或是存在在..DBMS(數(shù)據(jù)庫管理系統(tǒng))中的數(shù)據(jù),或是那些私人數(shù)據(jù),它們無法被索引,從而無法提供對它們有效的檢索方式。以上是從網(wǎng)絡(luò)信息源的角度探討,若從資源形式看,網(wǎng)絡(luò)信息內(nèi)容是由文本、圖象、音頻、視頻、元數(shù)據(jù)等等形式的數(shù)據(jù)組成的。一般的,Web內(nèi)容挖掘又分為對文本文檔(包括text,HTML等格式)和多媒體文檔(包括..image,audio,video等媒體類型)的挖掘。
2.Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘即挖掘..Web潛在的鏈接結(jié)構(gòu)模式。這種思想源于信息檢索中的引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(Authority Page),并且可以找到概觀指向眾多權(quán)威站點的相關(guān)主題的站點(Hub Page)。
3.Web應(yīng)用挖掘
通過Web應(yīng)用挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。內(nèi)容挖掘、結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而..Web應(yīng)用挖掘則不同于前兩者,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息等等。
三、Web挖掘的體系結(jié)構(gòu)及步驟
Web挖掘分為如下四個步驟:(1)資源發(fā)現(xiàn),即檢索所需的網(wǎng)絡(luò)文檔;(2)信息選擇和預(yù)處理,即從檢索到的網(wǎng)絡(luò)資源中自動挑選和預(yù)先處理得到專門的信息;(3)概括化,即從單個的Web站點以及多個站點之間發(fā)現(xiàn)普遍的模式;(4)分析,對挖掘出的模式進行確認或者解釋。

四、Web挖掘的任務(wù)
1.Web內(nèi)容挖掘任務(wù)
Web內(nèi)容挖掘任務(wù):包括對Web上大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進行趨勢預(yù)測等。
(1)文檔總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。
(2)文檔分類是指先按照預(yù)先定義的主題類別和訓(xùn)練文檔集合,采用某種學(xué)習(xí)方法訓(xùn)練出一個或多個分類器。
(3)文檔聚類,是一種典型的無教師指導(dǎo)的機器學(xué)習(xí)問題,它與分類的不同之處在于,聚類沒有預(yù)先定義好的主題類別和訓(xùn)練文檔集合,它的目標是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。
(4)關(guān)聯(lián)分析是指從文檔集合中找出不同詞語之間的關(guān)系。
(5)分布分析與趨勢預(yù)測是指通過對Web文檔的分析,得到特定數(shù)據(jù)在某個歷史時刻的情況或?qū)淼娜≈第厔荨?/p>
2.Web結(jié)構(gòu)挖掘任務(wù)
在邏輯上,我們可以把Web看作是位于物理網(wǎng)絡(luò)之上的一個有向圖G=(N,E),其中節(jié)點集N對應(yīng)于Web上的所有文檔,而有向邊集E則對應(yīng)于節(jié)點之間的超鏈。由于Web中包含的結(jié)構(gòu)信息處理起來比較困難,因此通常的Web搜索引擎等工具僅將Web看作是一個平面文檔的集合,而忽略了其中的結(jié)構(gòu)信息。Web結(jié)構(gòu)挖掘的目的在于揭示蘊含在這些文檔結(jié)構(gòu)信息中的有用模式。
3.Web應(yīng)用挖掘的任務(wù)
Web應(yīng)用挖掘的任務(wù)主要是對用戶模式的挖掘。用戶訪問模式又可稱為用戶導(dǎo)航信息。在Web的用戶訪問模式的挖掘中,描述用戶訪問模式的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時間、用戶的Web站點及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。常用的有兩種方法發(fā)現(xiàn)用戶導(dǎo)航信息。一種方法是通過對日志文件進行分析;另一種方法是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
五、小結(jié)
隨著Internet/Intranet技術(shù)的日益成熟,尤其是WWW的全球化普及,使得數(shù)據(jù)挖掘技術(shù)的研究重點已經(jīng)從傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)庫的應(yīng)用轉(zhuǎn)移到基于Web的應(yīng)用上來。在搜索引擎中的Web挖掘是本文研究的重點。本文從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用等三個方面介紹了Web挖掘的理論知識和最新研究成果,并對這三個方面做了詳細的比較。其次,本文對Web挖掘的體系結(jié)構(gòu)與應(yīng)用步驟做了總體概括。最后從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用這三個方面對Web挖掘的任務(wù)做了詳細介紹。
[參考文獻]
[1]琪鋒:《基于WEB挖掘的站點設(shè)計的研究》,廣東工業(yè)大學(xué)2007年。
[2]石佑紅、趙宏、喬敏:《Web挖掘在個性化遠程教育中的應(yīng)用》,《計算機技術(shù)與發(fā)展》2006年第9期。
[3]吉根林、孫志輝:《Web挖掘技術(shù)研究》,《計算機工程》2002年第10期。
[4]袁方:《面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究》,東北大學(xué)2006年。