第二代網(wǎng)絡(luò)搜索引擎中的Web挖掘

2009-12-31 00:00:00楊松梅

華章 2009年12期

[摘要]在Web信息資源迅猛發(fā)展的今天，“信息爆炸”的問題也相應(yīng)出現(xiàn)，即信息極大豐富而知識相對匱乏。在這些大量、異質(zhì)的Web信息資源中，蘊含著具有巨大潛在價值的知識。人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識的工具。為了從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有效、新穎、有用、可理解的模式，數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù)。但是，數(shù)據(jù)挖掘的絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫，很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作。而本文介紹的web挖掘會對Web上的異質(zhì)、非結(jié)構(gòu)化信息有很好的處理效果。

[關(guān)鍵詞]Web挖掘數(shù)據(jù)挖掘信息檢索

[中圖分類號]TP [文獻標識碼]A [文章編號]1009-5489(2009)12-0204-02

一、Web挖掘的定義、特點及其與相關(guān)科學(xué)的聯(lián)系

1.Web挖掘的定義和特點

Web挖掘是一項綜合技術(shù)，涉及網(wǎng)絡(luò)、數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域。不同研究者從自身的領(lǐng)域出發(fā)，對Web挖掘的含義有著不同的理解，項目開發(fā)也各有其側(cè)重點。我們對Web挖掘作如下定義:

定義1 Web挖掘是指從大量Web文檔的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入，將p看作輸出，那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p

Web挖掘的特點

Web挖掘以Internet上的信息作為操作對象。這些信息包括:頁面內(nèi)容信息、頁面連接結(jié)構(gòu)信息、用戶行為信息。這些信息具有如下特點:

信息的海量性(Bulk)

信息的動態(tài)性(Dynamic)

信息的異構(gòu)性(Heterogeneous)

Web文檔的規(guī)范標準多種多樣

信息的重復(fù)性(Duplication)

強連接性(High Linkage)

2.Web挖掘與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系

Web挖掘從數(shù)據(jù)挖掘發(fā)展而來，因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是，Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處:

(1)Web挖掘的對象是大量、異質(zhì)、分布的Web文檔。

(2)Web在邏輯上是一個由文檔節(jié)點和超鏈構(gòu)成的圖。

3.Web挖掘與信息檢索的區(qū)別和聯(lián)系.

Web挖掘的某些重要理論和方法，如Web文檔的內(nèi)容挖掘、特征選擇、基于引用的連接分析是借鑒信息檢索領(lǐng)域的知識得到的。但是，它們之間也存在一些區(qū)別:

(1)方法論不同。信息檢索是目標驅(qū)動的，用戶需要明確提出查詢要求;而挖掘是機會主義的，其結(jié)果獨立于用戶的信息需求，也是用戶所無法預(yù)知的。

(2)著眼點不同。信息檢索著重于文檔中顯式存儲的字詞，而挖掘試圖更多地理解其內(nèi)容和結(jié)構(gòu)。

(3)目的不同。信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源，即從大量文檔中找到滿足其查詢請求的文檔子集，而挖掘是為了揭示文檔中隱含的知識。

(4)評價方法不同。信息檢索使用精度(precision)和召回率(recall)來評價其性能，要求返回盡可能多的相關(guān)文檔，同時不相關(guān)的文檔盡可能少，而挖掘采用收益(gain)、置信度(certainty)、簡潔性(simplicity)等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。

(5)使用場合不同。有時信息檢索系統(tǒng)返回太多的結(jié)果以致用戶無法一一瀏覽，有時用戶沒有明確的信息需求，有時用戶希望發(fā)現(xiàn)文檔集合中所具有的結(jié)構(gòu)、趨勢、含義，在這些場合下，就需要使用挖掘技術(shù)。

二、Web挖掘類型分類

根據(jù)挖掘的對象不同，Web挖掘可以分為:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)以及..Web應(yīng)用挖掘(Web usage mining)。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘即從網(wǎng)絡(luò)的內(nèi)容(數(shù)據(jù)/文檔)中發(fā)現(xiàn)有用信息的過程。網(wǎng)絡(luò)信息資源類型眾多，Internet出現(xiàn)之前的..Gopher、FTP、Usenet資源逐漸隱藏到..WWW形式之后，但這些資源仍可以通過..web進行訪問;目前..WWW信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體。然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)檢索服務(wù)的資源之外，一些網(wǎng)絡(luò)信息是“隱藏”著的數(shù)據(jù)，如由用戶的提問而動態(tài)生成的結(jié)果，或是存在在..DBMS(數(shù)據(jù)庫管理系統(tǒng))中的數(shù)據(jù)，或是那些私人數(shù)據(jù)，它們無法被索引，從而無法提供對它們有效的檢索方式。以上是從網(wǎng)絡(luò)信息源的角度探討，若從資源形式看，網(wǎng)絡(luò)信息內(nèi)容是由文本、圖象、音頻、視頻、元數(shù)據(jù)等等形式的數(shù)據(jù)組成的。一般的，Web內(nèi)容挖掘又分為對文本文檔(包括text，HTML等格式)和多媒體文檔(包括..image，audio，video等媒體類型)的挖掘。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘即挖掘..Web潛在的鏈接結(jié)構(gòu)模式。這種思想源于信息檢索中的引文分析，即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類，并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(Authority Page)，并且可以找到概觀指向眾多權(quán)威站點的相關(guān)主題的站點(Hub Page)。

3.Web應(yīng)用挖掘

通過Web應(yīng)用挖掘，可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。內(nèi)容挖掘、結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù)，而..Web應(yīng)用挖掘則不同于前兩者，它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息等等。

三、Web挖掘的體系結(jié)構(gòu)及步驟

Web挖掘分為如下四個步驟:(1)資源發(fā)現(xiàn)，即檢索所需的網(wǎng)絡(luò)文檔;(2)信息選擇和預(yù)處理，即從檢索到的網(wǎng)絡(luò)資源中自動挑選和預(yù)先處理得到專門的信息;(3)概括化，即從單個的Web站點以及多個站點之間發(fā)現(xiàn)普遍的模式;(4)分析，對挖掘出的模式進行確認或者解釋。

四、Web挖掘的任務(wù)

1.Web內(nèi)容挖掘任務(wù)

Web內(nèi)容挖掘任務(wù):包括對Web上大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進行趨勢預(yù)測等。

(1)文檔總結(jié)是指從文檔中抽取關(guān)鍵信息，用簡潔的形式對文檔內(nèi)容進行摘要或解釋。

(2)文檔分類是指先按照預(yù)先定義的主題類別和訓(xùn)練文檔集合，采用某種學(xué)習(xí)方法訓(xùn)練出一個或多個分類器。

(3)文檔聚類，是一種典型的無教師指導(dǎo)的機器學(xué)習(xí)問題，它與分類的不同之處在于，聚類沒有預(yù)先定義好的主題類別和訓(xùn)練文檔集合，它的目標是將文檔集合分成若干個簇，要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大，而不同簇間的相似度盡可能地小。

(4)關(guān)聯(lián)分析是指從文檔集合中找出不同詞語之間的關(guān)系。

(5)分布分析與趨勢預(yù)測是指通過對Web文檔的分析，得到特定數(shù)據(jù)在某個歷史時刻的情況或?qū)淼娜≈第厔荨?/p>

2.Web結(jié)構(gòu)挖掘任務(wù)

在邏輯上，我們可以把Web看作是位于物理網(wǎng)絡(luò)之上的一個有向圖G=(N，E)，其中節(jié)點集N對應(yīng)于Web上的所有文檔，而有向邊集E則對應(yīng)于節(jié)點之間的超鏈。由于Web中包含的結(jié)構(gòu)信息處理起來比較困難，因此通常的Web搜索引擎等工具僅將Web看作是一個平面文檔的集合，而忽略了其中的結(jié)構(gòu)信息。Web結(jié)構(gòu)挖掘的目的在于揭示蘊含在這些文檔結(jié)構(gòu)信息中的有用模式。

3.Web應(yīng)用挖掘的任務(wù)

Web應(yīng)用挖掘的任務(wù)主要是對用戶模式的挖掘。用戶訪問模式又可稱為用戶導(dǎo)航信息。在Web的用戶訪問模式的挖掘中，描述用戶訪問模式的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時間、用戶的Web站點及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。常用的有兩種方法發(fā)現(xiàn)用戶導(dǎo)航信息。一種方法是通過對日志文件進行分析;另一種方法是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。

五、小結(jié)

隨著Internet/Intranet技術(shù)的日益成熟，尤其是WWW的全球化普及，使得數(shù)據(jù)挖掘技術(shù)的研究重點已經(jīng)從傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)庫的應(yīng)用轉(zhuǎn)移到基于Web的應(yīng)用上來。在搜索引擎中的Web挖掘是本文研究的重點。本文從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用等三個方面介紹了Web挖掘的理論知識和最新研究成果，并對這三個方面做了詳細的比較。其次，本文對Web挖掘的體系結(jié)構(gòu)與應(yīng)用步驟做了總體概括。最后從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用這三個方面對Web挖掘的任務(wù)做了詳細介紹。

[參考文獻]

[1]琪鋒:《基于WEB挖掘的站點設(shè)計的研究》，廣東工業(yè)大學(xué)2007年。

[2]石佑紅、趙宏、喬敏:《Web挖掘在個性化遠程教育中的應(yīng)用》，《計算機技術(shù)與發(fā)展》2006年第9期。

[3]吉根林、孫志輝:《Web挖掘技術(shù)研究》，《計算機工程》2002年第10期。

[4]袁方:《面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究》，東北大學(xué)2006年。

華章2009年12期

華章的其它文章: 關(guān)于生態(tài)文明的哲學(xué)思考; 韓非倫理思想研究; 淺析政府誠信機制建設(shè)途徑; 中國道德哲學(xué)中人的價值觀初探; 人性及其發(fā)展規(guī)律對思想政治教育的啟示; 淺析大國對斯里蘭卡內(nèi)戰(zhàn)進程的影響