Web數據挖掘研究與探討

2010-04-11 08:06:40劉樹超李永臣武洪萍

制造業自動化 2010年9期

關鍵詞：頁面數據挖掘結構

劉樹超，李永臣，武洪萍

LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1

（1. 山東信息職業技術學院，濰坊，261041；2. 濰坊市社會保險事業管理中心，濰坊 261061）

Web數據挖掘研究與探討

Research and discussion of Web data mining

劉樹超1，李永臣2，武洪萍1

LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1

（1. 山東信息職業技術學院，濰坊，261041；2. 濰坊市社會保險事業管理中心，濰坊 261061）

WWW是一個巨大的、分布廣泛的、全球性的信息服務中心，它包含了豐富的信息資源。Web數據挖掘可以快速有效地獲取所需要的信息。本文重點探討了Web挖掘的基本原理和關鍵技術，針對Web挖掘的分類進行了描述，論述了Web挖掘的挖掘流程、應用領域及研究發展方向。

數據挖掘；Web內容挖掘；Web使用挖掘；Web結構挖掘

0 引言

隨著Internet/Web技術的快速普及和迅猛發展，Internet已經成為人們獲得信息的重要手段，但它是巨大的、多樣的和動態變化的。隨著Web站點的規模和復雜度的增加，站點設計和維護工作變得越來越困難。作為網站經營者，希望根據用戶的訪問興趣、訪問頻度、訪問時間動態地調整頁面結構，改進服務，開展有針對性的電子商務以更好地滿足訪問者的需求。而從訪問者的角度出發，他們希望用最簡潔的方式得到最精確的信息，希望得到個性化的服務。Web數據挖掘就是為順應這種需要而發展起來的數據處理技術，即利用數據挖掘的思想和方法，在Web上挖掘出有用的信息。

1 Web數據挖掘的含義

Web數據挖掘（Web Data Mining WDM）是將數據挖掘技術運用于Web數據，提取人們感興趣的、隱藏其中的、有用的、新穎的模式或知識的過程。也就是說，針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數據，應用數據挖掘方法以幫助人們從WWW中提取知識，為訪問者、站點經營者以及包括電子商務在內的基于因特網的商務活動提供決策支持。Web挖掘與數據挖掘一樣也是一個交叉研究領域，它涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域，像人工智能、機器學習、概率統計及數據庫等仍然是Web挖掘的基礎。另外，由于Web挖掘的特點，像信息檢索（Information Retrieval,IR）和信息抽取（Information Extraction,IE）等研究領域的交叉研究更值得關注。

2 Web挖掘的數據來源及特點

2.1 Web挖掘的數據來源

Web挖掘面向的是網站數據。凡是在Web站點中對用戶有價值的數據都可以成為Web挖掘的數據源。其中包括網頁文本信息、網頁鏈接信息、網站的訪問記錄及其他可收集的信息等。但是，不同的挖掘目的、不同的挖掘算法總是依靠不同的一種或幾種數據源。通常，Web挖掘的數據源有以下幾種類型：

1）內容數據：即Web頁面，如HTMLXML文檔、動畫、圖片、語音和圖像等。

2）用戶訪問數據：即描述用戶使用網絡資源的數據，通常以日志文件的形式存在，如服務器日志（Server logs），錯誤日志（Error logs）和Cookie logs。

3）結構數據：如網頁的內部鏈接和網頁間的超鏈接。

4）在線市場數據：是和市場活動相關的信息。通常是用傳統的關系數據庫結構來存儲，如電子商務網站的電子商務信息等。將它們和訪問日志集成，有助于提高Web挖掘的準確度。

5）其他數據，主要包括用戶注冊信息等一系列數據。

2.2 Web數據源的特點

Web上的數據具有非結構化、動態、不完全、混沌的特點和巨大、分層、多維的形式，Web挖掘與傳統的數據挖掘相比，有其自身特有的性質與要求，可以歸納以下幾點[1,2]：

1）數據量巨大，Web數據涉及各種不同行業與領域，又由于連接在Internet上的電腦數量非常巨大，所以，Web數據目前以TB數量級計算，而且仍然在迅速增長，這就要求Web挖掘方法在對大數據集進行挖掘時依然具有高效率。

選擇150羽1日齡羅曼蛋公雞，飼養至10日齡(母源抗體效價平均為1.0±0.0 Log2)選取120羽隨機分為4組，每組30只，14日齡和28日齡分別全部用1羽份的法氏囊疫苗點眼滴鼻，每次免疫的同時，第1組在基礎日糧中添加1%的中藥復方多糖，第2組在基礎日糧中添加1%的黃芪多糖，連續3 d，第3組為免疫不用藥疫苗對照組，第4組為不免疫不用藥空白對照組(見表1).

2）動態性，Internet本身就是一個時刻動態更新和變化的系統，網頁數量猛增，頁面內容也經常更新，如新聞、股票市場、服務中心和企業網都在定期更新Web網頁，網頁鏈接和訪問記錄也在不斷更新。因此需要借鑒數據倉庫的某些技術，以此保存Web上動態更新的數據。

3）多樣性，Web數據經過濾后，既有數值型(整型、實型)、布爾型，又有分類數據、性質描述數據以及Web特有的數據類型如URL地址、E-mail地址等。這些新的數據類型需要對原有數據挖掘方法進行改進和擴充。

4）異質性，Web上的數據可以是自由文本、文檔、圖像或其它多媒體數據，也可以超級鏈接、URL地址、E-mail地址和用戶訪問信息（Web日志），它們雖然有相似的特征，但在本質上差別是相當大的。

5）異構性，Web上的每一個站點就是一個數據源，每個數據源都是異構的，這就構成了一個巨大的異構數據庫環境。其構造特征也存在很大的差異。大多為半結構化數據或非結構化數據，相對于Web數據而言，傳統的數據庫都有一定的數據模型，可以根據此模型來具體描述特定的數據，但Web上的數據沒有特定的模型描述。半結構化是Web數據的最大特點。

3 Web挖掘的分類

根據數據源種類的不同，Web挖掘可以分為三類[2,9,10]：Web內容挖掘（Web Content Mining）、Web使用挖掘（Web Usage Mining）和Web結構挖掘（Web Structure Mining）。（文獻[4]提出Web結構可以被認為是Web內容挖掘的一部分。）圖1給出了Web挖掘的分類圖。

圖1 Web挖掘分類圖

3.1 Web內容挖掘

Web內容挖掘是從網頁內容、數據、文檔中發現信息、抽取知識或模式的過程。由于Web數據分布廣泛，如電子商務數據、數字圖書館數據、FTP上的數據、以及其他各種通過Web可以訪問的數據庫。既有來自于數據庫的結構化數據，也有用HTML標記的半結構化數據和無結構的自由文本。數據源的復雜決定了Web數據類型的多樣性，但是主要有文本(Text/HTML/XML)、圖像(Image)、聲音(Audio)、視頻(Video)、元數據(Metadata)以及超級鏈接(Hyperlinks)等幾種數據類型。Web內容挖掘就其挖掘內容而言，可分為基于文本信息的Web文本挖掘和基于多媒體信息的Web多媒體挖掘。就其挖掘策略的不同又可分為Web概要（即直接挖掘Web文檔的內容）和搜索引擎結果概要（即對搜索引擎的查詢結果作進一步的處理，得到更為精確和有用的信息，以增強搜索引擎的內容查詢功能）。按實現方法又分為信息查詢（Information Retrieval,IR）方法和數據庫方法。IR方法主要應用IR技術，評估改進搜索信息的質量，處理無結構數據和HTML標記的半結構化數據；數據庫方法是把半結構化的Web信息重構得更結構化，然后可以使用標準化的數據庫查詢機制和數據挖掘方法進行分析。

3.2 Web使用挖掘

Web使用挖掘也稱為Web日志挖掘、Web訪問信息挖掘或Web使用記錄挖掘。現在許多商務及交易都是通過Internet或Web來實現的。從而每天在服務器方都會產生大量的訪問數據，這些數據通常是由服務器自動產生并將其存放在服務器日志文件中。Web使用挖掘可以對用戶訪問Web時在服務器方留下的訪問記錄進行挖掘。Web使用挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據，這些數據包括：網絡服務器日志記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶注冊信息、Cookie中的信息、鼠標點擊流、用戶對話或交易信息等一切用戶與站點之間可能的交互記錄。它通過挖掘Web日志文件及其相關數據來發現用戶訪問Web頁面的模式，幫助理解用戶的行為，從而改進站點的結構或為用戶提供個性化服務。

Web使用挖掘的研究方向主要有兩個：一般的訪問模式追蹤和個性化的使用記錄追蹤。一般的訪問模式追蹤通過分析使用記錄來了解用戶的訪問模式和傾向，以改進站點的組織結構；而個性化的使用記錄追蹤則傾向于分析單個用戶的偏好，是根據不同用戶的訪問模式，為每個用戶提供個性化的定制站點。

Web使用挖掘的關鍵在于當用戶訪問網絡時能夠預測出用戶的行為和活動。其挖掘方法主要有以下兩種：一是將Web訪問記錄的數據作為原始數據，應用特定的預處理方法進行處理后再進行挖掘；二是將Web訪問記錄的數據轉換為結構化數據并存儲在數據庫或數據倉庫中，然后再使用數據挖掘算法對其進行挖掘。

3.3 Web結構挖掘

Web不僅由頁面組成，而且包含了鏈接頁面的超級鏈接。超鏈接反映了Web頁之間的某種關系，如繼承關系和引用關系。但是目前大多數的Web搜索工具很少將Web結構考慮進去，仍將Web看成是相互獨立文檔的集合。Web結構挖掘是在Web的組織結構和鏈接關系中進行挖掘。Web結構挖掘的對象可以是Web頁面之間的超鏈接，也可以是Web頁面的內部結構。Web結構挖掘的基本思想是將Web看作一個有向圖，他的頂點是Web頁面，頁面間的超鏈接就是圖的邊。然后利用圖論對Web的拓撲結構進行分析。

由于Web文檔之間的關聯關系使得WWW不僅可以揭示Web文檔所包含的信息，也揭示了文檔間的關聯關系所代表的信息，反映了文檔之間的某種聯系，同時能體現某個頁面的重要程度，利用這些信息可以對頁面進行排序，發現重要的頁面。挖掘Web結構的目的是：發現Web的結構和頁面的結構及其蘊含在這些結構中的有用模式；對頁面及其鏈接進行分類和聚類，找出權威頁面。在Web結構挖掘領域最著名的算法是Page-rank方法[5]和HITS方法。他們的共同點是使用一定方法計算Web頁面之間超鏈接的質量，從而得到頁面的權重。IBM Almaden Research Center開發的Clever系統和Google搜索引擎就采用了該類算法。

4 Web挖掘流程

Web挖掘就是利用數據挖掘技術從網絡文檔和服務中發現和提取信息。與傳統數據和數據倉庫相比，Web上的信息是非結構化或半結構化的、動態的，并且是容易造成混淆的，所以很難直接以Web網頁上的數據進行數據挖掘，而必須經過必要的數據預處理。典型Web挖掘的處理流程如圖2所示[6]：

圖2 Web數據挖掘的工作流程

1）資源發現( Resource Finding)：是指從Web獲取并返回文本資源的過程。文本資源最常見的是HTML文檔，其他的還有電子郵件、新聞組、BBS、網站的日志數據或通過Web形成的交易數據庫中的數據等。

2）信息選擇和預處理( Information Selection and Pre-processing)：是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如，從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段，并將數據組織成規整的邏輯形式甚至是關系表。

3）模式識別（Model Identify）：這個階段主要運用數據挖掘技術和統計方法，從Web使用記錄中挖掘知識。實現算法可以是統計分析、路徑分析、關聯規則、序列模式以及分類聚類等。

4）模式分析(Model Analysis)：這個階段的任務是采用合適、成熟的技術和工具，進行模式的分析，從而輔助分析人員的理解，使采用各種工具挖掘出的模式得到很好的利用。目前常用的方法有：采用類似SQL的形式化查詢進行分析；先將數據導入多維數據立方體中，再利用OLAP工具進行分析并提供可視化的結果輸出。可視化技術被經常應用到模式分析的結果顯示。

5 Web挖掘的應用領域

Web挖掘技術的應用涉及了搜索引擎、電子商務、企業危機管理等多方面。對于搜索引擎而言，通過借鑒Web挖掘技術，可以實現搜索引擎結構的挖掘，改進和提高搜索引擎的質量和效率，確定權威頁面，提高查準率與查全率。在電子商務中，運用Web挖掘技術可以進行流量分析，找到網站中最重要的部分，進行廣告分析，確定廣告的點擊率，進行用戶來源分析，進行瀏覽器和平臺分析，為網站設計和優化提供依據。同時可以得到關于群體用戶訪問行為和方式的普遍知識，用以改進Web服務設計。更重要的是，通過對用戶特征的理解和分析，如對用戶訪問行為、頻度、內容等的分析，提取出用戶的特征，從而為用戶定制個性化的界面，有助于開展有針對性的電子商務活動。在企業危機管理中可以運用Web挖掘技術搜集企業經營環境信息，分析企業經營狀況，監督網上輿論，進行風險分析、控制和預防危機。文獻[3]以搜索引擎為重點論述了Web挖掘的應用。

6 Web挖掘的發展方向

目前，在國內外Web挖掘的研究是前沿性的研究領域。將來的研究方向主要有以下幾點：Web數據挖掘中內在機理的研究；Web知識庫（模式庫）的動態維護、更新，各種知識和模式的融合與提升，以及知識的評價綜合方法；半結構、非結構化的文本數據、圖形圖像數據、多媒體數據的高效挖掘算法；Web數據挖掘算法在海量數據挖掘時的適應性與時效性；基于Web挖掘的智能搜索引擎的研究；智能站點服務個性化和性能最優化的研究；關聯規則和序列模式在構造自組織站點的研究；分類在電子商務市場智能提取中的研究。

7 結論

本文討論了Web數據挖掘的概念、基本原理和關鍵技術，闡述了Web數據挖掘的分類、工作流程、應用領域及今后的發展方向。如何進一步發展Web資源，勢必要進行更加深入的研究，Web數據挖掘的研究將充滿挑戰又極富發展潛力。

[1] 馬保國,侯存軍,王文豐,錢方正.Web數據挖掘技術及應用[J].計算機與數字工程,2006,34(6)：20-22.

[2] 張蓉.Web挖掘技術研究[J].計算機工程,2006,32(15)：4-6.

[3] 薛鴻民.Web數據挖掘技術研究[J].現代電子技術,2006(15)：99-101.

[4] 劉曉鵬,邢長征.基于Web文本數據挖掘的研究[J].計算機與數據工程,2005,33(9)：75-79.

[5] Kleinberg J.Authoritative Sources in a Hyperlinked Environment.In ACM SIAM Symposium on Discrete Algorithms,1998.

[6] R.Kosala,H.Blockeel.Web Mining Research：A SLINey.SIGKDD Expioration, 2000,2(1)：1-15.

TP391

1009-0134(2010)09-0163-03

10.3969/j.issn.1009-0134.2010.09.50

2010-02-03

劉樹超（1963 -），男，高級講師，學士，研究方向為數據倉庫與數據挖掘。