Ｗｅｂ數(shù)據(jù)挖掘技術綜述

2009-04-29 00:00:00潘正高

電腦知識與技術 2009年15期

摘要:萬維網(wǎng)是一個巨大的、分布廣泛的、全球性的信息服務中心，它包含了豐富的信息資源。Web挖掘可以快速有效地從互聯(lián)網(wǎng)上獲取所需要的信息。該文從Web數(shù)據(jù)挖掘的基本概念出發(fā)，結合Web數(shù)據(jù)的特點介紹了Web數(shù)據(jù)挖掘的類型、過程和技術，并對Web挖掘的應用前景進行了展望。

關鍵詞:Web數(shù)據(jù)挖掘;挖掘過程;挖掘技術

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2009)15-3852-02

The Summary of Web Mining Technology

PAN Zheng-gao1，2

(1.School of Information and Computer，Hefei University of Technology，Hefei 230009，China;2.the Lab of Artificial Intelligence and Data Mining，Suzhou University，Suzhou 234000，China)

Abstract:WWW contains abundant information，as a enormous，extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types，procession and technologys of Web Mining，except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.

Key words:Web Mining; Mining Course; Mining Technology

1 引言

隨著Internet的發(fā)展，Web信息迅速膨脹，如何從海量的Web信息中快速和準確地獲取有用信息已經(jīng)成為近幾年數(shù)據(jù)挖掘領域研究的熱點。Web上的數(shù)據(jù)與其他的數(shù)據(jù)相比較存在著明顯的特點，這些特點使得Web挖掘在方法和技術方面與傳統(tǒng)的數(shù)據(jù)挖掘有著顯著的不同。

2 Web數(shù)據(jù)挖掘的概念

Web數(shù)據(jù)挖掘(Web Mining)，簡稱Web挖掘，是由Oren Etzioni在1996年首先提出的[1]。它是數(shù)據(jù)挖掘技術和Internet應用研究相結合的研究領域。一般，對Web數(shù)據(jù)挖掘定義如下:Web數(shù)據(jù)挖掘是指Web從文檔結構和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入，P看作輸出，則Web挖掘的過程就是從輸入到輸出的一個映射[2]。

Web挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的非平凡過程。Web挖掘是數(shù)據(jù)挖掘技術和Internet應用研究相結合的產(chǎn)物，其涉及的技術覆蓋了多個研究領域，包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡等。

3 Web數(shù)據(jù)的特點[3]

1) 異構數(shù)據(jù)庫環(huán)境。Web上的每一個站點就是一個數(shù)據(jù)源，每個數(shù)據(jù)源都是異構的，因而每一站點的信息和組織都不一樣，這就構成了一個巨大的異構數(shù)據(jù)庫。

2) 分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務器上，形成了分布式數(shù)據(jù)源。

3) 半結構化。半結構化是Web上數(shù)據(jù)的最大特點。Web上的數(shù)據(jù)非常復雜，沒有特定的模型描述，是一種非完全結構化的數(shù)據(jù)，稱之為半結構化數(shù)據(jù)。

4) 動態(tài)性強。Web是一個動態(tài)性極強的信息源，信息不斷地快速更新，各站點的鏈接信息和訪問記錄的更新非常頻繁。

5) 多樣復雜性。Web包含了各種信息和資源，有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。

4 Web數(shù)據(jù)挖掘的分類

Web挖掘技術根據(jù)挖掘的方向一般分為三類:Web內(nèi)容挖掘，Web結構挖掘和Web使用記錄的挖掘。

4.1 Web內(nèi)容挖掘(WCM，Web Content Mining)

Web內(nèi)容挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些Web數(shù)據(jù)的形式有Web頁面、Web頁面上各種鏈接所指向的內(nèi)容以及網(wǎng)絡數(shù)據(jù)庫里的數(shù)據(jù)等。從內(nèi)容方面，Web內(nèi)容挖掘可分為Web文本挖掘和Web多媒體挖掘，它們的不同在于提取的特征不同。從方法上，Web內(nèi)容挖掘可分為數(shù)據(jù)庫方法和信息抽取方法。

4.2 Web結構挖掘(WSM，Web Structure Mining)

Web結構挖掘是從Web的組織結構、Web文檔結構與其鏈接關系中挖掘潛在的知識和模式。通過對Web結構的分析，可以發(fā)現(xiàn)頁面結構和鏈接關系中所蘊涵的有用模式;也可以對頁面及其鏈接進行分類和聚類，發(fā)現(xiàn)權威頁面。有關這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進的HITS(將內(nèi)容信息加入到鏈接結構中去)、Hub/authority(Kleinberg，1998)[4]。

4.3 Web使用挖掘(WUM，Web Usage Mining)

Web使用挖掘是應用數(shù)據(jù)挖掘技術從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務的質量，改進Web服務器的系統(tǒng)性能和結構。

5 Web數(shù)據(jù)挖掘過程

Web數(shù)據(jù)挖掘過程是一個完整的KDD過程，但是與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫相比，Web上的信息是非結構化或半結構化的、動態(tài)的、并且是容易造成混淆的，所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘，而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖1所示，包括如下四個過程:

1) 查找資源:根據(jù)挖掘目的，從Web資源中提取相關數(shù)據(jù)，構成目標數(shù)據(jù)集，Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取。其任務是從目標Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。

2) 數(shù)據(jù)預處理:在進行Web挖掘之前對“雜質”數(shù)據(jù)進行過濾，例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預處理主要包括站點識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。

3) 模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術包括:路徑分析、關聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術。

4) 模式分析:利用合適的工具和技術對挖掘出來的模式進行分析、解釋、可視化，把發(fā)現(xiàn)的規(guī)則模式轉換為知識。

6 常用的數(shù)據(jù)挖掘技術

6.1 路徑分析技術

我們通常采用圖的方法來分析Web頁面之間的路徑關系。G=(V，E)，其中:V是頁面的集合，E是頁面之間的超鏈接集合，頁面定義為圖中的頂點，而頁面間的超鏈接定義為圖中的有向邊。頂點v的入邊表示對v的引用，出邊表示v引用了其他的頁面，這樣形成網(wǎng)站的結構圖，從圖中可以確定最頻繁的訪問路徑。路徑分析技術常用于進行改進站點的結構。如70%的用戶訪問/company/product時，是從/company開始，經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方，方便了用戶訪問，也提高了該產(chǎn)品的點擊率。

6.2 關聯(lián)規(guī)則技術

關聯(lián)規(guī)則挖掘技術主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關的規(guī)則，就是要挖掘出用戶在一個訪問期限(Session)，從服務器上訪問的頁面文件之間的聯(lián)系，這些頁面之間并不存在直接的參引(Reference)關系。使用關聯(lián)規(guī)則可以發(fā)展很多相關信息或產(chǎn)品服務。例如:某信息A和B，同時被很多用戶瀏覽，則說明A和B有可能相關。同時點擊的用戶越多，其相關度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關信息或產(chǎn)品服務。如當當電子書店就采用了這一模式用以推薦相關書目。當你選擇某本圖書時，系統(tǒng)會自動給你推薦信息，告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想，推出信息推薦服務“Peer to Peer”。

6.3 序列模式挖掘技術

序列模式數(shù)據(jù)挖掘技術就是要挖掘出交易集之間的有時間序列關系的模式。它與關聯(lián)挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律，關聯(lián)挖掘技術注重事務內(nèi)的關系，而序列模式技術則注重事務之間的關系。發(fā)現(xiàn)序列模式，便于預測用戶的訪問模式，有助于開展基于這種模式的有針對性的廣告服務。依賴于發(fā)現(xiàn)的關聯(lián)規(guī)則和序列模式，能夠在服務器方動態(tài)地創(chuàng)立特定的有針對性的頁面，以滿足訪問者的特定需求。

6.4 聚類分類技術

分類規(guī)則可挖掘出某些共同的特性，而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中，分類技術可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務器文件的用戶特征。而聚類技術則是對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述，這種描述可以用于分類新的檢索。如政府機關的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫中聚集出具有相似特性的用戶群。在Web事務日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務信息可以用在:在找出用戶共同興趣后，進行合作式信息推薦，共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件，為用戶聚類動態(tài)地改變一個特殊的站點等。

7 Web挖掘的研究熱點[6]

在未來一段時間內(nèi)，Web挖掘研究的焦點可能會集中到以下幾個方面:

1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高，但搜索引擎的最終目標是“理解用戶需求精確返回所需”，如何翻譯用戶的非專業(yè)搜索請求，實現(xiàn)自然語言處理，涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。

2) Web數(shù)據(jù)的特征描述與監(jiān)控。如何表示W(wǎng)eb文本內(nèi)容的特征數(shù)據(jù)，如何表示和識別Web中的圖像、flash等多媒體數(shù)據(jù)，進而進行網(wǎng)頁分類、內(nèi)容跟蹤、過濾和報警等，對于不良網(wǎng)站的監(jiān)控等有著積極意義。

3) Web數(shù)據(jù)的獲取與集成。包括Web文本特征的提取和表示，如何用一種廣泛兼容的半結構化數(shù)據(jù)模型表示網(wǎng)頁;如何抽取動態(tài)網(wǎng)頁中的數(shù)據(jù);如何在分布的Web中獲取信息;如何在指定網(wǎng)頁中快速定位所需的數(shù)據(jù)區(qū);如何利用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術查詢和存儲Web內(nèi)容等。

4) Web數(shù)據(jù)流挖掘。Web日志、cookie、點擊流等流式數(shù)據(jù)量巨大，如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據(jù);如何有效標識用戶、設置用戶會話時間等。

5) 安全與非法訪問檢測。如何評價Web數(shù)據(jù)信息本身的可靠和安全性;如何對Web內(nèi)容、郵件、各種日志和用戶訪問行為的分析，識別出威脅、欺詐、入侵、無用的數(shù)據(jù)和異常行為，從而構建安全的網(wǎng)絡環(huán)境。

6) 個性化與安全隱患。如何跟蹤、學習和表達多變的用戶興趣及行為模式，在個性化服務中過濾信息，實現(xiàn)商業(yè)應用，在提醒個性化服務時不侵犯用戶隱私等都是亟待決的問題。

7) 基于Web的模式分析技術和工具。如何將Web挖掘的結果在瀏覽器中可視化地表達，包括統(tǒng)計、關聯(lián)、聚類、分類等工具開發(fā)等。

8) Web挖掘的算法改進與質量評估。由于Web數(shù)據(jù)本身的特點，使得Web挖掘不能照搬數(shù)據(jù)挖掘的理論和技術，而需要對現(xiàn)有的算法等方面都進行改進。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋，實際運行測試，因而缺乏有效的評價模式。

9) Web挖掘在社會領域的應用。Web已經(jīng)是人類社會活動的一面鏡子，如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點的規(guī)律，為社會學家、經(jīng)濟學家、教育學者提供有價值的知識。

此外，分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時，Web挖掘技術應用于具體領域的研究將持續(xù)受到關注，例如，銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務、網(wǎng)絡教學、BLOG等。

8結束語

Web挖掘技術是一個新興的研究領域，對它的研究和應用正在成為一個熱點。伴隨著Internet的快速發(fā)展，Web挖掘技術的研究和發(fā)展將會迎來更好的契機。

參考文獻:

[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM， 1996， 39(11).

[2]王玉珍.Web數(shù)據(jù)挖掘的分析與探索[J].計算機發(fā)展與應用，2003;(4).

[3]張藝雪.Web上的數(shù)據(jù)挖掘及應用[J].信息科技，2007;(3)115-116.

[4]Wang K ， Zhou S， Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97， Edinburgh， UK， 1999:363-374.

[5]Jaideep Srivastava， Robert Cooley， Mukund Deshpande， Pang-Ning Tan， Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J].SIGKDD Explorations， Vol. 1， Issue 2， 2000.

[6] 胡學鋼 . Web挖掘研究綜述[J]. 計算機應用研究， 2007，24 (6).

電腦知識與技術2009年15期

電腦知識與技術的其它文章: 基于續(xù)傳數(shù)據(jù)的動態(tài)網(wǎng)絡交換模型; 基于ＷｅｂＳｅｒｖｉｃｅ企業(yè)級應用分析與構建; Ｐｅｔｒｉ網(wǎng)的工作流模型建模研究; 基于Ｊａｖａｓｃｒｉｐｔ的可編輯下拉列表框的設計與實現(xiàn); ＩＰｖ６地址實現(xiàn)機制; 公交優(yōu)先無線傳輸系統(tǒng)設計

Ｗｅｂ數(shù)據(jù)挖掘技術綜述

404 Not Found

404 Not Found