Ｗｅｂ數據挖掘及其在電子商務中的應用研究

2008-12-31 00:00:00丁勝鋒陳東莉

商場現代化 2008年10期

[摘要] 電子商務是現代商業模式，數據挖掘是先進的信息處理技術，因此數據挖掘在電子商務中具有廣闊的應用前景。本文主要介紹了Web數據挖掘的概念和分類，論述了電子商務中Web數據挖掘的過程和方法，最后闡述了Web數據挖掘技術在電子商務中的應用。

[關鍵詞] Web 數據挖掘電子商務

一、引言

電子商務是利用計算機技術、網絡技術和遠程通信技術，實現整個商務(買賣)過程中的電子化、數字化和網絡化。在全球范圍內，基于Internet的電子商務迅猛發展，促使各企業經營者必須及時搜集大量的數據，并且將這些數據轉換成有用的信息，為企業創造更多潛在的利潤。利用Web數據挖掘技術可以有效地幫助企業分析從網上獲取的大量數據，提取出有效信息，進而指導企業調整營銷策略，給客戶提供動態的個性化的高效率服務。

二、Web數據挖掘

1.Web數據挖掘的概念

數據挖掘是指從數據庫中的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的過程。Web數據挖掘是數據挖掘技術在Web環境下的應用，是從Web文檔和Web活動中發現潛在的、有用的模式或信息。它是一項綜合技術，涉及到Internet、人工智能、計算機語言學、信息學、統計學等多個領域。

2.Web數據挖掘的類型

電子商務中Web信息的多樣性決定了挖掘任務的多樣性。按照Web處理對象的不同，Web數據挖掘可以分為以下三種類型：

(1)Web內容挖掘(Web Content Mining)：可分為Web頁面內容挖掘和搜索結果挖掘。前者指的是對Web頁面上的數據進行挖掘。而后者指的是以某一搜索引擎為基礎，對已搜索結果的挖掘，以得到更精確有用的信息。Web內容挖掘常用的方法有WebOQL和Ahoy。

(2)Web結構挖掘(Web Structure Mining)：可分為超鏈接挖掘、內容挖掘和URL挖掘。整個Web空間里，有用的知識不僅包含在Web頁面的內容之中，而且包含在頁面的結構之中。Web結構挖掘是挖掘Web潛在的鏈接結構模式，是對Web頁面超鏈接關系、文檔內部結構、文檔URL中的目錄途徑結構的挖掘。Page2Rank方法就是利用文檔間鏈接信息來查找相關的Web頁。

(3)Web使用挖掘(Web Usage Mining)：可分為一般訪問模式挖掘和個性化服務模式挖掘。它是從Web的訪問記錄中抽取感興趣的模式。WWW 中的每個服務器都保留了訪問日志，記錄了關于用戶訪問和交互的信息。分析這些數據可以幫助理解用戶的行為，從而改進站點的結構，或為用戶提供個性化的服務。

3.電子商務中Web數據挖掘的數據對象

(1)服務器日志數據?？蛻粼L問站點時會在Web服務器上留下相應的日志數據，這些日志數據通常以文本文件的形式存儲在服務器上，一般包括sever logs、 error logs 、cookie logs等。

(2)代理服務器數據。網站服務器日志只記錄用戶對某個網站的訪問，而代理服務器日志記錄用戶對所有網站的訪問。代理服務器相當于在客戶瀏覽器和Web服務器之間提供了緩存功能的中介服務器。它的緩存功能減少了Web服務器的網絡流量，加快了網頁的運行速度。同時將大量的用戶訪問信息通過代理日志的形式保存起來。

(3)Web頁面。它主要是指HTLM和XML頁面的內容，包括本文、圖片、語音、圖像等。

(4)Web頁面超級鏈接關系。它主要是指頁面之間存在的超級鏈接關系。

(5)客戶登記信息。它是指客戶通過Web頁輸入的，要提交給服務器的相關用戶信息。這些信息通常是關于用戶的人口特征?？蛻舻怯浶畔⑿枰驮L問日志集成，才能提高數據挖掘的準確度，使之能更進一步的了解客戶。

(6)異構數據源。由于電子商務交易是在Internet網上進行，數據庫的結構各異，但其中涵蓋著許多價值很高的信息資料，如果用Agent智能手段捕獲這些信息源，對提高電子商務挖掘信息價值是很有益的。

4.電子商務中Web數據挖掘的過程

(1)數據預處理。它包括數據清理、用戶識別、用戶會話識別、訪問路徑補充和事務識別等步驟。

數據清洗的目的是刪除Web日志中與數據不相關的冗余項，縮小被挖掘數據對象的范圍。

在數據凈化后就必須確定單一的用戶，用戶識別的目的就是對用戶惟一性的識別。用戶識別可以借助于cookie技術、用戶登記技術和啟發性規則來實現。

用戶會話識別的目的是將每個用戶的訪問信息劃分成若干個獨立的會話進程。最簡單的方法是采用超時估計的辦法，即當對頁面之間的請求時間間隔超出所給定值時，即可以認為用戶已經開始了一次新的會話。

因為頁面緩存技術和代理服務器的廣泛使用，使得Web服務器訪問日志中所記錄的可能不是用戶完整的訪問路徑。不完整的訪問日志不能準確地反映用戶的訪問模式，所以有必要進行訪問路徑的補充。進行路徑補充可以利用Web站點的拓撲結構，對頁面進行分析。

事務識別是建立在用戶會話識別的基礎上的，其目的是依據數據挖掘任務的需求將事務做分割或合并處理，使其適合于數據挖掘需求的分析。

(2)模式識別。對預處理之后的數據進行處理得到相應的事務數據庫。在事務數據庫基礎上進行數據挖掘，需要進行兩個方面的工作：一是將事務數據庫整理變換成與一定挖掘技術相適應的數據存儲形式；二是利用數據挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識?？捎糜赪eb的挖掘技術有路徑選擇、關聯分析、分類規則、聚類分析、序列分析、依賴性建模等。

(3)模式分析。該階段的主要任務是從上一階段收集的數據集中過濾掉不感興趣和無關聯的數據及模式，發現有趣模式。最常見的模式分析方法是SQL語言知識查詢機制，也可以利用存儲Web使用數據的數據庫進行數據導入，再利用OLAP方法發現數據中的特定模式結果。

(4)可視化。主要是采用可視化的技術以圖形界面的方式表示挖掘的成果。

三、電子商務中的Web數據挖掘技術

1.路徑分析(Path Analysis)

路徑分析是一種找尋頻繁訪問路徑的方法，它通過對Web服務器的日志文件中客戶訪問站點的訪問次數分析，挖掘出頻繁訪問路徑。例如，某客戶從某一站點訪問到某一感興趣的頁面后就會經常訪問該頁面，通過路徑分析確定頻繁訪問路徑，可以了解客戶對哪些頁面感興趣，從而更好地改進設計，為客戶服務。

用路徑分析技術進行Web數據挖掘時，最常用的是圖。因為一個圖代表了定義在網站上的頁面之間的聯系。圖最直接的來源是網站結構圖，網站上的頁面定義成節點，頁面之間的超鏈接定義成圖中的邊。其他的各式各樣的圖也都是建立在頁面和頁面之間聯系或者是一定數量的學習者瀏覽頁面順序基礎之上的。那么，基于Web數據挖掘，就是從圖中確定最頻繁的路徑訪問模式或大的參引訪問序列。

2.統計分析(Statistics Analysis)

統計分析是從Web站點中抽取知識最常用的方法，對會話文件中的各個維度，例如瀏覽時間、路徑長度，都可以進行頻度、平均值的統計分析。許多Web瀏覽分析工具會定時提交統計分析報告，這些報告的內容通常包括最頻繁被訪問的頁面、頁面的平均瀏覽時間和平均路徑長度，有些統計報告還提供了簡單的錯誤分析功能，例如探測非法訪問的次數、出錯最多的URL。盡管這種分析缺少深度，但仍有助于改進系統性能，增強系統安全性，便于站點修改，并能提供決策支持。

3.關聯規則(Association Regulation)

關聯分析的目的是為了挖掘出隱藏在數據間的相互關系。在電子商務中，關聯規則的發現也就是找到客戶對網站上各種文件之間訪問的相互聯系。聯系的問題就是得到如下形式的規則：“”，其中與均為在數據庫中相關數據特征屬性值的集合。例如，用關聯規則技術，我們可以發現：如果客戶在一次訪問行為中，訪問了頁面／page1時，一般也會訪問頁面／page2。進行Web上的數據挖掘，構建關聯模型，我們可以更好地組織站點，減少用戶過濾信息的負擔，實施有效的市場策略，增加交叉銷售量。

4.序列模式(Sequential Pattern)

序列模式分析的目的是為了挖掘出數據間的前后或因果關系，就是在時間戳有序的事務集中，找到那些“一些項跟隨另一個項”的內部事務模式。例如，在／page1上進行過在線訂購的顧客，有60%的人在過去10天內也在／page2上下過定單。通過序列模式的發現，能夠便于電子商務的經營者預測客戶的訪問模式，在服務器方選取有針對性的頁面，以滿足訪問者的特定要求；網站的管理員可將訪問者按瀏覽模式分類，在頁面上只展示具有該瀏覽模式的訪問者經常訪問的鏈接，而用一個“更多內容”指向其他未被展示的內容。當訪問者瀏覽到某頁面時，檢查他的瀏覽所符合的序列模式，并在顯眼的位置提示“訪問該頁面的人通常接著訪問”的若干頁面。

5.分類規則(Classification Regulation)

分類要解決的問題是為一個事件或對象歸類。設有一個數據庫和一組具有不同特征的類別(標記)，該數據庫中的每一個記錄都賦予一個類別的標記，這樣的數據庫稱為示例數據庫或訓練集。分類分析就是通過分析示例數據庫中的數據，為每個類別做出準確的描述或建立分析模型或挖掘出分類規則，然后用這個分類規則對其它數據庫中的記錄進行分類。例如，經過Web挖掘發現，在／page1進行過在線訂購的客戶中有60％是20歲～30歲生活在大中城市的年輕人。得到分類后，就可以針對這一類客戶的特點展開商務活動，提供有針對性的個性化的信息服務。用于分類分析的方法有統計方法的貝葉斯分類、機器學習的判定樹歸納分類、神經網絡的后向傳播分類、K-最臨近分類、mbr、遺傳法、粗糙集和模糊集等。

6.聚類分析(Clustering Analysis)

聚類分析不同于分類規則，其輸入集是一組未標定的記錄，也就是說，此時輸入的記錄還沒有進行任何分類。其目的是根據一定的規則，合理地劃分記錄集合，并用顯式或隱式的方法描述不同的類別。在電子商務中，通過聚類具有相似瀏覽行為的客戶，可使經營者更多地了解客戶，為客戶提供更好的服務。例如，一些客戶在一個時間段內經常瀏覽“wedding celebration”，經過分析可將這些客戶聚類為一組，并可進一步得知這是一組即將結婚的客戶，對他們的服務就應該有別于其他的聚類客戶，如“經理人員階層組”、“學生階層組”。這樣，Web可自動給這個特定的顧客聚類發送新產品信息郵件，為這個顧客聚類動態地改變一個特殊的站點。在一定程度上滿足客戶的要求，這對客戶和銷售商來說更有意義。

四、Web數據挖掘技術在電子商務中的應用

1.挽留老顧客，挖掘潛在客戶

通過Web挖掘，電子商務的經營者可以獲知每位訪問者的個人愛好，充分地了解客戶的需要，根據每一類顧客的獨特需求提供定制化的產品，并根據需求動態地向客戶做頁面推薦，調整Web頁面，提高客戶滿意度，延長客戶駐留的時間，最終達到留住客戶的目的。通過挖掘Web日志記錄，可以先對已經存在的訪問者進行分類，然后從它的分類判斷出某個新客戶是否是潛在的客戶。

2.制定產品營銷策略，優化促銷活動

通過對商品訪問情況和銷售情況進行挖掘，企業能夠獲取客戶的訪問規律，確定顧客消費的生命周期，根據市場的變化，針對不同的產品制定相應的營銷策略。

3.降低運營成本，提高企業競爭力

電子商務的經營者通過Web數據挖掘，可以得到可靠的市場反饋信息，認真分析顧客的將來行為，進行有針對性的電子商務營銷活動；可以根據關心某產品的訪問者的瀏覽模式來決定廣告的位置，增加廣告針對性，提高廣告的投資回報率，從而降低運營成本，提高企業競爭力。

4.提高站點點擊率，完善電子商務網站設計

通過挖掘客戶的行為記錄和反饋情況為站點設計者提供改進的依據，進一步優化網站組織結構以提高網站的點擊率。比如利用關聯規則的發現，可以針對不同客戶動態調整站點結構，使客戶訪問的有關聯的文件間的鏈接更直接，讓客戶容易地訪問到想要的頁面，就能給客戶留下好的印象，增加下次訪問的機率。

同時對網站上各種數據的統計分析有助于改進系統性能，增強系統安全性，并提供決策支持。

五、結束語

當今時代，電子商務的發展勢頭越來越強勁，面向電子商務的數據挖掘將是一個非常有前景的領域。但是，不可否認，在面向電子商務的數據挖掘中還存在很多急需解決的問題，比如：怎樣將服務器的日志數據轉化成適合某種數據挖掘技術的數據格式；怎樣解決分布性、異構性數據源的挖掘問題；如何控制整個Web上的知識發現過程等。

參考文獻:

[1]Jiawei Han，Micheline Kamber著，范明孟小峰譯:數據挖掘概念與技術.機械工業出版社，2001，8

[2]凌傳繁:Web挖掘技術在電子商務中的應用[J].情報雜志，2006，(1)

[3]柳:Web挖掘技術與電子商務[J]．商場現代化，2007，(03X)

商場現代化2008年10期

商場現代化的其它文章: 舉例教學法和案例教學法在“國際貿易實務”課程教學中的運用; 略論第一生產力和首要生產力; 外貿函電課程培養學生實踐能力的課堂途徑探討; 市場社會主義的結構演進及理論述評; 人力資源管理課程中的案例教學; 對商務禮儀課程實踐教學模式的探討