Ｗｅｂ挖掘在網站優化中的應用研究

2008-12-31 00:00:00楊清蓮王靜

中國管理信息化 2008年15期

［摘要］在電子商務系統中，網站優化是改進網站設計和布局、方便用戶訪問站點、實現為客戶個性化服務的重要手段，而Web挖掘是實現網站優化的關鍵技術。本文通過對Web數據的分析挖掘，提出實現確定回溯點和目標頁的算法。實踐證明，該算法可以有效地實現網站優化。

［關鍵詞］ Web挖掘；電子商務；網站優化；個性化服務

［中圖分類號］F724.6［文獻標識碼］A［文章編號］1673-0194（2008）15-0107-03

隨著 Internet及 Web技術的發展，各類電子商務網站紛紛出現，電子商務在中國發展方興未艾。一個電子商務網站每天需要搜集和處理大量的數據，激增的數據背后隱藏著許多重要的信息，人們希望能夠對其進行更高層次的分析，以便更好地利用這些數據。為了解決“數據爆炸但信息貧乏”的現象，數據挖掘技術應運而生。Web挖掘作為數據挖掘技術中最熱門的方向，在電子商務中有著廣泛的應用前景。

在電子商務網站中，通過Web挖掘，可以分析網上客戶的行為模式，從中確定出不同的客戶群體以及客戶群體或個體的訪問模式和習慣，可以增加客戶感興趣的內容，優化網站的設計，實現網站個性化。

1 Web挖掘模式的應用

1． 1發現潛在客戶

對一個電子商務網站來說，了解、關注在冊客戶群體非常重要，但從眾多的訪問者中發現潛在客戶群體也同樣非常關鍵。如果發現某些客戶為潛在客戶群體，就可以對這類客戶實施一定的策略，使他們盡快成為在冊客戶群體。對一個電子商務網站來說，也許就意味著訂單數的增多、效益的增加［１］。

為獲得這些潛在的客戶，通常的市場策略是利用分類技術先對已經存在的訪問者進行分類，一般分為3種：“no custom ”、“visitor once”和“visitor regular”。對于一個新的訪問者，通過在Web上的分類發現，識別出這個客戶與已經分類的老客戶的一些公共的描述，從而對這個新客戶進行正確的分類。然后從它的分類判斷這個新客戶是有利可圖的客戶群還是無利可圖的客戶群，決定是否要把這個新客戶作為潛在的客戶來對待。客戶的類型確定后，就可以對客戶動態地展示Web頁面，頁面的內容取決于客戶與銷售商提供的產品和服務之間的關聯。

1． 2延長客戶的駐留時間

對客戶來說，傳統客戶與銷售商之間的空間距離在電子商務中已不復存在，Internet上每一個銷售商對于客戶來說都是一樣的，那么如何使客戶在自己的銷售站點上駐留更長的時間，這對銷售商來說將是一個挑戰。為了使客戶在自己的網站上駐留更長的時間，就應該了解客戶的瀏覽行為，知道客戶的興趣及需求所在，動態地調整Web頁面，以滿足客戶的需要。通過對客戶訪問信息的挖掘，就能知道客戶的瀏覽行為，從而了解客戶的興趣及需求。

1． 3改進站點設計

站點上頁面內容的安排就如超級市場中物品在貨架上的擺設一樣，把具有一定支持度和信任度的相關聯物品擺放在一起有助于銷售，利用關聯規則發現可以針對客戶動態調整站點的結構，使客戶訪問的有關聯的文件間的鏈接能夠比較直接，讓客戶更容易訪問到想訪問的頁面。網站如果具有這樣的便利性，就能給客戶留下較好的印象，增加了下次訪問的幾率［２］。

1． 4針對不同客戶提供個性化產品

銷售商可以獲知訪問者的個人愛好，更加充分地了解客戶地需要，根據各個細分市場，甚至是每一個顧客的獨特需求提供個性化產品，有利于提高客戶的滿意度。商家記錄著訪問者的特征及條款特征，這些特征可以從客戶登記注冊記錄中和Web日志中得到。應用網絡信息挖掘技術分析這些數據，可得到很多寶貴的信息，例如客戶的購買歷史、點擊流歷史。通過這些信息可以協助商家決策，提高銷售量。

綜上所述，Web挖掘技術推動了個性化推薦，使站點瀏覽者變為購買者，增加交叉銷售和提升銷售，每一次購買都增加客戶的忠誠度。

2 面向電子商務的Web挖掘應用系統模型

當用戶訪問Web服務器時，Web服務器會自動建立訪問日志信息。隨著WWW技術的快速發展和時間的積累，Web服務器中Web日志文件將越來越大，基于Web的電子商務服務器將保存大量的Web訪問日志記錄。如何對這些大量的Web日志記錄進行自動分析清理存儲并從中發現有用的、重要的知識，包括模式、規則和可視化結構等是目前Web日志挖掘的主要任務。

面向電子商務的Web挖掘系統模型包括數據采集、數據處理、數據存儲、模式發現、模式分析利用及客戶6個層次，見圖1。

數據采集層所采集的數據對象即為Web挖掘的源數據。Web挖掘的源數據有：Web服務器日志、客戶登記信息和交易數據庫。Web服務器日志是客戶訪問所產生的服務器日志數據。客戶登記信息必須和訪問日志集成，以提高數據挖掘的準確度。交易數據庫存儲用戶在商務網站上購買商品的信息，其內容隨數據庫結構的不同而有所不同，一般包括：用戶名、時間、商品ID、采購數量及價格等。

模式發現層次包括：路徑分析、關聯規則挖掘、序列模式挖掘以及聚類和分類分析。

數據處理層實現對數據采集層所采集的源數據進行處理，包括日志文件的處理和數據倉庫的建立。日志文件處理得好壞直接影響挖掘算法產生的結果，其處理過程是保證Web挖掘質量的關鍵。經過處理后的數據由數據存儲層進行保存和管理。Web挖掘應用系統主要有3類存儲方式：關系數據庫、數據倉庫和事務數據庫。事務數據庫一般由一個文件組成，其中每個記錄代表一個事務。

模式分析利用層由兩部分組成：個性化網站及商業智能。這也代表了Web挖掘在電子商務中的兩大應用方向。數據挖掘的結果可以幫助他們了解客戶，調整營銷策略，改進促銷手段，從而達到贏得競爭的目的。

客戶層主要實現用戶瀏覽和商家決策支持，其結構較簡單。

3 網站優化算法

大型網站每日都有數以萬計的訪問量，如何合理安排網站組織結構(即每個頁面都準確定位到訪問者期望找到的位置)，是一個非常困難的任務。另外，由于網站形式的多樣性(包括B2C， B2B，企業站點和目錄站點等)，使得這個問題更加復雜化。

雖然網站在形式和內容上有著很大差別，但它們的日志文件格式是相對確定的。通過對這些日志信息的分析和處理，可以提取出訪問者的WLP(Web Log Path)。由于某些瀏覽器具有緩存(Cache)功能，因此WLP并不能如實反映出訪問者的真實訪問過程。下面給出了一個GTPFWLP (Get True Path From Web Log Path)算法，實現了從WLP 到TP(True Path)的轉化。然后，又通過一個CBP(Confirm Backtrack Point)算法和閾值控制實現了回溯點和目標頁的確定。最后，將支持度超過指定閾值的元組(回溯點，目標頁)，提交給系統管理員，從而實現了網站物理結構的調整和再組織。

3. 1訪問模式分析

對于確定的網站層次結構（如圖2所示），訪問者經過兩次回溯(3A 和3B)才最終找到了目標頁面7。因此，可以將訪問者的執行步驟定義如下：

While(C is not Target Page Tn)do

(1)If Exist Ti Link(C)and Seem_Under(Tn，Ti)do Follow(Ti)//Link(C)表示所有從C 引出的超鏈，Seem_Under(Tn，Ti)表示Tn可能在Ti 下，Follow(Ti)表示沿著Ti向下尋找

(2)Else BackTrack

3. 2GTPFWLP 算法和回溯點的確定算法CBP

對于目標的訪問（見圖2），其訪問路徑為：1A，2A，3A，2A，3B，2A，1A，2C，7 。最終到達目標頁面7 ，可用TP(True Path)來表示。但是如果頁面被瀏覽器緩存后，則在Web日志中，僅記錄了如下訪問路徑：1A，2A，3A，3B，2C，7。為了得到完整的訪問路徑信息，可采用下面兩種方法：

（１）通過在網頁的＜Ｍｅｔａ＞標志中設置過期時間，使緩存失效，但這種做法顯然會增加網站的流量負荷；

（２）根據網站的物理鏈接結構，采用如下GTPFWLP算法獲得完整的訪問路徑信息。

1)GTPFWLP算法主要思想

①掃描WLP，對于WLP中任何連續兩點Wi Pi和

Wi+1 Pi+1，若在它們之間無物理鏈接，則說明訪問者一定在Wi Pi處進行了回溯，考察Wi-1Pi-1和Wi Pi，若有Wi-1

②執行過程①，直到對于WLP中的任何連續的兩點Wi Pi和Wi+1 Pi+1，在它們之間均有物理鏈接。此時WLP即被改造為TP。

2)獲得TP后，給出一個確定回溯點的算法CBP

對于集合TP{P1，P2，…，Pn }，其中Pn為目標頁面B：=Φ//B為回溯點的集合

For i:=2 to n-2

begin

If(Pi-1=Pi+1)add Pi to B //Pi是一個回溯點

End

If(B not empty)For each Bi∈B ADD(Bi，Pn)to Result

//在挖掘結果表Result中添加記錄(Bi，Pn)

通過該算法，我們可以找到用戶的返回點，這個位置可能是期望位置，也可能是目標頁面，但可以通過確定時間閾值來解決這個問題。當用戶在返回點停留的時間較長，超過指定的閾值，則認為該頁面是目標頁面，否則可以認為該頁面是期望位置。通常用戶在瀏覽Web站點時，在第一期望位置找不到目標頁面，就會在第二期望位置找，如果還找不到，會在第三期望位置找……其中我們最關心的是第一期望位置，而且是那些被第一期望且發生頻率高于系統設計者指定值的所有頁面。因此，尋找第一期望位置便成了我們關注的焦點。

3. 3發現第一期望位置算法

設Ei表示第一期望位置，算法如下：先以用戶的ID為主關鍵字，時間為次關鍵字，對Web日志文件建立索引，掃描Web日志索引文件，對每一個用戶ID，摘取出頁面序列。

For(I=1;I<=1;I++) // n為Web日志中的記錄數

{統計EI中所有頁面支持數；

sort page by support;

if support(P)>=SI // SI為Web設計者指定的閾值；

則P為被第一期望且發生頻率高于系統設計者指定值的頁面；}

根據該算法的挖掘結果，我們可以及時調整Web站點鏈接結構，在第一期望位置和實際位置之間增加導航鏈接，從而優化Web站點的鏈接結構。

4 結束語

通過Web數據挖掘，對總的用戶訪問行為、頻度、內容等的分析，可以得到關于群體用戶訪問行為和方式的普遍知識，通過對這些用戶特征的理解和分析，可以有助于開展有針對性的電子商務活動，給每個用戶個性化的界面，提供個性化的電子商務服務。

本文提出了一種有效算法，該算法可以自動地從日志信息中找到訪問者在每次訪問路徑中的回溯點和目標頁，對于期望鏈接支持度大于某設定閾值的數據元組(回溯點，目標頁)，即為需要重新修改添加鏈接的地方。通過網站優化，不僅提高了訪問者的查詢速度，節省了不必要的網絡開銷，而且對于提高網站自身的質量和聲譽也是大有裨益的。

主要參考文獻

[1] 鄒顯春，謝中，周彥暉. 電子商務與Web數據挖掘[J]. 計算機應用，2001(5):21-23.

[2] 鮑鈺，黃國興，張召.基于Web日志挖掘的網站結構優化方法[J]. 計算機工程，2003(12):82-84.

[3] Shahabi C，ZarkeshA M，Abidi J，et al.Knowledge Discovery from Users Web-page Naviagtion[C]. In Proceading of the 7th IEEE International Workshop on Research Issues in Data Engineering(RIDE)，1997:20-29.

[4] Pei J，Han J，Mortazavi-asl B，et al. Mining Access Patterns Efficiently from Web Logs[C]. In Proceading of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining，2000:396-407.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

中國管理信息化2008年15期

中國管理信息化的其它文章: 基于生態位理論的電子商務專業建設研究; 基于價值網驅動的紡織服裝行業協同電子商務平臺設計; 民營企業基于ＫＰＩ的職能部門績效考核設計; 基于信息粒度的屬性約簡改進算法在企業競爭力指標體系構建中的應用; 基于ＡＳＰ的中小連鎖超市信息化管理系統的設計與實現; ＥＲＰ與六西格瑪的集成