ＷＥＢ日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)

2008-12-31 00:00:00楊清蓮王靜

商場(chǎng)現(xiàn)代化 2008年11期

[摘要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過(guò)程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù)，提出了一種數(shù)據(jù)預(yù)處理算法，并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明，本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

[關(guān)鍵詞] Web日志挖掘數(shù)據(jù)預(yù)處理算法

一、引言

在Web數(shù)據(jù)挖掘中，最重要的應(yīng)用是Web日志挖掘，即通過(guò)挖掘服務(wù)器的日志文件，得出用戶的訪問(wèn)模式，從而可以進(jìn)一步分析和研究日志記錄的規(guī)律，來(lái)改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能，構(gòu)造自適應(yīng)網(wǎng)站;還可以通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)分析，增加個(gè)性化服務(wù)，發(fā)現(xiàn)潛在的用戶群體，這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的。

Web日志挖掘主要分為三個(gè)步驟：

1.數(shù)據(jù)預(yù)處理

根據(jù)挖掘的目的，對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并，最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式，并保存。

2.模式識(shí)別

運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘，生成模式。

3.模式分析

進(jìn)行用戶訪問(wèn)模式的分析，從而將有價(jià)值的模式提取出來(lái)的過(guò)程。

其中，數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過(guò)程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù)，并提出了新的數(shù)據(jù)預(yù)處理算法，實(shí)現(xiàn)之。

二、Web日志預(yù)處理過(guò)程

Web服務(wù)器日志中的內(nèi)容非常豐富，而且用戶訪問(wèn)和服務(wù)器資源不是一對(duì)一的關(guān)系，比如，服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求，多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此，在實(shí)施數(shù)據(jù)挖掘之前，首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁(yè)面過(guò)濾、路徑補(bǔ)充等一系列的工作。

1.數(shù)據(jù)清洗

是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng)，同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。

2.用戶識(shí)別

是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。

3.會(huì)話識(shí)別

就是將用戶的訪問(wèn)記錄劃分成單個(gè)的會(huì)話，不同用戶訪問(wèn)的頁(yè)面屬于不同的會(huì)話。

4.路徑補(bǔ)充

根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問(wèn)路徑進(jìn)行完善，推斷出用戶從訪問(wèn)緩存中訪問(wèn)的頁(yè)面信息。

三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn)

1.概念定義

進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件?，F(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來(lái)表示如下:

定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義:

L=[A∶V]

A={a1，a2，…，ak}

每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面Url），參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer)，訪問(wèn)時(shí)間ti(通常為這個(gè)頁(yè)面的Data或叫Time)，至于{d1，d2，……，dm}則為客戶端向服務(wù)器通過(guò)表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。

定義2:日志中的記錄經(jīng)過(guò)預(yù)處理過(guò)以后，所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問(wèn)的數(shù)據(jù)定義如下:

設(shè)L是服務(wù)器日志文件中記錄的集合，其中的每一個(gè)記錄L均適合上面定義的記錄的格式，這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP，客戶端瀏覽器L.agent，客戶端訪問(wèn)的頁(yè)面的Url為L(zhǎng).url，訪問(wèn)頁(yè)面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式:

這里滿足:1≤k≤m，ltk∈L，ltk.ip=ipt，ltk.agent=agentt

2.具體的算法實(shí)現(xiàn)

(1)數(shù)據(jù)清理，簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名，消除擴(kuò)展名為gif，jpg，jpeg的日志記錄就可以了。

(2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問(wèn)的序列集的形式，集合中的每一個(gè)序列形如Hi={f1，f2，…，fn}，每一個(gè)Hi執(zhí)行算法(3)。

(3)將相同的IP和Agent的用戶訪問(wèn)序列劃分成用戶的一次訪問(wèn)序列。

①主程序

輸入:經(jīng)過(guò)清洗過(guò)的日志記錄L。

輸出:用戶會(huì)話文件

對(duì)于每一個(gè)Hi={f1，fn，……fn}是一個(gè)時(shí)間序列的日志記錄集，其中l(wèi)j，fj，rj，tj分別定義日志記錄的頁(yè)面視圖，Url，Referer，訪問(wèn)時(shí)間Time。

定義T為一個(gè)時(shí)間戳:

for each unique IP/Agent Pair do

for each lj do

if((tj-tj-1)>T)∨rj∈Hthen

f Timeout()then

i++;

Add lj to Hi

else

assign=Distance(H，rj)

add rj to Hassign // Hassign是包含rj頁(yè)面視圖的序列集中，rj距離最短的那個(gè)序列集

end.

②Timeout()函數(shù)

此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè)，在Hi中是否已經(jīng)過(guò)時(shí)了，也就是是否已經(jīng)大于T。如果大于T返回真，否則返回假。

value=true;

For each Hi∈H do

If lj∈H

If(tj-tj-1)∈T

value=1

end

return value

③Distance(H，rj)函數(shù)

Distance(H，rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù)，當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí)，確定該頁(yè)面文件是屬于那一個(gè)序列集。

對(duì)于每一個(gè)Hi={f1，f2，…，fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集，設(shè)f是一個(gè)日志記錄文件:

set min=∞ // 設(shè)置頁(yè)面距離;

for each Hi H do

if rj Hi

di=Hi.size()-Hi.index()，//計(jì)算頁(yè)面距離;Hi.size()序列集的總頁(yè)數(shù)Hi.index()該請(qǐng)求頁(yè)在序列集中的位置;

ti=hi.tn-Hi.tj

if(di

assign=i

min=di

else

if(di=min)

if(ti=tassign)

assign=i

tin=tj

return assign

end

四、實(shí)驗(yàn)結(jié)果

本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù)，其實(shí)驗(yàn)結(jié)果如下:

1.日志數(shù)據(jù)

#Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status

2005～05～24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0

……….

2005～05～24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0

2.運(yùn)行結(jié)果

經(jīng)過(guò)數(shù)據(jù)預(yù)處理，共有77個(gè)不同的IP用戶，共包括111段會(huì)話。實(shí)驗(yàn)證明，此算法效果良好。

3.運(yùn)行界面剪切如下:

五、結(jié)論

由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫(kù)文件，所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法，并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明，本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

參考文獻(xiàn)：

[1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj.nec.com/kamdar00creating.html.2002

[2]Bucbber AG，Anandss，MulvennaMD，et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj.nec.com/244461.html，1998

[3]張健沛劉建東楊靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用，2003(10）:191～193

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

商場(chǎng)現(xiàn)代化2008年11期

商場(chǎng)現(xiàn)代化的其它文章: 淺析數(shù)學(xué)期望在經(jīng)濟(jì)生活中的應(yīng)用; 《管理信息系統(tǒng)》課程設(shè)計(jì)教學(xué)改革方法研究; 廢舊輪胎混凝土不同摻量下強(qiáng)度等級(jí)的確定; 二次損耗條件下消耗戰(zhàn)博弈研究; ＤＦＡ分析的定量化研究; 財(cái)經(jīng)類(lèi)院校教育技術(shù)應(yīng)用平臺(tái)的構(gòu)建