999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)

2008-12-31 00:00:00楊清蓮
商場(chǎng)現(xiàn)代化 2008年11期

[摘 要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過(guò)程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),提出了一種數(shù)據(jù)預(yù)處理算法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

[關(guān)鍵詞] Web日志挖掘 數(shù)據(jù)預(yù)處理 算法

一、引言

在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘,即通過(guò)挖掘服務(wù)器的日志文件,得出用戶的訪問(wèn)模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來(lái)改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的。

Web日志挖掘主要分為三個(gè)步驟:

1.數(shù)據(jù)預(yù)處理

根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存。

2.模式識(shí)別

運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。

3.模式分析

進(jìn)行用戶訪問(wèn)模式的分析,從而將有價(jià)值的模式提取出來(lái)的過(guò)程。

其中,數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過(guò)程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),并提出了新的數(shù)據(jù)預(yù)處理算法,實(shí)現(xiàn)之。

二、Web日志預(yù)處理過(guò)程

Web服務(wù)器日志中的內(nèi)容非常豐富,而且用戶訪問(wèn)和服務(wù)器資源不是一對(duì)一的關(guān)系,比如,服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求,多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此,在實(shí)施數(shù)據(jù)挖掘之前,首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁(yè)面過(guò)濾、路徑補(bǔ)充等一系列的工作。

1.數(shù)據(jù)清洗

是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng),同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。

2.用戶識(shí)別

是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。

3.會(huì)話識(shí)別

就是將用戶的訪問(wèn)記錄劃分成單個(gè)的會(huì)話,不同用戶訪問(wèn)的頁(yè)面屬于不同的會(huì)話。

4.路徑補(bǔ)充

根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問(wèn)路徑進(jìn)行完善,推斷出用戶從訪問(wèn)緩存中訪問(wèn)的頁(yè)面信息。

三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn)

1.概念定義

進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件?,F(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來(lái)表示如下:

定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義:

L=[A∶V]

V=

A={a1,a2,…,ak}

每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面Url),參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer),訪問(wèn)時(shí)間ti(通常為這個(gè)頁(yè)面的Data或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過(guò)表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。

定義2:日志中的記錄經(jīng)過(guò)預(yù)處理過(guò)以后,所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問(wèn)的數(shù)據(jù)定義如下:

設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個(gè)記錄L均適合上面定義的記錄的格式,這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP,客戶端瀏覽器L.agent,客戶端訪問(wèn)的頁(yè)面的Url為L(zhǎng).url,訪問(wèn)頁(yè)面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式:

t=

這里滿足:1≤k≤m,ltk∈L,ltk.ip=ipt,ltk.agent=agentt

2.具體的算法實(shí)現(xiàn)

(1)數(shù)據(jù)清理,簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,消除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。

(2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問(wèn)的序列集的形式,集合中的每一個(gè)序列形如Hi={f1,f2,…,fn},每一個(gè)Hi執(zhí)行算法(3)。

(3)將相同的IP和Agent的用戶訪問(wèn)序列劃分成用戶的一次訪問(wèn)序列。

①主程序

輸入:經(jīng)過(guò)清洗過(guò)的日志記錄L。

輸出:用戶會(huì)話文件

對(duì)于每一個(gè)Hi={f1,fn,……fn}是一個(gè)時(shí)間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁(yè)面視圖,Url,Referer,訪問(wèn)時(shí)間Time。

定義T為一個(gè)時(shí)間戳:

for each unique IP/Agent Pair do

for each lj do

if((tj-tj-1)>T)∨rj∈Hthen

f Timeout()then

i++;

Add lj to Hi

else

assign=Distance(H,rj)

add rj to Hassign // Hassign是包含rj頁(yè)面視圖的序列集中,rj距離最短的那個(gè)序列集

end.

②Timeout()函數(shù)

此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè),在Hi中是否已經(jīng)過(guò)時(shí)了,也就是是否已經(jīng)大于T。如果大于T返回真,否則返回假。

value=true;

For each Hi∈H do

If lj∈H

If(tj-tj-1)∈T

value=1

end

return value

③Distance(H,rj)函數(shù)

Distance(H,rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù),當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí),確定該頁(yè)面文件是屬于那一個(gè)序列集。

對(duì)于每一個(gè)Hi={f1,f2,…,fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集,設(shè)f是一個(gè)日志記錄文件:

set min=∞ // 設(shè)置頁(yè)面距離;

for each Hi H do

if rj Hi

di=Hi.size()-Hi.index(),//計(jì)算頁(yè)面距離;Hi.size()序列集的總頁(yè)數(shù)Hi.index()該請(qǐng)求頁(yè)在序列集中的位置;

ti=hi.tn-Hi.tj

if(di

assign=i

min=di

else

if(di=min)

if(ti=tassign)

assign=i

tin=tj

return assign

end

四、實(shí)驗(yàn)結(jié)果

本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)驗(yàn)結(jié)果如下:

1.日志數(shù)據(jù)

#Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status

2005~05~24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0

……….

2005~05~24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0

2.運(yùn)行結(jié)果

經(jīng)過(guò)數(shù)據(jù)預(yù)處理,共有77個(gè)不同的IP用戶,共包括111段會(huì)話。實(shí)驗(yàn)證明,此算法效果良好。

3.運(yùn)行界面剪切如下:

五、結(jié)論

由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫(kù)文件,所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

參考文獻(xiàn):

[1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj.nec.com/kamdar00creating.html.2002

[2]Bucbber AG,Anandss,MulvennaMD,et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj.nec.com/244461.html,1998

[3]張健沛 劉建東 楊 靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):191~193

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 男女男精品视频| 亚洲国产成人精品青青草原| 大乳丰满人妻中文字幕日本| 欧美日韩国产系列在线观看| 中文国产成人精品久久一| 无码精品福利一区二区三区 | 国内精品久久久久久久久久影视| 视频二区国产精品职场同事| 国产成人亚洲无吗淙合青草| 99久久99这里只有免费的精品 | 亚洲91精品视频| 青青草原国产av福利网站| 伊人精品成人久久综合| 农村乱人伦一区二区| 久久婷婷五月综合色一区二区| 亚洲AV成人一区二区三区AV| 在线播放真实国产乱子伦| AⅤ色综合久久天堂AV色综合| 亚洲中文字幕无码爆乳| 欧美中文字幕在线视频| 国产又黄又硬又粗| 久久亚洲欧美综合| 亚洲三级a| 免费一级成人毛片| 久久精品波多野结衣| 婷婷五月在线| 日韩久草视频| 在线亚洲小视频| 国产麻豆91网在线看| 国产精品嫩草影院av| 国产精品免费露脸视频| 喷潮白浆直流在线播放| 久久天天躁狠狠躁夜夜躁| 国产永久在线视频| 亚洲精品色AV无码看| 亚洲中文精品人人永久免费| 91在线高清视频| 亚洲av无码专区久久蜜芽| 亚洲欧美成人网| 亚洲乱伦视频| 日韩在线2020专区| 亚洲欧美日韩高清综合678| av一区二区三区高清久久| 亚洲91精品视频| 在线中文字幕网| 国内精品自在自线视频香蕉| 欧美特级AAAAAA视频免费观看| 2024av在线无码中文最新| 中国国产高清免费AV片| 婷婷色婷婷| 亚洲色欲色欲www在线观看| 国产日韩丝袜一二三区| 国内毛片视频| 一区二区三区毛片无码| 婷婷亚洲视频| 亚洲国产精品日韩av专区| 国产欧美视频在线观看| 久热精品免费| 国产精品成人免费视频99| 亚洲伊人久久精品影院| 人人爽人人爽人人片| 久久香蕉国产线看观看精品蕉| 91人人妻人人做人人爽男同| 国产va在线观看免费| 久久午夜夜伦鲁鲁片无码免费 | 国产乱人伦AV在线A| 中文字幕在线看视频一区二区三区| 日韩视频福利| 久久久久人妻一区精品色奶水 | 欧美一区二区三区不卡免费| www.精品国产| 99ri精品视频在线观看播放| 色综合激情网| 日本不卡视频在线| av大片在线无码免费| 国产亚洲精品精品精品| 狠狠v日韩v欧美v| 久久综合九色综合97婷婷| 青草视频久久| 国产国产人在线成免费视频狼人色| 好久久免费视频高清| 国产不卡在线看|