999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高校圖書館Web日志挖掘的分析與研究*

2010-05-03 07:40:56程思祥雷
圖書館學(xué)刊 2010年5期
關(guān)鍵詞:頁面數(shù)據(jù)挖掘用戶

程思祥雷 鳴

(1.長江大學(xué)圖書館;2.長江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434023)

1 引言

隨著Internet技術(shù)的發(fā)展,網(wǎng)絡(luò)資源飛速增長,如何有效利用這些豐富的資源成為人們普遍關(guān)注的問題。數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究的結(jié)合構(gòu)成了當(dāng)今比較活躍的一個(gè)研究領(lǐng)域——Web數(shù)據(jù)挖掘。要從海量的Web數(shù)據(jù)中獲取有價(jià)值的潛在模式和隱含信息必須依靠Web數(shù)據(jù)挖掘技術(shù)。

與Web數(shù)據(jù)異質(zhì)、分布、動(dòng)態(tài)、無統(tǒng)一結(jié)構(gòu)的特點(diǎn)不同,Web服務(wù)器日志結(jié)構(gòu)比較完善,用戶訪問Web站點(diǎn)后會(huì)留下完整的記錄。Web日志挖掘通過挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式、挖掘有用模式和預(yù)測(cè)用戶瀏覽行為[1]。

目前Web日志挖掘可分為兩種方法[2]:①將Web服務(wù)器上的數(shù)據(jù)映射到關(guān)系數(shù)據(jù)庫,選擇合適的數(shù)據(jù)挖掘技術(shù)處理;②利用特殊的預(yù)處理技術(shù)直接處理日志數(shù)據(jù),采用標(biāo)準(zhǔn)的數(shù)據(jù)挖掘技術(shù)來進(jìn)行訪問數(shù)據(jù)的挖掘。

2 W eb日志分析流程

2.1 數(shù)據(jù)選擇

分析對(duì)象是長江大學(xué)圖書館的主頁服務(wù)器日志數(shù)據(jù),自2009年10月26日到2009年11月19日,日志文件共25個(gè),大小為262M,共有1619085條記錄。

Web服務(wù)器日志文件(Web Server Log File)記錄了用戶訪問該站點(diǎn)時(shí)每個(gè)頁面的請(qǐng)求信息。日志記錄的格式主要分為兩種[3]:通用型日志格式(Common Log Format,CLF)和擴(kuò)展型日志格式(Extended Log Format,ELF)。筆者使用的數(shù)據(jù)屬于W3C擴(kuò)展日志格式,ELF日志文件包括兩種記錄類型:指令型記錄(以“#”開頭)和數(shù)據(jù)記錄。

ELF確定的日志格式被定義為一個(gè)域的集合,而不是定義一種固定的格式。很多域前面需要加上前綴。下面列出W3C擴(kuò)展日志格式的可用域前綴[4]:

c-:客戶端;s-:服務(wù)器端;r-:遠(yuǎn)程服務(wù)器端;cs-:客戶端到服務(wù)器端;sc-:服務(wù)器端到客戶端;sr-:服務(wù)器端到遠(yuǎn)程服務(wù)器端;rs-:遠(yuǎn)程服務(wù)器端到服務(wù)器端;x-:應(yīng)用。這些前綴與域指令行中的域標(biāo)識(shí)符相結(jié)合,用于說明何種數(shù)據(jù)將寫入日志。

表1 W eb日志記錄的部分主要信息

下面是一個(gè)Web服務(wù)器日志文件ELF格式的例子:

#Software:Microsoft Internet Information Services 5.0

#Version:1.0

#Date:2009-10-26 00:00:49

#Fields:date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status cs(User-Agent)2009-10-26 00:00:49 10.10.90.29-10.203.1.13 80 GET/index.asp-200 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

2.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前期很重要的工作,其結(jié)果的好壞直接影響了挖掘結(jié)果。數(shù)據(jù)預(yù)處理的工作量占整個(gè)數(shù)據(jù)挖掘過程的50%左右[5]。Web日志預(yù)處理的目的是針對(duì)上一階段產(chǎn)生的數(shù)據(jù)進(jìn)行初步整理,剔除日志中對(duì)挖掘過程無用的屬性和數(shù)據(jù),并將Web日志中的數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的形式。

數(shù)據(jù)清理可采用以下3種方式:①根據(jù)日志文件的時(shí)間,如只需要對(duì)上周日志文件進(jìn)行挖掘;②根據(jù)所訪問的文件類型,如只需要對(duì).asp文件進(jìn)行挖掘;③根據(jù)使用者請(qǐng)求和算法類型選取屬性列,如只需要對(duì)訪問路徑進(jìn)行挖掘。

數(shù)據(jù)縮減可采用以下兩種方式:縱向縮減(行縮減)和橫向縮減(列縮減)。對(duì)于不同的挖掘需求可采用不同的縮減方式,如縱向縮減可通過URI資源的擴(kuò)展名、用戶動(dòng)作、狀態(tài)碼進(jìn)行縮減。進(jìn)行流量分析時(shí),可采用橫向縮減的方式,如保留用戶訪問時(shí)間、用戶請(qǐng)求的URI資源等字段,這里必須保留URL為圖形文件的記錄。進(jìn)行聚類分析時(shí),可保留用戶訪問時(shí)間、用戶IP、用戶請(qǐng)求訪問的URL、用戶所使用的代理等字段。縱向縮減可減少記錄條數(shù),橫向縮減僅減少屬性列,對(duì)記錄條數(shù)無影響,這兩種縮減方式都不會(huì)降低日志清理的精度。進(jìn)行數(shù)據(jù)縮減可減少算法掃描日志的時(shí)間,提高挖掘效率。

目前較為有效的用戶識(shí)別方法有:①基于用戶瀏覽器和操作系統(tǒng)的差異。②基于引用頁進(jìn)行判斷[6]。這里我們認(rèn)為不同IP地址代表不同用戶;若IP地址相同,用戶瀏覽器或操作系統(tǒng)不同,也認(rèn)為是相同的用戶;若用戶請(qǐng)求的某頁面沒有請(qǐng)求過也認(rèn)為這是一個(gè)新的用戶。

進(jìn)行會(huì)話識(shí)別最簡單的方法是使用時(shí)間戳(timeout),常用的是30分鐘,L.Catledge和J.Pitkow由實(shí)驗(yàn)得出timeout值設(shè)為25.5分鐘更好[3]。如果用戶訪問頁面時(shí)間差超過了timeout,則認(rèn)為用戶開始了一個(gè)新的會(huì)話。

2.3 數(shù)據(jù)轉(zhuǎn)換

根據(jù)挖掘目標(biāo)和數(shù)據(jù)特征,選擇合適的挖掘算法模型。Web日志數(shù)據(jù)挖掘中常用的技術(shù)有:統(tǒng)計(jì)分析、路徑分析、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類分析、分類學(xué)習(xí)等。

2.4 數(shù)據(jù)挖掘

根據(jù)應(yīng)用的要求,選擇合適的數(shù)據(jù)挖掘算法及模型參數(shù),建立數(shù)據(jù)挖掘模型,從數(shù)據(jù)中提取所需的知識(shí),并以一定的形式展現(xiàn)出來。如決策樹結(jié)構(gòu)、關(guān)聯(lián)規(guī)則集等。

2.5 結(jié)果分析

對(duì)挖掘結(jié)果進(jìn)行解釋與評(píng)估。將挖掘的知識(shí)以用戶可以理解的方式(如圖表)呈現(xiàn)給用戶,并對(duì)所得的結(jié)構(gòu)進(jìn)行解釋,包括對(duì)知識(shí)的一致性檢查,模型的驗(yàn)證,識(shí)別知識(shí)的真正有趣模式。進(jìn)行Web站點(diǎn)流量統(tǒng)計(jì),需要對(duì)源數(shù)據(jù)進(jìn)行分析,統(tǒng)計(jì)網(wǎng)站響應(yīng)狀態(tài)、請(qǐng)求成功的IP地址、具體頁面的訪問流量、訪問成功的頁面、訪問出錯(cuò)的頁面等,可畫出訪問時(shí)間——訪問人數(shù)折線圖,初步了解用戶訪問的時(shí)間分布情況,按照用戶訪問方式統(tǒng)計(jì),了解用戶大多會(huì)進(jìn)行什么操作。

3 結(jié)果分析

根據(jù)原始數(shù)據(jù)可統(tǒng)計(jì)出以下部分結(jié)果:

3.1 根據(jù)網(wǎng)站響應(yīng)狀態(tài)

分布圖如圖2所示。

3.2 根據(jù)用戶訪問方式

分布圖如圖3所示。

3.3 請(qǐng)求成功的IP地址統(tǒng)計(jì)

請(qǐng)求成功的記錄數(shù)為1403516條,請(qǐng)求成功的IP地址數(shù)有10475條。圖4中僅列出訪問量前10位的請(qǐng)求成功的IP地址。

以縱向縮減為例,原始數(shù)據(jù)大小為262M,共有1619085條記錄。

對(duì).gif、.jpg、.jpeg、.ico、.cgi、.css、.js這 7 種擴(kuò)展名篩選后,記錄條數(shù)縮減為211146條。按GET請(qǐng)求記錄縮減后,記錄條數(shù)為210043條。將狀態(tài)碼為4和5開頭的記錄刪除后,記錄條數(shù)為185291條。按下載文件篩選后有1727條記錄。

圖5中僅列出訪問量前10位的頁面。

4 結(jié)語

以長江大學(xué)圖書館主頁服務(wù)器Web日志文件為例,分析了Web日志挖掘中的關(guān)鍵步驟——數(shù)據(jù)預(yù)處理技術(shù),并針對(duì)數(shù)據(jù)清理、數(shù)據(jù)縮減、用戶識(shí)別進(jìn)行闡述。Web日志分析可進(jìn)行時(shí)段分析,統(tǒng)計(jì)出一天中哪些時(shí)段、每周哪天、每月哪天甚至每年哪個(gè)時(shí)段的訪問人數(shù)及具體停留時(shí)間,進(jìn)而分析出訪問人群的上網(wǎng)習(xí)慣等相關(guān)信息;可進(jìn)行來源統(tǒng)計(jì),統(tǒng)計(jì)出用戶到達(dá)目標(biāo)網(wǎng)頁所經(jīng)過的路徑,幫助管理者修改、縮短訪問路徑,提高訪問效率;可進(jìn)行客戶端分析,網(wǎng)站設(shè)計(jì)者可根據(jù)統(tǒng)計(jì)出的訪問群瀏覽器和操作系統(tǒng)使用情況,有針對(duì)性地對(duì)某種瀏覽器或操作系統(tǒng)進(jìn)行開發(fā);可進(jìn)行受訪頁分析,統(tǒng)計(jì)第一個(gè)被訪問的網(wǎng)頁和最后離開網(wǎng)站的網(wǎng)頁,分析通常訪問者從哪個(gè)頁面進(jìn)入網(wǎng)站,從哪個(gè)頁面退出網(wǎng)站,設(shè)計(jì)者可通過這些數(shù)據(jù)改善網(wǎng)站結(jié)構(gòu)。

Web日志挖掘是Web挖掘領(lǐng)域一個(gè)重要的研究方向。它對(duì)于發(fā)現(xiàn)用戶瀏覽網(wǎng)站的行為規(guī)律,改善頁面之間的超鏈接結(jié)構(gòu),提高整個(gè)Web系統(tǒng)性能等方面都具有十分重要的意義。

[1] Pitkow J.Insearch of reliable usage data on the WWW[C].In:Proc of 6th Int’T WorldWideWeb Conf.SantaClara.California,1997.

[2] 王麗娜.Web日志挖掘的研究和實(shí)現(xiàn)[C].鄭州大學(xué),2005.

[3] 童恒慶,梅清.Web日志挖掘數(shù)據(jù)預(yù)處理研究.現(xiàn)代計(jì)算機(jī):專業(yè)版,2004(3).

[4] 夏成文,韓堅(jiān)華,梁乘銘.Web日志挖掘數(shù)據(jù)預(yù)處理研究.微型電腦應(yīng)用,2007(10).

[5] Doru Tanasa,Brigitte Trousse.Advanced Data Preprocessing for Intersites Web Usage Mining[J].IEEE Intelligent Systems,March/April 2004:59-65.

[6] 趙紅玲,宋瀚濤.Web日志挖掘中數(shù)據(jù)預(yù)處理的研究[J].計(jì)算機(jī)應(yīng)用研究,2004.

猜你喜歡
頁面數(shù)據(jù)挖掘用戶
大狗熊在睡覺
刷新生活的頁面
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何獲取一億海外用戶
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 色综合婷婷| 国产精品一区二区在线播放| 国产亚洲一区二区三区在线| 青草国产在线视频| 欧美亚洲日韩中文| 在线五月婷婷| 成人在线不卡| 99久久精品无码专区免费| 国产视频a| 毛片在线看网站| 大香网伊人久久综合网2020| 日本欧美精品| 在线国产资源| 成人亚洲天堂| 2020最新国产精品视频| 国产精品无码制服丝袜| 色窝窝免费一区二区三区| 色欲色欲久久综合网| 97亚洲色综久久精品| 四虎在线观看视频高清无码 | 色网在线视频| 国产va欧美va在线观看| 波多野结衣无码AV在线| 精品人妻AV区| 4虎影视国产在线观看精品| 伊人久久大香线蕉aⅴ色| 天天综合网在线| 亚洲伊人久久精品影院| 亚洲日韩精品无码专区97| 欧美高清三区| 亚洲欧美日韩色图| 色婷婷成人网| 一个色综合久久| 国产福利小视频高清在线观看| 青青热久免费精品视频6| 伦伦影院精品一区| 欧美中文字幕在线二区| 国产成人一区二区| 少妇露出福利视频| 91久久国产热精品免费| 久久香蕉国产线看观看精品蕉| 国产精品专区第一页在线观看| 久久精品人人做人人爽电影蜜月 | 欧美啪啪视频免码| 国产成人h在线观看网站站| 亚洲综合九九| 综合色88| 久久精品66| 久久精品最新免费国产成人| 亚洲人成在线免费观看| 久久99国产视频| 伊人久久青草青青综合| 国产精品欧美在线观看| 免费无码又爽又刺激高| 日韩第一页在线| 国产爽爽视频| 91久久性奴调教国产免费| 免费jizz在线播放| 亚洲无码视频一区二区三区| 久久亚洲国产最新网站| 狼友视频国产精品首页| 欧美午夜网| 久久久久人妻一区精品| 91无码网站| 狠狠五月天中文字幕| 日本精品影院| 91探花在线观看国产最新| 欧美专区在线观看| 91香蕉视频下载网站| 亚洲视频免费在线看| 婷婷六月激情综合一区| 精品国产91爱| 另类欧美日韩| 欧美精品亚洲精品日韩专区| 香蕉视频国产精品人| 特级精品毛片免费观看| 国产精品人成在线播放| 欧美日韩国产系列在线观看| 日本www在线视频| 国产视频大全| 久久先锋资源| 91久久青青草原精品国产|