999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

點擊流分析在教務管理系統中的應用

2011-06-07 08:05:44鄒麗新
通化師范學院學報 2011年12期
關鍵詞:頁面用戶

鄒麗新

(福建江夏學院 電子信息科學系,福建 福州 350108)

用戶點擊網站每天都會產生大量的數據,這些數據被稱作點擊流數據.點擊流,顧名思義,就是訪問者在網上的持續的訪問軌跡.它從各方面詳盡地反映出用戶訪問Web的細節,其中包含很多潛在的非常有用的信息,例如,客戶的行為和客戶的興趣等.通過對其深入分析,能更深刻地理解用戶行為,也有利于明確數據挖掘的任務,改善網頁設計和提供決策支持等.

1 點擊流數據源

本文所研究的點擊流數據為學校Web服務器上的日志文件.現在有3種公開的標準日志文件格式用來記錄日志文件.這3種開放格式是:NCSA的普通日志格式CLF(common log format);NCSA的擴展日志格式ECLF(extendedcommon log format)和W3C的擴展日志文件ExLF(extended logfile format).其中,ExLF是唯一一種能夠定制那些特殊的域并寫入日志的標準化日志格式.而且它還提供更詳細的可選域的集合.所以這種格式也比較適合于研究點擊流數據.本文采用對ExLF格式進行域擴展來獲得學生點擊行為的數據.ExLF的域很多,表1僅列出與本文的分析主題相關而所需的日志格式的域:

下文對教務網站服務器上的一條日志進行直觀的分析:

#Software:Microsoft Internet Information Services 6.0

#Version:1.0

#Date:2008-05-16 16:00:01

#Fields:date time cs-method cs-uri-stem cs-uri-query cs-username c-ip cs(User-Agent)cs(Referer)sc-statustime-taken

2008-05-16 16:00:05 GET /WebCourse/courseelective/schoolelectivepublic.aspx--

192.168.6.43

Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+6.0;+SLCC1;+.NET+CLR+2.0.50727;+.NET+CLR+3.0.04506;+InfoPath.1;+.NET+CLR+1.1.4322)

http://10.4.12.13/webcourse/login.aspx 200 330

表1 W3C擴展日志格式的部分域描述[1]

該例子中有四條指令,前三條說明該網站的Web服務器采用微軟IIS6.0;日志版本使用1.0的ExLF格式;日志文件產生的時間是2008年5月16日16點00分01秒.第四條指令說明日志文件包含的域有date、time、cs-method、cs-uri-stem、cs-uri-query、cs-username、c-ip、cs(User-Agent)、cs(Referer)、sc-status、time-taken,其中域前綴c-表示客戶端,cs-表示客戶端到服務器端,sc-表示服務器端到客戶端.

日志文件的數據記錄的第一行說明,用戶訪問時間是2008年5月16日,16點00分01秒,客戶請求命令的方式為GET,客戶請求的資源是/WebCourse/courseelective/schoolelectivepublic.aspx,查詢為空,訪客用戶名為空(由于通常用戶沒有進行注冊,故用‘-’符號表示日志中為空的域),客戶IP地址是192.168.6.43,訪客所用的操作系統為Windows NT 6.0,瀏覽器類型為微軟IE7.0,瀏覽本網頁前訪客訪問的是http://10.4.12.13/webcourse/login.aspx,HTTP狀態碼為200,請求完成的時間為330秒.

2 數據預處理模塊

點擊流數據的預處理技術關系著數據挖掘的質量,是Web數據挖掘中的一個重要的研究方向.其預處理過程一般包括:數據清洗、數據轉換、用戶識別、用戶會話識別、補全路徑和事務識別等.

實驗數據集:在現實的應用中所涉及的數據應該是幾個月、季度甚至幾年的龐大數據,本文僅選用某高校教務管理系統服務器上一天的日志文件,記錄了從2008-01-02:16:00至2008-01-03:16:00,即24個小時的點擊信息,用來直觀說明如何從這些點擊流數據中挖掘出學生的訪問模式和網站的統計分析.

2.1數據清洗

Web日志的清洗工作在很多文獻都有討論[2-3].數據清洗就是要濾掉多余的記錄,合并相關數據并從數據集中清除不恰當的或冗余的數據項.本文采用的方法是除去URL中包含后綴為gif,GIF,jpeg,JPEG,jpg,JPG,map,swf,css等與我們分析主題無關的圖形、圖像、聲音文件的日志記錄以及刪除請求被重定向和標識存在錯誤的記錄,本文中只取狀態碼以2開頭的成功訪問的記錄.

所選用的日志數據集原始數據共有132497條,根據url字段后綴以及status字段值進行數據清洗后剩余58673條記錄,約為原始記錄總數的44.28%,所得到的表記為tempclickfact.

2.2數據轉換

為便于數據的進一步處理,需確定適當的數據表示形式,為此本文對日志記錄中的訪問頁url進行編號.采用的方法是利用SQL語句:select distict cs-uri-stem from WebLog,從已經數據清洗過的日志表WebLog中選出用戶訪問過的不同的URL,然后根據網站數據庫中的頁面維表分別給出頁面編號urlid.

通過數據轉換,統計出數據集中共有121個不同的頁面即url,在處理過程中也統計出各個頁面對應的訪問次數num.從結果可以看出,urlid為58的頁面在該時間段內的點擊量為9876次,為訪問次數最多的頁面.

2.3用戶識別

由于本地緩存、代理服務器和防火墻的存在,導致Web日志無法精確記錄用戶的瀏覽行為,也是用戶識別的困難所在.為了更準確地確定用戶,利用結合IP地址和日志中的啟發式信息對用戶及用戶訪問事務進行識別.例如,對于IP地址相同的日志記錄,可以觀察日志記錄中主機代理cs(user-agent)這個字段,這個字段記錄了訪問者使用的瀏覽器或操作系統的版本.如果該字段所記錄的瀏覽器或操作系統不一樣,那么就可以假設是不同的用戶使用了同樣的IP地址.

用戶識別后得到1464用戶,根據所得到的users表以及url表,進一步對表tempclickfact進行處理,得到表clickfact,即點擊事實表,部分數據如圖1所示,其中字段clickid為點擊編號.

圖1 clickfact表

2.4用戶會話識別

本文采用基于時間的啟發式方法進行會話識別,即同一用戶依次發出相鄰的頁面請求之間的時間間隔如不超過時間閾值,那么這兩個頁面請求屬于同一個會話.如果一個用戶的日志記錄跨度超過時間閥值,那么可以猜測,該用戶多次訪問了該網站.本文將時間閥值設定為20分鐘,時限的選擇可以通過日志的統計分析來確定.當判斷不屬于同一個會話時,在數據庫表中添加一個域會話編號sessionid,用于存儲進行識別后的會話標識.通過用戶會話識別,得到2062個會話,在圖2 sessionfact中,其中字段surlid表示會話入口頁面編號,字段furlid表示會話結束頁面編號,字段lasttime為會話的持續時間,sessionid為會話編號.

圖2 sessionfact表

經過上述四個步驟的數據預處理后,按照Raphl Kimball在《數據倉庫工具箱》中提出的維度建模方法指導設計數據倉庫,分三個步驟逐步建立點擊流數據倉庫.

3 基于分析主題的挖掘與結果展示

在點擊流數據倉庫建成后,希望通過OLAP分析和數據挖掘了解網站的運行情況和對用戶的行為進行深入分析.因此建立的點擊流數據倉庫應支持網站流量統計,實現用戶行為分析這兩個目標(分析主題).本文通過在所建立的數據立方體結構中,利用多維擴展語言(MDX)分析數據和借助OLAP對數據立方體進行切片、切塊、下鉆、上卷及旋轉等操作.

為了給網站管理員、網站運營商提供更全面的統計信息及用戶行為模式,本實驗中通過圖表、透視圖等直觀的方式展示分析結果.

3.1統計分析

(1)某時段網站的總點擊量.該網站在2008-01-02:16:00至2008-01-03:16:00時段的總點擊量為58673次.

圖3顯示各個頁面每天的點擊次數,圖中以urlid為x軸,date為y軸,clickid的計數為z軸,urlid表示頁面編號,date表示日期,clickid表示點擊編號.從圖中可以很明顯看出各個頁面的訪問情況,比如在2008-01-02,urlid為46的頁面被訪問971次,為訪問最頻繁的頁面.在實際應用中,可以以年、月等為y軸,反映出較長一段時間內的訪問情況.

圖3 各網頁訪問頻率透視圖

(2)某時段網站的總訪問人次.該網站在2008-01-02:16:00至2008-01-03:16:00時段內的總訪問人次為2062人次.圖4顯示按時段會話次數,即訪問人次進行統計.從中可以看出8時到11時以及13時到14時為訪問人次比較多的時段.

圖4 各時段訪問人次透視圖

(3)訪問最頻繁與訪問量最少的頁面.在數據轉換中我們得到的表中,可得出urlid為58的頁面總共有9876次,為訪問最頻繁的頁面.

通過Analysis Servcies MDX查詢統計出總訪問量為前三名的頁面:

Select

Topcount([url].[All].children,3,[measures].[urlid])on columns,

[measures].[urlid] on rows

From click_cube

與上同理,統計出urlid為120的頁面在實驗時段內總訪問次數為2次,為訪問量最少的頁面.

(4)某時段訪問網站的總時間.通過SQL語句對表sessionfact進行簡單運算,可以得到在實驗數據集的時段內,總訪問時間為592757秒,約164.64小時,平均訪問持續時間為287秒.

3.2用戶行為分析

(1)用戶喜歡從哪個頁面開始訪問網站.通過MDX查詢可以得到1595次的會話在surlid為60的頁面開始會話.

通過OLAP分析,得到從urlid為60~70的頁面開始的會話有1668次,約占總會話次數(2062次)的81%.由此,可以給我們發布一些重要通知時選擇哪個網頁提供決策支持.

(2)用戶一般在哪個頁面結束了訪問.同上,通過MDX查詢可以得到541次的會話在furlid為93的頁面結束會話,480次的會話在furlid為66的頁面結束會話.其中在furlid為57~67的頁面結束的會話有748次,在furlid為90~100的頁面結束的會話有637次,總計約占總會話次數的67.2%.由此,可以考慮是這些網頁設計存在缺陷還是是學生已經達到訪問的目的離開了本網站.

(3)平均訪問時間.圖5展示了會話持續時間分布圖,從圖中可以很直觀發現有1003次的會話,其會話持續時間在0~119S;285次的會話,其會話持續時間落在120~239S.對于網站來說,通過會話長度可以判斷出用戶對該網站的興趣程度,幫助網站的進一步改善.

圖5 會話持續時間分布圖

圖6 會話開始時間分布圖

(4)用戶一般喜歡在哪個時間段訪問該網站.通過圖6可以很直觀看出在各時間段的訪問人次比例,其中在2008-1-3的08:42~11:05開始的會話所占比例為20%,相對而言為訪問人次最多的時間段.圖中,stime表示會話開始的時間,數值為相應的時間段內的會話總數(訪問人次數),百分比為對應時間段內的訪問人次數占總時間內的訪問人次的百分比.

4 小結

本文引入了數據倉庫技術和數據挖掘技術對教務管理網站的web日志進行挖掘,實現了網站的統計分析和用戶行為分析,獲取了潛在的有用信息.高校可以通過對這些信息數據進行深層次分析,了解網站的經營狀況、了解用戶行為,讓學校網站更好地為全校師生服務.

參考文獻:

[1]Mark Sweiger Jimmy Langston.點擊流數據倉庫[M].陸昌輝,譯.北京:電子工業出版社,2004.

[2]李雙雙,陳毅文.點擊流:一種研究網上消費者的新范式[J].心理科學進展,2007,15(4):715-720.

[3]張波,巫莉莉,周敏.基于Web使用挖掘的用戶行為分析[J].計算機科學,2006,33(8).

猜你喜歡
頁面用戶
微信群聊總是找不到,打開這個開關就好了
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 老司国产精品视频91| 国产精品成人啪精品视频| 中国国产A一级毛片| 亚洲国产理论片在线播放| 尤物在线观看乱码| 亚洲精品无码日韩国产不卡| 日本伊人色综合网| 亚洲欧美日韩精品专区| 最新精品国偷自产在线| 欧美黄网在线| 亚洲美女久久| 99热国产这里只有精品9九| 亚洲精品国产成人7777| 国产主播喷水| 亚洲精品大秀视频| 久久婷婷六月| 99精品一区二区免费视频| 日本免费福利视频| 国产精品天干天干在线观看| 国内精品视频在线| 欧美综合区自拍亚洲综合天堂| 亚洲成a人片| 日本手机在线视频| 国产日韩欧美精品区性色| 为你提供最新久久精品久久综合| 福利视频一区| yjizz国产在线视频网| 久久99国产精品成人欧美| 成色7777精品在线| 波多野衣结在线精品二区| 国产精品三级av及在线观看| 午夜激情婷婷| 一本大道无码日韩精品影视| 日本午夜影院| 一级毛片中文字幕| 国产免费人成视频网| 91精品啪在线观看国产60岁| 欧美日本激情| 国产精品手机在线观看你懂的| 亚洲AV电影不卡在线观看| 久草性视频| 欧美a在线看| 国产jizz| 亚洲国产高清精品线久久| 久久国产精品电影| 制服丝袜无码每日更新| 日韩国产综合精选| 亚洲浓毛av| 国产一区二区三区免费观看| 成人中文在线| 成人va亚洲va欧美天堂| 国产欧美综合在线观看第七页| 亚洲欧洲日韩综合色天使| 欧美精品xx| 国产主播喷水| 中美日韩在线网免费毛片视频| 无码免费试看| 亚洲男女在线| 四虎永久在线视频| 国产男人的天堂| 欧美特级AAAAAA视频免费观看| 国产女人在线观看| 人妻出轨无码中文一区二区| 国产哺乳奶水91在线播放| 免费看黄片一区二区三区| 午夜不卡福利| 青青草一区二区免费精品| a级高清毛片| 久久精品女人天堂aaa| 99re热精品视频中文字幕不卡| 久久夜色撩人精品国产| 成人蜜桃网| 澳门av无码| 一级毛片在线免费视频| 亚洲AV无码久久精品色欲| 亚洲h视频在线| 亚洲免费三区| 久久精品国产精品国产一区| 国产精品一区不卡| 国产乱子伦视频三区| 国产精品七七在线播放| 国产第一页亚洲|