999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘的研究

2019-02-13 15:37:01黃良劍
數(shù)字通信世界 2019年3期
關鍵詞:頁面數(shù)據(jù)挖掘用戶

袁 偉,黃良劍

(江蘇省建筑工程質量檢測中心有限公司,南京 210028)

1 引言

隨著信息時代的來臨,網(wǎng)絡迅速發(fā)展,互聯(lián)網(wǎng)漸漸成為人們獲取信息的重要渠道,Web站點遍及人生活中的各個領域,如:科技、教育、電子商務等等。Web站點給人們帶來了大量有價值的信息和非常大的便利,同時也留下很多訪問數(shù)據(jù);與此同時,隨著Internet的廣泛被使用,人們對于Web站點的要求也是越來越高,如何從眾多的Web訪問數(shù)據(jù)中知曉用戶的瀏覽目的,以提升網(wǎng)站的性能,更好地為用戶提供個性化服務,成為了計算機網(wǎng)絡領域的一個重要課題。Web數(shù)據(jù)挖掘[1]就是為解決以上需求而生的數(shù)據(jù)處理技術。

Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在Web上的應用。Web挖掘主要分為三類:Web內(nèi)容挖掘、Web結構挖掘和Web日志挖掘。作為Web數(shù)據(jù)挖掘一個重要分支的Web日志挖掘[2]也是備受關注。Web日志挖掘從用戶大量的Web訪問記錄中,挖掘到用戶訪問頁面的情況、網(wǎng)站的頻繁使用情況等很多有益的信息,這不僅能幫助網(wǎng)站管理者從中獲取Web站點的用戶訪問情況和Web站點的使用情況,還能為Web站點的結構優(yōu)化提供數(shù)據(jù)支持,以便更好地為用戶提供服務等。

2 數(shù)據(jù)預處理

對數(shù)據(jù)預處理是保證挖掘結果準確性的重要前提。預處理的目的就是要清除不一致的“臟”數(shù)據(jù),留下正確、完整、干凈的數(shù)據(jù)。據(jù)統(tǒng)計,數(shù)據(jù)預處理[3]在挖掘過程中,所耗費的時間和成本達到60%至80%左右。數(shù)據(jù)預處理過程包括數(shù)據(jù)清理、用戶識別、會話識別等。

2.1 數(shù)據(jù)清理

數(shù)據(jù)清理是指基于當前挖掘任務,清除Web日志文件中與挖掘任務不相干的數(shù)據(jù)。數(shù)據(jù)清理通常包括以下幾個方面:

(1)圖片,腳本和樣式:通常來說,以html結尾的日志瀏覽記錄才是用戶的訪問目的,所以刪除后綴為js、png、ico、css、jpg等日志記錄;

(2)HTTP請求方法:常見的有GET、POST、HEAD,用戶的主觀訪問行為以GET請求方法呈現(xiàn),所以要刪除POST以及HEAD請求方法的日志記錄,保留GET方法的請求日志記錄;

(3)用戶訪問失敗:一般情況下,返回代碼為200代表用戶訪問網(wǎng)站成功,但也有訪問失敗的時候,這時返回的代碼一般為404(頁面丟失)、500(內(nèi)部錯誤信息)等,只需保留正確的訪問記錄,刪除訪問失敗的記錄;

(4)彈出式廣告:用戶打開網(wǎng)頁時自動彈出,不能反映用戶主觀訪問意圖,所以應當刪除;

(5)Web Robots:一般叫網(wǎng)絡爬蟲,它會根據(jù)一定規(guī)則自動抓取頁面。由于網(wǎng)絡爬蟲沒有目的性,并不是用戶主動的訪問意圖,因此要刪除。

2.2 用戶識別

用戶識別是指從Web日志中分辨出每一條記錄相對應的用戶。由于本地緩存、防火墻等因素存在,使得精準的識別出用戶變得十分困難。通過識別注冊用戶、cookie等方法能提高識別的準確度,但涉及到用戶隱私,并且考慮獲取數(shù)據(jù)的難易度,大多數(shù)情況下運用啟發(fā)式規(guī)則識別用戶:

(1)不同IP地址代表不同用戶。

(2)如果IP地址相同,但用戶的瀏覽器或操作系統(tǒng)不同,可認為是不同用戶。

(3)如果IP地址、用戶瀏覽器和操作系統(tǒng)都相同,則根據(jù)引用頁判斷,若引用頁為空,代表不同用戶。

2.3 會話識別

用戶在進入站點到離開的期間所產(chǎn)生的全部瀏覽請求視為一次會話。同一個用戶可能在相隔時間較長的Web服務器日志中多次訪問了同一個站點,會話識別的任務便是識別出同一個用戶所對應的同一次訪問請求。會話識別的常用方法有3種:

(1)超時(Timeout)方法。J.Pitkow研究表明,當同一用戶在同一頁面停留超過25.5分鐘,就可視為同一用戶的不同會話,目前一般選擇30分鐘作為判斷標準。

(2)序列長度法。該方法由Cooley等人提出,用來識別事務會話。經(jīng)研究表明,用戶瀏覽頁面時通常經(jīng)過過渡頁面進入內(nèi)容頁面,且用戶停在內(nèi)容頁面比過渡頁面的時間長。若已知內(nèi)容頁面和過渡頁面的合集,順序讀取Web日志記錄時,一旦讀取到內(nèi)容頁面,就意味著找到了會話的邊界。

3 結論

本文介紹了Web數(shù)據(jù)挖掘的背景,Web日志挖掘的相關概念,以及Web日志數(shù)據(jù)的預處理,包括數(shù)據(jù)清理、用戶識別和會話識別。未來的研究針對預處理之后的Web日志數(shù)據(jù)進行挖掘,通過數(shù)據(jù)挖掘的算法,比如關聯(lián)規(guī)則算法中的Apriori算法,決策樹算法,神經(jīng)元網(wǎng)絡算法等。

猜你喜歡
頁面數(shù)據(jù)挖掘用戶
大狗熊在睡覺
刷新生活的頁面
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
如何獲取一億海外用戶
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 亚洲欧洲免费视频| 九九九精品成人免费视频7| 国产AV毛片| 国产精品网址在线观看你懂的| 国产91线观看| 色综合成人| 亚洲黄色成人| 2022精品国偷自产免费观看| 99热国产这里只有精品9九| 5388国产亚洲欧美在线观看| 国产香蕉一区二区在线网站| 亚洲国产亚综合在线区| 97亚洲色综久久精品| 日韩av手机在线| 国产色伊人| 99激情网| 四虎永久免费地址| 无码精油按摩潮喷在线播放| 久久77777| 国产一在线观看| 亚洲三级a| 成人精品午夜福利在线播放| 美女亚洲一区| 国产小视频网站| 91麻豆久久久| 国产国语一级毛片| 日韩美毛片| 97se亚洲综合在线| 国产在线观看精品| 中国国产A一级毛片| 欧美性久久久久| A级毛片无码久久精品免费| 中文字幕佐山爱一区二区免费| 国产精品太粉嫩高中在线观看| 2020精品极品国产色在线观看| 日韩精品少妇无码受不了| 国产第八页| 欧美a在线视频| 97亚洲色综久久精品| 久久大香伊蕉在人线观看热2| 91精品伊人久久大香线蕉| 波多野结衣一区二区三区四区| 中文字幕人成乱码熟女免费| 福利视频一区| 在线免费亚洲无码视频| 亚洲天堂.com| 91极品美女高潮叫床在线观看| 亚洲天堂.com| 九九九久久国产精品| 国产爽妇精品| 一级毛片在线播放免费观看 | 日韩毛片免费视频| 亚洲第一页在线观看| 久久香蕉国产线看精品| 亚洲成a人片77777在线播放| 午夜欧美理论2019理论| 2021亚洲精品不卡a| 欧美性久久久久| 亚洲美女久久| 手机看片1024久久精品你懂的| 毛片在线播放网址| 欧美日韩午夜| 精品1区2区3区| 久久中文无码精品| 狠狠v日韩v欧美v| 亚洲资源站av无码网址| 国产在线麻豆波多野结衣| 国产日韩欧美在线播放| 日韩激情成人| 久久综合婷婷| 视频一区亚洲| 2048国产精品原创综合在线| 国产亚洲视频免费播放| 成人免费一级片| 扒开粉嫩的小缝隙喷白浆视频| 青青青视频91在线 | 国产精品入口麻豆| 久久精品丝袜| 精品福利国产| 久久亚洲国产视频| 久久国产精品77777| 白浆免费视频国产精品视频|