999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘的研究

2019-02-13 15:37:01黃良劍
數字通信世界 2019年3期
關鍵詞:頁面數據挖掘用戶

袁 偉,黃良劍

(江蘇省建筑工程質量檢測中心有限公司,南京 210028)

1 引言

隨著信息時代的來臨,網絡迅速發展,互聯網漸漸成為人們獲取信息的重要渠道,Web站點遍及人生活中的各個領域,如:科技、教育、電子商務等等。Web站點給人們帶來了大量有價值的信息和非常大的便利,同時也留下很多訪問數據;與此同時,隨著Internet的廣泛被使用,人們對于Web站點的要求也是越來越高,如何從眾多的Web訪問數據中知曉用戶的瀏覽目的,以提升網站的性能,更好地為用戶提供個性化服務,成為了計算機網絡領域的一個重要課題。Web數據挖掘[1]就是為解決以上需求而生的數據處理技術。

Web數據挖掘是數據挖掘在Web上的應用。Web挖掘主要分為三類:Web內容挖掘、Web結構挖掘和Web日志挖掘。作為Web數據挖掘一個重要分支的Web日志挖掘[2]也是備受關注。Web日志挖掘從用戶大量的Web訪問記錄中,挖掘到用戶訪問頁面的情況、網站的頻繁使用情況等很多有益的信息,這不僅能幫助網站管理者從中獲取Web站點的用戶訪問情況和Web站點的使用情況,還能為Web站點的結構優化提供數據支持,以便更好地為用戶提供服務等。

2 數據預處理

對數據預處理是保證挖掘結果準確性的重要前提。預處理的目的就是要清除不一致的“臟”數據,留下正確、完整、干凈的數據。據統計,數據預處理[3]在挖掘過程中,所耗費的時間和成本達到60%至80%左右。數據預處理過程包括數據清理、用戶識別、會話識別等。

2.1 數據清理

數據清理是指基于當前挖掘任務,清除Web日志文件中與挖掘任務不相干的數據。數據清理通常包括以下幾個方面:

(1)圖片,腳本和樣式:通常來說,以html結尾的日志瀏覽記錄才是用戶的訪問目的,所以刪除后綴為js、png、ico、css、jpg等日志記錄;

(2)HTTP請求方法:常見的有GET、POST、HEAD,用戶的主觀訪問行為以GET請求方法呈現,所以要刪除POST以及HEAD請求方法的日志記錄,保留GET方法的請求日志記錄;

(3)用戶訪問失敗:一般情況下,返回代碼為200代表用戶訪問網站成功,但也有訪問失敗的時候,這時返回的代碼一般為404(頁面丟失)、500(內部錯誤信息)等,只需保留正確的訪問記錄,刪除訪問失敗的記錄;

(4)彈出式廣告:用戶打開網頁時自動彈出,不能反映用戶主觀訪問意圖,所以應當刪除;

(5)Web Robots:一般叫網絡爬蟲,它會根據一定規則自動抓取頁面。由于網絡爬蟲沒有目的性,并不是用戶主動的訪問意圖,因此要刪除。

2.2 用戶識別

用戶識別是指從Web日志中分辨出每一條記錄相對應的用戶。由于本地緩存、防火墻等因素存在,使得精準的識別出用戶變得十分困難。通過識別注冊用戶、cookie等方法能提高識別的準確度,但涉及到用戶隱私,并且考慮獲取數據的難易度,大多數情況下運用啟發式規則識別用戶:

(1)不同IP地址代表不同用戶。

(2)如果IP地址相同,但用戶的瀏覽器或操作系統不同,可認為是不同用戶。

(3)如果IP地址、用戶瀏覽器和操作系統都相同,則根據引用頁判斷,若引用頁為空,代表不同用戶。

2.3 會話識別

用戶在進入站點到離開的期間所產生的全部瀏覽請求視為一次會話。同一個用戶可能在相隔時間較長的Web服務器日志中多次訪問了同一個站點,會話識別的任務便是識別出同一個用戶所對應的同一次訪問請求。會話識別的常用方法有3種:

(1)超時(Timeout)方法。J.Pitkow研究表明,當同一用戶在同一頁面停留超過25.5分鐘,就可視為同一用戶的不同會話,目前一般選擇30分鐘作為判斷標準。

(2)序列長度法。該方法由Cooley等人提出,用來識別事務會話。經研究表明,用戶瀏覽頁面時通常經過過渡頁面進入內容頁面,且用戶停在內容頁面比過渡頁面的時間長。若已知內容頁面和過渡頁面的合集,順序讀取Web日志記錄時,一旦讀取到內容頁面,就意味著找到了會話的邊界。

3 結論

本文介紹了Web數據挖掘的背景,Web日志挖掘的相關概念,以及Web日志數據的預處理,包括數據清理、用戶識別和會話識別。未來的研究針對預處理之后的Web日志數據進行挖掘,通過數據挖掘的算法,比如關聯規則算法中的Apriori算法,決策樹算法,神經元網絡算法等。

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 亚洲伦理一区二区| 一本久道久综合久久鬼色| 亚洲av无码久久无遮挡| 欧美精品亚洲二区| 国产精品自在在线午夜| 久久亚洲国产视频| www.av男人.com| 九九线精品视频在线观看| 中文毛片无遮挡播放免费| 欧美黄网在线| 国产亚洲视频播放9000| 欧美另类第一页| 国产第一色| 精品国产免费观看| 色欲不卡无码一区二区| 国产精品视频导航| 免费99精品国产自在现线| 精品成人免费自拍视频| 欧美成人综合在线| 亚洲国产精品一区二区高清无码久久| 国产欧美一区二区三区视频在线观看| 2021无码专区人妻系列日韩| 日本欧美视频在线观看| 欧美亚洲欧美区| 亚洲成人在线网| 国产簧片免费在线播放| 2018日日摸夜夜添狠狠躁| 操国产美女| 国内精品自在欧美一区| 一级福利视频| 色婷婷狠狠干| AV无码无在线观看免费| 中文字幕中文字字幕码一二区| аⅴ资源中文在线天堂| 成人在线综合| 十八禁美女裸体网站| 99久久人妻精品免费二区| 91小视频在线观看| 真人免费一级毛片一区二区| 国产精品天干天干在线观看| 天天视频在线91频| 欧美日韩在线亚洲国产人| 伊人久久青草青青综合| 国产激爽大片在线播放| 久久人体视频| 在线日本国产成人免费的| 色爽网免费视频| 欧美精品综合视频一区二区| 2021精品国产自在现线看| 婷婷色一区二区三区| 久久99精品久久久大学生| 欧美在线一二区| 国产国模一区二区三区四区| 亚洲国产91人成在线| 亚洲天堂网在线播放| 国产一区二区网站| 亚洲一级无毛片无码在线免费视频| 久久鸭综合久久国产| 91外围女在线观看| 91网站国产| 熟妇人妻无乱码中文字幕真矢织江| 啪啪国产视频| 97久久免费视频| 欧美精品另类| 一区二区三区高清视频国产女人| 在线播放真实国产乱子伦| 不卡视频国产| 亚洲一区二区无码视频| 伊人久久婷婷| 在线无码av一区二区三区| 狠狠做深爱婷婷久久一区| 伊人91在线| 性色生活片在线观看| 在线观看av永久| 四虎精品国产永久在线观看| 91久久偷偷做嫩草影院电| 亚洲色图在线观看| 国产在线97| 久久美女精品| 成人福利在线看| 欧美中文字幕在线二区| jizz亚洲高清在线观看|