999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘數據預處理的研究

2009-10-26 09:35:10馬世軍
新媒體研究 2009年13期
關鍵詞:頁面數據挖掘用戶

姚 建 馬世軍 喬 文

[摘要]Web日志挖掘技術是Web數據挖掘中最重要的應用。通過對挖掘服務器日志文件的分析和研究,可以對網站的組織結構及其性能進行改進,增加個性化服務,發現潛在的讀者群體。數據預處理關系到Web日志挖掘的質量。數據預處理包括數據清理、用戶識別、會話識別、路徑補充、格式化數據。

[關鍵詞]數據挖掘Web日志挖掘數據預處理

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0710035-01

一、引言

目前,基于Web日志的數據挖掘研究大致分為3類:以分析系統性能為目標,以改進系統設計為目標,以理解用戶意圖為目標。Web日志挖掘主要分為3個步驟:

1.數據預處理。根據挖掘的目的,對原始Web日志文件中的數據進行提取,分解,合并,最后轉換為適合進行數據挖掘的數據格式,并保存到關系型數據庫表或數據倉庫中,等待進一步處理。

2.模式識別。運用各種算法對處理后的數據進行挖掘,生成模式。

3.模式分析。進行用戶訪問模式的分析,從而將有價值的模式提取出來。數據預處理這個環節是整個過程的基礎和實施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。他是從大量的數據屬性中提取出對目標有重要影響的屬性來降低原始數據的維數,或者是處理一些不好的數據,從而改善實例數據的質量和提高數據挖掘的速度。

二、Web日志文件

Web日志文件是Web服務器上用以記錄用戶訪問頁面情況的文件。日志記錄最主要的記錄了什么人在什么時候瀏覽了哪些內容、網站的流量和訪問者信息等。不同Web服務器產品的日志記錄格式不同,但通常日志文件都包括訪問者IP或者域名、瀏覽器類型、操作系統訪問時間、訪問方式(GET/POST)、訪問頁面協議、錯誤代碼以及傳輸的字節數等信息。

表2.1訪問日志、引用日志、代理日志的例子

訪問日志一般包括:IP地址、請求時間、方法(如GET,POST)、被請求文件的URL、HTTP版本號、返回碼、傳輸字節數。表2.1的訪問日志表示從IP地址為202.117.1.2來的用戶請求傳輸文件resource.html,使用的傳輸協議是HTTP1.1。用戶也許并沒有登錄在IP地址為202.117.1.2的機器上,可能只是把這臺機器當作代理服務器或網關。本次請求成功傳輸782字節,200為返回碼。

引用日志記錄了用戶發出當前請求時所在頁面的URL,表2.1的引用日志表示用戶當前請求頁面“resource.html”,用戶發出這個請求是通過點擊http://cjc.lytu.edu.cn/flink/left.htm頁面上的某個超鏈接或者瀏覽器自動下載這個頁面所包含的附屬文件。

代理日志記錄用戶使用的操作系統以及瀏覽器類型引用日志。表2.1的代理日志表示客戶端的操作系統為WindowsNT,瀏覽器為微軟的IE5.01。

三、Web日志數據預處理過程

由于日志記錄和HTTP協議的自身原因,日志數據是雜亂的,Web日志預處理是在Web日志挖掘前,對Web日志所記錄的數據進行清理、過濾以及重新組合的過程。Web日志預處理的目的是剔除日志中對挖掘過程無用的屬性及數據,并將Web日志數據轉換為挖掘算法可識別的保存形式。

1.數據清理。數據預處理的首要任務就是數據清理。數據清理就是去掉Web日志中一些不能反映用戶行為的記錄,Web日志挖掘的目的是獲得用戶的行為模式,并不關心那些用戶沒有直接請求的文件。只有當服務器日志表示的數據能夠準確的反映用戶訪問Web站點的情況時,經過挖掘得到的模式規則才是真正有用的。

2.用戶識別。接下來,唯一的用戶必須被標識出來,也就是說要識別出來具體的用戶。這一任務因為本地緩存、公司防火墻和代理服務器的存在變得復雜。依賴用戶的合作是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進行。一般最常被Web日志挖掘工具使用的技術就是基于日志/站點的方法,并輔助一些啟發式規則幫助識別用戶。

3.會話識別。對于上一步標識出的用戶所有的訪問序列,它們可能超越了很長的時間段,因此可能用戶在這個時間段內不止一次訪問了該網站。會話識別的目的就是將用戶的所有訪問序列分成多個單獨的用戶一次訪問序列。為了獲得這個劃分,一個最簡單的方法就是定義一個時間段,如果用戶請求的相鄰的任意兩個頁面之間的訪問時間間隔超過了這個時間段,則認為用戶又開始了一個新的會話,許多商業數據挖掘軟件將缺省超時值確定為30分鐘,超時的界限可以根據站點的使用統計反饋的結果進行調節,直到可以更準確地識別會話。

4.路徑補充。檢查引用日志確定當前請求來自哪一頁,如果在用戶的歷史記錄上有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。若引用日志不完整,可以使用站點的拓撲結構代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

5.事務識別。事務識別是對用戶會話進行語義分組分割后事務的具體意義是:用戶為獲得一項有意義的信息所點擊的頁面序列。

6.格式化數據。一旦得到一組事務集后,我們需要處理結果表示城市和挖掘需要的形式。例如,時間屬性對于關聯規則挖掘是沒有什么作用的,我們可以忽略元組中的時間屬性,而把它格式化成適合于關聯規則發現的形式。上面已經詳細介紹了Web日志數據預處理的過程及采用的技術,在實際的應用中,可以根據挖掘任務的需要,對數據預處理過程進行簡化或者細化。

四、結束語

數據的預處理工作是至關重要的一步。他既要保證信息無失真的轉換,又要保證過濾刪除掉某些對以后挖掘無影響的數據。針對一般的Web日志挖掘,提出了一種通用的Web日志挖掘的數據預處理模型,他可以針對不同類型的Web日志挖掘,實現數據的預處理工作。

參考文獻:

[1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:電子工業出版社,2004:36-39.

[2]段曉峰、熊忠陽,網站日志的數據挖掘[D].重慶:重慶大學,2003.

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产原创自拍不卡第一页| 久久毛片网| 波多野结衣中文字幕一区二区 | 亚洲精品欧美日本中文字幕| 亚洲区欧美区| 久久www视频| 91九色最新地址| 国产凹凸视频在线观看| 91免费国产在线观看尤物| 美女免费精品高清毛片在线视| 国产幂在线无码精品| 一本无码在线观看| 91在线视频福利| 国产女人在线视频| 无码福利视频| 91视频精品| 99热最新网址| 免费va国产在线观看| 亚洲人成网18禁| 激情無極限的亚洲一区免费| 国产极品粉嫩小泬免费看| 国产精品爆乳99久久| 国产精品三级av及在线观看| 高潮爽到爆的喷水女主播视频 | 国产欧美日韩视频一区二区三区| 青青青视频91在线 | 日韩毛片视频| 国产香蕉国产精品偷在线观看| 中国国产A一级毛片| 最新国产精品第1页| 久久久91人妻无码精品蜜桃HD| 欧美成人aⅴ| 欧美午夜在线观看| 91在线播放免费不卡无毒| 动漫精品啪啪一区二区三区| 91精品情国产情侣高潮对白蜜| AV天堂资源福利在线观看| 国产剧情一区二区| 亚洲午夜综合网| 国外欧美一区另类中文字幕| 真人免费一级毛片一区二区| 亚洲精品成人片在线观看| 国产丝袜一区二区三区视频免下载| 午夜少妇精品视频小电影| 人妻丰满熟妇啪啪| 人妻无码一区二区视频| 午夜啪啪福利| 欧美色伊人| 亚洲欧美成aⅴ人在线观看| 亚洲国产成人精品无码区性色| 久久人搡人人玩人妻精品| 亚洲一区精品视频在线| 久久国产精品影院| 亚洲视频a| 精品久久国产综合精麻豆| 青青青草国产| 久久婷婷综合色一区二区| 国产精品视频观看裸模| 综合久久久久久久综合网| 区国产精品搜索视频| 亚洲国产欧美国产综合久久 | 久久综合久久鬼| 久久婷婷人人澡人人爱91| 亚洲欧美一区二区三区蜜芽| 91最新精品视频发布页| 精品国产香蕉伊思人在线| 69精品在线观看| 重口调教一区二区视频| 久久精品免费国产大片| 亚洲成人一区二区| 欧美色综合网站| 久久黄色毛片| 成人福利一区二区视频在线| AV不卡国产在线观看| 综合色婷婷| 国产精品片在线观看手机版| 国产一区成人| 成人午夜网址| 91视频精品| 直接黄91麻豆网站| 99激情网| 精品国产www|