999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web日志的數據挖掘技術在Web機器人識別中的研究

2015-07-10 22:04:22王利源
卷宗 2015年1期
關鍵詞:數據挖掘

摘 要:數據挖掘是從大量數據中發現人們未知的、感興趣的、隱藏的知識。數據挖掘Web服務器日志記錄具有良好的結構,非常有利于數據挖掘。由于Web服務器日志記錄具有良好的結構,因此,作為Web使用挖掘的一個分支,Web日志數據數據挖掘,具有獨特的理論和實踐意義。本文利用決策樹分類法,對Web服務器上保存的Web日志進行數據挖掘,通過對日志中所保存的信息進行分析,總結出正常用戶和Web機器人訪問網頁的模式特點。

關鍵詞:數據挖掘;Web日志挖掘;決策樹

0.引言

Web服務器通常保存了對Web頁面的一次訪問的日志項(Web日志)。它包括了所請求的URL,發出請求的IP地址和時間戳。對于Web服務器,其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數以百兆的記錄,這些為數據挖掘提供了有關Web動態的豐富的信息,因此研究復雜的Web日志挖掘技術是十分重要的。Web數據挖掘技術,從Web日志中提取有用的模式,這些模式能夠揭示站點訪問者的某些特性[1]。

1.決策樹的建立

Web機器人(Web爬行者)是一個軟件程序,它可以跟蹤嵌入網頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前,必須過濾掉Web機器人的訪問。

決策樹是一種構建分類模型的非參數方法,它不要求任何先驗建設,不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數據有很好的健壯性。是目前應用最廣泛的歸納推理算法之一,非常適合對Web日志的數據挖掘。

圖1.Web會話

輸入數據取自Web 服務器日志。它的一個樣本如圖1所示,每行對應于Web客戶(正常訪客或Web機器人)的一個頁面訪問請求。

Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節數等[3]。Web會話是客戶在一次網址訪問期間發出的請求序列,每個Web會話都可以用一個有向圖來建模,其中結點對應于網頁,有向邊對用與鏈接網頁的超鏈接[4],如圖1。

圖2.Web機器人檢測決策樹模型

表2. Web機器人檢測的會話屬性

屬性名 描述

TotalPages 一次 Web會話提取的頁面總數

ImagePages 一次Web會話提取的圖像頁總數

TotalTime 網站訪問者所用時間

RepeatedAccess 一次Web會話多次請求同一頁面

ErrorRequest 請求網頁錯誤

GET 使用GET方式提出請求的百分比

POST 使用POST方式提出的請求百分比

HEAD 使用HEAD方式提出的請求百分比

Breadth Web遍歷的寬度

Depth Web遍歷的深度

MultiIP 使用多個IP地址的會話

MultiAgent 使用多個代理的會話

為了對Web會話進行分類,需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網站入口點的超銜數量度量,寬度屬性度量Web圖的寬度。如圖2,假設主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會話的深度等于2;Web會話的寬度等于2。

用于分類的數據集包含3916個記錄,Web機器人(class 0)和人類用戶(class 1)會話的個數相等,10%的數據用于訓練,而90%的數據用于檢驗。生成的決策樹模型顯示,如圖2所示。該決策樹在訓練集上的差錯率為3.8%,在檢驗集上的差錯率為5.3%。

3 結果分析

該模型表明可以從以下4個方面區分出Web機器人和人類用戶:

Web機器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。

與人類用戶不同,Web機器人很少訪問與Web文檔相關的圖片頁。

Web機器人的會話的長度趨于較長,包含了大量請求頁面。

Web機器人更可能對相同的文檔發出重復的請求,因為人類用戶訪問的網頁常常會被瀏覽器保存。

參考文獻

[1] 張娥,鄭斐峰,馮耕中. Web日志數據挖掘的數據預處理方法研究[J]. 計算機應用研究. 2004(02)

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發展. 2001(03)

[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統. 2000(05)

作者簡介

王利源,男,遼寧省營口市,現就讀于:沈陽理工大學。

指導教師:沈陽理工大學,杜炎(教授)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲一区二区三区香蕉| 91在线一9|永久视频在线| 伊人久久久久久久久久| 久久不卡国产精品无码| 国产乱视频网站| 国产精品亚洲五月天高清| 久热re国产手机在线观看| 久久精品娱乐亚洲领先| 动漫精品中文字幕无码| 午夜少妇精品视频小电影| 91网红精品在线观看| 亚洲一区第一页| 亚洲第一色网站| 久久综合色天堂av| 亚洲精品无码久久久久苍井空| 久久国产av麻豆| 精品久久香蕉国产线看观看gif| 国产欧美日韩一区二区视频在线| 亚洲一区二区在线无码| 精品国产成人a在线观看| 婷婷亚洲视频| 欧洲一区二区三区无码| 福利一区三区| 思思99思思久久最新精品| 在线播放精品一区二区啪视频| 狠狠做深爱婷婷综合一区| 久久夜色精品| 久久五月天综合| 欧美色亚洲| 国产精品视频公开费视频| 国产欧美日韩资源在线观看| 国内精品一区二区在线观看| 午夜福利无码一区二区| 日本一本正道综合久久dvd| 国产精品美女自慰喷水| 欧美国产在线一区| 亚洲免费人成影院| 在线观看免费黄色网址| 啪啪免费视频一区二区| 特级欧美视频aaaaaa| 精品人妻无码区在线视频| 亚洲精品卡2卡3卡4卡5卡区| 国产亚洲视频播放9000| 88av在线| 亚洲无码高清免费视频亚洲| 老司机久久99久久精品播放| 欧美笫一页| 亚洲av无码牛牛影视在线二区| 亚洲一区二区三区中文字幕5566| 国产精品亚洲专区一区| 欧洲高清无码在线| 亚洲高清在线播放| 色综合中文综合网| 国产69精品久久久久孕妇大杂乱| 日韩欧美网址| 熟女成人国产精品视频| 成人午夜天| 中文字幕天无码久久精品视频免费| 九色国产在线| 性色一区| 国产欧美日韩精品综合在线| 国产导航在线| 国产精品精品视频| 精品国产成人国产在线| 色哟哟国产成人精品| 欧美日韩国产在线观看一区二区三区 | 久久精品91麻豆| 色久综合在线| 国产精品专区第1页| 亚亚洲乱码一二三四区| 97se亚洲综合不卡 | 大陆国产精品视频| 亚洲日本在线免费观看| 啪啪免费视频一区二区| 亚洲成人一区在线| 亚洲成人高清无码| 波多野吉衣一区二区三区av| 日韩无码真实干出血视频| 日本成人精品视频| 欧美日本在线观看| 国产一二视频| 国产视频一区二区在线观看 |