999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web日志的數據挖掘技術在Web機器人識別中的研究

2015-07-10 22:04:22王利源
卷宗 2015年1期
關鍵詞:數據挖掘

摘 要:數據挖掘是從大量數據中發現人們未知的、感興趣的、隱藏的知識。數據挖掘Web服務器日志記錄具有良好的結構,非常有利于數據挖掘。由于Web服務器日志記錄具有良好的結構,因此,作為Web使用挖掘的一個分支,Web日志數據數據挖掘,具有獨特的理論和實踐意義。本文利用決策樹分類法,對Web服務器上保存的Web日志進行數據挖掘,通過對日志中所保存的信息進行分析,總結出正常用戶和Web機器人訪問網頁的模式特點。

關鍵詞:數據挖掘;Web日志挖掘;決策樹

0.引言

Web服務器通常保存了對Web頁面的一次訪問的日志項(Web日志)。它包括了所請求的URL,發出請求的IP地址和時間戳。對于Web服務器,其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數以百兆的記錄,這些為數據挖掘提供了有關Web動態的豐富的信息,因此研究復雜的Web日志挖掘技術是十分重要的。Web數據挖掘技術,從Web日志中提取有用的模式,這些模式能夠揭示站點訪問者的某些特性[1]。

1.決策樹的建立

Web機器人(Web爬行者)是一個軟件程序,它可以跟蹤嵌入網頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前,必須過濾掉Web機器人的訪問。

決策樹是一種構建分類模型的非參數方法,它不要求任何先驗建設,不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數據有很好的健壯性。是目前應用最廣泛的歸納推理算法之一,非常適合對Web日志的數據挖掘。

圖1.Web會話

輸入數據取自Web 服務器日志。它的一個樣本如圖1所示,每行對應于Web客戶(正常訪客或Web機器人)的一個頁面訪問請求。

Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節數等[3]。Web會話是客戶在一次網址訪問期間發出的請求序列,每個Web會話都可以用一個有向圖來建模,其中結點對應于網頁,有向邊對用與鏈接網頁的超鏈接[4],如圖1。

圖2.Web機器人檢測決策樹模型

表2. Web機器人檢測的會話屬性

屬性名 描述

TotalPages 一次 Web會話提取的頁面總數

ImagePages 一次Web會話提取的圖像頁總數

TotalTime 網站訪問者所用時間

RepeatedAccess 一次Web會話多次請求同一頁面

ErrorRequest 請求網頁錯誤

GET 使用GET方式提出請求的百分比

POST 使用POST方式提出的請求百分比

HEAD 使用HEAD方式提出的請求百分比

Breadth Web遍歷的寬度

Depth Web遍歷的深度

MultiIP 使用多個IP地址的會話

MultiAgent 使用多個代理的會話

為了對Web會話進行分類,需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網站入口點的超銜數量度量,寬度屬性度量Web圖的寬度。如圖2,假設主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會話的深度等于2;Web會話的寬度等于2。

用于分類的數據集包含3916個記錄,Web機器人(class 0)和人類用戶(class 1)會話的個數相等,10%的數據用于訓練,而90%的數據用于檢驗。生成的決策樹模型顯示,如圖2所示。該決策樹在訓練集上的差錯率為3.8%,在檢驗集上的差錯率為5.3%。

3 結果分析

該模型表明可以從以下4個方面區分出Web機器人和人類用戶:

Web機器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。

與人類用戶不同,Web機器人很少訪問與Web文檔相關的圖片頁。

Web機器人的會話的長度趨于較長,包含了大量請求頁面。

Web機器人更可能對相同的文檔發出重復的請求,因為人類用戶訪問的網頁常常會被瀏覽器保存。

參考文獻

[1] 張娥,鄭斐峰,馮耕中. Web日志數據挖掘的數據預處理方法研究[J]. 計算機應用研究. 2004(02)

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發展. 2001(03)

[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統. 2000(05)

作者簡介

王利源,男,遼寧省營口市,現就讀于:沈陽理工大學。

指導教師:沈陽理工大學,杜炎(教授)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产精品第页| 日本午夜网站| 国产在线观看高清不卡| 国产亚洲精品资源在线26u| 国产日韩丝袜一二三区| 亚洲天堂网2014| 久久久波多野结衣av一区二区| 激情综合网激情综合| 亚洲第一色网站| 国产欧美日韩免费| 一级香蕉人体视频| 香蕉久人久人青草青草| 天天色综合4| 亚洲精品中文字幕午夜| 一本二本三本不卡无码| 久久五月天综合| 国产精品第5页| 91区国产福利在线观看午夜| 97se亚洲综合不卡| 国产91色在线| 国产精品三区四区| 青青操视频在线| 天堂亚洲网| 91丝袜在线观看| 欧美视频在线不卡| 一本色道久久88| 欧美日在线观看| 久久精品国产亚洲麻豆| 亚洲色欲色欲www网| 国产成人免费| 国产尤物视频在线| 亚洲精品国产综合99| 97久久免费视频| 久久香蕉国产线看观看亚洲片| 日本一区二区三区精品国产| 亚洲成网777777国产精品| 欧美人与动牲交a欧美精品| 日韩中文字幕亚洲无线码| 露脸国产精品自产在线播| 国产高清又黄又嫩的免费视频网站| 2021国产精品自产拍在线| 91黄色在线观看| 天堂成人在线视频| 国产区成人精品视频| 视频一本大道香蕉久在线播放| 久久大香香蕉国产免费网站| 免费观看成人久久网免费观看| 国产免费网址| 国产精品福利尤物youwu| 日本不卡视频在线| 国产亚洲精品91| 亚洲最大福利视频网| 国产成人91精品免费网址在线| 国产自产视频一区二区三区| 91国内外精品自在线播放| 91在线日韩在线播放| 一级片一区| 一本久道久综合久久鬼色| a毛片免费看| 国产成人免费高清AⅤ| 中文字幕不卡免费高清视频| 欧美亚洲国产一区| 亚洲无码精彩视频在线观看| 国产97公开成人免费视频| www.精品国产| 2020亚洲精品无码| 久久久久中文字幕精品视频| 色窝窝免费一区二区三区| 免费xxxxx在线观看网站| 麻豆精品久久久久久久99蜜桃| 国产三区二区| 午夜视频免费试看| 免费女人18毛片a级毛片视频| 亚洲精品爱草草视频在线| 国内熟女少妇一线天| 另类重口100页在线播放| 国产三级国产精品国产普男人 | 日韩精品亚洲精品第一页| 色悠久久综合| 国产久操视频| 女人毛片a级大学毛片免费| 国产原创第一页在线观看|