999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種Web使用模式挖掘模型的設計

2007-01-01 00:00:00陳俊杰
計算機應用研究 2007年3期

摘 要:Web使用模式挖掘是對用戶瀏覽Web后在服務器日志上所留信息的數(shù)據(jù)挖掘。介紹了挖掘中常用技術(shù)及流程,并提出一種Web使用模式挖掘體系結(jié)構(gòu),介紹了系統(tǒng)的工作原理,對系統(tǒng)設計中的數(shù)據(jù)清洗和會話識別等關(guān)鍵技術(shù)作了詳細討論。

關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;Web使用模式挖掘;Web日志

中圖分類號:TP391文獻標志碼:A

文章編號:1001—3695(2007)03—0184—03

目前,Internet上的搜索引擎大致可分為三種類型:基于人工的搜索引擎,如Yahoo;基于軟件Robot的搜索引擎,如AltaVista、Lycos、Excite等,以及元搜索引擎,如Bytesearch、MetaCrawler、Ixquick等。盡管目前的搜索引擎給人們搜尋信息資源帶來了很大的便利,但其效果還遠不能令人滿意。數(shù)據(jù)挖掘技術(shù)經(jīng)過多年的發(fā)展已趨于成熟,它可利用計算機從龐大的數(shù)據(jù)中智能地、主動地抽取有價值的數(shù)據(jù)模式,滿足人們不同的需要。所以,把數(shù)據(jù)挖掘引入Web信息檢索中,就成了當前一項十分重要的任務。

1 Web使用模式挖掘

Web使用模式挖掘是在用戶訪問Web后,對服務器上留下的訪問路徑進行挖掘,即對用戶訪問Web站點的存取方式進行挖掘。挖掘的目的是在海量的Web日志數(shù)據(jù)中自動、快速地發(fā)現(xiàn)用戶的訪問模式,如頻繁訪問路徑、頻繁訪問頁組、用戶聚類等。

1.1 Web使用模式挖掘常用技術(shù)

Web使用模式挖掘中常用以下一些技術(shù):

(1)關(guān)聯(lián)規(guī)則挖掘技術(shù)(Associate Mining Technology)。在Web數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個訪問期間(Session)從服務器上訪問的頁面或文件之間的聯(lián)系。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法,從事務數(shù)據(jù)庫中挖掘出最大頻繁訪問項集,這個項集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。

(2)序列模式挖掘技術(shù)(Sequence Mining Technology)。序列模式挖掘就是要挖掘出交易集之間的有時間序列的模式。在網(wǎng)站服務器日志里,用戶的訪問是以時間段為單位記錄的,經(jīng)過數(shù)據(jù)清洗和事務識別以后是一個間斷的時間序列。這些序列所反映的用戶行為有助于網(wǎng)站確認用戶訪問網(wǎng)站的興趣所在。

(3)分類與聚類技術(shù)(Classification Clustering) 。分類規(guī)則可以挖掘Web日志中某些共同的特性,利用該特性對新添到數(shù)據(jù)庫里的數(shù)據(jù)項進行分類,根據(jù)訪問模式得出訪問某一服務器文件的用戶特征。聚類分析用于將有相似特性的用戶、數(shù)據(jù)項集合到一起。聚類的目標是將大量的數(shù)據(jù)項聚集成類,使得類與類之間的相似度盡量小,而類內(nèi)的相似度盡量大。分類問題和聚類問題其根本分歧點在于:分類問題中的數(shù)據(jù)庫數(shù)據(jù)項的分類屬性值是已知的,而在聚類問題中,就需要通過使用一些算法來找出這個分類屬性值。

(4)路徑分析技術(shù)(Route Analysis Technology)。在Web使用模式挖掘過程中,通過路徑分析技術(shù)可以確定網(wǎng)站的頻繁訪問路徑,可以對頻繁訪問的路徑進行優(yōu)化,并可以在頻繁訪問的路徑上放置重要的信息,如導航信息等,以方便用戶使用。通過路徑分析技術(shù)得出的網(wǎng)站結(jié)構(gòu)圖在模式挖掘中非常有用。

1.2 Web使用模式挖掘流程

Web使用模式挖掘主要是存在于服務器日志中的用戶訪問信息,它將數(shù)據(jù)挖掘技術(shù)應用到Web中,形成了自己的挖掘方式。一般對Web使用模式挖掘流程的劃分可分為三步和四步兩種不同的看法。三步法認為應分為數(shù)據(jù)準備階段、模式發(fā)現(xiàn)階段和模式分析階段。四步法是將流程分為源數(shù)據(jù)收集、數(shù)據(jù)預處理、模式挖掘和模式分析四個階段。因為源數(shù)據(jù)收集和數(shù)據(jù)預處理可以歸并為數(shù)據(jù)準備,所以本文采用三步劃分法。其流程如圖1所示。

2 WUMS體系結(jié)構(gòu)

2.1 WUMS體系結(jié)構(gòu)功能

WUMS(Web Usage Mining System)是本文提出的一種Web使用模式挖掘系統(tǒng)工具。本系統(tǒng)根據(jù)功能的不同可劃分為三個模塊,即數(shù)據(jù)預處理模塊、數(shù)據(jù)挖掘模塊和可視化界面模塊。其系統(tǒng)結(jié)構(gòu)如圖2所示。

2.2 系統(tǒng)功能實現(xiàn)

本系統(tǒng)在設計上分為三大模塊,各模塊主要功能如下:

(1)數(shù)據(jù)預處理模塊。它對應Web使用模式挖掘的數(shù)據(jù)預處理部分。這部分模塊包含的內(nèi)容比較多,先利用一個數(shù)據(jù)采集器將日志中的數(shù)據(jù)收集回來,再經(jīng)過一系列的清洗、入庫、識別、集成等步驟得到可滿足不同用戶進行數(shù)據(jù)挖掘需要的集成數(shù)據(jù)。

這個階段是進行Web使用模式挖掘的第一個步驟。Web數(shù)據(jù)是海量的、異構(gòu)的、半結(jié)構(gòu)或無結(jié)構(gòu)的,而Web使用模式挖掘中主要用到三種數(shù)據(jù)類型,即結(jié)構(gòu)數(shù)據(jù)、使用數(shù)據(jù)和用戶數(shù)據(jù)。所以,從服務器讀取的日志中因為含有許多與數(shù)據(jù)挖掘無關(guān)的數(shù)據(jù)項,它們必須經(jīng)過數(shù)據(jù)清洗后變?yōu)閮魯?shù)據(jù)才能使用。清洗后的凈數(shù)據(jù)經(jīng)事務識別過程被分為若干邏輯單元,對不同的用戶表達相應的用戶事務。這一步結(jié)束后,再將數(shù)據(jù)集成,并且將數(shù)據(jù)格式化,轉(zhuǎn)換成模式發(fā)現(xiàn)階段各挖掘算法對應的數(shù)據(jù)格式,以適應不同的數(shù)據(jù)挖掘任務。這個階段比較重要,目前對這一階段進行研究的人員很多,并且取得了一定的成效。但是國內(nèi)對此項的研究大多還停留在實驗室階段,離實際應用還有一段距離。

(2)數(shù)據(jù)挖掘模塊。它將模式發(fā)現(xiàn)與模式分析合并到一起。預處理模塊送出的數(shù)據(jù)經(jīng)程序調(diào)用挖掘內(nèi)核中的知識庫,知識庫再根據(jù)具體模式調(diào)用算法庫來處理,得到的結(jié)果經(jīng)模式評估返回可視化界面。其中挖掘內(nèi)核是系統(tǒng)的核心。挖掘內(nèi)核中的知識庫是一個規(guī)則的集合,能夠根據(jù)不同的挖掘要求來選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應用的深入,該知識庫不斷融入新的規(guī)則,以增加專家系統(tǒng)的智能性。這一部分非常關(guān)鍵,也是整個Web使用模式挖掘工具中最難實現(xiàn)的部分,它的完善程度直接關(guān)系到挖掘的質(zhì)量。

這個階段的主要工作是根據(jù)不同的數(shù)據(jù)挖掘任務,采取相應的挖掘算法對處理后的數(shù)據(jù)進行挖掘。各種挖掘算法包括關(guān)聯(lián)規(guī)則、聚類分類、序列模式等。這些算法在前面1.1節(jié)中已簡要介紹過,在此不再贅述。因為日志里存放的是海量數(shù)據(jù),在采用挖掘算法時要考慮到時效性,并要考慮到Web日志數(shù)據(jù)本身的特點。

(3)可視化界面模塊。數(shù)據(jù)挖掘的可視化技術(shù)是指使用圖形用戶界面來幫助用戶挖掘和理解大量的復雜數(shù)據(jù)。可視化技術(shù)對于用戶管理和理解大量的模式提供了極大的便利。

這個模塊實現(xiàn)用戶與系統(tǒng)之間的交互,采用界面友好的可視化形式呈現(xiàn)。在這個界面上用戶可以提出挖掘請求,設置挖掘參數(shù),并可對返回的結(jié)果進行評估,對不滿意的結(jié)果進行再次挖掘,知識庫會重新設計規(guī)則,直到得到滿意的結(jié)果為止。其結(jié)果可根據(jù)用戶的喜好以圖表、目錄樹等不同的樣式呈現(xiàn)給用戶,以實現(xiàn)用戶的個性化挖掘。

3 關(guān)鍵技術(shù)

3.1 數(shù)據(jù)清洗和會話識別技術(shù)

數(shù)據(jù)清洗是指刪除采集來的Web日志中與挖掘算法無關(guān)的內(nèi)容,包括圖片、框架等非用戶請求單位、Robot瀏覽日志記錄以及一些噪聲、錯誤數(shù)據(jù)等。會話識別是事務識別中的重要內(nèi)容,它是指在一些時間跨度較大的服務器日志中,用戶可能若干次地訪問該站點,這就需要將用戶的訪問記錄分為單個會話。常用的會話識別模型是時間窗口模型,即假定用戶訪問一次某站點有最大時間限制,超過此時間就要劃分到下次訪問中,一般該時間采用30 min。設t0是一個當前構(gòu)建會話的起始請求時間,對URL的下一個請求來說,當且僅當t-t0≤w時,該請求才被加入當前會話,否則就作為下一個會話的起始請求。這里的用戶通過Cookie來區(qū)分。

3.1.1 Conversation_Manager算法

其中,Users指用戶活動記錄,SiteGraph指網(wǎng)站結(jié)構(gòu)圖,ConverSet指會話集合。用戶活動記錄中的字段Agent指用戶代理;Status指狀態(tài)字;Page指被請求頁URL;Cookie指Cookie號;Datetime指請求時間;Refer指參考頁URL。3.1.2 算法步驟

( 1)通過程序調(diào)用,輸入用戶活動記錄、網(wǎng)站結(jié)構(gòu)和會話集合等參數(shù)。

(2)檢查用戶活動記錄,根據(jù)代理判斷是否為Spider記錄,根據(jù)狀態(tài)字判斷是否出錯,再根據(jù)被請求頁URL,同時參照網(wǎng)站結(jié)構(gòu)圖判斷是否為頁面內(nèi)嵌對象。

(3)搜索會話記錄集,看是否存在此會話,若不存在就建立一個新的會話。

(4)若當前會話結(jié)束或超過預設時間閾(w=30 min),則結(jié)束當前會話,并新建下一個會話。

(5)將此活動記錄插入相應的會話中。

(6)判斷被請求頁的參考頁是否為動態(tài)生成頁面,若是則添加入動態(tài)頁面集中。這是因為網(wǎng)站的頁面分為動態(tài)頁面和靜態(tài)頁面兩種,兩種頁面生成不同,結(jié)構(gòu)也不同,分別存儲,其中動態(tài)頁面技術(shù)較復雜,信息更有用,所以這里將動態(tài)頁面數(shù)據(jù)提取出來,以備將來分析使用。

3.2 挖掘內(nèi)核技術(shù)

WUMS系統(tǒng)中的挖掘內(nèi)核包括知識庫和算法庫,這兩者相結(jié)合構(gòu)成數(shù)據(jù)挖掘模塊的核心。其中知識庫是一個方法選擇專家系統(tǒng),它通過自組織學習不斷完善已有規(guī)則并生成新的規(guī)則,根據(jù)不同的用戶要求來調(diào)用算法庫中不同的算法,得出結(jié)果,并可在用戶評估后將不滿意的結(jié)果重新修正,以期最終能得出符合用戶要求的結(jié)果。

4 結(jié)束語

Web使用模式挖掘是一個對服務器日志的挖掘,它旨在得出日志中有用的用戶訪問信息,以使網(wǎng)站有針對性地完善自身,能更好地服務用戶并取得較好的經(jīng)濟效益。本文對Web數(shù)據(jù)挖掘作了比較詳細的介紹,并對Web使用模式的挖掘作了較深入的探討,最后提出了一種Web使用模式挖掘系統(tǒng)模型,對設計中的一些關(guān)鍵問題進行了闡述。今后將進一步完善該系統(tǒng),使其能夠?qū)嶋H投入使用。

本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

主站蜘蛛池模板: 国外欧美一区另类中文字幕| 精品欧美视频| 人妻精品久久无码区| 亚洲人成日本在线观看| 综合色婷婷| 伊人久久久大香线蕉综合直播| 亚洲AⅤ无码国产精品| 中文成人在线| 国产资源站| 国产精品网拍在线| 国产91丝袜| 亚洲天堂成人在线观看| 国产一区二区三区精品欧美日韩| 午夜视频日本| 国产精品制服| 中文字幕在线日韩91| 欧洲一区二区三区无码| 看你懂的巨臀中文字幕一区二区| 国产在线欧美| 国产00高中生在线播放| 日本人妻一区二区三区不卡影院| 成人在线欧美| 国产成人福利在线视老湿机| 911亚洲精品| 国产av剧情无码精品色午夜| 久久国语对白| 色婷婷狠狠干| 一本大道视频精品人妻| 国产人人乐人人爱| 久久黄色免费电影| 欧洲日本亚洲中文字幕| 制服丝袜在线视频香蕉| 中文国产成人精品久久一| 麻豆a级片| 成人噜噜噜视频在线观看| 国产福利一区视频| 亚洲精品手机在线| 久久99国产视频| 综1合AV在线播放| 亚洲欧美人成电影在线观看| 在线精品视频成人网| 久久精品娱乐亚洲领先| 亚洲国产在一区二区三区| 超碰免费91| 国产剧情无码视频在线观看| 伊大人香蕉久久网欧美| 日韩激情成人| 成人免费一区二区三区| 国产97视频在线观看| 亚洲男人的天堂视频| 国产精品女熟高潮视频| 伊人久久精品无码麻豆精品| 五月婷婷综合在线视频| 色综合天天娱乐综合网| 亚洲Va中文字幕久久一区 | 午夜毛片免费观看视频 | 欧美亚洲欧美| 手机永久AV在线播放| 久久久受www免费人成| 97免费在线观看视频| 中文字幕乱码中文乱码51精品| 亚洲综合亚洲国产尤物| 亚洲无码熟妇人妻AV在线| a级毛片在线免费| 国产精品丝袜视频| 青草国产在线视频| 尤物成AV人片在线观看| 国产亚洲精品自在久久不卡| 欧美日韩精品在线播放| 久视频免费精品6| 日韩精品中文字幕一区三区| 欧美另类第一页| 国产福利影院在线观看| 久久久久国产精品熟女影院| 亚洲系列中文字幕一区二区| 亚洲综合婷婷激情| 人妻无码一区二区视频| 国内精品自在自线视频香蕉| 精品少妇人妻一区二区| 无码AV日韩一二三区| 亚洲性一区| 国产成人艳妇AA视频在线|