胡宏智 王華
安徽工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 安徽 243032
隨著Web站點(diǎn)規(guī)模的擴(kuò)大和復(fù)雜程度的提高,訪(fǎng)問(wèn)者對(duì)Web站點(diǎn)的要求也越來(lái)越高,要求它具有個(gè)性化,智能性。因此,簡(jiǎn)單的統(tǒng)計(jì)訪(fǎng)問(wèn)者所在的地區(qū),統(tǒng)計(jì)站點(diǎn)的訪(fǎng)問(wèn)次數(shù)已經(jīng)不能滿(mǎn)足。Web日志挖掘是對(duì)用戶(hù)在訪(fǎng)問(wèn)網(wǎng)站時(shí)留下的訪(fǎng)問(wèn)記錄進(jìn)行數(shù)據(jù)挖掘,利用數(shù)據(jù)挖掘的方法可以在海量的日志數(shù)據(jù)中自動(dòng)快速的發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式,其結(jié)果可以用于改善網(wǎng)站的拓?fù)浣Y(jié)構(gòu),發(fā)現(xiàn)相似客戶(hù)群體,開(kāi)展個(gè)性化的信息服務(wù)和有針對(duì)性的電子商務(wù)活動(dòng)。
從Web服務(wù)器收集到的日志不能直接用于數(shù)據(jù)挖掘,還必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理一般分為數(shù)據(jù)清理、用戶(hù)識(shí)別、回話(huà)識(shí)別、路徑補(bǔ)充這幾個(gè)過(guò)程。
數(shù)據(jù)清理的目的是清除從服務(wù)器得到的日志中的不相關(guān)的數(shù)據(jù),縮小被挖掘的數(shù)據(jù)對(duì)象的范圍。本文使用的日志數(shù)據(jù)集與以往的日志數(shù)據(jù)集有所有不同,如圖1所示,數(shù)據(jù)集中的字段都是挖掘所需要的,但是每一個(gè)記錄都含有若干條記錄,其中是以“|||”分割的,利用SQL語(yǔ)句可以把這些記錄分離開(kāi),從而形成一條一條的記錄,得到的數(shù)據(jù)集就可以用于下一步的數(shù)據(jù)挖掘。如圖2所示。

圖1 日志數(shù)據(jù)集1

圖2 日志數(shù)據(jù)集2
數(shù)據(jù)清理的核心SQL語(yǔ)句:
select rowNum,d*,d2.* from cont c,table(str2list(c.ip,c.time,'|||')) d,table(str2list(c.page,c.lailu,'|||')) d2 where d.id = d2.id and d.str is not null
如果數(shù)據(jù)挖掘的目的是進(jìn)行用戶(hù)訪(fǎng)問(wèn)模式的挖掘或?qū)τ脩?hù)進(jìn)行聚類(lèi)分析,那么用戶(hù)識(shí)別這一步驟相當(dāng)重要。通常我們用一下的方式來(lái)識(shí)別用戶(hù):不同的IP地址代表不同的用戶(hù);當(dāng)IP地址相同時(shí),默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶(hù);當(dāng)IP地址相同時(shí),用戶(hù)使用的操作系統(tǒng)和瀏覽器也相同的情況下,此時(shí)要根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)來(lái)識(shí)別用戶(hù),即用戶(hù)要訪(fǎng)問(wèn)的頁(yè)面不能從已訪(fǎng)問(wèn)的頁(yè)面到達(dá)則為一個(gè)新用戶(hù)。
會(huì)話(huà)識(shí)別的目的就是將用戶(hù)的所有訪(fǎng)問(wèn)序列分成多個(gè)單獨(dú)的用戶(hù)一次訪(fǎng)問(wèn)序列。一般的方法是利用超時(shí),如果連續(xù)兩個(gè)頁(yè)面的請(qǐng)求時(shí)間間隔超過(guò)給定的閾值,則認(rèn)為用戶(hù)開(kāi)始了一個(gè)新的會(huì)話(huà)。根據(jù)統(tǒng)計(jì)數(shù)據(jù),時(shí)間閾值通常取25.5分鐘。
在識(shí)別用戶(hù)會(huì)話(huà)過(guò)程中的另一個(gè)問(wèn)題是確定訪(fǎng)問(wèn)日志中是否有重要的請(qǐng)求沒(méi)有被記錄。這就需要路徑補(bǔ)充這一個(gè)步驟,解決的方法類(lèi)似于用戶(hù)識(shí)別中的方法。如果當(dāng)前請(qǐng)求的頁(yè)與用戶(hù)上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接,那么用戶(hù)很可能使用了瀏覽器上的“后退”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查引用日志確定當(dāng)前請(qǐng)求來(lái)自哪一頁(yè),如果在用戶(hù)的歷史訪(fǎng)問(wèn)記錄上有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過(guò)這種方法將遺漏的頁(yè)面請(qǐng)求添加到用戶(hù)的會(huì)話(huà)路徑中。
關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則是形如X→Y 即滿(mǎn)足X中條件的數(shù)據(jù)庫(kù)元組也滿(mǎn)足Y條件。我們用支持度和置信度來(lái)作為關(guān)聯(lián)規(guī)則興趣度的客觀度量。關(guān)聯(lián)規(guī)則 X→Y的支持度表示滿(mǎn)足規(guī)則的樣本的百分比,用概率P(X∪Y)表示,其中,X∪Y表示同時(shí)包含X和Y的事務(wù),即項(xiàng)集X和Y的并。關(guān)聯(lián)規(guī)則X→Y的置信度用條件概率P(X|Y)即包含X的事務(wù)也包含Y的概率來(lái)表示。
聚類(lèi)分析是將物理或抽象的對(duì)象組成的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)簇,使得處于相同簇中的對(duì)象具有最大的相似性,而處于不同簇的對(duì)象具有最大的差異性的方法及過(guò)程。通過(guò)聚類(lèi),能夠找出數(shù)據(jù)屬性之間潛在的相互關(guān)系。聚類(lèi)分析的過(guò)程如圖3所示。

圖3 聚類(lèi)分析
遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。生物的進(jìn)化是一個(gè)奇妙的優(yōu)化過(guò)程,它通過(guò)選擇淘汰,突然變異,基因遺傳等規(guī)律產(chǎn)生適應(yīng)環(huán)境變化的優(yōu)良物種。遺傳算法是根據(jù)生物進(jìn)化思想而啟發(fā)得出的一種全局優(yōu)化算法。
Web日志挖掘的應(yīng)用主要有以下幾個(gè)方面:
(1)提供個(gè)性化服務(wù):根據(jù)用戶(hù)訪(fǎng)問(wèn)頁(yè)面的模式,從中提煉出用戶(hù)感興趣的頁(yè)面,針對(duì)特定的用戶(hù)組放置不同的內(nèi)容,向每位用戶(hù)提供個(gè)性化界面。
(2)改進(jìn)站點(diǎn)的拓?fù)浣Y(jié)構(gòu):依據(jù)訪(fǎng)問(wèn)者的頻繁訪(fǎng)問(wèn)路徑,把訪(fǎng)問(wèn)者頻繁訪(fǎng)問(wèn)的頁(yè)面直接關(guān)聯(lián)起來(lái)。
(3)推薦系統(tǒng):這對(duì)于電子商務(wù)網(wǎng)站來(lái)說(shuō)非常有幫助,通過(guò)挖掘日志數(shù)據(jù)集,分析訪(fǎng)問(wèn)者感興趣的頁(yè)面和商品,推薦相關(guān)頁(yè)面和商品。
Web日志挖掘的應(yīng)用越來(lái)越廣,通過(guò)研究日志數(shù)據(jù),可以得到很多潛在的有意義的信息,不論是對(duì)網(wǎng)站的訪(fǎng)問(wèn)者還是網(wǎng)站的經(jīng)營(yíng)者都有很大的幫助。本文闡述了Web日志挖掘的相關(guān)算法,今后的工作是努力改進(jìn)算法,提高數(shù)據(jù)挖掘的效率和準(zhǔn)確性。
[1]楊怡玲,尤晉元.SWLMS:一個(gè)日志挖掘系統(tǒng).上海交通大學(xué)學(xué)報(bào).1999.
[2]呂佳.Web日志挖掘技術(shù)應(yīng)用研究.重慶師范大學(xué)學(xué)報(bào).(自然科學(xué)版).2006.
[3]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.
[4]韓家煒.Web數(shù)據(jù)挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001.
[5]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2011年5期