999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘技術(shù)的應(yīng)用研究

2011-06-12 08:55:26胡宏智王華
關(guān)鍵詞:頁(yè)面數(shù)據(jù)挖掘關(guān)聯(lián)

胡宏智 王華

安徽工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 安徽 243032

0 前言

隨著Web站點(diǎn)規(guī)模的擴(kuò)大和復(fù)雜程度的提高,訪(fǎng)問(wèn)者對(duì)Web站點(diǎn)的要求也越來(lái)越高,要求它具有個(gè)性化,智能性。因此,簡(jiǎn)單的統(tǒng)計(jì)訪(fǎng)問(wèn)者所在的地區(qū),統(tǒng)計(jì)站點(diǎn)的訪(fǎng)問(wèn)次數(shù)已經(jīng)不能滿(mǎn)足。Web日志挖掘是對(duì)用戶(hù)在訪(fǎng)問(wèn)網(wǎng)站時(shí)留下的訪(fǎng)問(wèn)記錄進(jìn)行數(shù)據(jù)挖掘,利用數(shù)據(jù)挖掘的方法可以在海量的日志數(shù)據(jù)中自動(dòng)快速的發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式,其結(jié)果可以用于改善網(wǎng)站的拓?fù)浣Y(jié)構(gòu),發(fā)現(xiàn)相似客戶(hù)群體,開(kāi)展個(gè)性化的信息服務(wù)和有針對(duì)性的電子商務(wù)活動(dòng)。

1 數(shù)據(jù)預(yù)處理

從Web服務(wù)器收集到的日志不能直接用于數(shù)據(jù)挖掘,還必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理一般分為數(shù)據(jù)清理、用戶(hù)識(shí)別、回話(huà)識(shí)別、路徑補(bǔ)充這幾個(gè)過(guò)程。

1.1 數(shù)據(jù)清理

數(shù)據(jù)清理的目的是清除從服務(wù)器得到的日志中的不相關(guān)的數(shù)據(jù),縮小被挖掘的數(shù)據(jù)對(duì)象的范圍。本文使用的日志數(shù)據(jù)集與以往的日志數(shù)據(jù)集有所有不同,如圖1所示,數(shù)據(jù)集中的字段都是挖掘所需要的,但是每一個(gè)記錄都含有若干條記錄,其中是以“|||”分割的,利用SQL語(yǔ)句可以把這些記錄分離開(kāi),從而形成一條一條的記錄,得到的數(shù)據(jù)集就可以用于下一步的數(shù)據(jù)挖掘。如圖2所示。

圖1 日志數(shù)據(jù)集1

圖2 日志數(shù)據(jù)集2

數(shù)據(jù)清理的核心SQL語(yǔ)句:

select rowNum,d*,d2.* from cont c,table(str2list(c.ip,c.time,'|||')) d,table(str2list(c.page,c.lailu,'|||')) d2 where d.id = d2.id and d.str is not null

1.2 用戶(hù)識(shí)別

如果數(shù)據(jù)挖掘的目的是進(jìn)行用戶(hù)訪(fǎng)問(wèn)模式的挖掘或?qū)τ脩?hù)進(jìn)行聚類(lèi)分析,那么用戶(hù)識(shí)別這一步驟相當(dāng)重要。通常我們用一下的方式來(lái)識(shí)別用戶(hù):不同的IP地址代表不同的用戶(hù);當(dāng)IP地址相同時(shí),默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶(hù);當(dāng)IP地址相同時(shí),用戶(hù)使用的操作系統(tǒng)和瀏覽器也相同的情況下,此時(shí)要根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)來(lái)識(shí)別用戶(hù),即用戶(hù)要訪(fǎng)問(wèn)的頁(yè)面不能從已訪(fǎng)問(wèn)的頁(yè)面到達(dá)則為一個(gè)新用戶(hù)。

1.3 用戶(hù)會(huì)話(huà)識(shí)別

會(huì)話(huà)識(shí)別的目的就是將用戶(hù)的所有訪(fǎng)問(wèn)序列分成多個(gè)單獨(dú)的用戶(hù)一次訪(fǎng)問(wèn)序列。一般的方法是利用超時(shí),如果連續(xù)兩個(gè)頁(yè)面的請(qǐng)求時(shí)間間隔超過(guò)給定的閾值,則認(rèn)為用戶(hù)開(kāi)始了一個(gè)新的會(huì)話(huà)。根據(jù)統(tǒng)計(jì)數(shù)據(jù),時(shí)間閾值通常取25.5分鐘。

1.4 路徑補(bǔ)充

在識(shí)別用戶(hù)會(huì)話(huà)過(guò)程中的另一個(gè)問(wèn)題是確定訪(fǎng)問(wèn)日志中是否有重要的請(qǐng)求沒(méi)有被記錄。這就需要路徑補(bǔ)充這一個(gè)步驟,解決的方法類(lèi)似于用戶(hù)識(shí)別中的方法。如果當(dāng)前請(qǐng)求的頁(yè)與用戶(hù)上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接,那么用戶(hù)很可能使用了瀏覽器上的“后退”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查引用日志確定當(dāng)前請(qǐng)求來(lái)自哪一頁(yè),如果在用戶(hù)的歷史訪(fǎng)問(wèn)記錄上有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過(guò)這種方法將遺漏的頁(yè)面請(qǐng)求添加到用戶(hù)的會(huì)話(huà)路徑中。

2 Web日志挖掘算法研究

2.1 關(guān)聯(lián)分析

關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則是形如X→Y 即滿(mǎn)足X中條件的數(shù)據(jù)庫(kù)元組也滿(mǎn)足Y條件。我們用支持度和置信度來(lái)作為關(guān)聯(lián)規(guī)則興趣度的客觀度量。關(guān)聯(lián)規(guī)則 X→Y的支持度表示滿(mǎn)足規(guī)則的樣本的百分比,用概率P(X∪Y)表示,其中,X∪Y表示同時(shí)包含X和Y的事務(wù),即項(xiàng)集X和Y的并。關(guān)聯(lián)規(guī)則X→Y的置信度用條件概率P(X|Y)即包含X的事務(wù)也包含Y的概率來(lái)表示。

2.2 聚類(lèi)分析

聚類(lèi)分析是將物理或抽象的對(duì)象組成的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)簇,使得處于相同簇中的對(duì)象具有最大的相似性,而處于不同簇的對(duì)象具有最大的差異性的方法及過(guò)程。通過(guò)聚類(lèi),能夠找出數(shù)據(jù)屬性之間潛在的相互關(guān)系。聚類(lèi)分析的過(guò)程如圖3所示。

圖3 聚類(lèi)分析

2.3 遺傳算法

遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。生物的進(jìn)化是一個(gè)奇妙的優(yōu)化過(guò)程,它通過(guò)選擇淘汰,突然變異,基因遺傳等規(guī)律產(chǎn)生適應(yīng)環(huán)境變化的優(yōu)良物種。遺傳算法是根據(jù)生物進(jìn)化思想而啟發(fā)得出的一種全局優(yōu)化算法。

3 Web日志挖掘的應(yīng)用

Web日志挖掘的應(yīng)用主要有以下幾個(gè)方面:

(1)提供個(gè)性化服務(wù):根據(jù)用戶(hù)訪(fǎng)問(wèn)頁(yè)面的模式,從中提煉出用戶(hù)感興趣的頁(yè)面,針對(duì)特定的用戶(hù)組放置不同的內(nèi)容,向每位用戶(hù)提供個(gè)性化界面。

(2)改進(jìn)站點(diǎn)的拓?fù)浣Y(jié)構(gòu):依據(jù)訪(fǎng)問(wèn)者的頻繁訪(fǎng)問(wèn)路徑,把訪(fǎng)問(wèn)者頻繁訪(fǎng)問(wèn)的頁(yè)面直接關(guān)聯(lián)起來(lái)。

(3)推薦系統(tǒng):這對(duì)于電子商務(wù)網(wǎng)站來(lái)說(shuō)非常有幫助,通過(guò)挖掘日志數(shù)據(jù)集,分析訪(fǎng)問(wèn)者感興趣的頁(yè)面和商品,推薦相關(guān)頁(yè)面和商品。

4 結(jié)束語(yǔ)

Web日志挖掘的應(yīng)用越來(lái)越廣,通過(guò)研究日志數(shù)據(jù),可以得到很多潛在的有意義的信息,不論是對(duì)網(wǎng)站的訪(fǎng)問(wèn)者還是網(wǎng)站的經(jīng)營(yíng)者都有很大的幫助。本文闡述了Web日志挖掘的相關(guān)算法,今后的工作是努力改進(jìn)算法,提高數(shù)據(jù)挖掘的效率和準(zhǔn)確性。

[1]楊怡玲,尤晉元.SWLMS:一個(gè)日志挖掘系統(tǒng).上海交通大學(xué)學(xué)報(bào).1999.

[2]呂佳.Web日志挖掘技術(shù)應(yīng)用研究.重慶師范大學(xué)學(xué)報(bào).(自然科學(xué)版).2006.

[3]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

[4]韓家煒.Web數(shù)據(jù)挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001.

[5]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

猜你喜歡
頁(yè)面數(shù)據(jù)挖掘關(guān)聯(lián)
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
“苦”的關(guān)聯(lián)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
奇趣搭配
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
同一Word文檔 縱橫頁(yè)面并存
主站蜘蛛池模板: 久久免费成人| 红杏AV在线无码| 欧美精品不卡| 国内嫩模私拍精品视频| 欧美a级完整在线观看| 片在线无码观看| aⅴ免费在线观看| 亚洲一区免费看| 久久久久久久蜜桃| 91精品国产91久久久久久三级| 日韩精品无码一级毛片免费| 91亚瑟视频| 久久99国产综合精品女同| 一级爆乳无码av| 在线无码私拍| 免费一级毛片在线播放傲雪网| 国产在线精彩视频二区| 国产亚洲精久久久久久无码AV| 成人精品区| 国产日本一线在线观看免费| 亚洲精选高清无码| 国产成人精品一区二区秒拍1o | 伊人激情综合| 亚洲一区二区约美女探花| 国产视频只有无码精品| 伊人久久福利中文字幕| 国产永久在线视频| 青草国产在线视频| 亚洲精品欧美日本中文字幕| 69国产精品视频免费| 国产污视频在线观看| 中文毛片无遮挡播放免费| 国产精品尹人在线观看| 综合五月天网| 真人高潮娇喘嗯啊在线观看| 日韩一区二区三免费高清| 九九热精品免费视频| 精品人妻无码区在线视频| 国产v精品成人免费视频71pao | 成人亚洲国产| 国产微拍一区二区三区四区| 在线观看国产精品日本不卡网| 四虎永久在线视频| 九九视频免费在线观看| 国产哺乳奶水91在线播放| 国产成人精品男人的天堂| 一级爆乳无码av| 国产 日韩 欧美 第二页| 日本三级黄在线观看| 麻豆精品国产自产在线| 色综合网址| 成·人免费午夜无码视频在线观看| 草逼视频国产| 四虎亚洲精品| 在线观看欧美精品二区| 成人夜夜嗨| 丁香婷婷综合激情| 992tv国产人成在线观看| 日韩不卡免费视频| 欧美午夜小视频| 精品国产免费人成在线观看| 国产高潮流白浆视频| 国产日韩精品欧美一区喷| 日韩无码真实干出血视频| 日日摸夜夜爽无码| 久久天天躁狠狠躁夜夜2020一| 欧美日韩国产在线播放| 欧美精品不卡| 亚亚洲乱码一二三四区| 国产电话自拍伊人| 18禁色诱爆乳网站| 日韩欧美中文亚洲高清在线| 日本草草视频在线观看| 日本精品αv中文字幕| 熟妇人妻无乱码中文字幕真矢织江| 美女免费精品高清毛片在线视| 欧美精品黑人粗大| 欧美国产视频| V一区无码内射国产| 国产色伊人| 欧美一级高清片欧美国产欧美| 国产主播喷水|