999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)聯(lián)分類方法的web用戶興趣預(yù)測的研究

2011-02-19 07:48:50于春霞宋新旗
制造業(yè)自動化 2011年2期
關(guān)鍵詞:關(guān)聯(lián)分類用戶

于春霞,宋新旗

YU Chun-xia,SONG Xin-qi

(黃河科技學(xué)院,鄭州 450063)

1 數(shù)據(jù)準(zhǔn)備

試驗數(shù)據(jù)主要是其中的用戶點擊流文件。它包括217個屬性,777,480個記錄;測試數(shù)據(jù)集包括215個屬性,164,364個記錄。它的文件大小是1.148.6M,包含了很多原始記錄,每個記錄是一個網(wǎng)頁瀏覽,同時也包括了用戶的信息。

我們會從表中發(fā)現(xiàn)有許多重復(fù)的會話和用戶信息,另外原始的文件太大,其中有許多屬性與我們的問題關(guān)聯(lián)不大,如email,country等屬性,于是我們從中挑選了三十多個屬性,如服務(wù)器日志本身記錄的信息客戶端IP,服務(wù)器名稱,用戶請求,日期,協(xié)議版本等,用戶的一些信息性別,年齡,職業(yè),住址等。在這些屬性上面作投影,從而我們的訓(xùn)練數(shù)據(jù)得到很大的精簡。在此基礎(chǔ)上,通過前面描述的數(shù)據(jù)凈化,用戶識別,會話識別等過程處理后,形成一個預(yù)處理的會話文件,其中的重復(fù)的會話信息和用戶信息可以合并。

在經(jīng)過預(yù)處理的web日志中尋找事務(wù)的方法如下[1]:

1)根據(jù)每一個訪問者的IP,劃分日志,即在日志中找到每一個訪問者的訪問記錄集。

2)對每一個訪問者的訪問記錄集,根據(jù)C進行分割,找到每一個訪問者的每一次訪問記錄集,這時,每一個訪問者的每一次訪問記錄就構(gòu)成了一個訪問事務(wù)。

3)最終按時間排序的所有訪問事務(wù)形成訪問事務(wù)集T。

每一個用戶訪問事務(wù)相當(dāng)于用戶對站點的一條訪問路徑。用戶的訪問事務(wù)集就是全體用戶在一個時間段內(nèi)對站點的訪問路徑集T,T構(gòu)成了我們進行挖掘的基礎(chǔ)。

2 基于關(guān)聯(lián)分類方法的web用戶興趣預(yù)測

下面我們考慮解決問題2的方法,我們的目的是要預(yù)測用戶將要訪問含有那些品牌的網(wǎng)頁。我們的事務(wù)集T包括的屬性有網(wǎng)頁瀏覽的信息,如請求者的地址,請求的網(wǎng)頁地址,請求時間等屬性;另外,還包括用戶的一些信息,如收入,職業(yè),年齡等。我們要特別注意的是最后的一個屬性(ViewedBrand:Hanes,AmericanEssentials,DonnaKaran,Other,Null)。這是因為在我們的點擊流文件中,有很多用戶訪問了含有Hanes,AmericanEssentials,DonnaKaran品牌的網(wǎng)頁,于是,我們把含有這些品牌的網(wǎng)頁各作為一類;訪問含有其他品牌的網(wǎng)頁的比例非常小,所以我們把所有這些含有這些品牌的網(wǎng)頁作為一類,用Other來表示;最后我們把不含有品牌的網(wǎng)頁用Null來表示。下面運用上章討論的關(guān)聯(lián)關(guān)則分類方法將在己有的事務(wù)集上找出所有可能的CARS,然后用這些CARS構(gòu)造一個分類器來預(yù)測用戶的興趣。方法是這樣的,我們把ViewedBrands屬性看成類別屬性,剩下的屬性當(dāng)作條件屬性去處理。在挖掘關(guān)聯(lián)規(guī)則以前,我們先要確定最小的支持度和可信度。經(jīng)過多次試驗之后,我們發(fā)現(xiàn)最小的支持度為0.1%,可信度為70%時,試驗的效果較好。我們分別用傳統(tǒng)的分類規(guī)則挖掘算法和改進后的用于web挖掘的分類規(guī)則挖掘算法進行處理。

下面是兩算法所用的時間對比圖:

圖1 傳統(tǒng)的和用于web使用挖掘的類別關(guān)聯(lián)規(guī)則挖掘算法效率對比圖

從圖1中,可以看出改進后算法效率有很大的提高,這是因為改進的算法首先采用FP-growth算法挖掘頻繁項集,這要比Apriori算法的效率要提高一個數(shù)量集;另外,對頻繁項集中不包含決策屬性值的頻繁項集不做任何操作,因為這些頻繁項集無法產(chǎn)生所需的類別關(guān)聯(lián)規(guī)則;其次對剩余的頻繁項只以頻繁項中的決策屬性值作為規(guī)則的類別屬性Y,其余條件屬性值組合作為規(guī)則的前件(condset)來生成規(guī)則;所以算法效率有很大的提高。

分析我們的所得的規(guī)則,明顯看出當(dāng)用戶訪問了Fashionmall網(wǎng)頁或Winniecooper網(wǎng)頁時,他就很可能訪問Hanes,DonnaKaran商標(biāo);而當(dāng)用戶訪問了Mycoxpons網(wǎng)頁或Tripod網(wǎng)頁時,他就很可能訪問AmericanEssential商標(biāo)。為了更好的描述實驗結(jié)果,設(shè)REL表示在測試數(shù)據(jù)集中的某一類別網(wǎng)頁頻道集合,RET表示在測試數(shù)據(jù)集中我們預(yù)測的某一類別網(wǎng)頁頻道集合。我們先作如下定義:

Recall=RET∩REL/REL,表示在測試數(shù)據(jù)集中,我們預(yù)測的某一網(wǎng)頁頻道類別集合實際上與某一類別頻道集合的百分比。

Precision=RET∩REL/RET,表示在測試數(shù)據(jù)集中,某一類別頻道與我們預(yù)測的某一類別頻道的百分比。實驗結(jié)果如表1所示:

表1 傳統(tǒng)關(guān)聯(lián)分類方法的預(yù)測性能

事實上,Recall衡量了我們能預(yù)測多少用戶對某個網(wǎng)頁頻道感興趣,Precision衡量了預(yù)測的準(zhǔn)確性。在上面的實驗數(shù)據(jù)中,我們可以看出,傳統(tǒng)的關(guān)聯(lián)分類方法和在改進后用于web使用挖掘的關(guān)聯(lián)分類方法在預(yù)測的準(zhǔn)確性方面差別不大,但在效率方面,兩者差距較大。它們的Recall的值是相當(dāng)不錯的,基本上達(dá)到了50。預(yù)測也是很準(zhǔn)確的,Precision的值也基本上達(dá)到了90%。

表2 改進后用于web使用挖掘的關(guān)聯(lián)分類方法的預(yù)測性能

下面我們運用ID3算法對web用戶興趣預(yù)測,首先,我們來訓(xùn)練判定樹,然后,來用它來預(yù)測用戶的訪問興趣。

試驗結(jié)果如表3所示:

表3 ID3算法的預(yù)測性能

在此,我們把這三種方法的試驗效果用點線圖表示出來,我們可以看到,傳統(tǒng)的關(guān)聯(lián)分類方法與用于web使用挖掘的關(guān)聯(lián)分類方法在效果上沒有大的差別,但它們的效果明顯的都要比ID3方法的試驗效果好。

圖2 三種方法的試驗效果對比圖

所以,改進的用于web使用挖掘的關(guān)聯(lián)規(guī)則分類算法對web用戶的興趣預(yù)測是有效的,一方面,它比傳統(tǒng)的關(guān)聯(lián)規(guī)則分類算法的效率有很大的提高,另一方面,一般而言,它比一些決策樹方法的效果要好。

3 一種基于web挖掘的網(wǎng)站個性化推薦系統(tǒng)結(jié)構(gòu)

站點的個性化服務(wù)會針對不同的用戶提供不同的服務(wù),盡最大努力的使用戶方便,快捷的獲得信息,同時,也可以對不同的用戶提供不同的商務(wù)活動。它主要是根據(jù)用戶以前的訪問信息來提供服務(wù),也就是說,當(dāng)前用戶已有一個訪問序列,那么具有類似訪問序列的其他用戶(這些用戶與該用戶具有相同的訪問興趣)的下一次訪問可以為該用戶提供推薦[2]。當(dāng)然,要更好的對用戶提供個性化服務(wù),還必須對站點本身的內(nèi)容有更好的組織,所以,內(nèi)容挖掘和結(jié)構(gòu)挖掘?qū)μ峁﹤€性化服務(wù)來說也特別重要。本文提出一種站點的個性化推薦結(jié)構(gòu),它不僅用到使用挖掘,還要用到內(nèi)容挖掘等,結(jié)構(gòu)如下所示:

系統(tǒng)主要分為在線部分和離線部分:

離線部分:

使用挖掘:根據(jù)網(wǎng)站的結(jié)構(gòu)信息,使用記錄,用戶本身記錄進行使用挖掘,找出站點的使用模式。

內(nèi)容挖掘:對站點的本身頁面信息,結(jié)構(gòu)信息和從搜索引擎搜到的頁面進行內(nèi)容挖掘,來更好的對網(wǎng)站的信息進行組織。同時,可以通過搜索引擎來彌補站點本身內(nèi)容的有限性。

在線部分:

圖3 一種基于web挖掘的網(wǎng)站個性化推薦系統(tǒng)結(jié)構(gòu)

推薦引擎識別出每個用戶的當(dāng)前交互會話,得到每個用戶的當(dāng)前訪問序列,進而根據(jù)使用模式信息得到用戶的下一些可能訪問的頁面類別,這些頁面的地址被附加到用戶當(dāng)前訪問頁面的底部,以進行推薦。個節(jié)點可以通信,通過競爭機制來獲取信道。每個節(jié)點周期性睡眠和監(jiān)聽信道,如果信道空閑則主動搶占信道,如果信道繁忙則根據(jù)退避算法退避一段時間后重新監(jiān)聽信道狀態(tài)。在程序設(shè)計中主要采集中斷的方法完成信息的接收和發(fā)送。

圖3 主程序流程

3 結(jié)論

基于無線傳感器網(wǎng)絡(luò)的智能小區(qū)監(jiān)控系統(tǒng)結(jié)構(gòu)簡單,耗電量小,布線方便,并能實時監(jiān)控網(wǎng)絡(luò)覆蓋區(qū)域的煤氣泄流和火災(zāi)災(zāi)害。提高了小區(qū)安保控制系統(tǒng)的靈活性及安全性。

[1]鄧瑩,張麗,劉有源.基于無線傳感器網(wǎng)絡(luò)的智能建筑安防系統(tǒng)研究[J].中國水運,2007,(5).133-134.

[2]柴淑娟,趙建平,基于無線傳感器網(wǎng)絡(luò)的水質(zhì)監(jiān)測系統(tǒng)的研究[J].曲阜師范大學(xué)學(xué)報,2010(36)75-77.

[3]基于CC2430的無線傳感器網(wǎng)絡(luò)系統(tǒng)設(shè)計[J].電子產(chǎn)品世界,2010,11.

猜你喜歡
關(guān)聯(lián)分類用戶
“苦”的關(guān)聯(lián)
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
奇趣搭配
教你一招:數(shù)的分類
智趣
讀者(2017年5期)2017-02-15 18:04:18
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 日本人妻一区二区三区不卡影院| 精品久久国产综合精麻豆| 欧美a在线看| 性69交片免费看| 日韩少妇激情一区二区| 精品久久久久成人码免费动漫| 国产福利大秀91| 久久这里只有精品2| 又粗又硬又大又爽免费视频播放| 精品无码国产自产野外拍在线| 91麻豆精品国产91久久久久| 国产丝袜精品| 高潮毛片免费观看| 欧美笫一页| 久久人妻系列无码一区| 婷婷六月天激情| 亚洲精品国偷自产在线91正片| 亚洲综合色在线| 综合人妻久久一区二区精品| 91亚洲视频下载| 国产18在线播放| 免费精品一区二区h| 亚洲一本大道在线| 欧美一级99在线观看国产| 亚洲视频四区| 国产原创自拍不卡第一页| 青草视频网站在线观看| 欧洲熟妇精品视频| 米奇精品一区二区三区| 一级全黄毛片| 91精品日韩人妻无码久久| 五月激情婷婷综合| 伊人激情综合网| 亚洲男人在线天堂| 成人日韩视频| 国产高颜值露脸在线观看| 亚洲另类国产欧美一区二区| 亚洲福利网址| 亚洲成肉网| 1级黄色毛片| 国产精品视频第一专区| 免费在线a视频| 91免费国产在线观看尤物| 天堂成人av| 成人午夜视频在线| 97色婷婷成人综合在线观看| 国产男人天堂| 国产日韩欧美在线播放| 亚洲精品va| 国产精品片在线观看手机版 | 国产91av在线| 91国内视频在线观看| 国产美女免费网站| 国产激爽爽爽大片在线观看| 国产一级视频久久| 国产亚洲一区二区三区在线| 免费人欧美成又黄又爽的视频| 久久精品一卡日本电影 | 亚洲综合亚洲国产尤物| 亚洲综合久久成人AV| 午夜激情福利视频| 亚洲人成成无码网WWW| 国产成人精品视频一区二区电影 | 国产精品网址你懂的| 国产AV无码专区亚洲A∨毛片| 欧美啪啪视频免码| 精品1区2区3区| 91精品国产91欠久久久久| 老色鬼欧美精品| 亚洲精品卡2卡3卡4卡5卡区| 九色91在线视频| 日本一区中文字幕最新在线| 国产aaaaa一级毛片| 久久一色本道亚洲| 国产女人综合久久精品视| 国产日韩丝袜一二三区| 亚洲啪啪网| 亚洲三级a| 欧洲极品无码一区二区三区| 午夜电影在线观看国产1区| 亚洲欧美激情另类| 久久精品亚洲热综合一区二区|