999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間因子的個性化推薦系統(tǒng)的算法改進(jìn)

2015-01-16 03:19:45浙江工業(yè)職業(yè)技術(shù)學(xué)院
電子世界 2015年24期
關(guān)鍵詞:資源用戶方法

浙江工業(yè)職業(yè)技術(shù)學(xué)院 方 杰

基于時間因子的個性化推薦系統(tǒng)的算法改進(jìn)

浙江工業(yè)職業(yè)技術(shù)學(xué)院 方 杰

如何根據(jù)用戶自身特征準(zhǔn)確地向其反饋個性化的推薦,一直是學(xué)術(shù)界和產(chǎn)業(yè)界研究的重點(diǎn)和熱點(diǎn)。本文提出了一種新的個性化推薦方法,該方法在計(jì)算兩個資源相似度時考慮了標(biāo)簽的時間因子,設(shè)計(jì)了合理的時間衰減函數(shù),并以此對已有的推薦算法進(jìn)行了改進(jìn),并在實(shí)際數(shù)據(jù)集中對改進(jìn)前后的個性化推薦算法結(jié)果進(jìn)行了對比,最終的結(jié)果表明了我們提出的方法具備可行性和優(yōu)越性。

時間因子;個性化推薦;社會標(biāo)簽系統(tǒng)

0 引言

目前,社會標(biāo)簽已經(jīng)成為web2.0的主要應(yīng)用之一,用戶可以自由地對網(wǎng)絡(luò)上各種類型的資源,比如視頻、照片等做出個性化的標(biāo)簽。這些標(biāo)簽可以在一定程度上反映用戶的興趣愛好和操作習(xí)慣。而個性化推薦系統(tǒng)恰恰是針對用戶的特點(diǎn)給予推薦,不同的用戶會得到不同的推薦。因此,用戶標(biāo)注的標(biāo)簽在個性化推薦系統(tǒng)中的地位舉足輕重,國內(nèi)外的一些論文對此已經(jīng)做了較深入的研究,并提出了許多有價值的算法。

目前的個性化推薦系統(tǒng)大多是基于資源、標(biāo)簽和用戶的三元關(guān)系,并以此設(shè)計(jì)了多種不同的推薦系統(tǒng)。通常,這些推薦系統(tǒng)都是根據(jù)用戶對資源的評價情況,來獲取用戶的特征,從而做出對用戶興趣的判斷并反饋推薦。但僅憑資源、標(biāo)簽和用戶所設(shè)計(jì)的個性化推薦系統(tǒng)存在著一定的局限性,因?yàn)橛脩魧σ粋€資源的態(tài)度和評價通常會隨著時間的推移而改變。比如用戶幾年前對某一地區(qū)房價的價格評價是“較低”,而現(xiàn)在的評價是“較高”,其實(shí)該用戶更關(guān)心的是當(dāng)前的價格;再比如用戶對某一部科幻電影幾年前的評價是“效果很好”,而隨著特技特效的快速發(fā)展,該用戶對該電影的評價換成了“效果一般”。所以標(biāo)簽?zāi)軌蚍从秤脩舻呐d趣和特點(diǎn)的變化,而這個變化是由時間的推移而造成的。

受到這一思想的啟發(fā),在這篇文章中,我們提出了一個新的個性化推薦方法,把時間因子與標(biāo)簽綁定,在已有的個性化推薦系統(tǒng)的基礎(chǔ)上,融入“最新的標(biāo)簽最能反映用戶的特征”的想法,從而在一定程度上提高推薦的準(zhǔn)確度。

本文的主要貢獻(xiàn)有:

(1)提出了個性化推薦系統(tǒng)加入時間因子的思想。

(2)設(shè)計(jì)了加入時間因子后的推薦系統(tǒng)模型。

(3)使用真實(shí)數(shù)據(jù)集,對所設(shè)計(jì)的模型進(jìn)行驗(yàn)證。

本文第二節(jié)介紹了相關(guān)的基礎(chǔ)工作,第三節(jié)詳細(xì)描述了本模型的設(shè)計(jì)過程,第四節(jié)給出了實(shí)驗(yàn)的方法和結(jié)果,第五節(jié)介紹了文章的結(jié)論和下一步的工作思路。

1 相關(guān)工作

當(dāng)前的標(biāo)簽系統(tǒng)大多是由用戶、標(biāo)簽和資源這三個實(shí)體組成,并且這三個實(shí)體間互相關(guān)聯(lián),即用戶對資源注釋標(biāo)簽,我們把這種關(guān)系記為A,那么標(biāo)簽系統(tǒng)可以描述為一個四元組,即存在一個用戶集U,標(biāo)簽集T,資源集R,以及對用戶來說,一個注釋集合A。這樣可以用D來表示整個標(biāo)簽系統(tǒng),并定義。注釋集合A定義為一個三元組的集合,其中包含用戶,標(biāo)簽,以及資源,即:

個性化推薦系統(tǒng)由標(biāo)簽系統(tǒng)演化而來,秉承“以用戶為中心”的原則,重點(diǎn)研究用戶興趣的獲取方式和獲取效果。在獲取了用戶興趣以后,建立用戶模型,以方便把用戶興趣和資源對應(yīng)起來,最后通過該用戶模型和資源的匹配,進(jìn)行個性化的推薦。

基于經(jīng)典的余弦相似度的算法,Durao和Dolog[1]提出了一個個性化推薦的計(jì)算方法,把一些標(biāo)簽的自身因素融入到了算法中,如標(biāo)簽的代表性和標(biāo)簽的流行度等等。此外,他們的文獻(xiàn)中還給出了兩個資源A和B之間的相似度計(jì)算公式:

其中cos_similarity(TA,TB)是根據(jù)標(biāo)記在A和B兩個資源上的標(biāo)簽所計(jì)算的余弦相似度,而TA={TA1,TA2,TA3……TAn}。DA和DB是資源的評分,其計(jì)算方式為:

其中weigh(Tagi)表示標(biāo)簽的權(quán)重,與該標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的次數(shù)成正比。而其中的representativness(Tagi)表示標(biāo)簽的典型度,類似與資源檢索中的詞頻概念。

2 基于時間因子的個性化推薦方法

基于時間因子的個性化推薦方法就是在使用標(biāo)簽時考慮到每個標(biāo)簽的時間因子,因此我們提出了如下資源相似度的計(jì)算方法:

這與(2)中DA的計(jì)算方法有所不同,這樣能夠防止同一標(biāo)簽出現(xiàn)次數(shù)過多而導(dǎo)致該標(biāo)簽在相似度的計(jì)算過程中起到過度決定性作用的情況。

而(3)中的cos_similarity(XATA,XBTB)所表示的是帶有時間因子的余弦相似度計(jì)算方法,其計(jì)算方式為:

其中XAi的表示所對應(yīng)標(biāo)簽的時間因子取值。

對于個性化推薦系統(tǒng)中的所有標(biāo)簽,它們之間的標(biāo)注時間肯定是有差異的。因此,如何合理設(shè)計(jì)時間因子是我們工作的重點(diǎn)。

遵循“最新的標(biāo)簽最能反映用戶的特征”的思想,我們?yōu)闀r間因子X設(shè)計(jì)了一個衰減函數(shù):

其函數(shù)曲線如下:

其中通過函數(shù)計(jì)算所得的時間因子X的值的范圍為[1,2],即函數(shù)能把最新的標(biāo)簽所產(chǎn)生的效果翻倍,而最舊的標(biāo)簽的保持不變。t表示一個時間值,其可取值的區(qū)間為[0,1]。為此,我們需要把個性化推薦系統(tǒng)中每個標(biāo)簽的時間戳si對應(yīng)到t的[0,1]區(qū)間中,數(shù)據(jù)中最新的時間戳記為s0,對應(yīng)到[0,1]區(qū)間中的0;而最舊的時間戳記為sn對應(yīng)到1。則系統(tǒng)中的某一時間戳si對應(yīng)到[0,1]區(qū)間中的值ti的計(jì)算方法為:

下面的例子能直觀的說明該方法的效果:

上面的例子描述了三部電影之間的關(guān)系,它們分別為《木乃伊》、《木乃伊歸來》和《加勒比海盜:黑珍珠的詛咒》。前兩部電影有3個相同的標(biāo)簽:“John Hannah”、“egypt”和“mummy”,而后兩部的電影有4個相同的標(biāo)簽:“sequel”、“action”、“adventure”和“comedy”。按照改進(jìn)前的方法,《木乃伊歸來》和《加勒比海盜:黑珍珠的詛咒》的相似度比《木乃伊》和《木乃伊歸來》的相似度要高。而加入時間因子改進(jìn)以后,《木乃伊》和《木乃伊歸來》的相似度則相對更高,符合它們是同一系列更相似的常理。

3 實(shí)驗(yàn)

為了驗(yàn)證本論文提出的方法,我們用Movielens數(shù)據(jù)展開實(shí)驗(yàn)。MovieLens是歷史最悠久的推薦系統(tǒng)。它由美國Minnesota大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的GroupLens項(xiàng)目組創(chuàng)辦,是一個非商業(yè)性質(zhì)的、以研究為目的的實(shí)驗(yàn)性站點(diǎn)。MovieLens主要使用Collaborative Filtering和Association Rules相結(jié)合的技術(shù),向用戶推薦他們感興趣的電影。Movielens數(shù)據(jù)集中的每一個標(biāo)簽均帶有時間戳,為我們的研究提供了條件。

MovieLens數(shù)據(jù)集包含有10000054個評分,10681部電影,以及71567個用戶對這些電影的所做的95580個標(biāo)簽。由于標(biāo)簽是用戶憑自己的喜好所標(biāo)注,因此對標(biāo)簽的研究存在著很多的局限性,比如用戶拼寫的錯誤、多義詞等都會對實(shí)驗(yàn)帶來噪音。因此我們必須通過適當(dāng)?shù)倪^濾來提高標(biāo)簽的有效性,提高數(shù)據(jù)的質(zhì)量。這里,定義了兩個過濾條件,以提高實(shí)驗(yàn)中數(shù)據(jù)的質(zhì)量。首先,只考慮標(biāo)簽數(shù)量至少有15個的電影,其次,只有至少對10部電影做過評價的用戶才會認(rèn)為是有效的用戶。按照這樣的條件,最終采用的數(shù)據(jù)的統(tǒng)計(jì)信息如表四所示,即有3390部電影,1151個用戶,以及他們所做出的2645個標(biāo)簽,如表2所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)

在通過我們提出的方法計(jì)算完所有電影之間的相似度以后,便采用信息檢索領(lǐng)域的標(biāo)準(zhǔn)度量來評價本文所提出的方法。把數(shù)據(jù)集分成訓(xùn)練集和驗(yàn)證集兩部分,對每一個用戶,我們選取了帶有時間因子的相似度的最高的N部電影作為推薦。然后與該用戶數(shù)據(jù)集中的電影做對比,來計(jì)算推薦的精度。在我們的實(shí)驗(yàn)中,N的取值為5。

基于以上的方法,我們對兩種方法進(jìn)行了對比:

表2 兩種方法的整體精度

其中 TBR-CS是通過簡單余弦相似度的計(jì)算方法:

Similarity(A,B)=(DA+DB)*cos_similarity(TA,TB)。

TBR-TF是基于時間因子的相似度計(jì)算方法:

Similarity(A,B)=(DA+DB)*cos_similarity(XATA,XBTB)。

4 結(jié)論

實(shí)驗(yàn)比較了兩種方法下,個性化推薦系統(tǒng)的推薦準(zhǔn)確度。

從實(shí)驗(yàn)的結(jié)果來看基于時間因子的個性化推薦方法有一定的優(yōu)越性。在今后的工作中,我們將進(jìn)一步改進(jìn)時間衰減函數(shù),并考慮更多的影響因素,采用更先進(jìn)的方法來展開研究。

[1]F.DuraoandDolog,Apersonalizedtag-basedrecommendationin socialwe systems,WorkshoponAdaptationandPersonalizationforWeb2.0,UMAP,09,2009.

[2]F.GedikliandD.Jannach,Ratingitemsbyratingtags,RecSys,10,2010.

[3]S.Zhao,N.Du,A.Nauerz,X.Zhang,Q.Yuan,andR.Fu,Improvedrec ommendationbasedoncollaborativetaggingbehaviors,IUI,08,2008.

[4]A.Shepitsen,J.Gemmell,B.Mobasher,andR.Burke,Personalize drecommendationinsocialtaggingsystemsusinghierarchicalclustering,R ecSys’08,2008.

[5]G.Xu,Y.Gu,P.Dolog,Y.Zhang,andM.Kitsuregawa,SemRec: ASemanticEnhancementFrameworkforTagbasedRecommendation,A AAI’11,2011.

[6]C.Leung,S.Chan,F.Chung,andG.Ngai,Aprobabilisticratinginferencefra meworkformininguserpreferencesfromreviews,www’11,2011.

[7]J.Wiebe,T.Wilson,R.Bruce,M.Bell,andMMartin,Learningsubj ectivelanguage,Comput.Linguist.,Vol.30,pp.277–308,2004.

[8]C.Whitelaw,N.Garg,andS.Argamon,Usingappraisalgroupsfors entimentanalysis,CIKM’05,pp.625–631,2005.

[9]J.KampsandM.Marx,Wordswithattitude,InProc.oftheFirstInte rnationalConferenceonGlobalWordNet,pp.332–341,2002.

[10]B.Pang,L.Lee,andS.Vaithyanathan,Thumbsup?sentimentclass ifcationusingmachinelearningtechniques,InEMNLP,2002.

[11]B.Liu,M.Hu,andJ.Cheng,Opinionobserver:analyzingandcom paringopinionsontheweb,InWWW,pp.342–351,2005.

[12]C.Scaffidi,K.Bierhoff,E.Chang,M.Felker,H.Ng,andC.Jin,RedOpal:product-featurescoringfromreviews,Proceedingsofthe8thAC MconferenceonElectroniccommerce,2007.

[13]L.Zhuang,F.Jing,andX.Zhu.Moviereviewminingandsummar ization,,InProceedingsofthe15thACMinternationalconferenceonInfor mationandknowledgemanagement,pp.43-50,2006.

[14]P.Heymann,D.Ramage,andH.Molina,Socialtagprediction, InSung-HyonMyaeng,DouglasW.Oard,FabrizioSebastiani,Tat-SengChua, andMun-KewLeong,editors,SIGIR,pp.531–538,2008.

猜你喜歡
資源用戶方法
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲第一视频网| 无码视频国产精品一区二区| 91外围女在线观看| 伊在人亞洲香蕉精品區| 综合五月天网| 97国产在线视频| 最新亚洲人成无码网站欣赏网| 国产95在线 | 青青青视频蜜桃一区二区| 视频二区欧美| 五月婷婷精品| www.99在线观看| 高清色本在线www| 综合久久五月天| 成人午夜天| 午夜a视频| 夜精品a一区二区三区| 99精品在线看| 国产99视频精品免费视频7 | 亚洲天堂免费观看| jizz国产视频| 欧美激情综合一区二区| 久草性视频| 国产精品美人久久久久久AV| 国产精品亚洲欧美日韩久久| 成人va亚洲va欧美天堂| 久久性妇女精品免费| 亚洲第一成年网| 波多野结衣在线一区二区| 国产精品三级专区| 日本久久免费| 日本免费福利视频| 精品无码一区二区三区电影| 人妻免费无码不卡视频| 色哟哟国产精品一区二区| 久久影院一区二区h| 亚洲乱强伦| 99久久婷婷国产综合精| 五月婷婷综合网| 国产在线日本| 综合亚洲网| 国产精品私拍99pans大尺度| 久久情精品国产品免费| 国产三级成人| 亚洲伊人久久精品影院| 国产日产欧美精品| 最新国产麻豆aⅴ精品无| 91成人在线观看视频| 免费人欧美成又黄又爽的视频| 国产高清在线精品一区二区三区| 五月婷婷激情四射| 久久国产亚洲偷自| 尤物视频一区| 在线观看免费国产| 69国产精品视频免费| 国产96在线 | 亚洲无码91视频| 日本不卡在线播放| 国产精品国产三级国产专业不| 国产精品亚洲αv天堂无码| 国产成人亚洲欧美激情| 日韩a在线观看免费观看| 国产高清色视频免费看的网址| 美女国产在线| 日韩AV手机在线观看蜜芽| 亚洲国产在一区二区三区| 国产精品蜜臀| 婷五月综合| 国产无人区一区二区三区| 欧美一级黄色影院| 日韩天堂在线观看| AV不卡在线永久免费观看| 亚洲精品黄| 国产高清又黄又嫩的免费视频网站| 深夜福利视频一区二区| 国产在线一区视频| 亚洲视频在线青青| 亚洲三级电影在线播放| 国产老女人精品免费视频| 91无码人妻精品一区| 日韩资源站| 欧美成人精品在线|