999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合用戶主題興趣與用戶行為的文檔推薦方法

2017-07-18 10:53:20張桂平翟順龍王裴巖
中文信息學(xué)報(bào) 2017年3期
關(guān)鍵詞:融合用戶方法

張桂平,翟順龍,王裴巖

(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

一種融合用戶主題興趣與用戶行為的文檔推薦方法

張桂平,翟順龍,王裴巖

(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

針對(duì)單一角度描述用戶興趣存在片面性的問(wèn)題,該文提出一種融合用戶主題興趣和用戶行為的文檔推薦方法。一方面從主題興趣的角度,構(gòu)建反映用戶主題興趣的主題向量用戶模型;另一方面從用戶行為的角度,構(gòu)建反映用戶行為興趣的打分矩陣用戶模型。然后,基于上述用戶模型提出了兩種文檔推薦方法,并采用線性加權(quán)的方式融合這兩種方法,從而實(shí)現(xiàn)對(duì)用戶主題興趣與用戶行為的融合。實(shí)驗(yàn)結(jié)果表明,該方法的推薦結(jié)果好于協(xié)同過(guò)濾推薦方法和基于內(nèi)容的推薦方法。

用戶模型;主題興趣;用戶行為;文檔推薦

1 引言

信息過(guò)載是當(dāng)今大數(shù)據(jù)環(huán)境中最嚴(yán)重的問(wèn)題之一。推薦系統(tǒng)作為有效緩解該問(wèn)題的方法,受到越來(lái)越多的關(guān)注。如何充分利用用戶數(shù)據(jù)來(lái)進(jìn)一步提高推薦系統(tǒng)的性能和用戶滿意度,成為大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的主要任務(wù)[1]。

在推薦系統(tǒng)中,用戶模型實(shí)現(xiàn)了對(duì)用戶興趣偏好的分析,是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)之一,通常是通過(guò)對(duì)用戶關(guān)注的物品內(nèi)容或用戶交互行為的分析來(lái)構(gòu)建用戶模型。但無(wú)論是基于物品內(nèi)容或基于用戶交互行為的方法,其根本都是從不同角度對(duì)用戶興趣建模。基于物品內(nèi)容的方法利用用戶瀏覽的物品內(nèi)容數(shù)據(jù),從內(nèi)容角度描述用戶興趣點(diǎn)[2]。基于用戶交互行為的方法,利用用戶行為數(shù)據(jù),挖掘用戶行為與用戶興趣點(diǎn)間的關(guān)系[3]。但是用戶的興趣是復(fù)雜多變的,從一個(gè)角度去對(duì)用戶的興趣進(jìn)行描述存在一定的片面性。并且,這兩種方法是利用用戶或物品間的相似程度來(lái)進(jìn)行推薦,對(duì)用戶行為數(shù)據(jù)的依賴(lài)程度較高。如果沒(méi)有足夠的用戶行為數(shù)據(jù),就會(huì)造成數(shù)據(jù)稀疏,從而導(dǎo)致推薦質(zhì)量下降。

本文利用Blei等人提出的LDA(latent dirichlet allocation)[4-6]主題模型從兩個(gè)不同的角度來(lái)構(gòu)建用戶模型,從而更加全面地對(duì)用戶興趣進(jìn)行描述。一方面從主題興趣的角度,選擇用戶感興趣的文檔來(lái)構(gòu)建反映用戶主題興趣的主題向量用戶模型;另一方面從用戶行為的角度,選擇用戶近期對(duì)文檔的打分來(lái)構(gòu)建反映用戶行為興趣的打分矩陣用戶模型。采用線性加權(quán)的方法融合這兩種推薦方法,從而能夠從主題興趣和用戶行為兩方面來(lái)全面描述用戶的興趣。同時(shí),在對(duì)用戶行為建模的過(guò)程中融入文本內(nèi)容信息,減弱了對(duì)用戶行為數(shù)據(jù)的依賴(lài)性。

2 相關(guān)研究

目前推薦方法可以分為以下幾類(lèi): (1)基于內(nèi)容的推薦方法[7];(2)協(xié)同過(guò)濾推薦方法[8-9];(3)基于知識(shí)的推薦方法[10];(4)基于數(shù)據(jù)挖掘的推薦方法[11]。其中基于知識(shí)的推薦方法不能自我學(xué)習(xí),很難獲得足夠的知識(shí)進(jìn)行模型構(gòu)建[10]。基于數(shù)據(jù)挖掘的推薦方法存在著抽取關(guān)聯(lián)規(guī)則難、個(gè)性化程度低等問(wèn)題[12]。因此一般認(rèn)為,協(xié)同過(guò)濾推薦方法和基于內(nèi)容的推薦方法是推薦系統(tǒng)最基本的兩類(lèi)推薦方法[13-14],但是這兩種方法也存在一些問(wèn)題。在協(xié)同過(guò)濾推薦方法中,最常用的兩種方法分別是基于用戶的方法和基于物品的方法[8]。這兩種方法是利用用戶或物品間的相似程度來(lái)進(jìn)行推薦,對(duì)用戶行為數(shù)據(jù)的依賴(lài)程度較高。如果沒(méi)有足夠的用戶行為數(shù)據(jù)就會(huì)造成數(shù)據(jù)稀疏,從而導(dǎo)致推薦質(zhì)量下降[11]。在基于內(nèi)容的推薦方法中,通常需要利用空間向量的方法對(duì)用戶興趣和文檔進(jìn)行表示,然后根據(jù)用戶興趣向量與文檔向量的相似程度進(jìn)行推薦。但是隨著文檔數(shù)量的不斷增加,向量空間維度及計(jì)算量也不斷增大,如果限制了向量空間的維度,則又不能全面反映用戶多方面的興趣,從而導(dǎo)致推薦的準(zhǔn)確性降低[15-16]。

本文的推薦方法與協(xié)同過(guò)濾推薦方法和基于內(nèi)容的推薦方法相比,存在以下優(yōu)點(diǎn): (1)利用LDA主題模型具有降維、保存文檔語(yǔ)義的優(yōu)點(diǎn),對(duì)文檔進(jìn)行主題化,從而使文檔從高維的詞空間映射到低維的語(yǔ)義空間,進(jìn)而降低文檔維度。(2)在對(duì)用戶行為建模的過(guò)程中融入文本內(nèi)容信息以減弱對(duì)用戶行為的依賴(lài)性。(3)從用戶的主題興趣和用戶的行為興趣兩方面來(lái)對(duì)用戶的興趣進(jìn)行更加全面的描述。

3 模型構(gòu)建

用戶模型的表示采用了兩種表現(xiàn)形式: 采用LDA主題模型中的“文檔—主題”分布來(lái)表示用戶的主題興趣;利用用戶對(duì)瀏覽過(guò)文檔的打分構(gòu)建出“用戶—文檔”打分矩陣來(lái)表示用戶行為。

3.1 主題向量用戶模型的構(gòu)建

主題向量用戶模型把用戶的興趣定義為用戶對(duì)不同主題的偏好程度,而LDA主題模型中的“文檔—主題”層可以表示一篇文檔在各個(gè)主題下的生成概率,所以本文選擇LDA主題模型中的“文檔—主題”層來(lái)構(gòu)建用戶模型。

首先,利用LDA主題模型對(duì)文檔集合進(jìn)行主題生成,即把所有的文檔表示成主題向量的形式。然后,從用戶近期瀏覽的文檔中,抽取在“[0-1]”打分區(qū)間上得分大于或等于0.5的n篇文檔。最后,計(jì)算這些文檔主題向量的中心向量,作為該用戶的主題向量用戶模型。用戶u的主題向量用戶模型的計(jì)算方法如式(1)所示。

其中,n表示用戶近期瀏覽的并且得分大于或等于0.5的文檔數(shù);dm表示文檔的主題向量;lu表示用戶u的主題興趣向量;lu的形式為lu=(pu,1,pu,2,…,pu,t),其中pu,t表示用戶u對(duì)于主題t的偏好程度。

3.2 打分矩陣用戶模型的構(gòu)建

通過(guò)收集用戶對(duì)近期瀏覽文檔的打分能夠獲取用戶的行為特征,從而能夠衡量出用戶對(duì)不同文檔主題的偏好程度,所以本文利用用戶的打分?jǐn)?shù)據(jù)構(gòu)建出“用戶—文檔”的打分矩陣來(lái)表示用戶模型,其打分矩陣定義如式(2)所示。

(2)

其中,sui,dj表示用戶ui對(duì)文檔dj的打分,具體打分值由系統(tǒng)的打分機(jī)制確定,例如采用“1~5”分的打分機(jī)制,打分值越高表示用戶越喜歡該篇文檔,“0”表示用戶尚未瀏覽該篇文檔。

李林貴等人[17]指出用戶的興趣會(huì)隨著時(shí)間的推移而發(fā)生變化。為了更好地反映用戶興趣的變化,按照時(shí)間順序選取前k篇文檔的用戶打分來(lái)表示用戶最近一段時(shí)間的興趣,以排除用戶的歷史興趣對(duì)當(dāng)前興趣的影響。

打分矩陣用戶模型如式(3)所示。

其中,matu表示用戶u的打分矩陣用戶模型,di表示文檔的主題向量,sk表示用戶對(duì)瀏覽過(guò)的第k篇文檔的打分值,并將其映射到“[0-1]”區(qū)間上。

4 文檔推薦

本文利用上述兩種用戶模型提出基于主題向量用戶模型的文檔推薦方法與基于打分矩陣用戶模型的文檔推薦方法,并采用線性加權(quán)的方式將兩種文檔推薦方法進(jìn)行融合。

4.1 基于主題向量用戶模型的文檔推薦方法

將文檔集中的每篇文檔分別與lu進(jìn)行相似度計(jì)算,并按照計(jì)算的結(jié)果對(duì)文檔集進(jìn)行排序。排在前面的文檔與用戶u的興趣更相似,進(jìn)而把該文檔推薦給用戶。

本文采用余弦相似度的方法來(lái)計(jì)算文檔d與lu的相似度vu,d,其計(jì)算方法見(jiàn)式(4)。

4.2 基于打分矩陣用戶模型的文檔推薦方法

根據(jù)打分矩陣用戶模型可以獲取用戶u近期瀏覽的k篇文檔及對(duì)應(yīng)打分值。對(duì)于每篇文檔找出與之最相似的m篇文檔。最后根據(jù)打分值和相似度值計(jì)算出用戶u對(duì)文檔d的喜歡程度zu,d,其計(jì)算方法見(jiàn)式(5)。

其中,Nu表示用戶u近期瀏覽過(guò)的k篇文檔;文檔d來(lái)自與文檔di相似度最高的m篇文檔的集合;wd,di是利用余弦相似度方法計(jì)算出的文檔d與文檔di的相似度;cd表示文檔d在相似文檔集中的重復(fù)次數(shù);su,di表示用戶對(duì)文檔di的打分。

4.3 兩種推薦方法的融合

采用線性加權(quán)的方法把兩種推薦方法對(duì)文檔d的打分進(jìn)行加權(quán),得到文檔d的最終打分scoreu,d。scoreu,d的計(jì)算方法見(jiàn)式(6)。

其中,α表示基于主題向量用戶模型的文檔推薦方法的權(quán)重,1-α表示基于打分矩陣用戶模型的文檔推薦方法的權(quán)重。

文檔推薦流程如圖1所示,包括以下幾部分: (1)獲取用戶的行為數(shù)據(jù),從這些行為數(shù)據(jù)中分別抽取出用戶近期瀏覽的文檔和用戶對(duì)這些文檔的打分;(2)利用LDA主題模型對(duì)文檔集進(jìn)行主題化;(3)構(gòu)建主題向量用戶模型和打分矩陣用戶模型;(4)根據(jù)這兩種用戶模型分別生成推薦結(jié)果;(5)對(duì)兩種用戶模型生成的推薦結(jié)果進(jìn)行融合,生成最終推薦結(jié)果;(6)把融合后的推薦結(jié)果展現(xiàn)給用戶,根據(jù)用戶的反饋對(duì)用戶模型進(jìn)行更新,生成新的推薦結(jié)果。

圖1 文檔推薦流程圖

5 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文收集了1 654篇中英論文,并獲取了2 768條用戶對(duì)瀏覽過(guò)論文的打分?jǐn)?shù)據(jù)。每條數(shù)據(jù)的表示形式為“{UserID,PaperID,Score,Date}”,依次表示用戶的ID、瀏覽論文的編號(hào)、打分及時(shí)間。本文首先對(duì)1 654篇文檔集進(jìn)行分詞、去停用詞、去低頻高頻詞等預(yù)處理,然后選擇馬薩諸塞大學(xué)CIIR中心的LDA主題模型工具把文檔表示成200維[18]的“文檔—主題”形式,最后篩選出35個(gè)瀏覽論文數(shù)量超過(guò)20篇的用戶,并將其行為數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。

5.2 評(píng)價(jià)方法及指標(biāo)

本文采用MeanP(平均正確率)對(duì)推薦結(jié)果進(jìn)行評(píng)價(jià),從而檢驗(yàn)用戶模型對(duì)用戶行為的預(yù)測(cè)能力。MeanP是對(duì)所有用戶推薦正確率的平均值,其值越高表示推薦結(jié)果越好。其計(jì)算方法見(jiàn)式(6)。

其中,U表示用戶的集合;u表示用戶集合中的一個(gè)用戶;numu表示對(duì)用戶u推薦正確的個(gè)數(shù);sumu表示對(duì)用戶u推薦的總數(shù)。

5.3 模型參數(shù)選擇

在構(gòu)建主題向量用戶模型中,要選取合適的n篇文檔來(lái)構(gòu)建用戶模型,需要對(duì)參數(shù)n進(jìn)行選擇來(lái)使該用戶模型達(dá)到最優(yōu)。為此本文設(shè)計(jì)了四組實(shí)驗(yàn),如圖2所示,其中橫軸表示選取文檔數(shù)量n,縱軸“MeanP@20”表示推薦20篇文檔時(shí),不同n值對(duì)應(yīng)的MeanP值。

由圖2可知,當(dāng)n=15時(shí),MeanP值最大;當(dāng)n<15時(shí),MeanP值隨n增加而變大,說(shuō)明n的取值偏小時(shí),可能會(huì)使用戶模型不能全面地反映用戶的興趣;當(dāng)n>15時(shí),而MeanP值變小,說(shuō)明n的取值過(guò)大時(shí),可能會(huì)引入用戶歷史興趣的干擾。所以本文選取用戶近期15篇打分大于或等于0.5的文檔來(lái)構(gòu)建主題向量用戶模型。

圖2 主題向量用戶模型的參數(shù)選擇

在構(gòu)建打分矩陣用戶模型時(shí),不僅要獲取用戶近期瀏覽的k篇文檔及其對(duì)應(yīng)的打分,而且還要為每篇文檔找到最相似的m篇文檔。為此本文采用窮舉法設(shè)計(jì)了20組實(shí)驗(yàn),即k分別取5、10、15、20,m分別取5、10、15、20、25,并對(duì)它們進(jìn)行組合,得到相應(yīng)的MeanP值,其結(jié)果如圖3所示,其中橫軸表示實(shí)驗(yàn)的組次,縱軸表示在推薦文檔數(shù)為20時(shí),不同組次所對(duì)應(yīng)的MeanP值。

從圖3可知,在k=20,m=5時(shí)MeanP值最大,即打分矩陣用戶模型達(dá)到最優(yōu)。

圖3 打分矩陣用戶模型的參數(shù)選擇

5.4 實(shí)驗(yàn)結(jié)果

本文所提出的文檔推薦方法的實(shí)驗(yàn)結(jié)果如圖4所示,圖中橫坐標(biāo)表示推薦的文檔數(shù),縱坐標(biāo)表示對(duì)應(yīng)的MeanP值,α表示基于主題向量用戶模型的文檔推薦方法的權(quán)重。

圖4 融合方法的實(shí)驗(yàn)結(jié)果

由圖4可以得知: (1)基于主題向量用戶模型的文檔推薦方法在推薦效果上要略好于基于打分矩陣用戶模型的文檔推薦方法。當(dāng)α為0和α為1時(shí),在不同推薦文檔數(shù)上,基于主題向量用戶模型的文檔推薦方法的推薦效果均好于基于打分矩陣用戶模型的文檔推薦方法。(2)融合后的推薦效果與權(quán)重大小有一定的關(guān)系。推薦文檔數(shù)一定時(shí),當(dāng)α為0.2時(shí),融合后的推薦效果要優(yōu)于基于打分矩陣用戶模型的文檔推薦方法,但低于基于主題向量用戶模型的文檔推薦方法;當(dāng)α大于或等于0.4時(shí),采用不同權(quán)重融合策略的文檔推薦方法在推薦效果上均優(yōu)于沒(méi)有采用融合策略的文檔推薦方法,說(shuō)明融合后的文檔推薦方法在推薦效果上具有一定的穩(wěn)定性,同時(shí)也反映出兩種用戶模型具有一定的互補(bǔ)性。雖然,兩種用戶模型都不同程度上采用了LDA主題模型,但是主題向量用戶模型更加偏向描述用戶在主題上的興趣,而打分矩陣用戶模型更加偏向描述用戶在行為上實(shí)時(shí)的興趣,當(dāng)采用適當(dāng)?shù)臋?quán)重對(duì)兩者進(jìn)行融合時(shí),更能反映用戶的興趣。

5.5 對(duì)比實(shí)驗(yàn)

本文選擇推薦效果較好的α為0.6時(shí)的融合方法與基于用戶的協(xié)同推薦方法(UserCF)、基于物品的協(xié)同推薦方法(ItemCF)及基于內(nèi)容(Content)的方法進(jìn)行對(duì)比。UserCF、ItemCF是文獻(xiàn)[3]中的方法;基于內(nèi)容的推薦方法先利用LDA主題模型把文檔進(jìn)行主題化,然后根據(jù)用戶瀏覽過(guò)的文檔尋找相似文檔來(lái)進(jìn)行推薦。在本文數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如圖5所示。

為了更好地驗(yàn)證本文方法的有效性,本文還采用了CiteULike*http://www.citeulike.org/faq/data.adp作為對(duì)比實(shí)驗(yàn)的數(shù)據(jù)集。該數(shù)據(jù)集共收集了16 980篇英文文獻(xiàn)的摘要和5 551名用戶在瀏覽文獻(xiàn)時(shí)的打分?jǐn)?shù)據(jù)。在對(duì)比實(shí)驗(yàn)中按照5.1節(jié)中介紹的方法對(duì)16 980篇文檔摘要進(jìn)行預(yù)處理,并篩選出500名瀏覽文獻(xiàn)數(shù)量超過(guò)40篇的用戶作為實(shí)驗(yàn)對(duì)象。圖6為在CiteULike數(shù)據(jù)集上α值對(duì)融合方法效果的影響。從圖6可見(jiàn),α=0.6時(shí),相對(duì)效果最好,與5.1節(jié)所介紹的數(shù)據(jù)集上的結(jié)果相同,說(shuō)明參數(shù)α具有一定的魯棒性。對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。

圖5 對(duì)比實(shí)驗(yàn)結(jié)果

圖6 在CiteULike數(shù)據(jù)集上融合方法的實(shí)驗(yàn)結(jié)果

圖7 在CiteULike數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

從圖5和圖7上都可以看出,在不同推薦文檔數(shù)上,采用本文融合方法的推薦效果要優(yōu)于UserCF、ItemCF、Content方法,說(shuō)明本文提出的推薦方法能夠更加準(zhǔn)確地預(yù)測(cè)用戶的興趣。

5.6 實(shí)驗(yàn)結(jié)果分析

為了進(jìn)一步分析融合后推薦效果提升的原因,本文選取推薦文檔數(shù)為5的情況,分析在不同融合權(quán)重下, 正確推薦結(jié)果在基于主題向量用戶模型的文檔推薦方法和基于打分矩陣用戶模型的文檔推薦方法中的排名。利用排名之和反映融合后正確的推薦結(jié)果在兩種文檔推薦方法中的排名情況。排名之和越小說(shuō)明該推薦結(jié)果在兩種文檔推薦方法中的排名越靠前,反之則說(shuō)明排名越靠后。將排名之和分成不同的區(qū)間,并統(tǒng)計(jì)出各個(gè)區(qū)間在正確推薦結(jié)果中所占的百分比。統(tǒng)計(jì)結(jié)果如圖8所示。例如“(0-10]”表示融合后正確推薦結(jié)果在兩種文檔推薦方法中排名之和在“(0-10]”的部分,其對(duì)應(yīng)的縱軸值表示該區(qū)間在全部正確推薦結(jié)果中所占的百分比。

圖8 不同區(qū)間在正確推薦結(jié)果中所占的百分比

另外,本實(shí)驗(yàn)還統(tǒng)計(jì)了在上述區(qū)間內(nèi),不同權(quán)重下兩種推薦結(jié)果的排名之差的平均值,用來(lái)反映融合后正確的推薦結(jié)果在兩種文檔推薦方法中排名的差異性,排名之差越大說(shuō)明該推薦結(jié)果在兩種文檔推薦方法中排名差異越大。結(jié)果如圖9所示,縱軸值為排名之差的平均值。

圖9 不同區(qū)間中排名之差的平均值

從圖8中可以看出,區(qū)間“(0-10]”“(10-20]”“(20-30]”在四種權(quán)重下共占正確推薦結(jié)果的比重分別為68.18%、76.53%、83.81%、80.19%,說(shuō)明用戶興趣主要集中于在兩種文檔推薦方法中排名都靠前的文檔上。在這些區(qū)間里,推薦結(jié)果在兩種文檔推薦方法中的排名之和均小于或等于30,結(jié)合圖9可以看出這三個(gè)區(qū)間在兩種文檔推薦方法中的排名差值也較小,說(shuō)明這些推薦正確的結(jié)果在兩種文檔推薦方法中的排名都相對(duì)比較靠前,融合后其排名之所以能進(jìn)入前5名,是兩種文檔推薦方法共同作用的結(jié)果。對(duì)于區(qū)間“(30-40]”“(40-50]”“(50-60]”和“(60,∞)”,其推薦結(jié)果在兩種文檔推薦方法的結(jié)果中的排名之和均大于30,并且結(jié)合圖9可以看出這四個(gè)區(qū)間的排名差值也較大,說(shuō)明這些推薦結(jié)果在其中一種文檔推薦方法的排名較靠前,而在另一種文檔推薦方法中排名比較靠后,其融合后之所以能夠進(jìn)入前5名,主要是單一方法作用的結(jié)果,說(shuō)明這兩種文檔推薦方法具有一定的互補(bǔ)性,也說(shuō)明主題向量用戶模型與打分矩陣用戶模型具有一定的互補(bǔ)性,因此,從主題興趣和用戶行為兩方面建模更能充分體現(xiàn)用戶興趣。

以用戶“018”為例,按照時(shí)間先后順序選取用戶“018”的前20條行為數(shù)據(jù)來(lái)構(gòu)建基于打分矩陣用戶模型,抽取15條得分在0.5以上的文檔來(lái)構(gòu)建基于主題向量用戶模型,并在α為0.6的權(quán)重下進(jìn)行融合。用戶“018”的行為數(shù)據(jù)如表1所示;表2分別給出了基于主題向量用戶模型的推薦方法、基于打分矩陣用戶模型的推薦方法及融合方法的推薦結(jié)果,并展示了融合方法的結(jié)果來(lái)源,其中Y表示推薦結(jié)果正確;N表示推薦結(jié)果錯(cuò)誤。

表1 文檔名稱(chēng)及打分值

續(xù)表

表2 不同推薦方法的推薦結(jié)果

從表2中可以看出基于打分矩陣用戶模型的文檔推薦方法的正確率為40%,基于主題向量用戶模型的文檔推薦方法的正確率為80%,而融合方法的正確率為100%,表明融合方法的推薦效果要優(yōu)于單一的推薦方法。其融合后推薦效果提升的原因主要有以下兩點(diǎn)。

第一,從用戶的瀏覽行為上可以得知用戶的興趣主要集中在“潛在語(yǔ)義”上,用戶對(duì)其瀏覽過(guò)的“基于潛在語(yǔ)義分析的個(gè)性化查詢擴(kuò)展”打分為“1”,但這篇文檔既包含“潛在語(yǔ)義”這個(gè)主題又包含了“信息檢索”這個(gè)主題。在基于打分矩陣用戶模型的文檔推薦方法中的“基于N層向量空間模型的信息檢索算法”“基于向量的相似度計(jì)算方法”“基于向量空間模型的中文信息檢索技術(shù)研究”三篇文檔由于含有“信息檢索”這個(gè)主題,從而使這三篇文檔分別與文檔“基于潛在語(yǔ)義分析的個(gè)性化查詢擴(kuò)展”具有0.919、0.901、0.867的相似度,最終導(dǎo)致它們?cè)诨诖蚍志仃囉脩裟P偷奈臋n推薦方法上得分偏高;另外,由于該三篇文檔與用戶的主題興趣不相同,所以在基于主題向量用戶模型的文檔推薦方法中得分相對(duì)較低,分別為0.569、0.479、0.551;最終將兩種推薦方法按照0.6的權(quán)重融合后,得分僅為0.709、0.648、0.678,使其在融合方法中排名均在5名之后。其次,對(duì)于基于主題向量用戶模型的文檔推薦方法中的“一種義項(xiàng)矩陣模型SMM”文檔,雖然在基于主題向量用戶模型的文檔推薦方法中得分為0.917,但是與用戶近期瀏覽過(guò)的20篇文檔相似度均不高,因此其在基于打分矩陣用戶模型的文檔推薦方法中得分為0,使其在融合方法中排在5名之后。這說(shuō)明融合后的推薦方法能夠排除在單一推薦方法中打分較高而在另一推薦方法中打分較低的文檔,且這些文檔往往不是用戶感興趣的文檔。

第二,在表2中,融合方法中排名前5的文檔在基于打分矩陣用戶模型的文檔推薦方法中的排名分別為1、2、13、6、7,在基于主題向量用戶模型的文檔推薦方法中的排名分別為10、11、2、15、13,說(shuō)明融合后的文檔往往是來(lái)自于在兩種文檔推薦方法中排名都比較靠前的文檔,而且從用戶對(duì)推薦結(jié)果的評(píng)價(jià)可知,這些文檔往往是用戶感興趣的文檔,同時(shí)也印證了用戶興趣主要集中于在兩種推薦方法中排名均較高的文檔集上。

6 結(jié)束語(yǔ)

本文利用LDA主題模型和通過(guò)對(duì)用戶行為數(shù)據(jù)的分析,構(gòu)建兩種用戶模型,即基于主題向量用戶模型和基于打分矩陣用戶模型,并將這兩種用戶模型應(yīng)用到文檔推薦中,最后將兩種推薦結(jié)果進(jìn)行融合,得到了較好的推薦結(jié)果。但是在推薦過(guò)程中并沒(méi)有考慮用戶之間的相似關(guān)系,所以在下一步的工作中要把用戶間的關(guān)系信息融合到推薦算法當(dāng)中,以期獲得更好的結(jié)果。

[1] 孟祥武, 紀(jì)威宇, 張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報(bào), 2015, 38(2): 1-15.

[2] Pazzani M J, Billsus D. Content-based recommendation systems[M]. The Adaptive Web. Springer Berlin Heidelberg, 2007: 325-341.

[3] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th international conference on World Wide Web. ACM, 2001: 285-295.

[4] Blei D, Ng A, Jordan M.Latent dirichlet allocation[J].The Journal of Machine Learning Research, 2003, 1(9): 993-1022.

[5] Blei D.Probabilistic topic models[J].Communications of the ACM,2010, 55(6): 77-84.

[6] 趙鵬, 蔡慶生, 王清毅.一種用于文章推薦系統(tǒng)中的用戶模型表示方法[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2007, 17(1): 4-5.

[7] Han Peng, Xie Bo, Yang Fan. A scalable P2P recommender system based on distributed collaborative filtering[J].Expert Systems with Applications, 2004, 27(2): 203-210.

[8] Schafer J B, Dan F, Herlocker J, et al.Collaborative filtering recommender systems[M].The Adaptive Web Springer: Berlin Heidelberg, 2007: 291-324.

[9] Papagelis M, Plexousakis D. Qualitative analysis of userbased and item-based prediction algorithms for recommendation systems, CIA 2004.[C]//International Journal of Engineering Applications of Artificial Intelligence. 2004: 152-166.

[10] 許海玲, 吳瀟, 李曉東, 等.互聯(lián)網(wǎng)推薦系統(tǒng)比較[J].軟件學(xué)報(bào), 2009, 20(2): 350-362.

[11] Liu Duenren, Lai Chinhui, Huang Chiuwen. Document recommendation for knowledge sharing in personal folder environments[J].Journal of Systems and Software, 2008, 81(8): 1377-1388.

[12] Lazcorreta E, Botella F, Fernández-Caballero A. Towards personalized recommendation by two-step modified Apriori data mining algorithm[J].Expert Systems with Applications, 2008, 35(3): 1422-1429.

[13] 李忠俊, 周啟海, 帥青紅.一種基于內(nèi)容和協(xié)同過(guò)濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué), 2009, 36(12): 142-145.

[14] Yu K, Xu X,Schwaighofer A, et al. Removing redundancy and inconsistency in memory-based collaborative filtering[C]//Proceedings of the 11th International Conference on Information and Knowledge Management. New York: ACM Press, 2002: 52-59.

[15] Chen J, Nairn R, Nelson L, et al. Short and tweet: experiments on recommending content from information streams[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Atlanta: ACM, 2010: 1185-1194.

[16] 徐戈, 王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào), 2011, 34(8): 1423-1436.

[17] 李貴林, 楊禹琪, 高星, 等.企業(yè)搜索引擎?zhèn)€性化表示與結(jié)果排序算法研究[J].計(jì)算機(jī)研究與發(fā)展, 2014, 51(1): 206-214.

[18] 唐曉麗, 白宇, 張桂平, 等.一種面向聚類(lèi)的文本建模方法[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2014, 37(4): 596-600.

ADocumentRecommendationMethodbyCombiningofTopicsandBehaviors

ZHANG Guiping, ZHAI Shunlong, WANG Peiyan

(Human Computer Intelligence Research Center, College of Computer, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)

This paper proposes a method by combining the topic and the behavior to describe the user interest. On the one hand, from the perspective of the topics, a topic vector model is constructed to reflect the user’s interest in topic. On the other hand, from the perspective of behavior, a score matrix model is constructed to reflect the user’s interest in behavior. Then, based on two user models, two document recommendation methods are constructed, and then combined by the linear weighted method. Experimental results show that the proposed method is better than the collaborative filtering recommendation method and the content-based recommendation method.

user model; topic interest; user behavior; document recommendation

張桂平(1962—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。

翟順龍(1989—),碩士,主要研究領(lǐng)域?yàn)橹R(shí)工程與知識(shí)管理。

王裴巖(1983—),博士,講師,主要研究領(lǐng)域?yàn)樾畔z索、機(jī)器學(xué)習(xí)。

1003-0077(2017)03-0147-09

2015-10-29定稿日期: 2016-01-11

國(guó)家科技支撐計(jì)劃(2015BAH20F01);國(guó)防科研基礎(chǔ)項(xiàng)目(A0520131003)

TP391

: A

猜你喜歡
融合用戶方法
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 欧美中文字幕在线二区| 日本黄色不卡视频| 国产欧美中文字幕| 女人18毛片一级毛片在线| 3D动漫精品啪啪一区二区下载| 蜜桃视频一区二区| 亚洲第一区在线| 国产日韩丝袜一二三区| 中国成人在线视频| 青青青国产视频手机| 一本综合久久| 久久国产精品影院| 日本一区二区三区精品国产| 国产69精品久久久久孕妇大杂乱 | 成人免费午夜视频| 尤物午夜福利视频| 黄色网页在线观看| 国产一级特黄aa级特黄裸毛片| www亚洲天堂| 亚洲色图欧美| 暴力调教一区二区三区| 国产美女丝袜高潮| 女人毛片a级大学毛片免费| 999国产精品永久免费视频精品久久| 国产成人亚洲欧美激情| 不卡国产视频第一页| 国产美女视频黄a视频全免费网站| 亚洲中文字幕在线一区播放| 欧美日本不卡| 亚洲最大在线观看| 午夜影院a级片| 亚洲第一成年免费网站| 亚洲va欧美va国产综合下载| 在线免费无码视频| 久久77777| 国产精品欧美激情| 欧美性色综合网| 欧美性猛交一区二区三区| 在线观看视频一区二区| 国产成人福利在线| 国产成人午夜福利免费无码r| 久久国产香蕉| 国产精品手机视频一区二区| 日韩精品资源| 呦系列视频一区二区三区| 亚洲第一视频网| 日韩无码视频专区| 欧美中文一区| 国产福利大秀91| 色九九视频| 久久精品只有这里有| 91网站国产| 国产幂在线无码精品| 久久九九热视频| 午夜免费小视频| 欧美性精品不卡在线观看| 嫩草影院在线观看精品视频| 一级香蕉视频在线观看| 青青草国产免费国产| 国产丝袜丝视频在线观看| 欧美日韩另类在线| 在线亚洲天堂| 日韩在线视频网站| 2020国产精品视频| 啊嗯不日本网站| 99久久国产综合精品女同| 天天做天天爱夜夜爽毛片毛片| 欧美亚洲综合免费精品高清在线观看| 九色视频最新网址| 精品国产www| 国产制服丝袜91在线| 国产精品99一区不卡| 3p叠罗汉国产精品久久| 国产后式a一视频| 国产制服丝袜91在线| 激情五月婷婷综合网| a级毛片免费播放| 免费全部高H视频无码无遮掩| 最新精品久久精品| 日韩精品少妇无码受不了| 试看120秒男女啪啪免费| 黄色网址免费在线|