999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

協(xié)同顯式和隱式主題回歸的論文推薦算法

2017-07-01 19:44:37孔功勝
關(guān)鍵詞:內(nèi)容用戶模型

孔功勝

協(xié)同顯式和隱式主題回歸的論文推薦算法

孔功勝

(河南科技大學(xué)圖書館,河南洛陽471023)

針對傳統(tǒng)論文推薦模型存在冷啟動和推薦解釋困難的問題,在協(xié)同主題回歸的基礎(chǔ)上,建立了一種協(xié)同顯式和隱式主題回歸的論文推薦模型。模型中顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度,隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容,該算法能夠?qū)ν扑]結(jié)果給出一定的解釋。在CiteULike數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在不同推薦列表長度下,協(xié)同顯式和隱式主題回歸模型的推薦精度和召回率優(yōu)于協(xié)同過濾和主題回歸模型。

推薦系統(tǒng);協(xié)同過濾;主題回歸;概率模型;論文推薦

0 引言

在線論文數(shù)據(jù)庫已成為科研人員獲取論文信息的重要來源。目前,提供在線論文檢索服務(wù)的方法和形式眾多,但這些方法只適合對已有的研究方向進(jìn)行跟蹤,不能發(fā)現(xiàn)用戶可能感興趣的新方向。論文推薦是一種不同于論文檢索的獲取資源的方法,該方法使用用戶的歷史訪問信息、用戶協(xié)同信息、社交信息等建立用戶的偏好模型,為用戶推薦可能感興趣的論文[1-2]。在論文推薦系統(tǒng)研究方面,協(xié)同過濾[3]和基于內(nèi)容[4]是常用的兩種推薦方法。但由于推薦數(shù)據(jù)的稀疏和內(nèi)容表示的限制,單一采用協(xié)同過濾或基于內(nèi)容的推薦方法的推薦精度都十分有限。融合相關(guān)信息,如特征信息[5]、社交信息[6]、情感信息[7]、協(xié)同主題信息[1]和深度學(xué)習(xí)信息[8]等建立推薦模型成為推薦系統(tǒng)研究的熱點(diǎn)。但已有的方法主要集中在顯式信息特征回歸方面,對隱式主題回歸的研究較少。

考慮到用戶偏好的個性化特點(diǎn),在協(xié)同主題回歸的基礎(chǔ)上,本文提出了一種協(xié)同顯式主題和隱式主題回歸(collaborative hybrid topic regression,CHTR)的論文推薦算法。該算法中,顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度,隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容,如新的方向、良好的表述等。由于該算法包含顯式的主題,因此能夠?qū)ν扑]結(jié)果給出一定的解釋。

1 協(xié)同過濾推薦模型

與產(chǎn)品推薦類似,在論文推薦系統(tǒng)中,用戶對論文的偏好矩陣R∈瓗m×n,rij是矩陣R中第i行第j列的元素,rij∈{0,1},rij取1時表示第i個用戶的論文偏好中包含論文j,rij取0時表示第i個用戶的論文偏好中不包含論文j或者用戶i不知道論文j。論文推薦系統(tǒng)的任務(wù)就是從用戶不知道的論文中推薦用戶喜好的論文。

1.1 矩陣分解模型

矩陣分解模型[9]將用戶對論文的偏好矩陣R分解為用戶潛在屬性因子矩陣U∈瓗m×k和論文潛在屬性因子矩陣V∈瓗n×k,其中,k為潛在屬性因子數(shù)目(k<<m,n),并使UVt盡可能接近R。用戶i對論文j的偏好rij為:

矩陣分解模型代價函數(shù)定義如下:

為求解出潛在屬性因子模型U、V,使代價目標(biāo)函數(shù)最小,即:

為了防止數(shù)據(jù)過擬合,對U、V進(jìn)行正則化處理,相應(yīng)的目標(biāo)函數(shù)為:

其中:λ為正則化系數(shù)。為了使矩陣分解結(jié)果具有解釋性,可限制因子屬性值為非負(fù)值。矩陣分解模型可以泛化為一個概率模型,用戶i對論文j的偏好預(yù)測值r⌒ij為:

其中:cij為預(yù)測值的精度,cij越大,預(yù)測值的精度越高。

1.2 概率主題模型

在概率主題模型[10]中,假定引文是一系列主題的某一分布,此時,引文可以表示為一系列主題的向量。概率主題回歸模型的主要任務(wù)是建立引文的主題表示,在主題表示模型中潛在狄利克雷分布(latent Dirichlet allocation,LDA)模型[11]是近年來應(yīng)用最廣的模型。LDA是一個生成模型,對于引文來說,LDA主題模型的生成過程如下:

(Ⅱ)對于每一篇引文m∈[1,M],確定引文dm將會涉及的主題,選擇~Dir(),表示引文dm中不同主題按多項(xiàng)分布出現(xiàn)的概率。確定引文dm的長度,選擇Nm~Poisson(ξ)。對于引文dm中的每一個詞n∈[1,Nm],選擇一個主題zm,n~Multinomial();依據(jù)wm,n~Multinomial(βzjn)選擇一個詞。

在引文主題模型的基礎(chǔ)上,可以建立引文推薦的主題回歸模型,但主題回歸模型僅能對話題即引文包含的內(nèi)容進(jìn)行推薦,不能對引文內(nèi)容外的其他信息如影響力、表述和結(jié)構(gòu)進(jìn)行推薦。基于此,本文提出了協(xié)同顯式和隱式主題回歸的引文推薦模型。

2 協(xié)同顯式和隱式主題回歸算法

2.1 協(xié)同顯式和隱式主題回歸的概率模型

在協(xié)同顯式和隱式主題回歸推薦模型中,顯式主題使用的LDA模型從引文中生成,隱式主題無法從引文中直接獲取,需要根據(jù)用戶論文的偏好矩陣R使代價函數(shù)最小來確定隱式主題。協(xié)同顯式和隱式主題回歸的概率模型圖如圖1所示。

在協(xié)同顯式和隱式主題回歸概率模型中,主題θj表示式(5)中產(chǎn)品的潛在因子,其中,=[]包含顯式屬性主題和隱式屬性主題,則用戶對引文的偏好預(yù)測值為:

協(xié)同顯式和隱式主題回歸的概率模型產(chǎn)生過程如下:

(Ⅰ)對于每一個用戶i,其潛在因子向量為Ui~N(0,),其中,I為單位矩陣,K為潛在因子數(shù)目。K

圖1 協(xié)同顯式和隱式主題回歸的概率模型圖

(Ⅲ)對于每一個用戶引文對(i,j),其偏好程度為:

2.2 問題求解

協(xié)同顯式和隱式主題回歸概率模型中,產(chǎn)品的顯式主題可以通過LDA模型求解獲得。目標(biāo)函數(shù)為。求解過程使用隨機(jī)梯度下降算法,描述如下。

然后,在負(fù)梯度方向?qū)i和迭代更新,得到目標(biāo)函數(shù)最優(yōu)時Ui和的值。迭代更新過程為:

用戶i對引文j的偏好預(yù)測值為:

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

實(shí)驗(yàn)使用CiteULike數(shù)據(jù)集,該數(shù)據(jù)集中包含注冊用戶的引文信息以及引文的標(biāo)題、摘要、作者、關(guān)鍵字等信息。主題抽取僅使用引文的摘要信息。實(shí)驗(yàn)中隨機(jī)選取引文數(shù)目大于10的用戶數(shù)目5 551,引文數(shù)目16 980,用戶引文數(shù)目對204 986,平均每個用戶的引文數(shù)目為37個。對引文標(biāo)題和摘要內(nèi)容表示使用了向量空間模型,詞語權(quán)重使用詞頻文檔方法。

3.2 評價

為了評價模型的有效性,使用推薦結(jié)果中前N項(xiàng)包含的用戶引文數(shù)目Prec@N和Recall@N兩個指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價。

其中:Prec@N為推薦精度;L為推薦結(jié)果前N項(xiàng)中作者喜好或引用的論文數(shù)目;N為推薦論文列表的長度。

其中:Recall@N為召回率;Lui為前N位(Top-N)中用戶ui喜好或引用的論文數(shù)目;N為推薦論文列表的長度;M為用戶喜好的論文數(shù)目的總和。

對于推薦模型來說,Prec@N和Recall@N兩個值越大,推薦效果越好。

3.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)采用了五折交叉驗(yàn)證的方法,將204 986個用戶引文數(shù)目對隨機(jī)分成5份,其中,4份用來進(jìn)行模型訓(xùn)練,1份用來進(jìn)行測試。實(shí)驗(yàn)中,顯式主題數(shù)目設(shè)置為35,隱式主題數(shù)目設(shè)置為5,其他算法因子數(shù)目設(shè)置為40。除了對本文提出的模型進(jìn)行測試外,同時進(jìn)行了矩陣分解(matrix factorization,MF)、LDA和協(xié)同主題回歸(collaborative topic regression,CTR)算法,不同推薦列表長度L下Recall@N和Prec@N的對比結(jié)果分別如圖2和圖3所示。

由圖2可以看出:在相同推薦列表長度L下,基于協(xié)同顯式和隱式主題回歸的論文推薦算法取得了最好的結(jié)果,用戶喜好的論文召回率最高。LDA算法召回率最差,這是因?yàn)長DA算法基于主題的相似度進(jìn)行推薦,沒有考慮主題權(quán)重,與推薦無關(guān)的主題可能引入噪聲,進(jìn)一步降低了推薦結(jié)果的召回率。MF算法考慮用戶和引文之間的相關(guān)性,但由于沒有考慮引文的內(nèi)容,在數(shù)據(jù)稀疏的情況下,不能對論文給出良好的表示。與CHTR算法相比,CTR算法使用論文內(nèi)容生成主題,不能兼顧用戶對非內(nèi)容因素的偏好; CHTR算法兼顧了顯式主題和隱式主題的表示,給出的推薦結(jié)果召回率更高。

圖2 不同推薦列表長度L下召回率對比

圖3不同推薦列表長度L下推薦精度對比

圖3 結(jié)果表明:CHTR算法推薦精度最高。綜合圖2和圖3結(jié)果可以看出:基于協(xié)同顯式和隱式主題回歸的算法是一種適合論文推薦的算法。

4 結(jié)束語

本文提出了一種結(jié)合顯式主題和隱式主題的協(xié)同主題回歸論文推薦算法。該算法能夠有效地推薦用戶偏好的引文,并能對推薦結(jié)果給出一定的解釋。由于推薦模型中包含顯式主題,該算法能夠部分解決推薦系統(tǒng)中冷啟動的問題,即對新的論文進(jìn)行推薦;另一方面,該算法包含隱式主題,能夠考慮用戶偏好中引文內(nèi)容不能直接表示的偏好。

[1]WANG C,BLEI D M.Collaborative topic modeling for recommending scientific articles[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego,CA,USA,2011:448-456.

[2]WANG H,WANG N,YEUNG D Y.Collaborative deep learning for recommender systems[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD'15).New York,NY,USA,2015: 1235-1244.

[3]BELL R M,KOREN Y.Scalable collaborative filtering with jointly derived neighborhood interpolation weights[C]// Seventh IEEE International Conference on Data Mining.IEEE Computer Society,2007:43-52.

[4]PAZZANI M J,BILLSUS D.Content-based recommendation systems[J].The adaptive web,2007,4321:325-341.

[5]趙長偉,彭勤科,張志勇.混合因子矩陣分解推薦算法[J].西安交通大學(xué)學(xué)報(bào),2016,50(12):87-91.

[6]MA H,KING I,LYU M R.Learning to recommend with explicit and implicit social relations[J].ACM transactions on intelligent systems&technology,2011,2(3):1-19.

[7]WAKIL K,BAKHTYAR R,ALI K,et al.Improving web movie recommender system based on emotions[J].International journal of advanced computer science&applications,2015,6(2):218-226.

[8]WEI J,HE J,CHEN K,et al.Collaborative filtering and deep learning based recommendation system for cold start items[J].Expert systems with applications,2017,69:29-39.

[9]嚴(yán)素蓉,馮小青,廖一星.基于矩陣分解的社會化推薦模型[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,56(7):793-800.

[10]徐潔,范玉順,白冰.基于概率主題模型的景點(diǎn)知識挖掘及其可視化[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2103-2108.

[11]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of machine learning research,2003,3:993-1022.

TP312

A

1672-6871(2017)05-0043-04

10.15926/j.cnki.issn1672-6871.2017.05.009

國家自然科學(xué)基金項(xiàng)目(61370220);河南省高校科技創(chuàng)新團(tuán)隊(duì)支持計(jì)劃基金項(xiàng)目(15IRTSTHN010)

孔功勝(1973-),男,河南滑縣人,館員,主要研究方向?yàn)閳D書信息推薦和數(shù)據(jù)庫管理技術(shù).

2017-03-06

猜你喜歡
內(nèi)容用戶模型
一半模型
內(nèi)容回顧溫故知新
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
主站蜘蛛池模板: 亚洲欧洲日韩综合色天使| 国产精品午夜福利麻豆| 国内精品久久久久久久久久影视| 91无码人妻精品一区二区蜜桃 | 久草视频中文| 亚洲成aⅴ人在线观看| 国产门事件在线| 天堂av高清一区二区三区| 亚洲国产精品一区二区第一页免 | 亚洲最黄视频| 国产jizz| 美女无遮挡免费视频网站| 性色在线视频精品| 欧美亚洲激情| 亚洲无限乱码一二三四区| 亚洲色图欧美| 日韩无码视频专区| 亚洲精品你懂的| 国产精品爽爽va在线无码观看| 精品一區二區久久久久久久網站| 爱做久久久久久| 国产熟睡乱子伦视频网站| 日韩欧美国产另类| 日本精品一在线观看视频| 极品私人尤物在线精品首页 | 欧美劲爆第一页| 国产精品不卡片视频免费观看| 一级不卡毛片| 欧美区一区二区三| 91无码网站| 日韩亚洲综合在线| 沈阳少妇高潮在线| 国产成人免费手机在线观看视频 | 91福利一区二区三区| 免费无遮挡AV| 国产欧美中文字幕| 国产精品视频a| 国产成人精品无码一区二| 伊人AV天堂| 亚洲午夜福利精品无码| 日本亚洲最大的色成网站www| 色哟哟国产精品一区二区| 91成人免费观看| 国产人人射| 极品国产一区二区三区| 91偷拍一区| 成人一级黄色毛片| 亚洲精品无码在线播放网站| 国产成人综合久久| 亚洲天堂视频网站| 香蕉精品在线| 日韩区欧美区| 久草性视频| 欧美一级黄片一区2区| 无码日韩人妻精品久久蜜桃| 国内自拍久第一页| 成人中文字幕在线| 国产综合精品日本亚洲777| 国产精品尹人在线观看| 欧美成人影院亚洲综合图| 日韩一区二区三免费高清| 国产一区二区三区在线观看免费| 97视频免费看| 免费国产好深啊好涨好硬视频| 浮力影院国产第一页| 国产午夜精品一区二区三区软件| 国产成人高清亚洲一区久久| 精品国产Av电影无码久久久| 91色在线观看| 欧美精品在线观看视频| 精品自窥自偷在线看| 亚洲无码高清一区二区| 精品综合久久久久久97超人| 蜜桃视频一区| 中文字幕首页系列人妻| 婷婷色丁香综合激情| 亚洲AⅤ永久无码精品毛片| 老司机精品99在线播放| 日韩专区第一页| 精品一区二区三区视频免费观看| 亚洲人成网站在线播放2019| 日韩福利视频导航|