孔功勝
協(xié)同顯式和隱式主題回歸的論文推薦算法
孔功勝
(河南科技大學(xué)圖書館,河南洛陽471023)
針對傳統(tǒng)論文推薦模型存在冷啟動和推薦解釋困難的問題,在協(xié)同主題回歸的基礎(chǔ)上,建立了一種協(xié)同顯式和隱式主題回歸的論文推薦模型。模型中顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度,隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容,該算法能夠?qū)ν扑]結(jié)果給出一定的解釋。在CiteULike數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在不同推薦列表長度下,協(xié)同顯式和隱式主題回歸模型的推薦精度和召回率優(yōu)于協(xié)同過濾和主題回歸模型。
推薦系統(tǒng);協(xié)同過濾;主題回歸;概率模型;論文推薦
在線論文數(shù)據(jù)庫已成為科研人員獲取論文信息的重要來源。目前,提供在線論文檢索服務(wù)的方法和形式眾多,但這些方法只適合對已有的研究方向進(jìn)行跟蹤,不能發(fā)現(xiàn)用戶可能感興趣的新方向。論文推薦是一種不同于論文檢索的獲取資源的方法,該方法使用用戶的歷史訪問信息、用戶協(xié)同信息、社交信息等建立用戶的偏好模型,為用戶推薦可能感興趣的論文[1-2]。在論文推薦系統(tǒng)研究方面,協(xié)同過濾[3]和基于內(nèi)容[4]是常用的兩種推薦方法。但由于推薦數(shù)據(jù)的稀疏和內(nèi)容表示的限制,單一采用協(xié)同過濾或基于內(nèi)容的推薦方法的推薦精度都十分有限。融合相關(guān)信息,如特征信息[5]、社交信息[6]、情感信息[7]、協(xié)同主題信息[1]和深度學(xué)習(xí)信息[8]等建立推薦模型成為推薦系統(tǒng)研究的熱點(diǎn)。但已有的方法主要集中在顯式信息特征回歸方面,對隱式主題回歸的研究較少。
考慮到用戶偏好的個性化特點(diǎn),在協(xié)同主題回歸的基礎(chǔ)上,本文提出了一種協(xié)同顯式主題和隱式主題回歸(collaborative hybrid topic regression,CHTR)的論文推薦算法。該算法中,顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度,隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容,如新的方向、良好的表述等。由于該算法包含顯式的主題,因此能夠?qū)ν扑]結(jié)果給出一定的解釋。
與產(chǎn)品推薦類似,在論文推薦系統(tǒng)中,用戶對論文的偏好矩陣R∈瓗m×n,rij是矩陣R中第i行第j列的元素,rij∈{0,1},rij取1時表示第i個用戶的論文偏好中包含論文j,rij取0時表示第i個用戶的論文偏好中不包含論文j或者用戶i不知道論文j。論文推薦系統(tǒng)的任務(wù)就是從用戶不知道的論文中推薦用戶喜好的論文。
1.1 矩陣分解模型
矩陣分解模型[9]將用戶對論文的偏好矩陣R分解為用戶潛在屬性因子矩陣U∈瓗m×k和論文潛在屬性因子矩陣V∈瓗n×k,其中,k為潛在屬性因子數(shù)目(k<<m,n),并使UVt盡可能接近R。用戶i對論文j的偏好rij為:

矩陣分解模型代價函數(shù)定義如下:

為求解出潛在屬性因子模型U、V,使代價目標(biāo)函數(shù)最小,即:

為了防止數(shù)據(jù)過擬合,對U、V進(jìn)行正則化處理,相應(yīng)的目標(biāo)函數(shù)為:

其中:λ為正則化系數(shù)。為了使矩陣分解結(jié)果具有解釋性,可限制因子屬性值為非負(fù)值。矩陣分解模型可以泛化為一個概率模型,用戶i對論文j的偏好預(yù)測值r⌒ij為:

其中:cij為預(yù)測值的精度,cij越大,預(yù)測值的精度越高。
1.2 概率主題模型
在概率主題模型[10]中,假定引文是一系列主題的某一分布,此時,引文可以表示為一系列主題的向量。概率主題回歸模型的主要任務(wù)是建立引文的主題表示,在主題表示模型中潛在狄利克雷分布(latent Dirichlet allocation,LDA)模型[11]是近年來應(yīng)用最廣的模型。LDA是一個生成模型,對于引文來說,LDA主題模型的生成過程如下:
(Ⅱ)對于每一篇引文m∈[1,M],確定引文dm將會涉及的主題,選擇~Dir(),表示引文dm中不同主題按多項(xiàng)分布出現(xiàn)的概率。確定引文dm的長度,選擇Nm~Poisson(ξ)。對于引文dm中的每一個詞n∈[1,Nm],選擇一個主題zm,n~Multinomial();依據(jù)wm,n~Multinomial(βzjn)選擇一個詞。
在引文主題模型的基礎(chǔ)上,可以建立引文推薦的主題回歸模型,但主題回歸模型僅能對話題即引文包含的內(nèi)容進(jìn)行推薦,不能對引文內(nèi)容外的其他信息如影響力、表述和結(jié)構(gòu)進(jìn)行推薦。基于此,本文提出了協(xié)同顯式和隱式主題回歸的引文推薦模型。
2.1 協(xié)同顯式和隱式主題回歸的概率模型
在協(xié)同顯式和隱式主題回歸推薦模型中,顯式主題使用的LDA模型從引文中生成,隱式主題無法從引文中直接獲取,需要根據(jù)用戶論文的偏好矩陣R使代價函數(shù)最小來確定隱式主題。協(xié)同顯式和隱式主題回歸的概率模型圖如圖1所示。
在協(xié)同顯式和隱式主題回歸概率模型中,主題θj表示式(5)中產(chǎn)品的潛在因子,其中,=[]包含顯式屬性主題和隱式屬性主題,則用戶對引文的偏好預(yù)測值為:

協(xié)同顯式和隱式主題回歸的概率模型產(chǎn)生過程如下:
(Ⅰ)對于每一個用戶i,其潛在因子向量為Ui~N(0,),其中,I為單位矩陣,K為潛在因子數(shù)目。K

圖1 協(xié)同顯式和隱式主題回歸的概率模型圖
(Ⅲ)對于每一個用戶引文對(i,j),其偏好程度為:


2.2 問題求解
協(xié)同顯式和隱式主題回歸概率模型中,產(chǎn)品的顯式主題可以通過LDA模型求解獲得。目標(biāo)函數(shù)為。求解過程使用隨機(jī)梯度下降算法,描述如下。

然后,在負(fù)梯度方向?qū)i和迭代更新,得到目標(biāo)函數(shù)最優(yōu)時Ui和的值。迭代更新過程為:

用戶i對引文j的偏好預(yù)測值為:

3.1 數(shù)據(jù)集
實(shí)驗(yàn)使用CiteULike數(shù)據(jù)集,該數(shù)據(jù)集中包含注冊用戶的引文信息以及引文的標(biāo)題、摘要、作者、關(guān)鍵字等信息。主題抽取僅使用引文的摘要信息。實(shí)驗(yàn)中隨機(jī)選取引文數(shù)目大于10的用戶數(shù)目5 551,引文數(shù)目16 980,用戶引文數(shù)目對204 986,平均每個用戶的引文數(shù)目為37個。對引文標(biāo)題和摘要內(nèi)容表示使用了向量空間模型,詞語權(quán)重使用詞頻文檔方法。
3.2 評價
為了評價模型的有效性,使用推薦結(jié)果中前N項(xiàng)包含的用戶引文數(shù)目Prec@N和Recall@N兩個指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價。

其中:Prec@N為推薦精度;L為推薦結(jié)果前N項(xiàng)中作者喜好或引用的論文數(shù)目;N為推薦論文列表的長度。

其中:Recall@N為召回率;Lui為前N位(Top-N)中用戶ui喜好或引用的論文數(shù)目;N為推薦論文列表的長度;M為用戶喜好的論文數(shù)目的總和。
對于推薦模型來說,Prec@N和Recall@N兩個值越大,推薦效果越好。
3.3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)采用了五折交叉驗(yàn)證的方法,將204 986個用戶引文數(shù)目對隨機(jī)分成5份,其中,4份用來進(jìn)行模型訓(xùn)練,1份用來進(jìn)行測試。實(shí)驗(yàn)中,顯式主題數(shù)目設(shè)置為35,隱式主題數(shù)目設(shè)置為5,其他算法因子數(shù)目設(shè)置為40。除了對本文提出的模型進(jìn)行測試外,同時進(jìn)行了矩陣分解(matrix factorization,MF)、LDA和協(xié)同主題回歸(collaborative topic regression,CTR)算法,不同推薦列表長度L下Recall@N和Prec@N的對比結(jié)果分別如圖2和圖3所示。
由圖2可以看出:在相同推薦列表長度L下,基于協(xié)同顯式和隱式主題回歸的論文推薦算法取得了最好的結(jié)果,用戶喜好的論文召回率最高。LDA算法召回率最差,這是因?yàn)長DA算法基于主題的相似度進(jìn)行推薦,沒有考慮主題權(quán)重,與推薦無關(guān)的主題可能引入噪聲,進(jìn)一步降低了推薦結(jié)果的召回率。MF算法考慮用戶和引文之間的相關(guān)性,但由于沒有考慮引文的內(nèi)容,在數(shù)據(jù)稀疏的情況下,不能對論文給出良好的表示。與CHTR算法相比,CTR算法使用論文內(nèi)容生成主題,不能兼顧用戶對非內(nèi)容因素的偏好; CHTR算法兼顧了顯式主題和隱式主題的表示,給出的推薦結(jié)果召回率更高。

圖2 不同推薦列表長度L下召回率對比

圖3不同推薦列表長度L下推薦精度對比
圖3 結(jié)果表明:CHTR算法推薦精度最高。綜合圖2和圖3結(jié)果可以看出:基于協(xié)同顯式和隱式主題回歸的算法是一種適合論文推薦的算法。
本文提出了一種結(jié)合顯式主題和隱式主題的協(xié)同主題回歸論文推薦算法。該算法能夠有效地推薦用戶偏好的引文,并能對推薦結(jié)果給出一定的解釋。由于推薦模型中包含顯式主題,該算法能夠部分解決推薦系統(tǒng)中冷啟動的問題,即對新的論文進(jìn)行推薦;另一方面,該算法包含隱式主題,能夠考慮用戶偏好中引文內(nèi)容不能直接表示的偏好。
[1]WANG C,BLEI D M.Collaborative topic modeling for recommending scientific articles[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego,CA,USA,2011:448-456.
[2]WANG H,WANG N,YEUNG D Y.Collaborative deep learning for recommender systems[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD'15).New York,NY,USA,2015: 1235-1244.
[3]BELL R M,KOREN Y.Scalable collaborative filtering with jointly derived neighborhood interpolation weights[C]// Seventh IEEE International Conference on Data Mining.IEEE Computer Society,2007:43-52.
[4]PAZZANI M J,BILLSUS D.Content-based recommendation systems[J].The adaptive web,2007,4321:325-341.
[5]趙長偉,彭勤科,張志勇.混合因子矩陣分解推薦算法[J].西安交通大學(xué)學(xué)報(bào),2016,50(12):87-91.
[6]MA H,KING I,LYU M R.Learning to recommend with explicit and implicit social relations[J].ACM transactions on intelligent systems&technology,2011,2(3):1-19.
[7]WAKIL K,BAKHTYAR R,ALI K,et al.Improving web movie recommender system based on emotions[J].International journal of advanced computer science&applications,2015,6(2):218-226.
[8]WEI J,HE J,CHEN K,et al.Collaborative filtering and deep learning based recommendation system for cold start items[J].Expert systems with applications,2017,69:29-39.
[9]嚴(yán)素蓉,馮小青,廖一星.基于矩陣分解的社會化推薦模型[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,56(7):793-800.
[10]徐潔,范玉順,白冰.基于概率主題模型的景點(diǎn)知識挖掘及其可視化[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2103-2108.
[11]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of machine learning research,2003,3:993-1022.
TP312
A
1672-6871(2017)05-0043-04
10.15926/j.cnki.issn1672-6871.2017.05.009
國家自然科學(xué)基金項(xiàng)目(61370220);河南省高校科技創(chuàng)新團(tuán)隊(duì)支持計(jì)劃基金項(xiàng)目(15IRTSTHN010)
孔功勝(1973-),男,河南滑縣人,館員,主要研究方向?yàn)閳D書信息推薦和數(shù)據(jù)庫管理技術(shù).
2017-03-06