協(xié)同顯式和隱式主題回歸的論文推薦算法

2017-07-01 19:44:37孔功勝

河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年5期

孔功勝

孔功勝

(河南科技大學(xué)圖書館，河南洛陽471023)

針對傳統(tǒng)論文推薦模型存在冷啟動和推薦解釋困難的問題，在協(xié)同主題回歸的基礎(chǔ)上，建立了一種協(xié)同顯式和隱式主題回歸的論文推薦模型。模型中顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度，隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容，該算法能夠?qū)ν扑]結(jié)果給出一定的解釋。在CiteULike數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在不同推薦列表長度下，協(xié)同顯式和隱式主題回歸模型的推薦精度和召回率優(yōu)于協(xié)同過濾和主題回歸模型。

推薦系統(tǒng);協(xié)同過濾;主題回歸;概率模型;論文推薦

0 引言

在線論文數(shù)據(jù)庫已成為科研人員獲取論文信息的重要來源。目前，提供在線論文檢索服務(wù)的方法和形式眾多，但這些方法只適合對已有的研究方向進(jìn)行跟蹤，不能發(fā)現(xiàn)用戶可能感興趣的新方向。論文推薦是一種不同于論文檢索的獲取資源的方法，該方法使用用戶的歷史訪問信息、用戶協(xié)同信息、社交信息等建立用戶的偏好模型，為用戶推薦可能感興趣的論文［1－2］。在論文推薦系統(tǒng)研究方面，協(xié)同過濾［3］和基于內(nèi)容［4］是常用的兩種推薦方法。但由于推薦數(shù)據(jù)的稀疏和內(nèi)容表示的限制，單一采用協(xié)同過濾或基于內(nèi)容的推薦方法的推薦精度都十分有限。融合相關(guān)信息，如特征信息［5］、社交信息［6］、情感信息［7］、協(xié)同主題信息［1］和深度學(xué)習(xí)信息［8］等建立推薦模型成為推薦系統(tǒng)研究的熱點(diǎn)。但已有的方法主要集中在顯式信息特征回歸方面，對隱式主題回歸的研究較少。

考慮到用戶偏好的個性化特點(diǎn)，在協(xié)同主題回歸的基礎(chǔ)上，本文提出了一種協(xié)同顯式主題和隱式主題回歸(collaborative hybrid topic regression，CHTR)的論文推薦算法。該算法中，顯式主題能夠表示用戶對論文內(nèi)容中包含顯式內(nèi)容的偏好程度，隱式主題能夠覆蓋論文內(nèi)容中沒有顯式包含的內(nèi)容，如新的方向、良好的表述等。由于該算法包含顯式的主題，因此能夠?qū)ν扑]結(jié)果給出一定的解釋。

1 協(xié)同過濾推薦模型

與產(chǎn)品推薦類似，在論文推薦系統(tǒng)中，用戶對論文的偏好矩陣R∈瓗m×n，rij是矩陣R中第i行第j列的元素，rij∈{0，1}，rij取1時表示第i個用戶的論文偏好中包含論文j，rij取0時表示第i個用戶的論文偏好中不包含論文j或者用戶i不知道論文j。論文推薦系統(tǒng)的任務(wù)就是從用戶不知道的論文中推薦用戶喜好的論文。

1.1 矩陣分解模型

矩陣分解模型［9］將用戶對論文的偏好矩陣R分解為用戶潛在屬性因子矩陣U∈瓗m×k和論文潛在屬性因子矩陣V∈瓗n×k，其中，k為潛在屬性因子數(shù)目(k＜＜m，n)，并使UVt盡可能接近R。用戶i對論文j的偏好rij為:

矩陣分解模型代價函數(shù)定義如下:

為求解出潛在屬性因子模型U、V，使代價目標(biāo)函數(shù)最小，即:

為了防止數(shù)據(jù)過擬合，對U、V進(jìn)行正則化處理，相應(yīng)的目標(biāo)函數(shù)為:

其中:λ為正則化系數(shù)。為了使矩陣分解結(jié)果具有解釋性，可限制因子屬性值為非負(fù)值。矩陣分解模型可以泛化為一個概率模型，用戶i對論文j的偏好預(yù)測值r⌒ij為:

其中:cij為預(yù)測值的精度，cij越大，預(yù)測值的精度越高。

1.2 概率主題模型

在概率主題模型［10］中，假定引文是一系列主題的某一分布，此時，引文可以表示為一系列主題的向量。概率主題回歸模型的主要任務(wù)是建立引文的主題表示，在主題表示模型中潛在狄利克雷分布(latent Dirichlet allocation，LDA)模型［11］是近年來應(yīng)用最廣的模型。LDA是一個生成模型，對于引文來說，LDA主題模型的生成過程如下:

(Ⅱ)對于每一篇引文m∈［1，M］，確定引文dm將會涉及的主題，選擇～Dir()，表示引文dm中不同主題按多項(xiàng)分布出現(xiàn)的概率。確定引文dm的長度，選擇Nm～Poisson(ξ)。對于引文dm中的每一個詞n∈［1，Nm］，選擇一個主題zm，n～Multinomial();依據(jù)wm，n～Multinomial(βzjn)選擇一個詞。

在引文主題模型的基礎(chǔ)上，可以建立引文推薦的主題回歸模型，但主題回歸模型僅能對話題即引文包含的內(nèi)容進(jìn)行推薦，不能對引文內(nèi)容外的其他信息如影響力、表述和結(jié)構(gòu)進(jìn)行推薦。基于此，本文提出了協(xié)同顯式和隱式主題回歸的引文推薦模型。

2 協(xié)同顯式和隱式主題回歸算法

2.1 協(xié)同顯式和隱式主題回歸的概率模型

在協(xié)同顯式和隱式主題回歸推薦模型中，顯式主題使用的LDA模型從引文中生成，隱式主題無法從引文中直接獲取，需要根據(jù)用戶論文的偏好矩陣R使代價函數(shù)最小來確定隱式主題。協(xié)同顯式和隱式主題回歸的概率模型圖如圖1所示。

在協(xié)同顯式和隱式主題回歸概率模型中，主題θj表示式(5)中產(chǎn)品的潛在因子，其中，=［］包含顯式屬性主題和隱式屬性主題，則用戶對引文的偏好預(yù)測值為:

協(xié)同顯式和隱式主題回歸的概率模型產(chǎn)生過程如下:

(Ⅰ)對于每一個用戶i，其潛在因子向量為Ui～N(0，)，其中，I為單位矩陣，K為潛在因子數(shù)目。K

圖1 協(xié)同顯式和隱式主題回歸的概率模型圖

(Ⅲ)對于每一個用戶引文對(i，j)，其偏好程度為:

2.2 問題求解

協(xié)同顯式和隱式主題回歸概率模型中，產(chǎn)品的顯式主題可以通過LDA模型求解獲得。目標(biāo)函數(shù)為。求解過程使用隨機(jī)梯度下降算法，描述如下。

然后，在負(fù)梯度方向?qū)i和迭代更新，得到目標(biāo)函數(shù)最優(yōu)時Ui和的值。迭代更新過程為:

用戶i對引文j的偏好預(yù)測值為:

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

實(shí)驗(yàn)使用CiteULike數(shù)據(jù)集，該數(shù)據(jù)集中包含注冊用戶的引文信息以及引文的標(biāo)題、摘要、作者、關(guān)鍵字等信息。主題抽取僅使用引文的摘要信息。實(shí)驗(yàn)中隨機(jī)選取引文數(shù)目大于10的用戶數(shù)目5 551，引文數(shù)目16 980，用戶引文數(shù)目對204 986，平均每個用戶的引文數(shù)目為37個。對引文標(biāo)題和摘要內(nèi)容表示使用了向量空間模型，詞語權(quán)重使用詞頻文檔方法。

3.2 評價

為了評價模型的有效性，使用推薦結(jié)果中前N項(xiàng)包含的用戶引文數(shù)目Prec@N和Recall@N兩個指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價。

其中:Prec@N為推薦精度;L為推薦結(jié)果前N項(xiàng)中作者喜好或引用的論文數(shù)目;N為推薦論文列表的長度。

其中:Recall@N為召回率;Lui為前N位(Top-N)中用戶ui喜好或引用的論文數(shù)目;N為推薦論文列表的長度;M為用戶喜好的論文數(shù)目的總和。

對于推薦模型來說，Prec@N和Recall@N兩個值越大，推薦效果越好。

3.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)采用了五折交叉驗(yàn)證的方法，將204 986個用戶引文數(shù)目對隨機(jī)分成5份，其中，4份用來進(jìn)行模型訓(xùn)練，1份用來進(jìn)行測試。實(shí)驗(yàn)中，顯式主題數(shù)目設(shè)置為35，隱式主題數(shù)目設(shè)置為5，其他算法因子數(shù)目設(shè)置為40。除了對本文提出的模型進(jìn)行測試外，同時進(jìn)行了矩陣分解(matrix factorization，MF)、LDA和協(xié)同主題回歸(collaborative topic regression，CTR)算法，不同推薦列表長度L下Recall@N和Prec@N的對比結(jié)果分別如圖2和圖3所示。

由圖2可以看出:在相同推薦列表長度L下，基于協(xié)同顯式和隱式主題回歸的論文推薦算法取得了最好的結(jié)果，用戶喜好的論文召回率最高。LDA算法召回率最差，這是因?yàn)長DA算法基于主題的相似度進(jìn)行推薦，沒有考慮主題權(quán)重，與推薦無關(guān)的主題可能引入噪聲，進(jìn)一步降低了推薦結(jié)果的召回率。MF算法考慮用戶和引文之間的相關(guān)性，但由于沒有考慮引文的內(nèi)容，在數(shù)據(jù)稀疏的情況下，不能對論文給出良好的表示。與CHTR算法相比，CTR算法使用論文內(nèi)容生成主題，不能兼顧用戶對非內(nèi)容因素的偏好; CHTR算法兼顧了顯式主題和隱式主題的表示，給出的推薦結(jié)果召回率更高。

圖2 不同推薦列表長度L下召回率對比

圖3不同推薦列表長度L下推薦精度對比

圖3 結(jié)果表明:CHTR算法推薦精度最高。綜合圖2和圖3結(jié)果可以看出:基于協(xié)同顯式和隱式主題回歸的算法是一種適合論文推薦的算法。

4 結(jié)束語

本文提出了一種結(jié)合顯式主題和隱式主題的協(xié)同主題回歸論文推薦算法。該算法能夠有效地推薦用戶偏好的引文，并能對推薦結(jié)果給出一定的解釋。由于推薦模型中包含顯式主題，該算法能夠部分解決推薦系統(tǒng)中冷啟動的問題，即對新的論文進(jìn)行推薦;另一方面，該算法包含隱式主題，能夠考慮用戶偏好中引文內(nèi)容不能直接表示的偏好。

［1］WANG C，BLEI D M.Collaborative topic modeling for recommending scientific articles［C］//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego，CA，USA，2011:448－456.

［2］WANG H，WANG N，YEUNG D Y.Collaborative deep learning for recommender systems［C］//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD＇15).New York，NY，USA，2015: 1235－1244.

［3］BELL R M，KOREN Y.Scalable collaborative filtering with jointly derived neighborhood interpolation weights［C］// Seventh IEEE International Conference on Data Mining.IEEE Computer Society，2007:43－52.

［4］PAZZANI M J，BILLSUS D.Content-based recommendation systems［J］.The adaptive web，2007，4321:325－341.

［5］趙長偉，彭勤科，張志勇.混合因子矩陣分解推薦算法［J］.西安交通大學(xué)學(xué)報(bào)，2016，50(12):87－91.

［6］MA H，KING I，LYU M R.Learning to recommend with explicit and implicit social relations［J］.ACM transactions on intelligent systems＆technology，2011，2(3):1－19.

［7］WAKIL K，BAKHTYAR R，ALI K，et al.Improving web movie recommender system based on emotions［J］.International journal of advanced computer science＆applications，2015，6(2):218－226.

［8］WEI J，HE J，CHEN K，et al.Collaborative filtering and deep learning based recommendation system for cold start items［J］.Expert systems with applications，2017，69:29－39.

［9］嚴(yán)素蓉，馮小青，廖一星.基于矩陣分解的社會化推薦模型［J］.清華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2016，56(7):793－800.

［10］徐潔，范玉順，白冰.基于概率主題模型的景點(diǎn)知識挖掘及其可視化［J］.計(jì)算機(jī)應(yīng)用，2016，36(8):2103－2108.

［11］BLEI D M，NG A Y，JORDAN M I.Latent dirichlet allocation［J］.Journal of machine learning research，2003，3:993－1022.

TP312

1672－6871(2017)05－0043－04

10.15926/j.cnki.issn1672－6871.2017.05.009

國家自然科學(xué)基金項(xiàng)目(61370220);河南省高校科技創(chuàng)新團(tuán)隊(duì)支持計(jì)劃基金項(xiàng)目(15IRTSTHN010)

孔功勝(1973－)，男，河南滑縣人，館員，主要研究方向?yàn)閳D書信息推薦和數(shù)據(jù)庫管理技術(shù).

2017－03－06