侯雲峰
(四川大學計算機學院,成都 610065)
可解釋推薦[1]是近年來推薦系統領域的一個熱點研究方向,它旨在向用戶推薦物品的同時,對推薦結果做出一定的解釋。可解釋推薦能提升推薦的用戶體驗,增加推薦的透明度和用戶可信度。隨著互聯網的發展,尤其是電子商務的日益蓬勃,用戶對物品的評論不斷增加,這些評論數據反映了用戶對物品潛在的偏好,因此利用用戶評論數據為推薦做出解釋是現有很多可解釋推薦工作的研究興趣點之一[2]。
現有的可解釋推薦工作面臨一個問題:推薦結果缺乏定量的解釋,即不能定量地去評估用戶在物品某一方面的喜好,這使得推薦的說服力會有所欠缺。例如,對同一部電影,雖然用戶A和用戶B都評了4分(用戶評分上限為5分),但是用戶A更看重電影的故事情節,用戶B更看重電影的陣容,即不同用戶對電影在不同主題上的興趣是不一樣的;又比如兩部電影a和b,它們的平均打分都是4.5分,但是電影a的陣容更具吸引力,電影b的3d效果更加奪目,即兩部電影在不同主題上擁有不同的優勢。現有的方法并不能評估這種細粒度的差異。
為了解決這一問題,本文提出一種稱之為基于主題的矩陣分解模型(Topic-based Matrix Factorization,TMF),用于定量評估用戶在特定主題上的偏好程度,以及物品在某個主題上的情感傾向,并利用這些評估信息用于物品的推薦。首先,我們設計兩套評估標準分別評估用戶對某個主題的偏好以及物品在某個主題上的情感傾向。然后,我們將用戶偏好信息和物品情感傾向信息融入到矩陣分解模型中,用于提升商品推薦的準確率。
本文研究了可解釋推薦中推薦結果不能定量解釋這一問題,并提出了兩套評估標準分別用于評估用戶在主題上的偏好和物品在主題上的情感傾向,評估的結果用于推薦結果的定量解釋。同時,我們提出了一種模型TMF,用于融合這些評估信息以提升推薦結果的準確率。
為了對用戶評論數據中的主題信息進行定量評估,首先,我們需要從用戶評論數據中提取出主題。這里的主題是指物品在某一方面的特征,它是對物品更細粒度的刻畫,比如電影的陣容、特效、故事情節、背景音樂……為了提取主題,我們使用潛在狄利克雷分布(LDA)[3]對評論文本中蘊含的主題和其相關詞進行提取。同時,我們分別從用戶和物品的角度,對用戶和物品在主題上的相關詞信息進行采集,即對用戶和物品在各個主題上的相關詞頻率進行統計。然后,我們提出兩種評估方法,分別對用戶在特定主題上的偏好以及物品在特定主題上的情感傾向進行定量評估。我們定義用戶在特定主題上的偏好評估公式為:

其中,m代表用戶,t代表主題,ctm是用戶m所有評論中對主題t提到的次數,cm是用戶m的評論總數,A是數據集的最高評分數,一般數據集的最高評分為5分。該公式衡量了用戶對特定主題的偏好程度。我們定義物品在特定主題上的情感傾向評估公式為:

通過以上兩個公式,我們可以計算出用戶對各個主題的偏好程度以及物品在各個主題上的情感傾向。由此,我們以上兩個公式分別建立一個用戶-主題偏好矩陣P和物品-主題情感矩陣Q。
由矩陣分解[4]和兩個偏好矩陣P、Q,我們定義一個新的模型,即主題矩陣分解TMF的目標函數為:

其中,R是評分矩陣,U和V分別是用戶和物品的潛因子矩陣,S和W是引入的因子矩陣。對于上式,我們使用梯度下降法求解,求解算法如下:
輸入:打分矩陣R,用戶-主題偏好矩陣P和物品-主題偏好矩陣Q。
初始化矩陣U和V以及S和W的值,每一個元素取0~1之間的隨機數;
計算目標函數的初始值J0;

梯度下降,更新U、V、S、W的值;

我們使用了亞馬遜數據集驗證我們的模型TMF的推薦性能,以RMSE(Root Mean Square Error)和MAE(Mean Absolute Error)為評估指標,選取了 PMF、NMF、HFT、LDAMF等四個常見的推薦算法作為對比方法,實驗結果如下:

圖1
從圖中可以看出,我們的方法TMF在推薦性能上明顯優于其他四種對比方法,原因是TMF融合了評論信息,因此比沒有融合評論信息的PMF和NMF效果好;同時,TMF能定量分析用戶和物品在主題層次上的差異,這對于提升推薦性能有所幫助,因此比HFT和LDAMF更好。
另外,我們分別分析了主題數L和潛因子數K對推薦性能的影響,分析結果如下:

圖2
可以看出,當主題數L為5的時候,推薦性能最好。

圖3
由圖可知,當潛因子數K為35的時候,推薦性能最佳。
我們也通過實驗分析了對同一物品打分相同的兩個用戶在主題偏好上的差異:

圖4
圖中,橫坐標是主題,縱坐標是用戶的主題偏好度。從圖中我們可以看出,雖然兩個用戶對該物品賦予了相同的評分,但是他們在“音樂”和“操縱感”兩個主題上的偏好差異較大。因此,證明我們的TMF模型可以成功抓住主題層次上的偏好差異,對推薦結果做出定量的解釋。
本文研究了可解釋推薦中推薦解釋定量評估的問題,并提出了模型主題矩陣分解(TMF)。TMF能夠定量評估用戶在特定主題上的偏好,以及物品在特定主題上的情感傾向,因此TMF可以定量為用戶解釋推薦特定物品的原因。同時,TMF通過融入用戶在主題上的偏好信息以及物品在主題上的情感傾向信息,能有效提升推薦的性能。我們通過了一系列實驗來證明TMF模型的有效性。
參考文獻:
[1]王春才,邢暉,李英韜.推薦系統的推薦解釋研究[J].現代計算機(專業版),2016(02):41-43+80.
[2]王偉,王洪偉,孟園.協同過濾推薦算法研究:考慮在線評論情感傾向[J].系統工程理論與實踐,2014,34(12):3238-3249.
[3]荀靜,劉培玉,楊玉珍,張艷輝.基于潛在狄利克雷分布模型的多文檔情感摘要[J].計算機應用,2014,34(06):1636-1640.
[4]李英明.矩陣分解在數據挖掘中的應用[D].浙江大學,2014.