融合用戶偏好與語義相似度的推薦算法

2023-02-20 06:01:22劉恩博顧春華

軟件導刊 2023年1期

劉恩博，顧春華

（上海理工大學光電信息與計算機工程學院，上海 200093）

0 引言

互聯網的快速發展產生了海量數據信息，導致人們從中選擇自己需要的信息變得非常困難。因此，推薦系統應運而生，能夠解決信息過載問題，已被廣泛應用于電影［1］、音樂［2］、新聞［3］、圖書［4］等領域。協同過濾推薦算法是應用廣泛的一種推薦算法，通過用戶之間或物品之間的相似性，對用戶喜好的物品進行預測與推薦。但是協同過濾推薦算法僅使用自身的歷史數據，并沒有充分利用實體之間的語義相似度。熱門項目與大量項目相似，具有很強的頭部效應，能夠得到大量推薦，而冷門項目由于特征向量稀疏，導致很少被推薦。

1 相關工作

本文主要涉及到以下幾方面的技術：

知識圖譜［5］是谷歌在2012 年提出的概念，能夠擴展用戶和項目信息，利用知識圖譜完善協同過濾算法，并能有效解決稀疏性和冷啟動問題。受Word2Vec 模型［6］利用詞向量平移不變現象的啟發，產生了TransE［7］、TransH［8］、TransD［9］、TransR［10］等模型。文獻［11］使用知識圖譜學習實體與關系的語義，構成用戶相對于候選人的偏好分布進行推薦；文獻［12］對用戶與項目之間的路徑進行編碼，使用注意力機制聚合編碼的路徑表示，并生成最終的隱藏狀態向量，該向量用于計算用戶與預測值的差異度，對結果進行推薦；文獻［13］既考慮個體的長期偏好，又考慮用戶在群組討論期間對項目的直接反饋，從而適當地結合長期偏好與會話的特定偏好；文獻［14］受歐拉分解的啟發提出RotatE 模型，將實體表示到復數空間，將關系表示成從頭實體到尾實體的二維旋轉變換，以學習與推理3 種關系模式；文獻［15］提出ConvE 模型，利用多層卷積網絡進行鏈路預測，把頭實體和關系轉換為二維向量，并利用卷積層和全連接層獲取交互信息，判斷當前三元組的可信度。

協同過濾算法是誕生最早且應用廣泛的一種推薦算法，主要功能是對用戶喜好進行推薦與預測。文獻［16］將半自動編碼器與矩陣分解模型相融合，提取用戶和物品的輔助信息特征，映射到矩陣分解模型中，以提升推薦效果；文獻［17］將協同過濾推薦算法應用于新聞推薦中，提高了新聞推薦性能。但是這些方法只利用了物品—用戶評分矩陣的信息，而忽略了物品自身實際的內在信息；文獻［18］結合知識圖譜實現一種新聞推薦模型DKN（Deep Knowledge-Aware Network），傳統的新聞推薦算法僅從語義層對新聞進行表示學習，而忽略了新聞本身包含的知識層面的信息，將新聞的語義表示與知識表示相融合形成新的特征表示，以此進行用戶新聞推薦；文獻［19］提出Ripple Net 模型，以用戶偏好的物品作為原點，將實體和關系語義表示與路徑鏈接信息相結合，將用戶興趣在知識圖譜上傳播，以達到抽取用戶特征的目的。

矩陣分解能夠通過不同的降維方法，解決推薦算法中的高稀疏性問題，挖掘用戶偏好和隱含特征，從而提升算法的推薦性能。文獻［20］認為相似的用戶對項目有相似的偏好，并將經典的矩陣分解擴展為張量分解，其具有3個維度——用戶、物品和方法，然后采用回歸不連續性設計評估不同模型的估計效果；文獻［21］提出一種隱藏分層矩陣分解模型，從用戶項目評級記錄中學習隱藏的層次結構；文獻［22］提出一種矩陣分解模型，通過引入聯合目標函數，在集體矩陣分解框架中共同分解用戶的評級信息和社會信任信息。然而，矩陣分解技術存在處理稀疏矩陣能力較弱、計算相似度矩陣代價大的缺點。本文在矩陣分解技術的基礎上，加入實體之間的語義相似度，使推薦性能得到提升。

通過以上研究，本文提出一種融合用戶偏好與語義相似度的推薦算法，主要貢獻如下：

（1）改進了協同過濾推薦算法，通過引入知識表示TransR 模型，將實體和關系數據表示在低維密集的空間中，實體向量化后可得到實體間的語義相似度，彌補了傳統推薦算法只利用評分矩陣的不足，改善了推薦算法的效果。

（2）使用矩陣分解模型，挖掘用戶偏好和隱含特征，通過計算兩個低維矩陣的內積，預測用戶評分矩陣的缺失值，并在目標函數中加入實體的語義相似度，使推薦性能得到進一步提升。

（3）在公開數據集MovieLens 上進行實驗，將測試結果在多維度上進行比較，不斷調節參數，使算法達到最優預測評分，并在準確率、召回率等評價指標上與對比算法進行比較。

2 基本理論

2.1 知識表示學習

知識表示學習［23］主要面向知識圖譜中的實體和關系進行表示學習，將實體間的語義信息表示為稠密低維實值向量。本文采用的TransR 模型認為不同關系側重于實體的不同屬性，當兩個實體具有相似語義時，在實體空間中的距離則越近，但是特定的實體屬性在不同關系空間下存在差異。

假設對于每個三元組（h，r，t），將頭實體h和尾實體t通過映射矩陣Mr投影到r關系空間中，得到hr和tr。具體過程如式（1）-式（3）所示。

其中，h為頭實體，t為尾實體，r為關系空間，Mr為映射矩陣，hr和tr為向量表示，fr(h，t)為損失函數。

2.2 矩陣分解

矩陣分解［24］是指把用戶和項目都映射到一個K維空間中，每個用戶對應項目不同的值，代表用戶偏好。在矩陣分解過程中，把原來大矩陣近似分解為兩個小矩陣的乘積，將R分解為U和V表示。內積U*VT能夠補充R的缺失值，近似于重構矩陣R，如圖1所示。

Fig.1 Decomposition of rating matrix圖1 評分矩陣分解

將評分矩陣RMN分解為2 個K維矩陣：用戶特征矩陣UMK和項目特征矩陣VNK，如式（4）所示。

其中，K為自己定義的較小維度。在矩陣UMK中，M為用戶個數，K為用戶特征維度，行向量表示用戶的潛在特征向量；在矩陣VNK中，N為項目個數，K為項目特征維度，行向量表示項目的潛在特征向量。目標函數如式（5）所示。

3 融合推薦算法

針對協同過濾推薦算法存在的不足，對推薦算法進行改進，在推薦算法中加入用戶偏好和語義相似度，以提升改進算法的推薦效果。本文算法包括計算實體的語義相似度和矩陣分解挖掘用戶偏好兩部分，算法流程如圖2所示。

Fig.2 Algorithm flow圖2 算法流程

根據以上研究，在矩陣分解模型中融入實體語義相似度，可得出目標函數，如式（6）所示。

其中，d是TransR 模型訓練出來的實體向量維度，相似度函數通過式（8）進行標準化處理并取正數。

為了使目標函數最小化，迭代更新采用梯度下降方法使U和V收斂，公式如下：

4 實驗與分析

4.1 數據集

為測試算法在數據集上的推薦效果，實驗采用公開數據集MovieLens［25］中的IM-1M 數據，包括電影屬性、用戶信息、用戶電影評分等數據信息。其中，用戶信息有3 900條，電影數量有6 040 部，用戶評分有13 218 條。評分采用5 分制，評分越高，表明用戶喜愛程度越高。實驗采取隨機抽樣的方法進行訓練與測試，使用80%的評分記錄用于訓練，20%的評分記錄用于測試。

4.2 融合比例設定

對改進的算法進行測試，調整融合比例系數λ2，觀察算法推薦效果，并選取合適的融合比例。選取近鄰個數K=10，用戶特征向量維度為100，項目特征向量維度為100，知識表示嵌入維度為100，λ1 為0.01，學習率為0.01，調整融合比例λ2 從10%至100%，每次增加10%，以驗證改進算法的推薦效果。為避免單獨一次實驗帶來的偶然性，每次調整近鄰個數都進行3 次實驗，最后的實驗數據選取3次的均值。實驗結果如圖3 所示。從圖3 可知，融合比例從10%至100%，評價指標先升后降，在融合比例λ2 為80%時，算法的推薦效果最好。通過實驗結果可以發現，當λ2 不等于0 時，在推薦算法中融入用戶偏好和語義相似度，能夠提升算法推薦效果。

4.3 算法比較

Fig.3 Results of precision rate，recall rate and F1 -score圖3 準確率、召回率、F1值結果

為驗證改進算法的推薦效果，將對比算法CF 算法［26］（Collaborative Filtering）、BRPMF 算法［27］（Bayesian Personalized Ranking Matrix Factorization）和改進算法KG-MF（Knowledge Graph Matrix Factorization）在數據集中進行實驗對比。在改進的推薦算法KG-MF 中選取不同的近鄰個數K 也會影響推薦效果。參數設置如下：用戶特征向量維度為100，項目特征向量維度為100，知識表示嵌入維度為100，融合比例λ2 為0.8，學習率為0.01。選取初始近鄰數K 為10，步長為10，并逐漸將K 增加至100，驗證算法的推薦效果。為避免單獨一次實驗出現的偶然性，每次調整近鄰個數都進行3 次實驗，最后的實驗數據選取3 次實驗的均值。實驗結果如圖4-圖6所示。

Fig.4 Accuracy under different neighbor numbers圖4 不同近鄰數下的準確率

Fig.5 Recall rate under different neighbor numbers圖5 不同近鄰數下的召回率

Fig.6 F1 values of different nearest neighbors圖6 不同近鄰數下的F1值

由圖4-圖6 可推斷出，選取的近鄰個數不同，算法推薦效果也會發生變化。在推薦算法中加入用戶偏好和語義相似度，能夠使改進算法的推薦效果得到提升。為驗證改進算法KG-MF 與BRPMF 算法、CF 算法推薦性能的差異，選取近鄰個數為100 時的實驗結果進行比較，如表1 所示。由表1 可知，與BRPMF 算法相比，改進算法的準確率提升了8.09%，召回率提升了7.68%，F1 值提升了7.88%；與CF 算法相比，改進算法的準確率提升了10.41%，召回率提升了3.4%，F1 值提升了9.52%。以上數據說明，在矩陣分解模型中融入實體間的語義相似度，能夠提升推薦算法的推薦效果。改進算法的推薦效果優于對比算法，可彌補其它算法的不足。

Table 1 Comparison of experimental results表1 實驗結果比較 %

5 結語

針對協同過濾推薦算法存在的不足，本文提出一種融合用戶偏好與語義相似度的推薦算法，將實體間的語義相似度與矩陣分解模型相結合，在矩陣分解模型的目標函數中加入實體的語義相似度，以提高協同過濾推薦算法的準確率。算法既利用了實體間的語義信息，又使用了外在的評分矩陣，彌補了沒有考慮實體間潛在信息的缺點。研究結果表明，改進算法優于BRPMF 算法和CF 算法，提升了算法的推薦性能。本文算法使用電影數據集進行推薦，但尚不清楚將其應用于音樂、圖書等其他領域的效果如何。在未來的工作中，將嘗試把該算法應用于其他領域，并進一步優化推薦性能。