基于雙重最相關注意力網絡的協同過濾推薦算法

2020-12-31 02:23:56張文龍錢付蘭張燕平

計算機應用 2020年12期

張文龍，錢付蘭*，陳潔，趙姝，張燕平

（1.安徽大學計算機科學與技術學院，合肥 230601；2.計算智能與信號處理教育部重點實驗室（安徽大學），合肥 230601）

（?通信作者電子郵箱qianfulan@hotmail.com）

0 引言

互聯網和移動技術的出現使人們可以隨時隨地獲取信息。隨著社交媒體、電子商務和各種生活服務應用等網絡服務的普及，人們的生活方式發生了深刻的變化。為了能夠在海量數據中快速有效地獲取對用戶最有價值的數據，推薦系統應運而生［1］。個性化推薦的目標是從歷史的用戶-項目交互（例如評分和瀏覽等）中了解用戶偏好，并根據這些用戶-項目交互推薦相關的項目，這種方法被稱為協同過濾（Collaborative Filtering，CF）［2-3］。

在基于協同過濾的方法中，最成功的就是通過矩陣分解（Matrix Factorization，MF）［4］的方法，將用戶和項目映射到同一個潛在空間中，使用潛在特征向量來表示用戶或項目。然后，將用戶對項目的交互建模為其潛在向量的內積。然而，實際中的評分矩陣往往是非常稀疏的，這導致基于協同過濾的方法在學習合適的潛在表示時性能顯著下降。最近，學習有效表征的強大方法之一便是深度學習（Deep Learning，DL）。因此，隨著大規模評分和豐富的附加信息，將深度學習與協同過濾算法相結合，來學習用戶和項目的潛在表示，可以充分挖掘數據的有效信息。由此，一些研究已經開始在傳統協同過濾方法的基礎上利用深度學習來進行推薦任務。Wang 等［5］提出協同深度學習（Collaborative Deep Learning，CDL）算法結合用戶交互數據與項目內容輔助信息來學習隱式表示，緩解了協同過濾類方法學習用戶與項目的交互往往過于稀疏導致推薦效果不好的問題。He等［6］用神經網絡來代替內積形式來學習用戶和項目之間的交互，從而實現了矩陣分解類方法的擴展。Barkan 等［7］使用表示學習的方法，將每個項目表示為一個固定維度的向量，從而隱式地得到項目間的相互關系，使得在計算項目相似性方面更加高效，進而提升了模型的泛化能力。Zheng等［8］引入光譜圖理論結合在用戶-項目二分圖上進行光譜卷積操作來提升協同過濾算法的推薦效果。

盡管上述方法在推薦的準確性上取得了良好的性能，但它忽略了用戶不同歷史交互項目的重要性，并且缺乏對歷史項目與目標項目之間交互關聯度的區分，導致無法實現用戶偏好的細粒度建模。直觀地說，對于每個用戶，他對所交互的一組歷史項目中不同項目的偏好應該是不同的。例如，用戶分別購買了衣服、手機和相機三種產品，并不意味著用戶對這三種產品有著相同的偏好。同樣，假定用戶交互過的所有歷史項目對目標項目的預測都有同等的貢獻也是不現實的。通常，用戶以前與幾個項目交互過，這將直接影響用戶對某個項目的決策。例如，當用戶決定是否購買手機套時，影響最大的應該是先前購買的手機，而不是相機或服裝產品。于是，引入深度學習中的注意力機制［9］。注意力機制已在眾多領域中取得了成功的應用，其核心思想便是從原始信息中捕獲與當前任務最相關的部分并進行強化。因此，通過注意力機制可以為較重要的項目和項目交互關系分配更大的權重來解決上述提到的兩個問題，進而提升模型的推薦效果。

本文為了解決協同過濾類算法將所有項目看作同等重要的限制，利用注意力機制可有效區分不同項目重要性的特性，將項目因子相似模型（Factored Item Similarity Model，FISM）［10］與注意力網絡進行深度融合，提出了一種基于雙重最相關注意力網絡的協同過濾（Dual Most Relevant Attention Collaborative Filtering，DMRACF）算法。該算法利用深度神經網絡來自動學習項目之間的復雜交互函數，并設計一個由項目級注意力和項目交互級注意力組成的雙重最相關注意力網絡，為較重要的項目和項目交互關系分配更大的權重，進而捕獲用戶更細粒度下的偏好，實現對用戶偏好的細粒度建模，這有利于推薦效果的提升。

1 相關工作

基于項目的協同過濾以其優異的性能在推薦系統的構建中得到了廣泛的應用。早期的模型，如基于項目的K 近鄰（Item-based K-Nearest Neighbors，ItemKNN）［2］只是簡單地使用統計方法來估計項目之間的相似度，如余弦相似度和皮爾遜相關系數。但是，這些方法需要針對特定數據集進行手動調優，導致算法可擴展性方面受限。為了彌補這些方法的不足，出現了一些基于機器學習的方法，通過構造目標函數來自動學習項目之間的相似關系。在這些基于機器學習的方法中，最具代表性的模型是稀疏線性方法（Sparse LInear Method，SLIM）［11］和FISM。具體來說，SLIM 構造了一個基于回歸的目標函數，并對其進行優化以學習項目相似度矩陣；但其訓練成本較高，不可能挖掘項目之間的傳遞關系。與SLIM不同，FISM 將兩個項目之間的相似性表示為它們的低維向量的內積。盡管FISM 實現了最先進的推薦性能，但它有一個限制，即假設與用戶交互的所有歷史項目在建模用戶對目標項目的偏好時有同等的貢獻。

隨著深度學習技術在計算機視覺和自然語言處理方面取得了巨大的成功［12］，人們正在努力將深度學習技術引入到推薦系統中。通常，深度學習被應用于特征提取和預測。Xue等［13］利用深度神經網絡來捕獲項目間的高階交互關系，提出了一個基于深度學習的項目協同過濾（Deep Item-based Collaborative Filtering，DeepICF）算法。鄧凱等［14］將物品相似性因子模型與深度神經網絡相結合，提出了一個基于物品的同一協同過濾（Item-based Unified Collaborative Filtering，UICF）推薦模型。最近深度學習中的注意機制的有效性在機器翻譯中被證明是非常有效的［15］，它的成功主要是基于一個合理的假設，即人類的識別并不傾向于一次性處理整個信號，相反，人們只關注整個感知空間中有選擇性的部分。事實上，這一假設不僅適用于計算機視覺和自然語言處理領域，在許多現實世界的情況下都是合理的。于是基于注意力機制的推薦模型近年來得到了發展，并且取得了突出的表現。He等［16］提出了一個神經注意力項目相似性（Neural Attentive Item Similarity，NAIS）模型，該模型在學習項目-項目之間的相似性方面使用注意力機制進行建模。Chen 等［17］將隱因子模型與組件級注意力機制相結合對多媒體推薦中的隱式反饋建模，效果良好。Zhuang 等［18］提出了一個注意力驅動的推薦算法，使用注意力機制來估計用戶對不同項目特征的注意力分布，提高了模型的可解釋性。

2 基于雙重最相關注意力網絡算法

首先，本文提出的基于雙重最相關注意力網絡的協同過濾算法框架如圖1 所示。整個模型包括輸入層、嵌入層、對交互層、池化層、深度交互層、輸出層，以及由項目級注意力和項目交互級注意力組成的雙重最相關注意力網絡。

在輸入層中，目標項目i的表示是使用ID 特征的one-hot編碼xitem_input=[0，0，1，…，0，0]m，用戶u的表示是對u的交互項目集的ID 特征進行multi-hot 編碼xuser_input=[1，0，1，…，0，1]m。其中，m表示編碼的維數，其大小為項目的總個數。由于此編碼方式產生的特征空間非常大，容易造成維度過大。因此，在輸入層之上引入一個嵌入層，它是一個全連接神經網絡，用于將輸入層稀疏的特征向量轉換成稠密的特征向量，有效地降低了特征空間的維數。通過式（1）將目標項i映射到一個嵌入向量pi∈Ak上來表示目標項目，其中k?m為嵌入向量的維數。對于用戶u與之交互的每個歷史項j∈，將其映射到一個嵌入向量qj∈Ak。最后，根據嵌入層的輸出，可以得到一組向量，一個向量pi分別表示用戶u和目標項i。

其中：xitem_input、xuser_input分別表示項目和用戶的one-hot 編碼輸入；embedded表示全連接神經網絡。

圖1 DMRACF算法框架Fig.1 Framework of DMRACF algorithm

在得到一組表示用戶u的向量Qu之后，為了獲得用戶對歷史交互項目的偏好，使用一維注意力機制來為不同的歷史交互項目分配不同的權重，計算方法如下：

其中：W和b分別是將輸入映射到隱層的權值矩陣和偏置向量；hT是將隱層映射到輸出注意力權值的映射向量；αj可抽象地看作是用戶u對其交互過的歷史項目j的偏好。

為了捕獲任意一個歷史項目和目標項目之間的特征交互，通過對用戶u的歷史交互項與目標項i之間的嵌入向量進行簡單的元素乘積運算來獲取項目對交互向量集Vui=，獲取用戶u的歷史交互項目與目標項目i的二階特征交互關系。

直觀地說，不同的歷史項目對目標項目的預測有不同的貢獻。因此，將這組兩兩交互的向量輸入到一個注意力網絡中。通過學習，對較重要的項目對給予較大的交互權重，以感知歷史項目與目標項目交互關系的不同重要性，計算方法如下：

其中，hT為將隱層映射到輸出注意權值的映射向量。由于不同用戶的歷史交互項目數量變化很大，使用一個超參數β用于平滑softmax 函數中的分母項，其取值范圍在［0，1］，從而平衡了一些活躍用戶交互的歷史項目數過多導致注意力權值過小的問題，同時使得注意力權值能在一個比較小的方差內。αij為歷史項目j對目標項目i的注意力權值，可視為用戶u對項目i興趣的抽象表示。

由于用戶的歷史交互項目的數量（用戶的歷史評分項的數量）變化很大，對特征交互層的輸出是一個可變大小的向量集。為了便于后續處理，使用池化層對可變大小的向量進行操作，生成一個固定大小的向量。這里，為了表示不同的池化方式，使用了一個超參數來控制，計算方法如下：

其中：γ是一個控制池化方式的超參數，其取值范圍為［0，1］。當γ設置為0 時，就變成標準的和值池化；當γ設置為1 時，就變成了標準的平均池化。

前一個池化層的輸出是一個k維的向量=fpooling(Vui))，其中包含歷史項目和目標項目之間的二階交互。為了對歷史項目和目標項目之間的高階特征交互進行建模，在其上疊加了一個多層感知器（MultiLayer Perceptron，MLP），實現了高階建模，獲得了更深層次的復雜交互信息，計算方法如下：

其中：WL、bL、eL分別表示第L層的權重矩陣、偏置向量、激活函數和輸出向量。使用ReLU 作為激活函數，當網絡變深時，更能抵抗飽和問題［19］，并在本文的實驗中顯示出良好的性能。

作為深度交互層的輸出，所得到的深度交互向量eL包含了項目從二階到高階之間的特征交互信息，然后用簡單的線性回歸模型預測最終結果：

其中hT和b分別表示權值矩陣和偏置向量。

為了學習推薦模型，指定了一個目標函數進行優化。當前主要存在的兩種方法，分別是平方損失和對數損失，我們認為平方損失可能與隱式反饋數據不太吻合。這是因為對于隱式反饋數據，目標值yui是一個二值化的1 或0，表示u是否與i交互。可以將yui的值看作一個標簽1 表示項目i與u相關，0表示項目i與u不相關。預測分數表示i與u相關的可能性有多大。要賦予這樣的概率解釋，需要將輸出限制在［0，1］，這可以很容易通過概率函數來實現。

通過以上的說明可知，當處理問題是二值數據1或0的隱式反饋時，學習推薦模型可以看作是一個二分類任務，因此使用式（12）所示的對數損失作為目標函數。通過最小化目標函數學習模型參數：

其中：N表示整個訓練集的總數，包括正樣本R+和負樣本R-；σ表示sigmoid 函數，它將預測值約束在［0，1］；為預測結果，其值表示用戶u與項目i交互的可能性；λ為防止過擬合的正則化參數；Θ為整個模型的可訓練參數。

綜上所述，得到算法1所示的DMRACF算法。

由式（5）、（6）計算用戶u對項目i的注意力權值αij；

算法中，R表示項目集，U表示項目級注意力和項目交互級注意力的參數集。

3 實驗與結果分析

3.1 數據集描述與評價指標

為了驗證本文所提方法的性能，在兩個真實數據集上進行了評估。MovieLens 是一個被廣泛用于研究協同過濾算法性能的電影評分數據集［20］。在本文實驗中，選擇的是MovieLens-1M，包含100萬個評分，其中每個用戶至少有20個評分。Pinterest 是一個用于圖像推薦的數據集，其中包含9 916名用戶對55 187張圖像的評分。數據集詳細信息如表1所示。

表1 實驗數據集的描述Tab.1 Description of datasets used in experiments

本文中使用一種被廣泛使用的leave-one-out 評價方法來研究項目推薦的性能［21］。首先，根據每個用戶的時間戳對用戶-項目交互進行排序。然后，將最新的交互作為每個用戶的測試數據，并利用與用戶對應的其余交互進行訓練。對每個測試項目（正樣本）隨機抽取99 個沒有被相應用戶交互的項目（負樣本）進行抽樣，以便在這100 個項目構成的集合進行模型的評估。因此，可以減輕在評估期間為每個用戶對所有項目進行排序的耗時問題。

在評價指標方面，采用命中率（Hit Ratio@k，HR@k）和歸一化折損累積增益（Normalized Discounted Cumulative Gain@k，NDCG@k）來評估本文的模型生成的排名列表的性能［22］。在實驗部分，設置兩個指標的k=10。如果測試項目出現在排名前10 的列表中，那么HR@10 的度量就能夠直觀地進行度量，并且NDCG@10 說明了排名的質量，即為命中位置靠前的分配更高的分數。兩個指標越高，推薦性能越好。

3.2 對比算法

為了評估本文所提出算法的有效性，研究對比了以下幾種協同過濾類方法的性能。

1）ItemPop（Item Popularity）。該算法是一個非個性化的推薦算法，因為它根據商品的受歡迎程度（通過交互次數的數量來衡量）來對商品進行排名。

2）ItemKNN。該方法是最基本的基于項目的協同過濾，通過歷史項目與目標項目之間的相似性來給出推薦，在實驗中采用余弦相似度來計算項目之間的相似性。

3）BPR（Bayesian Personalized Ranking）［23］。該方法利用貝葉斯個性化排序損失來優化MF 模型，從而實現了對MF 模型的優化。

4）eALS（element-wise Alternating Least Square）［20］。該方法也學習了一個MF 模型，但優化了一個不同的點態回歸損失，該損失將所有缺失的數據視為具有較小權重的負反饋。

5）MLP［6］。該方法利用深度神經網絡代替簡單的內積，從數據中學習用戶與項目之間的非線性交互。

6）FISM。該方法是當前最先進的基于項目的協同過濾算法，其為每個項目都生成兩個向量表示，分別用來表示歷史交互項目和目標項目。

7）NAIS。該方法利用注意力機制來學習物品相似度，進而對FISM進行擴展。

8）DeepICF。該方法使用深度神經網絡來同時捕獲項目間二階和高階交互關系，是一種基于深度學習的項目協同過濾方法。

3.3 參數設置

用高斯分布隨機初始化模型參數，其中均值和標準差分別為0和0.01。對于嵌入大小k，在實驗中對（8，16，32，64）的值進行了評估。注意力因子尺寸與每次的嵌入尺寸相同。超參數β和γ的取值范圍在［0，1］，在實驗中β和γ的取值分別為0.5 和0。防止模型過擬合的L2 正則化系數λ在（1E?5，1E?4，1E?3，0）進行調整。使用優化器Adagrad對目標函數進行優化，從而完成對整個模型參數的訓練。學習率設置為0.01，迭代次數為80。整個模型的實現是基于TensorFlow，所有的實驗都是在NVIDIA的Tesla GPU上進行。

3.4 結果分析

由于嵌入尺寸控制基于嵌入的方法的建模能力，為基于嵌入的方法（BPR、eALS、MLP、FISM）設置了相同的嵌入尺寸16進行實驗結果的比較。表2展示了不同推薦算法在兩個數據集上的準確性。

表2 不同方法在嵌入尺寸為16時的推薦準確度Tab.2 Recommendation accuracy of different methods at embedding size 16

觀察表2 可以發現，與其他方法相比，DMRACF 在兩個數據集上都取得了最好的性能。NAIS 和DMRACF 均在模型中使用了注意力機制，MovieLens 數據集上NAIS 的兩種評價指標相較于當前最先進的算法FISM 分別提高了4.8 個百分點、6.2個百分點，而本文提出的DMRACF提升的結果則是6個百分點和8.7 個百分點。這表明引入注意機制可以幫助模型進一步提取數據中更為復雜的特征信息，進而提升模型的表達性和準確率。其中，DMRACF的準確率最高，說明設計的雙重最相關注意力網絡可以有效地捕捉到更細粒度的用戶偏好，使得本文的模型具有更強大的表示能力。兩種基于項目的協同過濾方法FISM 和ItemKNN 使用相同的預測模型，但FISM的預測結果遠遠超過了ItemKNN，在MovieLens 上的HR 和NDCG 分別提高了6.7 個百分點和10.1 個百分點。兩種方法的關鍵區別在于項目相似度的估計方法不同，導致FISM 方法的結果優于ItemKNN 方法。基于用戶的協同過濾模型（BPR、eALS和MLP）與基于項目的協同過濾模型（FISM）在不同數據集上具有不同的表現。具體來說，基于用戶的協同過濾模型在MovieLens 數據集上的性能優于FISM，而FISM 在Pinterest數據集上的性能優于基于用戶的協同過濾模型。觀察表1 可知，Pinterest 數據集具有較高的稀疏性（相較于MovieLens 數據集），本文認為基于項目的協同過濾方法在高度稀疏的數據集上相較基于用戶的協同過濾方法表現得更好。

雙重最相關注意力網絡的設計是本文模型的核心部分，為了驗證不同層級注意力模塊對本文模型的影響，將DMRACF 與它的兩個變體進行比較，即DMRACF_IT（只具有項目級注意力）和DMRACF_II（只具有項目交互級注意力），結果如表3 所示。從表3 可以看出，與DMRACF_IT 相比，DMRACF_II 具有更優的性能。據統計，DMRACF_II 相較于DMRACF_IT 在MovieLens 上的HR 和NDCG 分別提高了1.4個百分點和3.5 個百分點。這表明項目交互級的注意力比項目級的注意力對本文的模型貢獻更大。另外，DMRACF 借助雙重最相關注意力網絡，最終取得了最優的效果（與DMRACF_IT、DMRACF_II 相比）。這進一步驗證了注意力機制的引入和雙重最相關注意力網絡的設計對模型的有效性。

表3 DMRACF和它兩個變體的實驗結果比較Tab.3 Comparison of experimental results of DMRACF and its two variants

圖2和圖3給出了在兩個數據集上HR和NDCG對于不同嵌入尺寸的性能表現。

圖2 MovieLens數據集上基于嵌入的方法在不同嵌入尺寸上的性能比較Fig.2 Performance comparison of embedding-based methods at different embedding sizes on MovieLens dataset

圖3 Pinterest數據集上基于嵌入的方法在不同嵌入尺寸上的性能比較Fig.3 Performance comparison of embedding-based methods at different embedding sizes on Pinterest dataset

從圖2 和圖3 中可以看出，一般情況下，嵌入尺寸為8、32和64的推薦性能趨勢與嵌入尺寸為16的推薦性能趨勢相似。本文所提的DMRACF 算法在大多數情況下都取得了最優的表現，除了嵌入尺寸為8 時，MLP 在MovieLens 上的性能優于DMRACF。在MovieLens 這個相對密集的數據集上（與Pinterest 相比），基于用戶的非線性方法（在本例中為MLP）能夠在較小的嵌入尺寸下取得更強的表示能力。

4 結語

本文提出了一種新的基于雙重最相關注意力網絡的協同過濾（DMRACF）算法，用于Top-N推薦。DMRACF 通過設計一個雙重最相關注意力網絡，不僅強化了與用戶最相關的歷史項目，而且還挑選出了對預測最重要的歷史項與目標項之間的交互關系，進而解決了協同過濾類算法將所有歷史項目看作同等重要的限制，提高了推薦的準確性。實驗結果表明，DMRACF 的性能優于其他協同過濾類方法。接下來，我們計劃將DMRACF 從以下方向進行擴展。首先，這項工作的重點是純協同過濾系統，只使用了用戶和項目的ID 屬性進行建模，但實際上存在許多用戶和項目的其他可用屬性（如類別、職業）。未來將研究DMRACF 在使用這些可用輔助信息時的有效性。