基于策略記憶的深度強化學習序列推薦算法研究

2022-09-02 04:23:02陳卓姜偉豪杜軍威

湖南大學學報(自然科學版) 2022年8期

陳卓，姜偉豪，杜軍威

（青島科技大學信息科學技術學院，山東青島 266061）

隨著科學技術的發展，信息過載的問題也越來越嚴重，推薦系統的成功應用可以有效地緩解這一難題.然而，用戶興趣總是隨著時間的推移而產生變化，因此，序列推薦系統（Sequential Recommender Systems，SRS）［1］應運而生.序列推薦系統將用戶-項目交互視為一個動態序列，捕捉用戶當前和最近的偏好，以獲得更準確的推薦，該系統在購物以及影音網站等都有著很好的應用.

不同于基于內容的協同過濾［2］以及基于矩陣分解［3］的傳統推薦系統，序列推薦系統根據模型的復雜程度可以分為兩類，包括傳統的序列模型和神經網絡模型.傳統的序列模型例如基于馬爾科夫鏈的模型對序列中的用戶-項目交互進行建模，并計算相互之間的轉移概率，該方法只能捕獲短期依賴并且忽略用戶的總體興趣.神經網絡模型例如基于循環神經網絡的模型通過給定的用戶-項目交互序列來預測下一交互，但該方法假設任何相鄰交互都是有關系的并忽略多個項目的共同作用.

大多數的序列推薦系統只專注于當前收益，對于即時回報較小但有較大未來收益項目的識別度不高.比如用戶在觀看了有關游戲和天氣的短視頻后，可能不會再關注今天的天氣；但是看了喜歡的游戲之后，更傾向于觀看更多與游戲相關的視頻.深度強化學習可以統一優化即時收益和長期收益［4］，將用戶的狀態進行動態建模，并學習到最優推薦策略，以提高推薦準確率.現有的深度強化學習狀態的表示是將用戶之前交互的項目按照一定的順序進行建模，無法區分用戶交互序列中的不同行為模式，因而無法較為準確地預測用戶的當前興趣偏好.深度強化學習做預測時，可選擇的動作空間較大且數據較為稀疏，導致算法收斂困難.本文使用深度強化學習中的深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法，該算法不再計算每個項目的概率而是基于確定的策略，這更有利于處理連續動作，并且提高了算法的收斂速度.

本文提出了一種將用戶策略記憶與DDPG 算法結合的方式來解決以上問題.本文的貢獻可以總結為以下幾點：

1）使用記憶網絡存儲用戶歷史交互序列，并訓練一個策略網絡，通過用戶和其歷史交互對用戶當前行為模式進行劃分.引入注意力機制，根據策略網絡的輸出對記憶網絡使用不同的注意力表示方法并生成用戶當前的記憶向量表示.

2）提出結合策略記憶的深度強化學習推薦算法（Deep Reinforcement Recommendation with Policy Memory，DRRM）.將用戶表示、用戶當前偏好以及用戶記憶作為狀態輸入，利用DDPG 算法預測用戶喜好，在交互中不斷更新推薦策略，該算法同時考慮了推薦項目對用戶的當前收益及其對用戶的長期影響.使用探索策略提高推薦多樣性.

3）通過在兩個公共數據集上進行的實驗，驗證了所提出算法的有效性，其效果明顯強于基線算法.

1 相關工作

1.1 序列推薦系統

序列推薦系統是近年來的研究熱點，通過對用戶的行為序列進行建模，考慮用戶興趣的依賴性，為其推薦下一時刻所感興趣的項目.傳統的序列推薦算法有：Feng 等人［5］提出了基于距離嵌入的個性化排序算法（Personalized Ranking Metric Embedding，PRME），將用戶序列建模為馬爾可夫鏈，并嵌入歐氏空間，基于距離計算項目相互之間的轉移概率.Liu等人［6］提出了基于上下文感知的序列推薦算法（Context-Aware Recurrent Neural Networks，CARNN），該算法使用特定輸入矩陣和轉移矩陣進行推薦，但該算法不利于捕獲交互序列中高度相關的項目信息.Wang 等人［7］提出的基于注意力機制的事務嵌入推薦算法（Attention-Based Transaction Embedding Model，ATEM）通過注意力機制來觀察和識別與下一個項目相關的上下文信息.Kang 等人［8］提出的基于自注意力的序列推薦算法（Self-Attentive Sequential Recommendation，SASRec）將自注意力機制應用于序列推薦系統，用于捕獲序列的長期語義，并在訓練速度上有一定的提升.

上述算法進行序列推薦時，總是假定相鄰兩交互是相關的，而對于具有靈活順序的長序列的識別能力不強.

1.2 基于記憶網絡的推薦算法

由于需要長期記憶來存儲問答知識或聊天的語境信息，記憶網絡（Memory Networks，MN）［9］由Weston 首次提出，以這種有效的方式來簡單地讀寫此類信息，該模型最初被應用于智能問答領域.Chen等人［10］提出了一種基于用戶記憶網絡的推薦算法（Recommender system with User Memory networks，RUM），該算法首次將記憶網絡應用于推薦系統，通過對用戶交互項目的讀取、寫入等操作更好地利用用戶的歷史記錄；但該算法并沒有對用戶興趣進行區分.Ebesu 等人［11］提出了一種將用戶協同過濾與記憶網絡相結合的推薦系統（Collaborative Memory Networks，CMN），分別利用潛在因素的全局結構以及鄰域的局部結構進行推薦.Ouyang 等人［12］提出了一種基于記憶增強的深度神經網絡推薦算法（Memory Augmented Deep Neural Networks，MADNN），該算法為每一個用戶都創建喜歡和不喜歡兩個外部記憶向量，以此來對用戶點擊率進行預測.

上述基于記憶網絡的推薦算法僅能夠識別記憶向量對當前交互的作用，無法識別未來收益較大的交互項目，并且沒有利用更深層的神經網絡模型對用戶偏好進行預測.

1.3 基于深度強化學習的推薦算法

近幾年來，隨著強化學習的發展，與推薦系統的結合也越來越多.深度強化學習的目標是智能體在與環境的不斷交互中學習到最佳策略，因此，有利于序列推薦的動態建模.Wang等人［13］提出了基于遞歸神經網絡的監督強化學習算法（Supervised Reinforcement Learning with Recurrent Neural Network，SRL-RNN），該算法使用演員-評論家框架處理多種藥物、疾病以及個體之間的關系，以進行個性化藥品推薦.Zhao 等人［14］提出了一種基于多智能體強化學習的DeepChain算法，該算法使用多個智能體協同優化，捕捉多場景中用戶行為順序相關性，以獲得整體的最大回報.Zheng 等人［15］將深度強化學習中的深度Q 網絡（Deep Q Learning，DQN）與推薦系統相結合，提出了基于深度強化學習的新聞推薦框架（Deep Reinforcement Learning Framework for News Recommendation，DRN），該框架同時使用Dueling Bandit 梯度下降方法來進行有效的探索.Liu 等人［16］利用DDPG 算法提出了用于解決電影等推薦的深度強化學習推薦算法（Deep Reinforcement Learning based Recommendation，DRR）.

上述基于深度強化學習的推薦算法僅使用單一的方式對用戶當前狀態進行建模，對用戶興趣的劃分存在一定偏差，且無法對用戶歷史喜好的不同權重進行建模.

2 DRRM模型

2.1 符號定義

本文將深度強化學習應用于序列推薦，推薦代理（Agent）根據時間順序對用戶和項目進行交互，以獲得最大化的累計回報.將此過程建模為一個馬爾可夫決策過程，其中包括狀態、動作、獎勵、衰減因子等四元組，具體定義如下：

狀態S：由用戶及其之前交互項目的集合組合而成，交互過的項目按照時間順序依次排列，并將其輸入演員-評論家網絡中進行預測.

動作A：采用基于策略的DDPG 算法，每次交互時根據策略網絡生成一個確定的動作A，該動作表示用戶當前的喜好，再與項目集進行內積得到為用戶推薦的項目.

即時獎勵R：推薦代理將一個項目推薦給用戶，根據用戶是否在當前時刻與該項目進行過交互，并給予一定的獎賞或懲罰.

衰減因子γ：γ∈［0，1］，是衡量短期收益與累計收益的標準，當γ越接近于零，代表算法越重視推薦的短期回報，反之則更加重視累計回報.

2.2 模型框架

DRRM 模型框架如圖1 所示，該模型分為3部分.

圖1 DRRM模型框架圖Fig.1 DRRM model framework diagram

第1 部分為圖中下半部，即用戶記憶網絡部分，該部分引入注意力機制用來區分用戶歷史交互項目的不同權重關系，從而學習用戶的興趣變化；根據不同的行為模式生成不同的用戶記憶向量，并將用戶的歷史記錄存入外部的記憶網絡中，為狀態的更新提供依據.第2 部分為策略網絡部分，該部分對用戶當前行為模式進行劃分.本文使用基于策略梯度算法的策略網絡對其進行劃分（詳見2.2.2 節），從而使記憶網絡選擇不同的注意力計算方式，得到用戶記憶向量，并結合用戶向量生成當前狀態S.第3 部分為DDPG 網絡部分，該部分用戶預測動作A.該網絡由演員和評論家兩個網絡組成，演員網絡通過輸入的狀態S，來輸出用戶當前的喜好；評論家網絡通過該部分輸出來更新演員網絡.該算法在與用戶的交互中不斷更新，以達到最優策略的輸出.

2.2.1 記憶網絡模塊

本文將用戶的歷史交互信息存儲在一個外部的組件——記憶網絡中，記憶網絡的具體構建如下：

令U={u1，u2，…，un-1，un}，T={t1，t2，…，tm-1，tm}.分別表示用戶和項目的集合，而n和m分別表示數據集中用戶以及項目的個數.令S={s11，s12，…，sij}且S∈Rn×m，表示用戶和項目的交互矩陣，其中sij表示用戶ui對項目tj的評分，矩陣中不同得分表示用戶對該項目的喜好程度，若用戶沒有對該項目進行過評分，則該評分為0.對于每個用戶u 都有該用戶自己評過分的項目集合Tu=其中k為該用戶所有評分項目的個數，該集合按用戶對項目評分的時間序列依次排列.

在每個時間節點t時刻都將每個用戶u 在此時刻之前的歷史交互存入其對應的記憶網絡中，即為根據本文3.5節實驗研究表明，記憶網絡中每個項目對于用戶下一次行為的影響并不相同.因此，本文將用戶行為分為短期偏好、長期偏好和全局偏好.

1）當用戶行為受上一次影響即為短期偏好時，對用戶交互集合中的所有項目與最近一次交互計算注意力權重，權重的計算如式（1）所示.

式中：n、j∈［1，t-2］；wn為最近一次交互的項目向量與記憶網絡中每個向量的乘積，輸出為一個一維的數值；exp（）表示以e 為底的指數函數；zn為第n個項目向量在此記憶網絡中的權重值.在得到權重值之后，計算當前狀態下的權重向量.經過注意力機制的權重向量的計算如式（2）所示.

式中：At為所求的前t-2 個項目的注意力向量，以此來表示該用戶的記憶向量.

2）當用戶行為受之前某一行為影響即為長期偏好時，首先使用式（1）得出與最近一次行為注意力權重最高的項目；再使用和用戶的歷史交互向量計算注意力權重，再通過式（2）計算用戶記憶向量.

3）當用戶行為與歷史交互無直接關系即為全局偏好時，對使用用戶向量與該用戶的歷史交互向量進行注意力權重的計算，并計算用戶的記憶向量.

對于用戶記憶網絡的寫入操作，本文采用先入先出的策略進行更新.將每個用戶的記憶網絡設置為固定的長度，先將每個用戶的前兩次交互放入網絡中，從第3 次交互開始訓練.若用戶的記憶數小于記憶網絡可存放的記憶個數，則直接將最近一次交互寫入記憶網絡，否則將最開始的用戶交互記憶刪除并寫入最近交互.

2.2.2 基于策略梯度的策略網絡

本文將訓練一個策略網絡來對用戶當前行為的3種模式進行劃分，記憶網絡將根據該網絡的輸出結果選擇如2.2.1 節所示的不同的注意力計算方式，生成用戶記憶向量.

該策略網絡基于策略梯度（Policy Gradient）算法，通過用戶向量和用戶歷史交互向量的平均值作為輸入，計算得到用戶3 種行為模式的概率πθ(at|st)，并輸出該交互的行為模式.在經過記憶網絡以及DDPG 網絡預測出的結果得到獎勵值R(at)，通過該獎勵值計算策略網絡的損失，該損失函數如式（3）所示.

在得到損失函數后，使用梯度下降來優化損失，更新網絡參數.

2.2.3 基于DDPG算法的訓練框架

用戶當前狀態的表示模型由用戶表示、用戶記憶網絡以及用戶當前偏好3 部分組成，以此來表示用戶與項目交互的序列關系.用戶u 在t時刻的偏好即當前狀態的表示如式（4）所示.

式中：Concat（）為拼接函數；u代表用戶的向量表示；At代表用戶的記憶向量表示代表用戶的當前偏好表示，若為短期偏好則使用用戶最近一次交互，若為長期偏好則使用權重最高的交互向量，若為全局偏好則使用歷史交互的平均值.

使用DDPG 算法對數據進行訓練，DDPG 算法是演員-評論家網絡的一種，它輸出的是一個確定的動作，結合DQN 以及策略梯度算法的優勢，加速網絡的收斂，可以更好地解決連續動作空間上的求解問題.該算法由兩個網絡組成，即演員網絡和評論家網絡.同時，為了提高網絡的穩定性和收斂性，設置兩個更新較慢的目標網絡來提高兩個預測網絡的更新效率.兩個預測網絡的功能及其更新過程如下所述：

演員網絡將輸入的用戶當前狀態St經過幾層神經網絡后輸出一個確定的用戶喜好向量at.為了增加推薦的多樣性，防止算法得到局部最優解，在訓練過程中，使用高斯噪聲進行探索，探索過程計算如式（5）所示.

式中：μ為數學期望；σ2為方差；β為探索時的衰減系數.使用經過探索得到的喜好向量跟項目集合T相乘，將得到的值經過sigmoid 函數變換為每個項目的得分Gi，并將此得分進行排序為用戶推薦前n個項目.具體計算如式（6）所示.

每輪預測都將向經驗回放池傳入B=｛St，A，R，St+1｝四元組，其中St+1為下一時刻的狀態.演員網絡更新的損失函數梯度如式（7）所示.

式中：θa為演員網絡中的參數；N為經驗回放池中的batch大??；Q（s，a，θa）為評論家網絡的輸出.

評論家網絡用來評估演員網絡.通過從經驗回放池中獲得一個batch 的數據，利用現實Q值和估計Q值的均方差來更新其網絡參數.更新的損失函數如式（8）所示.

式中：Q(si，ai，θc)為估計的Q值網絡得到的值.yi的計算如式（9）所示.

式中：γ為衰減因子，用于權衡即時收益與未來總收益之間的關系；Q′(si+1，ai+1，θc′)為使用現實Q網絡對下一步交互所計算的值；ri為當前狀態的獎勵值.獎勵值R的計算如式（10）所示.

若推薦的項目集合中存在用戶當前的喜好項目則獎勵值為1；若推薦的項目集合中沒有當前喜好，但出現在用戶的交互序列中則獎勵值為1∕2；其他情況獎勵值為-1.以此來區分不同動作所獲得的回報.

3 實驗與結果分析

3.1 數據集與評價指標

本文使用Amazon Instant Video 以及Amazon Automotive（http：∕∕jmcauley.ucsd.edu∕data∕amazon∕）兩個公開的數據集來進行實驗分析.為保證序列的長度，將交互個數小于10 個項目的用戶刪除，經過預處理后的可用數據量如表1 所示.兩個數據集都具有時間戳信息，因此，可對用戶序列按時間進行排序并進行序列推薦.使用每個用戶前80%的數據進行訓練，后20%進行測試，以證明本文所提出觀點的有效性.

表1 數據集統計表Tab.1 Statistics of data sets

本文所使用的評價指標［10］由精準度（Precision）、召回率（Recall）、F1值（F1-score）以及HR 值（Hit-ratio）組成，從多個方面評估模型的好壞.

3.2 實驗環境

本實驗采用的軟硬件環境如表2 所示，本算法所使用的Python版本為3.7.3，并基于Tensorflow 深度學習框架實現本算法的深度強化學習.

表2 實驗環境表Tab.2 Experimental environment table

3.3 實驗參數設定

DRRM 模型所使用的超參數有學習率、batch_size以及衰減因子.

為了研究超參數對模型性能的影響，首先對DDPG 網絡使用不同學習率、batch_size進行實驗.學習率和batch_size 是兩個最重要的模型超參數，合適的學習率和batch_size，不僅可以加速模型收斂，防止陷入局部最優，還可以提高模型的性能.在Amazon Instant Video 數據集上進行參數設置，不同學習率、batch_size的對比實驗如表3所示.

表3 學習率、batch_size對比實驗表Tab.3 Learning rate，batch_size of comparative experiments

從表3可以看出，當學習率為0.001且batch_size為8 時，所得到的Precision 以及F1-score 指標最高，模型達到最佳性能.

衰減因子是深度強化學習中最重要的參數之一，是衡量當前收益與未來總收益的標準，通過設置不同的大小來表明當前動作對未來的影響.當學習率和batch_size分別為0.001和8時，進行衰減因子的設定對比實驗，實驗結果如圖2所示.

圖2 不同衰減因子的指標對比Fig.2 Comparison of indicators of different attenuation factors

3.4 對比實驗

為了證明所提出的DRRM 算法的有效性，本文從傳統的序列推薦模型、基于神經網絡的模型、基于強化學習的模型以及記憶網絡模型4 個方面，使用以下5種具有代表性的基線算法進行對比實驗.

貝葉斯個性化排序算法［17］（Bayesian Personalized Ranking，BPR）：該算法基于貝葉斯的個性化Top-N 推薦方法，提出了一個通用的準則BPR-Opt來優化推薦排序.

個性化馬爾科夫鏈算法［18］（Factorizing Personalized Markov Chains，FPMC）：該算法將矩陣分解和馬爾科夫鏈模型相結合來學習用戶對應的轉移矩陣，并引入BPR算法來處理數據進行序列推薦.

動態遞歸推薦算法［19］（Dynamic Recurrent Basket Model，DREAM）：該算法的主要思想為基于遞歸神經網絡學習用戶的動態興趣表示，并捕捉用戶的全局序列特征.

深度強化學習推薦算法［16］（Recommendation Based on Deep Reinforcement Learning，DRR）：該算法基于顯式用戶-項目交互的深度強化學習推薦系統，僅使用用戶和項目的交互向量作為輸入項，并使用DDPG算法進行預測.

用戶記憶網絡推薦算法［10］（Recommender with User Memory Networks，RUM）：該模型的主要思想是在序列推薦算法中引入用戶記憶網絡，存放用戶的歷史交互并進行Top-N推薦.

Amazon Instant Video 和Amazon Automotive 數據集模型性能比較如表4 所示.相較于最優基線算法，DRRM 算法的精準度在Amazon Instant Video 數據集上有8.89%的提升，在Amazon Automotive 數據集上略有下降；召回率在2 個數據集上分別有8.87%和11.20%的提升；F1值在2 個數據集上分別有18.10%和7.23%的提升；HR 在2 個數據集上分別有8.89%和1.07%的提升.由此證明了本文所提算法的有效性.

表4 Amazon Instant Video和Amazon Automotive數據集模型性能比較Tab.4 Performance comparison of Amazon Instant Video and Amazon Automotive dataset models %

3.5 消融實驗

為了研究本文所提出的策略網絡以及基于優先記憶模型在用戶記憶網絡和DRRM 模型中的作用，在Amazon Instant Video 數據集上進行多組消融實驗，并使用精準度以及召回率指標進行對比.

具體實驗設置如下：①將用于生成用戶行為模式的策略網絡去除，僅使用用戶最近交互對用戶的記憶向量表示進行計算的DRRM_s 模型；②將策略網絡去除，僅使用與用戶最近交互項目權重最高的記憶項目對用戶的記憶向量進行計算的DRRM_l 模型；③將策略網絡去除，僅使用用戶向量計算注意力權重并生成用戶記憶向量表示的DRRM_h 模型.實驗對比圖如圖3所示.

圖3 消融實驗對比圖Fig.3 Comparison diagram of ablation experiment

由圖3可知，沒有加入策略網絡的3種單一記憶向量表示方法的精準度與召回率均低于DRRM 算法，從而說明用戶策略網絡對用戶當前行為模式的預測起著重要的作用.

3.6 用戶行為模式

為了證明所提出的3 種用戶行為模式，即短期偏好、長期偏好以及全局偏好的可解釋性，使用Amazon Instant Video 數據集的實例進行實驗驗證.如圖4～圖6 所示，實驗使用的記憶網絡內存長度為5，x軸和y軸均表示用戶的交互序列，每一個小格代表對應兩個向量之間的相關度，顏色越深則說明兩向量越相關，對角線元素均為1.

由圖4 可知，在用戶的第6～9 次交互時，策略網絡預測為短期偏好，最近一次交互對當前交互的影響最大，對應的顏色也越深.對應于Amazon Instant Video 數據集中的實例是該用戶在看了一集某電視劇后又接連觀看了后面的3集.

由圖5可知，在用戶的第8～11次交互時，策略網絡預測為長期偏好.用戶的第6 次交互對其影響最大，對應顏色也越深，即為用戶的長期偏好.對應于Amazon Instant Video 數據集中的實例是該用戶當看了一部之前沒看過的喜劇類型電影（第6 次交互）后，又連續看了幾部該類型（第8～11 次交互）但互相關聯不大的電影.

圖5 長期偏好圖Fig.5 Long-term preference diagram

由圖6 可知，在用戶的第6～9 次交互時，策略網絡預測為全局偏好.其之前的幾次交互權重值相差不大且顏色近似，說明此次交互為用戶的全局偏好.對應于Amazon Instant Video 數據集中的實例是該用戶當看了一部驚悚類型（第6 次交互）的電影之后，又看了喜劇、愛情、傳記類型的電影.

圖6 全局偏好圖Fig.6 Global preference diagram

4 結論

本文研究了結合用戶策略記憶和深度強化學習的序列推薦算法，提出一個新的DRRM 模型框架.該算法通過策略網絡對用戶與項目交互的行為模式進行更加細致的劃分，以解決用戶-項目交互序列并不總是順序相關甚至存在噪聲的問題.通過對衰減因子的設定，證明深度強化學習對DRRM 的影響；在消融實驗中，驗證了用戶策略網絡以及注意力機制在記憶網絡中的重要性.通過在兩個數據集上對比先進序列推薦模型的大量實驗，證明了本文所提算法的有效性.

本文只是對數據集中的用戶和項目進行矩陣分解得到相應的向量，此外還有許多可以利用的信息比如用戶的身份信息、社交信息等，來更新用戶、項目表示，以提高模型的可解釋性.