基于深度強化學習的推薦算法的構建研究

2025-05-05 00:00:00許同駿許杰

電腦知識與技術 2025年9期

摘要：在當前高度信息化的社會環境中，推薦系統是解決信息過載問題的關鍵工具，廣泛應用于各類在線平臺。然而，傳統推薦算法（如協同過濾和基于內容的推薦）在數據稀疏、冷啟動和特征識別等方面存在局限性。文章基于傳統推薦系統現狀，探究深度強化學習在推薦系統中的應用，并提出一種基于深度強化學習的推薦算法。實驗結果表明，該算法在準確率、召回率和mAP等指標上優于對照組，為推薦系統發展提供了新思路。

關鍵字：深度強化學習；推薦系統；關鍵技術；算法模型

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2025）09-0033-05 開放科學（資源服務）標識碼（OSID）：

0 引言

在當今信息化與數字化深度融合的社會語境下，信息技術高速發展導致信息爆炸式增長，進而引發信息過載問題。為了有效應對這一挑戰，推薦系統應運而生，并成為了解決信息過載問題的關鍵技術之一[1]，旨在通過分析用戶行為和興趣偏好，提供個性化內容推薦，提高信息獲取效率和用戶體驗。

然而，隨著應用場景的日益復雜和用戶需求的不斷升級，傳統推薦系統下所應用的協同過濾或基于內容的推薦算法逐漸暴露出其在數據稀疏性處理、冷啟動問題應對以及特征深度挖掘等方面的局限性，難以滿足當前在線平臺的應用需求[2]。

為了應對這些挑戰，研究者們開始探索新的技術和方法以優化推薦系統的性能。其中，深度強化學習作為一種融合了深度神經網絡和強化學習優勢的新興技術，以其強大的數據處理能力、自適應學習機制及在復雜決策任務中的卓越表現，為推薦系統的革新提供了新的思路。例如，Somaye Ahmadkhani[3]等人在研究中提出了一種基于深度強化學習（DRL）框架的社交圖像推薦系統，以改善傳統靜態推薦策略在實際應用中的不足。劉春霞[4]針對推薦系統中存在的多源信息融合問題，設計并實現了深度強化學習推薦模型，并在實驗數據集上驗證了該模型在推薦準確性和個性化程度上的有效性。綜上，本文認為，深度強化學習在推薦系統中具有顯著的可行性，有利于提升推薦系統的工作效率和性能。因此，本文將全面探究深度強化學習在推薦系統領域實用優勢，并提出一套基于深度強化學習的推薦算法框架，以解決傳統的推薦系統所面臨的諸多不足，為推動推薦系統技術的持續進步作出貢獻。

1 技術路線

1.1 推薦系統

推薦系統是一種基于大規模數據挖掘技術構建的智能化網絡應用，它專注于對繁復多樣的數據信息進行深度分析與精確篩選，從而打造一個極具個性化的信息環境。這一系統的核心效能不僅體現在對復雜數據信息的細致過濾與高效整合上，更在于它深入洞察并預測用戶的個性化需求[5]。

如圖1所示為標準化的推薦系統框架結構，主要包含輸入功能模塊、推薦方法模塊和輸出功能模塊。推薦系統的框架運作機制是一個閉環的、持續迭代的過程。在這個流程中，推薦算法成了連接用戶偏好與推薦內容的核心橋梁，也是整個推薦系統功能實現的關鍵所在。通過對推薦算法的設置、調用以及優化，推薦系統能夠深化對用戶需求的洞察能力，進而提供更加貼合用戶期望的個性化推薦內容，從而提升用戶體驗和滿意度。

1.2 深度學習

人工智能（Artificial Intelligence）簡稱AI，作為現代計算機科學的一個分支，旨在探求人類智能的實質，并將其進行模擬、延伸和擴展，從而能夠生產出一種以人類智能相似的方式做出諸如感知、認知、決策、執行等合理反應的機器。人工智能作為集理論、方法、技術、應用系統于一體的現代高新科技，所牽扯和涉及的學科和內容極其廣泛，是一個非常龐大的范疇和研究體系，常見的分支包括專家系統、機器學習、進化計算、模糊邏輯、計算機視覺、自然語言處理等等。

機器學習作為實現人工智能的一條基本路徑，能夠人為的應用大量數據和算法模型完成機器的訓練，以致機器學會如何自行執行和處理問題。在機器學習領域內，深度學習作為一個全新的算法能夠進一步改善和優化機器學習算法的執行流程，降低人為干預影響，縮短訓練時間，擴展應用場景。

深度學習（Deep Learning，DL）是機器學習的一個重要分支，其基礎是多層結構的深度神經網絡。其核心應用是通過對輸入數據進行逐層特征提取和抽象，形成高階特征表示，從而實現對復雜數據的有效建模和分類。

深度學習的本質是通過構建多個神經元，并將其排列分布為多層結構，形成一種神經網絡。其中神經網絡的結構可以分為輸入層、隱藏層、輸出層三部分，且隱藏層可以有多個疊加，以表達深度。如圖2所示為單個神經元結構，圖3為深度學習下的神經網絡結構。

如圖3所示，輸入層負責接收外界輸入數據信息，并將其轉化為神經網絡可以識別處理的信號。隱含層負責處理輸入信息，是神經網絡的核心部分，能夠對輸入的數據信息進行加工處理，完成特征提取和轉換。隱含層可以有多個，根據問題的復雜性和神經網絡的設計，層數和每層中的神經元數量可能有所不同。輸出層將接收到的信號轉化為問題結果進行輸出，輸出層的節點數與具體的問題類型相關。常見的代表性深度學習算法包括卷積神經網絡（CNN）、循環神經網絡（RNN）和深度信念網絡（DBN）等，這些算法在圖像識別、語音識別、自然語言處理等領域取得了顯著成果。

1.3 強化學習

相較于深度學習，強化學習側重通過與環境的交互來學習最優行為策略。在強化學習中，智能體（agent）會根據當前環境狀態選擇動作，并以此來調整其行為策略，實現最大化累積獎勵目標，如圖4所示為智能體與環境交互的過程示例。其中，智能體是學習的主體，環境是智能體交互的對象，狀態描述了環境的當前情況，動作是智能體可以采取的行為，獎勵是對智能體行為的反饋。代表性算法有Q學習、Sarsa 等，這些算法在游戲AI、機器人控制、自動駕駛等領域展現了強大的決策優化能力。

深度學習與強化學習在人工智能領域中各自具有獨特的優勢和特點，同時二者之間也存在著緊密的聯系與顯著的差異。而深度強化學習（Deep Reinforce?ment Learning，DRL）是一種結合了深度學習和強化學習的新型技術，旨在使用深度神經網絡來近似強化學習中的策略或價值函數，從而解決復雜的決策問題。深度強化學習通過智能體與環境之間的互動學習，實現無監督學習的目標，并可以在不同的任務和環境中實現多任務學習的目標[6]。如圖5所示為深度強化學習的工作原理圖，其內部包含有四個部分。其一，每當智能體與環境進行交互時，它會接收到高維的輸入數據，這些數據包含了環境的當前狀態信息。為了有效地處理這些數據，智能體利用深度學習技術來降低輸入數據的維度，并自主學習數據的內在特征，從而構建出對環境狀態的準確理解；其二，智能體會計算預期收益，并通過評估每個可能行為的價值函數來智能體在反映出采取特定行為后預期能夠獲得的累積獎勵。其三，基于這些預期收益和當前的環境狀態，智能體會根據現有的策略來映射出最合適的動作。一旦執行了這個動作，環境會對此做出反應，并呈現出新的可觀測狀態，智能體則根據這個新狀態繼續與環境進行交互。其四，不斷重復以上三個步驟，智能體會根據每次交互的結果來更新其策略，直到最終找到能夠最大化累積獎勵的最優策略。

1.4 基于深度強化學習的推薦算法模型

針對傳統的推薦系統下所面臨的數據稀疏性、冷啟動應對以及特征深度挖掘等問題，本研究將采用深度強化學習方法來進行彌補和優化，旨在為推薦系統領域帶來全新的解決方案。如圖6所示為基于深度強化學習的推薦算法模型框架，模型的核心構成包括環境、狀態與智能體三大要素。環境作為智能體進行交互與學習的場所，其內部包含了用戶與目標對象兩大關鍵組成部分。用戶，作為推薦系統的服務對象，其歷史行為、偏好及當前需求等信息，構成了推薦算法的重要輸入數據。而目標對象，即推薦系統希望推薦給用戶的內容或商品，其特征信息同樣對推薦算法具有至關重要的影響。智能體與環境之間的交互，即動作與回復，構成了推薦算法學習的基礎框架。狀態，作為智能體在環境中感知到的當前信息，它融合了用戶特征與目標對象特征，為智能體提供了決策的重要依據。智能體根據當前狀態，運用深度神經網絡（DQN）進行價值估計，從而選擇出最優的動作，即推薦給用戶的內容或商品。

此外，在智能體下的DQN算法能夠接收當前狀態（即用戶特征和目標對象特征的組合）作為輸入，并輸出每個可能動作的Q值（即執行該動作所能獲得的期望回報）。這些Q值反映了在給定狀態下執行不同動作的優劣程度，從而幫助智能體選擇最優動作。而經驗池是一種用于存儲智能體與環境交互歷史經驗的機制。在推薦系統中，每次智能體執行一個動作并觀察到用戶的反饋后，都會生成一個經驗樣本（包括當前狀態、動作、獎勵和下一狀態）。這些經驗樣本會被存儲到經驗池中，以便后續進行學習和優化。

在具體的模型設計過中，主要涉及回報函數與探索策略兩個要素，兩者共同決定了智能體的學習目標和行為方式。回報函數通常用于量化推薦策略的好壞，即評估智能體所做出的推薦是否滿足用戶的需求和期望[7]。一個合理的回報函數應該能夠準確反映用戶對推薦內容的滿意度，也可以讓智能體不斷學習和優化其推薦策略，以最大化累積的回報值。在本研究中，因選擇DQN作為智能體的主體算法，所以回報函數也將按照Bellman方程進行描述：

綜上，通過設計的回報函數，基于深度強化學習的推薦算法模型可以利用有限的用戶交互數據，學習并優化推薦策略。

2 實例測試

為了驗證本文提出的基于深度強化學習的推薦算法模型的實際應用效果，我們將對某電商平臺的用戶歷史行為數據進行分析預測，并通過設定相應的評估指標來全面地驗證推薦模型的實效性，并據此進行必要的調整和優化。

2.1 數據集與預處理

本次測試所選數據集為某電商平臺移動App下歷史用戶行為數據。數據集的時間跨度為3個月，內部分為用戶屬性組、用戶行為組、商品種類組以及商品屬性組四部分。如表1、表2所示為各用戶屬性組和商品屬性組的主要字段信息。

在獲取原始數據后，將進一步執行預處理操作，即對需要識別和處理數據中的缺失值、異常值和重復記錄。對于缺失值，可以采用填充、插值或刪除含有缺失值的記錄等方法；對于異常值，則可能需要根據業務邏輯進行修正或剔除。經過預處理后，目前可用數據如表3所示。

2.2 模型訓練與評估

根據上述基于深度強化學習的推薦算法模型的構建方案，DQN的深度學習能力使模型能從稀疏數據中挖掘潛在的用戶偏好，有效緩解數據稀疏問題。對于冷啟動問題，基于深度強化學習的推薦算法模型將采用積極的探索策略，在初期階段嘗試新的推薦組合，快速積累用戶反饋，構建初始推薦模型，以確保在冷啟動階段也能提供合理的推薦[9]。此外，DQN的深度神經網絡結構使模型能夠自動學習用戶和推薦內容的深層次特征，實現更精細化的用戶畫像和內容理解，突破了特征深度挖掘問題的限制，提升了推薦的準確性和個性化水平。

在推薦算法模型的訓練過程中，為了確定DQN算法的最佳參數，我們將采用Grid Search 方法。Grid Search方法是一種通過窮舉給定參數值組合來找到最優參數配置的方法。具體過程如下：首先，我們需要為模型中的每個參數確定一個合理的取值范圍。這些參數包括隱藏層節點數、激活函數、學習率、折扣因子、回報函數中的獎勵值、探索策略中的ε 值及其衰減率和最小值，以及模型更新時間等。然后，我們將這些參數的取值范圍組合成一個參數網格，每個網格點代表一種參數配置。對于參數網格中的每個點，我們都將訓練一個DQN模型，并使用某種性能指標（如準確率、召回率或F1分數等）來評估其性能。最后，我們選擇性能最佳的模型對應的參數配置作為最優參數，具體參數設置信息如表4所示[10]。

訓練結果如表5 所示，并采用準確率、召回率、mAP等指標來評估推薦算法模型的整體性能。結果表明，該基于深度強化學習的推薦算法模型在準確率、召回率和mAP方面均表現出色，顯示出較高的分類性能和目標檢測能力。

2.3 對比分析

為了充分驗證基于深度強化學習的推薦算法模型的實用性能，本研究還將構建一組對比實驗，即采用測試集分別在決策樹（DT）、Wide amp; Deep、基于內容推薦算法、協同過濾推薦算法以及本文推薦算法模型下進行同步測試，并使用準確率、召回率、mAP值作為統一的評估指標。如表6所示為對照組算法詳細說明，表7為對比試驗結果。

結果表明：基于深度強化學習的推薦算法模型在準確率、召回率和平均精度均值這三個關鍵指標上都表現出了優異的性能。這表明該模型在訓練過程中有效地學習了用戶的偏好和行為模式，能夠為用戶提供更準確、更相關的推薦。

3 結束語

本文針對傳統推薦系統存在的不足，提出了一種基于深度強化學習的推薦算法。實驗結果表明，該算法在電商平臺用戶數據上的推薦任務中性能優異，顯著優于傳統算法。未來研究將進一步優化模型結構，提高計算效率，并探索更多應用場景。