999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個性化新聞推薦方法研究綜述

2023-12-08 11:48:30孟祥福霍紅錦張霄雁王琬淳朱金俠
計算機與生活 2023年12期
關鍵詞:用戶信息方法

孟祥福,霍紅錦,張霄雁,王琬淳,朱金俠

遼寧工程技術大學電子與信息工程學院,遼寧 葫蘆島 125105

由于在線新聞服務的便利性和及時性,很多用戶的新聞閱讀習慣已經從傳統報紙轉向了數字新聞內容。然而每天都有大量新聞文章被創建和發布,用戶不可能通過瀏覽所有新聞來查找其感興趣的新聞。因此,個性化新聞推薦(personalized news recommendation,PNR)技術旨在根據用戶興趣偏好及其位置為用戶推薦新聞,是新聞平臺幫助用戶減輕信息過載、改善新聞閱讀體驗的關鍵技術[1]。

個性化新聞推薦系統通過分析和處理原始新聞數據和用戶行為數據,結合不同的新聞推薦方法對新聞和用戶建模,充分提取新聞內容特征,挖掘用戶偏好以生成新聞和用戶嵌入表示,其架構如圖1 所示。當用戶進入個性化新聞推薦系統時,推薦引擎會根據用戶的閱讀歷史、位置、偏好等因素,從候選新聞集中選取滿足用戶需求和偏好的新聞并根據預測模型對候選新聞進行排序,生成推薦列表并展示給用戶。例如,如果用戶之前閱讀過足球新聞,那么推薦系統可能向用戶推薦最新的世界杯賽事新聞;如果用戶位置在北京,那么推薦系統可能推薦北京地區的周邊新聞。此外,用戶界面還將為每個用戶顯示不同主題的新聞,收集用戶反饋并以此更新推薦結果,從而實現個性化的新聞推薦。

盡管PNR 技術已經取得了顯著的進展,但仍需進一步提高個性化推薦水平,包括更全面地挖掘新聞語義,更細粒度地提取用戶偏好和構建更高效的個性化新聞推薦模型。隨著移動互聯網技術的蓬勃發展,基于移動端的個性化新聞推薦已成為主流趨勢。個性化移動新聞推薦系統能夠隨時隨地向用戶提供新聞信息,具有良好的交互性,為用戶實時獲取新聞資訊帶來更加便捷舒適的體驗。然而,移動設備的屏幕尺寸較小、網絡質量不穩定和使用場景的多變性可能會影響個性化新聞推薦系統的效果和效率,這仍是未來個性化移動新聞推薦研究亟待解決的重要問題。

傳統的新聞推薦方法主要分為三類:基于協同過濾(collaborative filtering,CF)、基于內容和混合推薦方法。其中,基于協同過濾的推薦算法旨在通過分析用戶行為來發現新聞或用戶之間的相關性并相應地向用戶推薦新聞。Dong 等人[2]采用協同過濾算法來預測用戶評分并在計算用戶相似性時添加新聞熱點參數來改進相關系數公式,緩解了用戶評分矩陣數據的稀疏性。Wang 等人[3]結合協同過濾和概率主題模型的特點,為用戶和新聞提供一個可解釋的潛在結構。然而,早期的協同過濾算法通常只使用描述性特征(如ID 和屬性)構建用戶和新聞嵌入,未考慮用戶與新聞交互之間豐富的語義信息,存在數據稀疏和冷啟動問題。因此,基于內容的推薦算法通過提取新聞文章中的語義及上下文特征來緩解上述問題,其核心在于對推薦對象的內容特征的挖掘以及基于內容特征和用戶行為的興趣模型的構建。Okura 等人[4]基于新聞間的相似性來學習新聞嵌入表示,并引入主題信息來豐富新聞建模。Liu 等人[5]提出一種基于用戶點擊行為的新聞推薦方法,采用貝葉斯模型根據用戶對不同新聞主題的文章的點擊分布來學習用戶的興趣表示。混合推薦算法是指上述兩種或兩種以上推薦算法的組合。Bansal等人[6]將主題模型、貝葉斯模型及協同過濾方法整合為統一框架來推薦用戶可能會評論的文章。Lu 等人[7]將基于內容和協同過濾技術相結合,根據新聞文本豐富的上下文信息向用戶進行推薦并采用協同過濾技術分析長尾用戶的稀缺反饋。然而,混合推薦算法仍存在數據異構性、數據稀疏性和冷啟動問題等缺點。

深度學習(deep learning,DL)已成為人工智能時代的新熱潮并在推薦系統中得到廣泛應用[8]。目前已有多篇相關綜述性論文介紹個性化新聞推薦領域技術,如:黃立威等人[9]和余力等人[10]分別從深度學習和強化學習角度提及了個性化新聞推薦技術;田萱等人[11]從深度學習角度剖析了個性化新聞推薦算法;王紹卿等人[12]和孟祥武等人[13]分別從個性化推薦框架和移動推薦角度介紹了新聞推薦算法等。為了更系統地、全面地分析個性化新聞推薦技術,本文從深度學習技術角度進一步論述個性化新聞推薦技術的研究進展,著重總結了基于圖結構學習的個性化新聞推薦方法并從新聞推薦的核心對象(即用戶和新聞)角度全面分析深度學習技術對于個性化新聞推薦的特點和優勢。

1 個性化新聞推薦概述

與電影、商品、旅游、音樂等領域的推薦方法不同,個性化新聞推薦具有高度的時間敏感性,并且受上下文因素和社交因素的影響較大。由于新聞內容通常與當前事件和話題相關,個性化新聞推薦系統需及時捕捉用戶偏好并據此動態地更新和調整推薦的新聞內容。相比之下,其他領域推薦通常具有相對較長的內容生命周期。一旦發布,它們可能在一段時間內保持相對穩定的特性和信息,因此更新頻率相對較低。此外,由于新聞數據增長迅速,對個性化新聞推薦系統的可擴展性也提出了更高要求。表1 給出了個性化新聞推薦與其他領域推薦方法受上下文因素、社交因素、時間因素和可擴展性方面影響程度的對比結果。

1.1 個性化新聞推薦

1.1.1 基于時間的新聞推薦

基于時間的新聞推薦包含時效性和實時性兩個方面。時效性是新聞推薦區別于其他推薦的本質特征,發布時間較久的新聞往往會失去它作為新聞的價值。實時性是根據用戶當前行為(如下拉、滑動等),個性化新聞推薦系統實時更新推薦結果,快速反映用戶的興趣變化,給用戶視覺上的沖擊與強感知。Liu等人[14]設計一個時間模塊來強調新聞新鮮度對推薦結果的影響,通過預測用戶在每篇新聞文章上花費的“活躍時間”來模擬及時性對新聞推薦結果的影響。實驗表明,該方法提高了新聞推薦的時效性并促進了最新發布新聞的傳播,但在一定程度上削弱了用戶興趣的主導地位。因此,個性化新聞推薦需要考慮新聞時效性和用戶偏好之間的平衡。

1.1.2 基于位置的新聞推薦

移動用戶閱讀新聞的地理位置并不固定,考慮用戶閱讀新聞的位置能更加準確地獲取用戶當前的閱讀偏好,也更符合用戶的實際需求。袁仁進等人[15]將新聞事件的地理位置引入新聞推薦模型中,提出一種顧及事件地理位置的個性化新聞推薦方法(news recommendation algorithm considering geographical position,NCGP)。該方法通過設計一個提取新聞事件發生地的算法并采用向量空間模型表示新聞特征向量并分別對有地理位置和無地理位置的新聞集構建用戶興趣模型。Chen等人[16]提出一種顯式語義分析方法(location-aware personalized news recommendation with explicit semantic analysis,LP-ESA),利用用戶的個人興趣和地理上下文信息進行新聞推薦。然而,LP-ESA 中基于維基百科的主題空間存在高維性、稀疏性和冗余性等問題,為此進行改進提出具有深度語義分析的位置感知推薦方法,采用深度神經網絡為用戶、新聞和位置提取密集、抽象、低維和有效的特征表示。Xu 等人[17]提出一個專為移動用戶設計的個性化新聞推薦框架(MobiFeed),將路徑預測引入基于位置的個性化新聞推薦中并根據用戶的移動軌跡,實時向用戶推薦位置相關的新聞。基于位置的個性化新聞推薦有利于用戶發現其附近的新聞,捕捉當下周圍環境中所發生的事情,但該方面研究趨向于提高位置匹配精確度而往往忽略了位置感知的用戶偏好。

1.1.3 基于社交網絡的新聞推薦

社交網絡是一個由個體節點以及反映個體之間特定關系的邊所組成的圖,能夠向用戶提供一個交友、分享資訊的平臺,在一定程度上起到了信息傳播和流通的作用。社交信息通常包含用戶及其朋友活動的最新信息,反映了用戶興趣的動態性和多樣性。Saravanapriya 等人[18]提出一種多標簽卷積神經網絡,通過挖掘社交媒體來預測用戶的多標簽興趣并根據用戶感興趣的標簽來確定最受歡迎的新聞文章。Ashraf 等人[19]將用戶的社交媒體偏好和新聞類別間的關系進行建模并通過從社交媒體中獲取的用戶興趣來進行新聞排名。Yang 等人[20]將知識圖譜和社交網絡集成到新聞推薦中,采用改進的抽樣機制對社交網絡結構進行量化并采用隨機游走抽樣策略來獲取社交網絡中的鄰居。實驗表明,融合社交因素的新聞推薦能夠動態捕捉用戶興趣變化,進而提升新聞推薦效果。

1.1.4 基于會話的新聞推薦

基于會話的新聞推薦旨在通過在短時間內基于用戶偏好對序列信息進行建模,根據用戶的短期會話為用戶提供個性化的閱讀建議。Moreira 等人[21]提出一種基于會話的新聞推薦深度學習元架構,將新聞內容和上下文特征相結合并采用循環神經網絡(recurrent neural network,RNN)建模用戶時序興趣。Meng等人[22]將環境、突發新聞及新聞內容相結合,提出一個基于會話的上下文感知興趣漂移網絡(context-aware interest drift network,CaIDN),采用雙向注意力循環網絡有效地從各方面捕捉用戶閱讀興趣的漂移,提高用戶興趣的動態性和多樣性。然而,現有的基于會話的新聞推薦方法集中從新聞文章和交互序列中提取特征,通常忽略了新聞文章間的語義結構信息。Sheu 等人[23]提出一種基于會話的新聞推薦上下文感知圖嵌入框架,利用知識圖譜來豐富文章中的實體語義并采用圖卷積網絡(graph convolution network,GCN)進一步細化文章嵌入。

1.1.5 基于多模態的新聞推薦

大多數現有的新聞表征方法通常只從新聞文本中學習新聞表示,而忽略了新聞中的視覺信息(如圖片、動畫等)。事實上,用戶點擊新聞不僅是由于對新聞標題感興趣,也有可能被多模態特征(如圖像、音頻和視頻等)所吸引。因此,融合視覺和文本信息來學習多模態特征對于新聞建模和預測新聞點擊率尤為重要。Guo 等人[24]融合多模態特征來學習新聞表征并將用戶興趣表示為多模態信息,提出一種基于深度強化學習的新聞推薦方法。Wu等人[25]采用預訓練視覺語言模型對新聞文本和從新聞圖像中提取的感興趣的區域圖像進行編碼,提出一種多模態新聞推薦方法。Xun 等人[26]采用視覺語義建模的方法來捕獲用戶瀏覽新聞時所感知的視覺印象信息,從而更加深入地理解用戶閱讀新聞的過程。實驗表明,融入多模態特征的新聞推薦能夠更全面地描述新聞內容,提高新聞推薦的效果和準確性。

1.2 個性化新聞推薦與傳統新聞推薦的區別

與單純基于新聞熱度、新聞新鮮度等非個性化因素來推薦新聞的方法不同,個性化新聞推薦需要深入考慮每個用戶的興趣偏好,并根據新聞內容、位置、類型等與用戶偏好的匹配程度來提供個性化新聞推薦服務。與傳統新聞推薦系統相比,PNR 在滿足用戶個性化需求基礎上,還有以下幾方面特點:

(1)多樣性:推薦結果多元化長期影響用戶體驗及參與度,是提供高質量個性化新聞推薦的重要因素。然而,現有大多數新聞推薦方法只追求提高推薦精度,往往忽略了新聞推薦的多樣性。因此,Wu等人[27]提出一種多樣性感知的新聞推薦方法,以端到端的方式生成具有多樣性的新聞推薦列表并采用多樣性感知正則化方法來鼓勵模型進行可控的多樣性感知推薦,在新聞推薦的準確性和多樣性之間實現良好的平衡。由于新聞中通常帶有某種類型的情感傾向,Wu 等人[28]提出一種情感多樣性感知新聞推薦方法,將情感信息通過感知情感的新聞編碼器融入新聞建模中并基于候選新聞的情感取向建模用戶興趣,有效地向用戶推薦具有不同情感的新聞以提高新聞推薦的多樣性。

(2)時效性:新聞時效性是新聞的“生命”,以最快的速度將新聞傳遞給讀者是新聞發布和傳播的核心。但現有新聞推薦算法往往缺少對新聞時效性的掌控,Liu等人[14]設計一個雙任務深度神經網絡模型,采用一個擴展的時間模塊來細化新聞表示并通過預測用戶在每篇新聞上的活躍時間(即從用戶點擊打開新聞文章頁面到用戶點擊關閉頁面的時間間隔)來學習用戶向量表示。同步進行新聞推薦和活躍時間預測的多任務學習框架明確模擬了及時性對新聞推薦的影響。考慮到用戶興趣與時間變化的相關性,Qin 等人[29]利用艾賓浩斯遺忘曲線構造基于時間的函數并將其集成到用戶興趣建模中進行時間加權更新,從而實現用戶興趣建模的實時更新以提高新聞推薦的時效性。

(3)流行性:現有方法通常利用新聞標題、摘要、實體等信息或將一些輔助任務添加到多任務學習框架中來預測點擊率(click-through rate,CTR)。然而,很少有方法將預測新聞的流行程度和用戶對流行新聞的關注程度綜合考慮到預測結果中。Wang等人[30]提出一種流行度增強的新聞推薦方法(popularityenhanced news recommendation,PENR),將預測新聞流行度的得分添加到最終的點擊率預測中,利用新聞流行度來模擬用戶關注熱點新聞的傾向程度。由于新聞流行度受許多不同因素影響(如新聞內容和新鮮度),Qi等人[31]提出一種將新聞內容、新聞新鮮度和實時性點擊率相結合的方法來預測候選新聞的流行程度,以更全面的時間感知方式預測新聞推薦的流行性。此外,流行度感知用戶編碼器根據點擊新聞的內容和流行度生成用戶興趣嵌入,消除用戶行為中的流行度偏差,學習更精確的用戶興趣表示以捕捉流行新聞中不同用戶的個性化偏好。

2 個性化新聞推薦系統關鍵技術

2.1 個性化新聞推薦總體框架

個性化新聞推薦是一種向人們提供滿足其個性化閱讀興趣的新聞的重要技術,通常包含三個重要部分。首先,利用新聞編碼器從新聞內容或其他特征中學習新聞表示。其次,利用用戶編碼器從用戶的歷史點擊新聞中準確地學習用戶表示。最后,根據候選新聞與用戶興趣之間的相關性對候選新聞進行排序。高質量的新聞推薦在很大程度上依賴于對新聞文章和用戶興趣的準確和及時表示。因此,新聞推薦方法通常采用新聞-用戶表示學習框架來學習不同的新聞和用戶嵌入向量表示(如圖2所示)。

圖2 新聞-用戶表示學習框架Fig.2 News-user presentation learning framework

新聞-用戶表示學習框架的核心在于如何準確地匹配用戶興趣和候選新聞。首先,新聞編碼器和用戶編碼器對新聞文章和用戶興趣進行特征提取和向量化,并采用深度學習或傳統機器學習方法習得新聞-用戶的嵌入向量表示。其次,通過計算新聞-用戶向量之間的相似度,得到新聞語義信息與用戶偏好信息的匹配程度并對候選新聞進行排序。最后,點擊預測得分越高,用戶點擊候選新聞的概率就越大。新聞-用戶表示學習框架能夠整合多源信息(如用戶瀏覽記錄、閱讀時間及位置、社交媒體信息等),自動從大量數據中學習新聞和用戶特征,為用戶提供個性化、準確和高效的新聞推薦服務。

2.2 基于深度學習的新聞推薦

基于深度學習的個性化新聞推薦技術是指通過學習多個非線性網絡結構來描述用戶和新聞表示,從復雜的內容中自動學習高級有效的特征,解決了傳統推薦算法過于依賴人工提取特征的問題。常見的深度學習模型包括自編碼器(auto-encoder,AE)[4]、卷積神經網絡(convolutional neural network,CNN)[21,32]、循環神經網絡[33-34]、注意力機制(attention mechanism,AM)[35-39]等,這些模型在不同的新聞建模和用戶建模上展示出優越的性能。

2.2.1 新聞建模

新聞建模能夠捕捉新聞文章的特征并理解其豐富的文本內容,是個性化新聞推薦方法中的關鍵步驟。基于深度學習的新聞建模方法旨在從原始輸入中自動學習新聞嵌入表示。例如,Okura 等人[4]使用去噪自編碼器從新聞文本中學習新聞表示。Moreira等人[21]采用CNN 網絡對新聞內容進行卷積以生成新聞嵌入表示。Zhu 等人[32]采用兩個最大池化并行CNN 網絡從新聞標題中學習新聞的隱藏特征表示。CNN網絡在新聞建模中被廣泛應用,但難以捕捉長距離的文字交互,不適合長序列新聞推薦任務。因此,一些研究采用AM 擴展神經網絡,通過選擇重要信息來構建新聞表示,提高文本特征提取的準確性[35-39]。Wu 等人[35-37]提出基于多頭自注意力機制的新聞推薦方法,通過捕捉遠距離詞之間的相互作用以增強新聞特征的表征能力。此外,還提出利用個性化注意力網絡學習新聞標題的語義表示和利用自注意力機制來學習新聞標題和正文中的詞語語義表示并采用交互式注意力網絡來建模標題和正文間的關系。近年來,BERT(bidirectional encoder representations from transformers)[40]、Transformer[41]等大型預訓練語言模型(pre-trained language models,PLMs)在對新聞文本中復雜的上下文信息方面具有更強的建模能力,其在個性化新聞推薦中得到廣泛應用[42-46]。例如,Zhang 等人[44]將新聞文本串聯起來納入BERT 模型中,同時捕獲詞級和新聞級多粒度用戶-新聞匹配信號以增強文本表達。Huang 等人[45]提出一種自適應Transformer 模型來學習用戶和候選新聞之間的深度交互,有效地將歷史點擊新聞和候選新聞集成到其中以捕獲它們固有的相關性。然而,大型預訓練模型在輸入多領域信息時可能會產生壓縮類別和實體信息的淺層特征編碼與深度BERT 編碼不兼容的問題。因此,Bi 等人[46]提出一個多任務學習框架,將多領域信息整合到BERT 中以提高新聞編碼的能力。表2 總結了近年來基于深度學習方法的新聞信息表示和個性化新聞建模技術。雖然上述基于深度學習的方法可以自動學習新聞表示,但未充分利用相關實體及實體間的關系信息。因此,一些研究嘗試構造圖數據結構來挖掘新聞的潛在知識級聯系,本文將在2.3節詳細介紹。

表2 基于深度學習技術的不同新聞建模方法比較Table 2 Comparison of different news modeling methods based on deep learning

2.2.2 用戶建模

用戶建模旨在推斷用戶對新聞文章的偏好,是個性化新聞推薦系統中的關鍵步驟。用戶建模通常從用戶歷史點擊行為中推斷用戶的興趣和偏好。例如,Wu 等人[38]采用注意力網絡從點擊新聞的表示中學習用戶興趣表示。Zhang等人[47]利用AM 聚合點擊新聞和候選新聞的不同信息以建模用戶。然而,上述方法未充分考慮用戶歷史閱讀的順序信息的影響,其能夠更好地反映一段時間內用戶興趣的變化和多樣性。為進一步考慮用戶的點擊順序,一些研究采用RNN來建模點擊序列中的依賴關系以更好地模擬用戶興趣[32-33,48-49]。Okura 等人[4]采用門控循環單元(gated recurrent unit,GRU)網絡從用戶瀏覽的新聞表示中學習用戶嵌入表示。Zhu等人[32]采用長短期記憶(long short-term memory,LSTM)網絡來捕獲用戶點擊歷史中更豐富的隱藏序列特征。然而,上述方法雖然增強了用戶興趣的動態表示,但在捕獲用戶全局興趣方面仍較薄弱。因此,An等人[33]提出長短期興趣結合的混合新聞推薦方法(neural news recommendation with long-and short-term user representation,LSTUR),通過GRU 網絡學習用戶短期興趣嵌入并通過用戶ID嵌入建模用戶長期興趣。

上述方法主要依賴用戶點擊行為信息來建模用戶,通常用戶的點擊行為比較雜亂,僅從點擊反饋中很難全面準確地推斷用戶興趣。因此,一些研究將其他類型的用戶信息納入其中以增強用戶興趣建模能力[21,34,39,50]。一種方法是通過添加上下文信息來建模用戶偏好。例如,Moreira 等人[21]引入時間、設備、位置等上下文信息,采用UGRNN(update gate RNN)網絡來學習用戶偏好表示。另一種方法是考慮多種類型的用戶行為。例如,Wu等人[50]考慮了新聞點擊、搜索查詢和瀏覽網頁等多種用戶行為并分別從每種行為中學習用戶嵌入以作為用戶的不同興趣特征。Wu 等人[39]在用戶建模中考慮了用戶點擊和閱讀行為,從被點擊新聞的標題中模擬用戶的點擊偏好并從被點擊新聞的主體中模擬用戶的閱讀滿意度。

此外,一些研究結合多種顯隱式反饋來推斷積極和消極的用戶興趣以增強用戶興趣建模能力[51-54]。Wu等人[51]利用強反饋表示從隱式弱反饋中提取積極和消極的用戶興趣以實現準確的用戶興趣建模。Wu等人[52]提出一種隱式負反饋新聞推薦方法,根據新聞點擊的閱讀停留時間來區分正、負新聞點擊并通過附加注意力網絡分別從中學習用戶表示。然而,現有方法通常將用戶點擊的新聞獨立編碼后將其聚合到用戶嵌入中,忽略了來自同一用戶的不同點擊新聞之間的詞級交互。Qi 等人[55]提出一種細粒度的快速用戶建模框架,從細粒度的行為交互中建模用戶興趣,利用交互行為中所包含的詳細線索來推斷用戶的興趣。表3 總結了近年來基于深度學習方法的用戶信息表示和用戶建模技術。雖然上述基于深度學習的方法可以自動學習新聞表示,但未充分考慮用戶與新聞之間的高階關系。因此,一些研究嘗試構造圖數據結構來挖掘更深層的用戶興趣特征,本文將在2.3節詳細介紹。

表3 基于深度學習技術的不同用戶建模方法比較Table 3 Comparison of different user modeling methods based on deep learning

2.3 基于圖結構學習的新聞推薦

圖結構是一種非線性的復雜數據結構。在基于深度學習的個性化新聞推薦領域中,圖結構通常被用來建立多個用戶與多個新聞之間的交互關系,其中所反映的用戶與新聞之間的高階連接性蘊含著豐富的特征信息。近年來,圖神經網絡(graph neural network,GNN)在圖結構上的學習能力逐漸凸顯,因其基于節點特征和圖結構數據的強大特征表達能力受到廣泛關注[56-59]。在基于深度學習的個性化新聞推薦中,圖神經網絡在建模用戶與新聞之間的高階連接性上具有強大表征能力。本節主要介紹基于圖結構學習的個性化新聞推薦模型,包含用戶-新聞交互圖、知識圖譜及社交關系圖,其分類標準如圖3所示。

2.3.1 基于用戶-新聞交互圖的新聞推薦

用戶-新聞交互圖是一種描述不同用戶與新聞之間交互行為的圖結構。基于用戶-新聞交互圖的新聞推薦將用戶與新聞交互數據作為主要信息源,通過分析交互信息來捕獲用戶和新聞的特征及高階的、復雜的關系以進行個性化的新聞推薦。Ge 等人[56]將用戶與新聞間的交互信息建模為圖結構并設計二跳圖學習模塊,采用圖注意力網絡(graph attention network,GAT)聚合新聞和用戶的鄰居嵌入,增強對應特征的表達能力。Hu 等人[57]在用戶-新聞二分圖的基礎上,通過鄰域路由機制對用戶的潛在偏好因素解離合,提高了表示的表達性和可解釋性。事實上,圖結構能夠融合個性化新聞推薦系統中的多源異構數據。因此,一些研究將用戶和新聞信息描述為異構圖(heterogeneous graph,HG),并采用先進的圖學習方法進一步豐富用戶和新聞圖表示[58-59]。Hu等人[58]構造了一個用戶-新聞-主題異構圖來顯式建模用戶、新聞和潛在主題之間的交互,合并的潛在主題信息可以有效緩解數據的稀疏性,豐富新聞的語義表示。在此基礎上,Ji等人[59]將用戶在頁面上的活躍時間納入新聞表示中,提出一種時間敏感異構圖神經網絡(temporal sensitive heterogeneous graph neural network,TSHGNN),模型結構如圖4所示。TSHGNN由兩個子網絡組成,一個子網采用卷積神經網絡和改進的LSTM 網絡來學習用戶在頁面上的停留時間并將點擊序列特征作為時間維度特征;另一個子網利用圖神經網絡將用戶-新聞-主題異構圖的結構特征作為空間維度特征來編碼高階結構信息。通過利用用戶與新聞間交互的動態時間特征,充分建模用戶興趣的動態變化,提高推薦的準確性和時效性。然而,在上述基于用戶-新聞交互圖的方法中每個用戶通常只由全局用戶-新聞圖中的一個節點表示。

圖4 TSHGNN結構Fig.4 Structure of TSHGNN

為了更豐富地建模用戶興趣,Wu 等人[60]提出一種用于新聞推薦的用戶建模方法(User-as-Graph),將每個用戶建模為一個由用戶行為信息構建的個性化異構圖并采用異構圖池化(heterogeneous graph pooling)方法從中學習用戶興趣嵌入,充分建模用戶行為間的相關性,為推斷用戶興趣提供更細粒度的信息。異構圖池化方法不僅總結了異構圖中的節點特征和圖拓撲信息,還能了解不同類型節點之間的差異,以更高效、靈活、細粒度的方式學習異構圖中用戶興趣表示。不足的是,上述研究側重于如何從用戶圖中提取細粒度信息,未充分考慮候選新聞和用戶之間必要的特征交互。因此,Mao等人[61]提出由新聞圖和用戶圖組成的雙交互式圖注意力網絡(dual-interactive graph attention networks,DIGAT),模型結構如圖5所示。在新聞圖示中,利用語義增強圖(semantic-augmented graph,SAG)融合相關語義信息豐富單個候選新聞的語義表示。在用戶圖示中,利用新聞-主題圖建模用戶歷史信息來表示多層次的用戶興趣。同時設計了一個雙圖交互過程以便在新聞圖和用戶圖之間執行有效的特征交互,更精確地學習新聞-用戶匹配表示。

圖5 DIGAT結構Fig.5 Structure of DIGAT

現有研究在建模用戶表示時往往僅考慮用戶的點擊行為。為了豐富用戶興趣特征,Ma 等人[62]利用六種不同類型的用戶行為(未點擊、點擊、點贊、關注、評論、分享)信息構建多行為用戶新聞交互圖,提出了一個基于圖的行為感知交互式新聞推薦方法(graph-based behavior-aware network,GBAN)。該方法通過構造一個加權多行為交互異質圖,充分利用了用戶與新聞之間的多樣化關系并在行為圖中引入核心特征,衡量用戶興趣的集中程度,合理地權衡了個性化新聞推薦系統的準確性和多樣性。

2.3.2 基于知識圖譜的新聞推薦

知識圖譜(knowledge graph,KG)具有強大的關系能力和豐富的語義特征。若能夠通過其引入外部知識來豐富語義,充分挖掘新聞的潛在知識層聯系,將會獲得更細粒度的信息表示。因此,融入KG 的個性化新聞推薦系統可以進一步提高新聞推薦的準確性、多樣性和可解釋性。Wang 等人[63]利用知識感知卷積神經網絡(knowledge-aware convolutional neural network,KCNN)從新聞標題及標題的實體中學習新聞表示,融合了新聞的語義層和知識層表示。KCNN將單詞和實體視為多個通道,并在卷積過程中保持其對齊關系,其模型結構如圖6所示。多通道對齊機制消除了單詞、實體、實體上下文嵌入空間的異質性,更加全面地捕捉新聞之間潛在知識級關系,獲取更豐富的新聞內容。與此類似,Ren 等人[64]利用上述KCNN 組件提取新聞特征,結合KG 構建了一個雙重注意力網絡,綜合考慮了詞級注意力機制和整合單詞、實體及實體上下文的項目級注意機制并采用多頭注意力機制將兩者進行特征融合,更好地表征了用戶興趣的多樣性。

圖6 KCNN結構Fig.6 Structure of KCNN

為了充分考慮高階鄰居信息的重要性,Sheu 等人[23]提出一種上下文感知圖嵌入框架(context-aware graph embedding,CAGE),利用實體的一跳鄰居構造子圖生成新聞語義級嵌入,并采用圖神經網絡結合文章之間的鄰域結構信息進一步細化新聞文章級嵌入。然而,這些嵌入主要濃縮了實體之間的低級交互,無法識別兩個實體是否出現在同一個新聞中。Lee等人[65]通過引入主題關系提出了主題豐富的知識圖譜新聞推薦方法(topic-enriched knowledge graph recommendation,TEKGR),采用知識圖譜級新聞編碼器,通過添加實體間的兩跳鄰居從新聞標題中構建一個主題豐富的子圖,并利用圖神經網絡學習新聞知識級表示,其模型結構如圖7 所示。TEKGR 采用增加二跳鄰居的方法充分挖掘了實體之間的主題關系,豐富實體相關性的建模。除了新聞標題之外,此方法也適用于文本內容或新聞摘要等任何類型的文本信息。然而,這些模型僅利用新聞標題等單一數據,沒有充分利用可以為標題實體提供上下文信息的新聞主體、新聞摘要、新聞類別等內容,新聞語義空間不夠豐富。

圖7 TEKGR模型的結構Fig.7 Structure of TEKGR model

因此,一些研究通過構建多特征學習框架或采用多視角的方式組合學習新聞表示,豐富了知識圖譜中新聞語義特征。Sun 等人[66]提出一種結合知識圖譜的多特征注意力模型,利用多種新聞特征(標題、摘要、類別、子類別)與鏈接的外部實體相結合來學習新聞表示,并采用詞級和特征級注意力網絡選擇出重要的單詞和特征,豐富了新聞特征表達能力,提高新聞推薦的準確性。Xu 等人[67]引入多種新聞信息構建多視圖新聞框架,提出了基于知識圖譜的多視圖學習新聞推薦方法(news recommendation based on knowledge graph with multi-view learning,NRKM)。該模型利用新聞標題、摘要、類別和知識圖譜特征,采用圖交互式注意力網絡(knowledge graph interaction network,KGIN)和多頭注意力機制學習新聞表示,捕獲實體與其鄰居之間的關系,其結構如圖8 所示。由于新聞文章中可能涉及多個方面實體并且用戶通常具有不同類型的興趣,候選新聞和用戶興趣的獨立建模可能無法滿足新聞和用戶之間的精確匹配。Qi 等人[68]提出一種知識感知交互式新聞匹配方法(knowledge-aware interactive matching,KIM),采用圖注意力網絡對新聞的實體與其鄰居之間的關系進行建模,其結構如圖9 所示。KIM 設計兩個編碼器,其中知識感知新聞編碼器從語義和知識層面捕獲用戶點擊新聞和候選新聞的相關度,以交互方式學習新聞的知識感知表示;用戶-新聞聯合編碼器交互式地學習候選新聞感知的用戶表示和用戶感知的候選新聞表示,更好地捕捉用戶興趣和新聞間的相關性。

圖8 NRKM實體編碼器和KGIN結構Fig.8 Entity encoder of NRKM and structure of KGIN

圖9 KIM模型的結構Fig.9 Structure of KIM model

此外,現有個性化新聞推薦方法通常從歷史點擊新聞文章中學習用戶表示來反映其現有興趣,忽略了用戶的潛在興趣,也很少關注用戶未來可能感興趣的新聞。因此,Qiu 等人[69]利用KG 提出一種具有用戶現有和潛在興趣相結合的圖神經新聞推薦方法(graph neural news recommendation with user existing and potential interest modeling,GREP)。該方法首先挖掘用戶歷史點擊新聞的標題來編碼用戶現有興趣,然后通過找出KG 中與歷史點擊新聞中的實體相關的實體探索用戶的潛在興趣,豐富用戶的興趣表示。實驗表明,利用KG 學習新聞文章及用戶表示,在一定程度上提高了新聞語義及用戶興趣特征的表達能力。此外,不同的用戶對同一篇新聞文章會有不同的興趣,若能直接識別與用戶興趣相關的實體并生成用戶表示,將能夠提高新聞推薦的效率和可解釋性。因此,Tian等人[70]提出一種基于知識剪枝的循環圖卷積網絡的新聞推薦方法。該方法沒有建模新聞文章表示,而是直接利用新聞文章中的相關實體建模用戶興趣表示。此外,并非KG 中提供的所有知識輔助信息都與用戶的興趣有關,該模型直接通過修剪大量的不相關知識圖譜信息來直接識別與用戶興趣相關的實體以建模用戶興趣。

2.3.3 基于社交信息的新聞推薦

社交信息通常包含用戶及其朋友活動的最新信息,自然地反映了用戶興趣的動態性和多樣性[20,71]。Zhu等人[71]提出融合社交信息的圖卷積網絡新聞推薦方法(integrating social information for news recommendation,SI-News),其結構如圖10 所示。它主要包含四種編碼器,即新聞編碼器、社交信息編碼器、點擊新聞序列編碼器和用戶編碼器。其中,新聞編碼器從新聞標題和內容中提取新聞語義特征來學習新聞表示;社交信息編碼器首先提取出用戶興趣和用戶間朋友關系的隱藏特征,然后構建社交關系圖并將其輸入到圖卷積網絡中,學習用戶節點信息和朋友關系邊信息的嵌入以生成用戶的興趣表示;點擊新聞序列編碼器采用LSTM 網絡從用戶歷史點擊新聞中提取序列相關性特征來學習新聞序列表示;用戶編碼器融合用戶興趣表示、新聞表示及新聞序列表示以生成所有用戶的整體表示。此外,SI-News 還考慮了大眾用戶點擊的常見新聞,有效地緩解了常見推薦模型所面臨的冷啟動問題。實驗證明,融入社交信息的個性化新聞推薦模型能夠獲取更加豐富的用戶信息,進一步反映用戶興趣的動態性和多樣性。本小節主要介紹了基于圖結構學習的個性化新聞推薦相關研究。表4 總結了基于圖結構學習的不同模型的關鍵技術。

表4 基于圖結構學習的不同建模方法比較Table 4 Comparison of different modeling methods based on graph structure learning

圖10 SI-News模型的結構Fig.10 Structure of SI-News model

2.4 個性化新聞推薦技術的分析與總結

基于傳統學習和深度學習的PNR 技術在模型結構和模型解釋性等方面存在差異。在模型結構方面,傳統學習模型通常依賴手工提取特征(如用戶及新聞的屬性等),難以挖掘用戶與新聞文章間的深層交互信息;而深度學習模型采用不同的神經網絡直接從原始數據中自動學習復雜的特征表示,能夠更好地處理高維稀疏數據以提高模型的泛化能力。在模型可解釋方面,傳統學習模型通常具有簡單的線性或非線性結構(如邏輯回歸、支持向量機等),通過對特征的選擇、轉換等方式及對參數的解釋來理解模型的預測結果,具有簡單、可解釋性強的優勢;深度學習模型通常具有復雜的非線性結構,參數數量龐大,使得模型的預測結果難以直接被解釋。因此,將傳統學習與深度學習相結合,進一步提高新聞推薦系統性能是值得探索的研究方向。

深度學習模型可應用于序列數據、圖結構數據、歐氏空間數據等數據類型上,其中基于圖結構數據的深度學習(圖結構學習)的個性化新聞推薦在建模復雜數據結構及解決冷啟動問題等方面具有優勢。在模型結構方面,圖結構學習能夠將用戶與新聞的多源信息融合并有效地處理復雜的圖結構數據,如知識圖譜和社交網絡等。其中,用戶-新聞交互圖將用戶與新聞間的交互行為建模為圖結構以更好地挖掘用戶與新聞之間復雜的高階交互信息,但交互信息通常通過圖結構中多跳鄰居節點進行傳播,需要更多的計算資源和更長的訓練時間;知識圖譜作為一種更豐富的結構化表示形式,其包含多種類型實體和關系,通過挖掘實體之間的語義關系使其為用戶提供更多維度的新聞推薦服務,但對于非結構化的新聞文本,需要進行知識抽取和實體鏈接等預處理工作,增加了推薦算法的計算復雜度;社交網絡圖能夠捕捉用戶之間的社交關系,為用戶提供更具有社交性的PNR 服務。因此,相比傳統學習方法,圖結構學習能夠充分利用圖結構中的節點和邊信息,學習節點之間的關系和信息傳遞規律以增強模型的表征能力。此外,圖結構學習還可以處理多模態數據(如圖像和文本等),更好地滿足復雜新聞推薦場景的需求。在冷啟動問題方面,圖結構學習利用其節點屬性信息來預測新用戶偏好,而深度學習技術則需要更多的用戶行為數據來挖掘用戶興趣。雖然圖結構學習在處理圖結構數據和挖掘深層次交互信息方面表現更為優異,但傳統學習模型在特征可解釋性方面更具優勢。此外,圖結構學習對大規模圖數據的處理效率相對較低,需要更多的計算資源和更長的訓練時間。因此,未來應綜合考慮不同模型的特點,根據不同場景和需求來選擇更合適的模型,進而提高新聞推薦的效率和準確性。表5 總結了基于傳統學習、深度學習及圖結構學習的區別與優劣。

表5 基于傳統學習、深度學習及圖結構學習的比較Table 5 Comparison on traditional learning,deep learning and graph structure learning

3 數據集及評估指標

3.1 新聞數據集

PNR中常用數據集的統計信息如表6所示。

表6 個性化新聞推薦中常用數據集的統計信息Table 6 Statistics of common datasets of personalized news recommendation

(1)Adressa 數據集[72]:由3 個月內Adresseavisen網站收集的新聞日志構成,包括完整版和小數據集兩個版本。其中,完整版本包含10 周內的3 083 438名用戶、48 486 篇文章與27 223 576 次點擊;小版本包含1 周內的561 733 名用戶、11 207 篇文章以及2 286 835次點擊。

(2)Digg 數據集[73]:由美國南加州大學信息科學研究所于2009 年6 月份在Digg 網站收集的3 553 條新聞構成,包含digg_votes 表和digg_friends 表。其中,digg_votes 表包含139 409 個用戶以及3 018 197個投票;digg_friends 表包含71 367 個用戶之間的1 731 658個鏈接關系。

(3)Plista數據集[74]:發布于RecSys2013新聞推薦比賽,由德國13 個新聞網站6 月份收集的1 095 323篇文章、14 897 978 個用戶和84 210 795 條閱讀記錄構建而成。

(4)MIND數據集[75]:由微軟新聞網站6周內采集的100 萬用戶的真實新聞日志構成,包括MIND 和MIND-small 兩個版本。其中,MIND 包含161 031 篇新聞、1 000 000 個用戶和24 155 470 條行為日志;MIND-small 則包含93 698 篇新聞、50 000 個用戶和230 117條行為日志。

3.2 新聞評估指標

個性化新聞推薦的性能主要從推薦結果準確性、多樣性和響應時間等多個方面來體現。經典評價指標包括:準確率(precision)、召回率(recall)、準確率和召回率調和平均值F1-score、ROC(receiver operating characteristic curve)、AUC(area under curve)等。現階段使用較多的F1-score 和AUC 指標具體計算公式如下所示:

其中,Precision為準確率,表示用戶對推薦結果的點擊概率;Recall為召回率,表示用戶感興趣的新聞被推薦的概率。

其中,Np和Nn表示正負樣本的數量。pi表示第i個正樣本的預測得分,nj表示第j個負樣本的得分。

由于新聞數量龐大,用戶通常更加注重排在推薦列表中較前的新聞,一些研究方法按照排名列表對推薦結果進行加權評估。常用基于排名度量評價指標包括MAP(mean average precision)、MRR(mean reciprocal rank)和NDCG(normalized discounted cumulative gain)等,具體計算公式如下所示:

其中,U表示所有用戶集。式(4)的含義是將所有用戶AP得分取平均。MAP值越大,推薦列表中相關的新聞數量越多且相關新聞的排名越靠前。

其中,u∈U表示遍歷所有用戶,ranku表示用戶u推薦列表中第一個真正例所在的位置。

其中,ri是第i級新聞的相關性得分,若點擊新聞ri值為1,否則值為0。

為了獲得更高的用戶滿意度,還需考慮其他方面的新聞評估指標,例如主題多樣性、新穎性、公平性和流行度等。Gabrilovich 等人[76]將推薦結果通過新穎性來評估,新穎性是指向用戶推薦非熱門新聞的能力,衡量新穎性最直接的方法是根據新聞間的相似度,即推薦列表中的新聞與用戶已點擊的新聞相似度越小,新穎度越高。Zheng 等人[77]采用列表內相似度(intra-list similarity,ILS)函數來衡量推薦結果的多樣性。Wu等人[28]使用一組情緒多樣性度量標準來衡量歷史點擊新聞和候選新聞之間的情緒差異。Wu等人[78]使用敏感屬性(如性別)預測的準確度作為公平性度量來衡量一個新聞推薦系統是否對不同的用戶群體或新聞發布者保持公平。此外,一些研究方法通常采用兩種或兩種以上的評估指標全面評估新聞推薦系統的性能并進一步改善用戶體驗,例如將AUC、NDCG和MRR組合評估[61,66]等。

4 挑戰與展望

綜合回顧現有PNR 技術,可以看到基于深度學習的個性化新聞推薦技術在近幾年取得了實質性進展。然而,仍然存在許多問題和挑戰亟待解決。本章將討論個性化新聞推薦領域面臨的挑戰及其未來研究方向。

4.1 面臨的挑戰

4.1.1 數據稀疏性和冷啟動

在PNR 領域,數據稀疏性和冷啟動問題一直是十分重要的研究熱點。一方面,用戶對于海量在線新聞的閱讀、收集、評論等行為數據非常有限,導致用戶與新聞之間的交互數據極其稀疏,進而難以準確地進行新聞推薦;另一方面,新聞更新速度很快,容易出現冷啟動問題,需要及時為新用戶和新聞建模來進行合理化推薦。為此,研究者們利用輔助信息,通過引入新節點和邊來擴展圖網絡結構以增強對用戶興趣的建模能力。例如,Hu 等人[58]將主題元數據與用戶點擊歷史相結合以緩解用戶與新聞文章間交互的稀疏性問題。由于用戶的點擊行為數量通常非常有限,Wu等人[50]提出一種多視圖學習框架,從用戶的搜索查詢、點擊新聞和瀏覽網頁等異構多行為中學習統一的用戶表示。Yang 等人[20]引入知識圖譜,采用隨機游走抽樣策略來獲取社交網絡中目標對象的鄰居信息以豐富用戶興趣建模。除了將KG與新聞推薦系統相結合,現實應用中仍有許多其他外部結構信息可以幫助提高推薦系統性能,例如社交關系信息、多模態信息和跨領域信息等。因此,如何充分挖掘并整合多種信息來解決PNR 中的數據稀疏性和冷啟動問題值得進一步研究和探索。

4.1.2 模型可解釋性

新聞推薦可解釋性旨在向用戶提供清晰、合理的推薦結果解釋,增加推薦系統的透明度和可信度,進而提高用戶對系統的滿意度。現有PNR 模型通常具有大量的參數和復雜的網絡結構,難以直接對推薦結果作出合理解釋。因此,一些研究采用AM 對模型的每個輸入向量進行權重分配并根據權重作出解釋,以便更好地理解深度學習模型的內部機理和決策過程。例如,Wu 等人[36]采用詞級和新聞級注意力機制對新聞不同內容進行高亮可視化展示,提高推薦的可解釋性。此外,KG 中包含的大量實體及實體之間豐富的語義關系,能夠幫助用戶更直觀地了解推薦結果的生成過程和推薦依據。Wang 等人[79]將KG 集成到推薦系統中并通過尋找用戶和項目的路徑來提供相應的解釋。然而,在PNR 領域中,關聯的KG 通常包含數千種關系類型,現有新聞推薦模型通常只應用于關系類型非常有限的小知識圖譜上。因此,如何在大規模數據上進行可解釋性分析與呈現是當前PNR所面臨的挑戰。

4.1.3 推薦結果多樣性

推薦結果的多樣性對于提高用戶體驗至關重要。在個性化新聞推薦系統中,可以從三個角度來理解多樣化的推薦結果。第一種是具有時空多樣性的新聞推薦,即推薦與用戶最近點擊的新聞主題或內容不同的新聞以滿足用戶的多樣化偏好。第二種是細粒度多樣性的新聞推薦,即通過為每個用戶分層提取多個興趣向量,細化用戶嵌入以有效地捕獲多粒度的用戶興趣[80]。第三種是上下文信息多樣性的新聞推薦,不僅使新聞內容和主題多樣化,還整合了用戶閱讀新聞的時間、地點及新聞的新穎性、流行度等各種上下文因素,提供更高質量的多樣化新聞推薦[21,34]。因此,具有多樣性感知的個性化新聞推薦可以幫助用戶擴展和發現新的興趣,提高用戶滿意度并緩解新聞推薦系統中的過濾氣泡問題。然而,增加推薦結果的多樣性往往會造成準確性的損失,因此如何平衡PNR 系統的準確性和多樣性已成為一個關鍵挑戰。

4.1.4 用戶隱私保護

現有PNR 方法通常依賴于用戶行為數據的集中存儲來進行模型訓練。由于用戶行為具有隱私敏感性,集中存儲用戶數據可能會增加隱私泄露的風險。聯邦學習是一種隱私保護框架,允許多個客戶端在不共享其私有數據的情況下協作訓練模型。Qi 等人[81]提出一種統一的隱私保護新聞推薦框架,利用本地存儲在用戶客戶端中的用戶數據來訓練模型并以一種隱私保護的方式為用戶提供服務。然而,以聯邦方式直接學習現有新聞推薦模型的計算成本對于用戶客戶端而言較高。Yi 等人[82]提出一種更高效的基于聯邦學習框架的隱私保護新聞推薦方法,沒有對整個模型進行訓練,而是將新聞推薦模型分解為在服務器中維護的大型新聞模型以及在服務器和客戶端上共享的輕量級用戶模型。盡管聯邦學習技術在一定程度上降低了數據被攻擊或泄露的風險,但開發保護隱私的新聞推薦系統仍面臨挑戰。現有推薦模型通常采取數據加密、數據匿名化等技術來增強對用戶隱私的保護。然而,PNR 模型通常會盡可能地挖掘不同用戶的各類信息以準確地刻畫用戶個性化偏好并生成更準確的推薦列表。因此,當隱私保護技術和PNR 技術相結合時,用戶信息被獲取的概率將會減少,從而降低新聞推薦任務的準確性。因此,如何合理地優化PNR 系統的隱私和安全性能仍是一個亟待解決的問題。

4.2 未來研究方向

4.2.1 緩解數據稀疏性和冷啟動問題

數據稀疏性和冷啟動問題一直是PNR 領域的關鍵問題,可以從以下幾個方面進行改進:

(1)融合多源異構數據

PNR 技術在不同程度上會受到不同類型上下文信息的影響,如用戶閱讀時間、位置、情緒、社交網絡和新聞生命周期等,這些信息對挖掘用戶興趣和建模用戶偏好具有重要意義[28,34]。Wu 等人[28]將提取的情感特征與新聞內容特征相結合,探討情感信息在用戶建模中的影響。Meng等人[34]提出一種深度共注意力網絡,將用戶偏好和新聞生命周期的注意力相結合以模擬對用戶點擊新聞的雙重影響。然而,新聞推薦具有時效性和動態性,尤其在移動新聞推薦中,移動設備的可攜帶性和使用場景的多變性增加了PNR 中上下文感知的難度。此外,上下文信息的獲取與處理也是一個挑戰。例如,用戶的位置信息通常使用GPS 獲取,而GPS 的準確性可能受到許多因素的影響,例如天氣、建筑物和地形等。因此,未來應嘗試設計一個統一的框架來收集并整合各種上下文信息并有效地動態建模不同信息之間的相關性以獲得更準確的個性化新聞推薦結果。

此外,社交網絡和媒體在新聞分享和傳播中也發揮著重要作用[18-20]。一方面,用戶在不同的社交媒體(如微博、頭條等)通過留言、回復和分享等多種行為與其他用戶進行社交互動,進而反映出用戶對該新聞的偏好和滿意度,為用戶建模提供豐富的補充信息。另一方面,用戶的討論和傳播行為便于及時了解新聞的內容并在短時間內迅速形成熱門信息,有助于全面挖掘用戶的潛在多樣化興趣。因此,利用社交網絡中豐富的可挖掘信息(如社會化關系)和多種媒體資源來及時補足文本內容的不足十分必要。然而,近年來針對社交網絡在PNR 領域的研究仍較有限。因此,構建一個多源異質社交網絡,充分整合不同用戶的信息并進行在線社交互動,是未來極具潛力的研究方向。

(2)融合多模態信息

多模態信息整合可以緩解PNR 系統的數據稀疏性和冷啟動問題。除了文本內容,新聞通常還包含豐富的圖片、音頻及視頻等多模態信息。這些多模態新聞內容可以為新聞建模提供補充信息,從而提高新聞理解的全面性。因此,采用多模態信息建模技術可以更全面、準確地獲取新聞內容并進行用戶行為感知與新聞推薦預測。如本文第1.1.5 小節所述,目前已有少量PNR 研究融入了圖像信息并取得了顯著的效果[24-26]。然而,除圖像數據外,其他類型的數據也能夠提升新聞推薦的整體效果,例如音頻信息,可以獲取用戶的語速、語調和情感等信息以便對新聞內容進行情感分析,有助于推薦更符合用戶當前興趣的新聞。未來應進一步考慮將多模態信息進行整合,綜合分析不同類型數據的特征以便更充分地理解新聞內容,從而得到更準確、更全面的新聞推薦結果。目前,基于多模態信息的PNR 研究尚少且缺少大規模的多模態新聞數據集。因此,引入多模態特征,建模候選新聞與點擊行為之間的多模態關系是當前值得探索的研究方向。

(3)跨域新聞推薦

跨領域融合可以緩解PNR 任務中常見的數據稀疏性和冷啟動問題。一方面,跨域新聞推薦系統可以從多個不同的新聞網站中收集數據信息,并在這些網站之間進行新聞推薦,幫助用戶更好地了解不同新聞網站的內容,從而提供更豐富、更多樣化的新聞推薦服務。此外,利用多領域數據也能夠幫助不同的新聞網站擴展其用戶群,提高系統的知名度和推廣力。另一方面,用戶對來自不同領域的項目選擇通常是相關的。例如,當用戶看完電影《傳奇梅西》后,可能會更加關注關于梅西的新聞報道,因此可以將用戶對電影的交互信息傳輸到新聞推薦交互信息中以緩解PNR 任務中數據稀疏性和冷啟動問題。然而,現有跨域新聞推薦的研究尚少且很難將用戶在各個領域中的交互信息收集在一起,同時跨領域信息間的交互關系往往比單個領域的信息之間的關系更為復雜。因此,如何開發更通用的遷移學習模型以有效捕獲不同域之間復雜和異構的依賴關系以實現準確和多樣化的新聞推薦值得進一步研究和探索。

4.2.2 新聞推薦的可解釋性

盡管現有工作在利用KG 提高新聞推薦的準確性和可解釋性方面取得了一些進展,但仍存在一些局限性。首先,PNR 領域涉及的知識圖譜通常包含數千種關系,難以枚舉每個關系對所對應的所有路徑。此外,一篇新聞文章通常包含多個實體,僅僅構建單一路徑可能無法完全揭示實體之間的關系,從而導致新聞文本內容未得到充分利用。其次,因果推理能夠提供因果解釋并處理潛在的混淆因素,是一種用于揭示事物之間因果關系的重要技術,但其在新聞推薦領域的可解釋性方面研究尚少。因此,將因果推理技術應用于新聞推薦領域以構建可解釋的PNR 系統,是一個值得研究的方向。此外,強化學習能夠提供明確的獎勵信號和可解釋的決策過程,即根據用戶的需求與反饋進行學習和優化,有助于用戶理解推薦系統中的因果關系。因此,未來應嘗試將KG與強化學習結合,進一步探索PNR的知識推理,并將其擴展到其他領域推薦,如商品、音樂推薦等,以構建更統一、更具可解釋性的推薦系統。

4.2.3 多樣性新聞推薦

現有研究在探索多樣性新聞推薦方面通常只注重推薦內容的多樣性,往往忽略了多樣性與準確性之間的平衡,容易導致推薦的新聞與用戶的實際偏好相差較大,從而降低用戶對推薦系統的滿意度,甚至導致用戶信息流失。因此,設計一種更綜合的多樣性新聞推薦模型對于提高在線新聞服務質量具有重要意義。首先,可以采用一些多目標優化方法來設計多樣性損失函數,如帶權重的多目標優化、多目標自適應平衡策略和演化算法等,以平衡新聞推薦的準確性和多樣性。其次,將生成對抗網絡(generative adversarial network,GAN)與雙目標平衡相結合也是一種十分巧妙的解決思路。GAN 模型由一個生成器和一個判別器組成,生成器采用不同的生成策略,如貪心搜索、隨機采樣等來控制生成結果的多樣性。判別器則負責評估生成器產生的新聞并對生成的推薦列表進行打分。兩者采用對抗式交替訓練的方式來相互協作,進而得到更加準確且多樣化的新聞推薦結果。此外,引入一些多樣性評價指標也是十分必要的,如覆蓋率、流行度和新穎度等,并將這些指標納入損失函數中進行訓練以綜合考量個性化新聞推薦結果的準確性和多樣性。

4.2.4 新聞推薦系統的安全性

保護用戶隱私是PNR 領域發展的重要前提和基礎。因此,開發一種更合理有效的隱私保護新聞推薦方法是值得探索的方向。首先,嘗試設計一種更加靈活的聯邦學習框架,以便更好地利用上下文特征。例如,可以使用聯邦遷移學習方法將不同客戶端的上下文信息合并,并將整合的結果應用于推薦系統中。聯邦元學習方法能夠自適應地選擇模型結構和參數,便于在不同的聯邦學習任務中動態調整數據交換和模型學習策略,實現充分利用上下文特征的效果。此外,對抗學習通過合成噪聲數據來去除用戶的敏感屬性信息,從而針對性地保護用戶隱私。因此,采用多種技術相結合的方法來提高PNR系統的隱私保護性能是一個值得嘗試的研究方向。

4.2.5 更精準的用戶建模

如何實現更精準的用戶建模一直是PNR 領域的研究熱點。首先,用戶興趣通常是多樣的,不同用戶具有不同偏好,同一用戶在不同情況下也會有不同偏好。現有PNR 方法通常只從用戶歷史行為中學習單個用戶嵌入以表示其閱讀興趣,而單個用戶嵌入并不足以充分建模多樣化、多粒度的用戶興趣。未來應嘗試采用更復雜的結構(如圖結構)來細化用戶嵌入以提高對用戶興趣的理解。其次,用戶興趣是動態的。現有方法通常分別學習用戶的長期和短期興趣,并推薦與最近點擊新聞相關的候選新聞。由于用戶興趣通常隨時間而變化,了解不同時期的用戶興趣并進一步建模其內在關系十分重要。強化學習模型能夠根據用戶與新聞的交互反饋捕獲用戶當前偏好并據此調整下一步動作,基本思想是根據當前狀態(State)決定采取的動作(Action),再根據采取動作后獲得的獎勵(Award)調整下一次動作。未來應嘗試采用強化學習方法及更多的序列建模技術以改進PNR 中的用戶動態興趣建模,更充分地探索用戶興趣的轉移過程。最后,用戶的點擊行為往往受各種噪聲的影響。一方面,用戶容易誤點擊其不感興趣的新聞;另一方面,系統可能會推薦多種用戶感興趣的新聞,但其只點擊其中一條,容易產生負隱式反饋噪聲。因此,需要綜合考慮用戶的多種行為和反饋(如分享、不喜歡等)以提供豐富的補充信息并將其整合到統一的框架中以更好地支持用戶建模。未來需進一步綜合考慮用戶的各種行為和反饋,以便更合理地探索用戶的潛在興趣。

4.2.6 提高新聞推薦效率

隨著PNR 領域中用戶和新聞數量的爆炸式增長,PNR 算法亦面臨越來越大的數據處理壓力。現有研究往往忽略了算法或技術的效率問題,因此,如何設計更高效的新聞推薦方法已成為個性化新聞推薦技術的研究熱點。未來應兼顧推薦效率和預期結果的準確性,評估每種技術在一個或多個不同數據集上的效率,獲得可接受的響應時間。此外,也可以采用快速聚類、降低特征維度及知識蒸餾等方法來壓縮大規模新聞推薦模型以提高新聞推薦效率。

5 總結

本文系統性綜述和總結了近年來主要的基于深度學習的個性化新聞推薦方法。首先,介紹了個性化新聞推薦系統的特點,描述了個性化新聞推薦系統的總體框架和關鍵技術。根據個性化新聞推薦的特點和主流深度學習技術方法,重點闡述了基于圖結構學習的個性化新聞推薦技術。其次,介紹了個性化新聞推薦系統的數據集和評價指標。最后,提出了當前研究所面臨的挑戰,并對未來研究方向進行展望。

本文具有兩個主要貢獻:首先,本文在綜述了基于深度學習的個性化新聞推薦方法的基礎上,著重總結了基于不同類型的圖結構數據的個性化新聞推薦方法,并分析了基于圖結構學習的個性化新聞推薦在建模復雜數據結構及解決冷啟動問題等方面的優勢,突出了圖結構數據在個性化新聞推薦中的重要性和潛在應用前景。其次,本文詳細地分析了當前個性化新聞推薦領域所面臨的挑戰和未來研究方向。當前,個性化新聞推薦領域仍存在個性化推薦效果評價、模型優化和隱私保護等難題。因此,未來應嘗試結合更多技術(如知識圖譜、圖神經網絡和強化學習等)并探索更豐富的上下文信息(如點擊時間、位置、社交關系等)以促進個性化新聞推薦系統更深入的研究和發展。

猜你喜歡
用戶信息方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 日韩欧美一区在线观看| 中文字幕日韩视频欧美一区| 91在线播放国产| 97青草最新免费精品视频| 一区二区三区在线不卡免费| 色老二精品视频在线观看| 亚洲欧洲综合| 2021国产在线视频| 欧美丝袜高跟鞋一区二区| 色婷婷电影网| 久久成人18免费| 青青操视频免费观看| 99re在线观看视频| yjizz视频最新网站在线| 亚洲欧美在线综合一区二区三区| 在线va视频| 国产福利一区二区在线观看| 国产午夜小视频| 国产激爽大片在线播放| 成年女人a毛片免费视频| 亚洲人成网7777777国产| 国产精品一区不卡| 久久精品91麻豆| 拍国产真实乱人偷精品| 女人爽到高潮免费视频大全| 麻豆国产在线观看一区二区 | 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲日本中文字幕天堂网| 国模沟沟一区二区三区| 99精品在线视频观看| 国产欧美精品一区aⅴ影院| 原味小视频在线www国产| 国产成人免费| 国产激爽大片高清在线观看| 亚洲天堂网在线视频| 久久青草精品一区二区三区| 91口爆吞精国产对白第三集 | 精品一区二区三区波多野结衣| 国产欧美日韩另类| 极品国产一区二区三区| 2021国产v亚洲v天堂无码| 亚洲人成网18禁| 91精品小视频| 无码中文字幕精品推荐| 国产欧美在线观看视频| 国产乱人伦精品一区二区| 久久婷婷综合色一区二区| 久爱午夜精品免费视频| 91精品视频在线播放| 日韩精品毛片人妻AV不卡| 日韩福利视频导航| 波多野结衣无码视频在线观看| 免费人欧美成又黄又爽的视频| 国产成人无码Av在线播放无广告| 欧美伊人色综合久久天天| 免费观看成人久久网免费观看| 国产精品99一区不卡| 丁香五月激情图片| 五月激情婷婷综合| 国产成人精品高清在线| 71pao成人国产永久免费视频| 免费a级毛片18以上观看精品| 日韩欧美中文| 国产第二十一页| 在线一级毛片| 免费一级α片在线观看| 国产杨幂丝袜av在线播放| 潮喷在线无码白浆| 精品欧美日韩国产日漫一区不卡| 日韩av在线直播| 欧美日本不卡| 国产成人毛片| 激情视频综合网| 亚洲欧洲天堂色AV| 高h视频在线| 国产亚洲精品精品精品| 看国产毛片| 亚洲永久精品ww47国产| 日韩免费毛片视频| 午夜影院a级片| 午夜啪啪福利| 四虎国产精品永久一区|