田 萱,丁 琪,廖子慧,孫國棟
1.北京林業大學 信息學院,北京100083
2.國家林業草原林業智能信息處理工程技術研究中心,北京100083
+通信作者E-mail:tianxuan@bjfu.edu.cn
新聞推薦(news recommendation,NR)是一種緩解新聞信息過載的有效方式,能幫助用戶從眾多的新聞資源中篩選并推送其可能感興趣的新聞[1-2]。目前,各大新聞APP如今日頭條和新聞網站如MSN News等都在其商業系統中嵌入了推薦算法,以提供千人千面的新聞推薦,提升用戶體驗。例如今日頭條從新聞內容特征、用戶個人特征與所處環境特征三個維度構建新聞推薦算法,并成功應用于其平臺[3-4]。相比于商品、電影、音樂等其他推薦,NR 具有新聞時效性強、語義信息豐富、用戶興趣變化多樣等特點,在用戶整體偏好建模、用戶時序興趣建模、新聞建模等子任務方面面臨著挑戰。近年來NR 成為國內外眾多科研機構研究的熱點,獲得了信息檢索、數據挖掘和人工智能等領域國內外學術會議的高度關注[5-6]。
深度學習(deep learning,DL)是一種表征學習(representation learning)方法[7],已廣泛應用于自然語言處理、圖像處理和語音識別等領域?;谏疃葘W習的新聞推薦(deep learning based news recommendation,DNR)研究與日俱增,成為當前推薦系統研究領域熱點之一。目前已經有多篇相關綜述性論文涉及調研DNR 技術,如文獻[8-9]從深度學習技術角度剖析了推薦算法,多處提及到前沿的DNR 技術;文獻[10-11]從個性化新聞推薦框架角度介紹了幾種基于深度學習的新聞推薦模型等。然而,這些文獻都缺乏對DNR 的系統性、全面性分析,未能表達出深度學習模型針對新聞推薦任務的設計特色和方法特征。本文的主要貢獻在于從深度學習技術角度全面、系統論述DNR 研究進展,尤其著重從新聞推薦的核心對象——用戶和新聞出發剖析深度學習技術建模特色和處理特征。
按照建模思路的不同,將DNR 方法分為“兩段式”方法、“融合式”方法和“協同式”方法三類,分別進行介紹,其中,“兩段式”方法強調按照“先新聞、后興趣”的思路,分步建立推薦模型;“融合式”方法是將新聞和用戶信息混合在一起,同時學習新聞和用戶特征;“協同式”方法則是不止利用了用戶自己的新聞點擊行為,還考慮了相鄰用戶與新聞的交互。在每一類方法里,或根據建模過程中的具體子任務不同,亦或根據其基于的數據組織結構不同,從“建模新聞”“建模用戶整體偏好”“建模用戶時序興趣”“用戶-新聞二分圖”等多個角度分別剖析不同DNR技術的建模特點和設計特色。其分類如圖1 所示。

Fig.1 Taxonomy of deep learning based news recommendation圖1 基于深度學習的新聞推薦方法分類
如今,網絡新聞成為獲取實時資訊最流行的方式,用戶可以通過專業的新聞網站閱讀新聞,也可以通過其他的社會化網絡服務渠道(如Twitter、微博等)瀏覽新聞資訊。NR 的任務是從眾多新聞資訊中為用戶推送出其可能感興趣的新聞資源,有效過濾無關新聞,盡可能滿足不同用戶對新聞資訊的需求,提高用戶閱讀質量。當前,網絡傳播具有傳播廣泛、即時性強、信息量大和交互靈活等特點,以網絡傳播為主的新聞推薦面臨著新聞數量爆炸增長、新聞時效性強、語義信息豐富[12]和用戶興趣動態變化等挑戰。早期新聞推薦方法等往往采用手工構造特征,依賴于貝葉斯模型[13]等淺層模型進行預測,無法提取新聞及用戶的深層次特征,限制了NR的有效性及可擴展性。
DL 是機器學習中一種基于數據表征學習的方法,在自然語言處理、語音識別、圖像處理等領域廣泛使用。新聞推薦中,DL 技術能夠通過學習非線性網絡結構,表征新聞和用戶相關的海量數據[9],提取新聞內容和用戶興趣的深層次特征[14],可應對NR 面臨的新聞數目巨大和用戶興趣動態變化[15]等挑戰,有效提高推薦的準確率。此外,DL 技術能夠融合蘊含豐富用戶興趣的多源異構輔助性信息,學習不同數據的統一表示[16],緩解新聞推薦中冷啟動、數據稀疏等問題。主流的DL 模型有卷積神經網絡(convolutional neural networks,CNN)、循環神經網絡(recurrent neural networks,RNN)、注意力機制模型(attention model,AM)等。CNN 因其有效捕獲局部和全局特征的能力,能夠在NR 領域更好地提取新聞文本特征和用戶特征,受到諸多研究者青睞。RNN 因其遞歸處理歷史信息和建模歷史記憶的特點,特別適合處理序列數據,是建模新聞推薦中隨時間變化用戶興趣的有效手段。AM 能夠學習不同部分的相對重要程度[17],可以在建模過程中對新聞和用戶的特征進行動態調整,在DNR 領域研究中逐漸成為焦點。還有一些DL技術也逐漸在NR 領域得到應用,如圖卷積神經網絡(graph convolutional neural network,GCN)、自動編碼器(auto-encoder,AE)以及多層感知機(multi-layer perceptron,MLP)等。目前DNR 研究已經成為NR 領域的研究熱點之一,許多國內外大學和研究機構如美國的麻省理工大學、微軟亞研院、清華大學、北京郵電大學、上海交通大學、中國科學技術大學等對DNR開展了廣泛深入研究。近幾年的信息檢索、數據挖掘、人工智能等相關國際會議(如SIGIR(International Conference on Research and Development in Information Retrieval)、SIGKDD(ACM Knowledge Discovery and Data Mining)、WWW(International World Wide Web Conference)、CIKM(ACM International Conference on Information and Knowledge Management)、AAAI(AAAI Conference on Artificial Intelligence)、IJCAI(International Joint Conference on Artificial Intelligence)等)和推薦系統大會(RecSys(ACM Recommender Systems Conference))中,DNR 相關論文數量逐年提升。
總結梳理基于深度學習的新聞推薦一般流程,可將其概括為數據采集、新聞推薦和結果評估三個步驟,如圖2 所示。其中,深度學習模型是DNR 的核心。事實上,目前研究中,少數DNR 方法使用單一深度學習技術,大部分則混合運用多種深度學習技術設計NR,幫助有效提升推薦效果。例如DADM(dynamic attention deep model)模型[18]結合了CNN 和AM,既利用CNN 提取新聞內容特征和種類特征,獲取新聞的高質量表示,又利用AM 調整不同時刻下不同新聞的重要性權重,綜合考慮新聞被選擇的概率;DeepJoNN(deep joint neural networks)模型[19]則結合了CNN 和RNN,構造了基于字符的多維輸入CNN,建模了帶有讀者興趣意圖的新聞內容特征,提升了推薦系統的推薦精準性。

Fig.2 Workflow of deep learning based news recommendation圖2 基于深度學習的新聞推薦的一般流程
DNR 方法通常將NR 算法與DL 相結合,利用DL技術對新聞數據和用戶數據進行特征提取。為便于剖析介紹,按照圖1 所示,本文將DNR 方法劃分為3類:“兩段式”方法、“融合式”方法和“協同式”方法。在每類方法中,將根據建模過程中的具體子任務或其基于的數據組織結構進行更細致劃分。表1 對這3類方法從方法特點、優點和缺點等幾個方面進行了分析與比較。下面將對每類方法進行詳細分析介紹。

Table 1 Comparison of 3 DNR methods表1 3 種DNR 方法對比
在基于深度學習的新聞推薦方法中,多數方法是先提取每篇新聞的特征,再在此基礎上學習用戶興趣表示,其中,大部分的工作將每篇新聞建模為一個獨立統一的向量。這種“先新聞,后用戶”的分步建模思路,本文將其總結為“兩段式”新聞推薦方法。根據其建模子任務不同,本文從建模新聞、建模用戶整體偏好、建模用戶時序興趣和建模用戶混合興趣來分別介紹。其中,“建模用戶整體偏好”和“建模用戶時序興趣”為兩種常見的DNR 應用任務,其區別在于,前者在利用用戶新聞點擊歷史等信息建模用戶興趣時不強調其時間順序,而后者更注重通過用戶點擊歷史的時序信息捕捉用戶興趣隨時間的變化。
2.1.1 建模新聞
精準地建模新聞是NR 中的一項重要任務。一些工作采用單一的深度學習技術對新聞建模,獲得新聞的語義表示。CNN 是一種從新聞文本中提取特征的常見方法。例如,文獻[20]提出的新聞推薦深度學習元架構CHAMELEON,其內容表征模塊基于CNN從單詞級別對新聞文本內容進行卷積計算,生成新聞內容嵌入表示;文獻[21]模型DAINN(dynamic attention-integrated neural network)中,同樣利用CNN從新聞文本內容的詞級表示中提取語義信息。為豐富語義信息,一些工作不只選用了一種新聞數據來建模新聞。文獻[18]為新聞編輯從業者設計出一個專業的新聞篩選推薦系統,針對新聞編輯在篩選新聞時較多依賴新聞文字質量而較少注重關鍵詞、主題等元數據造成的新聞篩選標準不明確的問題,提出利用新聞文本內容、新聞類別兩種數據來建模新聞,預測新聞的篩選標準,其框架如圖3 所示。在該框架中,一方面采用含有1 個卷積層和總共1 050 個卷積核的CNN 模型捕獲單詞序列中的潛在語義模式來表示文本內容;另一方面使用one-hot向量表示新聞類別等元數據信息,最后將兩者拼接起來預測新聞篩選的概率。此外,該模型將CNN 構建于字符之上,提高了對不同語言的泛化能力。但由于字符中語義信息不足,會使得字符級CNN提取的新聞語義特征不夠豐富,且輸入序列的增長可能導致計算成本的增加。

Fig.3 CNN architecture for news recommendation prediction圖3 用于新聞推薦預測的CNN 架構
文獻[22]在考慮新聞標題的同時,還將比新聞標題信息量更豐富的新聞概要(profile,是從新聞中提取的實體及實體類型)納入新聞數據信息,提出了一種深度注意力神經網絡(deep attention neural network,DAN)。為了學習新聞特征表示,DAN 中設計了由兩個并行卷積神經網絡組成的PCNN(parallel CNN)組件,結構如圖4 所示。PCNN 分別以單詞級別的新聞標題和概要作為輸入,學習新聞的標題級和概要級(profile-level)表示,并拼接在一起作為最終的新聞特征表示。因有更多數據特征支撐,帶有PCNN 組件的模型比單純依靠新聞標題的模型更具競爭力。從以上工作可以看出,CNN 在建模新聞的任務中被廣泛應用,但由于CNN 固定感受野的限制,不利于較長新聞詞語序列的建模。

Fig.4 Architecture of PCNN圖4 PCNN 結構
除了CNN 外,自動編碼器(AE)也常被用來學習新聞或用戶表示。AE 是一種無監督的神經網絡模型,具有典型的輸入-隱含-輸出三層神經網絡,旨在通過一個編碼和一個解碼過程來重構輸入數據,學習數據的深層表示。在DNR 領域,AE 在應用過程中往往被加入高斯噪音,升級為降噪自動編碼器(denoising auto-encoder,DAE),在重構輸入數據過程中通過去除噪聲來學習對輸入數據更泛化的表達能力。文獻[23]通過改進的降噪自編碼器建立新聞的分布式表示。具體來說,該文獻對DAE 的損失函數進行優化,加入了弱監督信息,提高了模型對差距的表達能力,解決了基于詞的方法中“無法識別相似詞”的問題,使得模型能夠更為精確學習新聞間的差異與相似性。但由于DAE 不考慮新聞中詞語的順序信息,可能會限制該方法獲得準確語義表示的能力。
還有一些工作探索多種深度學習技術的混合使用來提高準確建模新聞的能力。文獻[24]提出一種帶有個性化注意力機制的新聞推薦模型NPA(neural news recommendation with personalized attention),在其新聞編碼器中,先利用CNN 處理新聞標題單詞序列,通過捕獲新聞標題中單詞的局部上下文學習單詞的語義表示;再基于不同的單詞在表示新聞時具有不同信息量這一思想,設計出個性化的AM 來為不同的用戶識別重要的單詞,其模塊結構如圖5 所示。圖中,首先用戶ID 經過全連接層生成用戶偏好查詢向量(preference query),其次根據偏好查詢向量和單詞表示向量[c1,c2,…,cM]計算出每個單詞的注意力權重α,將新聞標題單詞表示向量依據注意力權重加權處理得到新聞特征r,最后新聞特征r作為該模塊的輸出,用于最后點擊預測計算的輸入。該模型根據用戶特征動態地關注新聞中重要的單詞,增強了新聞的表示學習能力。該模型可能存在的問題在于,僅利用了新聞標題這一種新聞信息,丟失了如新聞主體中豐富的語義信息,導致新聞語義表示不夠全面。

Fig.5 Architecture of personalized attention module in NPA approach圖5 NPA 方法中的個性化注意力模塊結構
文獻[25]提出的LSTUR(both long-and short-term user representations)模型,同樣采用CNN 與AM 相結合的方式提取新聞標題特征,不同的是,LSTUR 增加了新聞主題和子主題信息,從二者的ID 嵌入中學習表征,并將標題、主題和子主題的表示作拼接得到最終的新聞表示。其結構如圖6 所示。文獻[26]提出一種基于AM 的多視角學習模型NAML(neural news recommendation with attentive multi-view learning),除了在建模新聞標題和主體時采用NPA 模型的CNN 與AM 結合的方法外,還將標題、主體、類別等不同的新聞數據視為不同的新聞視角,利用AM 學習不同視角在建模不同新聞時所具有的不同重要程度(即注意力權重),得到最終的新聞表示,有效提升了個性化新聞推薦的性能。另外,以上兩個模型的局限性可能在于,簡單的顯式主題或類別信息或許不足以細致地描述新聞主題,特別是當新聞同屬于兩個或多個不同主題時,因此,可以通過挖掘潛在的主題信息以提高新聞表示的準確性。
CNN 擅長提取局部特征,卻無法捕捉長距離的單詞交互,并且同一新聞中一個單詞可能和多個單詞之間存在交互,多頭自注意力機制(multi-head selfattention,MHSA)能夠更好地建模上述情況。文獻[27]提出一種基于多頭自注意力機制的神經新聞推薦方法(neural news recommendation with multi-head self-attention,NRMS)。在其新聞編碼器中,使用MHSA從新聞標題中建模單詞之間的交互來學習單詞的上下文表示,并使用AM 選擇重要的詞語來學習更具有信息量的新聞表示。文獻[28]提出的CPRS(click preference and reading satisfaction for news recommendation)模型中的文本編碼器,同樣采用了MHSA 與AM 相結合的方式獲得更準確的文本表示,結構如圖7 所示。不同之處在于,CPRS 不僅使用了新聞標題,還使用了新聞主體內容,并且對二者分別進行編碼。MHSA 不僅能夠捕捉新聞中長距離的詞與詞之間的關聯,還能建模一個詞與多個詞之間的語義交互,增強了新聞特征表達能力。

Fig.6 Architecture of news encoder in LSTUR圖6 模型LSTUR 中的新聞編碼器架構

Fig.7 Architecture of text encoder in CPRS圖7 模型CPRS 中的文本編碼器架構
新聞語言具有高度濃縮的特點,包含大量的知識與實體,僅從語義層面學習新聞表示,無法充分發現新聞之間潛在的知識層面的聯系。近年來,知識圖譜(knowledge graph,KG)被廣泛應用于機器閱讀[29]、文本分類[30]和單詞表示[31]等領域。受KG 的啟發,文獻[32]提出一種基于深度知識感知的新聞推薦系統DKN(deep knowledge-aware network),基于CNN 利用知識圖譜實現新聞推薦。DKN 的關鍵組件是一個多通道且單詞與實體對齊的知識感知卷積神經網絡(knowledge-aware convolutional neural network,KCNN)。實現過程中,它融合語義層面和知識層面的表示,將單詞、實體、實體的上下文作為CNN 的多個通道輸入,并在卷積期間維持其對齊關系,其結構如圖8 所示。KCNN 的實體和單詞的對齊機制融合了異構的信息源,可以更好捕捉新聞之間的隱含關系,合理擴展推薦結果,提高推薦性能,相較于僅使用單詞的單通道CNN 結構,其F1 和AUC(area under the ROC curve)分別提高了2.7 個百分點和2.2 個百分點。不足的是,該方法僅利用了新聞標題,沒有充分利用新聞主體等中包含豐富語義的實體。此外,新聞中更新迅速的人名等未登錄詞,在知識圖譜中可能缺乏對應的知識,也會限制模型的推薦效果。
在DKN 的基礎上,文獻[33]利用自注意力機制構建語義級和知識級的新聞表示,其架構中含有詞級自注意力模塊和項目級自注意力模塊。其中,詞級自注意力模塊將新聞標簽、外部知識圖譜中的實體及其上下文作為輸入來計算新聞的語義級和知識級表示。其具體操作是,根據標簽和新聞的相關性,選擇n個單詞作為每篇新聞的關鍵詞,通過這些關鍵詞從知識圖譜中選擇出關鍵實體和關鍵上下文擴充關鍵詞;然后將這些關鍵詞輸入到該詞級自注意力模塊,聚合新聞中其他單詞,獲得詞級新聞表示。作者采用同樣的方法獲得了實體級新聞表示和上下文級新聞表示。項目級自注意力模塊將以上三個層級(單詞級、實體級以及上下文級)的表示進行加權融合,以獲得更準確的新聞表示。

Fig.8 Architecture of KCNN圖8 KCNN 結構
圖卷積神經網絡(GCN)是一種從圖數據結構中提取特征的深度學習方法,因其強大的特征表達能力受到廣泛關注,并在圖像識別、自然語言處理等領域得到應用,它可以聚合每個中心節點及其相鄰節點的信息來增強節點的特征表達[34]。文獻[35]提出了一種上下文感知圖架構CAGE(context-aware graph embedding for session-based news recommendation),不僅利用CNN 從新聞中提取文本級新聞特征,利用知識圖譜提取語義級新聞特征豐富新聞語義,而且提出構建文章級的圖,以利用文章之間的鄰域結構信息豐富新聞特征。具體而言,將文章作為圖的節點,將文章之間的兩兩相似度值作為邊的權值,移除相似度較小的邊以得到一個稀疏圖,并利用多層的GCN 進一步提煉新聞表示。文獻[36]同樣采用了知識圖譜與圖神經網絡(graph neural network,GNN)方法,提出了一個基于主題的知識圖推薦系統TEKGR(topic-enriched knowledge graph recommendation system)。TEKGR 設計了3 個編碼器,從語義和知識兩個角度來處理新聞標題獲得新聞表示,結構如圖9 所示。其中,詞級新聞編碼器依次通過詞嵌入層、雙向門控循環單元(bidirectional gated recurrent units,Bi-GRU)層和注意力層來關注對于表征新聞重要的單詞,并學習新聞表示;知識編碼器從新聞標題中的實體概念出發,利用知識圖譜中的關系事實來提取新聞標題的主題向量;知識圖譜級新聞編碼器通過在實體之間添加來自知識編碼器的主題關系向量構造子圖,并應用GNN 得到新聞嵌入向量。該模型挖掘了實體之間的主題關系與實體的上下文特征,提高了新聞建模的準確度。該模型局限性在于沒有充分利用除新聞標題外的其他新聞信息,忽視了可以為標題實體提供上下文語境的新聞主體內容等,新聞特征表達能力不夠豐富。

Fig.9 Architecture of KG-based news modeling layer in TEKGR圖9 TEKGR 模型中的基于知識圖譜的新聞建模層結構
在“兩段式”新聞推薦方法的建模新聞方面,各研究工作以獲得精確的新聞表示為目標采取了多樣的建模方式。一部分工作借助CNN 強大的局部特征提取能力,有效捕獲新聞標題、概要等單詞序列的語義特征,提升了模型在AUC 和F1 上的性能,且由于CNN 網絡的可并行學習性使得模型有較快的運算速度,但CNN 固定的感受野可能限制了新聞詞語序列的長度。一部分工作利用AM 可學習不同數據重要性程度的能力,關注新聞中更具有信息量的單詞,提升了新聞表示的重點性或個性化程度,其推薦結果在AUC 或MRR(mean reciprocal rank)上有明顯提升。一部分工作使用MHSA 建模長距離的依賴,增強了對單詞之間長距離的交互的學習能力。一部分工作引入知識圖譜來獲取新聞的外部知識特征,提高了新聞表示的豐富性,增加了模型在AUC 或NDCG(normalized discounted cumulative gain)上的性能,但新聞中快速產生的新實體可能無法及時被知識圖譜所包含。還有部分工作進一步采用GCN 技術引入鄰域新聞信息,增強了新聞特征表達。表2 總結了在建模新聞方面不同模型的關鍵技術、選取的數據種類、數據粒度、方法特點、優點和局限性等(一些工作只介紹其使用文本型數據而未明確指出所用數據種類,本文將其歸類為文本內容)。
2.1.2 建模用戶
NR 中的用戶興趣含有多樣性與變化性等特點,使得準確的用戶建模具有一定挑戰。本文將“兩段式”新聞推薦方法的建模用戶部分分為“建模用戶整體偏好”“建模用戶時序興趣”和“建模用戶混合興趣”三類進行介紹。其中,“建模用戶整體偏好”將用戶的新聞點擊歷史當作集合,建模用戶興趣時不強調其時間順序;“建模用戶時序興趣”將用戶的點擊歷史當作時間序列,更注重應用時序信息捕捉用戶興趣隨時間的變化;“建模用戶混合興趣”則兼顧以上兩種建模興趣角度。
2.1.2.1 建模用戶整體偏好
用戶整體偏好是用戶過往一段時間的整體興趣,強調興趣的整體性、重點性,往往是對用戶長期興趣的建模。通常來講,聚合用戶的新聞點擊歷史可以得到用戶的整體偏好,然而并非每一篇點擊新聞對建模用戶興趣都具有相同的重要性,因此,很多工作采用AM 機制以學習用戶不同點擊新聞的重要性權重。DKN[32]模型、TEKGR[36]模型和文獻[33]所提模型均使用AM 來表征推薦候選新聞對用戶點擊歷史新聞的影響。以DKN 為例,具體過程如圖10 所示,在獲得每條輸入新聞的表示向量的基礎上,通過AM 機制計算候選新聞向量與每條點擊新聞向量之間的注意力權重,最后使用該權重動態聚合(按照權重加權)用戶的點擊歷史計算出用戶興趣表示作為推薦依據。NPA(neural news recommendation with personalized attention)[24]模型同樣使用了AM 機制建模用戶整體偏好,但與DKN 不同的是,其AM 的查詢向量(query vector)并非是候選新聞表示而是用戶的ID 嵌入。其作者認為同一篇新聞在建模不同用戶時具有不同信息量,故設計了一個個性化的注意力網絡,基于用戶ID 嵌入來對該用戶所點擊的新聞賦予不同權重,以此獲得用戶興趣的最終表示。該類模型利用AM 加權聚合用戶的點擊歷史,使得偏好的重點性得以突出,提高了用戶興趣建模的準確性。不過該方法沒有對點擊新聞之間的潛在聯系進行建模,其推薦效果還有提升的潛力。

Fig.10 Architecture of DKN approach圖10 DKN 方法的架構

除了關注同一用戶不同點擊新聞的重要性差異外,同一用戶的歷史點擊新聞之間也可能存在關聯性,并且一篇新聞可能和多篇新聞相關,關注新聞之間的關聯性同樣有助于挖掘用戶興趣。NRMS模型[27]在用戶編碼器中使用多頭自注意力機制捕捉新聞之間的長距離依賴關系,以增強用戶的特征表達,其模型結構如圖11 所示。每篇新聞的表示是由多個獨立自注意頭輸出的表示拼接而成,針對不同的新聞在建模用戶時可能具有不同的信息量,采用注意力機制選擇重要的新聞來學習用戶表示。相較于DKN 模型,該模型在AUC 上增加了4.03%,提高了推薦模型的推薦結果排序能力。但該方法還缺乏對多種新聞信息的有效整合,沒有充分挖掘各種新聞信息的語義表示。
以上工作均基于用戶對新聞的點擊行為建模用戶興趣,而CPRS[28]提出從用戶對新聞標題的點擊行為和對新聞內容的閱讀行為兩方面建模用戶整體偏好,以避免“用戶被標題吸引而點擊但對內容并不感興趣”的情況。具體而言,提出了一個個性化的閱讀速度度量標準來衡量用戶對新聞內容的滿意程度,該度量標準是基于用戶的閱讀停留時間、新聞內容長度和歷史平均新聞閱讀速度來計算的。CPRS 從用戶閱讀過的新聞內容和對新聞的滿意度中學習用戶表示,以此來建模用戶對新聞內容的興趣,其模型結構如圖12 所示。模型構建了內容注意力網絡,挑選重要的新聞內容來學習新聞內容表示,同時構建了滿意度注意力網絡識別用戶滿意的新聞內容,其查詢向量為個性化的閱讀速度;此外,還構建標題注意力網絡從用戶點擊過的新聞標題中建模用戶對新聞標題的偏好,并構建行為注意力網絡將這兩種用戶表示結合成統一的用戶興趣表示用于新聞推薦。閱讀行為的引入和AM 的靈活運用使得對用戶興趣的建模更加全面而準確,有助于向用戶推薦內容滿意的新聞。然而,公開的數據集中幾乎沒有用戶閱讀停留時間此類相關數據,限制了模型的可復現性。

Fig.11 Architecture of NRMS approach圖11 NRMS 方法的架構

Fig.12 Architecture of CPRS approach圖12 CPRS 方法的架構
在工業實踐中,商業化的新聞推薦系統通常從多個渠道/服務(新聞閱讀、網頁瀏覽、網頁搜索)中收集數據以豐富用戶特征,不同用戶在不同渠道中有不同的活躍度分布,不同渠道存在差異需要根據內容特征來選擇。多層感知機(multi-layer perception,MLP)也是一種提取用戶或新聞特征的常用方法,它是一種基礎的深度神經網絡,近年來被廣泛應用于推薦領域[37-38],相比于CNN、GCN、DAE 等網絡在特征表示能力上的強大,MLP 的特征表示更為簡單高效。文獻[39]提出的深度融合模型(deep fusion model,DFM)使用了MLP 和AM 兩種技術提高建模用戶興趣的能力。DFM 利用多個不同深度的MLP 網絡來并行學習不同渠道中的用戶表示,并向最終的激活層提供不同層次的組合特征,以此提高對用戶的表示學習能力。AM 模塊主要負責將從不同渠道中得到的用戶表示按照學習到的注意力權重進行加權以獲得最終的用戶表示,其AM 的查詢向量為用戶所處的位置、時間等上下文信息。該模型通過AM 機制融合借鑒了其他渠道信息,在Bing News 數據集上的AUC 高達0.838 6,不僅可幫助提高推薦準確率,還有助于解決NRS 中的用戶冷啟動問題。由于需要大量用戶個人信息與時空環境信息,該模型適用于需要用戶登錄的場景或移動場景。不過該模型在很大程度上依賴于手工特征工程,需要大量的領域知識。
從本小節以上工作可以看出,現有建模用戶整體偏好的工作一般將每個用戶表示為單一向量,然后匹配候選新聞向量,但這在推薦時可能會丟失細粒度信息,因為一些重要語義特征往往隱含在不同粒度的新聞文本片段中。文獻[40]提出一種基于細粒度興趣匹配的新聞推薦方法FIM(fine-grained interest matching network),沒有將用戶點擊過的所有歷史新聞聚合成一個統一的向量,而是通過層級擴張卷積(hierarchical dilated convolution,HDC)構造新聞的多級表示,然后在每個語義層次上對每個瀏覽新聞和候選新聞進行細粒度匹配,結構如圖13 所示。HDC逐步從詞匯、短語、句子等不同粒度上的局部相關性和長期依賴性中獲得新聞的語義特征;再基于多層級的新聞表示為每個歷史-候選對構建不同粒度的文本段(特征)相似度矩陣,得到多通道的匹配度矩陣;最后使用3D-CNN 提取高階顯著特征來預測用戶對候選新聞的點擊概率。這種細粒度的興趣匹配方法細化了用戶興趣特征,提高了推薦結果的準確性。另外,FIM 雖然沒有將新聞或用戶建模為一個單一的向量,但依然符合“先新聞,后用戶”的“兩段式”建模方法。

Fig.13 Architecture of FIM approach圖13 FIM 方法的架構
此類“建模用戶整體偏好”的推薦方法,能夠很好地建模興趣的整體性與重點性,并依賴于用戶整體興趣偏好對候選新聞進行推薦,忽略了用戶點擊新聞的順序信息的影響。事實上,用戶點擊歷史的順序信息能夠更好地反映用戶在一段時間內興趣的變化和多樣性,有助于更精確地對用戶偏好建模。
2.1.2.2 建模用戶時序興趣
用戶時序興趣是指隨時間動態變化的用戶興趣,對其建模的關鍵在于捕捉用戶新聞點擊歷史中的時序信息,抓住用戶興趣隨時間變化的特征。循環神經網絡的網絡單元中存在內部隱藏狀態,可以記錄和保存歷史信息,特別適用于對序列數據建模。但普通的RNN 結構普遍存在梯度消失問題,難以解決數據長期依賴(long-term dependency)[41]關系的學習問題,因此RNN 的變種,如長短期記憶網絡(long short-term memory,LSTM)和門控循環單元(gated recurrent unit,GRU)等應用廣泛。文獻[42]將用戶點擊歷史按照30 min 無活動間隔劃分為多個會話(session),嘗試從兩個角度建立LSTM 來捕捉動態變化的用戶興趣,過濾候選新聞。其中一種是基于會話的LSTM,將用戶當前會話中的點擊歷史作為輸入,捕獲用戶的即時興趣,根據其過濾新發布的新聞;另一種是基于歷史的LSTM,將用戶過去一段的點擊歷史作為輸入,捕獲用戶的短期興趣,根據其過濾新發布的新聞。最后,針對這些通過LSTM 獲得的候選新聞,依據其新聞類別與用戶長期偏好新聞類別間的相似性進行重新排序得到推薦結果。文獻[23]和文獻[35]的CAGE 模型均采用GRU 建模用戶時序興趣,利用GRU 捕捉用戶和新聞之間的順序交互能夠更好地建模用戶動態變化的興趣,并且不會發生LSTM 可能出現的梯度爆炸問題。以文獻[23]為例,GRU 的輸入為用戶瀏覽文章的序列,輸出為當前用戶興趣狀態,其中,當前用戶興趣狀態ut是該用戶上一狀態ut-1和瀏覽狀態aut決定的,結構如圖14所示。另外,該模型在考慮大用戶群背景下利用內積操作將用戶表示和新聞表示進行匹配完成推薦,在真實的百萬級用戶新聞推薦上獲得了較好效果,在工業級應用方面具有一定的借鑒意義。該模型的局限性在于,由于GRU 比較費時,可能會限制獲得用戶興趣表示的速度。
為區分歷史新聞序列中新聞的不同重要性,文獻[43]在利用LSTM 建模用戶的基礎上加入了AM,提出了一種使用雙向LSTM 模型的混合循環注意機(hybrid recurrent attention machine,HRAM)。HRAM使用雙向LSTM(bidirectional LSTM,Bi-LSTM)構建用戶歷史組件,在學習了每篇新聞的分布式表示基礎上,以順序方式將用戶的點擊歷史數據提供給基于注意力的遞歸層,其結構如圖15 所示。這種Bi-LSTM 和AM 相結合的方法有效捕獲了用戶點擊順序中隱藏的大量興趣信息,并據此區分新聞的重要程度,從而理解和適應用戶不斷變化的興趣,提高了推薦精度。

Fig.14 A user’s browsing and clicking history of literature[23]圖14 文獻[23]中一個用戶的瀏覽和點擊交互歷史

Fig.15 User-history component using attention-based recurrent neural network圖15 使用基于注意力機制的循環神經網絡的用戶歷史組件
2.1.2.3 建模用戶混合興趣
以上兩種建模興趣方式只學習用戶興趣的單一表現形式,可能無法充分捕獲用戶特征?!敖S脩艋旌吓d趣”的用戶建模方式中同時包含對用戶整體偏好與時序興趣的建模,既考慮用戶的長期興趣,又考慮用戶興趣的動態變化。文獻[22]提出的DAN 模型不僅引入了一個ANN(attention neural network)組件基于點擊歷史集合來學習用戶興趣嵌入(即整體偏好),還設計了一個ARNN(attention-based RNN)組件來捕捉用戶點擊歷史中的潛在順序特征,學習用戶歷史序列嵌入(即時序興趣)。其架構如圖16 所示?;谟脩裘看吸c擊都受其之前新聞選擇的影響這一假設,作者將ARNN 組件設計為一種基于AM 的RNN,在LSTM 的每個狀態上都加入AM,以獲得不同點擊時間下豐富的序列特征,最終這些來自不同時間的特性被集成為用戶點擊歷史的順序特性表示。最后,將用戶興趣嵌入與用戶歷史序列嵌入作拼接并經過全連接網絡得到用戶嵌入,即最終的用戶興趣表示。該模型在Adressa-1week 和Adressa-10week 兩個公共數據集上的結果表明,同時考慮用戶整體偏好與時序興趣的模型相較于只考慮整體偏好的模型其F1 分別提高0.89%與3.27%,其AUC 分別提高3.77%與0.80%。

Fig.16 Architecture of DAN approach圖16 DAN 方法的架構
LSTUR 模型[25]也是一種同時學習用戶整體偏好表示和時序興趣表示的新聞推薦模型。該方法基于GRU 設計出兩種融合用戶整體偏好和時序興趣的推薦框架:一種是使用用戶整體偏好表示(由用戶ID 嵌入得到)初始化GRU 網絡隱藏層狀態,并將GRU 網絡用于學習用戶時序興趣作為最終用戶表示進行推薦,如圖17(a)所示;另一種是將用戶整體偏好表示和GRU 生成的時序興趣表示拼接成最終用戶表示進行推薦,如圖17(b)所示。兩種方法中,前者推薦結果更加準確而后者性能更加穩定。相較于基于AM或LSTM 的推薦框架,基于序列的GRU 因其能夠捕捉用戶的新聞閱讀模式,具有更少的參數、更小的過擬合風險使得推薦性能得以提升,兩種方法的AUC、MRR 和NDCG 相較于其基線算法均至少提高1%。不過,該模型僅使用用戶ID 的嵌入向量來建模用戶整體偏好,缺乏對用戶的長期歷史等信息的利用,在一定程度上限制了其對用戶整體偏好建模的能力。
不同于以上利用RNN 系列神經網絡來建模用戶混合興趣的方法,SASKR(self-attention sequential knowledge-aware recommendation)[44]設計了一個帶多頭自注意力機制(MHSA)的編碼-解碼結構,還利用了蘊含豐富信息的知識圖譜。其結構如圖18 所示,在建模用戶時序興趣方面,利用MHSA 對用戶的點擊序列進行編碼,再利用MHSA 解碼計算候選新聞基于用戶時序興趣的推薦得分。作者還建模了用戶整體偏好的擴展,利用知識圖譜,將點擊歷史新聞中的實體在知識圖譜上進行一跳擴展,形成上下文實體矩陣,再利用注意力機制計算候選新聞基于知識的推薦得分。并將二者加權融合得到最終得分。該文獻基于MHSA 有效提取了時序興趣特征,并利用知識圖譜挖掘新聞之間的深層聯系,對用戶整體偏好進行擴展,提高了推薦的合理多樣性和可擴展性。但在實際應用過程中,由于新聞的高時效性產生大量未登錄詞,很多新實體無法及時更新在知識圖譜中,或者在實體鏈接等過程中出現差錯,可能導致推薦效果的下降。
和其他模型不同的是,DAINN 模型[21]除了融合用戶整體偏好、用戶時序興趣外,還引入大眾興趣共同建模用戶興趣表示。大眾興趣由同時間段內近鄰用戶的點擊新聞做平均池化(mean pooling)來提取,以減少由用戶誤點歷史記錄帶來的錯誤興趣,同時緩解用戶冷啟動問題。在獲取用戶時序興趣方面,DAINN 模型與之前的模型不同在于,引入了用戶所處的時空因素來建模。具體而言,以周(week)為時間單位將用戶在t時刻的點擊行為分解為某天(day of week)、某小時(hour of day)、地點(location)三方面的時空特征,將這三種特征的融合嵌入表示與用戶歷史點擊新聞的嵌入表示拼接起來,利用DNN 網絡計算注意力影響權重,再依照注意力權重對用戶歷史點擊新聞做加權計算,最終形成用戶在t時刻的時序興趣表示。而在用戶整體偏好建模方面,DAINN 利用主題模型學習用戶的興趣主題分布,聚合用戶點擊行為的主題分布作為用戶的興趣主題,計算用戶的興趣主題與點擊新聞的相似度得到聯合向量作為用戶整體興趣。最后將大眾興趣、用戶時序興趣與用戶整體偏好做拼接,并輸入GRU 網絡來動態描述用戶興趣的發展。DAINN 將大眾興趣引進模型,糾正了建模存在的興趣誤差;同時將用戶所處的時空環境因素融入模型中,使得模型對用戶的興趣變化更加敏感。此外,該模型適合于強調時空環境變化的移動推薦場景。

Fig.17 Two frameworks of LSTUR approach圖17 LSTUR 方法的兩種架構

Fig.18 Architecture of SASKR approach圖18 SASKR 方法的架構
在“兩段式”新聞推薦方法的建模用戶方面,各研究工作以獲得準確的用戶興趣表示為目標采用了多種建模角度與建模技術。一部分工作建模用戶整體偏好,其模型中多含有AM,它可以根據用戶的需求特點動態關注對其重要的新聞數據,從而適應不同用戶的偏好,有效提高用戶表示學習的準確性,相較于無AM 的模型而言,引入AM 能使推薦結果在AUC 或F1 指標上有明顯提升。一部分工作建模用戶時序興趣,多利用RNN 系列的深度學習技術適合處理時間序列的特性,學習用戶新聞點擊順序中隱藏的大量興趣信息,捕獲用戶興趣動態變化,但由于RNN 的不可并行性導致其運行速度較CNN 更慢。一部分工作建模用戶混合興趣,綜合考慮用戶整體偏好和時序興趣,或加入如大眾興趣等其他因素做調整,其AUC 指標值會有所增加。表3對比總結了在建模用戶方面不同模型的關鍵技術和特點優勢等。
總體而言,DNR 中的“兩段式”方法具有“先新聞,后興趣”的分步建模的特點,一般可得到獨立的新聞表示向量與用戶興趣表示向量,是對新聞特征與用戶興趣特征的顯式建模,因而可解釋性更強。但是,大多數方法采用文章級匹配方式,可能會丟失隱藏在更細粒度新聞片段中的語義特征與興趣特征,且往往僅基于用戶自己的點擊新聞,傾向于推薦與用戶點擊過的新聞內容相似的新聞,推薦結果缺乏新穎性。
在基于深度學習的新聞推薦中,一部分方法并不先為每一篇建立單獨的新聞表征,而是將新聞和用戶信息融合在一起,同時學習新聞和用戶特征。本文將之總結為“融合式”新聞推薦方法。
2018 年,文獻[19]提出的DeepJoNN 模型,將新聞和用戶相關的多維數據(包括新聞類別、關鍵字和實體、新聞ID 和用戶ID 等)融入到同一矩陣中同時學習特征。具體而言,該模型把新聞類別、關鍵字、實體、用戶ID 等信息分別編碼為向量,將多個向量垂直堆疊形成字符級嵌入矩陣,再將該矩陣作為CNN 的輸入對新聞和用戶聯合建模;模型還將CNN 和LSTM 通過上下分層的形式相耦合,以同時學習新聞上下文特征和點擊流中的時序模式,并預測用戶的下一次點擊行為,結構如圖19 所示。其評價指標R與MRR 在新聞數據集Adressa 和音樂數據集Last.fm上均有提升,證明該模型具有一定的普適性。此外,該模型僅使用了新聞類別、關鍵字、實體等粗粒度的信息,缺乏對更加全面細致的新聞語義信息的挖掘利用。

Table 3 Comparison of typical models on user modeling in“two-stage”DNR表3 “兩段式”新聞推薦方法中各代表模型在建模用戶方面的對比
文獻[45]將用于視頻動作識別領域的3-D CNN(3-D convolutional neural network)模型[46]引入新聞推薦方法中,將用戶和新聞信息融合到一個3-D CNN中,建模用戶時序興趣,其結構如圖20 所示。作者并沒有先對每篇歷史新聞建立單獨特征向量,而是借助3-D CNN 可通過3D 卷積操作在時間和空間兩個維度上提取特征的特點,將同一用戶的點擊歷史與候選新聞融合在一個3-D CNN 網絡中進行特征分析,通過計算用戶點擊歷史中每篇文章的每個單詞與候選新聞中每個單詞的相似度,得到一個三維相似度張量?;谠撓嗨贫葟埩窟M行3D 卷積以提取用戶隨時間變化的閱讀興趣,其中捕獲用戶興趣歷史的時間窗口大小可由卷積核大小決定??傮w來看,該模型使用單詞之間的語義相似度作為3-D CNN 的輸入,建模用戶動態變化的時序興趣,推薦效果在命中率(hit ratio,HR)和歸一化折扣累計效益(normalized discounted cumulative gain,NDCG)上有所提升。

Fig.19 Architecture of DeepJoNN approach圖19 DeepJoNN 方法的架構

Fig.20 Architecture of 3-D CNN in literature[45]圖20 文獻[45]中的3-D CNN 結構
文獻[47]在文獻[45]的基礎上,增加了一個2-D CNN(2-dimensional convolutional neural network),提出一種Weave&Rec 框架來進行新聞推薦,將用戶點擊歷史與候選新聞分開建模,其結構如圖21 所示。與上文相同,作者并沒有先對每篇歷史新聞建立單獨特征向量,而是直接將用戶所有點擊歷史作為3-D CNN 的輸入,并經過3D 卷積與池化的交替處理,其中3D 矩陣由多個2D 矩陣堆疊而成,每個2D 矩陣為一篇點擊歷史新聞的前50 個單詞word2vec 向量表示組成;候選新聞則被輸入2-D CNN,并經過2D 卷積與池化的交替處理。最后兩部分結果經過內積運算和一個全連接層的計算輸出預測評分。該模型中3-D CNN 可以同時學習空間信息(新聞特征)和時序信息(用戶點擊歷史中的順序特征),捕捉用戶興趣的動態變化,最終得到較高質量的推薦效果。
總的來說,在“融合式”新聞推薦方法中,各研究工作將新聞和用戶信息混合在一起建模,并不先將每篇新聞建模為一個整體的向量表征,故一般沒有獨立的新聞表示向量。“融合式”方法直接在更細的數據粒度(如新聞類別、內容單詞)上同時學習新聞和用戶特征,使得興趣更加細化,但相比于“兩段式”方法,其沒有得到明確的新聞表示與用戶表示,因此可解釋性更弱,且同樣具有推薦結果缺乏新穎性的局限性。一些工作將新聞和用戶相關數據編碼為多個向量并堆疊形成字符級CNN,其實驗結果中R和MRR 在多個數據集上均有提升;一些工作使用用戶歷史新聞單詞和候選新聞單詞之間的語義相似度作為3-D CNN 的輸入,其推薦效果在HR 和NDCG 上有所提升。表4 對比總結了“融合式”新聞推薦方法中不同模型的關鍵技術、數據種類、數據粒度、方法特點、優點和局限性等。
在基于深度學習的新聞推薦方法中,一些方法不僅從用戶自身的點擊行為挖掘興趣,還將其他用戶與新聞之間的交互納入模型,即考慮了相鄰用戶(或新聞)之間的關聯性。本文將此類基于深度學習的新聞推薦總結為“協同式”新聞推薦方法。根據其基于的數據組織結構不同,本節將按照基于用戶-新聞矩陣和基于用戶-新聞二分圖(bipartite graph)兩種類型分別介紹。
2.3.1 基于用戶-新聞矩陣
用戶-新聞矩陣是描述用戶與新聞之間的交互矩陣,用戶對新聞的點擊等行為代表用戶與該新聞存在交互,反之無交互,用0 填充。由于用戶只能與有限數量的新聞進行交互,因此原始的用戶-新聞矩陣往往非常稀疏。文獻[48]基于用戶-新聞矩陣利用棧式降噪自動編碼器(stacked denoising auto-encoder,SDAE)實現了新聞推薦。SDAE 由多層稀疏式AE 組成,具有較強的特征提取能力。模型使用SDAE 從原始稀疏的用戶-項目矩陣中提取有用的低維特征對用戶建模,之后將提取的特征采用余弦相似度方法計算用戶之間的相似性得到用戶top-N推薦,實驗結果中準確率(precision,P)有顯著提升。該方法對于新聞與用戶特征提取上展示出更強的能力,提取的特征更具有魯棒性,能在一定程度上避免噪聲影響,有助于提高新聞推薦準確率。但該方法僅基于用戶-新聞矩陣,忽略了對新聞的文本內容等信息的利用,而由于新聞具有高時效性,新聞條目經常被替換,因此該方法無法解決冷啟動問題。
2.3.2 基于用戶-新聞二分圖
用戶-新聞二分圖是一種描述不同用戶與新聞之間交互行為的圖結構,如圖21 左圖所示,在新聞推薦中,用戶是一類節點,新聞是一類節點,利用由用戶節點和新聞節點組成的二分圖,可以通過相鄰用戶為目標用戶推薦可能感興趣的新聞。將用戶-新聞二分圖展開后可得到用戶-新聞高階連接圖(如圖22 右圖所示),利用高階連接關系能夠得到更多的潛伏在用戶和新聞的交互中的協作信號(collaborative signal)。

Table 4 Comparison of typical models in“fusion”DNR表4 “融合式”新聞推薦方法中各代表模型對比

Fig.21 Illustration of user-news interaction graph and high-order connectivity圖21 用戶-新聞交互二分圖和高階連接圖示
文獻[49]為揭示導致一個用戶點擊不同新聞的潛在偏好因素,在用戶-新聞二分圖上提出一種帶有無監督偏好解離合的圖神經新聞推薦方法(graph neural news recommendation with unsupervised preference disentanglement,GNUD)。GNUD 結構如圖22 所示,通過沿圖的信息傳播將高階連接關系編碼到用戶和新聞的表示中,利用鄰域路由機制(neighborhood routing mechanism)對表示中的潛在偏好因素進行解離合[50](即識別和解離隱藏在數據中的不同潛在解釋因素),并設計了一個偏好正則器來幫助提高新聞和用戶解離合表示的質量。GNUD 不僅可動態識別可能導致用戶點擊某新聞的潛在偏好因素,而且可相應地將新聞分配到一個可卷積特定該因素特征的子空間,有利于提高特征表示的表達性和可解釋性。另外,該模型沿用了DAN 中的PCNN 方法基于新聞標題和新聞概要學習新聞語義表示,在考慮用戶-新聞之間的協作信息的同時還兼顧了新聞內容信息。

Fig.22 Architecture of GNUD approach圖22 GNUD 方法的結構
和文獻[49]類似,文獻[51]同樣通過引入用戶與新聞之間的高階連接性來增強用戶和新聞的學習表示,提出了一個用戶新聞推薦的圖增強表示學習方法(graph enhanced representation learning for news recommendation,GERL)。GERL 包括一個單跳交互學習模塊和一個兩跳圖學習模塊,如圖23 所示。在單跳交互學習模塊中,通過transformer架構形成新聞語義表示,其中的多頭自注意力網絡可以對標題中的長距與短距單詞依賴進行編碼;它還通過聚合用戶點擊的新聞來學習用戶的表示。在兩跳圖學習模塊中,通過圖注意力網絡(graph attention network,GAN)聚合用戶和新聞的鄰居嵌入,增強了用戶和新聞的特征的表達能力,提高了推薦的準確性。不過,用戶的興趣往往隨著時間產生變化,GERL 和GNUD 均沒有考慮用戶-新聞交互的順序信息,其推薦的性能還有待提升。

Fig.23 Architecture of GERL approach圖23 GERL 方法的結構
總的來說,“協同式”新聞推薦方法主要利用相鄰用戶與新聞之間的交互,對用戶和新聞特征進行增強?;蚧谟脩?新聞矩陣,使用深度學習技術來增強其特征的魯棒性,其推薦結果在P和R指標上有顯著提升;或基于用戶-新聞二分圖,編碼用戶與新聞交互背后的高階關系,以豐富用戶和新聞特征表示,提升了AUC 的數值結果。“協同式”方法因其納入了其他用戶與新聞的交互關系,使得推薦結果相較于以上兩種方法更具有新穎性,但是目前大部分的“協同式”方法都缺少用戶點擊歷史中順序信息的利用,難以建模用戶興趣的動態變化。表5 對比總結了“協同式”新聞推薦方法中不同模型的關鍵技術、數據種類、數據粒度、方法特點、優點和局限性等。
進行新聞推薦實驗時要獲得公平、客觀的評價,其充分條件在于使用合理的數據集和統一的評價指標。本章主要介紹一些在DNR 實驗中常用的數據集、基線算法以及衡量算法性能的指標。
DNR 整個過程由收集數據開始,需要采集的數據主要包括新聞相關數據(新聞的標題、類別、摘要、正文等)和用戶相關數據(用戶的點擊歷史、用戶的時間信息、位置信息等)。研究者們通常會根據自身的實驗條件及實驗環境選擇一些公共數據集進行實驗。在表6 中整理統計了近幾年DNR 研究中出現過的公開數據集。
在新聞推薦研究中經常使用的公共數據集主要包括:
(1)Adressa[52]。由挪威Adresseavisen新聞出版社和挪威科技大學共同發布,采集自www.adresseavisen.no 新聞網站。該數據集包含Adressa 1G 和Adressa 16G兩個版本,其中,Adressa 1G包含2017年1月1日—1 月7 日共1 周內的11 207 篇新聞、561 733 個用戶和2 286 835條閱讀記錄,Adressa 16G 包含2017年1月1日—3月31日共3個月內的48 486篇新聞、3 083 438個用戶和27 223 576 條閱讀記錄。
(2)Plista[53]。發布于RecSys2013 新聞推薦挑戰賽,該數據集包含德國13 個新聞門戶網站在2013 年6 月1 日—6 月30 日內的1 095 323 篇新聞、14 897 978個用戶和84 210 795 條閱讀記錄。
(3)Last.fm[54]。由西班牙馬德里自治大學的信息檢索小組創建,發布于第二屆推薦系統信息異構與融合國際研討會(The 2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems)。Last.fm 數據集采集自同名社交音樂平臺,主要用于音樂推薦,在新聞推薦研究中也常被研究者用于評估新聞推薦方法的通用性。數據集中包含1 892 個用戶、17 632 個 藝術家和92 834 條 收聽記錄。此外,該數據集還含有用戶社交網絡信息。
(4)MovieLens[55]。由美國明尼蘇達大學的Group-Lens 研究小組發布的電影評分數據集,常被用來評估新聞推薦方法的通用性。該數據集常用的版本為MovieLens 1M、MovieLens 10M 和MovieLens 20M,其中,MovieLens 1M 包含3 952 部電影、6 040 個用戶和1 000 209 個評分(用戶對其看過的電影進行1~5分評價);MovieLens 10M 包含10 681 部電影、71 567個用戶和10 000 054個評分;MovieLens 20M包含27 278部電影、138 493 個用戶和20 000 263 個評分。

Table 5 Comparison of typical models in“collaboration”DNR表5 “協同式”新聞推薦方法中各代表模型對比

Table 6 Statistics of common public datasets of NR表6 常用于新聞推薦的公開數據集統計信息
(5)MIND[24-26,56]。采集自微軟新聞網站的匿名行為日志的大型新聞推薦數據集。它包含MIND 和MIND-small 兩個版本,其中,MIND 含有161 031 篇新聞、1 000 000 個用戶和24 155 470 條行為日志,每篇新聞中包含標題、摘要、正文、類別和實體,每個行為日志中點擊事件、未點擊事件和該行為日志前的歷史點擊新聞;輕量級的MIND-small 則包含93 698篇新聞、50 000 個用戶和230 117 條行為日志。
最近幾年也有一些新聞推薦研究團隊提供了數據集用于自己團隊內部評測,包括:
(1)Bing News[32,39]。采集自Bing News 在線新聞網站,每條閱讀記錄主要包含時間戳、用戶ID、新聞URL、新聞標題和點擊次數等屬性。該數據集一般為微軟亞洲研究院研究團隊所使用。
(2)NAVER News[42]。采集自韓國最大的搜索引擎和門戶網站NAVER,包括8 620 854 個用戶和5 759 377 篇新聞,其中每條閱讀記錄包括其用戶加密登錄ID、會話ID、時間戳、新聞文章ID 等屬性。該數據集一般為韓國NAVER 公司研究團隊所使用。
(3)Yahoo! JAPAN[23]。采集自Yahoo! JAPAN 的移動端主頁,包括約2 000 000 篇新聞、約12 000 000個用戶和約100 000 000 個閱讀記錄。該數據集一般為日本雅虎公司研究團隊所使用。
基線(baseline)算法是研究論文中用于實驗結果對比的前人算法。將DNR 領域常用的基線分為兩類,如表7 所示,一類是傳統的基于統計機器學習的新聞推薦方法,如POP(popular-based method)、ItemKNN、BPR(Bayesian personalized ranking)、LibFM等。另一類是基于深度學習的新聞推薦方法如DSSM(deep structured semantic models)、Wide&Deep、DeepFM(a factorization-machine based neural network)、You-TubeNet、RA-DSSM(recurrent attention deep structured semantic models)、HRNN、NeuMF(neural matrix factorization)等。
隨著推薦技術的發展和數據處理能力的提高,當前NR 領域中評價指標包含準確度、多樣性、新穎性和滿意度等多種。其中,準確度用來衡量推薦算法在多大程度上能夠準確預測用戶對新聞的感興趣程度,是衡量推薦算法最基礎的指標[67]。事實上,由于多樣性、新穎度的計算公式較為簡單粗糙,而滿意度往往需要通過用戶在線調查獲得,故而目前大多數研究方法都以提升算法準確度為研究目標。目前NR 領域常用的實驗性能評價指標包括:準確率(precision,P)、召回率(recall,R)、準確率和召回率調和平均值F1、ROC(receiver operating characteristic)、曲線下的面積(AUC)、命中率(HR)、平均倒數排名(MRR)和歸一化折扣累計效益(NDCG)等。其中,準確率P表示用戶對推薦結果的點擊概率;召回率R表示用戶感興趣的新聞被推薦的概率,往往與準確率P呈負相關性;F1 能夠綜合推薦結果的準確率P和召回率R提供更全面的評估。AUC 表示一個推薦系統能夠在多大程度上將用戶感興趣的新聞與不感興趣的新聞區分出來[68],可綜合衡量算法的整體表現,不僅適合有明確“喜歡/不喜歡”評價機制的推薦系統,也適合沒有明確喜好閾值的推薦系統(如5 分制評價)。HR@n用于直觀衡量測試新聞是否存在于推薦列表的前n名中。MRR 和NDCG 均為衡量推薦列表中排序準確度的指標,目的都是通過考察推薦結果的排序位置來檢驗用戶的體驗程度,區別在于兩者的計算方式不同——MRR 是通過累加相關結果的排序位置倒數而得,而NDCG 則是按照log 調和級數形式進行計算。在實際研究中,為了能更公正有效地分析推薦效果,通常采用兩種或兩種以上的評價指標綜合分析推薦算法的表現,例如將R和MRR 組合評價[19,42],將AUC、MRR 和NDCG 組合評價[23]等。

Table 7 Common baselines for DNR表7 DNR 中常用的基線算法
如今,深度學習技術已經廣泛應用到新聞推薦領域。本文主要對基于深度學習的新聞推薦方法研究現狀進行了分類、梳理和總結。根據對新聞和用戶的建模思路不同,本文將基于深度學習的新聞推薦方法(DNR)分為“兩段式”“融合式”和“協同式”三類,對每類方法的代表性算法進行了研究、分析和對比,并概括總結了每類方法的技術特點和優缺點。在現有研究成果的基礎上,總結DNR 研究領域的重點問題和發展趨勢,認為該領域還存在以下一些具有挑戰性的研究方向:
(1)精準的用戶建模
精準的用戶建模一直是DNR 領域的挑戰,探索如何對用戶興趣建模并實現更為準確的推薦一直是一個富有挑戰的研究焦點。已有的新聞推薦方法往往僅依賴用戶的新聞點擊歷史對用戶建模,但這種單一類型的用戶表示難以較為全面地提取用戶興趣特征。除新聞點擊歷史外,用戶的搜索引擎搜索歷史和網頁瀏覽歷史等多種信息中也包含了豐富的用戶興趣,可以作為用戶興趣建模的輔助信息,如文獻[39]利用AM,對從新聞閱讀、網頁瀏覽等多個渠道收集的用戶數據進行融合,豐富用戶特征。因此,如何綜合多種用戶行為數據進行用戶興趣建模是一個具有挑戰性的問題。此外,用戶的興趣具有動態變化的特點,用戶不僅對一些方面具有長期偏好,還對另一些方面具有短期興趣。這種短期興趣往往和用戶所處的時間空間等上下文因素相關,特別是移動新聞推薦中,NR 過程與用戶所在的地理位置以及用戶的運動軌跡有重要聯系[69]。文獻[21]利用AM 將用戶閱讀新聞時的時間、地點融入用戶特征,獲得用戶興趣表示。因此,如何對用戶的長期偏好和短期興趣精準刻畫以及如何協同二者進行新聞推薦同樣是值得深入研究的方向。
(2)基于圖結構的新聞推薦
圖結構是一種非線性的復雜數據結構,在NR 領域,圖結構通常被用來建立多個用戶與多個新聞之間的交互關系,圖結構中所反映的用戶與新聞之間的高階連接性蘊含著豐富的特征信息。近來,圖神經網絡在圖結構上的學習能力逐漸凸顯,它能夠自然地將節點信息和拓撲結構集成起來,有效建模節點之間的依存關系。在DNR 中,圖神經網絡在建模用戶與新聞之間的高階連接性上具有強大能力。文獻[51]設計了兩跳圖學習模塊,通過圖注意力網絡聚合用戶和新聞的鄰居嵌入,增強用戶和新聞的表示。文獻[49]在用戶-新聞二分圖的基礎上,對用戶的潛在偏好因素解離合,提高了表示的表達性和可解釋性。事實上,圖結構能夠融合推薦系統中的多源異構數據,特別有助于個性化推薦。目前有關基于圖結構的NR 研究還比較少,如何基于圖結構結合DL 技術并將其有效應用于NR 也是目前研究人員亟需解決的問題。
(3)新聞推薦中的虛假新聞傳播
由于在線新聞傳播相較于傳統新聞成本較低,因此一些虛假新聞或低質量新聞大量涌入了讀者視野。假新聞的傳播會對個人和社會產生嚴重的負面影響[70],破壞新聞生態系統。假新聞的存在也嚴重影響了NR 的推薦效果,一方面,假新聞增加了新聞文章數量,使得原有真實新聞又多了一些“假”的版本,增加了NR 的計算成本;另一方面,假新聞含有比較明顯的錯誤信息,若推薦此類新聞,將極大降低讀者對NR 的推薦滿意度。當前,已有一些研究人員開展虛假新聞檢測研究和新聞質量識別研究。文獻[71]提出一個基于RNN 的虛假新聞檢測模型,能夠自動化預測虛假新聞。文獻[72]基于GRU 研究了假新聞文章、假新聞創作者和假新聞主題之間的關系,實現了一個虛假新聞檢測模型。文獻[73]基于用戶的閱讀率和停留時間等行為自動識別新聞的質量。由于檢測假新聞所需的信息通常不可用或不充分,假新聞往往被在線用戶廣泛分享,檢測假新聞仍然是新聞推薦中一個重要但又具有挑戰性的問題。
(4)新聞推薦中的隱私和安全
互聯網是一個復雜的環境,在對用戶進行新聞推薦時候應為用戶考慮兩點:一是要確保NR 向用戶推薦的新聞或者新聞鏈接是安全的;二是要確保用戶的個人隱私,并且需要在盡可能少利用用戶隱私數據的情況下做出準確、合理的推薦。NR 需要建立相應的隱私保護機制,為用戶提供用戶個人信息安全保障以及保密措施,提高用戶對推薦系統的信任度與好感度。文獻[74]指出針對敏感數據信息的保護貫穿于網絡中每個層次,可以通過修改或隱藏原始信息的局部或全局敏感數據來保護隱私,還可以通過加密技術對信息進行保護。目前由于網絡發展迅速,用戶接受信息的途徑日益增多,如短信、鏈接、網頁彈窗等,如何在新聞推薦中全面考慮隱私安全保護機制并建立異常情況解決方案,也是研究者需要努力的方向。
(5)新聞推薦中的可解釋性
推薦的可解釋性是指向用戶或系統設計者提供解釋,使之知道為什么推薦這些項目,這有助于提高推薦系統的有效性、說服力和用戶滿意度[75],也有助于幫助研究者探索模型的內部機理。深度學習以其強大的表征作用廣泛應用于新聞推薦系統并切實提高了推薦準確性,然而深度學習中的深層神經網絡被普遍認為是高度不可解釋的,因此,可解釋的新聞推薦似乎是一項艱巨的任務。近年來受到廣泛關注的AM 在一定程度上為該問題提供了解決方法,其中的解釋性主要來自于注意力權重分配。如文獻[76]從商品評級和用戶評論中共同學習商品和用戶信息,將評論詞的注意力權重作為推薦的解釋。新聞推薦模型NPA[24]中,對詞語和新聞級別的注意力權重做了高亮的可視化展示,可在未來進一步形成推薦的解釋。另外,知識庫中包含了豐富的用戶和項目信息,可以幫助推薦生成更直觀、更有針對性的解釋。如文獻[77]提出的Ripple 網絡,是一種將知識圖譜整合到推薦系統中的端到端架構,其解釋可以通過在知識圖譜上查找用戶和推薦項的路徑來提供。在DNR 領域,關于對推薦結果做出解釋的工作還非常少,可以依賴已經能夠使模型對重要因素進行突出強調的AM 機制和包含豐富外部知識的知識圖譜,使新聞推薦達到可解釋水平。
(6)更統一的評估方法
對NR 進行有效評估是一個重要課題,一個統一的評估方法能夠更加客觀而合理地對推薦結果進行評價。然而,現有NR 研究中數據集的來源較為散亂,缺少一套廣泛接受的標準化評估數據集,導致不同研究的評估差別較大。另外,大部分評價指標只重視準確度,忽略了推薦結果的驚喜度、覆蓋率等特性,能否將這些指標結合提出一個綜合性的評價指標,也是NR 中需要繼續深入研究的問題。