



摘要:針對新聞推薦任務過度依賴用戶歷史行為數據可能導致的用戶隱私信息泄露等問題,提出一種結合預訓練模型、雙向長短期記憶網絡及多頭注意力(RoBERTa-BiLSTM-MA)的熱點新聞推薦方法。該方法利用RoBERTa和BiLSTM模型提取文本語義特征,并借助多頭注意力機制捕獲新聞內部的關鍵信息以及不同組成部分之間的關聯,減少不相關信息的干擾。通過提高對新聞熱度預測的準確率,達到優化推薦效果的目的。由于熱點新聞推薦領域缺乏公開數據集,因此專門構建了一個中文體育新聞數據集(SPORTNEWS)。實驗結果表明,在SPORTNEWS數據集上,與經典新聞推薦模型相比,RoBERTa-BiLSTM-MA在Acc、F1、NDCG@5和NDCG@10等指標上均有提升,相較于最優對比模型分別提升了1.29百分點、1.1百分點、17.14百分點和10.53百分點。
關鍵詞:新聞推薦;熱度預測;預訓練模型;多頭注意力機制;深度學習
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
現代社會處于信息爆炸時代,每日各大社交媒體平臺上的新聞文章層出不窮[1]。這不僅加劇了信息過載問題,而且其中摻雜的虛假信息或低質新聞嚴重損害了新聞用戶的權益。因此,從海量的新聞信息中篩選出用戶感興趣的熱門話題和熱點事件,既可以改善用戶體驗,還有利于優化新聞報道,提高新聞質量。
傳統的新聞推薦方法主要依賴用戶歷史行為記錄等特征,通過分析用戶的興趣和行為模式,為其量身定制最合適的新聞推薦[2]。盡管個性化推薦系統在提高用戶滿意度方面發揮了積極作用,但是其也面臨著一些挑戰和局限性。一方面,這些系統通常需要大量的用戶數據作為輸入,這可能會引發用戶隱私泄露的風險。另一方面,個性化推薦系統容易出現內容同質化的問題,導致用戶產生厭倦感。
為了解決上述問題,基于新聞熱度的推薦方法引起了研究者們的關注。這種方法側重于提供時效性和吸引力強的內容,僅利用文章評論數、點擊量等熱度特征為用戶進行新聞推薦,從而有效降低了用戶隱私泄露的風險。
1 相關工作(Related work)
1.1 個性化推薦
新聞推薦系統的核心目標是在海量數據中為用戶提供高質量、有價值的熱點新聞。傳統的個性化新聞推薦方法通常使用ID表示用戶興趣和新聞內容,并通過評分等交互信息,利用協同過濾等技術學習ID的表示[3-4]。
近年來,隨著深度學習技術的不斷發展,越來越多的研究者開始將深度學習應用于個性化推薦系統中[5]。OKURA 等[6]利用去噪自動編碼器模型對新聞內容進行表示,并使用門控循環單元(Gated RecurrentUnit,GRU)表示用戶對歷史點擊新聞的興趣。WANG等[7]則提出了一種結合詞嵌入和知識圖譜實體嵌入的方法,利用卷積神經網絡(Convolutional Neural Networks,CNN)從新聞標題中學習知識感知的新聞表示。AN等[8]則提出了一種能夠較好地結合用戶長期愛好和短期興趣的方法。何麗等[9]提出了一種多視角學習的新聞推薦方法,采用基于協同注意力機制的多視角學習方法構建新聞編碼器。
1.2 熱度推薦
熱度推薦的核心思想是根據新聞的熱度信息,將當前熱門和受歡迎的新聞推薦給用戶,以滿足用戶對于熱門話題和事件的關注需求。TAN等[10]提出了一種利用內、外部知識相結合的參數估計的經驗貝葉斯(EmpiricalBayes,EB)型方法,該方法實現了在開始時間為零時,對傳播進入穩態時的效果進行預測。ZHANG[11]提出一種基于快速K近鄰(FastK-Nearest Neighbor)的熱度預測改進方法。KLUBICˇKA等[12]利用邏輯回歸(Logistic Regression,LR)和支持向量機(Support Vector Machine,SVM)方法,以二分類的形式對社交媒體中仇恨言論所能達到的熱度進行預測。隨著深度學習技術的蓬勃發展,越來越多的研究者開始將深度學習應用于新聞推薦,CHEN 等[13]利用深度神經網絡(Deep Neural Network,DNN)方法完成廣告點擊率的預測。STOKOWIEC等[14]首次嘗試僅使用新聞標題中的文本信息進行熱度預測,提出了一種基于雙向長短期記憶神經網絡的新方法(Bi-directional Long Short-Term Memory,BiLSTM)。丁琪等[15]提出一種基于注意力增強的熱點感知新聞推薦模型。
在基于熱度的推薦任務中,關鍵問題是如何能準確地預測新聞的熱度。為充分理解新聞文本的上下文語義,捕獲文本之間不同信息的關聯和特征,本文提出一種RoBERTa-BiLSTMMA模型,實現熱點新聞推薦。
2 實驗方法(Experimental method)
2.1 RoBERTa-BiLSTM-MA模型架構
由于RoBERTa模型已經在大規模語料庫上進行了預訓練,因此具有較強的泛化能力,可以有效地降低模型對于特定訓練數據的過擬合風險。本文將RoBERTa與BiLSTM 結合,在提取上下文語義的基礎上進一步處理序列信息,捕捉文本中的長距離依賴關系和序列特征。為了更靈活地編碼新聞文本內容,本研究引入了多頭注意力機制,這一機制能夠更加靈活地對新聞文本內容輸入進行編碼,從不同的角度獲取信息,以更全面地理解新聞內容,包括主題、情感、重要性等方面的信息,有助于提高熱度預測的準確性。同時,利用中央處理器(Central Processing" Unit,CPU)并行計算的能力,加速模型的訓練和推理過程,使RoBERTa-BiLSTM-MA模型能夠在保持高性能的同時,提高模型的訓練和推理效率。RoBERTa-BiLSTM-MA模型架構示意圖如圖1所示。
2.2 RoBERTa模型微調
RoBERTa[16]是一種基于Transformer架構的預訓練語言模型(圖2)。
NPA[19]:一種基于神經網絡的新聞推薦模型,通過個性化注意力機制提高新聞推薦系統的推薦效果。
NRMS[20]:一種基于多頭自注意力機制的神經新聞推薦模型,通過深度學習和注意力機制提高新聞推薦的效果。
BiGRU[21]:一種改進的循環神經網絡(RNN)模型,利用雙向結構處理序列數據,并捕捉序列的前后信息,從而使模型具有更強的上下文理解能力。
3.5 實驗結果及分析
將NPA、NRMS和BiLSTM 等先進模型應用于新聞熱度預測任務,新聞熱度預測結果如表3所示。
RoBERTa-BiLSTM-MA 模型在Acc、F1值、AUC 和Logloss指標上均取得了最佳表現,并且相較于最優對比模型BiGRU-Att,分別提升了1.29百分點、1.1百分點、0.72百分點和降低了0.04,充分證明使用更加強大的預訓練模型并結合BiLSTM能夠更好地學習新聞表示,并且引入多頭注意力機制可以有效捕獲新聞不同部分之間的信息關聯。
將訓練好的新聞熱度預測模型獲得的新聞表示應用于新聞推薦任務中,并對推薦效果進行評估,新聞推薦結果如表4所示。RoBERTa-BiLSTM-MA模型在NDCG@5和NDCG@10兩種指標上均顯著優于其他新聞推薦模型,并且相較于最優對比模型RoBERTa,分別提升17.14百分點和10.53百分點。以上結果不僅表明RoBERTa-BiLSTM-MA 模型更適合新聞推薦任務,而且還驗證了通過提高新聞熱度預測準確率可以提高新聞推薦效果所用方法的可行性。
RoBERTa-BiLSTM-MA模型在熱度預測任務中的混淆矩陣如圖6所示:矩陣對角線格中的百分率代表每類測試樣本中預測正確的樣本數量與此類樣本總數的比例,其余網格中的百分率表示預測錯誤的樣本數量占此類樣本總數的百分比。其中,等級1至等級5分別代表冷門、低熱度、一般熱度、高熱度、爆火5種熱度。從圖6中的結果來看,模型更容易準確預測熱度等級高和低的新聞,而對于熱度居中的新聞,則存在較大的預測難度,這一現象與人類的直覺判斷相一致。
3.6 消融實驗
為驗證RoBERTa、BiLSTM 模塊和多頭注意力模塊對于熱點新聞推薦任務的有效性,本文設計了針對3個模塊的消融實驗。其中,包括去BiLSTM 模塊的RoBERTa-MA 模型,去除多頭注意力機制模塊的RoBERTa-BiLSTM 模型,以及去除RoBERTa模塊的BiLSTM-MA模型;并以此觀察各個組成部分的重要性。通過對模型結構的逐步剖析,可以更好地理解各個組件對模型整體性能的貢獻,消融實驗熱點預測結果如表5 和表6所示。
從表5和表6中的結果可以看到,RoBERTa-MA模型的準確率、NDCG@5和NDCG@10指標相較于本文模型分別降低了0.43百分點、3.5百分點和2.05百分點,以上結果表明BiLSTM模塊是有效的,盡管預訓練模型能夠捕捉上下文語義特征,但是借助BiLSTM可以有效防止信息丟失,提高模型性能。RoBERTa-BiLSTM模型的準確率、NDCG@5和NDCG@10指標相較于本文模型分別降低了0.43百分點、5.74百分點和2.69百分點,以上結果表明多頭注意力機制模塊是有效的,新聞文本中不同部分之間的重要性不同,通過多頭注意力機制可以學習不同部分間的權重,進而提升模型效果。BiLSTM-MA 模型的準確率、NDCG@5和NDCG@10指標相較于本文模型分別降低了1.47百分點、17.94百分點和10.96百分點,以上結果表明RoBERTa相比于上述兩模塊更具關鍵性。
4 結論(Conclusion)
本文提出一種基于RoBERTa-BiLSTM-MA 的中文熱點新聞推薦方法,利用RoBERTa和BiLSTM 模型編碼新聞文本以捕捉語義信息,并引入多頭注意力機制以更好地關注不同部分的文本,從而提高推薦效果。實驗證明,與其他先進的推薦方法相比,該方法在新聞熱度預測準確性和推薦效果上均有所提升,顯示了RoBERTa-BiLSTM-MA模型在該領域的應用前景。消融實驗進一步闡明了各模塊對整體模型性能的影響,特別是RoBERTa獨立模塊在推薦任務中起到的關鍵作用,以及BiLSTM模塊和多頭注意力機制模塊對提升推薦效果的關鍵作用,強調了模塊化設計和優化模型結構的重要性。
未來,將進一步優化模型結構,提高推薦效果;探索更多的語義表示模型和注意力機制,以適應不同類型的文本數據。
作者簡介:
王長浩(1980-),男(漢族),西安,副教授,碩士。研究領域:自然語言處理。
杜嘉慶(1999-),男(漢族),咸陽,碩士生。研究領域:自然語言處理。
王燁(1988-),男(漢族),重慶,講師,博士。研究領域:對話系統,多模態融合。
劉凱(1995-),女(漢族),榆林,碩士生。研究領域:自然語言處理。