基于特征映射和聯合學習的可解釋新聞推薦

2023-10-12 01:29:36王京豪段建勇

計算機工程與設計 2023年9期

何麗，王京豪，段建勇

(1.北方工業大學信息學院，北京 100144；2.北方工業大學 CNONIX國家標準應用與推廣實驗室，北京 100144；3.北京城市治理研究基地，北京 100144)

0 引言

個性化新聞推薦極大地提升了用戶篩選信息的效率，為用戶準確推薦新聞。有研究表明，在推薦的同時提供文字解釋可以提升用戶對推薦系統的信賴，增加系統的可信度與滿意度[1]。

為了對推薦做出直觀的解釋，近來的一些研究使用元數據，例如從用戶瀏覽記錄中獲取用戶感興趣的標簽和主題闡明用戶偏好[2]。盡管這些方法可以使用外部元數據來解釋推薦，但是支持推薦解釋的可解釋特征很難獲取，因此，在真實數據中人們很難使用該方式生成推薦的解釋。

現有的一些可解釋推薦方法通常將推薦預測和生成解釋分成兩個獨立的步驟分別優化，或是只優化其中一個目標，例如嵌入法[3]，其采用將解釋語句生成模塊直接整合到推薦模型中，其優化目標通常只為推薦準確度，無法保證解釋的質量；后處理法[4]，先優化常規推薦系統的準確性，再根據推薦結果生成對應解釋，這種解釋通常是固定模板的句式，很難使用戶對其產生信任。

可解釋推薦通常是基于用戶與內容的交互信息，例如用戶的評分、評分等內容，對推薦的內容生成解釋[5]。也因此，現有的可解釋推薦系統通常進行電影推薦、電商推薦等包含用戶評論和評分內容的研究，新聞推薦領域則鮮有可解釋推薦系統。

基于此，本文提出了一種特征映射方法，通過將使用基本潛在因子模型學習的一般特征映射到可解釋的方面特征，可以在不影響基本潛在因子模型的推薦性能的情況下使用方面特征解釋輸出，將新聞數據中的一般不可解釋特征映射到可解釋的方面特征；同時，采用聯合學習機制綜合學習用戶表征和新聞特征，模型借此來挑選出用戶最感興趣的新聞特征，進而優化解釋語句。

1 相關研究

個性化新聞推薦是自然語言處理領域的一項重要任務，其有著廣泛的應用[6]。對于新聞推薦來說，學習到準確的新聞表示和用戶表示是十分重要的，現有的方法大多只專注于優化獲取到的用戶表征和新聞表示，如An Mingxiao等[7]提出的LSTUR模型能夠較好的結合用戶長期愛好和短期興趣的方法，Wu等[8]從新聞數據多個方面學習新聞特征，但是這些方法都沒有涉及推薦系統的可解釋性，無法提高系統的透明度、說服力和可信度。

傳統觀念認為，可解釋性和準確性被認為是模型設計中兩個相互沖突的目標，可以選擇一個簡單的模型來獲得更好的可解釋性，或者選擇一個復雜的模型來獲得更好的準確性[9]。然而，近年的研究表明開發具有可解釋性的深度學習模型成為了可能，例如Zhang等利用大規模文本評論和基于方面的方法，生成詞云解釋；Wang等[10]通過聯合張量因式分解框架，集成了推薦的用戶偏好建模和解釋的自定義內容建模兩個配套學習任務，生成個性化文本解釋。

針對新聞推薦，可解釋推薦系統則相對較少，主要是因為新聞數據中用戶的行為數據只包含用戶的瀏覽和點擊歷史，不包含用戶的評論、評分等交互數據，因而很難生成個性化解釋語句。Wang等[11]利用知識圖譜發現用戶和項目之間的關聯，但也只在電影和音樂這種有用戶評論的數據集上進行了實驗。本文利用映射方法將新聞數據中的一般特征映射為可解釋方面特征，并利用聯合學習模型獲取新聞和用戶特征之間的關聯，在準確推薦的同時提供推薦的解釋語句，實現了可靠的可解釋新聞推薦。

2 本文方法

在本節中，首先介紹如何將新聞數據的一般特征映射到可解釋方面特征空間。方面(Aspect)[12]指的是表征項目的屬性。之后介紹基于互注意力機制的可解釋推薦模型，以及如何生成新聞推薦預測和解釋語句。

2.1 特征映射

新聞數據通常包含不同類型的信息，比如主題類別、標題、摘要等特征，它們對于學習新聞的表示都是很有幫助的。包含多種信息類別的新聞數據見表1。

表1 新聞數據樣例

為了實現可解釋推薦模型，首先新聞的類別要與用戶喜好的相似，本文利用映射到方面特征[12]來做可解釋特征。將新聞數據集的每種主題類別視作不同方面，如(體育、軍事、生活、娛樂、美食)，例如表1中的新聞數據主題類別對應的方面特征就為 (1，0，0，0，0)，同理對副類別也進行方面特征映射，進一步細粒度化新聞特征。

新聞數據集中用戶的行為一般只包含用戶的瀏覽和點擊新聞記錄，數據樣例見表2。

表2 用戶行為數據樣例

(1)

如果是從未點擊或瀏覽過的新聞，得分則定義為0。

最后，將這些映射后的新聞特征與用戶評分數據作為模型的輸入，進行新聞的可解釋推薦，具體細節將在2.2節中展示。

2.2 聯合學習模型

為了實現既可以準確推薦新聞，又可以為推薦生成語句解釋，本文提出了一種將兩種任務聯合學習的模型，其整體模型如圖1所示。

圖1 聯合學習模型

經過2.1節處理后得到的用戶評分矩陣作為新增的用戶數據，與數據集中的用戶行為數據與新聞數據共同作為模型輸入。

模型先使用用戶編碼器和新聞編碼器來進行用戶興趣建模和新聞特征建模，兩個編碼器的輸出作為預測評分和解釋生成的輸入；計算后的預測評分與2.1節映射后的用于可解釋的新聞方面特征也作為解釋生成的輸入，最終生成對應的推薦解釋語句。模型將新聞推薦與解釋生成作為兩個任務，聯合學習，利用了兩個任務間共享的用戶和新聞的隱含表示。接下來對模型進行詳細介紹。

2.2.1 編碼器

用戶編碼器的作用是從用戶瀏覽過的新聞中學習到用戶表示，這對于提高新聞推薦的準確度來說至關重要。由于新聞是具有高度時效性的，用戶的興趣也是隨著時間在改變的，對于新聞推薦來說能夠同時學習用戶長期愛好和短期興趣表示的方法取得的效果較好[7]，用戶的表示分為長期和短期的，學習長期用戶表示的方法為通過用戶ID的嵌入，用u表示用戶的id，Wu為用戶id的嵌入，長期用戶表示就為ue=Wu[u]。之后，從用戶最近瀏覽過的新聞中學習用戶的短期表示，應用門控遞歸網絡(GRU)來獲取新聞閱讀順序[13]，將用戶的長期表示作為GRU網絡隱藏層的初始狀態，用戶瀏覽過的新聞按順序表示為ni，k表示用戶瀏覽過的新聞總量，將這些新聞按順序通過新聞編碼器后得到對應的新聞表示ei，由于改進了新聞編碼器，因此得到的新聞表示ei是更為準確的，這能夠幫助用戶編碼器更好學習用戶的短期表示，用戶短期表示的計算公式如下

ri=σ(Wr[hi-1，ei])zi=σ(Wz[hi-1，ei])gi=tanh(Wg[ri⊙hi-1，ei])hi=zi⊙hi+(1-zi)⊙gi

(2)

其中：σ為sigmoid函數，W為GRU網絡的參數，⊙表示同或運算。最終，最后一個GRU網絡的隱藏狀態就是結合了長短期的用戶表示u=hk。

新聞編碼器用來從不同類別的信息(主題類別、副類別、標題、摘要)中學習新聞的統一表示。同一新聞中不同的詞可能具有不同的信息量，所以采用注意力機制學習不同單詞的重要性。由于主題類別和副類別為一個單詞，通過主題類別編碼器、副類別編碼器得到的最終表示分別為ec，esc，其公式為

ec=ReLU(Pc×bc+pc)

(3)

式中：Pc，pc均是全連接層的參數，ReLU是非線性激活函數，同理得到esc。

(4)

(5)

式中：Pt，pt均是訓練參數，qt是注意力向量。最終得到新聞標題的最終表示et

(6)

同理通過摘要編碼器得到新聞的摘要表示ea。

最后采用注意力機制模擬不同類型的新聞信息的信息量，以便于更好學習新聞表示。將新聞的主題類別、副類別、標題和摘要的注意力權重分別表示為αc，αsc，αt，αa，以主題類別的計算公式為例，公式如下

(7)

式中：Oc，oc是訓練參數，qe是注意力向量，使用類似的方法，可以求得副類別、標題和摘要的注意力權重αsc，αt，αa。新聞編碼器所學習的最終新聞表示輸出表示為

e=αcec+αscesc+αtet+αaea

(8)

2.2.2 聯合學習

本文使用多任務聯合學習方法預測評分和根據學習到的表示生成解釋。首先，生成新聞推薦的預測評分時，采用點生產方法來計算新聞點擊概率得分，這種方法被證明不論是時間效率還是性能都很好[13]。將用戶表示為u，候選新聞表示為ex，用戶點擊候選新聞的預測評分s就表示為

s(u，nX)=uTeX

(9)

評分預測任務的損失函數表示如下

(10)

其中，γ表示訓練集，s*為經過2.1節映射后得到的對應新聞評分。

對于解釋生成任務，生成的語句輸入為編碼器層輸出的新聞表示e、用戶表示u、新聞預測評分s以及特征映射后的新聞方面特征。首先使用門控遞歸網絡[13]將e、u、s轉換為單詞序列，為了將其整合到GRU中，通過以下公式計算初始隱藏層狀態h0

(11)

hn=GRU(hn-1，yn)

(12)

式中：yn為在n時刻生成的單詞的詞嵌入。這一隱藏層狀態傳入輸出層生成輸出單詞wn，其公式為

wn=softmax(ωwhn-1+vw)

(13)

其中，ωw∈R|V|×?，vw∈R|V|，|V| 表示詞匯量。

定義損失函數La用于使生成的解釋盡可能地使用映射后的方面特征，比如多使用標題和分類中的單詞以增加解釋語句的可信度。將方面特征向量表示為ψ∈R|V|，ψx為1就表示第x個單詞是包含在方面特征中的，否則其值就為0。損失函數La的公式如下

(14)

最終，聯合學習模型將不同類型的損失函數線性組合，以共同學習兩個任務，最終損失函數L表示為

(15)

式中：λa、λ?為平衡不同損失函數的權重，?為模型的所有參數。

3 實驗

為了驗證改進后的方法是否能夠提高新聞推薦的效果以及能否生成良好的解釋語句，本文設計了一系列對比實驗。首先對實驗設置進行說明，然后探究改進后的模型與其它方法的效果對比，最后驗證了特征映射與聯合學習方法的有效性。

3.1 實驗設置

3.1.1 數據集

為了驗證新聞推薦的效果提升，使用真實世界的新聞數據集是十分重要的。本次實驗中，我們使用MIND數據集[15]，這是微軟公司從微軟新聞網站的匿名行為日志中收集的用于研究新聞推薦的大型數據集。為了提升驗證效率，我們使用了小規模的MIND數據集，數據集的詳細信息見表3和表4。

表3 用戶行為數據集

表4 新聞數據集

其中，用戶行為數據集的每條數據包括用戶行為ID、用戶ID、行為的時間、用戶的瀏覽歷史、用戶對新聞的行為，用戶對新聞的行為指的是用戶在此次用戶行為時間時展示給他的新聞他是否點擊過，點擊過的標記為1否則為0。新聞數據集的每條新聞包括新聞ID、主題分類、副分類、標題、摘要、正文鏈接、標題的實體信息、摘要的實體信息，這些實體信息是標題和摘要中的一些單詞實體的類別、維基百科ID、置信度等等，便于進行詞嵌入等操作。

3.1.2 評價指標與參數設置

在實驗中，本文使用預訓練的Glove嵌入法初始化詞嵌入，參數設置如下：用于標題和摘要的詞嵌入維度設置為300，主題類別和副類別嵌入維度設置為100，CNN網絡過濾器設置為425，窗口大小設置為3，dropout設置為0.8，設置Adam優化模型，學習率設置為0.01，batchsize設置為128，GRU單元設置為400，Attention queries設置為200。

實驗的評價指標分為兩部分：對于評價新聞推薦準確性，本文采用的實驗評價指標是與主流方法相同的AUC(計算ROC曲線下的面積)、MRR(平均倒數秩)和nDCG(歸一化折損累計增益)。算法給用戶推薦一個新聞列表，用戶實際點擊的新聞越靠前，則表明推薦準確度越高，推薦效果越好，上述指標的數值也會越大[16]。

對于評價解釋語句的質量，本文采用BLEU和ROUGE這兩種評價指標，它們被廣泛地應用于自然語言處理領域中，用于評價真實文本和生成文本之間的相似性[17]。BLEU和ROUGE的值越大，說明語句的可解釋性越好。

3.2 與其它模型的對比實驗

3.2.1 預測準確度對比實驗

首先，在推薦準確性上，本文將與其它幾個作為基線的主流常規新聞推薦方法進行對比，以此來驗證改進后的方法能夠提升推薦效果：

LibFM：將矩陣分解法應用于推薦系統中，從瀏覽的新聞標題中提取的TF-IDF特征和主題類別、副類別歸一化計數獲取用戶特征，之后再與新聞特征連接作為推薦總輸入。

DeepFM：結合了因子分解機(FM)和深層神經網絡，與LibFM特性相同。

CNN：利用卷積神經網絡和最大化池相結合，從最顯著的特征中獲取新聞表示。

DKN[6]：結合了知識圖譜中的信息，包含了卷積神經網絡和用戶瀏覽新聞歷史注意力機制的深度學習網絡。

NPA[18]：使用個性化注意力機制，用卷積神經網絡從新聞標題中學習新聞表示，根據用戶點擊歷史學習用戶表示并使用單詞級和新聞級的個性化注意力機制捕捉不同用戶的信息。

NRMS[19]：提出了一種多頭部自我注意力機制的方法從新聞和用戶瀏覽歷史中學習新聞表示和用戶表示。

LSTUR[7]：一種結合了用戶長期和短期表示的新聞推薦方法，利用卷積神經網絡從新聞的標題中學習新聞表示，從用戶信息中學習長期表示，利用GRU網絡從最近瀏覽的新聞中學習短期表示。

雖然以上提到的方法文中所使用的數據集與本文不同，但其所用的新聞數據中的新聞標題、分類和用戶行為數據中的用戶點擊新聞歷史等，MIND數據集都包括。故通過對以上這些論文中提到的方法進行復現，使用本文方法相同的數據集和同樣的評價指標得到的推薦結果展示在表5中。

表5 不同方法的新聞推薦準確性結果

從中可以看出本文改進的方法比其它的基線方法在AUC、MRR項上得分更高，在nDCG數值上雖然不是最大但也相差不多，說明使用了本文的特征映射和聯合學習模型后在生成解釋語句是同時也一定程度上可以提升推薦準確性。

3.2.2 解釋語句質量對比實驗

對解釋語句的質量評價時，使用其它幾個生成解釋語句的方法作為基線：

Lexrank：一種基于隨機圖的方法來計算自然語言處理中文本的相對重要性。

NRT[20]：根據評論和評分的詞級分布生成解釋語句。

NARRE[2]：通過注意力機制獲得重要句子或評論用于解釋。

現有的可解釋推薦方法大多都需要用到用戶對物品的評分及評論，這在新聞數據中是很少見的，本次實驗使用的MIND數據集中也并無此類數據，在實驗時復現對比方法代碼，并使用本文中2.1節的方法生成的近似評分矩陣，以及新聞標題與分類的詞嵌入作為替代用戶評論的輸入，得到了生成的解釋語句的實驗結果見表6。

表6 解釋語句評價結果

為了評估不同粒度下的解釋質量，本文使用了ROUGE評估方法中的ROUGE-1、ROUGE-2、ROUGE-L進行結果評估。從結果中可以看出，首先，本文方法在各項評價指標上均優于基線方法，說明生成的解釋語句質量在這些評價指標上比基線方法要高。NRT方法學習深度用戶項交互，并對解釋提供顯式約束，以提高解釋質量，它在基線中結果最好，本文方法建立在其基礎上，同時結果要更好，說明特征映射與聯合學習對推薦系統中生成高質量解釋語句是有幫助的。接下來通過一些例子來說明生成的解釋語句的不同。

從表7中可以看出，NRT方法生成的解釋則沒有包含足夠的新聞特征，NARRE方法則直接使用了新聞標題作為解釋語句，當然這可能也與MIND數據集沒有用戶評論數據有關。本文方法則由于引入了新聞方面特征，強調了新聞的標題與分類，生成的解釋語句盡可能地包含了這些內容，更容易吸引用戶的關注。

表7 解釋語句樣例

3.3 有效性實驗

為了驗證本文使用的特征映射與聯合學習方法的有效性，采用消融實驗進行對比實驗，分別從推薦準確度與解釋生成兩方面進行驗證。

首先，從推薦準確度的方面驗證特征映射方法的有效性，在分別不使用用戶評分矩陣與映射后的新聞方面特征的情況下進行對比實驗，實驗結果如圖2所示。

圖2 特征映射推薦準確度對比實驗

從實驗結果中可以看出，共同使用用戶評分矩陣與新聞方面特征的情況下推薦結果的評價指標得到了最高的評分。只使用新聞方面特征又比只使用用戶評分的結果更好一些，說明在推薦準確性上，新聞方面特征比生成的用戶評分矩陣更有效。雖然提升不大，但同時使用兩種特征映射可以達到更好的效果，這也驗證了特征映射方法在推薦預測上的有效性。

采用消融實驗的方式驗證特征映射方法對提高解釋語句質量的有效性。當不使用特征映射方法時，由于沒有形成用戶評分矩陣與新聞的可解釋方面特征時，只能使用基于內容特征的方式生成文本語句，將其與本文方法進行解釋語句質量對比實驗，結果如圖3所示。

圖3 特征映射解釋生成對比實驗

接著，又做了不使用聯合學習方法的情況下新聞推薦與解釋生成任務的對比實驗，結果如圖4和圖5所示。

圖4 聯合學習推薦準確度對比實驗

圖5 聯合學習解釋生成對比實驗

從圖4中可以看出，如果在推薦預測時不使用聯合學習方法，在AUC和MRR評價指標上有所下降，驗證了本文使用的聯合學習方法對于提升推薦準確度的有效性。從圖5中可以看出使用聯合學習方法比只生成解釋的情況下生成的解釋語句在各個評價指標上都得分更高，驗證了本文使用的聯合學習方法對于提升解釋語句質量的有效性。

綜上所述，在MIND數據集上，使用基于特征映射和聯合學習的方法同時進行推薦預測與解釋生成任務可以同時對兩個任務進行提升，相比于基線方法，本文提出的該方法在推薦準確度的AUC等評價指標、解釋語句的BLUE等評價指標上均達到了更好的效果。

4 結束語

本文提出了一種基于特征映射和聯合學習的可解釋新聞推薦方法。特征映射方法，將不可解釋的一般特征映射到可解釋的方面特征，消除了對元數據的需求；聯合學習模型平衡準確預測和生成解釋這兩個任務，在用戶評分與評論數據較少的新聞推薦領域實現了可用的可解釋推薦功能，在推薦預測與解釋生成兩個任務上均達到了較為令人滿意的結果。在真實數據集上的實驗結果表明，相比于其它基線方法，該方法在推薦準確度和解釋語句質量兩方面都有所提升。