楊敬慧
新華通訊社 北京 100803
隨著互聯網的發展,人們的新聞閱讀習慣已逐漸從紙質媒體轉變為在線新聞網站。而網絡新聞平臺一個較為顯著缺點是新聞的數量之大讓用戶難以承受。為了減輕信息過載影響,幫助用戶針對自己的閱讀興趣,提出個性化的建議則顯得尤為重要。
考慮到在新聞推薦的特點和受到知識圖譜廣泛成功應用的啟發,本文提出了一種新的針對新聞內容推薦的框架,即深層知識knowledge-aware網絡(DKN)。DKN是一個基于內容的模型對于點擊率(CTR)的預測,這需要一個候選新聞和一個用戶的點擊歷史記錄作為輸入和輸出用戶點擊新聞的概率。DKN 模型主要分成三部分:知識抽取(Knowledge Distillation)、知識感知卷積神經網絡(KCNN:Knowledge-aware CNN)、用于抽取用戶興趣的注意力網絡(Attention Network:Attention-based User Interest Extraction)。下面對這三部分進行詳細的介紹。
知識抽取模塊的輸入是一些用戶點擊的新聞標題。首先將標題拆成一組詞,然后將標題中的詞與知識庫的實體進行鏈接,那么再接著找出距離鏈接實體一跳之內的所有鄰接實體,并將這些鄰接實體稱之為上下文實體。這樣,根據新聞標題可以得到三部分的信息,分別是詞,鏈接實體,以及上下文實體。由此分別得到了詞、鏈接實體、上下文實體的向量表示[1]。
KCNN是傳統CNN的擴展,它允許靈活地將知識圖譜中的符號知識整合到句子表示學習中,利用KCNN,我們得到了每一條新聞的知識感知表示向量。為了獲得用戶對當前候選新聞的動態表示,我們使用關注模塊將候選新聞自動匹配到每一條點擊的新聞,并用不同的權重聚合用戶的歷史。最后利用深度神經網絡(DNN)對用戶的嵌入和候選新聞的嵌入進行預測[2]。
由于用戶對新聞主題的興趣可能多種多樣,并且在考慮用戶i是否會點擊候選新聞 時,用戶i的歷史點擊新聞可能會對候選新聞 產生不同的影響。為了表征用戶的不同興趣,文中使用注意力網絡來建模用戶點擊的新聞對候選新聞的不同影響,輸入:給定用戶i的點擊歷史新聞標題分別為{t1i,t2i,…,tNi};該用戶的點擊新聞則可以假設為e(t1i),e(t2i),…,e(tNi)。step1:將輸入的嵌入進行串聯,然后將使用深度神經網絡 H 計算歸一化的影響權重:
step2:得到影響權重s之后,將用戶i點擊的歷史新聞標題嵌入乘上影響權重,即可得到當前用戶的嵌入e(i)。
輸出:在給定用戶i嵌入e(i)和候選新聞 嵌入e(tj),在經過深度神經網絡可以得到預測用戶i點擊新聞的概率[3]。
我們的數據集來自進博會專題新聞庫的數據。每條數據主要包含時間戳、用戶id、新聞url、新聞標題和點擊計數(0表示未點擊,1表示點擊)。我們收集了大量隨機抽樣數據集作為測試集。此外,我們在進博會專題庫知識圖譜中搜索數據集中出現的所有實體以及它們一跳內的實體,并提取其中所有置信度大于0.8的邊。
基本的統計和分布給出了新聞數據集的知識圖譜特點如下:
第一,我們將一條新聞的生命周期定義為期限從出版日期至最后一次收到日期點擊。我們觀察到90%的新聞都是在兩分鐘內被點擊的,這證明了網絡新聞的時間敏感性極高并被頻率更高的新基因所取代。
第二,對于用戶而言,被點擊的新聞的分布數量規律為:80%的用戶點擊的新聞不超過5條。充分說明了新聞推薦中的數據稀疏性場景。
第三,數量的分布分別是新聞標題中的詞(沒有終止詞)和實體。每個標題的平均字數是8,實體是3.9,表明在新聞中幾乎平均每兩個詞中都會出現一個實體。高密度出現的實體也經驗性證明了KCNN的設計。
第四,發生時間分布一個實體在新聞數據集中的分布和編號提取出的知識圖中某個實體的上下文實體。充分說明了網絡新聞中實體的出現模式是稀疏的,且存在較長時間尾部(80%的實體出現次數不超過10次),但實體在知識圖中一般具有豐富的上下文:每個實體的上下文實體的平均數量為44。因此,上下文實體可以極大地豐富新聞推薦中單個實體的表示形式[4]。
本文提出了一種利用知識圖譜表示的深度知識網絡DKN。DKN在新聞推薦業務場景中面臨三大挑戰:
第一,與基于ID的col-laborative過濾方法不同,DKN是一種基于內容的深度點擊率預測模型,適合于高時間敏感的新聞。
第二,為了充分利用新聞內容中的知識實體和常識,設計了DKN中的KCNN模塊,從新聞的語義層次和知識層次表示兩個方面進行聯合學習。多通道、多個詞和實體的對齊使KCNN能夠結合來自異構源的信息,并保持每個單詞的不同嵌入的對應關系。
第三,為了模擬用戶不同歷史興趣對當前候選新聞的不同影響,DKN使用注意模塊動態計算用戶的聚合歷史表現。
我們在專題庫數據集上進行了廣泛的實驗。結果表明,DKN與強基線相比具有顯著的優越性,以及知識實體嵌入和注意模塊的使用效果。筆者認為,DKN 的特點是融合了知識圖譜與深度學習,從語義層面和知識兩個層面對新聞進行表示,而且實體和單詞的對齊機制融合了異構的信息源,能更好地捕捉新聞之間的隱含關系。利用知識提升深度神經網絡的效果將可能是一個值得研究的方向。