融合知識圖譜特征學習的微博推薦的研究?

2022-03-18 06:20:14夏振宇

計算機與數字工程 2022年12期

夏振宇季旺

（江蘇科技大學計算機學院鎮江 212003）

1 引言

社交網絡的的蓬勃發展在最近幾年尤為明顯，作為互聯網信息媒體一類重要服務，如YouTube，Twitter還有新浪微博等，它們需要響應海量用戶的服務請求，還要實時響應用戶的個性化服務，雖然基于協同過濾的推薦系統在一定程度上解決了推薦系統落地的問題，但是遺留的稀疏性和冷啟動問題至今得不到很好的解決［1］。知識圖譜由此應運而生，解決了大數據下推薦系統的復雜問題，帶來了一定的技術革新。

知識圖譜就是有基本的單元三元組構成的（h，r，t），意思及時實體h通過關系指向r指向實體t，其中每個實體或概念用一個全局唯一的ID 來標識，每個屬性一鍵值對刻畫了實體的內在屬性，而關系用來連接兩個實體刻畫它們之間的關聯［2］。知識圖譜特征學習是比較常見與推薦系統的結合方式，知識圖譜特征學習為知識圖譜中每個實體和關系學習到一個低維向量，同時保持途圖中原有的結構或語義信息，DKN［3］作為一種知識圖譜特征學習在推薦系統中得到了很好的應用，通過歷史訪問以及標題單詞和知識圖譜之間的關聯預測用戶是否點擊下一個新聞，來給用戶更精確地推薦可能感興趣的新聞。DKN 模型的核心是基于CNN 句子特征提取，通過知識圖譜的知識提取對標題每個單詞em?bedding，然后得到標題中每個單詞的embedding，最后得到每個單詞的上下文embedding，通過這3個通道信息實現對新聞模型的提取，通過KCNN［4］，把實體的embedding 和實體的上下文embedding 映射到一個空間里，映射的方式可以選擇線性方式將其類似于RGB 圖片卷積方式使用兩個filter進行卷積通過最大池化將其結果整合為新聞的特征表示向量，根據不同話題興趣模擬用戶歷史點擊，最后用softmax函數輸出正則化影響權重［5］，由于是針對文本失效性，DKN 作為一種基于內容的模型適合做一些博文點擊預測，融合了知識圖譜和深度學習，從語義層面和知識兩個層面對新聞之間的隱含關系，對于候選文章使用attention 機制［6］動態學習歷史點擊的表示展現出了知識圖譜在推薦系統上顯著的優越性。

本文將DKN 模型應用推薦到用戶微博博文上，并對DKN 的embedding 進行優化，利用優化過的DKN 模型實現微博上的個性化推薦，根據實驗結果表面，優化后的DKN 模型可以很好地實現微博個性化推薦，相比傳統的協同過濾的模型有很好的預測表現。

2 相關工作

2.1 知識圖譜

隨著信息科學的發展，智能信息處理愈發重要，互聯網平臺上的數據指數級增長，伴隨著信息爆炸，以谷歌為代表Google 的知識圖譜［7］可以理解超過5 億個實體以及35 億個屬性和關系。國內百度等都在自己龐大的數據基礎之上構建各自的知識圖譜，如百度知心以及阿里基于商品的知識圖譜，發展知識圖譜是大勢所趨。知識圖譜［8］旨在描述真實世界中存在的各種實體或概念其中，每個實體或概念用一個全局唯一的ID 來標識，每個屬性一鍵值對刻畫了實體的內在屬性，而關系用來連接兩個實體刻畫它們之間的關聯。知識圖譜通常分為通用知識圖譜和專業知識圖譜［9］，通用知識圖譜主要應用于智能搜索領域如中文知識圖譜，專業知識圖譜描述的目標是特定行業如金融知識圖譜，汽車知識圖譜等與通用知識圖譜相比較其描述范圍有限。在本文工作中，知識圖譜用一種由三元組以及三元組之間相互的鏈接形成的一個網狀知識庫來表示。主要用的是ownthink知識圖譜。

2.2 基于知識圖譜的推薦算法

相關研究者者將知識圖譜應用于推薦領域并取得了較好的效果。Hong 較早地提出將知識圖譜引人到推薦系統中［11］。Oramas 等通過DBpedia 豐富歷史數據集的語義信息，從而提升推薦效果［12］。Gu 更進一步優化旅游知識圖譜隱含的語義反饋信息，優化了隱式語義反饋的路徑算法［13］，Tang 通過融合商品知識圖譜和用戶評論通過基于路徑的特征處理［14］對數據集進行挖掘，以捕獲項目之間的復雜關系，也得到了很好的效果。

2.3 基于知識圖譜的Embedding

知識圖譜的嵌入（KGE）［15］旨在將實體和關系進行Embedding 表示，類似于Word2Vec，將字或詞表成Embedding 信息，然后根據是系統和關系的Embedding 信息進行預測，常見的KGE 模型分為基于翻譯的模型和基于路徑的模型［16］，傳統的模型有TransE，TransH，TransD 模型，TransE 認為屬于翻譯模型，將三元組實例（h，r，t）中關系rleation 看作是實體head 到實體tail 翻譯，通過調整h，r，t使（h+r）盡可能與t相等，TransE［17］采用最大間隔法，最小化定義一個距離函數d（h+r，t），用來衡量h+r和t之間的距離，目標函數L下：

其中d（x，y）表示向量x與y的距離，可以是曼哈頓距離也可以是歐氏距離，γ表示邊界超參數，[x]+表示當x<0 時取0 的值。其中S是知識庫中的是你換及訓練集，S'是負采樣三元組通過替換h或t所得而隨機生成，這樣梯度更新只需要更新計算距離d（h+r，t）和d（h'+r，t'）。

不過transE 算法模型在處理自反關系以及多對一，一對多，多對多關系會使得一些不同的實體具有相同或者相似的向量，原因在于出現多個關系中的同一個實體表示是相同的，Wang 提出的TransH模型就解決了這個問題，對每一個關系定義一個超平面W和一個關系向量d，h'，t'是h，t在w上的投影于是我們原先定義在transE中的d（h+r，t）為對于平面W我們可以用法向量表示，我們假設w為平面W的法向量并加約束條，所以我們知道h在w上投影為

通過相似的可以知道t'=t-tw=t-wTtw所以可以合并得到函數：

最終得到目標函數L：

除此之外還有基于語義的匹配模型［18］使用類似于基于相似度的評分函數評估三元組概率，將實體和關系映射到隱語義控件進行相似度度量，構造一個二分類模型，將h，r，t輸入到網絡中，這樣可以通過概率來確定知識圖譜是否存在。

3 基于知識圖譜特征學習的微博推薦模型

3.1 DKN框架

推薦系統的初衷是解決互聯網信息過載的問題，給用戶推薦其感興趣的問題，當然微博個性化推薦仍然存在幾個待解決的問題。一個是時效性，眾所周知，微博的更新速度以及時效性堪比信息直播，第二個微博博文通常是140 字的限制所以語言都是相對濃縮的信息實體，第三就是微博用戶有很明顯的興趣和傾向，一個用戶閱讀了一個微博會屬于某個微博話題或主題，所以利用用戶歷史微博去預測候選的微博是微博推薦系統的關鍵，Deep Knowledge-aware Network（DKN）模型加入文章之間的知識層面就解決了這個問題，可以更加精確推薦微博用戶可能感興趣的博文。如圖1 可見，DKN有兩個輸入網絡，一個是候選的微博博文集合，用戶歷史點擊的話題序列。輸入數據通過KCNN 來圖區特征，之上一個attention 層，計算候選的微博與用戶歷史訪問之間的attention 權重，在頂層拼接兩部分向量然后依次來計算用戶點擊該微博的概率。

圖1 DKN大致框架結構

3.2 KCNN模型

知識抽取（Knowledge Extraction，KE）［19］是從結構化（例如關系數據庫、XML）和非結構化（例如文本、文檔、圖像）源中創建知識。產生的知識需要采用機器可讀和機器可解釋的格式，并且必須以便于推理的方式表示知識，知識抽取是知識圖譜和推薦系統結合的重要流程，我們以某用戶的一個微博為例子“#足協表態將穩妥推進歸化球員工作#上觀：歸化球員因實力更強，短期肯定會占據本土球員的位置，長期還會對中國足球青訓產生致命影響。一旦歸化球員泛濫，中國足球的根基也會動搖，直接全球購買歸化球員就好了，中國足球還辛辛苦苦搞青訓做啥？”新政一出，已有球迷發帖：“如果中國國家隊召入全部歸化球員，全部首發，那我們唯一效力歐洲的留洋球員@武磊7是不是都沒位置了？”#國際足聯通過歸化球員新政#”，去除一些不規則的表情和符號通過Entity-Linking 技術消除歧義，根據已有的知識提取流程將博文中涉及的實體鏈接在一個step之內所形成的子圖，然后利用基于距離的翻譯模型TransE，或者TransR 等得到子圖中每個實體的embedding，最后得到話題中每個單詞對應的實體embedding，過程如圖2所示。

圖2 知識提取流程

由于知識圖譜通過特征學習的方法得到向量保存了大部分結構信息，不過還是會存在信息丟失，于是DKN 模型通過每個實體相連的實體em?bedding 平均值來進一步刻畫每個實體；我們假設實體e在知識圖譜的鄰居集合可得：

圖3 KCNN模型架構

其中函數g表示線性變換或非線性變換，這樣我們就可以得到微博博文的輸入W：

使用兩個不同的filter［20］方式卷積得到類似關于h激活的子矩陣，通過最大池化，最后整合得到輸出的特征表示向量如下：

3.3 改進的用戶興趣預測模型

傳統的DKN 模型通過深度學習的注意力機制，由于不同的新聞話題興趣可能是不同的注意力機制通過模擬用戶點擊微博對候選話題微博的不同影響程度，采用如下公式來計算：

候選微博tj，用戶i的歷史點擊新聞兩者進行連接，在使用DNN 函數H進行計算最后采用函數輸出正則化影響權重，我們利用TransE的變種方法TransM 在知識嵌入時還可以表示實體之間關系變得權重大小，并且傳統的Attention 機制，給定的embedding，直接給定item embeding 可以用來做點積或者通過權重矩陣，優化后的Attention機制如圖4所示，將輸入element wise［21］差值向量合并起來作為輸入，然后傳給全連接層，最后得出權重，嵌入和池化村按組操作的方式，將元素稀疏特征映射到定長表示向量，然后將所有向量連接在一起獲得整體表示向量，這樣我們會發現損失的信息更少，深度興趣網絡（DIN）獲得用戶的定長表示向量，通過將所有嵌入向量集中到用戶行為特征組上來產生興趣，如式（11）。此表示向量保持不論候選微博是什么，對于給定用戶而言都是相同的。這樣有限維度的用戶表示向量，表達用戶的不同興趣將成為瓶頸。為了使其足夠強大，一種簡單的方法就是擴大嵌入向量，不幸的是會增加大量學習參數。在有限的情況下會導致過度擬合訓練數據并增加計算和存儲的負擔。與傳統模型相比，DIN［22］引入了一種新穎設計的局部激活單元，并保持其他結構不變。特別，活單元應用于用戶行為功能作為加權總和池執行以自適應地方式計算用戶行為功能，放棄輸出使用softmax進行歸一化，對數似然函數定義為

圖4 優化后的興趣注意力機制

其中S是大小為N的訓練集，其中x是網絡y?{0,1}為標簽，p（x）是網絡輸出在softmax 層之后，代表預測的概率單擊樣本x。由于特征對應的embedding矩陣是巨大的，模型參數過多，直接上傳統的L2 正則也不現實，于是提出新的正則化方式，其中K 表示特征空間維度，B 表示batch-size，從而決定是否對特征id 對應的embedding 向量加上正則化。

4 實驗與結果分析

1）實驗環境和實驗數據集

本文實驗環境如下：

操作系統：Windows 10 64位操作系統。

CPU：Intel Core i5-8265U 1.80GHz。

內存容量：8GB。

對比兩組人員糖化血紅蛋白檢測（HbAlc）、空腹血糖水平（FPG）以及口服葡萄糖50 g篩選測試糖耐受量水平（GCT）；同時對比不同檢測方式在妊娠期糖尿病中的診斷情況[3]。

IDE：Pycharm及Python3.7。

本文所使用的數據集是來自新浪微博API 公開數據集和ownthink公開的知識圖譜。

2）評價指標

對構建的模型進行評估非常關鍵，AUC常常用的點擊率模型上面，代表模型預估樣本之間的排序關系，正負樣本之間預測gap 越大，auc 越大。但是AUC計算如果在線上出現新樣本，線下沒有見過會造成AUC 不足，阿里曾提出改進AUC 評價指標，提出新的AUC 指標，新的AUC 計算公式如下：

3）實驗參數設置

表1 實驗參數設置

4）結果分析

本文采用DKN 模型+改進后的用戶興趣預測注意力機制。最后對本文構建的評價模型進行實驗，通過與其他融合特征學習的推薦模型對比，得到以下試驗結果。

從實驗結果可以看出，本文采用的DKN 模型明顯優于傳統的基于協同過濾的與推薦系統模型，并且在改進注意力機制下的整體算法綜合指標相較于傳統的DKN 模型有著大幅度提升?；贒KN模型+TransM 訓練的改進方法對總體預測效果最好，分類的準確性也相對更高。無論是哪種知識圖譜embedding 方式，在使用改進的用戶興趣預測模型都有著良好的效果，可見DKN+DIN+TransM是比較好的推薦模型。

表2 不同模型的測試結果對比

5 結語

本文針對傳統DKN 模型，并在傳統DKN 模型的attention 機制進行改良，對算法模型的評價指標進行了優化和更新，可以更好地體現推薦算法的綜合性能，本文主要分析的DKN 模型主要用于點擊率類的推薦模型，在深度學習作用下，可以通過有效的概率來推斷出用戶點擊的概率主要應用于新聞，微博，廣告頭條等個性化推薦，解決了信息爆炸下微博如何準確進行個性化推薦的問題，針對用戶興趣實現對用戶的興趣的建模做出相應的推薦，進一步提高DKN 在推薦系統下的使用，使知識圖譜與深度學習相結合的推薦系統越來越收到歡迎和普及。