999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合用戶顯隱式閱讀偏好的論文推薦模型

2022-07-07 02:51:16劉柏嵩黃偉明
計算機應用與軟件 2022年5期
關鍵詞:特征文本用戶

唐 浩 劉柏嵩 黃偉明

(寧波大學信息科學與工程學院 浙江 寧波 315211)

0 引 言

對科研工作者而言,獲取高相關性和高質量論文需要耗費大量時間和精力,如果存在一種可以智能協助研究人員(下文簡稱“用戶”)高效地尋找論文的過濾工具必將受到歡迎。目前用戶查找論文一般通過特定關鍵詞直接搜索,然而每次查找后必須再經若干次的過濾才能得到較為滿意的論文列表;另一種有效的方法是從參考書目或者引文數據中篩選,雖然在某種程度上提高了查詢結果的相關度,但是固有問題是優質的新論文由于引文的缺失而很難被搜索到。論文推薦系統簡化了用戶查找論文的流程,促成從人找論文到論文找人的轉變[1],極大地提高了論文獲取的效率。目前的論文推薦方法[2]一般分為基于協同過濾(CF)、基于內容過濾(CBF)和基于圖(GB)的方法。

CF方法的主要觀點是行為相似的用戶對項目有相同的偏好,一般通過計算用戶向量和論文向量的匹配獲得分數,由于論文推薦固有的數據稀疏等問題通常表現不佳。近年來由于深度學習強大的特征學習能力,一定程度改善了CF方法的推薦性能,例如,Ebesu等[3]提出一種協同記憶網絡CMN,以非線性的方式統一了全局因子模型和基于局部鄰域結構的兩類CF模型,取得了較好的論文推薦效果。然而,CF僅基于用戶和論文的交互數據,丟失大部分顯式和隱式的關聯信息。

CBF技術已經較為成熟,其原理是推薦與用戶興趣相似的文章(論文或論文),關鍵步驟是匹配用戶和文章的相關性[4]。例如,ER[1]融合內容特征和非內容的偏置,在基于內容的框架中推薦多類型的學術資源。微軟學術推薦系統[5]是一種基于內容和基于圖的混合系統,首先用基于內容的方法從海量文獻中召回大部分相似論文,接著融合學術圖譜的引用關系等推送論文,提升整個系統的推薦覆蓋率和用戶滿意度。在論文推薦領域的CBF雖然簡單易行,但是僅用文本的語義相似度去衡量用戶興趣使得質量難以保證[2],此外,用戶的閱讀行為具有很強的目的性,CBF方法導致用戶的閱讀視野局限于個人掌握的背景知識范圍內[6]。

GB方法不考慮用戶的行為和論文的內容,而是將用戶和論文抽象化為圖上的節點,在論文推薦領域常用的拓撲圖類別有引文網絡、社交網絡和其他異構信息網絡等。例如,Cai等[7]將推薦的若干相關要素表示在同一個圖上,使用圖表示學習的方法計算推薦列表,例如將查詢人員、查詢文本、論文、作者、實體之間的關系構建成異構網絡,或使用作者、論文和發表場地組成的書目網絡[8]。然而,GB方法顯然浪費了用戶個性化的特征和內容特征,而基于引文網絡的推薦因為新論文的被引數較少面臨冷啟動問題。

在表示學習技術幫助下,輔助信息(side information)可以有效緩解上述的論文推薦問題,知識圖譜正因為其包含的豐富實體和關系,被認為是一種十分優良的輔助信息。例如Zhao等[9]構建概念圖譜跨越用戶與項目的知識鴻溝,從知識圖譜上抽取符合用戶認知模式的概念路徑幫助研究人員獲取目標知識;Frederick等[10]通過映射專業術語到外部知識圖譜DPpedia,用于擴展查詢手稿(摘要)的特征生成排序列表。然而現存的方法卻未能考慮知識圖譜上用戶實體和論文實體的高階關聯關系。

綜合以上問題,本文重點關注以下兩個方面:(1)在用戶歷史交互稀疏的前提下,如何推薦給用戶相關的論文;(2)在已知有限的領域知識,研究人員如何全面獲取自身領域相關的論文。在分析現有研究成果的基礎上,本文提出一種混合的推薦模型(GNPR)。首先,為了取得用戶更完整的顯式閱讀偏好,DKN[6]利用多通道CNN獲取文本特征的啟發,模型首先使用Word2vec和多通道CNN處理文本。由于CNN的表示方法重點關注文本的局部特征,句子的全局特征被忽略無法得到全面的用戶顯式閱讀偏好,提出一種雙層自注意力特征抽取模式補充用戶顯式的閱讀偏好。其次,在外部知識庫的幫助下,從論文文本內容中抽取概念,與用戶和論文、論文元數據等構建成知識圖譜。最后,為了有效挖掘用戶的隱式閱讀偏好,鑒于圖神經網絡可以有效獲取高階關系[11-14],文本使用改進的圖卷積網絡學習用戶和論文之間的關聯。本文工作的貢獻如下。

(1) 提出一種新的論文推薦模型,混合了基于圖的推薦和基于內容的推薦。其中,用戶顯式閱讀偏好由文本局部特征和文本的全局特征組成,提出雙層自注意力機制來建模全局性特征。

(2) 用論文的非結構化數據、半結構化元數據和LOD數據構建知識圖譜。為解決在建模高階關系的圖卷積網絡不考慮關系類型的問題,提出以關系類型為權值的鄰域聚合方式,以獲得用戶隱式閱讀偏好的部分。

(3) 經過在真實數據集CiteULike-a和學術推薦應用日志數據的驗證,與傳統推薦模型和融合知識圖譜的模型相比,本文模型在準確率和點擊概率方面有不錯的提升。

1 問題描述和任務定義

1.1 問題描述

假設論文推薦系統中包括N位用戶U={u1,u2,…,uN}和M篇論文P={p1,p2,…,pM},根據用戶的歷史交互,對于用戶u∈U與論文p∈P的交互情況可表示為:

(1)

用戶的交互行為可以是隱式反饋或者顯式評分,本文選擇更貼近實際場景的隱式反饋。根據式(1)的表示可以得到用戶-論文的交互矩陣Y∈Rm×n,yij∈Y表示第i(i=1,2,…,m)位用戶與第j(i=1,2,…,n)篇論文的交互結果。關于本文涉及的圖數據,首先將Y轉換為用戶-論文二部圖G1,圖上的邊代表用戶與項目的交互情況,其次在G1的基礎上加入更多節點(例如概念、關鍵詞和實例等)以及它們對應的關系,形成知識圖譜G=,其中:V表示實體;E表示關系集合。本文的文本數據C={T,A,K},其中:T為論文標題;A是摘要;K是關鍵詞。

1.2 任務定義

表1 本文使用的符號

2 推薦方法

2.1 GNPR框架

GNPR模型框架結構如圖1和圖2所示。用戶的閱讀偏好向量表示包括兩個部分的計算:顯式閱讀偏好和隱式閱讀偏好。用戶顯式閱讀偏好又由文本的局部特征和文本的全局特征組成,如圖1所示。隱式閱讀偏好包含在GCN對知識圖譜處理后的用戶節點向量中,因此將用戶和論文及論文的相關元數據抽象為概念知識圖譜上的節點,如圖2所示。最后,推薦計算是使用多層感知機(Multi-Layer Perceptron,MLP)學習匹配函數并輸出相關度得分。

圖1 GNPR框架之用戶顯式閱讀偏好

圖2 GNPR框架之用戶隱式閱讀偏好

2.2 用戶顯式閱讀偏好

從文本局部特征和文本全局特征兩個方面綜合用戶的顯式閱讀偏好。基于論文標題(或關鍵詞)和摘要的語義,文本局部特征旨在找出句子中最重要的分詞特征,文本全局特征則關注于整個句子的語義特征。

圖3 DCNN模型的結構

(2)

則從用戶歷史的文本局部特征中得到的顯式閱讀偏好表示如下:

(3)

(2) 全局特征抽取器。針對文本全局特征,GNPR模型采用自注意力機制(self-attention)處理由標題、關鍵詞和摘要組成的短文本。自注意力機制有效獲取句子的長距離依賴,在考慮全局信息情況下判定詞語的重要程度,文本使用度量函數為句子中的每個分詞fself(wi)計算得分,用于表示分詞在句子中的重要性,此時不需要任何額外的指引信息(guider)。以計算第t個標題的表示為例,第i個分詞的權重為:

(4)

則考慮全局依賴的句子表示為:

(5)

為了在用戶點擊歷史集合中找到用戶對論文t的點擊意圖受其他論文的影響,模型將全局特征抽取器設計為雙層的自注意力層形式,若用戶u的點擊歷史數為h,則從用戶歷史的文本全局特征中得到的顯式閱讀偏好表示如下:

(6)

2.3 用戶隱式閱讀偏好

為了建模用戶的隱式閱讀偏好,本節構造由用戶、論文、論文元數據和相關概念組成的知識圖譜。針對知識圖譜的表示,本文使用改進的圖卷積網絡學習融合高階信息的用戶節點表示隱含著用戶潛在的興趣。

(1) 概念知識圖譜構建。開放互聯數據(Linked Open Data,LOD)儲存豐富的實體和關系構成的關聯知識。本文從論文中獲取的概念和其他實體構建成面向推薦的知識圖譜G,目的是關聯已知概念和未知的相關概念,并通過高階關聯關系融入到用戶和論文表示中,以更好地建模用戶隱式的閱讀偏好,從而緩解用戶-項交互數據稀疏問題。

針對標題、摘要、關鍵詞等數據,本文首先提取TF-IDF權重較高的詞,然后鏈接LOD中準確的概念以及若干跳鄰域,例如與鏈接實體處于上下位關系的概念、概念的實例等等。關于用戶與論文之間的關系,若存在交互,在用戶和論文實體之間設置“交互”關系邊。以上的概念部分子圖融合用戶-論文二部圖G1組成最終的知識圖譜G,其中包含實體類型:用戶、論文、概念和論文的其他元數據等;關系類型:用戶與論文的交互關系、論文的引用關系、概念與論文的從屬關系、實例與概念的isa關系、主題與論文從屬關系、概念之間的上下位關系。因此,通過知識圖譜的組織形式,論文的標題、摘要、關鍵詞中蘊含的語義可通過該概念之間的上下位關聯顯示出來,而論文其他元數據(如參考文獻)則通過論文之間的引用關系保持關聯。

(2) 基于改進GCN的知識圖譜表示。針對知識圖譜的表示學習,本文使用輸出結果包含了實體間高階關系的圖卷積網絡(GCN)。首先,GCN通過傳播嵌入的方法獲得用戶和論文的分布式表示,其中包含用戶潛在的閱讀偏好,即上文提及的用戶隱式興趣。然而,GCN一般處理的方式是將知識圖譜當成無向圖,忽略對關系類型的區分,因此本文預先考慮用戶對所有關系的隱含偏好分布[11,13]。以下是計算單個GCN層的某節點v嵌入的一般形式:

hNv=faggN({ev,eNv})

(7)

hv=σ(W2·hNv+b1)

(8)

式中:faggN:Rd×Rd→Rd表示鄰域聚合函數用于聚合來自鄰域的信息,本文使用文獻[11]提到的函數Concataggregator;ev和eNv分別是實體v和v的鄰域的向量表示。

本文模型在鄰域的計算方式中融入了關系類型,即每一個鄰域實體對鄰域表示的貢獻度取決于用戶和關系的匹配值,例如,用戶更喜歡通過引用關系查找論文,則圖上的嵌入傳播方向則受到相應的影響。假設鄰域為Nv={(r,ent)|(v,r,ent)∈G,(ent,r,v)∈G},本節定義一個映射fur:RD×RD→R(例如內積)計算用戶u和關系r的匹配值。因此鄰域的向量表示為:

(9)

經過L1層鄰域的聚合后,論文節點的向量表示為ep,用戶節點的向量表示,即用戶的隱式閱讀偏好表示為uimt。論文最終的表示向量為p=ep,用戶的最終的向量表示為u=W3[uet;uimt],W3∈RD×2D。

2.4 用戶-論文交互建模

現存的深度學習對推薦模型的側重點分為兩方面:側重用戶與項目的表示學習,側重用戶與項目的交互建模。與先前的研究不同,通過上文的介紹可知模型GNPR已經對用戶和論文進行了學習表示,接下來利用訓練好的用戶向量和論文向量進行推薦預測。在交互建模階段,本文基于用戶-論文交互對,拼接訓練好的用戶向量與用戶交互歷史的論文向量,以作為交互建模層的輸入x1,在L2次非線性變換后得到預測分數。由以上的計算可知,用戶最終表示為u,候選論文向量表示p,將最終用戶與論文向量輸入到交互建模層MLP中進行計算:

(10)

式中:Wi、bi和σ分別表示第i層感知器的權重矩陣、偏置向量和激活函數。

為了有效地訓練GNPR模型,從隱式反饋中為特定用戶采樣未交互的論文作為負樣本,數量和正樣本相同。例如,一個訓練樣本可以表示為,其中x是預測是否單擊的候選論文。對于每個正樣本,y=1,否則y=0。文本使用交叉熵損失(cross-entropy)作為損失函數:

λ||W||2

(11)

式中:△+是正樣本集合;△-是負樣本集;λ||W||2是L2正則項。

3 實驗設計與分析

本節給出實驗設計細節和相應的結果,為了證明本文模型的有效性,本次實驗用它與基準模型進行比較。實驗將從下面兩個研究問題(Research Question,RQ)來分析實驗。

RQ1:在用戶-論文的交互記錄十分稀疏的前提下,如何有效推薦論文?即與基準模型比較,本文模型在稀疏數據集的實驗效果是否超過state-of-the-art的性能?

RQ2:在已知有限的領域知識,研究人員如何獲取更多樣的論文?GNPR模型的組成部分對模型的影響是什么,特別是知識圖譜的融入對實驗結果是否有提升?

3.1 實驗設計

(1) 數據集和預處理。論文推薦數據集使用CiteULike-a和學術推薦應用的日志(文中稱為APPData數據集)。CiteULike是一個在線論文存儲與分享平臺,允許用戶創建自己感興趣的論文集合,選擇該平臺數據的理由在于用戶主觀創建的論文集很大程度體現用戶真實的閱讀偏好,而且提供了論文的標題和摘要等元數據。CiteULike-a是文獻[17]從該平臺收集并預處理后的隱式反饋數據集;而APPData是部署在學術機構的推薦應用,實驗中的數據集是用戶與論文交互后產生的點擊日志。

數據集預處理:針對知識圖譜構建,首先依次對文本內容進行清洗和概念抽取,最終挑選權重較高的名詞性術語;依次將術語鏈接到外部知識庫Xlore得到半結構數據,接著對其清洗和預處理得到三元組,統計如表2所示。最后,按照7 ∶2 ∶1比例將數據集劃分成訓練集、驗證集和測試集,其中驗證集用于優化超參數。

表2 數據集的各項統計

(2) 基準方法。BPRMF:基于貝葉斯后驗優化的個性化排序的矩陣分解,本文使用用戶-論文交互矩陣Y。

NeuMF[18]:一種NCF框架的實例,在用戶和項目的嵌入層組合了廣義矩陣分解(GMF)和MLP,本文使用與BPRMF相同輸入。

CML[19]:一種度量學習算法,同時編碼了用戶的偏好以及用戶-用戶、項-項的相似性,本文使用與BPRMF相同輸入。

KGAT[13]:在知識圖譜上顯式地建模用戶和項目的高階關系,使用注意力的聚合方法。

DKN[6]:基于內容的深度學習推薦框架,它融合多通道CNN對論文的語義層和知識層的表示。在本文中,將內容C的特征作為語義層特征,知識圖譜G的特征作為知識層特征。

(1) 評估指標。準確率(precision)表示推薦列表預測為真的論文占推薦列表的比例;召回率(recall)是覆蓋率的評價指標,表示推薦列表中預測為真的論文占所有與論文相關論文數的比例。F1-score是準確率和召回率的加權平均,其數值越大越準確,計算方式如下:

(12)

AUC為ROC曲線下方的面積。ROC曲線的橫坐標是預測結果的假陽性率,縱坐標是真陽性率。

3.2 實驗結果(RQ1)

首先介紹與所有基線相比的總體性能,表3和表4分別是在CiteULike-a數據集和APPData上與所有模型對比的實驗結果,加粗表示最好性能。

表3 CiteULike數據集的實驗結果

表4 APPData數據集的實驗結果

通過結果的對比可以得出:首先,通過比較本文模型和其他基準模型的結果,本文模型在兩個數據集的F1-score和AUC分別優于大部分基線。與BPRMF、NeuMF和CML的比較結果說明在數據稀疏(見表1)的情況下GNPR模型性能沒有遭受較大影響,即可以更好地緩解數據稀疏問題,可能的原因是本文模型挖掘了更豐富的內容特征和知識圖譜特征。而DKN雖然同樣有足夠的內容特征,但是GNPR模型結果較好可能原因在于考慮全局文本特征。KGCN和GNPR都使用了圖神經網絡,實驗差別的原因可能在于融合了內容特征。實驗還發現,所有基于內容的模型都比基于CF的模型具有更好的性能。原因是基于CF的方法在數據稀疏的論文推薦場景性能受影響。本文模型是一個混合模型,結合了基于內容的方法和基于圖的方法的優點,對于缺少點擊歷史的論文,可以通過內容和圖上的關聯。

3.3 模型分析(RQ2)

以APPData數據集為例,對GNPR變體的實驗結果進行比較,以證明本文的模型設計在以下方面的有效性:(1) 內容特征可以達到的實驗效果;(2) 雙層注意力機制對用戶顯式閱讀偏好的影響;(3) GCN的高階關系與普通表示學習方法對實驗的影響;(4) MLP對建模交互的影響。實驗結果如表5所示。三個設置的詳細信息如下:

(1) 刪除圖的特征(Remove Graph Future,RGF):只保留用2.2節描述的用戶顯式閱讀偏好模塊對實驗結果的影響。

(2) 刪除自注意力(Remove Self-Attention,RSA):除去2.2節描述用戶顯式閱讀偏好模塊中文本全局特征對實驗結果的影響。

(3) 用TransE替換GCN(With TransE,WTE):用TransE代替2.3節描述用戶隱式閱讀偏好模塊中的GCN后對實驗的影響。

(4) 用內積替換MLP(With Inner-Product,WIP):內積代替2.4節描述的用戶-項交互計算對結果的影響。

表5 GNPR變體的實驗結果

可以看出:(1) GNPR表現最好,表明模型的不同成分的有效性;(2) 缺少文本的全局特征對結果影響較大;(3) 知識圖譜的嵌入對結果提升較大和GCN算法在本文中性能比TransE[20]更優。

參數分析:GNPR模型涉及多個參數的選擇,接下來以APPData為例,考慮GCN的層數L1和MPL的層數L2對評估指標F1-score和AUC的影響,結果如表6所示。

表6 APPData數據集的GCN和MLP層數變化

4 結 語

本文提出一種混合的端到端的推薦模型GNPR。首先,自注意力機制考慮了文本的全局特征,融合CNN后的雙層特征抽取模式可以獲取用戶更完整的顯式閱讀偏好。從論文中抽取概念并鏈接外部知識庫,通過概念之間的關聯尋找研究人員、論文和概念之間的潛在相關性,此時知識的融入有效緩解了數據稀疏性,圖神經網絡通過在圖上傳播嵌入高階結構信息,可以有效地挖掘出用戶的隱式閱讀偏好。在真實的論文推薦數據集CiteULike-a和學術推薦應用的實驗結果表明,本文提出的論文推薦模型在F1-score和AUC指標上明顯優于基線方法。

猜你喜歡
特征文本用戶
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 国产欧美另类| 亚洲精品午夜无码电影网| 欧美激情网址| 中日韩欧亚无码视频| 国产在线精品99一区不卡| 国产成人精品一区二区秒拍1o| 亚洲午夜福利在线| 啪啪永久免费av| 国产日本视频91| 国产午夜无码片在线观看网站 | 国产一级裸网站| 她的性爱视频| jijzzizz老师出水喷水喷出| 国产欧美亚洲精品第3页在线| 最新亚洲av女人的天堂| 欧美一区二区三区不卡免费| 久久精品只有这里有| 国产成人亚洲欧美激情| 成人中文字幕在线| 国产视频大全| 久久九九热视频| 亚洲精品大秀视频| a国产精品| 国产久操视频| 国产情侣一区| 欧美激情福利| 国产尤物jk自慰制服喷水| 91色在线视频| 亚洲成a人片| 成人小视频在线观看免费| 91免费国产高清观看| 美女国内精品自产拍在线播放| 综合亚洲网| 四虎国产精品永久一区| 亚洲欧美在线综合一区二区三区 | 国产一级二级三级毛片| 欧美v在线| 国产成人91精品| 国产二级毛片| 天堂网国产| 美女被操91视频| 狂欢视频在线观看不卡| 99人体免费视频| 5555国产在线观看| 久久国产精品波多野结衣| 国产人人乐人人爱| 国产精品尹人在线观看| 秘书高跟黑色丝袜国产91在线| 草草影院国产第一页| 秘书高跟黑色丝袜国产91在线| 无码AV日韩一二三区| 凹凸精品免费精品视频| 免费啪啪网址| 97一区二区在线播放| 国产剧情国内精品原创| 国模私拍一区二区 | 国产精品人人做人人爽人人添| 国产爽爽视频| 青青青国产视频| 久久精品免费看一| 国产专区综合另类日韩一区| 一边摸一边做爽的视频17国产 | 爱爱影院18禁免费| 日韩精品久久久久久久电影蜜臀| 夜夜操天天摸| 国产成人禁片在线观看| 亚洲日韩高清在线亚洲专区| 九色综合伊人久久富二代| 久久中文电影| 中文字幕永久在线看| 欧美国产视频| 午夜福利在线观看入口| 国产乱视频网站| 伊人狠狠丁香婷婷综合色| 亚洲综合国产一区二区三区| 19国产精品麻豆免费观看| 青青青视频蜜桃一区二区| 真人免费一级毛片一区二区| 中文字幕永久视频| 久操线在视频在线观看| 91在线日韩在线播放| 亚洲第一区欧美国产综合|