陳 潔,劉 洋,趙 姝+,張燕平
1.安徽大學 計算智能與信號處理教育部重點實驗室,合肥230601
2.安徽大學 計算機科學與技術學院,合肥230601
3.中鋼集團馬鞍山礦山研究總院股份有限公司,安徽 馬鞍山243000
+通信作者E-mail:zhaoshuzs2002@hotmail.com
據計算機領域著名集成數據庫系統DBLP 統計,計算機學科每年發表的文章數量超過30 萬篇。大學術數據時代已經到來,信息過載問題日益嚴重。龐大的文獻數量有利于滿足研究者們的信息需求和相關研究工作的開展,但各類學術文獻質量參差不齊也導致研究者們越來越難以高效、準確地從海量文獻數據庫中檢索到最有用的出版物。學術搜索引擎可以通過執行基于關鍵詞的檢索為研究者提供可能需要的文章,但仍需研究者逐一地審查每篇文章來篩選出合適的文章[1],在大規模數據庫中這樣勞動密集型的工作并不適用。最近的趨勢是利用機器學習算法來探索與研究者給定文章相關領域的出版物并智能化地推薦一組文章集合,即引文推薦。
引文推薦旨在根據研究者給定的查詢返回可供引用的相關文章或對其研究領域相近的有價值的文章。圖1 是一個示例,給出查詢文章及相關信息(圖左),引文推薦從文獻數據庫中返回可供參考的文章列表(圖右)。
引文推薦的相關研究大體上包含三類:分別是基于協同過濾的方法(collaborative-based filtering,CF)[2-3]、基于內容過濾的方法(content-based filtering,CBF)[4-6]和基于網絡圖的方法(graph-based,GB)[7-9]。CF 方法基于有類似研究興趣的研究者提供的論文評分進行推薦,但數據稀疏和冷啟動問題是其主要缺陷,難以推薦新文章和引用較少的文章。CBF 方法利用文章的關鍵詞或主題特征來確定待推薦文章是否與研究人員的需求相關。但新的術語不斷產生,單純基于語義的匹配不足以準確找到最相關的文章。GB 方法將文章、作者以及它們之間的復雜關系以網絡范式刻畫,并將引文推薦轉換為網絡上文章結點間的相似性匹配問題[10]。為了進一步描繪文章的文本上下文信息,可以通過屬性網絡建模[11-13]。近年來,隨著網絡表示學習的興起,一些研究者開始嘗試將屬性網絡表示學習技術引入引文推薦[8]。屬性網絡表示學習可以將網絡上的文章結點表示為低維稠密的實值向量并同時兼顧文章的文本屬性和拓撲結構,基于屬性網絡表示學習實現引文推薦具有很高的研究價值。

Fig.1 Example of citation recommendation圖1 引文推薦示例
但現有基于屬性網絡表示學習的引文推薦一貫地使用單粒度網絡對引文推薦建模,存在計算復雜性高、內存消耗大等弊端,難以被擴展到大規模文獻數據網絡。開發出高效的多粒度網絡表示學習算法并考慮引文推薦的具體特性,同時兼顧文章的語義和結構信息仍是個具有挑戰性的問題。本文進一步提出一種基于多粒度屬性網絡表示引文推薦算法來放寬這一限制,使得多粒度屬性網絡表示學習在引文推薦問題上成為可能。本文主要做出如下兩個貢獻:
(1)提出一種多粒度語義連邊屬性網絡粗化方法,可以在網絡粗化過程的同時利用語義連邊兼顧文章結點屬性,以在多粒度網絡表示學習過程中學習更高質量的結點特征表示。
(2)將多粒度屬性網絡表示學習應用于引文推薦,并開發出一種基于屬性網絡表示學習的引文推薦算法。在AAN 和DBLP 數據集上的實驗表明提出的算法相比單粒度方法在不損失精度的前提下大大提升了效率。
準確地檢索可供引用的相關文章對研究者來說是一項繁瑣的工作。現有的相關研究主體上包含基于協同過濾的方法、基于內容過濾的方法和基于網絡圖的方法三大類。
基于協同過濾的方法通過收集用戶對文章的反饋來工作,并根據用戶配置文件之間的相似性來推薦文章,因此,它是領域無關的[3]。Yang 等[14]開發了一種面向排序的協同過濾方法,可根據用戶的訪問日志來推薦文章。Kang 等[15]利用低秩假設來填充評分矩陣中缺少的元素之后基于新矩陣來推薦文章。盡管這類方法已成功應用于很多領域,但存在數據稀疏和冷啟動問題[16],通常不會推薦新發表的文章或引用較少的文章。
基于內容過濾的方法能夠分析文章領域知識,通常結合文本語義或潛在主題來比較文章相似性,在很大程度上緩解了基于協同過濾方法的弊端。Chandrasekaran 等[17]用概念層次樹(concept hierarchy tree,CHT)來描述用戶偏好,并在樹下度量用戶偏好和論文的相關度。Huang 等[18]利用神經概率語言模型(neural probabilistic language model,NPLM)來學習文章特征表示,并根據學習到的表示進行相似性搜索。Tang 等[5]提出一種雙層受限玻爾茲曼機模型來同時探索學術文獻的主題分布和引文關系。盡管這些方法取得了一些成果,但過于依賴對語義內容的理解,不能準確描述文章間的分歧,對引文推薦建模能力受限。
最近開始采用基于網絡圖的方法來建模引文推薦問題。Strohman 等[19]將每篇文章看作網絡上的結點,引用關系看作結點之間的連接并將引文推薦看作鏈接預測問題。為了進一步地探索異質實體之間的復雜關系,異構信息網絡開始被用于探索引文推薦問題,并引入元路徑、元結構來捕獲實體間的潛在聯系。Mu 等[20]在三層圖模型上挖掘文章、作者等異質實體間的關聯。Gupta 等[21]首次將網絡表示技術應用于引文推薦并取得了顯著的提升。Gonog等[22]利用生成對抗網絡(generative adversarial networks,GAN)來學習文章結點表示。為進一步耦合結點屬性和網絡拓撲,Chen 等[8]利用語義連邊來捕獲結點屬性,語義連邊指代網絡上兩個文章結點共享相似的文本屬性繼而生成語義連邊并提出一種基于語義連邊屬性網絡表示學習的引文推薦算法。
盡管現有的方法取得了成效,但單粒度屬性網絡表示學習計算復雜性高,應用價值受限。本文提出基于多粒度屬性網絡表示學習算法來改善這一弊端,將基于單粒度屬性網絡表示學習的引文推薦算法推廣到其多粒度形式,研究價值較高。
本章介紹研究涉及相關算法的基礎理論。屬性網絡是指網絡中的全部或部分結點關聯豐富屬性信息的網絡。下面給出屬性網絡的具體定義。
定義1(屬性網絡)指代網絡G=(V,E,A),V是結點集合,E是邊集合,A是屬性集合,每個結點vi可能關聯屬性。A={xi|vi∈V}是結點特征集合,如果vi是無屬性結點則xi為空,當存在結點xi不為空時,則G為屬性網絡。每條邊eij=(vi,vj)關聯權重wij≥0,指代vi和vj關系的強度。如果G是有向的,有eij≠eji并且wij≠wji;如果G是無向的,有eij=eji并且wij=wji。
如圖2 所示,是由具體學術文獻組成的屬性網絡示例。作者C 和作者D 合著了文章A,作者D 和作者E 合著了文章B,文章A 和文章B 包含文本屬性。該屬性網絡可以有效地集成文章和作者之間豐富的語義和結構信息并描述之間關聯。

Fig.2 Example of attributed network圖2 屬性網絡示例
為進一步將結點屬性融入網絡拓撲,可以使用語義連邊進行建模,語義連邊指代網絡上兩點共享相似的屬性信息。
定義2(語義連邊[8])給定文章pi∈V的屬性xi,pj∈V的屬性xj,語義連邊相似度產生閾值τ,fT是一個文本屬性分布式表示函數,當xi和xj的相似度cos(fT(xi),fT(xj))>τ時,eij被定義為語義連邊。
圖3 給出示例,文章1 和2 共享屬性“BCD”,和文章3 共享屬性“ABD”,其相似度達到75%,故文章1和文章3、4 之間產生語義連邊。而文章2 和3 間只共享兩個屬性,不產生語義連邊。

Fig.3 Example of semantic links圖3 語義連邊示例
為進一步使用低維特征向量描述結點特征,屬性網絡表示學習被引入來提取和表示給定網絡有價值的信息。其學習的特征是一種低維稠密的實值向量并可以高度概括網絡信息特征。
定義3(屬性網絡表示學習[23])給定屬性網絡G=(V,E,A),表示學習旨在學習函數f:V→?d可將結點v∈V轉化為d維空間?d向量,d?|V|,并保留結點間的結構特性和內容信息。
嵌入由文章及其相關信息構建的屬性網絡是希望融合文章多樣化信息,有利于后續引文推薦任務。但單粒度網絡表示學習技術計算復雜度高、占用內存大。為克服這個挑戰,進一步引入多粒度屬性網絡表示學習。
定義4(多粒度屬性網絡表示學習)給定屬性網絡G=(V,E,A)的壓縮網絡G1,G2,…,Gi,…,Gm,和基本的網絡表示映射函數f,多粒度屬性網絡表示學習可通過χi←f(Gi),0 ≤i≤m得到壓縮網絡特征,通過χ1,χ2,…,χm獲得初始網絡G的特征。
多粒度屬性網絡表示學習以單粒度網絡表示學習作為基礎模型,可以增強網絡表示的性能。多粒度網絡表示學習包含網絡粗化和特征表示細化過程,本文用圖卷積網絡(graph convolution networks,GCN)完成特征表示細化過程。
這里,簡要地概述廣泛使用的GCN模型。給定輸入特征矩陣H(0)=X∈?n×d0和網絡圖A∈?n×n,Aii=0,GCN 將分層傳播定義為:

這里k=0,1,…,K-1,I指代單位矩陣,D是網絡的對角度矩陣。Θ(k)∈?dk×dk+1是可被訓練的特定層的權重矩陣,這里σ指代激活函數。GCN 的最后一次輸出是所有結點最后的特征表示H(K)。
引文推薦旨在依據文章信息為用戶推薦合適引文。因此該問題可抽象為輸入一篇查詢文章并包含該文章多樣化的信息。輸出依據具體相似性度量規則從候選文章集中選得的排序后的文章列表。引文推薦問題可形式化如下:
定義5(引文推薦)有集合P={p1,p2,…,p|P|}共包含|P|篇文章,A={a1,a2,…,a||A} 共包含|A|個作者。每篇文章pi關聯文本屬性ti和作者集合。引文推薦問題被定義為根據條件概率Pr(pi|pj)計算給定文章pj得出pj可能的參考文獻列表。
因此,給定某篇查詢文章pj,只需遍歷每篇候選文章pi并計算條件概率Pr(pi|pj)就可以知道兩篇文章的相關度并根據計算的條件概率排序。為了更清晰地理解本文內容,表1 列出了本文用到的相關符號定義。

Table 1 Symbol definition表1 符號定義
本章介紹提出的基于多粒度屬性網絡表示學習的引文推薦(citation recommendation algorithm based on hierarchical attributed network representation learning,CR-HANRSL)。首先,將包含語義連邊的初始網絡不斷粗化為更小的網絡,并在每次粗化后重新計算超結點的語義連邊并在最后一次粗化后學習結點特征表示。然后,通過GCN對粗化網絡的表示進行細化來學習初始網絡特征。最后,根據線性融合多模態特征表示相似度的方法計算文章相似度完成引文推薦。
給定初始包含語義連邊的屬性網絡G0=(V0,E0,Y0),粗化過程利用粗化策略ζ將其反復粗化為更小的語義連邊屬性網絡G1,G2,…,Gm,|Gm|<|Gm-1|<…<|G1|?,F有粗化策略不考慮屬性,定義為ζo,因此有G1=ζo(V0,E0),G2=ζo(V1,E1),…,Gm=ζo(Vm-1,Em-1)。ζ在粗化過程中考慮結點屬性并重新構建語義連邊,G1=ζ(V0,E0,Y0),G2=ζ(V1,E1,Y1),…,Gm=ζ(Vm-1,Em-1,Ym-1)。Gi+1=ζ(Vi,Ei,Yi)指代將網絡Gi粗化到網絡Gi+1,Gi的多個結點被粗化為Gi+1中超結點


接下來將介紹ζ在粗化過程中選擇子結點,以及如何重新計算邊權重。利用以下分組策略將相似結構的結點分配到較粗網絡的超結點。首先,將Gi看作無權圖,構建結構等效組對結點進行結構相似分組;然后,使用標準化邊權重匹配策略重新計算邊權重。
定義6(結構等效組)如果兩個結點共享同一組鄰居,則它們結構等效,繼而將其合并為超結點。
完成超結點合并之后邊也被同時合并需要重新計算權重。為保留網絡中本身的邊權重,對合并后的邊權重進行標準化處理。一條邊的權值wi(u,v)是由這條邊關聯的兩個頂點u和v的度數標準化的:

直觀地,這樣的標準化策略弱化了高度結點的權重。結點屬性的合并在超結點生成之后進行,接著為超結點計算語義連邊輸出粗化網絡Gi+1。
由此,可得矩陣運算網絡Gi+1的鄰接矩陣Ai+1。再定義二元矩陣來儲存將網絡Gi粗化到Gi+1的信息,若結點r被合并到網絡Gi+1的超點c,其第r行和第c列為1,否則為0,故Mi,i+1的每一列承載了超結點的子結點信息。然后,將在得到的新網絡的基礎上構建語義連邊的過程記為fSL()。在網絡上構建語義連邊即當結點r和c之間存在語義連邊時將Ai+1的第r行和第c列設置為1。網絡Gi+1的鄰接矩陣為:

圖4 給出在網絡上進行語義連邊屬性網絡粗化的示意圖。首先構建初始語義連邊網絡,之后不斷完成網絡粗化過程m次得到最終的粗化網絡,每次粗化過程如上部虛線框內所示。這里語義連邊權重由結點屬性相似度指代,如sim(13,56)為合并后的超結點“13”和“56”的屬性計算得到。

Fig.4 Attributed network coarsening with semantic links圖4 語義連邊屬性網絡粗化
在每次粗化之后,網絡規模急劇減小,理想情況下可以在一次粗化后減小一半。多粒度網絡表示學習旨在進行一定次數m的粗化后得到網絡Gm并通過f(·)得到粗化網絡的特征表示χm=f(Gm)。由于初衷是將單粒度方法擴展到其多粒度模式,故本文依舊使用基于skip-gram 模型的網絡表示學習方法作為f(·)。下一節將具體介紹使用圖卷積模型來對網絡特征表示進行細化,得到初始網絡G0的特征表示。
網絡特征表示細化(feature representation refinement,FRR)完成將粗粒度層次網絡上的結點特征表示逐步細化的過程,即將特征表示χm細化到χ0的過程。給定屬性網絡G0,G1,…,Gm,以及網絡Gm的特征表示χm,特征表示細化聚焦于探索如何完成從Gm到G0的細化來學習初始網絡G0的特征表示χ0。實際上,可以將通過Gi和χi+1來學習χi=FRR(Gi,χi+1)看作FRR 過程的子任務。然后,不斷迭代該過程得到G0的特征表示χ0(具體地,χ0包含兩部分,分別為初始網絡中文章結點特征表示集合和作者結點特征表示集合)。
本節延用MILE(multi-level embedding framework)[23]的思想,使用k層GCN 來優化Gi的特征表示矩陣χi=?(Mi,i+1χi+1,Ai)。這里Mi,i+1χi+1完成將超結點的特征表示直接復制到它的原始結點,故χi決定于已優化的Gi+1的特征表示矩陣χi+1派生出的簡單投影特征表示和Gi的鄰接矩陣。給出Gi的鄰接矩陣Ai,度矩陣,GCN的第j層被定義為:


采用帶反向傳播的梯度下降算法來學習Γj。解決該子任務后,繼而迭代地完成FRR 過程,并最終得到初始網絡G0的特征表示χ0。
屬性網絡表示學習過程旨在學習網絡映射函數,fN可將每篇文章pi映射為文章結點向量fN(pi),每個作者ai映射為作者結點向量fN(ai)。因此,所有文章的文本屬性被映射到同一向量空間,并可以在該空間中度量不同文章間的文本相似度。此外,文章結點和作者結點也被映射到同一個特征向量空間,并可以在該空間中度量文章-文章結點的相似度和文章-作者結點相似度。本質上可以在不同向量空間中度量文章間不同模態的相似度,即為多模態特征表示的文章相似度計算。再給出文檔特征映射函數fT即可計算文章多模態表示相似度,該過程由文獻[8]提出。
Pr(pi|pj)被定義為三種模態pi和pj余弦相似度的線性融合,向量d1和d2的余弦值被定義如下:

現計算文章間文本屬性相似度μ1(pi,pj):

第二種是文章結點相似度μ2(pi,pj):

這里余弦值越大說明文章結點向量越相近。文章-作者模態相似度μ3(pi,pj)定義如下:
物候期記載詳見表1。由表1可知,參試品種同期播種后均于4月13日出苗。包心最早的是大綠黃迷你,比其余品種早三四天,其次是小寶,比多寶品種早1 d。生育期最短的是大綠黃迷你為70 d,其次是小寶為73 d,多寶生育期相對較長為77 d。

文章-作者模態相似度本質上是給出查詢文章pj,遍歷候選文章pi作者集合pai中每個作者a來計算pj和a的相似度。并最終使用和查詢文章相似度最大的作者計算出的余弦相似度作為文章-作者模態相似度。故最終的條件概率Pr(pi|pj)即為三種模態相似度的加權線性組合:

這里(w1+w2)<1控制不同模態相似度對最終結果的貢獻。最后根據和每篇候選文章pj的Pr(pi|pj)排序推薦最相似的文章作為引文推薦列表。CR-HANRSL的整體算法流程如算法1 所示。
算法1CR-HANRSL 算法
輸入:文章集合{p1,p2,…,p|P|};粗化次數m。
輸出:為每篇查詢文章pj推薦的引文。
1.構建初始屬性網絡G0=(V0,E0,Y0)
2.Fori=0 →m-1 do
4.End
5.學習第m次粗化后特征表示χm=f(Gm)
6.Fori=m-1 →0 do
7.χi=FRR(Gi,χi+1)
8.End
9.For每篇查詢文章pido
10.For每篇候選文章pj
11.根據式(12)計算Pr(pi|pj)
12.輸出為pi推薦的引文列表
13.End
本文實驗在公共數據集AAN 和DBLP 上完成。AAN 數據集即ACL 本體網絡,由于文章參考文獻的發表年份必然小于文章本身發表年份,故將2012 年的文章作為查詢文章集合。DBLP 數據集由Tang 等人抽取并逐年更新[21],本文數據使用V10 版本,年份截止2008 年并將2008 年文章作為查詢文章集合。未加工的數據量級十分龐大且許多文章缺少元數據,因此對原始數據集進行元數據的抽取和文本內容清洗,清洗步驟如表2 所示,表3 給出兩個數據集相關的統計信息。

Table 2 Data pre-processing表2 數據預處理

Table 3 Statistics of datasets表3 數據集統計
為評估CR-HANRSL 性能,本文使用信息檢索領域的通用評價指標召回率(Recall@N)和歸一化折扣累積增益(NDCG@N)來對算法性能進行評估,這里N指代推薦項的數量。
召回率,又稱查全率,指代推薦的N項候選文章中正確的引文占總參考文獻數量的比重。低N值下取得高召回率則說明推薦系統性能好。
歸一化折扣累積增益NDCG@N,推薦系統的有效性對參考文獻的位置敏感,不能通過召回率來全面評估。直觀地,高度相關的引文在推薦列表中出現得越靠前越好。使用NDCG@N來度量排序后的推薦列表。
幾種被廣泛使用的或當前研究最新進展的對比算法被使用,包括基于協同過濾的方法、基于內容過濾的方法和基于網絡圖的方法。
(1)CFCR(collaborative filtering co-authorship relations recommendation):基于協同過濾算法來計算文章相似度,利用作者間歷史合作關系過濾出與查詢文章相關性高的文章繼而產生文章推薦列表。
(2)Word2vecSim:該算法使用skip-gram 模型來訓練詞的特征表示。繼而根據文章線性文本信息逐個計算詞向量。根據文章的文本特征表示計算余弦相似度。
(3)Doc2vecSim:類似Word2vecSim,直接訓練文章的文檔分布式表示計算文檔向量,之后計算文章余弦相似度并依據相似度排序完成推薦過程。文本使用PV-DBOW 模型訓練文檔的分布式表示。
(4)PW(paper-word graph citation recommendation)[12]:將文章和作者當作網絡上的結點構建了一個兩層圖模型,并使用多層圖模型相似度度量方法計算文章相似度,根據文章相似度排序候選文章集合,選取高度相似的文章進行推薦。
(5)MMRQ(multi-layered mutually reinforced queryfocused citation recommendation)[11]:分別考慮文章信息網絡上通過作者傳播和詞傳播,并用同構內部和外部的相互強化來更新傳播,還在其中融入查詢信息,根據作者傳播和關鍵詞傳播同時更新文章傳播,該方法在每步迭代都組合查詢信息。
(6)CR-ANRSL(citation recommendation based on attribute network representation with semantic link)[8]:是本文算法的單粒度形式,該算法首先構建包含語義連邊的屬性網絡,之后使用基于skip-gram 模型的網絡表示學習方法學習特征,最后融合文章多模態相似完成引文推薦。
表4 和表5 分別展示CR-HANRSL 算法在召回率和NDCG 兩個指標上和對比算法的性能比較。展示了m=1 時的結果,其中最好的結果已在表格中加粗表示。可以看到:(1)基于協同過濾的方法展示出最差性能,通常不會推薦引用較少的文章,實際是一種有偏推薦,在引文推薦任務上受到了一定的局限性,實現上主要基于作者進行協同過濾,通常難以取得好的性能。(2)Word2vecSim 和Doc2vecSim 作為基于內容過濾的兩種經典方法在本文實驗中勝過基于協同過濾的方法。但這類方法只考慮了文本內容相似度,不同的訓練方式只改變生成向量的方式。這類方法忽略文章的結構信息,只使用單一的文本內容信息來描述文章間的分歧,通常不能取得好的效果。CR-HANRSL 算法顯然勝過所有基于內容的方法。(3)一些基于網絡圖的方法在內容的基礎上進一步考慮文章的潛在結構特性,效果有了明顯的改善。但現有基于網絡圖的引文推薦方法,PW 和MMRQ,通常將關鍵詞作為網絡上的結點而后通過人工設定的元路徑來捕獲異質結點間的關聯。

Table 4 Performance comparison on recall of algorithms表4 算法召回率性能比較

Table 5 Performance comparison on NDCG of algorithms表5 算法NDCG 性能比較
這類方法使用關鍵詞來聯系兩篇可能語義相近的文章,推薦性能提升是有限的。相比于表現最好的對比算法,值得強調的是提出的CR-HANRSL 算法在兩個數據集的召回率指標上均取得了超過7%的提升,在NDCG 指標上亦提升明顯。這說明CR-HANRSL算法具有更強的集成文章內容屬性和結構特征的能力,從而能夠學習高質量的特征表示。MMRQ 和PW對比算法均遵循原文報告的結果,由于原文只在AAN 數據集上進行,故文章實驗也沒有報告這兩個對比算法在DBLP 數據集上的性能比較情況。提出的CR-HANRSL 算法與單粒度屬性網絡學習的引文推薦算法CR-ANRSL 相比仍表現出很強的競爭力,幾乎在所有的推薦位置都勝過,僅在AAN 數據集上Recall@100和NDCG@25位置弱于CR-ANRSL算法,表明CR-HANRSL 算法能夠保留語義連邊在單粒度屬性網絡表示學習中的重要作用,并在多粒度屬性網絡表示學習過程中具有同等效力,提出的方法可以有效地在粗化后的多級網絡中充分耦合結點屬性并在網絡表示過程中結合網絡拓撲和結點屬性學習高質量的特征表示以更好地服務于下游引文推薦任務。
不斷調整粗化次數m的取值,來觀察網絡的規??s減情況、網絡表示的時間消耗以及在引文推薦任務上展現出的性能。圖5 和圖6 分別報告在AAN 和DBLP數據集上不同粗化次數下CR-HANRSL算法的性能變化,x軸表示推薦項的數量,y軸是評價指標數值??梢钥闯觯黾哟只螖岛笮阅艹氏陆第厔?,因此在高等級網絡粗化下,語義連邊在捕獲結點屬性的能力上是有損的,但作為等價交換,當粗化次數增大時,網絡表示學習過程耗費的時間顯著下降。
表6 是不同粗化次數下的時間消耗情況和網絡規模縮減情況,粗化率指代粗化后網絡規模和初始構建的網絡規模的比值。耗費時間從構建完語義連邊屬性網絡開始算起??梢宰⒁獾奖M管隨著粗化次數的增加在引文推薦任務指標上有略微損失,但在時間性能上的增益是顯著的。同時,隨著粗化次數的增加,多級網絡結點數量急劇下降,這里的粗化率指代當前層級網絡結點數量和初始語義連邊屬性網絡結點數量的比值,因此CR-ANRSL 算法的網絡粗化率以100%給出??梢钥吹皆贏AN 數據集上從粗化1 次到3 次時網絡規模縮減比例從51.8%變化到12.9%,在DBLP 數據集上也遵循類似的趨勢,這是多粒度網絡表示學習模式加速顯著的主要原因。最后,本文實驗在與CR-ANRSL 算法所述一致的機器上完成。為盡量保證實驗的公平,本文實驗與CR-ANRSL算法的對比中共同參數均與其所述一致。

Fig.5 Performance comparison of different granularity on AAN dataset圖5 AAN 數據集上不同粗化粒度下的性能比較

Fig.6 Performance comparison of different granularity on DBLP dataset圖6 DBLP 數據集上不同粗化粒度下的性能比較

Table 6 Network size reduction under different coarsening times表6 不同粗化次數下的網絡縮減情況
隨著科學技術的快速發展和互聯網的普及,知識傳播速度大幅提升,同時帶來學術界的快速發展。近年來相關學術資源呈爆炸式增長,給科研人員在線檢索相關領域的文章帶來了困難。相關研究者通過推薦系統技術嘗試克服這一挑戰以縮小文獻檢索的難度,目前主流技術包含基于協同過濾的方法、基于內容過濾的方法和基于網絡圖的方法。由于文章以及背后的語義和結構信息可以連貫地以網絡范式呈現,基于網絡圖的引文推薦近年來越來越受到研究者的關注。屬性網絡表示學習作為分析網絡數據的新興技術,可以將結點映射到低維稠密的向量空間并同時保留網絡的結點屬性和結構拓撲,已在許多細分領域取得成功。但單粒度網絡表示學習模型具有計算復雜性高、內存消耗大的弊端。故本文在屬性網絡表示學習的基礎上提出基于多粒度屬性網絡表示學習的引文推薦。