










摘 要:合作者推薦工作對科學研究的發(fā)展和科技成果的轉化很有幫助,然而學者間水平的差距嚴重影響了合作的建立。模型從學者間學術水平差距,合作網(wǎng)絡的拓撲距離以及研究興趣三個角度進行合作者推薦。首先,定義了學者—學者、學者—主題、學者—水平標簽三種網(wǎng)絡,并融合成主題—學者—水平標簽圖;之后對該圖中的邊賦權重,從而將合作者推薦任務轉換為鏈路預測問題;最后使用偏向重啟隨機游走算法計算學者間的訪問概率,并篩選訪問概率大的學者作為推薦建議。在三個數(shù)據(jù)集上的實驗表明,模型在推薦的準確率、召回率、F1指數(shù)上平均提高了5.4%、2.7%、3.8%,同時目標學者與推薦學者的學術水平匹配度更高。
關鍵詞:合作者推薦;學術水平匹配;學術大數(shù)據(jù);偏向重啟隨機游走
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2022)07-019-2043-07
doi:10.19734/j.issn.1001-3695.2021.12.0670
基金項目:國家自然科學基金資助項目(61662067,61662068,61762081)
作者簡介:秦紅武(1978-),男(通信作者),甘肅武威人,教授,碩導,博士,主要研究方向為大數(shù)據(jù)、數(shù)據(jù)挖掘和社會計算(qinhongwu@nwnu.edu.cn);趙猛(1994-),男,河南平輿人,碩士研究生,主要研究方向為大數(shù)據(jù)、社會計算;馬秀琴(1977-),女,甘肅臨夏人,教授,碩導,博士,主要研究方向為大數(shù)據(jù)、軟集;閆文英(1996-),女,山西呂梁人,碩士研究生,主要研究方向為數(shù)據(jù)挖掘和大數(shù)據(jù).
Collaborator recommendation model fused academic level similarity
Qin Hongwu?,Zhao Meng,Ma Xiuqin,Yan Wenying
(College of Computer Science amp; Engineering,Northwest Normal University,Lanzhou 730070,China)
Abstract:
Collaboration recommendation is helpful to the development of scientific research and the transformation of technological achievements.However,the gap between scholars’ academic levels seriously affects the establishment of cooperative relations.This paper made recommendations from three perspectives:the academic level gap between scholars,the topological distance in the collaborative network,and research interests.Firstly,this paper defined three networks,namely scholar-scholar network,scholar-topic network and scholar-level label network,and merged them into a graph of topic-scholar-level label,and set weight to the edges in the graph.Then it turned collaboration recommendation task into a link prediction task.Finally,it employed the biased restart random walk algorithm to calculate the probability of visits among scholars,and recommended the candidate scholars with high visit probability to target scholars.Experiments on three datasets show that the proposed model can improve the precision rate,recall rate and F1 index by 5.4%,2.7% and 3.8%.In addition,the academic levels of target scholars and recommended scholars are more closely matched.
Key words:collaborators recommendation;academic level matching;academic big data;biased restart random walk
0 引言
合作一直是科學發(fā)展與經(jīng)濟增長的重要助力因素,不難發(fā)現(xiàn),一個多產(chǎn)的學者往往合作也更加頻繁[1,2]。因此,如果學者有機會去發(fā)現(xiàn)和了解那些陌生的、對自己研究有幫助的學者,將對該學者的研究工作起到相當大的促進作用[3]。
近些年,已有一些為學者進行合作者推薦的工作。文獻[4]使用基于內(nèi)容的推薦方法提取學者的興趣特征和社交網(wǎng)絡的特征,建立成對的相似矩陣來推薦合作者;文獻[5]根據(jù)每個學者的文本信息得到每個學者的加權文本表示,然后通過學者加權文本表示的相似性和內(nèi)在協(xié)作關系構建內(nèi)容增強型學術合作者網(wǎng)絡,最后利用網(wǎng)絡表示學習將每個研究者表示為一個潛在向量,并基于學者向量的相似性進行推薦;文獻[6]利用主題模型提取學者的研究興趣,然后基于網(wǎng)絡嵌入學習以及學者向量進行推薦;文獻[7]利用大量學術數(shù)據(jù)挖掘了學者在學術年齡意識方面的協(xié)作模式,并給出了推薦的建議;文獻[8]提出了一個基于專業(yè)知識的推薦框架,該框架可以根據(jù)機構的專業(yè)知識和建議來確定機構的強主題領域和弱主題領域,以互補的形式進行推薦工作。除此之外,還有從各個角度對學者進行衡量的推薦工作[9,10]。
上述這些科研合作者推薦的工作從多種不同的推薦角度進行考量,其中有些算法的核心是提取內(nèi)容語義特征并與協(xié)同過濾算法融合。然而,這些算法中的特征提取僅是對合作者之間相似度進行計算,缺少對學者間現(xiàn)實距離的考量,從而導致推薦結果不準確[11]。此外,還有些甚至盲目地推薦高水平的學者,這些研究的推薦方式僅以需求者的角度出發(fā),卻不曾想過高水平的研究人員往往會被推薦給大量有合作需求的目標學者,他可能并沒有那么多時間和意愿去接受這些合作,或者高水平學者不愿意與和自己水平差距過大的學者合作[12]。因此,學術水平相似是合作學者間共同研究的重要前提,水平的差距或將直接影響合作關系的形成和研究工作的開展。綜上所述,設計一種新的學術水平的評價方式,研究合作時學術水平的差距對合作關系建立產(chǎn)生的影響,使得在推薦時能夠彌補合作學者之間的水平差距的模型十分必要;另外,也要考慮如何使推薦的合作能夠在現(xiàn)實世界被建立的問題。兩個學者進行合作除了與雙方是否有相似的研究主題有關,也與他們在社交關系中是否存在足夠的路徑有關,因此,傳統(tǒng)的基于行為相似度的協(xié)同過濾模式不適用于合作者推薦。
為解決上述問題,本文提出了一種融合學術水平相似性的合作者推薦模型 (academic level similarity recommendation,ALSRec)。該模型在包含學者、主題、學術水平標簽的圖上利用偏向重啟隨機游走算法尋找與目標學者在學術水平、研究興趣上具有一定相似性的學者,最后依據(jù)不同學者節(jié)點間的訪問概率大小進行推薦。
1 科研合作者推薦問題的研究
科研合作者推薦的問題受到了廣泛的研究,比較常見的是在學術合作網(wǎng)絡中尋找研究方向相似的合作者,因此對潛在合作者的挖掘可以轉換為鏈路預測問題,即挖掘網(wǎng)絡中可能出現(xiàn)的邊。隨機游走算法是其中比較常用的一種鏈路預測模型。文獻[13]提取學者論文的主題后利用聚類算法識別所屬的研究領域并劃分合作網(wǎng)絡,之后利用重啟隨機游走算法計算研究人員特征向量的相似度,按照相似度大小進行合作者推薦。文獻[14]提出了一種基于本體的語義相似度,并將其應用于協(xié)作上下文本體中,為用戶生成上下文感知的合作者推薦。文獻[15]通過主題模型對候選專家發(fā)表的論文進行分析,獲取專家的知識結構,然后根據(jù)候選專家的知識結構特征和研究需求進行聚類,最后在每個集群中選出最有影響力的學者。文獻[16]利用影響力大的學者圈作為社區(qū)的核心結構,并對學術社交網(wǎng)絡中學者間的關系紐帶所產(chǎn)生的復雜網(wǎng)絡拓撲關系進行學術社區(qū)檢測,計算社區(qū)內(nèi)學者的影響力,從而實現(xiàn)社區(qū)內(nèi)部的權威學者推薦服務。文獻[17]通過構建具有多種類型的節(jié)點和具有簡化網(wǎng)絡結構的異構網(wǎng)絡,使用兩個重要度量來加權網(wǎng)絡中的邊,利用重啟隨機游走算法來有側重地檢索相關作者,并根據(jù)排名得分輸出排序后的推薦列表。文獻[18]從科研數(shù)據(jù)庫中構建一個有向圖,根據(jù)學者研究工作的合作數(shù)據(jù)、研究內(nèi)容的余弦相似度及其組合定義了三類邊,最后在有向圖上使用隨機游走算法推薦合作者。文獻[19]提出了ACRec模型,該模型使用三個學術指標作為推薦新合作關系的依據(jù),每個指標都來自學者之間共同撰寫論文的信息并用于度量連接的重要性,以便隨機游走算法更有可能訪問到有價值的節(jié)點。文獻[20]提出了一種基于最近鄰的隨機游走算法,結合社交網(wǎng)絡的特點,節(jié)點被隨機游走到的概率取決于目標用戶的歷史合作概率。文獻[21]將社會組織之間的關系強度、重要性評級以及研究人員活動得分作為推薦指標,給出了一種評估合作者推薦質量的新方法。文獻[22]基于學者知識結構和學術行為網(wǎng)絡兩個維度,構建基于相似興趣的學術模型,探索學者的知識結構和合作關系,該模型可以有效解決學術研究中的信息過載和不對稱問題。文獻[23]從摘要中提取作者的動態(tài)研究興趣,并計算余弦相似度作為學者—學者圖的邊權重,采用重啟隨機游走算法在同行中搜索具有相似研究興趣的潛在合作者。雖然鏈路預測算法在傳統(tǒng)的大型網(wǎng)絡中效率比較低下,但隨著云計算技術的出現(xiàn),系統(tǒng)可以在大規(guī)模網(wǎng)絡上并行分發(fā)執(zhí)行復雜的鏈路預測算法,使得算法在并行模式下的迭代效率比普通系統(tǒng)的執(zhí)行效率高幾個數(shù)量級[24]。
還有一些在不同領域間進行跨領域合作者推薦的工作,這可以幫助知識從一個領域傳播到另外一個領域。多個領域間進行推薦時主要有以下三個特征:a)稀疏連接,多領域間的推薦合作相比于同領域間的合作,合作關系十分稀疏;b)專長互補,不同研究領域間學者的研究主題和特征各不相同,但能夠相互支持和補充;c)主題偏倚,不同領域間合作者的合作點往往屬于某個單一領域內(nèi)的某個具體問題。上述特征與一般的合作關系的模式不同,因此一般的推薦方法并不適用于該類問題。然而,還是有一些利用機器學習和數(shù)據(jù)遷移的方法來進行推薦的工作,Guo等人[25]提出了一種混合圖模型,該模型將顯式合著關系和隱式合著關系結合起來構造合作圖,然后使用帶有重啟概念的隨機游走算法來度量和排序節(jié)點之間的關聯(lián)性并進行推薦;王欣[26]利用用戶和物品的潛在特征進行聚類,利用它們的共享知識和特殊知識在不同領域間進行連接和數(shù)據(jù)遷移;王俊等人[27]建立“三元橋”網(wǎng)絡來進行知識的遷移學習,通過計算用戶與物品之間的評分進行不同領域之間的推薦。遷移學習可以在不同領域、不同用戶、不同數(shù)據(jù)集之間提取到共有知識,以增加數(shù)據(jù)的豐富度以及特征維度,從而緩解不同領域間特征稀疏的問題。
2 融合學術水平相似性的合作者推薦模型
2.1 推薦方式
本文提出的模型為目標學者從以下三個角度進行推薦:
a)合作網(wǎng)絡的可達性。一般情況,兩個學者能夠產(chǎn)生合作,一個重要的因素是他們在社交網(wǎng)絡中具有一定的路徑可達性。
b)研究方向的一致性。相同的研究方向是大多數(shù)學者進行合作的基礎,本文模型將提取學者的研究主題,并對學者對主題的感興趣程度量化。
c)學術水平的相似性。學術水平差距往往導致合作關系難以建立甚至阻礙研究工作的開展,因此本文模型對學術水平進行定義并衡量學者間的差距,提高同水平學者的匹配度。
為實現(xiàn)上述推薦目標,本文模型將合作者網(wǎng)絡、學者與研究主題構成的圖以及學者與其學術水平的標簽構成的圖結合在一起構建{主題—學者—水平標簽}圖,并用一種鏈路預測算法計算網(wǎng)絡中學者節(jié)點間的訪問概率,其隱含著學者間合作關系的可達性、研究主題的相似性以及學術水平的相近性,并最終用于推薦時的排序。
2.2 科研合作者網(wǎng)絡
定義1 科研合作者網(wǎng)絡。若U={u1,u2,…,uq}為學者節(jié)點集合,Euu={e1,e2,…,em}為學者在同一篇論文的合作關系,那么科研合作者網(wǎng)絡可以定義為Guu=(U,Euu)。
定義2 科研合作網(wǎng)絡中邊的權重weightuu。假定學術水平相似的學者具有更強的合作關系,則合作網(wǎng)絡Guu中Euu的權重值weightuu可賦值為如下所述的學者間學術水平的相似性。
1)學術水平定義
現(xiàn)有的學術水平評價指標及度量方式依據(jù)關注點的不同分為很多類型,但都有其局限性,還沒有一個統(tǒng)一的標準。平時常用的評價指標主要包括學者論文發(fā)表量、總引文數(shù)以及發(fā)表期刊的影響因子,本文結合上述指標,將學術水平指標設計為學者全部論文所發(fā)表期刊的平均影響因子與論文平均被引數(shù)的乘積之和,該指標結合論文的影響力以及期刊的影響力,能夠衡量學者平均時期內(nèi)的發(fā)文數(shù),是較為適用的水平評價指標,該指標計算公式如下:
其中:Du為學者u論文發(fā)表的期刊以及被引數(shù)據(jù)集合;IF(p)表示學者u的論文p所在期刊的影響因子,ct為論文被引次數(shù)。
2)學術水平相似性定義 兩個學者的學術水平相似性定義為學者u和v的學術水平差值的絕對值倒數(shù):
可以知道,S(u,v)的取值在[0,1],該值將用于對科研合作網(wǎng)絡Guu=(U,Euu)中邊的權重weight(u,u)賦值。
2.3 {主題—學者}圖
定義3 {主題—學者}圖。若T={t1,t2,…,tp}為從學者論文中提取的研究主題集合,Etu={e1,e2,…,eh}為學者與其研究主題的邊集,{主題—學者}圖定義為Gtu=(T,U,Etu)。
定義4 主題—學者連邊權重weighttu。一個學者往往有不止一個研究主題,因此對于不同的研究主題也有不同的研究強度,本文對這種研究強度進行衡量。假設通過主題提取模型可以提取到學者在對應研究主題上的概率分布,則該概率將賦值給Etu作為weight(t,u)的權重值。本文使用LDA主題提取模型提取學者的研究主題。
LDA(latent Dirichlet allocation)是一種借助詞袋模型對文檔主題分布進行提取的概率模型。該模型利用先驗概率分布(Dirichlet分布)以及文檔中詞匯所屬的主題進行計算,每個詞匯都可由某個主題生成,一篇文檔可以包含多個主題。LDA模型流程如圖1所示。其中:θ是文檔—主題概率分布;ρ是計算θ的超參數(shù),是一個K維向量;φ是主題—詞概率分布,λ是φ的超參數(shù);η為詞,δ是詞的主題分布;τ是一篇文檔中詞的數(shù)目,σ是總的文檔數(shù);K為主題個數(shù)。Dirichlet概率密度函數(shù)的計算公式如下:
學者的主題有時是動態(tài)變化的,并且研究主題往往不唯一,為了在一定范圍內(nèi)提取到主要的研究主題,本文將學者四年內(nèi)發(fā)表的論文作為提取文檔集合,提取K個分布概率最大的主題構建主題向量;將其分布概率作為該學者研究主題的感興趣程度,對{學者—研究主題}圖中邊的權重weight(t,u)進行賦值。LDA模型對于短文本的主題提取效果不好,本文在提取時選取學者論文的摘要、引言、結論等對論文主題具有描述性的文本片段作為語料數(shù)據(jù),避免提取數(shù)據(jù)的稀疏性。
2.4 {學者—水平標簽}圖
定義5 {學者—水平標簽}圖。若對于某學者可以用某個標簽集合中的某一個描述其學術水平所處的階段,則可以構造{學者—水平標簽}圖Gul=(U,L,Eul),其中Eul={e1,e2,…,eg}表示學者與水平標簽的關系,L={l1,l2,…,lk}為學術水平標簽集合。
定義6 水平標簽生成。假定學術水平相近的學者間擁有相同的水平標簽,在本文中利用DBSCAN聚類算法將學者按照學術水平定義指標進行聚類后,按照其所在的簇劃分后賦予學者,DBSCAN的具體描述如下。
DBSCAN算法是無監(jiān)督學習中基于密度的空間聚類算法,它將達到一定密度區(qū)域內(nèi)的樣本劃分為簇,即認為聚類空間中一定區(qū)域內(nèi)所包含的樣本數(shù)目不小于某一給定的閾值,那么該區(qū)域中的樣本為同簇樣本。與傳統(tǒng)的算法相比,它具有以下優(yōu)點:a)與K-means相比不需要指定聚類的個數(shù),同時對初始聚類點的選取不敏感,使得聚類的簇也不會產(chǎn)生偏倚;b)在聚類的同時可以發(fā)現(xiàn)異常點。本文依據(jù)學術水平指標(式(1))以及參與學術研究的時間年限作為學者聚類的屬性。
DBSCAN算法的一些概念如下:MinPts表示一個簇中最少所需數(shù)據(jù)點的個數(shù),即密度閾值;ε鄰域表示以給定樣本點為圓心、ε半徑內(nèi)的區(qū)域;核心點表示以該樣本點為圓心、ε半徑內(nèi)區(qū)域中的樣本點多于MinPts的樣本點;邊緣點表示ε半徑內(nèi)區(qū)域中的樣本點少于MinPts但仍處于核心點ε半徑內(nèi)的點;噪聲點表示既非核心點也非邊緣點的樣本點;直接密度可達表示如果存在數(shù)據(jù)集D以及樣本點p,q∈D,當p在核心點q的ε鄰域內(nèi),則稱樣本點p從樣本點q出發(fā)時是直接密度可達的;密度可達表示若存在樣本鏈p1,p2,…,pn∈D,和兩個樣本點p,q∈D,當p=pi和q=pn是從pi-1出發(fā)是直接密度可達的,則稱q由p密度可達;密度相連表示如果存在樣本點o∈D,使得樣本點p,q∈D通過樣本點o后密度可達,則稱p、q是密度相連的。
算法1 DBSCAN算法
輸入:MinPts,ε鄰域,學者數(shù)據(jù)集U={u1,u2,…,un}。
輸出:聚類簇l1,l2,…,lc。
1 初始化核心點集合H=,初始化簇數(shù)c=1;
2 for i=1,2,…,q do
3 if ui未被標記then
4 標記ui是第k簇;
5 P=ui的ε鄰域內(nèi)節(jié)點集合;
6 if |P|gt;=MinPts then
7 H=H∪ui;
8 for j=1,2,…,|P| do
9 ui=pj;
10 遞歸跳轉到步驟3;
11 k++;
12 else
13 標記ui是噪聲點;
14 end if
15 end if
16 end for
17 依據(jù)每個用戶的標記進行分簇返回l1,l2,…,lc。
聚類后得到c個簇,可以生成c個水平標簽的節(jié)點集合L={l1,l2,…,lc},學者與對應的水平標簽進行連邊,生成{學者—水平標簽}圖Gul=(U,L,Eul)。由于是按照學術水平進行聚類,所以同一個水平標簽所連接的學者間學術水平是相似的,水平標簽又僅僅是對學者所在簇群體的一個標志。為了賦予其一個合理的權重,在本模型中,Gul圖中邊Eul的權重weight(u,l)定義為與水平標簽l所連接學者節(jié)點u的全部邊權重的均值,如式(5)所示。
weight(u,l)=∑y∈Γ(u)weight(u,y)d(u)(5)
其中:Γ(u)為學者節(jié)點u相鄰節(jié)點的集合;d(u)為節(jié)點u的度。
2.5 基于{主題—學者—水平標簽}圖的偏向重啟隨機游走
定義7 {主題—學者—水平標簽}圖。通過上述定義的學者合作者網(wǎng)絡、{主題—學者}圖Gtu以及{學者—水平標簽}圖Gul,可以構建成{主題—學者—水平標簽}圖Gtul=(T,U,L,Etul),其中Etul={Etu,Euu,Eul}。
本文提出的科研合作者模型ALSRec基于上述{主題—學者—水平標簽}圖(圖2),使用一種依據(jù)邊的權重大小進行有偏向隨機游走的模型——偏向重啟隨機游走算法[28](biased random walk with restart,BRWR),模型將設置游走粒子在不同類型節(jié)點間以不同的跳轉概率進行游走,從而計算學者節(jié)點間的訪問概率,經(jīng)過多次迭代,學者節(jié)點間的訪問概率將趨于穩(wěn)定,最終依據(jù)學者節(jié)點間的相互訪問概率大小進行推薦。
如相關工作中所述,隨機游走算法中節(jié)點間等概率游走的策略往往并不符合實際情況,因此,本文利用有偏向重啟隨機游走算法對圖2網(wǎng)絡中的節(jié)點有偏好地進行選擇。該算法通過調(diào)整節(jié)點間的轉移概率,使得相鄰節(jié)點中度值相對較大的節(jié)點具有更大的轉移概率(游走時的偏向概率),其主要過程如下:a)當游走粒子從圖中的起始節(jié)點出發(fā),每次游走有兩個選擇,即以轉移概率a游走到相鄰節(jié)點,或以概率1-a返回初始節(jié)點;b)當以轉移概率a移動到相鄰節(jié)點時,此時會以偏向概率w選擇其中一個鄰居節(jié)點作為下一步移動到的節(jié)點;c)重復以上過程,直至訪問概率達到平穩(wěn)狀態(tài)。
本文提出的ALSRec模型中,節(jié)點間的游走偏向概率由邊的權重大小決定,節(jié)點間邊的權重越大,則轉移概率越大,將相鄰節(jié)點的權重進行歸一化得到各個節(jié)點的偏向轉移概率w。
其中:Γ(x)為x節(jié)點的相鄰節(jié)點集合;∑y∈Γ(x)weight(x,y)β用于偏向轉移概率的歸一化;β是水平偏向調(diào)節(jié)參數(shù),βgt;0時游走粒子轉移時偏向權重大的相鄰節(jié)點,βlt;0時則偏向權重小的相鄰節(jié)點,β=0時為無偏向游走,即節(jié)點間的轉移概率相等。
假設初始時刻t,學者的游走粒子在節(jié)點x處,在t+1時刻粒子到達網(wǎng)絡中各個節(jié)點的訪問概率向量πx為
其中:qx為N維初始狀態(tài)的列向量,且僅有x節(jié)點位置值為1,其余元素為0;1-α為重啟概率;W為偏向轉移概率矩陣。
當t→∞時,游走粒子到合作網(wǎng)絡中各節(jié)點的轉移概率逐漸趨于穩(wěn)定,穩(wěn)定后的訪問概率向量如下:
最后得到各節(jié)點間的訪問概率APxy:
訪問概率APxy表示目標學者x到推薦學者y的訪問概率πxy以及推薦學者y到目標學者x的訪問概率πyx之和。最終推薦時,將APxy排序后選取值最大的N個學者節(jié)點作為top-N推薦的學者。ALSRec推薦模型的偽代碼如下:
算法2 ALSRec模型
輸入:學者集合U、學者論文及相關信息數(shù)據(jù)EP。
輸出:按照訪問概率排序的推薦學者列表。
1 根據(jù)合作數(shù)據(jù)生成學者的合作者網(wǎng)絡Guu=(U,Euu),并對權重weight(u,u)賦值;
2 利用LDA模型提取學者論文中的研究主題概率分布,生成研究主題節(jié)點集合T和{主題—學者}圖Gtu=(T,U,Etu),并對weight(t,u)賦值;
3 利用DBSCAN聚類算法生成學術水平標簽節(jié)點集合L和{學者—水平標簽}圖,并對weight(u,l)權重賦值;
4 由上述得到數(shù)據(jù),建立{主題—學者—水平標簽}圖Gtul=(T,U,L,Etul);
5 初始化Gtul的偏向跳轉矩陣W和節(jié)點訪問概率矩陣S中的元素為0;
6 利用式(6)計算網(wǎng)絡中各節(jié)點間的偏向轉移概率并更新歸一化的偏向轉移矩陣W;
7 while S不收斂do//節(jié)點間訪問概率收斂
8 πx=(1-p)(I-pWT)-1qx;
9 APxy=πxy+πyx;
10 end while;
11 top-N=sort(AP);
//對目標學者與其他學者的訪問概率進行排序推薦
12 return top-N
3 實驗與分析
3.1 數(shù)據(jù)集
a)MAG(Microsoft academic graph,微軟學術圖譜)是微軟公司開發(fā)的異構圖學術知識庫(https://docs.microsoft.com/en-us/academic-services/),包含科學出版物記錄、論文引用關系以及作者、機構、期刊、會議和研究領域等,主要由必應網(wǎng)絡搜索引擎和必應學術搜索引擎在內(nèi)的知識庫構建。
b)DBLP是德國特里爾大學以計算機領域作者為核心的英文文獻數(shù)據(jù)庫(https://dblp.org),存儲了大量國際期刊和會議發(fā)表論文的信息,主要包括論文標題、作者、發(fā)表日期等。與MAG數(shù)據(jù)庫獲取數(shù)據(jù)的方法相同,也是使用官方提供的API請求數(shù)據(jù)。
c)C-DBLP是中國人民大學開發(fā)維護,最初以國內(nèi)權威計算機期刊為數(shù)據(jù)來源的中文文獻數(shù)據(jù)庫(http://cdblp.ruc.edu.cn/),與DBLP類似,該數(shù)據(jù)庫同樣以作者為核心,提供中文文獻信息的檢索和查詢。目前,已擴展收錄2 430 048篇論文(25個領域),4 003 276篇學位論文(53個研究領域),1 437 755位研究人員。
本文通過構建接口請求,從上述三個數(shù)據(jù)庫中的計算機領域中提取到5 416名學者數(shù)據(jù),包括2010—2021年的合作數(shù)據(jù)以及他們的論文信息。其中2010—2018年的數(shù)據(jù)作為訓練集,2018—2021年的數(shù)據(jù)作為測試集。
3.2 評價指標及參數(shù)設置
本文使用準確率、召回率、F1指數(shù)來評價本文模型及對比模型的推薦表現(xiàn),假設R(u)是推薦模型在測試集中獲得的學者u的真實合作列表,T(u)是學者u在使用訓練集產(chǎn)生的模擬預測的合作列表,則三種評價指標的定義如下:
為了評價推薦合作的學者間水平差距的匹配程度,實驗將采用MAE指標來計算推薦合作學者間學術水平差距的均值,若MAE值越小,則說明推薦的學者合作關系越匹配,MAE為
其中:ru和rv分別是目標學者u的學術水平系數(shù)和推薦學者的學術水平系數(shù)。此外,鏈路預測算法中常用的AUC指標也同樣適用于評價本文模型。該指標定義為模型預測的結果中,已存在的邊比不存在的邊的訪問概率APxy分值大,那么就加1分,如果相等則加0.5分,這樣獨立地比較n次,假設有n′次測試集中的邊分值大于未出現(xiàn)的邊,有n″次相等,如果所有分數(shù)都是隨機產(chǎn)生的,那么AUC=0.5。AUC指標定義為
模型的主要參數(shù)設置如下:轉移概率α=0.85(隨機游走模型常用數(shù)值[29]),偏向參數(shù)β=0.2,學者主題數(shù)K=100,聚類的個數(shù)c=4。
3.3 時間復雜度分析
ALSRec模型依據(jù)步驟先后,主要包括數(shù)據(jù)預處理的離線推薦階段和計算特定用戶間訪問概率的在線推薦階段(圖3),其中前一階段包括候選學者主題的提取、學術水平的計算以及學者的聚類,其產(chǎn)生的數(shù)據(jù)可以作為預處理后的中間結果保存在數(shù)據(jù)庫中,當有用戶需要推薦時,只需獲取目標用戶的信息并與數(shù)據(jù)庫中候選學者保存的數(shù)據(jù)進行訪問概率的計算即可。因此,該節(jié)只考慮模型在線推薦階段的時間復雜度。
假設本文模型中節(jié)點的數(shù)量為v,當t→∞時,BRWR算法訪問概率向量(式(8))將有穩(wěn)態(tài)解πx=(1-α)(I-αWT)-1,其中包括矩陣減法運算、矩陣的求逆或者求偽逆的運算。矩陣的減法運算時間復雜度為O(v),矩陣求逆運算的時間復雜度為O(v3),因此計算BRWR相似度指標APxy的時間復雜度為O(v3)。
3.4 偏向參數(shù)β選擇
偏向參數(shù)β決定粒子轉移時對權重的依賴程度(式(6))。實驗中設置β的步長為0.1,訓練集與測試集的比例為8:2,平均進行20次獨立實驗,每次隨機地劃分訓練集和測試集,最后取AUC值的均值,實驗結果如圖4所示。可以發(fā)現(xiàn),本文ALSRec模型的AUC在最大值時β不為0,這表明相比于隨機游走(β=0時),帶有偏向性的隨機游走能夠有效提高預測的精度,而AUC最大值時βgt;0說明偏向權重大的邊,即推薦時偏向學術水平更相似、研究主題更相近的學者節(jié)點能夠擁有更好的預測表現(xiàn),這也證實了本文在學術水平相似的學者間有著更大合作可能性的假設。本組實驗得到β的最優(yōu)值為0.2,后續(xù)實驗將在該值下進行。
3.5 主題數(shù)對模型性能的影響
一個學者往往有多個研究主題,這組實驗將選取合適的主題數(shù),模型將設置四個不同的研究主題維度K={10,50,100,150},觀察在準確率、召回率和F1指數(shù)的表現(xiàn)。主題數(shù)對模型的影響如圖5所示。可以發(fā)現(xiàn),主題數(shù)與推薦表現(xiàn)在一定范圍內(nèi)為正比關系,當K=100時,本文模型在三種評價指標上能夠獲得較好的表現(xiàn),此時推薦的平均準確率為22%,而召回率為17%,F(xiàn)1指數(shù)為19%;相比K=0,即不考慮研究主題標簽節(jié)點時,推薦準確率僅為10%,表現(xiàn)最差。因此,本模型設置主題數(shù)K=100。
3.6 學者水平聚類個數(shù)的選擇
對學者按照學術水平指標(式(1))進行聚類,之后對相同簇的學者賦予水平標簽,選取合適的學術標簽數(shù)c決定了模型對學者學術水平劃分的細粒度。劃分的簇數(shù)并非越多越好,過于細致的劃分可能會丟失潛在的合作關系,因此本組實驗設置聚類個數(shù)c在[1,6],選取最合適的劃分數(shù)量。
利用DBSCAN對部分學者進行劃分后的可視化如圖6所示,實驗結果如表1所示。可以知道,隨著聚類個數(shù)增加,模型推薦的表現(xiàn)先上升然后再下降,聚類的個數(shù)c=4時模型的表現(xiàn)最好,相較于c=1時推薦表現(xiàn)最差,這是由于此時等價于不對學者進行水平劃分,游走過程中難以通過水平標簽跳轉到水平相似的學者;c=6時,學者由于被劃分成較多簇,所以也會丟失大量潛在的合作者。后續(xù)實驗將控制聚類的個數(shù)設定為c=4。
3.7 模型對比
為對比本文提出的ALSRec推薦模型與現(xiàn)有模型的推薦效果,本組實驗與其他四種合作者推薦模型在MAG、DBLP、C-DBLP三個數(shù)據(jù)集上進行對比。
a)BCR[30],該模型綜合了合作網(wǎng)絡中學者的研究主題分布和研究者的影響力,以及將能否給用戶帶來合作收益作為評價的依據(jù),提供了最有益的合作者推薦。
b)CNRec[31],基于共同鄰居的推薦模型,在基于社交網(wǎng)絡的推薦中十分流行。該模型基于這樣的假設:兩個學者若擁有越多共同的合作者,那么他們未來將有越大合作的可能。
c)MVCWalker[32],采用了重啟隨機游走算法,并將合作關系的順序、時間及歷史合作次數(shù)三個因素加入到模型中來進行個性化推薦。
d)CCRec[13],該模型利用內(nèi)容和社會網(wǎng)絡兩種方法來推薦合作者,模型使用word2vec來識別學術領域,并采用隨機游走模型來計算研究者的特征向量。
實驗結果如圖7所示。可以發(fā)現(xiàn),在三個不同的數(shù)據(jù)集上,本文提出的ALSRec模型要好于現(xiàn)有的四種模型,首次推薦時在MAG數(shù)據(jù)集上的準確率達到了22.7%,之后隨著推薦人數(shù)的增加,準確率不斷下降,但是仍然要好于其他模型。此外,基于相鄰共同學者節(jié)點CNRec推薦模型表現(xiàn)較差,推薦的準確率最高不超過7.5%。在召回率和F1指數(shù)評價指標上,本文模型則達到了16.9%和12.5%。與其他四種模型相比,本模型在三種評價指標方面平均增加了5.4%、2.7%、3.8%。
總的來說,利用隨機游走模型在學術網(wǎng)絡中尋找研究興趣相似的學者進行推薦能夠使得模型擁有較好的推薦效果,對于學術水平相似的學者給予一定的關注度能夠進一步提高學者間產(chǎn)生合作的概率,這驗證了本文學術水平相似的學者具有更大合作概率的假設,同時說明了模型的有效性。
此外,本文還計算了推薦后兩個學者之間的學術水平差距的均值,并用MAE指標來度量學者間的匹配程度,結果如表2所示。可以發(fā)現(xiàn),ALSRec在上述五種推薦模型中的MAE值最小,在DBLP數(shù)據(jù)集上僅為19.37,而BCR模型的MAE在C-DBLP數(shù)據(jù)集上最大為47.14,這是由于其推薦策略是推薦能夠給目標學者帶來最大學術收益的合作者,這導致了學者間學術水平必然存在一定的差距。其他基于隨機游走的推薦模型,如MVCWalker及CCRec,并不考慮推薦時學者間學術水平應該具有一定相似性的因素,因此推薦結果受到限制。至于CNRec模型,學者間的學術水平MAE值并不大,這是因為兩個學者擁有更多的共同鄰居,本身就意味著兩者在某些特征上具有一定的相似性,其中一個就是學術水平相似,但是由于僅考慮共同鄰居即合作網(wǎng)絡中二階路徑內(nèi)的學者,推薦的范圍受到制約。
本文以DBLP數(shù)據(jù)集中馬秀琴教授的合作數(shù)據(jù)為例,利用其2018年之前的合作數(shù)據(jù)對2019—2021年的合作學者進行top10的預測,本文模型及對比模型的推薦結果如表3所示。可以發(fā)現(xiàn)在推薦的10個學者中,本文的ALSRec模型預測正確的合作學者為4個,其中兩個為之前未合作過的新學者,整體的推薦新鮮度為60%,平均水平差距為17.2。相較于其他推薦模型,BCR模型的推薦新鮮度高但是很少有預測準確的,而其他三種模型的預測準確度尚可,但都是曾經(jīng)有過合作的歷史合作者,所以新鮮度不高。總體而言,本文模型在推薦正確的個數(shù)、水平差距和推薦新鮮度上都表現(xiàn)較好。
4 結束語
本文考慮學者間學術水平對合作產(chǎn)生的影響,通過定義一種{主題,學者,水平標簽}圖,利用鏈路預測中的偏向重啟隨機游走模型提出了一種考慮學者間可達性、研究方向相似性以及學術水平相似的合作推薦模型。實驗證明本文模型推薦的合作建議無論在推薦指標或是目標學者與推薦學者之間的差距方面都好于現(xiàn)有模型。但是有些方面還需要繼續(xù)研究以提升模型的推薦表現(xiàn),比如在學者主題提取過程中,可供提取的論文數(shù)據(jù)較少或者論文文本短小時,LDA模型可能不太適用;此外,模型對那些學術研究剛起步階段還沒有太多發(fā)表論文和學術成果的學者,由于其合作關系的稀疏性,難以構建其精確的主題畫像,所以推薦時表現(xiàn)不佳,還需要進一步研究。總的來說,本文將學術水平差距作為推薦時的考慮因素加入到模型中,不但提升了推薦表現(xiàn),還證明了合作者之間學術水平差距對合作關系的建立是極其重要的。
參考文獻:
[1]Katz J S,Martin B R.What is research collaboration?[J].Research Policy,1997,26(1):1-18.
[2]Lee S,Bozeman B.The impact of research collaboration on scientific productivity[J].Social Studies of Science,2005,35(5):673-702.
[3]Chen H H,Gou Liang,Zhang Xiaolong,et al.CollabSeer:a search engine for collaboration discovery[C]//Proc of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries.New York:ACM Press,2011:231-240.
[4]Araki M,Katsurai M,Ohmukai I,et al.Interdisciplinary collaborator recommendation based on research content similarity[J].IEICE Trans on Information and Systems,2016,E100.D(4):785-792.
[5]Chen Jie,Wang Xin,Zhao Shu,et al.Content-enhanced network embedding for academic collaborator recommendation[J].Complexity,2021,2021(2):article ID 7035467.
[6]Kong Xiangjie,Mao Mengyi,Liu Jiaying,et al.TNERec:topic-aware network embedding for scientific collaborator recommendation[C]//Proc of IEEE SmartWorld,Ubiquitous Intelligence amp; Computing,Advanced amp; Trusted Computing,Scalable Computing amp; Communications,Cloud amp; Big Data Computing.Piscataway,NJ:IEEE Press,2018:1007-1014.
[7]Wang Wei,Yu Shuo,Bekele T M,et al.Scientific collaboration patterns vary with scholars’ academic ages[J].Scientometrics,2017,112(1):329-343.
[8]Lathabai H H,Nandy A,Singh V K.Expertise-based institutional collaboration recommendation in different thematic areas[C]//Proc of the 11th International Workshop on Bibliometric-Enhanced Information Retrieval.2021:45-52.
[9]劉欣,杜秀春,康文杰.基于同構合著網(wǎng)絡的合作者推薦模型研究[J].長沙大學學報,2017,31(2):62-66.(Liu Xin,Du Xiuchun,Kang Wenjie.Research on co-author recommender model based on homogeneous coauthor networks[J].Journal of Changsha University,2017,31(2):62-66.)
[10]熊回香,楊雪萍,蔣武軒,等.基于學術能力及合作關系網(wǎng)絡的學者推薦研究[J].情報科學,2019,37(5):71-78.(Xiong Hui-xiang,Yang Xueping,Jiang Wuxuan,et al.Scholars recommend research based on academic competence and collaborative networks[J].Information Science,2019,37(5):71-78.)
[11]李琳,唐守廉.融合內(nèi)容表示的度量排序學習推薦模型[J].電子學報,2020,48(8):1615-1622.(Li Lin,Tang Shoulian.Metric ranking learning recommendation model based on content representation[J].Acta Electronica Sinica,2020,48(8):1615-1622.)
[12]秦紅武,趙猛,馬秀琴,等.基于學術水平聚類的科研合作者推薦模型[J/OL].計算機工程與應用.(2021-05-28)[(2022-02-10].http://kns.cnki.net/kcms/detail/11.2127.TP.20210527.1636.017.html.(Qin Hongwu,Zhao Meng,Ma Xiuqin,et al.Collaborator recommendation model based on academic level clustering[J/OL].Computer Engineering and Applications.(2021-05-28)[2022-02-10].http://kns.cnki.net/kcms/detail/11.2127.TP.20210527.1636.017.html.)
[13]Kong Xiangjie,Jiang Huizhen,Yang Zhuo,et al.Exploiting publication contents and collaboration networks for collaborator recommendation[J].PLoS One,2016,11(2):e0148492.
[14]Li Siying,Abel M H,Negre E.Ontology-based semantic similarity in generating context-aware collaborator recommendations[C]//Proc of the 24th International Conference on Computer Supported Cooperative Work in Design.Piscataway,NJ:IEEE Press,2021:751-756.
[15]Pu Shanshan.Expert recommendation model in scientific and technical collaboration based on complementary knowledge[J].Information Studies:Theory amp; Application,2018,41(8):96-101.
[16]Li Chunying,Tang Yong,Xiao Zhenghong,et al.Influential scholar recommendation model in academic social network[J].Journal of Computer Application,2020,40(9):2594-2599.
[17]Zhou Xing,Ding Lixin,Li Zhaokui,et al.Collaborator recommendation in heterogeneous bibliographic networks using random walks[J].Information Retrieval,2017,20(4):317-337.
[18]Nakamura K,Okamoto K.Directed graph-based researcher recommendation by random walk with restart and cosine similarity[C]//Proc of the 11th International Conference on Soft Computing and Intelligent Systems and the 21st International Symposium on Advanced Intelligent Systems.Piscataway,NJ:IEEE Press,2020.
[19]Li Jing,Xia Feng,Wang Wei,et al.ACRec:a co-authorship based random walk model for academic collaboration recommendation[C]//Proc of the 23rd International Conference on World Wide Web.New York:ACM Press,2014:1209-1214.
[20]Yang Chen,Liu Tingting,Liu Lei.A nearest neighbor based personal rank algorithm for collaborator recommendation[C]//Proc of the 15th International Conference on Service Systems and Service Management.Piscataway,NJ:IEEE Press,2018.
[21]Huynh T,Takasu A,Masada T,et al.Collaborator recommendation for isolated researchers[C]//Proc of the 28th International Conference on Advanced Information Networking and Applications.Piscataway,NJ:IEEE Press,2014:639-644.
[22]Xiong Huixiang,Yang Xueping,Jiang Wuxuan,et al.Research on scholar recommendation based on similar interest in scientific social-networking sites[J].Information Science,2017,35(9):3-11.
[23]Pradhan T,Pal S.A multi-level fusion based decision support system for academic collaborator recommendation[J].Knowledge-Based Systems,2020,197(6):105784.
[24]田保軍,杜曉娟,楊滸昀,等.云計算環(huán)境下混合協(xié)同過濾優(yōu)化技術研究[J].計算機應用研究,2018,35(7):2079-2083.(Tian Baojun,Du Xiaojuan,Yang Huyun,et al.Research of hybrid collaborative filtering optimized technology in cloud computing[J].Application Research of Computers,2018,35(7):2079-2083.)
[25]Guo Ying,Chen Xi.Cross-domain scientific collaborations prediction using citation[C]//Proc of International Conference on Advances in Social Networks Analysis and Mining.Washington DC:IEEE Computer Society,2013:765-770.
[26]王欣.基于遷移學習的跨領域推薦的方法研究[D].杭州:杭州電子科技大學,2015.(Wang Xin.Research on methods of cross-domain recommendation with transfer learning[D].Hangzhou:Hangzhou Dianzi University,2015.)
[27]王俊,李石君,楊莎,等.一種新的用于跨領域推薦的遷移學習模型[J].計算機學報,2017,40(10):2367-2380.(Wang Jun,Li Shijun,Yang Sha,et al.A new transfer learning model for cross-domain recommendation[J].Chinese Journal of Computers,2017,40(10):2367-2380.
[28]呂亞楠,韓華,賈承豐,等.基于有偏向的重啟隨機游走鏈路預測算法[J].復雜系統(tǒng)與復雜性科學,2018,15(4):17-24.(Lyu Yanan,Han Hua,Jia Chengfeng,et al.Link prediction algorithm based on biased random walk with restart[J].Complex Systems and Complexity Science,2018,15(4):17-24.)
[29]Bagci H,Karagoz P.Context-aware location recommendation by using a random walk-based approach[J].Knowledge amp; Information Systems,2016,47(2):241-260.
[30]Kong Xiangjie,Jiang Huizhen,Wang Wei,et al.Exploring dynamic research interest and academic influence for scientific collaborator re-commendation[J].Scientometrics,2017,113(1):369-385.
[31]Li Shibao,Zhang Yiwei,Liu Jianhang,et al.Recommendation model based on public neighbor sorting and sampling of knowledge graph[J].Journal of Electronics amp; Information Technology,2021,43(12):3522-3529.
[32]Xia Feng,Chen Zhen,Wang Wei,et al.MVCWalker:random walk-based most valuable collaborators recommendation exploiting academic factors[J].IEEE Trans on Emerging Topics in Computing,2014,2(3):364-375.