秦紅武,趙 猛,馬秀琴,趙德志,閆文英
西北師范大學 計算機科學與工程學院,蘭州 730070
合作是現(xiàn)代科研工作取得快速進展的一大助力因素,有研究證實,合作和生產(chǎn)力之間有很強的關聯(lián):多產(chǎn)的研究者往往有更多的合作[1]。在科研領域,典型的合作關系是共同完成一篇論文。如今,一篇論文的共同作者往往來自不同學校、機構、地區(qū)。就合作的影響力來說,個人署名的論文也很難比團體署名的論文具有更大的影響力。傳統(tǒng)的科研合作通常都局限在一個小范圍內(nèi),合作者之間都彼此認識,隨著互聯(lián)網(wǎng)的出現(xiàn),知識的獲取變得前所未有的便利。學者們在網(wǎng)絡上互相交流,學術社交網(wǎng)絡隨之擴大,選擇哪些學者作為未來研究的合作者有了更多的選擇。很多研究人員開始去尋找原本并不認識、全新的或遠距離的合作者,以尋求更多創(chuàng)新,擴大自己的學術交往范圍。但是,學術信息的不斷增長,社交網(wǎng)絡的不斷擴大,信息過載使得如何選擇合作者成為了擺在研究人員面前的問題。學術合作者推薦的眾多算法和模型有效地解決了這個問題,它根據(jù)用戶的歷史合作關系、興趣,以及自身的偏好,過濾掉冗余的信息,為用戶推薦可能產(chǎn)生合作關系的候選學者。因此,基于學術大數(shù)據(jù)的合作者推薦系統(tǒng)應運而生。
目前,已有不少基于學術大數(shù)據(jù)自動為科研人員推薦合作者的研究。文獻[2]中利用主題聚類模型提取學者學術領域,并采用重啟隨機游走模型建立并計算研究人員的特征向量進行合作者推薦。文獻[3]中從學者間是否有相似的研究興趣和社會可及性推薦潛在的合作者。文獻[4]中提取目標學者的網(wǎng)絡結(jié)構特征,從而對候選學者進行聚類,選取每簇中影響力最高的學者進行推薦。文獻[5]中利用影響力大的學者作為社區(qū)的核心的節(jié)點,在此基礎上使用復雜網(wǎng)絡拓撲關系分析進行學術社區(qū)檢測,計算學者的影響力,識別其中的權威學者進行推薦。文獻[6]通過化簡合作網(wǎng)絡的結(jié)構,構造出一個具有多種節(jié)點和鏈路的異構網(wǎng)絡,然后利用采用兩種重要度的度量,對網(wǎng)絡中的邊進行加權,使得隨機游走模型能夠偏向具有一定特征的階段。除了以上的研究之外,還有從各個角度對學者進行衡量的推薦工作[7-8]。
但是這些已存在的工作默認為研究者推薦最好或者最有價值的合作者,并且大多側(cè)重于模型的建立和為研究者推薦最好的合作者,卻忽視了一個重要問題:最好的一定是最合適的合作者嗎?在現(xiàn)實世界中,最好的合作者往往是某領域內(nèi)學術水平較高的研究人員,試想如果一個高水平的研究者被大量的推薦給同領域或者跨領域的其他研究人員,他能否有精力去接受如此多的合作呢?或者高水平的學者是否愿意和與自己水平差距過大的學者展開合作呢?顯然,學者之間學術水平的不一致將直接影響合作關系的建立和研究工作的開展。因此,進一步對學者在學術水平上進行劃分,研究學術水平的差異對學者合作過程中所產(chǎn)生的影響,以及如何在推薦時縮小學者之間的水平差距是十分有必要的。同時,需要思考一個新的問題:如何使推薦的合作切實可行?合作者推薦問題,并非僅僅考慮學者間是否有相同的研究興趣,還要考慮目標學者與推薦學者在社會網(wǎng)絡關系中是否具有一定的可達性。因此,可以知道,傳統(tǒng)的基于協(xié)同過濾的推薦模式由于僅僅計算他們某種屬性的相似度,不考慮是否具有一定聯(lián)系的推薦模式在合作者推薦中并不適用。
為了解決上述問題,本文提出了一種考慮學者間學術水平差距的合作者推薦模型(FCR)。該模型首先利用K-means 算法依據(jù)學術水平將學者劃分為三個不同的水平層次。然后在同水平層內(nèi)構建合作者網(wǎng)絡,并在該合作者網(wǎng)絡中使用鏈路預測算法中的Katz指標篩選出可能與目標學者產(chǎn)生合作關系的節(jié)點,并計算他們研究方向的相似性,綜合考慮后按照計算的得分進行Top-N推薦。
根據(jù)實體之間的關系,可以建立多種多樣的學術網(wǎng)絡(圖1),例如,學者和論文的關系形成了合作者網(wǎng)絡;被引用文獻與引用文獻之間形成了引文網(wǎng)絡;兩篇文章共同引用同一篇文獻或者多篇相同的文獻,由共引關系構成了共引網(wǎng)絡;兩篇文章共同被一篇文章引用的關系構成了文獻耦合網(wǎng)絡;兩篇論文的關鍵詞以及其共現(xiàn)關系構成了共詞網(wǎng)絡。其中合作者網(wǎng)絡的實質(zhì)是一種社會網(wǎng)絡,用來表示人與人之間的某種聯(lián)系。一個合作者網(wǎng)絡G=(V,E) 由學者實體節(jié)點集合V=(v1,v2,…,vn)與合作關系集合E=(e1,e2,…,em)構成,如果多個學者共同屬于一篇文章的作者,那么他們之間將有一條邊,表示他們具有合作關系。本文的科研合作者網(wǎng)絡均不考慮合作關系的方向性,即認為合作的形成是無方向,相互的。
在科研合作者網(wǎng)絡中進行合作者推薦本質(zhì)是發(fā)掘?qū)W者間的潛在的合作關系,它可以看作是一種鏈路預測問題,即通過已知的網(wǎng)絡節(jié)點和網(wǎng)絡結(jié)構預測可能出現(xiàn)的邊。鏈路預測問題定義為:給定t時刻的社交網(wǎng)絡,如何準確地預測t′時刻將加入到該網(wǎng)絡中的邊。鏈路預測作為數(shù)據(jù)挖掘領域中較為成熟的挖掘方法,在基于社交網(wǎng)絡的推薦中有十分廣泛的應用[9-10]。Guns等人[11]將鏈路預測算法與機器學習技術相結(jié)合,通過構建加權合作網(wǎng)絡,根據(jù)不同度量計算方法計算每個節(jié)點所對應的分數(shù),該分數(shù)用于度量兩個節(jié)點是否有可能產(chǎn)生連接。Wahid 等人[12]提出了一種新的社會網(wǎng)絡鏈接預測方法,該方法利用三種不同的頂點中心度來描述社交網(wǎng)絡中節(jié)點的受歡迎程度和相似性,由此計算兩個節(jié)點產(chǎn)生連接的可能性。Qian 等人[13]提出了一種好友推薦模型,該模型在加權網(wǎng)絡上利用鏈路預測算法和構建的節(jié)點相似性指標給目標用戶推薦潛在的好友。Zeng 等人[14]在基于公共鄰居節(jié)點上附加優(yōu)先連接索引,以基于最近鄰居的本地信息來估計兩個節(jié)點間存在連接的可能性。
當前,基于網(wǎng)絡結(jié)構相似的鏈路預測由于其方法簡單且實際操作性強而引起大量研究。基于網(wǎng)絡結(jié)構相似的鏈路預測算法主要依賴于網(wǎng)絡結(jié)構信息,如節(jié)點的度、聚集系數(shù)[15]、節(jié)點間的路徑[16]、社團結(jié)構[17]等。按照所用網(wǎng)絡結(jié)構信息的不同,可以分為三類相似性指標:(1)基于局部信息的相似性指標,它利用節(jié)點的度等局部信息,計算節(jié)點間的相似性,由于復雜度低,適用于大規(guī)模的網(wǎng)絡。這類指標主要包括:Jaccard指標、Sorenso指標、大度節(jié)點有利指標、大度節(jié)點不利指標、LHN-I指標。(2)基于路徑的相似性指標,通過節(jié)點間路徑的信息,如節(jié)點間路徑數(shù)量,路徑中間節(jié)點的信息計算得到的相似性。這類指標有三個:局部路徑(local path)指標、Katz指標、LHN-II。(3)基于隨機游走的相似性指標,該類指標基于隨機游走模型,通過模擬隨機粒子的轉(zhuǎn)移,計算節(jié)點間的步長,訪問概率等信息計算得到相似性。主要包括平均通勤時間、重啟隨機游走、SimRank、Cos+、局部隨機游走的指標[18]等。
云計算的出現(xiàn),系統(tǒng)可將復雜的鏈路預測算法在大規(guī)模的網(wǎng)絡上以并行的方式分布執(zhí)行。在并行方式下的算法的迭代效率要比普通的數(shù)據(jù)并行系統(tǒng)下的執(zhí)行效率有數(shù)量級的提高[19]。
本文提出的FCR 模型是為了推薦最合適的合作者給目標學者,即學術水平相近,研究興趣一致的合作者。該模型使用K-means 聚類算法將學者劃分為若干簇,每一簇中的學者學術水平相似,然后在同簇學者間構建合作者網(wǎng)絡,利用Katz相似性指標尋找和目標學者有可能產(chǎn)生合作關系的候選學者,同時,結(jié)合LDA主題提取模型從學者發(fā)表論文的摘要中提取出其研究興趣向量,并計算兩個學者間研究方向的接近程度,最后,將Katz 路徑指標和研究興趣的相似度綜合考慮進行推薦。FCR模型主要流程如圖2所示。詳細步驟如下:
(1)從微軟學術數(shù)據(jù)集中獲取學者發(fā)表的論文信息,包括共同作者、摘要、被引量、期刊影響因子等,并根據(jù)學者間的合作關系生成合作者網(wǎng)絡。
(2)將合作網(wǎng)絡中的學者根據(jù)其學術水平的大小和從事研究工作的長短,利用K-means聚類算法將學者分為三個簇。
(3)步驟(2)中聚類后,計算目標學者與其所在簇中學者的Katz相似性指標。
(4)從論文摘要中提取學者的研究主題信息,計算目標學者與同簇學者間的研究主題相似性。
(5)綜合考慮學者的Katz路徑相似性指標與研究主題相似度,按照Rankscore評分大小排序后,對學者進行Top-N推薦。
模型中用到的關鍵參數(shù)如表1。

表1 FCR模型的關鍵參數(shù)符號Table 1 Key notations in FCR model
對學者的學術水平進行度量是一件很有挑戰(zhàn)的工作,目前雖然有著許多個人學術水平的評價方法,例如成果總數(shù)(P)、引文總數(shù)(C)、篇均引文數(shù)(CPP)、相對指標、相對引文率(RCR)、皇冠指數(shù)(CI)、期刊影響因子(IF)等、但是尚并沒有一個公認的統(tǒng)一標準。
考慮常用的幾種學術水平的評價指標,主要包括以下三個方面:發(fā)表論文量、總引文數(shù),以及發(fā)表期刊的影響因子。綜合上述指標,本文將學術水平的計量方式,定義為學者每篇論文所在期刊的影響因子與論文被引次數(shù)乘積的均值,計算公式如下:其中,EP是學者發(fā)表的論文集合,IF(p)表示發(fā)表論文p所在期刊的影響因子,c為論文p的被引次數(shù)。
在對學者的水平進行定義之后,本文考慮同水平學者從事研究工作的時間的長短也應該具有一定相似性,所以FCR模型將在AL的基礎上,同時考慮學者研究工作時間的長短,即學者首次發(fā)表論文和最近一次發(fā)表論文的年份區(qū)間,本文利用這兩個指標對學者進行聚類。
本文提出的模型利用K-means 均值聚類算法(Kmeans clustering algorithm)依據(jù)學術水平對學者們進行聚類,該算法是無監(jiān)督學習的聚類算法,它采用距離作為樣本間相似性的評價指標,即認為兩個樣本的距離越近,那么它們的相似度就越大。該聚類算法通過給定算法聚類的個數(shù)K,找出K個聚類的中心c1,c2,…,cK,經(jīng)過多次迭代計算,使得每個簇內(nèi)樣本xi到所在簇的簇心cv的平方距離的和Wn最小,假設數(shù)據(jù)集為X={x1,x2,…,xn},分為K個簇S={s1,s2,…,sK},則Wn表達式如下:
K-means算法的思想主要分為以下幾個步驟:
(1)隨機選擇K個樣本點作為各個簇的初始質(zhì)心C={c1,c2,…,cK}。
(2)計算每個點分別到K個質(zhì)心的距離的歐式距離d,然后將該點分配到最近的聚類中心,由此生成K個簇,公式如下:
其中,Nt為第i個簇中樣本的個數(shù)。
(4)不斷迭代(2)~(4),直至質(zhì)心C={c1,c2,…,ck}收斂,或者達到迭代設定的次數(shù)。
可以知道,在劃分完畢時,每一簇內(nèi)的學者,其學術水平是相似的。對于目標學者,本文只考慮他所在簇內(nèi)的學者是否有可能與他合作。
K-means算法的初始階段,要選取K個點作為初始的聚類中心,然后再此基礎上進行反復迭代。選取的點不同,聚類的結(jié)果就可能不同,所以這個算法的聚類結(jié)果對初始值依賴性很強,此外,如果碰到最極端的初始值選取情況,將使得算法的運行時間加長,聚類過程難以收斂,因而聚類結(jié)果更加難以預測。為了緩解上述問題,在選擇K-means 聚類的初始質(zhì)心時,可以采用以下幾種初值的選取方法:
(1)將樣本直觀地分成K類,計算各類的均值作為初始聚類的中心。
(2)通過“密度法”選擇代表點作為初始聚類中心。
(3)通過不斷擴大聚類個數(shù),直至解出K類問題的代表點,即先將全部樣本看成一個類,樣本總均值的點就是第一類的初始聚類中心,之后選擇和第一類初始聚類中心最遠的一個樣本作為2 類聚類的第二個聚類中心。以此類推,直至找到第K個聚類中心點。
(4)進行多次初值選擇、聚類,找出一組最優(yōu)的聚類結(jié)果。
(5)采用遺傳算法或者免疫規(guī)劃方法進行混合聚類。
在合作關系的拓展過程中,一對合作者,他們的一階朋友比二階朋友更有可能加入到他們的合作關系中去,同理,二階朋友相比于三階朋友,有更大的概率加入與目標學者的合作關系中去。由此,可以發(fā)現(xiàn)合作關系的傳遞是一個衰減的過程,在挖掘潛在的合作學者時需要對這種衰減情況進行模擬,Katz指標是鏈路預測算法中基于路徑的相似性指標,其主要思想是考慮網(wǎng)絡中所有節(jié)點的路徑數(shù),對長路徑賦予較小的權重,短段路徑賦予較大的權重,該相似性指標被定義為:
通過該指標,可以發(fā)現(xiàn)隨著連接路徑長度的增加,長路徑的占比逐漸減少,使得短路徑的作用增大。即距離目標學者近,且可以有多條路徑相連的節(jié)點學者間的相似度更大。由此,可以篩選出潛在的與目標學者產(chǎn)生連接的候選學者,在此基礎上考慮他們的研究興趣是否相似。
本文為目標學者推薦具有相同研究興趣的合作者,需要對學者的研究主題進行提取并且計算相似度。FCR 模型使用LDA(latent dirichlet allocation)主題提取模型,也稱為三層貝葉斯概率模型(詞-主題-文檔),從學者所發(fā)表論文的摘要中提取研究興趣。LDA模型假設文本中的詞是由某個主題生成,這些詞在不同的主題上服從Dirichlet 分布,同樣,這些主題被分布在所得到的文本中,并且服從Dirichlet分布,Dirichlet概率密度計算函數(shù)計算公式如下:
LDA主題提取模型流程如圖3。
其中θ是“文檔-主題”概率分布,α是θ的超參數(shù),是一個K維向量。φ是“主題-詞”概率分布,β是φ的超參數(shù)。W為詞,z是詞的主題分布,N是一篇文檔中詞的數(shù)目,M是總的文檔數(shù),K為主題個數(shù)。
由于一個學者往往有許多處于不斷變化的研究主題,因此本文選取學者近4年的前T個主題作為學者的研究興趣向量,如表2。

表2 學者研究主題概率分布Table 2 Probability distribution of research topics
本文通過計算學者研究興趣向量夾角的余弦值評估學者間研究興趣分布的相似程度,即余弦相似度,計算公式如下,其中T是研究主題向量的維數(shù):
研究者大多與學術水平相差較小的研究者展開較多的合作是一個普遍的現(xiàn)實情況,其次,合作的研究者們研究方向一般具有一定程度的相似性。最終,本文在學術水平相似的基礎上,認為興趣相似度高的學者將會有合作的可能,并以研究主題的相似度和路徑相似性指標Katz為依據(jù),綜合考慮進行排序推薦,排序得分的計算公式如下:
其中,SKatz為Katz 路徑相似度,TopicSim為興趣相似度。對目標學者與每個節(jié)點學者的Rankscore進行排序得到Top-N推薦列表。
微軟學術知識圖譜(microsoft academic graph,MAG)是微軟公司提供的一個公開的學術知識庫,由包括Bing Web 檢索以及Bing 學術檢索引擎在內(nèi)的動態(tài)的的知識庫構成。通過項目學術知識服務(project academic knowledge)對接收到的查詢請求進行響應,可查詢的實體數(shù)據(jù)包括:論文、作者、作者單位、期刊、會議、機構、研究領域等(如圖4)。
在接下來的實驗中,本文將計算機領域中的學者數(shù)據(jù)進行提取,共計獲取75 877 個學者信息,其中包括學者ID、學者論文被引總數(shù)、總論文數(shù),論文摘要、發(fā)表日期、刊物等。按照研究方向的不同分為四類,分別是數(shù)據(jù)挖掘方向(18 940 人),數(shù)據(jù)庫方向(23 468 人),圖像處理方向(19 144人),深度學習方向(14 325人)。為了避免學者重名對推薦的影響,實驗采用學者的唯一ID作為標識。
實驗時,將他們在2016—2019 年的數(shù)據(jù)作為訓練集,用于生成合作者網(wǎng)絡以及計算學者的學術水平,2019—2021年的數(shù)據(jù)作為測試集,從而驗證模型的推薦表現(xiàn)。通過構造合適的查詢語句,獲取到的數(shù)據(jù)如表3和表4。

表3 學者的學術水平數(shù)據(jù)Table 3 Academic data of scholars

表4 論文的數(shù)據(jù)Table 4 Data of paper
實驗時采用推薦系統(tǒng)中常用的評價指標:準確率、召回率、F1指數(shù)。此外,還使用平均絕對誤差(MAE)來衡量模型的推薦學者與目標學者在學術水平上的匹配程度。
令R(u)是模型在測試集上給出的用戶u的預測推薦列表,而T(u)是用戶u在訓練集上的推薦列表,則準確率和召回率以及F1指數(shù)的定義如下:
準確率:
本文用平均絕對誤差(MAE)來衡量推薦的學者與目標學者學術水平的匹配程度:
其中,ru是目標學者u的學術水平,ri為推薦學者的學術水平。該誤差值將用于反映模型的推薦學者與目標學者之間學術水平的平均差距。
FCR模型依據(jù)步驟先后的不同,可以分為離線階段和在線階段(圖5),離線階段模型主要對數(shù)據(jù)集中的用戶特征進行提取并保存,例如學者的研究興趣,學術水平,以及對學者聚類的結(jié)果,這些數(shù)據(jù)可以在推薦之前作為中間結(jié)果存儲到數(shù)據(jù)庫中。在線階段主要對學者間的Katz路徑相似度進行計算,并按照計算的結(jié)果生成推薦列表并進行TOP-N推薦。由于離線階段相當于數(shù)據(jù)預處理的過程,因此,本文模型的離線階段的時間復雜度將不被算入到總的時間復雜度中。
假設學者合作網(wǎng)絡中節(jié)點的數(shù)量為v,m是網(wǎng)絡包含的所有節(jié)點中最大的度,則計算Katz路徑相似度指標(公式(5))的時間復雜度為:矩陣乘法的時間復雜度O(mv),加上矩陣逆運算的時間復雜度為O(v3)以及矩陣減法的復雜度為O(v) ,因此FCR 模型的復雜度為O(v3)。相比而言,基于共同鄰居的推薦方法的時間復雜度為O(v2) ,基于隨機游走的推薦模型復雜度為O(v3)。由于FCR 模型只在同簇水平學者間進行推薦,同簇水平學者的劃分在離線階段就已完成,因此推薦時的節(jié)點數(shù)v一般要小于其他推薦模型。所以,本文模型時間復雜度要低于常用的基于隨機游走的推薦模型,F(xiàn)CR 模型時間復雜度雖然高于基于共同鄰居的推薦模型,但是共同鄰居的方法沒有考慮全部的路徑,其推薦效果受到限制。
K-means 算法需要在運行前設置聚類的個數(shù),雖然在對學者進行劃分時,可以劃分多個簇,每個簇中學者的水平相近,但是劃分的簇數(shù)不是越多越好,過于細致的劃分可能會影響推薦時的表現(xiàn)。為了探討聚類個數(shù)對模型推薦表現(xiàn)的影響,本組實驗在4個不同研究領域的學者數(shù)據(jù)集中隨機挑選共7 500名目標學者進行推薦(如表5),聚類結(jié)果如圖6。

表5 不同領域的目標學者數(shù)量分布表Table 5 Distribution of target scholars in different domain單位:人
對聚類后的目標學者在同簇中利用本文提出的模型進行推薦,對比不同聚類個數(shù)對模型推薦表現(xiàn)的影響。實驗結(jié)果如圖7,可以發(fā)現(xiàn),隨著聚類個數(shù)的增加,模型對于四個研究領域的目標學者的推薦的正確率不斷增加,當聚類個數(shù)K=3 時,推薦的平均正確率最高,達到了21.3%。相比于不對學者進行水平劃分(K=1),推薦的平均正確率僅有6.5%。當劃分個數(shù)過多時(K≥4),推薦的正確率卻在不斷降低,這是由于劃分的簇過多,會丟失大量潛在合作學者節(jié)點。因此,設置一個合適的劃分簇數(shù)能提高模型的推薦表現(xiàn)。在本文模型中聚類的個數(shù)K值為3。
學者往往有多個研究興趣,因此,選取合適的主題向量維度才能夠準確衡量兩個學者研究興趣的相似程度。本組實驗在包含四個領域的數(shù)據(jù)集上進行,通過改變FCR模型中的主題數(shù)的方法進行分析。
圖8顯示了FCR模型在四個數(shù)據(jù)集上,設置不同主題數(shù)的推薦表現(xiàn),可以發(fā)現(xiàn),當主題數(shù)小于80(T<80)時,隨著主題數(shù)的增加,推薦的平均準確率不斷提高,在約等于100個主題數(shù)時,推薦的準確率趨于穩(wěn)定,此外,當主題數(shù)為0(T=0)時,模型等同于移除研究主題,僅考慮學者的路徑的可達性以及學術水平是否相似,這時推薦的正確率則最低。通過本組實驗,可以發(fā)現(xiàn)在選取一個合適的主題數(shù)變量時,F(xiàn)CR模型能夠擁有較好且穩(wěn)定的推薦表現(xiàn)。
第一組實驗將學者聚成三簇,按照學術水平的不同可以將他們分為初級學者、中級學者和高級學者。本組實驗將分別對他們利用FCR模型進行推薦,觀察模型對于三種學術水平特征的學者的推薦效果,結(jié)果如圖9。
可以看出,F(xiàn)CR 模型對三種不同水平的學者,推薦的表現(xiàn)各不相同。其中對中級學者的推薦準確率最高,達到了24.3%,而高級學者準確率則為20.8%,初級學者的正確率僅為17%。此外,模型中對于中級學者的推薦無論是在召回率,還是F1指數(shù),也好于高級學者和初級學者,這可能是由于中級學者的合作關系網(wǎng)絡比較成熟,研究方向也比較穩(wěn)定,而初級學者合作關系稀疏且研究方向比較多變。高級學者往往多從事于教學工作,合作關系中也會出現(xiàn)較多的新手學者,從而難以預測這些學者的合作走向。
為驗證本文提出的模型與其他現(xiàn)有模型的推薦表現(xiàn),第三組實驗將本文提出的基于學術水平聚類的FCR推薦模型與其他幾種推薦模型在不同數(shù)據(jù)規(guī)模(目標學者人數(shù)=50,150,500,1 000,2 000)上進行對比,對比模型介紹如表6。

表6 對比模型介紹Table 6 Comparative model introduction
實驗結(jié)果如圖10,可以發(fā)現(xiàn),相比于其他模型,本文提出的模型無論在準確率、召回率還是F1 指數(shù)方面都有著最好的表現(xiàn)。在圖10(a)中,平均準確率比其他模型高約5.3%,圖10(b)中,平均召回率高2.5%,圖10(c)中平均F1指數(shù)高4%。經(jīng)分析可以知道,CNRec推薦模型對學者間的共同鄰居進行統(tǒng)計,不考慮合作關系的傳遞衰減情況,并且也只對有限的連接路徑長度進行討論,因而推薦效果不如本模型使用考慮更多路徑的Katz 路徑相似度的方法。BCR 推薦模型為目標學者推薦能夠帶來最大學術收益的學者,該模型考慮了學者在網(wǎng)絡中的影響力,但并不考慮他們之間的學術水平差距所帶來的負面影響,也不考慮他們是否能夠真正建立合作關系。ACNE 模型利用協(xié)作網(wǎng)絡嵌入的模式對學術關系進行挖掘,雖然該模型對學者之間的學術關系能夠很好的分析,對某些合作關系密集的學者表現(xiàn)不錯,但是對于那些合作關系比較稀疏的初級學者,模型的推薦表現(xiàn)不佳。該實驗說明了本文所提出的模型的有效性。
最后,本文使用MAE 指標計算了各個模型中目標學者與推薦學者間學術水平差距的均值,結(jié)果如表7。

表7 學術水平差距的MAETable 7 MAE for academic gaps
可以發(fā)現(xiàn),F(xiàn)CR推薦模型的學術水平的平均絕對誤差與其他模型相比最小,僅為20.51。由于BCR 模型推薦的學者都是高水平的學者,所以在這四個模型中的MAE 值最大,而CNRec 模型推薦的是共同鄰居最多的學者,因為共同鄰居越多,有時也暗含著目標學者與推薦學者水平具有一定的相似性,但是這種相似十分模糊。ACNE模型只是對基于合作關系分析后進行推薦,學術水平差距并非該模型的推薦考慮因素。上述實驗說明了本文提出的基于學術水平相似的合作者推薦模型在推薦時更偏向于學術水平差距不大學者或者學術水平相似的學者。結(jié)合前面的幾組實驗可知,在一定程度上縮小學者間的水平差距,能夠增加合作的成功率,提升推薦模型的表現(xiàn)。
在這篇論文中,考慮學者間學術水平對合作產(chǎn)生的影響,提出了一種在推薦前先對學者按照學術水平進行劃分,在同一學術水平類別中進行推薦的模型,幫助研究者找到學術水平相近,興趣相投,更有可能形成合作關系的合作者。通過實驗,本文的推薦模型在精確度、召回率以及F1指數(shù)評分方面有著更好的表現(xiàn),同時,推薦的學者在學術水平的匹配度上也優(yōu)于其他模型。盡管如此,這一方面仍然有著進一步提升的空間,特別是對學者合作關系的組成分析和研究主題的動態(tài)變化的追蹤,以及為合作關系較為稀疏,并且學術特征不明顯的學者進行推薦,這也將是今后的研究方向。本文提出了一種新的推薦思想,即目標學者與推薦學者之間應具有一定的學術水平相似性,并驗證了將學術水平相似性作為影響因素進行推薦的可能性。
至于未來的工作,跨領域(跨學科)學術合作者推薦是一個相當有意義的方向。它可以幫助知識從一個領域傳播到另外一個領域,與一般的單領域推薦不同,跨領域推薦呈現(xiàn)出非常不同的模式:(1)稀疏連接:跨領域的合作很少;(2)專長互補:跨領域合作者往往擁有不同的專長和興趣;(3)主題偏倚:跨領域合作主題集中在一個主題的子集上。這些都違反了傳統(tǒng)推薦系統(tǒng)的基本假設[23],由于這些原因,使得跨領域推薦比較困難,如何解決這些問題還需要更多的研究。不過,已有一些跨領域的推薦工作,Guo等人[24]將顯式的共同作者關系和隱式的共同引用關系結(jié)合在一起,即提出了一個混合圖跨領域模型,有效解決了主題偏斜問題。近年來,出現(xiàn)了將遷移學習與跨領域推薦結(jié)合的研究,Wang[25]提出了一種基于潛在特征聚類的跨領域推薦方法,利用對用戶或者物品的描述標簽,對兩個領域進行連接和數(shù)據(jù)遷移,不僅學習到兩個領域間的“共享知識”,而且還學習不同領域間的“特殊知識”。Wang等人[26]提出了一種新的三元橋遷移學習模型,用以預測用戶端和項目端的缺失評分,從而進行跨領域推薦。遷移學習允許域之間、人物之間,以及訓練集和測試集之間的分布情況可以不相同,通過學習不同域之間共有的知識或者潛在特征,能夠緩解跨領域內(nèi)數(shù)據(jù)稀疏性的問題。需要思考的是,以上這些工作或許同樣需要考慮學者水平之間的差距問題,因此,如何衡量兩個不同領域間學者的學術水平仍然需要更加深入地進行研究。