單嵩巖,吳振新(1.中國科學院文獻情報中心;2.中國科學院大學圖書情報與檔案管理系)
科學技術進步的關鍵是開放科學。開放科學是一種科學實踐,使科學知識出版和傳播越來越容易,讓科學研究更具合作性和開放性。開放科學環(huán)境為科研人員提供了獲取知識數(shù)據(jù)的多種途徑,開放交流模型能夠使科學人員更廣泛、更便捷地尋求潛在的科研合作對象/團體,以促進學術傳播。為了提供決策支持、便于科研人員選擇合作者或團隊成員,合作關系預測的研究變得越來越重要。科研預測領域的關鍵技術之一是作者相關性計算。雖然作者相關度研究已經(jīng)取得了不錯的進展,但隨著新技術方法的不斷引入,該研究還存在很大的進步空間。
科研合作預測通常在學術論文構建的科研合作網(wǎng)絡中進行,旨在預測從未合作過的作者在未來產生合作的可能性。作為社會網(wǎng)絡的一種,科研合作網(wǎng)絡體現(xiàn)了科研人員在文章或者研究項目中的合作關系,科研合作網(wǎng)絡主要包括同構網(wǎng)絡(如合著網(wǎng)絡[1]) 和異構網(wǎng)絡(如作者- 關鍵詞網(wǎng)絡[2]、作者- 文獻網(wǎng)絡[3]、作者- 文獻- 術語- 會議網(wǎng)絡[4])。以合著網(wǎng)絡為例,節(jié)點是作者,邊是合著關系,合著網(wǎng)絡中的合著關系預測就是計算尚未產生連邊的作者節(jié)點對之間產生連邊的可能性。合作網(wǎng)絡的拓撲結構能夠揭示作者之間未來合作的可能性,例如在合著網(wǎng)絡中擁有共同同事、共同關鍵詞以及研究內容相關的作者都有可能在未來展開合作。
在科研合作預測領域中,主要根據(jù)作者節(jié)點屬性及網(wǎng)絡的結構特征等信息(如相關人際關系、研究方向、興趣等)計算作者間的相關度,并以相關度表示作者未來合作的可能性。在很多科研合作預測文章中,作者相關度也被稱為相似度,在進行實際預測時,除了要衡量不同作者間的屬性特征,更應關注不同作者在合作網(wǎng)絡上是否近鄰、是否屬于同一知識社區(qū)。如,在合作網(wǎng)絡中,兩位擁有共同合作者但研究不同領域的作者,雖然屬性特征相似度不高,但網(wǎng)絡結構相似性高,則代表作者相關性大。
科研合作預測在本質上是一種鏈路預測,即通過已知的網(wǎng)絡結構信息預測節(jié)點間未來產生連接的可能性,其中一類主流算法是基于節(jié)點相似性的方法。該方法根據(jù)已知網(wǎng)絡中的作者節(jié)點拓撲結構,計算每一對未相連作者節(jié)點的結構相似度,相似度越高則其存在連邊的概率越大,即作者未來合作的可能性更大。[5]科研合作預測研究早期基于同構網(wǎng)絡(合著網(wǎng)絡、引文網(wǎng)絡等),采用多種節(jié)點拓撲相似性指標(如共同鄰居指標、到達路徑指標、隨機游走指標)計算作者相關性。Liben-Nowell 和Kleinberg[2]率先將基于網(wǎng)絡拓撲結構的多種節(jié)點相似性指數(shù)應用于社交網(wǎng)絡鏈接預測,并在合著網(wǎng)絡中進行了實驗。周濤等在包括合著網(wǎng)絡在內的多種現(xiàn)實網(wǎng)絡中應用多種基于局部信息的指標實施鏈路預測,并另外提出兩種指標:資源分配指標(RA) 和局部路徑指標(LP)。[6]當前,越來越多的研究者采用相似度指標在合著網(wǎng)絡中通過計算作者相關度來預測合作的可能性。文獻[7] 在7 門學科的合作網(wǎng)絡中應用多種相似性指標進行鏈路預測。文獻[8] 運用多種相似度指標在合著網(wǎng)絡中研究合作演化規(guī)律。
現(xiàn)實中,科研合作網(wǎng)絡往往是異構的,同構網(wǎng)絡節(jié)點相似性雖然易于計算,但卻丟失了很多語義信息。傳統(tǒng)的節(jié)點相似性指標無法直接應用到異構信息網(wǎng)絡中,為了計算異構網(wǎng)絡中的節(jié)點相似性,Sun 等于2011 年提出元路徑的概念,并在異構書目網(wǎng)絡中研究了合作關系預測問題。[9]隨后,多種基于元路徑的網(wǎng)絡拓撲相似度指標相繼被提出。文獻[10]利用PathSim 算法在DBLP 文獻數(shù)據(jù)集構成的“論文-作者-術語-會議”異構網(wǎng)絡中尋找相關作者。文獻[11]提出的HeteSim 算法度量異質網(wǎng)絡中任意節(jié)點對的相關性,在ACM(“機構- 作者- 論文- 術語- 學科-會議-出版物”異構網(wǎng)絡)和DBLP 數(shù)據(jù)集上計算作者節(jié)點相關度。文獻[12]提出了一種基于元路徑的新型相似性度量算法AvgSim,并在ACM 數(shù)據(jù)集和DBLP 數(shù)據(jù)集上計算作者節(jié)點相關度。文獻[13] 在APS(“論文- 作者- 機構- 術語- 學科- 期刊- 年刊”異構網(wǎng)絡)和DBLP 數(shù)據(jù)集上,基于時間動態(tài)的路徑數(shù)、傳遞相似性的歸一化路徑數(shù)和作者屬性的對稱隨機游走計算作者節(jié)點間的相關性。
傳統(tǒng)鏈路預測方法使用的網(wǎng)絡拓撲相似性指標普遍存在計算效率較低和數(shù)據(jù)稀疏造成的維數(shù)過高問題,很難應用于大規(guī)模數(shù)據(jù)集的科研合作網(wǎng)絡進行合作預測。隨著表示學習的不斷發(fā)展,新興的網(wǎng)絡表示學習方法能夠將節(jié)點表示成向量,通過計算向量相似度獲得節(jié)點相似度。該方法可以高效計算網(wǎng)絡中節(jié)點間的語義聯(lián)系,也能夠解決數(shù)據(jù)稀疏下的語義關聯(lián)抽取和計算復雜問題,[14]因此學者們也嘗試將新方法應用于合作預測。張金柱等利用LINE 網(wǎng)絡表示學習方法對作者向量進行表示學習,并通過向量夾角余弦值計算作者間的語義相似度。[14]文獻[15] 提出了LINE 算法并在合著網(wǎng)絡中進行了實驗,在識別相關作者中取得了良好的效果。文獻[16]構建論文- 期刊-作者異構網(wǎng)絡,以作者為中心,結合元路徑應用Node2vec 模型得到作者的向量表示,根據(jù)明可夫斯基距離、余弦值計算他們之間的向量相似度。文獻[17]提出metapath2vec 表示學習方法,并在作者-論文-會議異構網(wǎng)絡中進行了相關作者聚類實驗。
基于相似性的方法在科研合作網(wǎng)絡上進行合作預測,需要選取作者節(jié)點的拓撲信息,利用合著、引用、同屬一個機構等連邊的語義信息計算作者間的相關性,即利用拓撲相似度算法計算作者網(wǎng)絡信息的相似程度。
基于網(wǎng)絡拓撲結構相似度衡量作者間的相關度,是將作者實體間的關系連結起來構成網(wǎng)絡圖,利用圖中節(jié)點間的連接屬性判定兩個作者的相關性。
采用節(jié)點拓撲相似性指標計算同構網(wǎng)絡(合著網(wǎng)絡)中作者節(jié)點的相關性,相似性指標包括基于鄰居的度量(網(wǎng)絡局部結構的相似性)、基于路徑的度量(準局部結構的相似性)、基于隨機游走的度量(網(wǎng)絡全局結構的相似性)。這里的“相似性”是指相關文獻已成習慣的術語, 實際上很多相似性指標衡量的并非是節(jié)點對是否具有相似的特征, 而是節(jié)點對在幾何或者拓撲空間是否鄰近, 或者在功能上是否具有較大的關聯(lián),[18]因此也被稱為“接近性”或“相關性”。最簡單的相似性指標是共同鄰居,兩個節(jié)點如果有更多的共同鄰居就可能更相似。基于路徑思想的相似性算法考慮到使用共同鄰居指標進行計算時,相似性分數(shù)可能分布過于集中,使得預測結果沒有區(qū)分度,所以將兩個節(jié)點的共同鄰居擴展到“n 階共同鄰居”。[7]基于隨機游走的思想是利用一個節(jié)點到其鄰居的轉移概率來描述當前節(jié)點隨機游走的目的地,可以根據(jù)整個網(wǎng)絡圖的信息來計算節(jié)點相似度,即使兩個節(jié)點之間沒有公共鄰居節(jié)點也能計算。
拓撲相似性指標只涉及網(wǎng)絡的結構信息。相似性指標計算起來比較簡單,但不同指標在不同網(wǎng)絡中的預測能力卻不一致,其預測的精確度取決于對網(wǎng)絡結構特征刻畫的好壞。[19]在合著網(wǎng)絡中,基于鄰居和路徑的相似性指標在識別作者相關度時表現(xiàn)良好,尤其是共同鄰居指標、Adamic/Adar 指標、資源分配指標(RA)和Katz 指標(見表1)。

表1 代表性節(jié)點拓撲相似度指標
合作關系所形成的合著網(wǎng)絡是一個熟人網(wǎng)絡,共同鄰居指標能很好地衡量兩位作者的直接合作者,Katz 指標能很好地衡量兩位作者的間接合作者。Adamic/Adar 指標、資源分配指標(RA) 是改進指標,賦予度小的共同鄰居節(jié)點更大的權重,因為度小的作者選擇的合作者與其相關性更高。在多種研究領域內,PA 指標往往表現(xiàn)一般,因為度大的作者(即影響力大的作者)合作概率小。[2,7,8,19]
科研合作網(wǎng)絡通常是異構的,即網(wǎng)絡中存在多種類型的節(jié)點或連邊。同構網(wǎng)絡是異構網(wǎng)絡的投影,如合著網(wǎng)絡就是由文獻-作者網(wǎng)絡投影形成的,雖然合著網(wǎng)絡易于計算分析,但失去了原異構科研合作網(wǎng)絡中豐富的語義信息。近年來,學者通過異構網(wǎng)絡來解決科研合作預測問題,主要采取基于元路徑的方法。元路徑是定義在網(wǎng)絡模式上的,用于描述異構網(wǎng)絡中組合關系的路徑。不同的元路徑用不同的語義來描述節(jié)點之間的相似程度。依據(jù)不同元路徑的路徑,可以將同構網(wǎng)絡中基于鄰居和路徑的屬性拓展到異構信息網(wǎng)絡中。例如,當區(qū)別看待不同類型的鄰居節(jié)點并且把一階鄰居擴展為n 階鄰居(某一節(jié)點和它的鄰居之間的距離為n)時,則兩個作者間的共同鄰居屬性就變成兩個作者之間依據(jù)不同元路徑的路徑數(shù)目。[16]
基于元路徑的相似性計算首先使用元路徑定義兩個節(jié)點之間的拓撲結構,然后在具體的拓撲上定義不同的度量標準。該方法考慮異構信息網(wǎng)絡中不同拓撲結構的豐富語義信息和形成原因來進行計算。如包含作者(A)、論文(P)、出版物(V) 三種節(jié)點的合作異構網(wǎng)絡,兩個作者節(jié)點間的元路徑有2 種:A1-P1-V1-P2-A2 代表A1 和A2 在同一出版物上發(fā)表過文章,A1-P1→P2-A2 代表A1 的論文P1 引用了A2 的論文P2。
在元路徑相似度指標中,以路徑數(shù)和隨機游走為基礎的相似性度量適用于具有高出入度的對象,基于成對的隨機游走的相似性度量適用于集中的對象(即大部分的鏈接屬于小部分節(jié)點)。[10]在科研合作異構網(wǎng)絡中,連接兩個作者之間的元路徑越多,兩者越相關,歸一化路徑數(shù)指標往往能取得良好的效果。[9]表示兩位作者擁有共同合作者、在同一出版物上發(fā)表論文、研究相關領域和引用相同論文的元路徑,均在識別作者相關度中發(fā)揮了重要作用。雖然越長的元路徑攜帶的信息越多,但隨著元路徑長度的增加,算法也越來越復雜,但精度增長幅度不大,因此長度一般控制在6 個節(jié)點以內(見表2)。
隨著表示學習的發(fā)展,除了在科研合作網(wǎng)絡中采用結構相似性指標計算作者節(jié)點相關度,基于深度學習的網(wǎng)絡表示學習方法也得到了廣泛應用。網(wǎng)絡表示學習方法將圖中的節(jié)點表示成低維、實值、稠密的向量形式,通過計算向量間的距離判斷節(jié)點的相關性。
基于神經(jīng)語言模型的網(wǎng)絡表示學習是目前的研究熱點,其基本原理和思路來源于代表性的詞向量生成工具Word2Vec。[20]Word2Vec 工具包含CBOW 模型和Skip-gram 模型,選取輸入詞的前后n 個詞作為上下文,學習包含語義信息的輸入詞的向量表示。針對網(wǎng)絡結構和神經(jīng)語言模型的特點,網(wǎng)絡表示學習把節(jié)點類比為詞,把在網(wǎng)絡中獲得的節(jié)點序列類比為句子,將節(jié)點序列作為Word2Vec 的輸入,根據(jù)每個節(jié)點的上下文信息,得到節(jié)點的向量表示。根據(jù)節(jié)點序列獲取 方 式 的 不 同,形成 了 以DeepWalk[21]、LINE[15]、Node2vec[22]、Metapath2Vec[17]等為代表的基于神經(jīng)語言模型的網(wǎng)絡表示學習方法(見表3)。

表2 代表性元路徑相似度指標
在科研合作網(wǎng)絡中,利用網(wǎng)絡表示學習方法預測科研合作,根據(jù)上下文語境得到每位作者的向量表示,將合作預測變?yōu)樽髡呦蛄肯嗨贫扔嬎銌栴},相似度越高的未合作過的作者越有可能進行合作。
網(wǎng)絡表示學習為復雜網(wǎng)絡分析提供了新的視角,一部分研究者開始探索將其應用到科研合作網(wǎng)絡。在合著網(wǎng)絡中,DeepWalk、LINE、Node2vec 都能取得不錯的效果,其中Node2vec 表現(xiàn)更好,DeepWalk 更適合稀疏網(wǎng)絡,LINE 更適合大規(guī)模網(wǎng)絡。Metapath2Vec在科研合作異構網(wǎng)絡中計算作者相關度方面取得了良好的效果。[15,17,22]網(wǎng)絡表示學習能在大規(guī)模數(shù)據(jù)集中自動提取合作網(wǎng)絡中作者關聯(lián)語義,在計算作者相關度方面有廣闊的研究應用空間。

表3 基于神經(jīng)語言模型的網(wǎng)絡表示學習代表性算法
在合作預測領域,作者相關度計算方法的研究發(fā)展緊跟新興技術發(fā)展步伐。通過科研合作網(wǎng)絡結構信息判斷作者相關性,經(jīng)歷了從同構網(wǎng)絡到異構網(wǎng)絡的發(fā)展,日益精細化、精準化。
(1)網(wǎng)絡表示學習方法將在作者相關度計算中得到進一步應用。隨著詞向量在文本相似度計算上的成功,涌現(xiàn)出一批借鑒語言模型完成的網(wǎng)絡/圖表示學習的方法已在合作網(wǎng)絡中嘗試應用,那么其他基于深度學習的網(wǎng)絡表示學習方法能否有更好的表現(xiàn),以及網(wǎng)絡中其他結構的表示(如子圖向量、圖向量)能否應用到作者相關度計算仍需進一步探索。
(2)構建科技知識圖譜能為作者相關度計算提供更多支持。與簡單的科研合作網(wǎng)絡(如合著網(wǎng)絡、二分網(wǎng)絡、三種節(jié)點網(wǎng)絡等)相比,構建擁有更全面的作者及相關實體節(jié)點、更豐富的作者語義信息的科技知識圖譜,能夠更全面地比較作者間相關性,在知識圖譜中尋找相關作者也將有更多應用場景。