李 翀,王宇宸,2*,杜偉靜,2,何曉濤,劉學敏,張士波,李樹仁
(1.中國科學院計算機網絡信息中心,北京 100190;2.中國科學院大學,北京 100049)
(*通信作者電子郵箱wangyuchen@cnic.cn)
科研論文是科研人員重要成果之一,高水平科研論文既可以反映作者的科研水平,一定程度也能反映出研究熱點變化及國家科研投入變化情況。因此,基于時間序列對科研論文進行熱點學科、科研社區、合著網絡、人才發現研究非常有意義。人才作為重大科技成果、科技發展和社會進步的主體和源動力,挖掘優秀人才、培養和發現潛在人才尤為重要。
目前有較多對優秀科研人才挖掘的研究,并取得了一定的成效,不論是整體數據挖掘范圍、挖掘精度方面,還是對科研人員學術能力評價方面,都取得了不錯的效果。如馮嶺等[1]從專利數據中抽取發明人的各個特征構建多層感知機模型,從而發現技術創新人才。江艷萍等[2]基于文獻計量方法對全球潛力華人青年學者進行發現與評價,通過制定相應的檢索策略獲取數據集,從數據集中提煉出學者信息,利用篩選指標體系和綜合評價指標體系確定潛力候選人,最后與同學科領域的標桿人物進行比較分析,明確潛力候選人的科研水平和學術定位。王孟頔等[3]利用Hadoop 計算平臺,通過網頁數據提取分析關鍵詞,根據關聯規則算法挖掘出關聯關鍵詞,采用基于相似項的策略推薦人才。
上述人才挖掘分析算法,在人才發現和學者評價角度都取得了較好的進展,但也存在一定的不足之處。首先在科研成果數據的選取上缺乏權威性,同時數據較為雜亂;其次在人才學術評價上需要與標桿學者進行對比,具有評價的片面性;最后在人才挖掘上多數算法都屬于廣泛挖掘,缺乏針對性,并且在計算上過于復雜,對計算能力要求較高。除此以外還存在學術評價上不具有時間序列特性、不能根據學者自身特點進行公平化評價等。
本文聚焦全球最大、覆蓋學科最多的綜合性學術資源WOS(Web Of Science)中收錄的中國科學院學術論文,在前期工作中,完成對熱點學科的學術論文語義圖譜構建,并采用Louvain 社區發現算法(Community Detection)[4]對研究熱點背后相近研究領域的活躍學術圈進行挖掘,使人才挖掘研究更具有針對性。本文主要工作基于前期研究成果,深入研究了相關人才挖掘算法,結合學術論文語義網絡屬性和優化后的PageRank 人才發現算法進行了設計和實現。實驗表明,基于科研社區使得人才發現更有針對性,能夠快速定位不同學科方向代表性人才,改進后算法使得在對優秀人才挖掘、潛在人才發現更加精準。
本章首先介紹關于人才挖掘領域的一些研究成果,然后介紹基于科研社區的人才挖掘算法研究并分析比較。
在目前的人才發現算法研究中,大致可以分為兩類:一類為利用學者相關特征進行模型訓練的監督學習方法,另一類為通過合著網絡形式進行預測的無監督學習方法。以馮嶺等[1]研究成果為例,其工作主要是抽取了反映各個發明人技術創新實力的專利特征。抽取的發明人特征包括專利申請量、專利總被引用量、合作發明人數量、合作發明人的平均專利申請量、申請人維持的專利數量以及所申請專利的文本特征等;然后再通過神經網絡模型進行訓練與預測,并且在其實驗中將神經網絡模型與傳統機器學習模型進行了對比,結果表明該實驗取得了不錯的效果。除此之外,隨著近幾年圖神經網絡與知識圖譜領域的發展,也出現了一些新的思路。比如Park 等[5-6]提出的基于圖神經網絡分析知識圖譜中節點重要性的方法,利用網絡拓撲結構信息與節點間謂詞關系,結合每個節點的自身特征,通過圖神經網絡模型進行節點重要性的預測。這個思路可以應用到人才挖掘研究當中,但需要合適且權威的數據集用于模型訓練。
通過合著網絡方法進行人才發現的研究也有很多,比如謝瑞霞等[7]的研究是基于合著網絡構建學者影響力評價指標。在其評價指標中,不僅考慮了學者自身論文的影響力,還通過合著網絡中節點的介數中心度計算了學者的網絡影響力,也就是該學者在網絡中的重要性體現。在實驗中,通過將兩種影響力結合計算,也取得了不錯的效果。
本文充分吸取前面提到的相關研究的成功經驗,在合著網絡的基礎上,首先通過學者論文相關特征計算學者的初始評分,再結合PageRank 在合著網絡上的傳遞性計算最終的評分,從而綜合考慮學者個人特征與合著網絡特征的影響,達到人才挖掘的目的。
在已挖掘的科研社區基礎上,后續工作將利用社區網絡中心性對科研社區中的優秀科研人才進行挖掘推薦。本節將對與此相關的Degree Centrality、Closeness Centrality、PageRank三個圖算法進行深入研究,其關系及區別如圖1所示。

圖1 基于中心性的人才挖掘算法之間的比較Fig.1 Comparison between centrality-based talent mining algorithms
1.2.1 Degree Centrality算法
Degree Centrality 算法可用于在沒有方向的圖譜中,利用度中心性去測量網絡中節點間的相互關聯關系程度,類似于關聯關系矩陣,即表示當前節點與其他所有節點的直接聯系總數[8]。但該種計算方式存在一定的弊端,如果社區中節點規模增大,則測量值均會增大,各節點的度中心性也會逐步增高。1994年,Stanley Wasserman 和Katherine Faust針對該問題提出一個新的標準化測量公式,如式(1)所示:

在對節點的度中心性進行衡量過程中,首先以本身節點i為初始階段,測量出自身度中心性;其次測量出除本身節點外,其他g-1 個節點相連接的可能連接數,從而計算出與本身節點i相關聯的其他節點的占比。最終比例范圍為0~1,0表示節點i不與任何節點相關聯,1 表示與所有節點都有關系。
Degree Centrality 用于計算來自節點的傳入和傳出關系的數量,并用于在圖中查找流行節點[9]。基于以上分析,在適用性方面,如果試圖通過查看傳入和傳出關系的數量來分析影響力,或者找到各個節點的“流行度”,可以使用Degree Centrality算法。
1.2.2 Closeness Centrality 算法
Closeness Centrality 依靠節點之間的距離判斷節點間的近鄰程度。首先計算本身節點i與網絡中其他所有節點之間的距離,并進行相加求和,總值越小說明節點間可達且路徑越短,即在空間上與其他各節點越接近,最終發現處于有利位置的節點,從而控制和獲取組織內的重要信息和資源,具體應用如文獻[10]。
為更明晰地表達該距離程度,Bavelas于1950年將計算的近鄰程度進行歸一化定義,定義為近鄰距離計算的倒數,最終的計算值取值范圍限定在(0,1),越接近于1 則節點的中心度越大,每個節點的具體計算公式如式(2)所示:

其中:u代表當前節點;n代表圖中節點的數量;d(u,v)代表節點u到節點v之間的最短距離。
Closeness Centrality 適用于篩選以最快速度傳播信息的節點,其中使用加權關系對評估交流和行為分析中的交互速度效果展示較為明顯。該算法適用于連接圖中的節點中心性計算,但當圖中兩個節點間沒有路徑時,計算該節點的所有距離之和會出現偏差,緊密度趨向于無限,最終影響整個圖的中心性計算。
1.2.3 PageRank算法
PageRank 算法初始用途是對網站網頁重要性進行排序,以此來評判網頁產生的影響力,具體計算如式(3)所示:

其中:u為待評估頁面。Bu為頁面u的鏈入集合。對于頁面u來說,每個入鏈頁面自身影響力PR(V)與V頁面的所有出鏈頁面數量之比,作為頁面V給頁面u帶來的影響力。這樣可以將頁面自身影響力平均分配至其每個出鏈上,再計算所有帶給u頁面的影響之和,便是網頁u的影響力。
但式(3)存在一些問題,如一個節點沒有出鏈或者入鏈,會出現等級泄漏或等級沉沒現象,故提出了一種新的優化方式,加入阻尼系數d,如式(4)所示,這個阻尼系數代表用戶通過跳轉鏈接進入的概率,通常取值0.85。

PageRank 算法通過關聯關系間的緊密程度來量化彼此間的影響力,通過出鏈入鏈的影響程度,最終確定最優影響能力的節點。PageRank 算法更加適用于關系較多,且彼此影響力不均勻的關聯狀況。這與論文之間引用等關聯關系相似,適用于挖掘關系復雜的圖信息。PageRank 算法還存在一些缺點,PageRank 算法在使用過程中,過于注重當前數據特征,周圍關聯的節點會直接影響當前節點的影響力;除此以外,PageRank 算法考量維度單一,對于出現較早的頁面會因鏈接度較高而提升影響力,沒有時間序列性。
綜上幾種對人才挖掘算法的分析,可以看出Degree Centrality 主要是度量節點的出度與入度,說明當前節點的權威只受周圍關聯節點影響,應用于優秀科研人才挖掘上會具有單一性;另外,出入度計算上也存在大量重復計算,會導致計算效率較低。Closeness Centrality 算法主要利用節點間的距離來計算中心性,如果存在沒有相互關聯的節點,會導致計算結果偏離正常值,應用于優秀人才挖掘上會導致挖掘結果不準確。PageRank 算法是計算網頁重要性排名的算法,主要利用鏈接關聯性進行分析,在計算上將節點影響力進行均分,后進行統計分析來確定節點的重要性,這在一定程度上突出了重要節點的影響力,達到了較為公平的計算效果,應用于優秀人才挖掘上能對優秀人才賦予較大的影響力,從而突出其貢獻度。綜合比較分析,本文人才挖掘算法最終選擇為PageRank算法。
PageRank 算法的使用前提是需要有每位學者學術能力的初始評分,這能在一定程度上突出優秀人才的貢獻度,但應用在學術論文的人才挖掘上也會存在一定的不足。首先不能根據時間連續性對人才進行篩選,隨著時間的變化,優秀人才的科研方向和成果會發生變化,但PageRank 算法不能動態地對科研能力進行調整;其次,PageRank 算法評價維度單一,只是單一地考慮了關聯節點的影響力,沒有多維度評價因素,如論文被引用量、作者發文量等維度可以在一定程度上體現作者學術能力的強弱,提升優秀人才挖掘的準確性。為了解決該問題,達到更加準確的人才挖掘效果,有必要對PageRank算法進行了多維度優化。
經過調研,本文在實驗中采用了Prathap于2010年提出的一種綜合性評價學術成果指標,對學者的學術能力從學術論文數量以及引用次數進行評價。并通過結合常雨蕭[11]的研究成果,為學術指標的計算加入時間因素、作者署名排序因素;在PageRank 算法中加入了作者間余弦相似度作為影響系數。將優化后的算法應用在科研社區中,進行人才發現。
時間因素,作者署名排序因素以及學術指標P(i)的計算如式(5)~(7)所示。其中作者署名排序是采用了貢獻度等級分配法[12],并參考了科研成果評價研究成果[13]。論文發表的時間越早,在學術成果指標中的影響就越小;作者署名次序越靠后,該論文對于作者的影響力也越小。通過計算策略調整,使得近期活躍的學者可以得到更高的學術指標值,更有利于活躍人才的挖掘。

其中:α為尺度系數;Tc為當前時間,Tk為論文發表時間;ak為論文k的作者總數,ik為作者i在論文k中的位次,ck為論文k的引用次數;C(i)為作者i的論文引用得分,N(i)為作者i的論文數目得分。
學者自身學術指標值的計算,見算法1。
算法1 Calculate Initial Score。
輸入 待消歧作者的全部相關論文數據。其中:i表示作者;n表示論文篇數;ak為論文k的作者總數;ck為論文k的引用次數;ik為作者i在論文k中的位次;Tc為當前時間;Tk為論文發表時間。
輸出 學者i的自身學術指標值。

對于PageRank 影響力傳遞過程,通過余弦相似度的方式計算作者節點間的關系。具體計算如式(8)、(9)所示,分別為作者間貢獻影響程度和作者影響力得分。


其中d為PageRank 中的阻尼系數,一般取值為0.85。最終的學者影響力評分由多輪迭代后的Imp(i)得出。
PageRank算法的Imp值計算,見算法2。
算法2 Modified PageRank Algorithm。
輸入 所有作者的自身學術指標值為Imp,所有作者間的貢獻影響度為Attr,每個作者的鄰居節點為neighbors,迭代輪次為n。
輸出 所有作者的最終評分列表。

操作系統為CentOS 7 64 位,Kernel Linux 3.10.0。開發環境為python3.7.3+Neo4j 3.5.13;CPU 為Intel Xeon Silver 4114@2.20 GHz 40核心;內存為128 GB。
實驗數據為1949—2019年的WOS核心合集數據庫中國科學院發表的4 199 篇計算機科學學術論文數據,通過Neo4j創建論文語義網絡圖[14],其中有作者19 200 位,機構26 232個,生成Workwith 關系數15 799 個,其中實體類型為Author(作者)、Paper(論文)、Org(作者所屬機構);實體間關系為Belong to、Write、Workwith(Workwith 中包含屬性Weight)。如圖2所示。

圖2 論文語義實體關系示意圖Fig.2 Paper entity relationship diagram
在學術語義網絡圖基礎上,應用Louvain社區發現算法對活躍科研社區進行挖掘[15]。通過使用模塊度和模塊度收益進行評價[16],成功挖掘出模塊度收益較高的前10個活躍科研社區,其分布如表1所示。
本實驗是在計算機科學領域挖掘出活躍度前10 個科研社區基礎上(見表1)對活躍科研人才進行挖掘。

表1 社區人數及社區中論文數量表Tab.1 Number of communities and the number of papers in communities
實驗分為兩個部分:一是根據式(4)采用優化前的PageRank 算法對社區人才進行挖掘。在優化前的算法中,得分值計算只利用了語義圖譜中作者節點間關系,而沒有考慮作者節點自身特征。二是根據式(9)采用優化后的PageRank算法進行計算,綜合考慮了作者自身節點的多個特征因素,并且作者間的關系也使用作者間貢獻影響程度值進行了改進,使得不同鄰居節點對中心節點的影響程度具有獨特性。
本文以活躍度排名第一的141 號社區進行的人才挖掘為例,優化前后的挖掘結果對比如表2和表3所示。

表2 活躍人才排名表(優化前)Tab.2 Excellent talent ranking table(before optimization)

表3 活躍人才排名表(優化后)Tab.3 Excellent talent ranking table(after optimization)
對于優化前后的兩張表中的優秀人才挖掘結果,本文利用自然科學基金委項目數據以及人才個人信息對挖掘結果進行了驗證分析,同時也對優化的效果進行了分析。
首先對挖掘結果的準確性進行分析,使用了較為權威的國家自然科學基金委員會項目數據對結果進行佐證。八位學者在自然科學基金委中的項目數據如圖3 所示。八位學者中有七位都在國家自然科學基金委中都承擔有項目,其中有一位學者博士剛畢業尚無基金項目。另外,經查證八位均為領域內國家級或地方優秀人才,說明了優化改進后的學術成果指標和PageRank算法可以在人才挖掘方面較為準確。

圖3 國家自然科學基金委員會項目數據統計Fig.3 Statistics of projects ofthe National Natural Science Foundation of China
其次對算法優化有效性進行分析,通過表3 中的分數變化,可以看到受多個特征因素以及周邊關聯作者的得分變化的影響,八位學者的得分變化幅度不均。其中署名位次越靠前,論文發表時間越晚的學者得分增加幅度越大。以第四位與第五位學者為例,因為加入了署名順序因素,在優化后排序發生了變化。這說明多個特征因素的加入會對學者的得分有著不同幅度的影響,進而能使學者的最終得分更客觀、科學。
本文基于WOS 中收錄的中國科學院學術論文數據,在構建學術論文語義網絡圖和Louvain 科研社區發現結果的基礎上,將人才挖掘范圍聚焦于活躍科研學術圈,對PageRank 人才挖掘算法加入論文發表時間因子、作者署名排序遞減模型、周圍作者節點對當前節點的影響因素、論文被引用量等指標進行算法優化,使得人才挖掘更加客觀有效。實驗結果表明,該算法具有一定的準確性和有效性,對優秀人才和潛在人才發現有一定的參考意義;同時也在一定程度證明了從高水平學術論文成果發現人才的可能性。