胡小軍,郭 強,楊 凱,王江盼,劉建國
(1.上海理工大學復雜系統科學研究中心 上海 楊浦區 200093;2.上海財經大學金融科技研究院 上海 楊浦區 200433)
定量評價科研人員的學術影響力,對引進人才、晉升、科研成果報獎、科研項目申請等具有重要的指導意義[1-4]。科研人員發表的文章是學術產出的主要形式[5-6],體現了科研人員的最新研究進展和成果,研究者公開發表的文章被學術界或同行重視、認可和引用的情況,一定程度上反映了學者的學術水平和影響力[7-9]。
目前,評價研究者的學術影響力有兩種比較重要的方法,同行評議法[10]和文獻計量法[11]。同行評議法只有少數專家參加且對參評專家的知識和經驗要求較高,缺乏一個統一和公認的標準,容易受主觀因素的影響,一定程度上影響著評價效果。發表文章數[12]、總引用量[13]、影響因子[14]等基本的文獻計量指標在學術影響力評價中逐漸被認可和使用。2005年,文獻[5]在基本的文獻計量指標的基礎上提出了一種評價學術成就的指標H指數。一個人的H指數越高,則表明其論文影響力越大。但是該指標也存在一定的局限性,H指數越大,越難增長,對于發表文章數較少而總引用量較高的學者的評價缺乏科學性[15]。文獻[16]于2006年提出了G指數,用于改進H指數的不足,G指數是基于研究者累積貢獻的評價指標,對于發表文章數較少而總引用量較高的學者的評價結果更加公平。此外,一些用于優化H指數的指標也相繼被提出,用于彌補或完善上述文獻計量指標的不足。2011年,Google公司為了評價一個學者的學術影響力提出了I10指數[17],I10指數是指作者發表的文章被引用10次以上的數目。在依據某一文獻計量學指標對研究者進行學術影響力排名時,不但會由于研究者的指標值相同而無法排名的問題,而且會導致最后的評價結果具有一定的片面性。近年來,社會網絡分析方法因其能夠定量地反映出節點在網絡中位置的重要性[18-22],進而可以與引文分析方法相結合
用于評價學者在網絡中的重要性,處于引文網絡中重要位置的作者,具有較高的學術影響力[23]。但社會網絡分析法因其動態性較弱,并不能展現作者學術影響力的動態變化過程[24]。
為了建立一個綜合的評價體系去度量作者的學術影響力,文獻[25]提出了綜合考慮目標多屬性的綜合決策方法(又稱TOPSIS方法),對作者學術影響力的評估問題進行了細致研究。然而,TOPSIS方法對于正理想解與負理想解中垂線上的點無法進行排序。本文將作者的發表文章數、總引用量、平均被引用量、I10指數、H指數等5種評價指標作為TOPSIS的輸入屬性,根據每項指標對作者學術影響力評價的準確性(AUC值)進行加權來計算其綜合評價值,對作者進行排序。由于相對熵(relative entropy)[26]并不對稱也不滿足三角不等式,因此可以用于兩個概率分布差別的非對稱性度量,從而解決正理想解和負理想解的中垂線上的點無法排序的問題。基于此思想,本文提出了一個基于相對熵的作者影響力排序方法(TOPSIS-RE),用于評價研究者的學術影響力并對其做出排名。本文采用美國物理學會(American physical society, APS)的數據,將獲得諾貝爾獎的文章的作者作為測試數據集,用AUC值說明算法的準確性。實驗結果表明,基于相對熵的多屬性排序方法(TOPSIS-RE)算得的AUC值為0.932 1,比總引用量指標提高了2.047%,并且比基于歐式距離的多屬性排序方法(TOPSIS-ED)提高了0.833%。本文算法不僅解決了單個指標影響力值相同導致無法進行排序的問題,并且解決了基于歐氏距離的多屬性排序方法(TOPSIS-ED)無法對中垂線上的點進行排序的問題,較全面準確地給出了作者學術影響力排名。
研究者vi的發表文章數目Ni用于量化其學術影響力。
作者vi一共發表了Ni篇文章,每篇文章的被引用次數記為該作者vi的總引用量記為Ci,即:

總引用量Ci常被用于度量vi的學術影響力。
作者vi一共發表了Ni篇文章,總引用量為Ci,則該作者的平均被引用量記為Mi,即:

平均被引用量Mi亦被用于度量vi的學術影響力。
I10指數(I10-index)是由Google公司提出,并在Google學術網站上用以評價研究者學術影響力的指標。該指標是指作者vi已發表的文章中,被引用次數大于10次的文章個數m,記為
H指數的計算基于研究者vi的論文數量Ni及其論文被引用的次數一名科研人員的H指數是指其至多有h篇論文分別被引用了至少h次,則研究者vi的H指數為Hi=h。
本文運用上述5種指標對美國物理學會APS數據集中所有作者的學術影響力進行量化,這5種指標具有一定的代表性,反映了科研文章的數量、質量以及領域研究情況等方面的特性。作者可以表示為點的集合,發表文章數N、總引用量C、平均被引用量M、I10指數I、H指數H作為作者的影響力屬性,可以表示為j=1,2,3,4,5)表示研究者vi的第j個評價指標值,由于各種指標的量綱不同,需要標準化各項指標的值:

圖1隨機選取了15位作者并比較其各項指標的值,可以看出,不同作者的部分指標尤其是I10指數和H指數值相近或者相同(如11、12、13、14號作者的I10指標值相同;3、7、12號作者的平均被引指標值相同等),這樣就不能精確地區分不同作者的學術影響力。另外,由于每種指標的重要性程度不同,指標的選取對作者最終的排名有很大的影響。因此,本文提出多屬性決策TOPSIS法,綜合考慮多項指標來評價研究者的學術影響力,對作者進行排名。

圖1 5種指標的作者影響力值
TOPSIS[27]通過構造多屬性問題的理想解,并以接近正理想解和遠離負理想解這兩個基準作為評價各可行方案的依據。正理想解是設想各指標屬性都達到最滿意的解,負理想解就是設想各指標屬性都達到最不滿意的解。本文首先計算作者的學術影響力值與正理想解和負理想解的距離,再根據算得的距離計算該作者影響力值貼近正理想解的程度,對作者進行排名具體步驟如下。
屬性矩陣可以表示為P:

因為每種評價指標的量綱不同,作者的屬性矩陣P應該轉換成標準化矩陣T:

第j個評價指標的權重系數為因此,加權標準化矩陣R可以通過權重向量WT和標準化矩陣重新構建:

1)評價指標的比較矩陣
根據5種單指標對研究者學術影響力評價的準確性,可以區分各項指標的重要程度。發表文章數N只是對作者工作量簡單的量化,并不能體現所發表文章的質量,因此這一指標最不重要。文章的總引用量C和平均被引用量M表現為作者發表的文章被別人繼續研究的情況,從一定程度上說明了作者的學術影響力,所以總引用量C和平均被引用量M是非常重要的兩個指標,并且重要程度相當。而I10指數,只是部分統計了作者已發表的文章中被引用量大于10的文章數目,不能完全量化作者的全局影響力,H指數的評價性質與I10指數類似,因此I10指數和H指數的重要性略遜于總引用量C和平均被引用量M。
表1列出了按照式(7)三標度值方法構建的比較矩陣CV中的值。

表1 指標重要性比較結果
表1中:

2)判斷矩陣

權重系數確定如下:

3)一致性檢驗
一致性檢驗是為了檢驗各指標重要程度之間的協調性,避免出現前后矛盾的情況。按一致性檢驗指標(ε為滿足一致性要求所允許的最大值,一般根據具體情況來確定),進行一致性檢驗。其中λmax為一致性判斷矩陣的最大特征向量值,n為評價指標個數。λmax為:

本文將每種評價指標計算得到的作者學術影響力的最大值和最小值分別作為該項指標的正理想解和負理想解根據式(6)加權標準化矩陣R,可求得正理想解A+和負理想解A?分別為:


式中,rij表示作者vi的第j個指標對其學術影響力的量化值;rj+和rj?分別表示第j個指標對所有作者學術影響力評估值中的最大值和最小值。
當作者vi的學術影響力值處于正理想解A+和負理想解A?的中垂線上時,上面介紹的歐氏距離的計算方法無法對作者進行排序。由于相對熵并不對稱也不滿足三角不等式,可以用于兩個概率分布差別的非對稱性度量。考慮作者學術影響力值與正理想解和負理想解相對熵,可以解決歐氏距離中垂線上的點無法排序的問題。作者vi的學術影響力值與正理想解A+和負理想解A?的相對熵(relative entropy)[26,30],稱為TOPSIS-RE,計算公式如下:

根據Si+和Si?可以計算作者vi的學術影響力與理想方案的相對接近程度,記為Ai:

Ai值越大,表示作者vi的學術影響力越大。如果Ai=0,表示作者vi最不重要;相反,如果Ai=1,則表示作者vi最重要。根據Ai的值降序排序,可以綜合評估作者vi的學術影響力排名。
本文采用美國物理學會(American Physical Society, APS)的數據,包括從1893年~2009年,超過46萬篇已發表的文章。每篇文章包含唯一的文章編號、文章名、發表時間(年-月-日)、作者名字、以及每位作者的所屬機構。另一個數據集用文章編號,提供了超過470萬條引用關系。為了研究作者的學術影響力,本文最終處理完的數據包含10萬多位作者,包括他們的發表文章情況以及被引用情況。

圖2 TOPSIS-RE和其他指標比較
在APS數據集中,本文提出TOPSIS-RE方法,綜合考慮5種指標對作者的影響力進行計算,并與單個指標及TOPSIS-ED方法作了對比。圖2隨機選取了15位作者并比較其各項指標的值,縱坐標表示作者學術影響力值(5種單指標的數值為式(3)中的tij值,TOPSIS-ED和TOPSIS-RE的數值為式(13)中的Ai值)。依據指標值的大小,本文可以對作者進行排名。本文提出的TOPSIS-RE方法對不同作者的影響力值有相對明顯的區分,解決了單個評價指標值相同導致無法進行排名的問題(如11、13、14號作者的H指數值相同);并且解決了TOPSIS-ED方法中垂線上的點無法排名的問題(如6、9號作者的TOPSIS-ED值相同)。再者,本文對不同指標進行加權,分析了各項指標在評價作者影響力時的重要程度,提高了依靠作者指標值進行排名的準確性。
為了評價本文方法對作者學術影響力排名的準確性,本文選取物理領域獲得諾貝爾獎的文章的作者(去重之后共142位)作為測試數據集,如表2所示,其他的作者作為非測試數據集。將實驗求得的作者學術影響力排名和測試數據集作比對,計算其AUC的值[31-32],當AUC=1時,表明測試數據集里作者的排名都高于非測試數據集里作者的排名;當AUC=0.5時,表明所有作者的排名是隨機的。較大的AUC值代表了較好的實驗準確性,其計算公式如下:

式中,n表示比較次數(取105);n1表示測試數據集里作者影響力值高于非測試數據集里作者影響力值的次數;n2表示測試數據集里作者影響力值等于非測試數據集里作者影響力值的次數。

表2 Physics領域獲得諾貝爾獎的文章
AUC計算結果如表3所示,本文作者影響力評價指標中,總引用量指標相對于其他幾個指標能較好的反應作者的學術影響力水平,其AUC值為0.913 4。基于相對熵的多屬性排序方法(TOPSIS-RE),比單個指標中最高的總引用量提高了2.047%,并且比經典的TOPSIS-ED方法提高了約0.833%,對作者影響力排名的評估更加準確。

表3 各指標AUC值
為了直觀地看出本文提出的TOPSIS-RE方法能更準確地從120 000位作者中識別出獲得諾貝爾獎文章的142位作者,本文將各種指標的排名結果進行了對比分析。如圖3所示,橫坐標表示排名列表中的前k個作者,縱坐標表示前k個作者中獲得諾貝爾獎文章的作者數目。例如,按各指標值排名的前1 000位作者中,發表文章數指標、總引用量指標、平均被引指標、I10指數指標、H指數指標、TOPSIS-RE指標分別包含了8位、27位、25位、14位、32位、41位獲諾貝爾獎文章的作者;前10 000位作者中,發表文章數指標、總引用量指標、平均被引指標、I10指數指標、H指數指標、TOPSIS-RE指標分別包含了59位、112位、86位、77位、83位、119位獲諾貝爾獎文章的作者。圖3可以看出本文提出的TOPSIS-RE方法能夠使獲得諾貝爾獎的文章的作者排名較其他指標更靠前,對作者排名的準確性比單個指標高,并且高于TOPSIS-ED方法。

圖3 TOPSIS-RE與其他指標的排名結果對比
本文綜合考慮作者的發表文章數、總引用量、平均被引用量、I10指數、H指數等5種指標,通過計算作者的學術影響力值與正理想解和負理想解的相對熵,提出了一種基于相對熵的多屬性排序方法。在美國物理學會APS數據集上的實驗結果表明,TOPSIS-RE方法算得的AUC值為0.932 1,比總引用量指標提高了2.047%,并且比TOPSIS-ED方法提高了0.833%。從圖3可以看出TOPSIS-RE方法比其他指標能更好地識別出獲得諾貝爾獎文章的作者。本文算法不僅解決了單個評價指標值相同導致無法進行排名的問題,同時解決了TOPSIS-ED方法中垂線上的點無法排序的問題。運用相對熵的距離計算方法還會存在少部分作者的學術影響力相同的情況:由于數據集的限制,存在一部份作者,他們是某篇或者某幾篇文章的合作關系,而數據集中沒有他們發表的其他的文章信息,這會導致這部分作者的5種單指標的值完全一致,所以不管何種計算方法,都不能把他們區分開,需要更豐富的發表文章信息。
多屬性排序方法的有效運用,取決于所選指標的優劣和賦予權重系數的合理性,因此可以進一步研究作者的學術影響力評價指標以及更優的賦權方法,使作者的排名更為準確。在研究作者學術影響力時,時間因素也會對作者的排名結果產生重大的影響,未來的工作中,將通過年份的劃分更細化地研究作者學術影響力動態變化。另外,通過引文網絡,研究網絡的結構對理解作者的學術地位和合作模式具有重要意義。
[1]HICKS D, WOUTERS P, WALTMAN L, et al.The Leiden Manifesto for research metrics[J].Nature, 2015, 520(7548):429.
[2]SHEN H W, BARABáSi A L.Collective credit allocation in science[J].Proceedings of the National Academy of Sciences, 2014, 111(34): 12325-12330.
[3]FORTIN J M, CURRIE D J.Big science vs.little science:How scientific impact scales with funding[J].PloS One,2013, 8(6): e65263.
[4]GILES C L, COUNCILL I G.Who gets acknowledged:Measuring scientific contributions through automatic acknowledgment indexing[J].Proceedings of the National Academy of Sciences of the United States of America, 2004,101(51): 17599-17604.
[5]HIRSCH J E.An index to quantify an individual's scientific research output[J].Proceedings of the National academy of Sciences of the United States of America, 2005, 102(46):16569-16572.
[6]胡楓, 趙海興, 何佳倍, 等.基于超圖結構的科研合作網絡演化模型[J].物理學報, 2013, 62(19): 178901.HU Feng, ZHAO Hai-xing, HE Jia-pei, et al.An evolving model for hypergraph-structure-based scientific collaboration networks[J].Acta Phys Sin, 2013, 62(19): 178901.
[7]高志, 張志強.個人學術影響力定量評價方法研究綜述[J].情報理論與實踐, 2016, 39(1): 133-138.GAO Zhi, ZHANG Zhi-qiang.A Summary of quantitative evaluation methods of personal academic influence[J].Information Studies: Theory & Application, 2016, 39(1):133-138.
[8]宣照國, 苗靜, 黨延忠, 等.科研領域關聯網絡的社團結構分析[J].上海理工大學學報, 2008, 30(3): 249-252.XUAN Zhao-guo, MIAO Jing, DANG Yan-zhong, et al.Community structure of Chinese nature science basic research weighted networks[J].Journal of University of Shanghai for Science and Technology, 2008, 30(3): 249-252.
[9]鄭佳之, 張杰.一種個人學術影響力的評價方法[J].中國科技期刊研究, 2007, 18(6): 957-960.ZHEN Jia-zhi, ZHANG Jie.Method to estimate academic impact of individuals[J].Chinese Journal of Scientific and Technica, 2007, 18(6): 957-960.
[10]龔旭.美國國家科學基金會的同行評議制度及其啟示[J].中國科學基金, 2005, 18(6): 373-376.GONG Xu.Peer review system of the National Science Foundation and its implications[J].Bulletin of National Natural Science Foundation of China, 2005, 18(6):373-376.
[11]崔宇紅.從文獻計量學到 Altmetrics: 基于社會網絡的學術影響力評價研究[J].情報理論與實踐, 2013, 36(12):17-20.CUI Yu-hong.From bibliometrics to altmetrics: a study of academic impacts based on social networks[J].Information Studies: Theory & Application, 2013, 36(12): 17-20.
[12]NEWMAN M E J.Coauthorship networks and patterns of scientific collaboration[J].Proceedings of the National Academy of Sciences, 2004, 101(suppl 1): 5200-5205.
[13]PETERSEN A M, WANG F, STANLEY H E.Methods for measuring the citations and productivity of scientists across time and discipline[J].Physical Review E, 2010, 81(3):036114.
[14]GARFIELD E.Citation analysis as a tool in journal evaluation[J].Science, 1972, 178(4060): 471-479.
[15]BORNMANN L, DANIEL H D.Does the H-index for ranking of scientists really work?[J].Scientometrics, 2005,65(3): 391-392.
[16]EGGHE L.Theory and practise of the g-index[J].Scientometrics, 2006, 69(1): 131-152.
[17]DELGADO L C E, ROBINSON G N, TORRES S D.The Google scholar experiment: How to index false papers and manipulate bibliometric indicators[J].Journal of the Association for Information Science and Technology, 2014,65(3): 446-454.
[18]劉建國, 任卓明, 郭強, 等.復雜網絡中節點重要性排序的研究進展[J].物理學報, 2013, 62(17): 178901.LIU Jian-guo, REN Zhuo-ming, GUO Qiang, et al.Node importance ranking of complex networks[J].Acta Phys Sin,2013, 62(17): 178901.
[19]于會, 劉尊, 李勇軍.基于多屬性決策的復雜網絡節點重要性綜合評價方法[J].物理學報, 2013, 62(2): 020204.YU Hui, LIU Zun, LI Yong-jun.Key nodes in complex networks identified by multi-attribute decision-making method[J].Acta Phys Sin, 2013, 62(2): 020204.
[20]邵鳳, 郭強, 曾詩奇, 等.微博系統網絡結構的研究進展[J].電子科技大學學報, 2014, 43(2): 174-183.SHAO Feng, GUO Qiang, ZENG Shi-qi, et al.Research progress of the microblog system structures[J].Journal of University of Electronic Science and Technology of China,2014, 43(2): 174-183.
[21]LIU J G, LIN J H, GUO Q, et al.Locating influential nodes via dynamics-sensitive centrality[J].Scientific Reports,2016, 6: 21380.
[22]狄增如.系統科學視角下的復雜網絡研究[J].上海理工大學學報, 2011, 33(2): 111-116.DI Zeng-ru.Research of complex networks from the view point of systems science[J].Journal of University of Shanghai for Science and Technology, 2011, 33(2):111-116.
[23]孟祥保, 錢鵬.國際圖書情報學研究群體結構——以核心作者互引分析為視角[J].情報科學, 2015, 33(5):124-128.MENG Xiang-bao, QIAN Peng.Research groups structure of international library and information science based on core author cross-citation analysis[J].Information Science,2015, 33(5): 124-128.
[24]李旋, 郝繼英.學者的學術影響力評價方法[J].中華醫學圖書情報雜志, 2016(8): 48-52.LI Xuan,HAO Ji-ying.Methods for evaluating the academic impact of scholars[J].Chin J Med Libr Inf Sci,2016(8): 48-52.
[25]金晶, 何苗, 王孝寧, 等.不同學科領域自然科學論文學術影響力評價與比較的可行性研究[J].科技管理研究,2010, 30(14): 279-284.JIN Jing,HE Miao,WANG Xiao-ning,et al.Feasibility research of evaluation and comparison of natural science papers in different fields[J].Science and Technology Management Research, 2010, 30(14): 279-284.
[26]KULLBACK S, LEIBLER R A.On information and sufficiency[J].The Annals of Mathematical Statistics, 1951,22(1): 79-86.
[27]YOON K P, HWANG C L.Multiple attribute decision making: an introduction[M].Sage Publications, 1995, 104:38-44
[28]朱茵, 孟志勇, 闞叔愚.用層次分析法計算權重[J].北京交通大學學報, 1999, 23(5): 119-122.ZHU Yin, MENG Zhi-yong, KAN Shu-yu.Determination of weight value by AHP[J].Journal of Northern Jiaotong University, 1999, 23(5): 119-122.
[29]GOLDEN B L, WASIL E A, HARKER P T.The analytic hierarchy process: Applications and studies[J].Computers& Operations Research, 1993, 20(5): 562-563.
[30]趙萌, 邱菀華, 劉北上.基于相對熵的多屬性決策排序方法[J].控制與決策, 2010(7): 1098-1100.ZHAO Meng, QIU Wan-hua, LIU Bei-shang.Relative entropy evaluation method for multiple attribute decision making[J].Control and Decision, 2010(7): 1098-1100.
[31]HANLEY J A, MCNEIL B J.The meaning and use of the area under a receiver operating characteristic (ROC)curve[J].Radiology, 1982, 143(1): 29-36.
[32]LIU X L, GUO Q, HOU L, et al.Ranking online quality and reputation via the user activity[J].Physica A: Statistical Mechanics and its Applications, 2015, 436: 629-636.