李 奇,李秀霞
(曲阜師范大學傳媒學院,山東 日照 276826)
作者學術評價指標是衡量作者成果產出和科研績效的重要標度[1],隨著理論研究的深入和技術手段的進步,作者評價指標理論體系不斷被豐富。目前應用比較廣泛的是H指數[2],但H指數存在不足[3],如數值只增不減,而且其增長通常是由先前發文的被引次數決定,未考慮作者近幾年發文的影響力,不利于評價青年作者的影響力。因此,Pan和Fortunato[4]于2014年實證個人影響因子(Author Impact Factor即AIF)。
AIF是受著名的期刊排名指標“影響因子”啟發的作者排名指標[5],能夠發現研究人員在當前時間窗口內的影響力。該指標自提出便得到人們的廣泛關注,不少學者利用AIF開展了實證研究。如F.Zhang等利用AIF挖掘作者研究產出的趨勢[6];A.Stuart等研究不同領域內作者的AIF[7-8];T.Dehdarirad等指出AIF是衡量作者專業成就的一個指標,是IF的延伸[9];A.Gasparyan等分析了AIF的優勢和弊端[10];T.Amjad等研究自引對AIF的影響[11]。以上研究說明,AIF具有其獨特的優勢,也存在一定的不足,例如AIF計算5年時間窗內的發文和被引,但是對于發展緩慢的作者而言,5年的時間窗可能會很窄[10];而且AIF采用相同的時間間隔評價學術影響力,不利于青年作者的學術評價[12];平等對待所有引用并賦予相同的值是AIF存在的第三個問題。所以有人從發文時間、引文區分等角度對AIF進行了一定的改進。如M.Schreiber等綜合AIF和H指數提出考慮作者近期文獻的指標h t(y)[13];J.Zhang等在AIF基礎上整合結構洞和信息熵理論,得到計算作者網絡影響力的AIRANK指標[14];T.Chien等結合合著者權重對AIF進行了修正[15];X.Kong等提出一種基于超圖理論的技能排序模型[16];M.WANG等提出區分引文不平等強度和貢獻度的學術影響力測度指標[12];W C.Kan等基于社會網絡分析方法,從作者姓名消岐的角度對AIF進行了改進[17]。相較而言,國內對AIF的研究較少,高志等在對比分析T、S、hg、A、g、AIF等指標的區分度時,引進了AIF[18];同年,劉萍等對AIF指標進行了改進研究[19]。
分析AIF及其改進指標,發現已有研究未考慮單篇論文作者數量及其署名順序,認為所有作者在論文創作中的貢獻同等;其次,已有研究忽略了零被引論文,因此,AIF及其改進指標并不能準確度量作者的整體影響力。本文在AIF的基礎上,進一步對其修正,提出結合發文數量、被引次數、期刊影響因子(JCR IF)、合著者權重、零被引論文的作者影響力評價新指標——修正個人影響因子(corrected personal impactfac即CPIF),以全面、客觀、公平地評價作者的學術影響力。
科學產出最簡單和最常見的衡量標準是對出版物數量的簡單計數,基于這種思想,Pan和Fortunato在前影響因子的基礎上提出計算作者影響力的個人影響因子(AIF),其計算公式為(1):

(1)融入期刊影響因子和作者論文貢獻度的個人影響因子。AIF的問題在于沒有考慮合著作者貢獻度和過度依賴被引次數,所以本文在AIF基礎上用期刊影響因子(JCR IF)對被引頻次賦權,結合合著者權重得到作者影響力評價新指標PIF,其計算公式如下:

在公式(2)中,wi代表在合著作者為n的一篇論文中第i名作者的貢獻度,即

該計算方法認為第一作者的貢獻度最高,第二作者的貢獻度次之,二作以上的貢獻度隨名次的增加而降低,這種計算方法符合國內對合著作者貢獻度分配的普遍認知;IF(sum)代表某論文賦權后的被引質量,即期刊不同年份(x)的影響因子不同,用IF(x)表示x年份刊載被引論文的期刊的影響因子,j為論文順序編號,n為作者發表論文數量。單篇論文發表后的被引次數與被引期刊存在一一對應的關系,考慮不同年份的被引頻次及其對應的被引期刊影響因子,計算論文發表后的被引質量IF(sum)。
PIF在一定程度上彌補了H指數和AIF的缺陷:首先,PIF根據作者合著論文的位次分配權重計算作者的貢獻度,可避免所有作者均分論文榮譽;其次,PIF根據JCR IF對被引頻次賦權反映被引質量,取消了對被引頻次的依賴;同時,根據研究需要,在實際應用中還可自行確定文獻的發文年和被引年,通過限定時間窗口解決了H指數對青年作者評價不利的問題,使評價結果公平、合理。
(2)CPIF指標構建。AIF未計算零被引論文,而作者的引文中存在非零被引論文和零被引論文,所以為全面衡量作者的學術水平,本文基于PIF提出CPIF,其定義為作者的PIF乘上非零被引論文與發表論文的數量之比。非零被引論文和零被引論文構成作者的全部發文即

然后結合公式(2)修正PIF得到CPIF,即:

其中,cp i指過去i年作者被引論文的總數,n i指過去i年作者發表論文的總數,upi指過去i年作者零被引論文的總數。可見,CPIF并不是固定值,零被引論文數量越多,作者的CPIF數值就越低,一旦零被引論文變成非零被引論文,CPIF數值就會動態改變。因此,CPIF不需要限定零被引論文的年限,如果一篇零被引論文在近期發表還未得到引用,但只要該論文是有價值的,那么遲早會得到引用,該論文的CPIF數值就會相應改變。
基于其設計原理,CPIF有以下幾個特征:CPIF是對PIF的進一步改進,所以CPIF既考慮到作者的被引質量,又考慮到作者的貢獻度,同時還計算了作者的發文數量、零被引論文數量;CPIF將零被引論文納入計算范圍內,研究人員的零被引論文數量越多,其被引論文的比例越小,即CPIF≤PIF;通常來講,評價指標包含信息的多少很大程度上與計算難度成正比,無論是學術跡[20]還是集成影響因子[21]都是通過劃分被引論文分布層次來計算作者的總體學術水平,計算難度較高,但CPIF僅需要計算作者論文發文和被引的數量,計算相對簡單。
為說明CPIF在綜合評價作者學術影響力方面的優越性,本文以圖書情報學領域2013—2018年同時具有高影響力和高發文量的40名作者為實證研究對象,在中國知網(CNKI)引文數據庫中檢索40名作者2013—2017年的發文情況及這些發文在2018年的被引情況。文獻數據記錄包括每個作者的所有發文(包含作者的署名次序和零被引論文)數量、總被引頻次及其對應的期刊質量等,數據采集時間為2019年12月6日。考慮到學者撰寫、發表論文及積累一定量的被引是一個較長時間的過程,而且5年是圖書館學期刊的最佳引證時間窗[22],本文選擇2013—2017年5年時間窗口。從以往研究來看,學界并沒有明確定義零被引的時間窗口[23],為保證公平性,本文并未定義零被引論文的時間年限。
在此基礎上利用R語言自編程序提取作者的多項數據:(1)提取單篇論文的作者總數和作者署名位次,并對每篇論文編號;(2)提取作者的被引頻次及其對應的期刊,刪除英文期刊,共獲得“被引期刊-年”條目共11 041條。在維普期刊網中導出施引源期刊2014—2018年的影響因子,刪除查不到或者為空的條目,清洗后得到8 749條“期刊-年”數據。最后分別利用公式(1)、公式(3)計算40名作者的AIF、CPIF數值。為驗證CPIF的評估有效性,本文選取H指數、AIF指數與CPIF進行對比。40名作者文獻數據記錄包括AIF值、CPIF值、H指數、被引質量、第一作者(以下簡稱“一作”)數量、第二作者(以下簡稱“二作”)數量及二作以上數量。利用R語言和Excel軟件計算、匯總40位作者的各種參數值,為進一步比較AIF、H指數和CPIF的異同,本文統計了40名作者的排名位次情況,見表1。

表1 40名作者詳細數據記錄(以CPIF的大小降序排列,僅取部分數據)
3.2.1 CPIF指標數值的分布特征分析
根據指標的偏度和峰度,分析指標數值的分布情況,見表2。

表2 各指標描述性統計
由表2發現,AIF的偏度值為1.143,峰度值為2.318,偏度Z-score=1.143/0.374=3.05>3;CPIF的偏度值為1.632,峰度值為3.582,偏度Z-score=1.632/0.374=4.36>3。可以看出AIF和CPIF呈現輕度正偏態分布,說明40名作者整體具有較高的學術影響力,這一結果也符合現實情況,而且引文分布指標往往不服從正態分布[24],所以AIF、CPIF也符合人們對評價指標的認知。
3.2.2 CPIF指標的區分度分析
由表1可知,CPIF的分布范圍最廣,最大值、最小值之間的差值最大;H指標分布范圍較窄,最大值、最小值之間的差值較小;AIF指標的分布范圍最窄,最大值、最小值之間差值最小,由此反映出AIF和H指數區分度過小,存在因數值相同而無法區分的不足。而且CPIF的標準差和方差均高于H指數和AIF指數,與H指數、AIF指數相比,CPIF值離散程度較高,區分度更高,能有效評價作者影響力。可見,利用CPIF指標進行作者評價可以激勵科研人員發表高品質論文,有利于形成良好的學術生態環境。
3.2.3 CPIF指標的靈敏度分析
分析40位作者的評價結果,發現有9組共31位作者的H指數相同,占樣本人數的77.5%,而CPIF和AIF未出現多位作者評價結果相同的情況。其中6號和15號兩位作者的H指數數值相同,2013—2017年的發文量都很高(分別為113和81篇),15號作者的CPIF數值卻低于6號作者的CPIF數值。這是由于6號作者的論文署名位次多為第一作者和第二作者,作者貢獻度高于15號作者的貢獻度,而15號作者的被引頻次低于6號作者,其零被引論文數量高于6號作者,故導致15號作者的CPIF值低于6號作者的數值。可以看出,每增加一篇發文或一次被引都能夠使作者的CPIF排名發生明顯改變,所以,相較于H指數,CPIF靈敏度更高,能夠對作者進行更為精細的評價。
3.2.4 CPIF指標評價結果分析
將40名作者按照AIF、CPIF和H指數數值大小排名,AIF和CPIF減去H指數的排名變化分別記為Δ1、Δ2,CPIF減去AIF的排名變化記作Δ3,計算結果如表1。Δ1、Δ2為正代表AIF和CPIF較H指數的排名靠后,Δ1、Δ2為負代表AIF和CPIF較H指數的排名靠前;Δ3為正代表CPIF較AIF的排名靠后,Δ3為負代表CPIF較CPIF的排名靠前。由表1可以看出,相較于H指數的位次,40名作者的AIF位次均發生了變化,其中名次變動5名以內的有9名作者,占總數的22.5%;名次變動10名以上的有23名作者,占總數的57.5%。相較于H指數的位次,有35名作者的CPIF位次發生變化,其中名次變動5名以內的有21名作者,占總數的52.5%;名次變動10名以上的有11名作者,占總數的27.5%。整體上看來,CPIF的波動幅度小,名次變化穩定。為進一步探討新指標名次變化的穩定性和波動性,選取有代表性的作者進行分析,結果如圖1所示。

圖1 40名作者AIF、CPIF、H指數排名變化曲線圖
77.5 %作者的H指數相同,排名呈階梯狀上升,AIF和CPIF的名次圍繞H指數排名上下波動,且波動情況大致相同,原因在于CPIF是在AIF的基礎上進行改進的評價指標,是對AIF排名的小幅調整。在3種指標中,前兩名作者的H指標和CPIF排名均保持不變,說明對于影響力較高的作者來說,H指數和CPIF在描述作者影響力大小上總體趨勢一致,都具有較好的篩選功能,而AIF在描述作者影響力時與實際情況存在一定出入,難以準確表現作者的個人影響力。
在CPIF排名中較H指數排名上升最大的是3號作者,上升了16位。3號作者的H指數為15,排名第19位,排名較低的原因在于該作者發文量較少,難以從發文數量角度提高H指數數值。當以CPIF計算該作者影響力時,其排名上升至第3位,這是因為該作者的發文多為第一作者而且被引質量高;零被引論文僅有5篇,零被引率排名第14。這說明如果某作者被引質量高,作者貢獻度高,零被引論文數量較少,那么該作者的CPIF就會獲得較好的排名。可見CPIF在同時考慮論文質量和數量的基礎上,更注重論文質量在學術評價中的作用,由此CPIF比H指數更能準確、客觀地評價科研人員的學術水平。而且3號作者2018年的被引頻次為312次,在40名作者中排名第9位,說明CPIF繼承了H指數以高被引論文為依據進行作者評價的特點,突出被引頻次在評價結果中的貢獻量。上述表明,CPIF受被引質量、零被引論文數量、作者合作數量以及作者署名位次等因素的影響,評價結果更加精細。
CPIF排名較H指數排名下降最大的是28號作者,降低了17位。28號作者的H指數為18,在40名作者中并列第6,但是CPIF排名下降至第28名,這是因為該作者發文中第一作者數量較少(僅有13次),且多為第三第四順位,因而其貢獻度高的論文數量少;二者被引質量低于10的論文占總被引論文的94%,其被引質量相較于其他作者較低。從零被引論文數量看,該作者在2018年的零被引數量為16篇,零被引排序為13名,該作者低水平的論文較多。結果表明,作者貢獻度和論文質量越高,排序序號越小(即學術影響力越大),這符合科學評價科研人員學術水平的原則。而且CPIF計算作者貢獻度和論文質量,可區分出獨立完成高質量成果的科研工作者。
在CPIF排名中較AIF排名下降最大的是作者34號,主要原因在于該作者發文數和被引次數低;CPIF排名較AIF排名上升最大的是2號作者,原因在于該作者文獻的零被引論文數量少而且發文數量和被引次數多(分別為197和192),因而該作者的CPIF降幅小于其他作者。可見CPIF兼顧高被引論文和零被引論文對作者學術水平的影響,在一定程度上彌補了AIF未計算零被引論文的不足。
3.2.5 CPIF指標與其他計量指標的相關性分析
利用Spearman秩相關性檢驗方法分析CPIF與其他計量指標的相關性[25],結果如表3。

表3 不同指標之間的相關系數
結果顯示,40名作者的CPIF與H指數呈顯著正相關。這是由于CPIF和H指數都以被引論文數量為基礎評估數據,其評價基礎一致。分析其設計原理,H指數僅計算作者的部分高被引論文數量及其被引頻次,而CPIF涉及的作者信息較多,CPIF在AIF的基礎上將作者發表的論文數量與文獻分布特征考慮在內。AIF與H指數的相關性較低,原因在于AIF考慮作者全部發文數量和非零被引論文,H指數僅考慮H核心內的發文數量和非零被引論文,二者存在小部分重合區間;而且二者計算方式不同,即從不同角度衡量作者學術影響力。
由結果可知,AIF與CPIF在0.05的水平下相關,為進一步探討AIF與CPIF的關系,本文采用多元回歸方法分析二者關系。傳統文獻計量指標中,AIF總體上側重論文數量,CPIF側重論文的引文分布和貢獻度,從這兩個角度分析可以防止多重共線性,也可以分析CPIF的特點,結果如下:

從回歸結果看,AIF與CPIF正相關,回歸系數為9.318。回歸的擬合優度R2=0.673,擬合度較好,這說明兩者存在著顯著的相關關系。AIF與CPIF相關的原因在于AIF和CPIF均計算論文的數量與質量,二者計算原理一致。但是同樣也可以看出AIF并不能完全解釋CPIF,兩者之間的差異表明CPIF考慮到了引文分布、被引質量和貢獻度對評價學者學術水平的影響。AIF單方面考慮發文量,實踐證明,發文量對AIF的反向影響大于正向影響,即增加發文量會降低影響因子,而CPIF考慮多種因素,所以CPIF更具有全面性。
CPIF、H指數都與第一作者論文數量在0.01水平下顯著相關(相關系數分別為0.668、0.580),而與第二作者的論文數相關性較低,與二作以上的論文數不存在相關性。可見,第一、第二作者的論文數量越多,其作者的貢獻度越高,累積效應下作者的CPIF、H指數都會較高。CPIF、H指數都與被引質量在0.01水平下顯著相關(相關系數分別為0.792、0.889),表明在作者學術影響力評價中作者的貢獻度和論文被引質量的作用不可忽視,且新指標尤其突出了第一作者和第二作者的貢獻度。
本文介紹了一種評價作者學術影響力的指標AIF,并結合論文的引文分布、被引質量和貢獻度,對AIF進行修正,提出一種作者影響力評價的新指標:CPIF。具體來說,AIF是某一作者在某一時間段內發表的所有論文被引用次數的平均值,其優勢在于通過評價作者特定時間內的影響力來激勵作者發表高質量論文而且數據易獲取、計算簡單。但是該指標存在未考慮合著作者貢獻度及假設所有引文平等的不足,所以本文在此基礎上進行改進得到CPIF。CPIF指標的優勢在于:(1)CPIF充分繼承了AIF的優點,即排除了時間因素的干擾,能夠評價特定時間窗口下作者的影響力,使評價結果更具公平性;(2)CPIF指標充分考慮了作者的發文數量、被引論文的整體分布及發文質量,一定程度上彌補了AIF未計算作者論文零被引的不足;(3)基于作者貢獻度和被引質量,CPIF指標便于靈活選擇時間窗口,有利于評價青年作者的學術影響力。
為驗證CPIF的評估有效性,本文以圖書情報學領域2013—2018年發文量和被引量同時最多的40名作者為研究對象,從H指數、AIF、CPIF的區分度、靈敏度、作者排名以及與各指標的相關性等角度進行對比分析,發現CPIF對作者的評價更加全面、細致和客觀:(1)CPIF的區分度較高,數值分布范圍更廣,避免了作者評價結果相同而無法區分的問題;(2)CPIF的靈敏度更高,能細致辨析作者影響力的變化情況;(3)CPIF的穩定性更高,相較于AIF,CPIF的波動幅度更小,名次變化更穩定;(4)H指數、CPIF和AIF兩兩之間存在一定的相關性,且3個指標均與作者署名和被引質量存在顯著相關,表明單篇論文的作者數量、署名順序及被引質量都是影響作者評價的重要因素。
另外需要說明的是,CPIF仍是一種定量指標,應結合定性指標(如專家評議)全面、合理地評價作者的影響力;而且本文僅以圖書情報學領域的40位作者為例進行實證研究,研究結論存在一定的局限性,后續將進一步增加樣本量和擴大研究領域,以提高該指標的普適性。