摘要:特征因子算法是評價期刊質量的一種重要方法,文章在特征因子算法基礎上通過改進構造出一種作者影響力評價的新算法。首先對特征因子算法原理進行簡單介紹。然后通過分析作者引用相較期刊引用的特殊性,對特征因子算法進行了改進,并對其實現步驟進行了詳細說明。最后,選擇國內圖情學作者引用網絡進行應用研究,得到了這些作者的影響力排名,并與傳統的被引次數進行了比較。
關鍵詞:作者影響力;特征因子算法;改進
中圖分類號:G350文獻標志碼:A文章編號:10085831(2015)02010604隨著信息經濟時代向知識經濟時代的發展,知識溝通顯得尤為重要,文獻是知識傳播的主要載體,而作者是文獻的創作者,所以作者已經成為知識創造的力量源泉和知識傳播的主要承載者。作者影響力的評價一直是科研管理界和學者們關注的焦點問題,不少學者對此進行了一系列研究,產生了眾多影響力較大的成果,主要集中在如下三個方面:一是被引次數。美國信息學家E.Garfield曾編制《科學引文索引》,首次系統化地對作者之間的引用進行研究,并提出用被引次數對作者的影響力進行評估[1];二是h指數。美國物理學家J.E. Hirsch將作者的發文量和被引次數進行綜合考量,提出h指數對作者進行評價研究[2];三是改進的pagerank算法。如美國印地安那大學的Ying Ding考慮到作者引用與網頁鏈接之間的相關性,于是提出對pagerank算法進行改進以對作者影響力進行評價[3]。以上研究中前兩方面都是僅圍繞作者的絕對被引次數展開,第三個方面的研究雖然在考慮作者被引次數的同時也將施引作者的影響力考慮進去,但對一些參數的處理方面還有可改進之處。隨著對期刊評價的一種新算法——特征因子算法的提出,該算法在考慮期刊引用之間的被引次數和施引期刊的影響力之外,將其引用的方向性和多次引用情況都考慮進去[4],這樣對于評價期刊的影響力更具有科學性和說服力。D. Jevin考慮到期刊評價與作者評價之間有非常明顯的相似性,開始嘗試將該算法運用到對作者影響力評價中[5],而國內有不少學者只是針對特征因子算法自身的原理等進行探究[6-8],目前尚未有學者將該算法應用到對作者的評價研究中。
本文試圖將特征因子算法拓展到對作者影響力的評價研究中,并且根據作者影響力評價研究自身的特殊性對該算法進行改進,提出一種對作者影響力評價的新算法,這樣不僅是對作者影響力評價研究領域的補充,也為該方面的研究提供了一個新的視角。
一、特征因子的基本算法
影響因子在計算期刊的引用次數時,對于不同期刊的引用都平等對待,只統計引用次數,而事實上,不同期刊的價值有很大的差別,如Nature和Science這樣影響力非常大的期刊,顯然不能和一些普通期刊的引用份量同等對待,兩篇文章分別被Nature引用和被一個不知名的期刊引用,則這兩篇文章的質量相差很大?;谶@樣的現實情況,于是就引入特征因子(Eigenfactor)這個指標,該指標的制定考慮了引用該期刊的期刊源的權重,通過期刊之間的引用情況構建期刊引用網絡,從而對期刊的重要性進行評價。特征因子算法工作原理具體如下:首先選擇一個期刊,并任意選擇該期刊中一個參考文獻鏈接到另一個期刊,然后在之前鏈接到的那個期刊中再任意選出一個參考文獻,再繼續鏈接到對應的下一個期刊,依此類推,不停地重復這個行為,于是發現被鏈接到次數越多的期刊,其影響力越大,鏈接到該期刊的概率值的百分位數就是該期刊的特征因子值。
特征因子算法主要包括兩大步驟,首先對期刊引用矩陣進行規范化處理,即:Mij=ZijkZkj,其中Zij表示期刊j來自期刊i的被引次數, kZkj表示期刊j的總被引次數;然后構建過渡矩陣,即:P=αM′+(1-α)A,其中α表示期刊引用過程中的阻尼系數,一般取0.85,M′表示矩陣M經懸點處理后的隨機矩陣,A表示期刊發文量向量對應的單位向量,即A=a·eT;最后通過計算過渡矩陣的最大特征值得到期刊的特征因子得分[5]。
二、改進的特征因子算法
重慶大學學報(社會科學版)2015年第21卷第2期
馬瑞敏,等基于特征因子算法改進的作者影響力評價研究
作者之間的引用與期刊之間的引用情況非常相似,但兩者也有一定的區別。通常,一個期刊的被引用情況與其所承載的論文數量有很大關系,承載論文數量越多的期刊越有機會得到其他期刊的引用,而作者之間的引用受作者自身被引次數的多少影響較大,受作者的發文量的影響相對較小。因此在如下兩方面進行改進:第一,將特征因子算法中的A改進為作者被引次數向量對應的單位向量;第二,在構建隨機矩陣M′時,用作者被引次數向量代替懸點向量,從而對矩陣M進行改進后的懸點處理。改進后作者影響力算法的具體步驟如下。
(1)構建作者引用網絡矩陣。考慮作者引用與期刊引用的相似性,可以根據特征因子對期刊評價的原理與思路,模仿期刊引用網絡矩陣構建的方法來構建作者引用網絡矩陣。矩陣中第一行的作者表示被引作者,第一列的作者表示引用作者,矩陣中的元素表示被引次數。由于排除了自引,所以矩陣對角線上全為0,矩陣Z即為n個作者的作者引用網絡矩陣,元素Ci,j表示矩陣中作者之間的引用次數。
(2)對第(1)步中所構建的作者引用網絡矩陣進行規范化處理,即用每列被引次數除以該列被引次數的總和,矩陣中相應元素可以用如下的公式表示:Hi,j=Ci,jni=1Ci,j
(3)懸點的處理。由于發現有些作者從來沒有引用過其他作者,因此在所構建的作者引用網絡矩陣中就會有這些作者對應的列全為0的現象出現,于是稱之為懸點。用1對應該矩陣中懸點所在的列,用0對應該矩陣中非懸點所在的列,則由1和0組成的行向量就可以表示該矩陣。假設第二個作者從來沒有引用過其他作者,則在作者引用矩陣中第二列的值全為0,如下所示的向量d即可以表示該作者引用矩陣:d=(010…0)。
(4)計算作者被引次數向量。每個作者的被引次數除以所有作者總的被引次數,這樣的一個列向量即為作者被引次數向量,則作者被引次數向量中的元素可以用如下的公式表示:ai,1=(5)將所構建的作者引用網絡矩陣中的懸點用被引次數向量代替,構建出一個隨機矩陣,該隨機矩陣對應作者在科學文獻引用中的隨機漫游過程。此時與特征因子有所不同,特征因子是用文章向量來代替期刊引用網絡矩陣中的懸點,而本文在對作者的引用網絡進行研究時選擇了用被引次數向量來代替懸點,這里主要考慮了在對期刊的引用時其隨機性主要受期刊中文章數量的影響,而對作者的引用主要是受作者的被引次數的影響,與作者所發文章數的關系相對較小,故在本文中選擇用被引次數向量來替代作者引用網絡矩陣中的懸點。如第(3)步中作者引用矩陣中第二列的元素可以用如下公式表示:Hi,2=nj=1Ci,jni=1nj=1Ci,j。
(6)構建過渡矩陣。定義過渡矩陣P=αM′+(1-α)A, 即P=αM′+(1-α)a·eT,其中α為阻尼系數,仍然取0.85,M′為第(5)步中構建出的隨機矩陣,a為第(4)步中的作者被引次數向量。在此基礎上,再定義π為作者影響力向量,π由過渡矩陣的最大特征值所對應的那個向量表示。
(7)計算作者影響力值。作者影響力值向量的計算與特征因子值向量的計算相似,是對應作者引用網絡矩陣和第(6)步中π的點積,經過規范化處理后乘以100,換算為百分值所得。
(8)用Matlab軟件編寫程序進行迭代計算,計算出最終結果。
三、應用研究
(一)數據的收集與處理
本文選擇中國圖書情報領域內的所有作者在2010-2012年的引用情況作為研究對象。為了保證收集數據的可靠性與科學性,我們選擇中國社會科學引文索引(CSSCI)數據庫作為本次研究的數據來源。另外,在高級檢索處,選擇發文年代:2010-2012年;文獻類型:論文;學科類別:圖書館、情報與文獻學;學位類別:圖書館、情報與檔案管理(一級),其他都為默認的選擇。最終得到文獻記錄為24 041條,作者數為27 036個。構建27036×27036矩陣,然后利用Matlab自編程序進行數據清理和計算。
(二)結果分析
基于改進算法,得到這27 036位作者的影響力得分。首先,對所有作者的影響力的分布進行分析,結果呈現出非常明顯的偏斜現象(圖1),符合長尾分布特征。
圖1作者影響力的偏斜分布圖
從圖1中可以看出,只有極少數作者的影響力較高,大部分作者的影響力都很低,并且有不少作者的影響力為0。另外,從圖中作者影響力的偏斜程度看,影響力較高的作者之間波動也相對較大,呈現出明顯的下滑趨勢,可見該領域內高影響力的學者偏少,作者間影響力強弱差距較大。也從一個側面可以看出本文所提出的方法能夠較好地區分作者之間的影響力。
為了更好地觀察結果,下面對前50名作者進行研究。被引次數是當前評價作者影響力非常重要的指標,雖然h指數提出這么多年,但是仍然不能取代被引次數在作者影響力評價中的獨特地位。下面就本文所提方法結果和被引次數進行比較,表1給出的是前50名作者的影響力與作者被引次數的具體分布情況。
可以看出運用新算法所得的作者影響力評價結果的排名與作者被引次數的排名呈現非常明顯的正相關性。從表1中也可以看出運用新算法評價出的作者影響力排名中前3名作者的被引次數排名完全相同,其余大部分作者運用新算法所得的排名和被引次數排名的差距也基本在±5名內。由此可見,本文提出的方法所得結果和被引次數很相關,是被引次數的有益補充。
另外,從原理看,改進的特征因子算法不僅考慮了作者的絕對被引次數,而且將施引作者的影響力也考慮進去,使對作者影響力的評價更有說服力,這在對圖情學學者的評價中也有所體現。如邱冠華、賴茂生、孟廣均等作者,他們都是該學科領域內的精英或者某個方面的帶頭人,通過查閱原始數據發現他們的被引次數相對不是很高,排名稍靠后,但是施引作者的影響力都相對較強,那么這些作者的影響力排名靠前是可以解釋通的。從這點出發,本文提出的方法在原理上有一定的優越性,得到的結果也符合實際。
四、結語
作者影響力評價是當前科學計量學研究的熱點,不同學者提出了不同的解決方案。本文受特征因子這一期刊質量評價方法的啟迪,對其進行了改進,使其更符合作者引用網絡的特征。文章詳細介紹了實現新算法的步驟,并將該方法應用在中國圖情學學者影響力評價上,發現該方法能夠較好地區分作者的影響力,其分布符合長尾分布特征。與作者引用次數——一種經典的作者影響力評價指標相比,本文提出的新方法不僅原理上較為科學,而且在結果呈現上和作者被引次數所得排序高度等級相關,但兩者也有一定差別。通過實例分析可證實本方法較符合實際,切實可行,能夠成為作者影響力評價方法的有益補充。
參考文獻:
[1]邱均平.信息計量學[M].武漢:武漢大學出版社,2007.
[2]HIRSCH J E. An index to quantify an individual’s scientific output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102 (46):16569-16572.
[3]YING D. Applying weighted ragerank to author citation networks[J]. Journal of the American Society for Information Science and Technology, 2011, 62(2):236-245.
[4]BERGSTROM C T, WEST J D, et al. The eigenfactor metrics[J]. The Journal of Neuroscience, 2008, 28(45):11433-11434.
[5]JEVIN D W.Authorlevel eigenfactor metrics: Evaluating the influence of authors, institutions, and countries within the social science research network community[J]. Journal of the American Society for Information Science and Technology, 2013(4):787-801.
[6]劉艷華,華薇娜.期刊評價新指標——特征因子[J].情報雜志,2010(7):122-126.
[7]米佳,濮德敏.特征因子原理及實證研究[J].大學圖書館學報,2009(6):63-68.
[8]任勝利.特征因子( Eigenfactor):基于引證網絡分析期刊和論文的重要性[J].中國科技期刊研究,2009,20(3):415-418.