[摘要] 分析Schubert- Glanzela期刊h指數模型可能存在的問題,通過實際統計回歸得出期刊h指數經驗模型,通過實例驗證其模型的準確性。在分析模型變化規律的基礎上,對模型進行修正與描述。通過實例驗證,指出經驗模型對機構h指數同樣具有較高的解釋力度。
[關鍵詞] 期刊h指數 經驗模型 機構h指數 驗證
2005年美國物理學家赫希 (J. E. Hirsch) 提出了主要用于評價科學家個人學術成就的一項新指標——h指數 (h-index)。該指標一經提出,便迅速得到國際科學界的高度關注,成為科學計量學與科學評價領域的國際熱點問題。匈牙利信息科學與計量學研究中心、《科學計量學》(Scientometrics) 主編布勞恩 (T. Braun) 等人將h 指數加以擴展并應用于期刊影響力評價中 , 創立了期刊 h 指數,即: 對于一種期刊, 如果它發表的全部論文中有h篇文章 , 每篇被引用數至少為 h,同時要滿足這個自然數為最大,那么該值即為該期刊的h指數[1]。A. Schubert與W. Glanzela在假設期刊文獻被引分布規律遵循Lotka定律的基礎上,推導出期刊h指數與載文量、篇均被引量的理論數學模型,如公式(1)所示:
…………(1)[2]
(h為h指數,c為常數,N為載文量,IF為影響因子,S為篇均被引量,a為Lotka指數)
并設Lotka指數a=2時,對其進行了驗證,驗證結果常數c約為0.75,且不存在學科差異。公式中涉及了載文量(N)、影響因子(IF)與h指數3個指標量,影響因子代表了期刊論文的質量,因此,該公式巧妙地將期刊h指數和載文數量與質量聯系在一起,極富創意地解釋了期刊h指數的內涵。但公式在推導過程中畢竟經過了多次的近似轉換,尤其是公式中的常數c的取值,筆者也認為是1,從理論上來說也應該為1(當N=1、IF=1時,h=1),但作者在驗證時得出常數c的取值約為0.75。筆者在仔細分析作者的驗證結果后認為常數c小于1的結果是對載文量(N)或篇均引文量(S)的冪總體上高估了,為此,筆者從實例統計出發,力求對公式(1)作出修正,使得模型與實際誤差更小、更精確。
1 期刊h指數模型的實證與驗證
筆者利用《中國引文數據庫》作為統計源,利用《中國期刊全文數據庫》中的期刊導航分類目錄,按類統計不同專業不同時間段載文量及分別至統計時的被引量與h指數,并以公式(2)回歸。
…………(2)
先后共統計回歸了45個不同樣本,回歸結果均遵循公式(2),這說明公式(1)中的常數確實為1,根據公式(1)可知N與S的冪的和為1( ,對45個樣本回歸結果為:0.997< <0.804,均小于1,平均約在0.9左右,這充分說明了公式(1)在推導過程中,由于經過多次的近似轉換,使得N與S的冪比實際的大,在驗證時,使得常數c小于1。各類統計樣本回歸的 與 有一定的差別,但也有一定的規律性,通過對 與 直線回歸后得到如下結果:
…………………… (3)
…………(4)
……………… (5)
為了驗證所得模型的準確性,分別取 為0.32、0.33、0.34、0.35、0.36, 分別為0.688、0.635、0.582、0.529、0.476,對所統計的樣本逐一驗證,并與公式(1)(a=2)對比,為了能夠清楚地表達模型的準確性,本文使用統計學中的解釋力度概念:
………… (6)
(h表示實際統計的h值, 表示模型估算的h值, 表示實際統計的h值平均數)
以《中國期刊全文數據庫》中導航目錄提供的數學類目錄為樣本,載文時間為2000-2001年,統計時間為2010年6月17日,如表1所示。
驗證結果為: , ,即公式(3-5)對統計樣本的解釋力度為97.80%,公式(1)在c=1、a=2時對統計樣本的解釋力度為78.28%,取c=0.82時,公式(1)的解釋力度為92.56%,這時已接近最大值。其他樣本驗證結果基本一致,公式(3-5)在 取不同的值時,對其他44個統計樣本的解釋力度均大于公式(1)在c取最佳值時的解釋力度,且均大于92%。結果表明,公式(3-5)對各種學科及不同時間段的期刊h指數均有更高的解釋力度,模型具有較高的可信度。
2 對公式(3-5)的解讀與驗證
為了直觀地表達公式(3-5)在 取不同值時的變化,筆者設N=1 000,S分別取0.1-10.1,再分別以 取0.32、0.33、0.34、0.35、0.36, 分別取0.688、0.635、0.582、0.529、0.476,通過這5組數據分別計算h值,結果如圖1所示。圖中系列1- 5分別表示 取0.32-0.36。
從圖1可以清楚地發現,當S在3.5-3.7之間、h在20-25之間時,5組曲線基本重疊,在S<5時,差異較小,當N取值增大時,重疊點的S值也相應增加,當N每增加1 000時,交叉點的S值約增加0.2-0.3,反之當N取值減小時,重疊點的S值相應減小,因此,對于S較小的統計樣本, 取值變化對解釋力度影響并不明顯,對于S值比較大的統計樣本, 取值變化對解釋力度影響比較明顯。基于上述分析可以做出如下解讀:①在統計樣本回歸時,如果S值較小,很小的隨機誤差就可能使得回歸所得的系數發生變化,如果S較大時,回歸系數變化較小,但統計的樣本中由于樣本量本身不大,而S值較大的樣本只是整個樣本中極少數,這使得隨機誤差很可能向同一方向偏離,使回歸系數發生變化。筆者認為這是統計樣本無法得到統一方程的主要原因。②在對統計樣本進行驗證時,決定 取值的主要是S值較大的點。③對于樣本量較小,少數S值又較大的樣本,由于隨機誤差使得h值同時偏向一方,使 的取值發生變化,但如果是一個大樣本, S值較大的樣本數量較多,同時偏向一方的可能性極小,應該是在中間值上下正態分布,所以,樣本驗證時的最佳 的取值為中間值0.34。因此,可以認為 取值范圍是由于統計樣本較小,隨機誤差造成的,實際 的取值應該是0.34,即期刊h指數(h)與載文數量(N)、篇均被引量(S)的曲線為:
…………(7)
為了進一步驗證上述推斷,以《中文社會科學引文索引(CSSCI)》2010-2011年來源期刊中經濟學期刊目錄為統計樣本,通過《中國引文數據庫》分別統計不同載文時間段載文量及至2010年7月18日的被引量與h指數,統計樣本驗證結果如表2所示。
再以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業、園藝、畜牧、水產類共80種農業期刊為統計目錄,通過《中國引文數據庫》分別統計不同載文時間段載文量及至2010年7月20日的被引量與h指數,統計樣本驗證結果如表3所示。
以《中國引文數據庫》提供的高被引期刊統計表(統計時間為2010年6月10日),共提供了4 268種自然科學類期刊從收錄年起的載文量、被引量與統計時的h指數,驗證結果為:
=0.34, =0.582,
驗證結果表明上文的推斷基本正確,以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業、園藝、畜牧、水產類共80種農業期刊為統計樣本,與以《中國引文數據庫》提供的高被引期刊統計表提供的4 268種自然科學類期刊樣本均以 =0.34時解釋力度最高,以《中文社會科學引文索引(CSSCI)》2010-2011年來源期刊中經濟學期刊目錄為統計樣本最高解釋力度時 的取值與統計時的載文時間段存在明顯的相關性,隨著載文時間段與被引時間段的時間差逐步擴大, 的取值逐步由0.32趨向0.34。筆者認為這種情況是由于載文時間段與被引時間段的時間差較小,后期刊發論文實際上對h指數并沒有多大的貢獻,但這段時間相應的載文量增加,篇均被引量相應減少,這一增加與減小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的樣本都是這樣,如2008年《中文核心期刊要目總覽》中提供的作物、植保、林業、園藝、畜牧、水產類共80種農業期刊為統計樣本中2004-2009年的統計結果并沒有打破公式(7)的平衡。
綜上所述,期刊h指數與載文數量(N)、篇均被引量(S)的關系可以描述為:
#61548;當載文時間段與被引時間段有一定時間差時(2-3年),曲線基本遵循公式(7)的變化;
#61548;當載文時間段與被引時間段差距較小時,公式(3-5)中的 取值可能較小,但當載文時間段與被引用時間段差距逐漸擴大, 的取值也逐步從0.32趨向0.34,即公式(7);
#61548;考慮到實際的隨機誤差,當載文時間段與被引時間段有一定差距(2年以上),曲線的波動范圍為 。
3 公式(3-5)對機構h指數的驗證
以萬錦堃等發表的《中國部分重點大學h指數的探討》[3]一文中表1提供的利用美國ISI Web of Science中的SCI、SSCI和AHCI 數據庫計算得到的,國內50所高等院校在2001- 2003年中發表的論文在2001年1月至2006年12 月間在ISI 各數據庫中的被引頻次與h指數樣本的驗證結果為:
=0.34, =0.582,
以劉穎發表的《利用h指數及衍生h指數評價省級公共圖書館學術影響力》[4]一文表1中提供的國內省級圖書館統計數據為樣本,數據來源于《中國引文數據庫》與美國ISI Web of Science平臺,檢索時間為2009年3-4月,發文時間段為1998-2008年,驗證結果為:
=0.33, =0.635,
以趙基明等發表的《一種新的科學計量指標——h指數及其應用評述》[5]一文中表2提供的h指數前20位國家的統計數據為樣本,數據主要來源于美國《基本科學指標(ESI)》數據庫,統計的發文時間段為1996年1月l日至2006年8月8日,驗證結果為:
=0.34, =0.582,
驗證結果表明,公式(3-5)不僅對期刊h指數有較高的解釋力度,對樣本量較大的機構h指數同樣具有較高的解釋力度。
4 結語
Schubert- Glanzela期刊h指數模型從理論上解釋了h指數作為期刊載文數量與質量的綜合性指標的內涵,揭示了期刊h指數與載文數量與篇均被引量的冪函數關系。筆者在這一理論模型的啟迪下通過實證方法得出了期刊h指數的經驗模型,并且分析了影響期刊h指數模型變化的因素。通過實例驗證,經驗模型對機構h指數同樣具有較高的解釋力度。
參考文獻:
[1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.
[2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.
[3] 萬錦堃,花平寰,趙呈剛.中國部分重點大學h指數的探討.科學觀察,2007(3):9-16.
[4] 劉穎.利用h 指數及衍生h 指數評價省級公共圖書館學術影響力.圖書館建設,2009(11):77-81.
[5] 趙基明,邱均平,黃凱,等.一種新的科學計量指標——h指數及其應用評述.中國科學基金,2008(1):23-32.
[作者簡介]汪躍春,男,1964年生,副研究館員,發表論文20余篇。