期刊h指數(shù)與載文量\\引文量關(guān)系模型的實(shí)證與驗(yàn)證

2011-01-01 00:00:00汪躍春

知識(shí)管理論壇 2011年6期

[摘要] 分析Schubert- Glanzela期刊h指數(shù)模型可能存在的問(wèn)題，通過(guò)實(shí)際統(tǒng)計(jì)回歸得出期刊h指數(shù)經(jīng)驗(yàn)?zāi)Ｐ停ㄟ^(guò)實(shí)例驗(yàn)證其模型的準(zhǔn)確性。在分析模型變化規(guī)律的基礎(chǔ)上，對(duì)模型進(jìn)行修正與描述。通過(guò)實(shí)例驗(yàn)證，指出經(jīng)驗(yàn)?zāi)Ｐ蛯?duì)機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。

[關(guān)鍵詞] 期刊h指數(shù) 經(jīng)驗(yàn)?zāi)Ｐ?機(jī)構(gòu)h指數(shù) 驗(yàn)證

2005年美國(guó)物理學(xué)家赫希 (J. E. Hirsch) 提出了主要用于評(píng)價(jià)科學(xué)家個(gè)人學(xué)術(shù)成就的一項(xiàng)新指標(biāo)——h指數(shù) (h-index)。該指標(biāo)一經(jīng)提出，便迅速得到國(guó)際科學(xué)界的高度關(guān)注，成為科學(xué)計(jì)量學(xué)與科學(xué)評(píng)價(jià)領(lǐng)域的國(guó)際熱點(diǎn)問(wèn)題。匈牙利信息科學(xué)與計(jì)量學(xué)研究中心、《科學(xué)計(jì)量學(xué)》(Scientometrics) 主編布勞恩 (T. Braun) 等人將h 指數(shù)加以擴(kuò)展并應(yīng)用于期刊影響力評(píng)價(jià)中，創(chuàng)立了期刊 h 指數(shù)，即：對(duì)于一種期刊，如果它發(fā)表的全部論文中有h篇文章，每篇被引用數(shù)至少為 h，同時(shí)要滿足這個(gè)自然數(shù)為最大，那么該值即為該期刊的h指數(shù)[1]。A. Schubert與W. Glanzela在假設(shè)期刊文獻(xiàn)被引分布規(guī)律遵循Lotka定律的基礎(chǔ)上，推導(dǎo)出期刊h指數(shù)與載文量、篇均被引量的理論數(shù)學(xué)模型，如公式(1)所示:

…………(1)[2]

(h為h指數(shù)，c為常數(shù)，N為載文量，IF為影響因子，S為篇均被引量，a為L(zhǎng)otka指數(shù))

并設(shè)Lotka指數(shù)a=2時(shí)，對(duì)其進(jìn)行了驗(yàn)證，驗(yàn)證結(jié)果常數(shù)c約為0.75，且不存在學(xué)科差異。公式中涉及了載文量(N)、影響因子(IF)與h指數(shù)3個(gè)指標(biāo)量，影響因子代表了期刊論文的質(zhì)量，因此，該公式巧妙地將期刊h指數(shù)和載文數(shù)量與質(zhì)量聯(lián)系在一起，極富創(chuàng)意地解釋了期刊h指數(shù)的內(nèi)涵。但公式在推導(dǎo)過(guò)程中畢竟經(jīng)過(guò)了多次的近似轉(zhuǎn)換，尤其是公式中的常數(shù)c的取值，筆者也認(rèn)為是1，從理論上來(lái)說(shuō)也應(yīng)該為1(當(dāng)N=1、IF=1時(shí)，h=1)，但作者在驗(yàn)證時(shí)得出常數(shù)c的取值約為0.75。筆者在仔細(xì)分析作者的驗(yàn)證結(jié)果后認(rèn)為常數(shù)c小于1的結(jié)果是對(duì)載文量(N)或篇均引文量(S)的冪總體上高估了，為此，筆者從實(shí)例統(tǒng)計(jì)出發(fā)，力求對(duì)公式(1)作出修正，使得模型與實(shí)際誤差更小、更精確。

1 期刊h指數(shù)模型的實(shí)證與驗(yàn)證

筆者利用《中國(guó)引文數(shù)據(jù)庫(kù)》作為統(tǒng)計(jì)源，利用《中國(guó)期刊全文數(shù)據(jù)庫(kù)》中的期刊導(dǎo)航分類目錄，按類統(tǒng)計(jì)不同專業(yè)不同時(shí)間段載文量及分別至統(tǒng)計(jì)時(shí)的被引量與h指數(shù)，并以公式(2)回歸。

…………(2)

先后共統(tǒng)計(jì)回歸了45個(gè)不同樣本，回歸結(jié)果均遵循公式(2)，這說(shuō)明公式(1)中的常數(shù)確實(shí)為1，根據(jù)公式(1)可知N與S的冪的和為1( ，對(duì)45個(gè)樣本回歸結(jié)果為：0.997< <0.804，均小于1，平均約在0.9左右，這充分說(shuō)明了公式(1)在推導(dǎo)過(guò)程中，由于經(jīng)過(guò)多次的近似轉(zhuǎn)換，使得N與S的冪比實(shí)際的大，在驗(yàn)證時(shí)，使得常數(shù)c小于1。各類統(tǒng)計(jì)樣本回歸的與有一定的差別，但也有一定的規(guī)律性，通過(guò)對(duì) 與直線回歸后得到如下結(jié)果：

…………………… (3)

…………(4)

……………… (5)

為了驗(yàn)證所得模型的準(zhǔn)確性，分別取為0.32、0.33、0.34、0.35、0.36，分別為0.688、0.635、0.582、0.529、0.476，對(duì)所統(tǒng)計(jì)的樣本逐一驗(yàn)證，并與公式(1)(a=2)對(duì)比，為了能夠清楚地表達(dá)模型的準(zhǔn)確性，本文使用統(tǒng)計(jì)學(xué)中的解釋力度概念：

………… (6)

(h表示實(shí)際統(tǒng)計(jì)的h值，表示模型估算的h值，表示實(shí)際統(tǒng)計(jì)的h值平均數(shù))

以《中國(guó)期刊全文數(shù)據(jù)庫(kù)》中導(dǎo)航目錄提供的數(shù)學(xué)類目錄為樣本，載文時(shí)間為2000－2001年，統(tǒng)計(jì)時(shí)間為2010年6月17日，如表1所示。

驗(yàn)證結(jié)果為：，，即公式(3-5)對(duì)統(tǒng)計(jì)樣本的解釋力度為97.80%，公式(1)在c=1、a=2時(shí)對(duì)統(tǒng)計(jì)樣本的解釋力度為78.28%，取c=0.82時(shí)，公式(1)的解釋力度為92.56%，這時(shí)已接近最大值。其他樣本驗(yàn)證結(jié)果基本一致，公式(3-5)在取不同的值時(shí)，對(duì)其他44個(gè)統(tǒng)計(jì)樣本的解釋力度均大于公式(1)在c取最佳值時(shí)的解釋力度，且均大于92%。結(jié)果表明，公式(3-5)對(duì)各種學(xué)科及不同時(shí)間段的期刊h指數(shù)均有更高的解釋力度，模型具有較高的可信度。

2 對(duì)公式(3-5)的解讀與驗(yàn)證

為了直觀地表達(dá)公式(3-5)在取不同值時(shí)的變化，筆者設(shè)N=1 000，S分別取0.1-10.1，再分別以取0.32、0.33、0.34、0.35、0.36，分別取0.688、0.635、0.582、0.529、0.476，通過(guò)這5組數(shù)據(jù)分別計(jì)算h值，結(jié)果如圖1所示。圖中系列1- 5分別表示取0.32-0.36。

從圖1可以清楚地發(fā)現(xiàn)，當(dāng)S在3.5－3.7之間、h在20－25之間時(shí)，5組曲線基本重疊，在S<5時(shí)，差異較小，當(dāng)N取值增大時(shí)，重疊點(diǎn)的S值也相應(yīng)增加，當(dāng)N每增加1 000時(shí)，交叉點(diǎn)的S值約增加0.2-0.3，反之當(dāng)N取值減小時(shí)，重疊點(diǎn)的S值相應(yīng)減小，因此，對(duì)于S較小的統(tǒng)計(jì)樣本，取值變化對(duì)解釋力度影響并不明顯，對(duì)于S值比較大的統(tǒng)計(jì)樣本，取值變化對(duì)解釋力度影響比較明顯。基于上述分析可以做出如下解讀：①在統(tǒng)計(jì)樣本回歸時(shí)，如果S值較小，很小的隨機(jī)誤差就可能使得回歸所得的系數(shù)發(fā)生變化，如果S較大時(shí)，回歸系數(shù)變化較小，但統(tǒng)計(jì)的樣本中由于樣本量本身不大，而S值較大的樣本只是整個(gè)樣本中極少數(shù)，這使得隨機(jī)誤差很可能向同一方向偏離，使回歸系數(shù)發(fā)生變化。筆者認(rèn)為這是統(tǒng)計(jì)樣本無(wú)法得到統(tǒng)一方程的主要原因。②在對(duì)統(tǒng)計(jì)樣本進(jìn)行驗(yàn)證時(shí)，決定取值的主要是S值較大的點(diǎn)。③對(duì)于樣本量較小，少數(shù)S值又較大的樣本，由于隨機(jī)誤差使得h值同時(shí)偏向一方，使的取值發(fā)生變化，但如果是一個(gè)大樣本， S值較大的樣本數(shù)量較多，同時(shí)偏向一方的可能性極小，應(yīng)該是在中間值上下正態(tài)分布，所以，樣本驗(yàn)證時(shí)的最佳的取值為中間值0.34。因此，可以認(rèn)為取值范圍是由于統(tǒng)計(jì)樣本較小，隨機(jī)誤差造成的，實(shí)際的取值應(yīng)該是0.34，即期刊h指數(shù)(h)與載文數(shù)量(N)、篇均被引量(S)的曲線為：

…………(7)

為了進(jìn)一步驗(yàn)證上述推斷，以《中文社會(huì)科學(xué)引文索引（CSSCI）》2010-2011年來(lái)源期刊中經(jīng)濟(jì)學(xué)期刊目錄為統(tǒng)計(jì)樣本，通過(guò)《中國(guó)引文數(shù)據(jù)庫(kù)》分別統(tǒng)計(jì)不同載文時(shí)間段載文量及至2010年7月18日的被引量與h指數(shù)，統(tǒng)計(jì)樣本驗(yàn)證結(jié)果如表2所示。

再以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)目錄，通過(guò)《中國(guó)引文數(shù)據(jù)庫(kù)》分別統(tǒng)計(jì)不同載文時(shí)間段載文量及至2010年7月20日的被引量與h指數(shù)，統(tǒng)計(jì)樣本驗(yàn)證結(jié)果如表3所示。

以《中國(guó)引文數(shù)據(jù)庫(kù)》提供的高被引期刊統(tǒng)計(jì)表(統(tǒng)計(jì)時(shí)間為2010年6月10日)，共提供了4 268種自然科學(xué)類期刊從收錄年起的載文量、被引量與統(tǒng)計(jì)時(shí)的h指數(shù)，驗(yàn)證結(jié)果為：

=0.34， =0.582，

驗(yàn)證結(jié)果表明上文的推斷基本正確，以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)樣本，與以《中國(guó)引文數(shù)據(jù)庫(kù)》提供的高被引期刊統(tǒng)計(jì)表提供的4 268種自然科學(xué)類期刊樣本均以 =0.34時(shí)解釋力度最高，以《中文社會(huì)科學(xué)引文索引（CSSCI）》2010-2011年來(lái)源期刊中經(jīng)濟(jì)學(xué)期刊目錄為統(tǒng)計(jì)樣本最高解釋力度時(shí) 的取值與統(tǒng)計(jì)時(shí)的載文時(shí)間段存在明顯的相關(guān)性，隨著載文時(shí)間段與被引時(shí)間段的時(shí)間差逐步擴(kuò)大，的取值逐步由0.32趨向0.34。筆者認(rèn)為這種情況是由于載文時(shí)間段與被引時(shí)間段的時(shí)間差較小，后期刊發(fā)論文實(shí)際上對(duì)h指數(shù)并沒(méi)有多大的貢獻(xiàn)，但這段時(shí)間相應(yīng)的載文量增加，篇均被引量相應(yīng)減少，這一增加與減小打破了公式（7）的平衡，便利取值偏小，但并不是所有的樣本都是這樣，如2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)樣本中2004－2009年的統(tǒng)計(jì)結(jié)果并沒(méi)有打破公式（7）的平衡。

綜上所述，期刊h指數(shù)與載文數(shù)量(N)、篇均被引量(S)的關(guān)系可以描述為：

#61548;當(dāng)載文時(shí)間段與被引時(shí)間段有一定時(shí)間差時(shí)(2-3年)，曲線基本遵循公式(7)的變化；

#61548;當(dāng)載文時(shí)間段與被引時(shí)間段差距較小時(shí)，公式(3-5)中的取值可能較小，但當(dāng)載文時(shí)間段與被引用時(shí)間段差距逐漸擴(kuò)大，的取值也逐步從0.32趨向0.34，即公式(7)；

#61548;考慮到實(shí)際的隨機(jī)誤差，當(dāng)載文時(shí)間段與被引時(shí)間段有一定差距(2年以上)，曲線的波動(dòng)范圍為。

3 公式(3-5)對(duì)機(jī)構(gòu)h指數(shù)的驗(yàn)證

以萬(wàn)錦堃等發(fā)表的《中國(guó)部分重點(diǎn)大學(xué)h指數(shù)的探討》[3]一文中表1提供的利用美國(guó)ISI Web of Science中的SCI、SSCI和AHCI 數(shù)據(jù)庫(kù)計(jì)算得到的，國(guó)內(nèi)50所高等院校在2001- 2003年中發(fā)表的論文在2001年1月至2006年12 月間在ISI 各數(shù)據(jù)庫(kù)中的被引頻次與h指數(shù)樣本的驗(yàn)證結(jié)果為：

=0.34， =0.582，

以劉穎發(fā)表的《利用h指數(shù)及衍生h指數(shù)評(píng)價(jià)省級(jí)公共圖書館學(xué)術(shù)影響力》[4]一文表1中提供的國(guó)內(nèi)省級(jí)圖書館統(tǒng)計(jì)數(shù)據(jù)為樣本，數(shù)據(jù)來(lái)源于《中國(guó)引文數(shù)據(jù)庫(kù)》與美國(guó)ISI Web of Science平臺(tái)，檢索時(shí)間為2009年3-4月，發(fā)文時(shí)間段為1998－2008年，驗(yàn)證結(jié)果為：

=0.33， =0.635，

以趙基明等發(fā)表的《一種新的科學(xué)計(jì)量指標(biāo)——h指數(shù)及其應(yīng)用評(píng)述》[5]一文中表2提供的h指數(shù)前20位國(guó)家的統(tǒng)計(jì)數(shù)據(jù)為樣本，數(shù)據(jù)主要來(lái)源于美國(guó)《基本科學(xué)指標(biāo)(ESI)》數(shù)據(jù)庫(kù)，統(tǒng)計(jì)的發(fā)文時(shí)間段為1996年1月l日至2006年8月8日，驗(yàn)證結(jié)果為：

=0.34， =0.582，

驗(yàn)證結(jié)果表明，公式(3-5)不僅對(duì)期刊h指數(shù)有較高的解釋力度，對(duì)樣本量較大的機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。

4 結(jié)語(yǔ)

Schubert- Glanzela期刊h指數(shù)模型從理論上解釋了h指數(shù)作為期刊載文數(shù)量與質(zhì)量的綜合性指標(biāo)的內(nèi)涵，揭示了期刊h指數(shù)與載文數(shù)量與篇均被引量的冪函數(shù)關(guān)系。筆者在這一理論模型的啟迪下通過(guò)實(shí)證方法得出了期刊h指數(shù)的經(jīng)驗(yàn)?zāi)Ｐ停⑶曳治隽擞绊懫诳痟指數(shù)模型變化的因素。通過(guò)實(shí)例驗(yàn)證，經(jīng)驗(yàn)?zāi)Ｐ蛯?duì)機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。

參考文獻(xiàn)：

[1] Braun T，Glanzel W. A hirsch-type index for journals. Scientometrics ， 2006， 69(1) : 169-173.

[2] Schubert A， Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics， 2007，1(2):179-184.

[3] 萬(wàn)錦堃，花平寰，趙呈剛.中國(guó)部分重點(diǎn)大學(xué)h指數(shù)的探討.科學(xué)觀察，2007(3)：9-16.

[4] 劉穎.利用h 指數(shù)及衍生h 指數(shù)評(píng)價(jià)省級(jí)公共圖書館學(xué)術(shù)影響力.圖書館建設(shè)，2009（11）：77-81.

[5] 趙基明，邱均平，黃凱，等.一種新的科學(xué)計(jì)量指標(biāo)——h指數(shù)及其應(yīng)用評(píng)述.中國(guó)科學(xué)基金，2008（1）：23-32.

［作者簡(jiǎn)介］汪躍春，男，1964年生，副研究館員，發(fā)表論文20余篇。

知識(shí)管理論壇2011年6期

知識(shí)管理論壇的其它文章: 《蔡中郎集》版本源流考; 基于外部知識(shí)網(wǎng)絡(luò)視角的企業(yè)績(jī)效形成機(jī)理分析; 基于SAS/EM的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘; 薩拉塞維奇情報(bào)社會(huì)傳播理論觀點(diǎn)歸納與評(píng)價(jià); 定標(biāo)比超在圖書館的應(yīng)用分析; 基于模糊AHP綜合評(píng)價(jià)的科技查新質(zhì)量評(píng)價(jià)實(shí)證分析