考慮載文量影響的h指數優化研究

2020-08-14 06:16:30俞立平韓亞茹張再杰

現代情報 2020年2期

俞立平韓亞茹張再杰

摘要：[目的/意義]針對h指數受載文量影響大、區分度低等問題，本文提出了hq2指數，其原理是用h指數除以開平方后的載文量。[方法/過程]基于中國知網（CNKI）引文數據庫，以46種綜合社科期刊為例進行實證研究，首先分析hq2指數與其他期刊評價指標的相關性，其次對hq2指數進行獨立樣本T檢驗，最后采用回歸分析分別分析h指數、影響因子與hq2指數的擬合優度。[結果/結論]研究結果表明：hq2指數相比于h指數能夠降低載文量對期刊評價的影響，對于h指數相同的期刊也具有較好的區分能力，同時hq2指數與h指數、影響因子呈現正相關關系，是一個具有可行性的期刊評價指標;hq2指數具有識別優秀期刊的能力。

關鍵詞：h指數;載文量;區分度;hq2指數;期刊評價

DOI：10.3969/j.issn.1008-0821.2020.02.013

〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821（2020）02-0114-08

Research on h-index Optimization Considering the Amount of Papers

——hq2-index

Yu Liping1，3 Han Yaru2 Zhang Zaijie3

（1.School of Statistics and Mathematics，Zhejiang Gongshang University，Hangzhou 310018，China;

2.School of Management and E-business，Zhejiang Gongshang University，Hangzhou 310018，China;

3.Institute of Green Development Strategy in Western China，Guizhou University of finance and Economics，

Guiyang 550025，China）

Abstract：[Purpose/Significance]The h-index is regarded as a new generation of journal evaluation index after the impact factor because of its simple definition，simple calculation and robust results.However，the shortcomings of h-index are obvious，such as large impact of the amount of papers loaded and low discrimination.In view of the above two shortcomings of the h-index，this paper proposes the hq2- index，which is based on the h-index divided by the amount of paper-loaded after square rooting.[Method/Process]Based on the China Knowledge Network（CNKI）citation database，this paper conducted empirical research on 46 comprehensive social science journals.First，it analyzed the correlation between hq2-index and other journal evaluation indicators.Secondly，it conducted independent sample T-test on hq2-index，and finally adopted regression.The analysis analyzed the goodness of fit of the h-index，the impact factor and the hq2 index.[Result/Conclusion]The results showed that the hq2-index can reduce the impact of the paper load on the journal evaluation compared with the h-index.It also had a good discriminating ability for the journals with the same h index，and the hq2-index had a positive correlation with the h index and the impact factor.It is a viable journal evaluation index;the hq2-index has the ability to identify excellent journals.

Key words：h-index;amount of papers;discrimination;hq2-index;journal evaluation

2005年，Hirsch J E[1]提出一個新的計量指標——h指數，該指標主要用于評價科研工作者的個人學術成就。由于計算的科學性和簡便性，h指數在其他領域也得到了廣泛的推廣應用。2006年，Braun T等[2]將h指數應用到期刊評價中，定義了期刊h指數。同年，van Raan A F J[3]將h指數原理推廣到機構評價中。Guan J C等[4]以半導體技術領域的數據為例，將h指數應用到專利分析中。孫宇等[5]認為h指數可以作為評價出版社學術影響力的指標。除此之外，h指數還在館藏圖書借閱、大學和醫院等領域得到拓展應用。

h指數也有不足之處，主要表現在：載文量高的期刊往往會出現h指數也高的現象，而且對于創刊時間早的期刊，即使其每年的載文量不大，但隨著期刊的不斷發行，期刊所發表的文章也會逐漸地增多，此時h指數也隨著載文量的增加而提高;h指數對排名靠前的期刊區分度較高，但是就大多數普通期刊而言，容易出現結果相同的現象，這時區分度就較差。對h指數進行優化改進，一定程度上可以彌補載文量對h指數影響較大以及h指數在期刊評價中區分度差的缺陷，完善h指數，豐富學術期刊評價指標。

關于h指數和載文量之間的關系，不少學者都認為這兩者之間是存在明顯的正相關關系。Rousseau R[6]提出用h指數除以期刊的載文量，得到相對h指數，以此來補償載文量少的期刊。Hirsch J E等[7]本人對h指數的缺陷給予了積極回應，要想提高h指數，關鍵的是要提高論文質量，但是另一方面也要依賴提高載文量。安靜等[8]認為h指數的大小受到載文量的限制，學術質量高但載文量偏低的期刊，h指數也不會高，提出用h指數的平方除以載文量，得到K指數。丁楠等[9]對h指數的優缺點進行了總結，其中根據定義，h指數是不能超越論文數量的界限，所以這對那些論文數量少而被引頻次高的科學家是非常不利的。周玉芹[10]認為載文量是將h指數用于法學期刊評價的一種限制，因為載文量小的期刊，h指數也不會高。劉銀華等[11]以化學類期刊為例，發現同領域的期刊，年刊載量多的期刊比年刊載量少的期刊更容易獲得高h指數，并采用h指數和相對h指數評價期刊，在h指數相同的情況下，相對h指數更能表現期刊的學術水平。張壘等[12]利用灰色關聯分析法計算h指數和載文量之間的關聯度，盡管期刊h指數是通過論文被引頻次計算出來的，但載文數量是期刊引用的基礎，載文數量和期刊h指數之間是存在關聯度的，提高h指數不能單純依靠載文量。

學術界對h指數的區分度問題基本上也都持一致態度，普遍認為h指數的區分度較低。Kosmulski[13]在h指數基礎上，提出h（2）指數，其定義為至少h篇論文被引次數為h平方，在一定程度上提高了h指數的區分能力。Egghe L[14]將論文按被引頻次高低排序，然后對被引頻次進行累加，并且將每篇文章對應的序號平方，得到G指數，G指數很好地改善了h指數區分度。Prathap G[15]定義hm=（被引次數*平均被引率）1/3，不僅延續了h指數的簡潔計算的優點，而且當由于h指數值相同而使得很多評價案例無法區分時，hm能更合理地進行排名。王凌峰[16]認為h指數對于評價少數優秀學者具有較高的區分度，而對于大多數的普通學者來說，他們的h指數要么相同，要么差距很小，區分能力差。張雪梅[17]也認為h指數不能細分擁有相同h指數而作品總被引頻次相差懸殊的作者，并且使用修正因子對h指數進行了修正，這對眾多普通科研工作者可以做一個很好的區分。劉雪梅[18]選取蘭州大學的30位研究人員作為評價對象，定義新指標zpc指數，zpc指數對h指數相同的學者評價區分度達到100%。俞立平等[19]認為基于h指數的新指標的提出需要保持區分度原則，盡量避免兩個評價對象評價結果相等的情況出現。

從已有的研究來看，關于h指數與載文量的關系，學者們普遍都認為載文量對h指數有正向影響，載文量大h指數相對就高，載文量小h指數就偏低。對于h指數的區分度，國內外的學者也做了大量的研究，總體結論是一致的，認為h指數的區分能力差，并提出了一系列的類h指數進行優化和完善。總體上來看，學術界對h指數的修正研究是從單一角度進行考慮的，很少從多個方面優化h指數。因此本文將從以下幾個方面對h指數開展研究：

1）某些期刊h指數和載文量呈現正比例關系，在采用h指數評價期刊時應該考慮到載文量對h指數的影響，避免有的期刊為了提高h指數，刻意增加載文量。

2）h指數適用于評價非常優秀的期刊，而對于大多數普通期刊來說不敏感，常常出現多個期刊h指數相同的現象，因此有必要完善h指數，解決h指數區分度低的問題。

本文旨在解決h指數受載文量正向影響和區分度差的問題，對h指數改進，提出一項新指標——hq2指數，并基于中國知網（CNKI）引文數據庫，以46種綜合社科期刊為例對hq2指數評價期刊的功效進行論證分析。

1 hq指數原理

Rousseu所提出的相對h指數，采用h指數直接除以載文量的計算方法，在很大程度上排除了載文量的影響。但是載文量作為學術期刊主要特征指標之一，起著舉足輕重的作用，韋青俠[20]認為載文量具有衡量期刊吸收和傳遞信息的能力，應該考慮載文量的正常增長。袁澤軼等[21]對《海洋通報》的載文量進行統計，認為某一期刊刊載的論文數量，反映了期刊信息量的多寡，期刊載文量多，一定程度上信息相對豐富。如果對載文量處理力度過大，信息量勢必會減少，這是不利于信息傳播和期刊長久發展的。綜合h指數不夠重視載文量以及相對h指數懲罰載文量力度較大的不足之處，需要對載文量做新的考慮，因此本文采用對h指數開方處理的方式，提出一個新的指數評價期刊，即hq指數：

式（1）中h指期刊的h指數，q指期刊載文量，s是對載文量開方的次數，取值定義為自然數1，2，3，4……，直至hq指數的分母為1或者最接近于1。當s為1時，hq指數就是相對h指數。用h指數除以開不同方根的載文量，可以改變載文量對h指數的正向作用，同時也規避了相對h指數對載文量過度懲罰的缺陷，適當地保證論文數量，提供較為豐富的信息。

至于s的確切取值，我們可以從提高h指數區分度的視角作為切入點，俞立平等[22]曾對光學類期刊各個指標的辨識度做研究，在此借鑒辨識度計算的原理，篩選出s不同時所得到的期刊區分度最高的hq指數。區分度計算原理如圖1所示：

假設有4種期刊，根據式（1）計算這4種期刊的載文量分別開t次和k次時的hq指數，然后將結果按照降序排列，并對期刊編上序號，畫出hq指數結果和期刊編號的二維坐標圖，其橫坐標表示期刊編號，縱坐標表示hq指數值。由于是對載文量開不同的方根，期刊hq指數的數值也會隨著不同的s變化且差距較大，但是期刊編號是不發生變化的，多種計算方式之間沒有統一的標準，結果不具有可比性，因此必須對數據做標準化處理，其中每個期刊的hq指數都除以同種計算方式下的極大值，編號則除以期刊的個數，標準化后的hq指數值及期刊編號的范圍都將處在0～1之間。這時將標準化后的指標呈現在二維坐標圖中，就如圖1所示。可以看出，曲線段Lt的總長度大于Lk的總長度。也就是說，總長度越長，點與點之間就越分散，區分度就越高。計算區分度的公式可以表達如下：

式（2）中，D表示期刊的區分度，G和N分別表示標準化后的期刊hq指數和編號，m表示期刊的個數，其中1im。

2 數據來源

從評價指標的普適性而言，本文研究方法沒有學科依賴、數據依賴等問題，具有更好的普適性。因此選取47種CSSCI綜合社科期刊為例進行研究。其中由于《福建論壇》（人文社科版）數據檢索不到，所以實際選取的期刊為46種。46種期刊當中，有9種期刊的辦刊時間歷史比較悠久，是在改革開放之前創刊的，而更多的期刊是在改革開放后創辦的，為了消除創刊時間對h指數評價期刊造成的偏差，本文選取數據的時間窗口皆與計算2年影響因子的時間保持一致，即以2015-2016年作為出版年，2017年為被引年來計算期刊的載文量、總被引頻次、h指數和影響因子（IF）。本文原始數據全部來自中國知網CNKI的引文數據，后續相關指標的計算也是基于原始數據。

3 實證結果

3.1 hq2指數的計算

根據hq指數的原理，s的取值范圍很廣泛，沒有必要開過高的方根，本文計算s為1～9時的hq指數的區分度D，觀察它們的變化規律，進而確定最佳s。具體數據如圖2所示，隨著對載文量開方次數的加大，hq指數的區分度總體上呈現波動下降的趨勢，s等于5和9時，區分度有小幅度的上升，而當s等于1時，hq指數也就是相對h指數的區分度最高，為1.6566，但是根據hq指數的原理，載文量大同時也說明了期刊信息豐富，因此要對載文量適當地處理，避免信息匱乏影響期刊的長久發展，有必要將s等于1時的hq指數（相對h指數）排除掉。對比其它的計算結果，發現s為2時，期刊區分度是最高的，說明對載文量開平方時，期刊可以擁有一個良好的區分度，同時hq2指數是h指數和開平方后的載文量共同計算的結果，克服了載文量對h指數的影響，同時與相對h指數相比，hq2指數對載文量懲罰力度有所緩和。因此本文將選取hq2指數作為一個新指標對期刊進行評價。

期刊的hq2指數計算結果在表1中顯示，根據這個結果，可以看到《中國社會科學》、《人民論壇·學術前沿》、《學海》等學術界認可的優秀期刊排在前列;一些因為載文量大，h指數高的期刊，hq2指數平衡了其h指數與載文量的關系;還有一些由于載文量少，h指數較低的期刊，在hq2指數排名中有了明顯的提升，比如《中國高校社會科學》、《開放時代》;另外我們還可以清晰地看到，以h指數為10的《開放時代》、《廣東社會科學》、《社會科學研究》等8個期刊，它們的hq2指數都存在差異，其他h指數相同的期刊也都具有同樣的結果，不難看出因h指數相同而難以區分的期刊，hq2指數有較好的區分度。

3.2 hq2指數統計學特征

hq2指數的描述統計特征如圖3所示，其均值為0.426，標準差為0.194，離散系數為0.455，偏度為3.120，峰度為16.958，Jarque-Bera值為448.076，p值為0.000。顯然hq2指數呈現明顯的右偏態分布，說明只有少數幾個高質量期刊在剔除了載文量的誤差后，依然維持著較高的成績，這從另一方面為其他期刊做了表率，提高期刊影響力，關鍵是做好刊發論文的質量把關。

3.3 hq2指數與其他計量指標的相關性檢驗

hq2指數的描述統計結果顯示，hq2指數不服從正太分布，因此采用Spearman相關系數分析hq2指數與h指數、IF和載文量的相關性。指標之間的相關系數如表2所示。hq2指數與h指數的相關系數為0.738，并且通過了統計檢驗，hq2指數與IF的相關系數為0.898，同樣通過了統計檢驗，與期刊載文量的相關系數為-0.356，其相關性也是顯著的，之所以呈現負相關關系，這與hq2指數的計算方式有關，而且與h指數不同的是，增加載文量并不會提高hq2指數。

注：***、**分別表示在置信度（雙側）為0.01、0.05時，相關性是顯著的。

3.4 獨立樣本T檢驗

根據hq2指數是否大于其均值0.426進行分組，將46種期刊分為2組，分組1表示hq2指數大于其均值，共有15種期刊，小于均值的期刊有31種，然后對hq2指數、h指數、IF和載文量進行獨立樣本T檢驗。檢驗結果如表3所示。結果顯示分組1的hq2指數、h指數和IF的均值均大于分組2的均值，而分組1的載文量小于分組2的。從載文量的顯著性差異，我們不難看出，hq2指數突出了對載文量的重視，這對那些因高載文量具有高h指數的期刊也可以做出相對合理的評價。最后觀察T檢驗值，hq2指數、h指數、IF和載文量均通過了統計檢驗，且效果良好，表明這兩個分組具有顯著差異。總體上看，分組1的期刊質量是高于分組2的，即高hq2指數的期刊其質量是優于低hq2指數期刊的，并且以hq2指數作為分組標準，h指數和IF的兩個分組呈現出與hq2指數相同的趨勢，也就是高h指數和高影響因子的期刊質量優于對應的低h指數和低影響因子的期刊，因此hq2指數作為期刊評價指標是具有一定的可行性。

3.5 回歸分析

3.5.1 h指數與hq2指數的回歸分析

h指數與hq2指數的回歸分析結果如下：

式（3）中h指數的彈性系數為0.853，說明h指數每增加1%，hq2指數就增加0.853%。兩者的擬合優度為0.639，而h指數也在1%的水平上通過了統計檢驗，說明這兩者存在顯著的相關關系，但是同樣也可以看出h指數并不能完全解釋hq2指數，兩者之間的差異表明hq2指數考慮到了載文量對評價期刊的影響。

3.5.2 IF與hq2指數的回歸分析

IF與hq2指數之間的關系可以表述為：

相較于h指數與hq2指數的擬合優度，IF與hq2指數的擬合優度有所提升，這可能與兩者的計算方式都涉及載文量相關。IF的彈性系數為0.694，即IF每增加1%，hq2指數就增加0.694%。

從h指數、IF與hq2指數回歸結果來看，hq2指數與兩者的擬合度都呈現一個比較良好的效果，同時也可以看出hq2指數具有自身獨特的優勢。其優于h指數是在于它考慮到了載文量對h指數的影響，排除掉載文量對h指數的正向作用;影響因子是單方面考慮載文量，實踐證明，載文量對影響因子的反向影響大于正向影響，即增加載文量會降低影響因子，而hq2指數從兩個方向考慮到載文量的影響，hq2指數計算公式的分子是h指數，增加載文量，h指數也會相應地增加，但是公式的分母也是關于載文量的，所以hq2指數更具有全面性。

4 結論與討論

4.1 hq2指數是一個具有可行性的期刊評價指標

hq2指數的實證分析中，為了避免期刊創刊時間不同造成的誤差，所選取的數據都進行了時間的界定，這規避了歷史悠久的期刊在計算h指數時所占據的時間優勢。本文將h指數與開平方后的載文量結合起來，一方面解決了因載文量大而造成h指數高的問題，緩和了相對h指數懲罰載文量力度較大的缺陷，可以更客觀合理地進行期刊評價;另一方面也克服了因h指數相同而無法準確評價期刊的缺點。從hq2指數與其他計量指標的相關性分析結果可以看出，hq2指數與hq2指數的相關系數為0.738，與IF的相關系數為0.898，且都通過了統計檢驗。從h指數、IF與hq2指數的回歸分析結果可以看出，hq2指數會隨著兩者的增加而提高，因此hq2指數與h指數、IF呈現正相關關系。綜上所述，hq2指數作為一個新的期刊評價指標，具有可行性。

4.2 hq2指數具有識別優秀期刊的能力

《中國社會科學》是學術界公認的綜合社科類期刊的權威期刊，無論是按照h指數排名還是根據hq2指數排名，均排在第一位。除《中國社會科學外》，h指數無法評價的期刊，hq2指數也對優秀期刊做了區分，比如影響因子較高的《開放時代》，相較于h指數在hq2指數排名中有了突破。另一方面從獨立樣本T檢驗的結果也可以看出，根據hq2指數均值確定的兩組期刊，高hq2指數的期刊其影響因子和h指數同樣較高;低hq2指數的期刊其影響因子和h指數則較低。綜合以上兩點，可以說hq2指數具有一定識別優秀期刊的能力。

hq2指數針對h指數受載文量影響較大、區分度過低的問題做了修正，并在實證分析中取得了良好的效果，但是本文也僅以46種CSSCI綜合社科期刊做了實證分析，至于在其他學科的推廣應用還需要進一步研究。

參考文獻

[1]Hirsch J E.An Index to Quantify an Individuals Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America，2005，102（46）：16569-16572.

[2]Braun T，Glnzel W，Schubert A.A Hirsch-type Index for Journals[J].Scientometrics，2006，69（1）：169-173.

[3]van Raan A F J.Comparison of the Hirsch-index with Standard Bibliometric Indicators and with Peer Judgement for 147 Chemistry Research Groups[J].Scientometrics，2006，67（3）：491-502.

[4]Guan J C，Gao X.Exploring the h-index at Patent Level[J].Journal of the American Society for Information and Technology，2008，59（13）：1-61.

[5]孫宇，武士華.應用h指數科學地評價出版社的學術影響力[J].科技與出版，2008，（9）：61-63.

[6]Rousseau R.A Case Study：Evolution of JASISs Hirsch Index[J].Science Focus（in Chinese），2006，1（1）：16-17.

[7]Hirsch J E，Buela-Casal G.The Meaning of the h-index[J].International Journal of Clinical and Health Psychology，2014，14（2）：161-164.

[8]安靜，夏旭，李海燕，等.類h指數：K指數的修正機理及實證分析[J].科技管理研究，2009，（6）：382-384.

[9]丁楠，周英博，葉鷹.h指數和h型指數研究進展[J].圖書情報知識，2008，（1）：72-77.

[10]周玉芹.H指數評價法學期刊實證研究——基于《中國學術期刊綜合引證報告（2008版）》的數據分析[J].四川文理學院學報，2011，（2）：142-146.

[11]劉銀華，陶蕾.試用 h 指數評價科技期刊[J].大學圖書情報學刊，2008，26（2）：94-96.

[12]張壘，唐恒.影響h指數、g指數、影響因子因素的相關性研究[J].圖書情報工作，2009，53（20）：139-143.

[13]Kosmulskim.A New Hirsch-type Index Saves Time and Works Equally Well as the Original h-index[J].ISSI Newsletter，2006，（3）：4-6.

[14]Egghe L.An Improvement of the H-index：The G-index[J].Quarterly E-zine of International Society for Scientometrics and Informetrics，2006，2（1）：8-9.

[15]Prathap G.Is There a Place for a Mock h-index？[J].Scientometrics，2010，84（1）：153-165.

[16]王凌峰.一個新的h-type指標——A+指數[J].情報雜志，2013，（1）：55-58.

[17]張學梅.hm指數——對h指數的修正[J].圖書情報工作，2007，51（10）：116-118.

[18]劉雪梅.作者合作與期刊影響因素視角下的學者評價研究[J].情報理論與實踐，2018，（11）：113-116

[19]俞立平，王作功，張再杰.h指數的綜合修正研究：htop指數——以學術期刊為例[J].情報學報，2018，37（12）：1188-1192

[20]韋青俠.10年來我國科學、科學研究類核心期刊載文量與學術影響力評價分析[J].中國科技期刊研究，2014，（1）：35-38.

[21]袁澤軼，楊瑞，張瀟嫻，等.基于中國知網（CNKI）《海洋通報》期刊學術影響力的統計分析[J].天津科技，2010，37（6）：131-133.

[22]俞立平，姜春林.科技評價指標與評價方法辨識度的測度研究[J].圖書情報工作，2013，57（3）：38-41.

（責任編輯：郭沫含）

現代情報2020年2期

現代情報的其它文章: 我國突發事件中的應急情報研究; 國內可視化搜索引擎研究進展：核心內容; 基于情境感知的資源推薦研究綜述與實踐進展; 基于ESI數據的數學學科競爭力對比分析研究; Altmetrics視角下的科研院校學術影響力綜合評價研究; 科研合作網絡中的知識擴散種子選擇研究