■李軍
Hirsch教授于2005年提出的h指數在國內外信息計量和科學評價領域引起了很大的反響。它不僅用于對科學家個人或群體學術績效的評價,同時也應用于對學術期刊影響力及專利信息的評價研究。本文旨在通過對h指數的相關介紹,分析了h指數評價科研人員學術產出時的影響因素,最后提出了若干修正及校正方法和建議,對于h指數在國內的準確應用具有重要的意義。
如何評價科研人員的學術成就和學術影響,是人們一直在努力探索的課題。多數科研人員認為同行評議是評價一個科研人員學術成就的最基本的方法,如果同行評議機制嚴格、得當、評審專家作風正派、了解情況全面,能夠得出客觀公正的定性評價結果。但在評議機制不夠嚴格和信譽制度不夠完善的情況下,往往存在重人情拉關系、本位主義等現象,影響到評價工作的客觀公正性。因此,一些文獻計量學家開始采用引文量、期刊影響因子等指標來對學術成就進行定量評價,然而研究發現,這些傳統的文獻計量指標有微觀層次上,特別是對科學家個人進行學術評價時存在很多問題。
2005年,美國加州大學圣地亞哥分校物理學家J.E.Hirsch提出了一種新的文獻計量方法—h指數(h-index)用以評價科學家個人的學術成就。該指數創新性地將科學家學術論文的產出量(論文數)和質量(引文數)結合為一個單一指標,意在用于衡量科研人員個人學術成就。h指數剛一公布就引起了廣泛的關注,Nature和Science都相繼進行了報道。h指數不僅用于對科學家個人或群體學術績效的評價,同時也應用于對學術期刊影響力的評價研究及專利信息中專利權人的研究。因此,本文旨在通過對h指數的相關介紹,指出并分析h指數在評價科研人員學術產出時的影響因素,并提出了若干修正及校正方法和建議,對于h指數在國內的準確應用具有重要的意義。
Hirsch將科學家個人h指數定義為:當且僅當某科學家發表的NP篇論文中有h篇論文每篇至少獲得了h次的引文數,其余的NP-h篇論文中各篇論文的引文數都小于或等于h時,此h值就是該科學家的h指數。他認為h指數能夠準確地反映出科研人員的學術成就,一個人的h指數越高,則表明他的論文及學術影響力就越大。h指數把文章的被引用率作為衡量研究工作的內在指標,而論文數量作為參考指標,這在一定程度上反應了科研工作者的個人成就,但它也可以用于評價工作者的群體和學術期刊。
Hirsch提出h指數的初衷就是用于對科學家個人總體學術成就的評價。h指數巧妙地將數量指標(發表的論文數量)和質量指標(被引頻次)結合在一起,同時對論文產出力和論文影響力進行測量,克服了以往各類單項指標的缺點與不足。h指數高不僅表明評價對象發表的論文質量高,而且表明高質量論文的數量多,因而相比傳統文獻計量單項指標只能體現數量的缺憾有明顯優勢,是近年文獻計量學指標研究的一項重要成果和進展。
據Hirsch的定義:“一個科學家的分值為h,當且僅當他/她所發表的N篇論文中有h篇論文每篇至少被引用了h次,而其余論文每篇至多被引用了h次”。h指數的基本應用是基于引文分析的個人學術產出和影響力,然而h指數的準確應用受到諸多因素影響。如定義中所指“作者所發表N篇論文”這一說法就存在很大爭議,因定義對N篇論文的歸屬權問題沒有做進一步的闡釋,這N篇指的是所有參與的N篇(包括本人作為第一作者、通訊作者等),還是作為第一作者的N篇或作為通訊作者的N篇,還有作者重名、學科、數據庫及自引等問題。這些因素都將影響其h指數計算的準確性。
國內外各數據庫中作者重名問題一直影響著學術評價指標的準確性,h指數也不例外。根據Hirsch的定義及數據模型推理可以看出,h指數代表四層意思:h篇論文;每篇至少被引h次;總被引至少h2次;總被引大約為(3~5)h2。h指數相差1,總被引大約相差3~5倍(2h一1),h指數的增加體現的是作者論文數量變化過程中的部分質變。因次,作者h指數測算的準確性至關重要。
在我國,重名問題尤為嚴重。科學引文索引等一些國外權威數據庫中,我國科學家的名字只取漢語拼音的首字母,更加混淆了作者身份。部分數據庫公司己經意識到這一問難的嚴重性,并在這方便做了很多技術方面的嘗試,如Scopus數據庫的作者身份標示系統 (author identifloation),為每個作者分配一個固定 ID(Ideniification,身份識別碼),且支持中國作者名字的漢語拼音全拼檢索。此外,每個ID均有明確的單位標示,這在很大程度上緩解了重名問題對作者h指數的影響。然而,還有很多數據庫目前還沒有能力實現或正在實現以上技術。如何利用這些數據庫自身檢索特點結合相關手動檢索技術更好地減少重名問題對于作者h指數的影響,對h指數準確應用具有重要意義。
根據Hirsch的定義,h指數適用的前提條件是作者應發表一定數量的論文,且這些論文要被相關數據庫收錄。其適用范圍總體上應以從事理論研究及基礎研究的科研人員為主?;A研究成果多強調學術價值,其績效表現多以科學論文和學術專著為主。應用研究成果以應用前景為評價標準,績效表現形式以技術論文、技術專著和專利為主,專利形式比論文形式更能體現其技術特征。但這并不妨礙h指數的應用,因從事技術研究開發的科學家,也有論文發表,甚至比從事基礎研究的科學家還要多,且從事基礎研究的科學家,同樣也有專利產出等等??茖W家所從事科研工作的性質通過其所在學科得以反映,因此,可以通過學科進行科研工作類型分類。
學科間規模、發展階段、發展速度、活躍程度等特征不同,學科間科研人論文產出及引文規律也不盡相同,甚至學科內也是如此,因此,學科間學科內研人員之間h指數也應不同。Hirsch對各個領域的科學家進行了統計分析,發各學科有成就的科學家確實有相對較高的h指數值,且各學科間h指數存在很差異。物理領域h指數最高的E.Witten,h=110;生物學家當中h指數最高SolomonH.Snyder,高達191,其次為加州理工學院生物學家David Baltimore,其h值為160。Hirsch通過測算發現生命科學領域科學家的h指數要明顯高于理學領域科學家的h指數。這表明h指數像其他指標一樣,不太適合直接用于科間科學家之間的比較。
各學科間科學家個人h指數的不可比性,在宏觀層面上應表現為學科間h指數的差異。仿照Hirsch的定義,將學科h指數界定為“某學科的h指數是指該學科有h篇最低被引為h次的論文”。由于學科劃分的相對性和層次性,同屬醫學一級學科的各二級學科間也應具備學科h指數的差異。通過系統分析醫學一級學科的各二級學科間h指數的差異,進一步說明學科對于科研人員h指數的影響,并提出可行的校正方法,以使得學科間科研人員h指數具有可比性。
h指數是基于引文分析的評價指標,基于引文分析指標多少會受到作者自引的影響。自引要分別對待惡性自引和良性自引,惡性自引近乎炫耀家底,良性自引可以見出研究的系列性、漸進性,體現學術成長歷程和延續性,是正常學術規范,無可厚非。然而,當引文指標用于評價科學家個人學術成就時,類似論文作者自引部分理應排除,因自引并不能體現該文章學術影響力。自引又包括作者本人自引和合作者的引用。當然,自引會增大作者h指數,但Hirsch在文章中說作者自引對于h指數的影響很小,即使需要校正也是少數。有人分析了一組生物進化學領域科學家的h指數,發現排除自引后h指數平均降低了12.3%,信息科學高影響力科學家自引排出后h指數最多的下降了3,平均下降了0.9%或6.6%。本文則分別以國內化學部有效增選院士和ISI生物與生物化學及化學領域高被引科學家為例進一步探討自引對于作者h指數影響,以及自引校正必要性。
以上針對文獻計量新指標h指數定義及評價科學家個人學術成就過程中所存在的主要影響因素進行了研究,其中包括數據庫選擇、作者重名、科研工作性質、學科及作者自引等問題。分析這些影響因素對于h指數影響的基礎上,提出了若干修正及校正方法和建議,其中包括:
(1)針對作者重名問題對于國內科學家h指數影響,提出了組合檢索策略并對作者單位組合檢索進行了深入研究。針對科學家經常變遷單位問題,提出測算頻繁變遷工作的科研人員的h指數時,應充分調查其工作履歷,進行多機構復合檢索,以便提高查全率;針對大學及機構因合并、建制、擴充等因素更換單位名稱而相應數據庫沒有及時進行相應修改等問題,提出檢索這類作者論文應格外注意,應進行單位改名前后多機構組合檢索;針對機構名稱變更或書寫不規范等因素所引起的檢索不全等問題,可通過單位郵編組合進行檢索。
(2)針對科研工作性質對作者h指數的影響,理論結合檢索實踐對h指數適用性進行了初步分類:從事基礎理論類性質研究工作的科研人員適用性較高;從事技術應用開發類性質研究工作適用性一般;從事保密性質類研究工作的科研人員基本上不適用。
(3)針對學科因素對作者h指數的影響,提出將不同學科科技人員個人的h指數進行標化后比較或分學科比較,標化方法:將科學家個人h指數除以其學科h指數,再乘上100。
(4)針對國內外作者自引比例差異,不同學科作者自引比例差異,提出用排除自引后h指數后進行評價會更準確。
然而,準確評價科學家個人學術成就是個很復雜的工程,其中除以上述涉及的問題外,還包括其年齡、從事科研時間、性別、國家語種差別、“馬太效應”、論文“友情互引”及“論文反引”等問題,這些問題的存在在很大程度上限制了基于引文分析指標潛能的發揮。單純就文獻計量指標而言,h指數、論文總數、引文總數、篇均被引次數、高被引論文次數等均不同程度存在以上問題,因此,應用時均需綜合全面考慮?;谝陨戏治觯髡遠指數相對較適用于國內科學精英的學術產出和學術影響力評價,且應遵守“同庫同行同單位同性同年齡段相比”原則。
評價科研人員的學術成就,僅憑其發表的論文總數并不妥,還要看這些論文的質量。但將期刊的影響因子等同論文的質量指標也是不妥的,必須具體地看其論文的情況,總體地衡量其論文的被引用情況。Hirsch提出的h指數巧妙地將數量指標(發表的論文數量)和質量指標(被引頻次)結合在一起,同時對論文產出力和論文影響力進行測量,克服了以往各種單項指標的缺點與不足。盡管文獻計量學家一再告誡,用文獻計量學方法評價科研績效的最小單位應該是科研小組,對科研人員個人進行績效評價意義不大,甚至是危險的。但是,在現實的科研管理中,經常會有對個人績效進行評價的需求,因此,不能回避這一問題,而是采取措施,不斷地改進和完善個人層面的績效評價工作。
[1]趙基明,邱均平,黃凱,劉兵紅.一種新的科學計量指標.中國科學基金[J].2008(2).
[2]趙明基,舒明全.基于CSSCI的《中國圖書館學報》h指數及核心作者測定[J].中國圖書館學報,2008(2).
[3]劉合艷,房俊民,苑彬成.h指數研究及應用概述[J].情報理論與實踐,2009(11).