陳鶴陽 張力
〔摘 要〕本文通過對文獻計量主要方法H-type指數的修正和改進,從學科屬性的角度對高校圖書館流通數據進行統計分析,并應用改進后的h-type指數計算以天津某高校圖書館英語翻譯專業為例的核心圖書,較h-index指數更加精細的區分并且大大提高了區分度,從而幫助在校學生有針對性的認識和了解學科的核心內容,同時也為今后圖書館信息服務的開展提供有益的參考與借鑒。
〔關鍵詞〕文獻計量;h指數;h-type指數;學科圖書;高校圖書館
DOI:10.3969/j.issn.1008-0821.2016.04.022
〔中圖分類號〕G252.5 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)04-0119-05
〔Abstract〕The paper,based on bibliometric main method H-type index of modifications and improvements,from the perspective of the property subject to the statistical analysis of University Library Circulation data,applied in Tianjin university library by improved h-type index computing core books,compared the h-index greatly improves the discrimination,helping students targeted core content knowledge and understanding of science,but also for the future conduct of Library Information Service to provide useful information and reference.
〔Key words〕bibliometric;h-index;h-type index;subject book;university library
文獻計量的主要研究方法包括引文分析方法、詞頻分析方法、h-type指數法,都是利用文獻的某些特征數據來描述或者預測用戶行為,發現現象規律。高校圖書館流通數據挖掘的重點是要體現圖書的學科屬性以指導館藏的優化、讀者的薦閱,提高圖書的使用率。引文分析法和詞頻分析法對于高校圖書館流通數據學科屬性的挖掘適用性較h-index指數差,因為不同高校采用不同的工作系統,流通數據的采集無法實現文獻之間關聯的體現和詞頻的統計,需要投入大量的人力進行人工分析,效率極低,而利用h-index指數能夠有效的挖掘出高校圖書館流通數據的學科屬性,在一定程度上也能夠反映出高校的學科發展和專業設置的特點。h-index指數是J.E.Hirsch于2005年在美國科學學院院報(PNAS)上發表的一篇名為“An Index to Quantify an Individuals Scientific Research Output”中提出的,是衡量科學家個人成就的一種簡單有效的方法,在經過眾多學者對h指數的改進、延伸和擴展后,h-type指數作為一個簡單又易于理解的指標被廣泛應用于各種評價環境中,如期刊h指數[2-3]、機構h指數[4]、專利質量評價等方面[5]。雖然h指數最初是針對科學家學術成就評價提出的,但其思想和方法也可以擴展應用到圖書館的借閱數據分析中。2009年周志鋒就h指數應用于圖書館借閱數據中的可行性進行了分析并以上海圖書館“圖書借閱風云榜”為實證研究進行驗證[6],但其僅從方法論的角度介紹了h指數在圖書館應用的可行性。錢玲飛、汪榮利用h指數統計得出不同讀者群的“借閱活躍度”和“核心讀者”,為高校圖書館開展服務提供了一種新的思路,但是在其文章中計算h指數時沒有充分考慮某類圖書的館藏量以及在確定核心讀者時也沒有考慮學院的人數,這些因素都會影響研究結論的偏差[7]。張貝運用hg指數分析圖書館的借閱數據,得出圖書高利用率的讀者群體,從讀者借閱行為的角度進行hg指數的分析,并沒有從圖書的屬性進行hg指數分析[8]。
為了能夠更加直觀、客觀的評價學科圖書,避免由于上述偏差和相關因素造成結論的偏倚,本文對h指數進行了改進,提出了一種新的計算方法從而修正了學科圖書受館藏量、平均借閱量影響而造成的偏差,同時也提高了由于出版時間而使h指數區分度不高的問題。
1 概念邊界
本文的研究目的是要通過h-type指數對圖書進行評價,利用圖書的類目屬性確定圖書的學科范圍,從而得到某一學科范圍內的核心圖書,以期為讀者提供一個關于該學科的知識圖譜并通過圖書的形式表征出來。學科圖書在學術界并沒有明確的定義,這里泛指能夠反映某一專業領域內涵和外延的知識,并能按照一定的分類編目體系進行學科屬性的特征歸屬,最終以圖書的形式表征出來。從整體上,學科圖書是了解該學科的現狀、知識分布、發展方向的重要途徑,不僅作為讀者的知識載體用以傳播,同時它和整個學科發展的知識體系也密切相關。圖書館作為讀者汲取知識的重要場所,通過獲取讀者的借閱信息,并將其借閱信息與借閱圖書的學科屬性建立相關關系,然后利用h-type指數評價從而確定學科的核心圖書。
2 h指數在評價學科圖書方面的不足
2.1 忽視了h核內圖書的最高被借閱次數
在h核內無法區分出借閱率高的圖書,它是一個平均量化值,因為在h指數計算的過程中,我們只統計大于等于h次被借閱的圖書,即便存在某些圖書的被借閱次數高于h幾倍,也無法體現其高借閱率,最終h指數仍以剛超過h數值為準,無法區分高借閱率的圖書。
2.2 忽視了出版時間
h指數無法公正的顯現剛出版圖書的指數,因其得出的數值并不客觀,這主要是因為h指數是受時間因素影響的指標,出版發行較早的圖書其借閱率交近期發行的圖書要高,自然它的h指數也較高。隨著時間的變化,h指數只會不斷上升,不會下降,也就是說原來h指數較高的圖書會依然保持著高借閱量,其h指數仍然很高,這樣在統計的過程中,往往會忽視了一些極具時代發展代表性的圖書。例如大數據、云計算等相關圖書,在剛出版時由于受到樣本量的影響,在短時間內其借閱次數無法迅速提升,所以類似這樣的圖書,h指數并不能客觀的反映其價值。
2.3 忽視了學科偏倚
利用h指數統計學科圖書,其最終的數據往往受到高校學科建設、專業設置的影響,理工科類院校往往在館藏構建時更偏重理工類圖書,那么在其學科圖書h指數自然是理工類圖書居多,同理,反之。所以h指數并不適合跨學科、跨學校的比較,它只能作為高校圖書館開展信息服務的一個風向標,它代表的是自身學校讀者的閱讀傾向。
3 改進的h-type指數
為了提高由于h指數方法自身缺點造成區分能力不足問題,國內外已經提出了數十種改進方法,學術上統稱為h-type指數[9],這些指數的設計分別針對h指數的時間問題、數量問題、虛假合作問題進行了改進。在這其中A指數因其計算簡單、直觀得到了廣泛應用,但A指數是基于平均數來計算的,忽視了內部差異。例如對于22大類圖書來說,傳統h指數是通過借閱頻次來進行排序的,從而得出某一類圖書的h指數,但是這樣往往忽視了該類圖書內部的差異,舉例來說,A—140、20、20;B—60、60、60,平均被借閱的次數都是60,但是A類圖書中有明顯借閱率高于其他圖書的情況,因此更需要高度關注,在關注平均借閱的同時還要考慮最高借閱的情況,提高區分度,因此在A指數研究的基礎上對其進一步的改進和完善,以保證數據合理客觀的呈現。綜上所述,提出一種改進的指數A+即:
A+指數=h核心圖書被借閱次數和+最高借閱次數h
A+指數引入了最高借閱次數除以h的項目,反映了類目內圖書的差異,突出了最高借閱次數圖書的重要性,提高了指數的區分能力。但在學科內確定核心圖書時,不僅要考慮圖書的借閱頻次還要考慮圖書的復本量,因此在計算h指數時要依據相對借閱次數進行排序,為避免區分度不高的情況出現,對其進行修正其公式為:
相對借閱頻次=總借閱頻次復本量
hx=h+h相對借閱頻次
4 實證研究
4.1 數據樣本來源
以天津外國語大學(以下簡稱天外)圖書館2004-2014年各類圖書借閱數據為樣本,其具體體現為圖書館管理系統(Unicorn系統)中所記錄的借閱數據,依據中國圖書分類法(第5版)的類目信息確定學科主題圖書,利用h指數的基本思想,當且僅當第h本學科圖書每本的借閱頻次不少于h次,剩下的(N-h)圖書的借閱頻次小于h次,即第h+1本書借閱頻次小于h+1時,該學科圖書的h指數為h,通過引入圖書最高被借閱次數,計算A+指數。數據檢索時間為:2015年5月18日
4.2 A+指數計算及分析
本文通過對22大類圖書A+指數的計算和評價,從而確定了天外的核心學科館藏,如表1所示,在核心學科館藏范圍內以英語翻譯專業為例,按照中圖法分類規則,其對應的分類號為H315.9,在結合A+指數的評價思想確定該專業領域內的核心圖書,因天外為多語種院校,圖書分為中文普通書和外文普通書,為了體現語種的不同其分類規則以語種+類屬性的形式體現,所以滿足英語翻譯學科圖書的檢索參數應為:以H315.9和31/H315.9為檢索詞,依據中圖法C和中圖法W進行設置,計算結果如表2所示:
如表1所示,22大類圖書的h指數評價有重復的情況(S類和V類),A+指數在考慮最高借閱頻次的數值后,更加精細的區分了各類圖書的指數,能夠降低h指數高重復幾率的出現。另外,隨著區分能力的提高,各類圖書的指數排名會出現細微變化,當該類圖書的最高借閱頻次越高其A+指數相對h指數的變化就會越大,例如Q類圖書的h指數排名為18位,其核內圖書最高借閱頻次為113,故它的A+指數會發生較大的變化,其排名也隨之上升了3位。第三,存在兩種評價的結果比較接近的類目,如H類和I類圖書,兩類圖書在h指數和A+指數的評價中的排名占據了前兩位,一般情況下,A+指數評價排名較高的圖書類目在一定程度上對應著該校的核心專業。以天外為例,作為語言類文科院校其核心學科主要體現為語言和文學兩大學科,這一點從分析數據上也得到了支持。A+指數也可以應用在作者、出版社的評價上,以此來提高區分能力,更加細分的顯現學科領域內的核心作者以及核心出版社。
如表2所示,通過圖書相對借閱頻次計算得出h指數,因h指數的時間敏感性在排序上按照圖書的出版時間進行倒序排列,但依然存在區分度不高的問題,很多圖書的h指數相同,經過hx指數修正后大大提高了區分度,也使得核心圖書的排序發生了細微的變化,究其原因是由于借閱頻次的差異造成的。當h指數相同,復本量越大借閱頻次越高,但其相對借閱頻次未必高,所以hx指數有可能會反轉如序號7和8的圖書。借閱數據是讀者對圖書所蘊含的核心知識的直接驅動力,對圖書館館藏海量的借閱信息進行h-type指數的提取以此來確定學科核心圖書是有價值的。
4.3 結果討論
4.3.1 相關關系分析
利用SPSS統計軟件對表2中所得到的學科圖書評價指標數據進行相關關系統計分析,樣本影響因子C和借閱頻次P與學科圖書hx指數之間的相關性進行分析。如圖1和圖2所示,兩種因子指標在散點圖中表現出一定的相關關系。其中復本量C與hx指數之間存在一定弱相關關系,也就是說復本量大的學科圖書hx指數未必高,而借閱頻次P與hx指數之間成強正線性相關。
為更加精確地分析學科圖書h指數與其他評價指標之間的相關關系,利用SPSS計算Pearson相關系數如表3和表4所示。
由表3可知,復本量C與hx指數的簡單相關系數為0.011,說明兩者之間存在正的弱相關性,其相關系數檢驗的概率P-值近似為1,大于給定的顯著性水平α,不能拒絕原假設,認為兩總體存在零相關。但這與存在弱相關之間是不矛盾的。表4可知,借閱次數P與hx指數的簡單相關系數為0.837,說明兩者之間存在正的強相關性,其相關系數檢驗的概率P值近似為0,拒絕兩總體零相關的原假設。因此,學科圖書hx指數的確定與圖書的館藏復本量成正弱相關性,與借閱頻次成正強相關性,說明復本量大的圖書未必是學科的核心圖書,相反一些復本量少但借閱頻次高的圖書,如商務英語口譯。
4.3.2 館藏學科圖書書目分析
英語翻譯作為一門理論與實踐相結合的學科,其學科核心書目特征也以理論基礎類和實踐應用類的圖書為主,正如表2所示,從內容上看其中理論基礎類圖書占據24種,占58.6%,學科主題圖譜如圖3所示,從主題圖譜中可以看出,通過對學科圖書的細分可以客觀、直接的了解本校讀者對英語翻譯學科圖書的閱讀傾向及該學科知識體系構成,為更好的構建學科圖書館藏資源建設提供數據支持。
從讀者的角度,學科圖書hx指數體現了認知主體的選擇,借閱某本圖書必定能夠解決其某一方面的問題,是讀者認可圖書價值的最直觀體現方式,雖然學科圖書hx指數不能完全代表該學科領域內的核心知識,但是趨近的狀態是顯而易見的。從學科圖書書目上看,也反映了讀者對該學科領域內實踐應用的需求,如筆譯、口譯等級考試類的圖書,占總比重的24%。
5 結 語
學科圖書在一定程度上能夠充分體現學科核心知識,利用h指數的思想對h指數的修正和改進使得學科圖書的確定更加具有客觀性,并能真實的反映讀者閱讀需求,我們在為讀者提供知識文本的同時,根據讀者的需求提供推送式、引導式的學科服務是確定學科圖書的主要目的。隨著學科理論知識的豐富和不斷創新,以圖書為表征形式的知識文本將會不斷更新,高校圖書館應對學科圖書進行定期的統計,從而更及時、準確、全面的為讀者提供學科化知識服務,同時有利于高校圖書館信息服務向知識服務的推進。未來也可以更加細化分析,核心圖書與讀者的關聯關系,核心圖書與與借閱時間的關聯關系等,這些數據的確立都將進一步完善圖書館知識服務的水平,從而全面提高圖書館服務水平。
參考文獻
[1]J.E.Hirsch.An index to quantify an individuals scientific research output[J]PNAS,2005,102(46).
[2]趙基明.h指數及其在中國學術期刊評價中的應用[J].評價與管理,2007,(4):14-20.
[3]劉銀華.h指數評價期刊的有效性分析[J].情報理論與實踐,2007,(6):809-811,815.
[4]萬錦,花平寰,趙呈剛.中國部分重點大學h指數的探討[J].科學觀察,2007,(3):9-16.
[5]陳攀,沙勇忠.我國985大學專利H指數分析[J].圖書與情報,2014,(5):53-61.
[6]周志峰.h指數應用于圖書館借閱數據分析的探索[J].圖書館建設,2009,(11):82-84,89.
[7]錢玲飛,汪榮.基于h指數的OPAC數據分析及應用[J].大學圖書館學報,2012,(2):61-62.
[8]張貝.試用hg指數應用于圖書借閱數據分析研究[J].現代情報,2012,32(12):95-98,104.
[9]王凌峰.一個新的h-type指標[J].情報雜志,2013,(1):55-58.
(本文責任編輯:郭沫含)