王嘉 孫謹芳 么鴻雁 劉劍君
?
·流行病學與統計學方法·
文獻計量學定律及其在結核病防治領域的應用
王嘉 孫謹芳 么鴻雁 劉劍君
文獻計量學是用來研究分析文獻的一種重要的方法學理論。文獻計量學的關鍵是定量,采用情報學與數學、統計學相結合的研究手段采集和處理數據,用定量化方法對文獻特征進行分析處理。作者以結核病領域為例,通過實例介紹文獻計量學的基本定律及發展規律。
文獻計量學; 結核; 醫學信息學應用
文獻計量學是以文獻體系和文獻計量特征為研究對象,采用數學、統計學等計量研究方法,研究文獻情報的分布結構、數量關系、變化規律和定量管理,并進而探討科學技術的某些結構、特征和規律的一門學科[1]。文獻計量學的關鍵是定量,采用情報學與數學、統計學相結合的研究手段采集和處理數據,用定量化方法對文獻特征進行分析處理。筆者以結核病防控領域為例,對文獻計量學基本定律和方法的應用加以綜述。
(一)布拉福德定律
布拉福德定律是英國著名文獻學家S.C.Bradford于1934年在Engineering雜志上發表的題為“Sourceofinformationonspecificsubjects”文章[2]中,率先提出的描述文獻分散規律的定律。布拉德福定律是文獻計量學的重要定律之一,它和洛特卡定律、齊普夫定律一起被并稱為文獻計量學的三大定律[3]。
該定律將科技期刊按其刊載專業論文的數量,以遞減順序排列,則可分出若干區域。其中,第一區域期刊中發表的文章數量占到全部文章發表數量的1/3。一般我們認為第一區域為核心期刊區域,所有在第一區域內的期刊為核心期刊。這是一種簡便的確定該學術領域核心期刊的定律和方法。徐海琴等[4]發表的《我國肺結核10年文獻計量學分析》中顯示,2000—2009年我國共發表肺結核文獻16 018篇,分布在1029種雜志中;其中,發文量大于100篇的雜志共計21種,發文4882篇,占全部發文的30.48%,此21種雜志為結核病文獻發表的核心期刊。
學科內核心期刊的確定,有助于讀者更有針對性的去閱讀期刊,查詢文獻。但布拉福德定律使用有嚴格的限制條件:(1)論文的學科、專業領域或課題范圍應當清晰劃定;(2)被分析學科、領域或課題的期刊清單及對這些期刊中刊載的相關論文的統計應當充分;(3)被分析期刊的時間應當清晰限定,以保證有關文獻數據統計的一致性。
(二)洛特卡定律
1926年,美國統計學家洛特卡在JournaloftheWashingtonAcademyofSciences上發表了題為“Thefrequencydistributionofscientificproductivity”的論文,提出“科學生產率”的概念,即指在一定時間內科學工作者在科學上所表現出的能力和工作效果,通常用其生產的科學文獻數量來衡量[5]。該文首次揭示了科學論文作者與論文數量之間的關系,即寫2篇論文的作者數量約為寫1篇論文的作者數量的1/4;寫3篇論文的作者數量約為寫1篇論文作者數量的1/9;寫n篇論文的作者數量約為寫1篇論文作者數量的1/n2;而寫1篇論文作者的數量約占所有作者數量的60%。洛特卡定律可用于確定核心作者群,而核心作者群是指發文量較多、影響較大的作者群體[6]。
作者是期刊實現可持續發展的堅實基礎和無形資產,作者隊伍的狀況很大程度上決定了期刊的質量和學科的發展方向。而核心作者更是期刊質量穩固和持續發展的堅實基礎,反映出期刊在某一學科研究上的持續影響和輻射強度[7]。
常用的確定核心作者的方式是選用基于普賴斯定律和綜合指數法的測評方法,入選核心作者候選人的評價指標包括最低發文數和最低被引頻次[8]。范永德等[9]分析發現,2004—2013年《中國防癆雜志》刊登論文第一作者共計1480名,其中核心作者群包括125名,發文426篇,占發文總數的20.37%(426/2091),核心作者發文被引3803次,占總被引頻次的43.40%(3803/8762)。
還有一種比較簡單的確認核心作者的方式,是通過統計作者發文數量來描述高產作者,在一定意義上也可以理解為核心作者。如王軍芳[10]發表的《PubMed收錄肺結核的放射診斷相關文獻的計量學分析》顯示,10 位作者發表5 篇以上的肺結核的放射診斷相關文獻,他們是該領域的多產作者,也是最活躍的研究者。
(三)齊普夫定律
美國語言學家齊普夫(G.K.Zipf)于1935年研究發現了關于文獻的詞頻分布規律。齊夫定律是以英語為基礎的詞頻統計規律,是詞頻分析研究的理論基礎。應用齊普夫定律及其參數,可以預測關鍵詞的數量,計算各詞匯的重要程度,通過對于某一領域某一時間段內關鍵詞的檢索及分析,可以確定該領域這一時間段內研究方向及熱點。
云科等[11]發表的《HIV/AIDS合并結核研究熱點的文獻計量分析》顯示,通過檢索5875篇與TB/HIV 相關文獻,統計出大于100的高頻主題詞35個,再通過對高頻主題詞的共詞聚類分析,得出近10年TB/HIV領域研究熱點集中在藥物治療、診斷、流行病學、防治及免疫學5個方面。徐海琴等[4]發表的《我國肺結核10年文獻計量學分析》中顯示,通過主題詞頻次表可以總結出肺結核診斷研究熱點為:誤診、痰、影像學檢查;并存病或伴發病研究熱點為:糖尿病和HIV感染;治療的研究熱點為:藥物耐藥性;此外流行病學相關主題詞出現頻次較高。
(一)文獻增長規律
隨著科學的不斷發展,科學文獻的增長也成為一種客觀的社會現象。文獻增長研究廣泛應用于知識度量與知識管理、科學評價、科技政策制定和科技管理、信息研究、信息管理當中。著名科學家與科學史學家普賴斯(D.Price)提出了科學文獻的指數增長規律。普賴斯在其著作《巴比倫以來的科學》中考察統計了科學期刊的增長情況,發現科學期刊的數量大約每50年增長10倍。他以科技文獻量為縱軸,以歷史年代為橫軸繪制曲線,發現不同年代的科技文獻量的變化過程表現為一根光滑的曲線,這條曲線十分近似地展示了科技文獻量指數增長的規律。就結核病防治領域文獻發表情況來看,Ramos等[12]分析發現,1997—2006年結核病文獻年均發表增長速率為4.7%。
(二)文獻老化規律
科技文獻發表之后,隨著時間的推移,相對于科學技術的迅速發展,其內容會越來越“落伍”。文獻的老化就在于其隨“年齡”增長,會逐漸失去作為科技情報源的價值,利用率愈來愈低,甚至失去生命力。1958年,美國學者貝爾納(J.D.Bernal)首先提出利用“半衰期”(half life)來衡量文獻老化速度。文獻老化的應用研究有助于指導文獻信息源選擇、采集,評價館藏文獻的老化程度,評價文獻價值等。
么鴻雁等[13]發表的《1991—2002年〈中國防癆雜志〉的文獻計量學分析》顯示,將12年間《中國防癆雜志》778篇論著的3252條引用文獻進行普賴斯指數分析(期刊所引用文獻中近2年的文獻所占的比例),共有1530 條是近5年內發表的。仲衛功[14]發表的《〈中華結核和呼吸雜志〉2001至2005年引文分析及評價》顯示,《中華結核和呼吸雜志》文獻引用峰值出現在文獻發表后的第3~4年,引用半衰期為5.35年。
(三)文獻引用規律
科學研究的過程中,必然要借鑒前人或他人的相關研究成果。因此,科學文獻間也存在一種必然聯系。這種相互聯系突出表現為文獻間的相互引用。文獻引證關系分析是文獻引用規律研究的基礎,除了文獻間的直接引用關系之外,引文分析理論還著重考察文獻的其他最具代表性的間接引證關系,包括引文耦合(2篇或多篇文獻同時引用1篇或多篇相同文章)、同被引(2篇或多篇文獻共同被后來的1篇或多篇文獻所引用)、自引(著者引用自己以前的著述)等,從而研究科學引文的分布結構和規律性。引文分析使用的主要工具是由美國著名的情報學家Eugene Garfield所創辦,美國科學信息研究所編制出版的《科學引文索引》(science citation index, SCI)。
論文的影響力主要體現在是否被引用。被引頻次的高低反映論文被同行重視的程度及論文在科學發展和學術交流中所起的作用和影響力。同時,也間接反映該論文的學術水平和價值。一般認為,被引頻次與論文質量呈正相關。一篇論文被引頻次越高,說明該論文受關注的程度越高,學術影響力越大。
么鴻雁等[13]發表的《1991—2002年〈中國防癆雜志〉的文獻計量學分析》顯示,《中國防癆雜志》的平均自引率為18.4%。期刊自引是指期刊在其刊載文獻中,引用該刊以前所刊載的文獻的現象。霍金榮[15]發表的《基于Web of Science的耐多藥結核文獻計量分析》顯示,已發表的耐多藥結核病文獻中世界衛生組織發表的文獻被引頻率最高,達到41.24次,美國文獻總量和總的被引頻次均最高,而我國的耐多藥結核病文獻篇均被引頻次為15.26次。
文獻計量學作為一門獨立的學科已日漸成熟。未來,文獻計量學將從理論、方法和應用方面進一步加強學科體系的構建,同時,針對已有公式進行進一步的探討,其發展也將逐步實業化和國際化。
同時,20世紀90年代中期,伴隨著互聯網技術的迅猛發展和網絡信息資源的激增,基于文獻計量學發展而來的一種新型的網絡信息計量工具,即網絡計量學也應運而生。網絡計量學是采用數學、統計學等各種定量方法,對網上信息的組織、存貯、分布、傳遞、相互引證和開發利用等進行定量描述和統計分析,以便揭示其數量特征和內在規律的一門新興分支學科[16]。目前,網絡計量學比較常用的搜索引擎有Alta Vista、All the web、Google、Excite和ISI數據庫等。利用這些搜索引擎,可以開展文獻資料的網絡影響因子分析、鏈接關系分析,以及網絡計量學其他方面的研究。
[1] 國務院信息化工作辦公室“政府信息資源開發利用政策研究課題組”. 加強我國政府信息資源開發利用的若干問題. 中國信息界, 2005, 4(2):44-45.
[2] Bradford SC. Sources of information on specific subjects.J Inf Sci, 1985, 10(4): 173-180.
[3] 袁軍鵬.科學計量學高級教程. 北京:科學技術文獻出版社, 2010.
[4] 徐海琴, 馮博, 徐世俠.我國肺結核10年文獻計量學分析.中華臨床醫師雜志(電子版),2010,4(11):140-142.
[5] Lotka AJ. The frequency distribution of scientific productivity. J Wash Acad Sci, 1926, 16(12): 317-323.
[6] 徐紅星.《中國科技期刊研究》2008—2012年核心作者群的分析研究. 中國科技期刊研究, 2013, 24(6): 1074-1078.
[7] 鐘文娟. 從論文作者群統計看對外漢語期刊學術影響力——以《世界漢語教學》為例. 科技管理研究, 2011, 31(19): 64-68.
[8] 鐘文娟. 基于普賴斯定律與綜合指數法的核心作者測評——以《圖書館建設》為例. 科技管理研究, 2012, 32(2): 57-60.
[9] 范永德, 張曉進, 郭萌, 等. 《中國防癆雜志》近10年核心作者群及期刊主要評價指標變化情況分析. 中國防癆雜志, 2014, 36(9): 749-754.
[10] 王軍方.PubMed 收錄肺結核的放射診斷相關文獻的計量學分析. 臨床心身疾病雜志,2014, 20 (z1):72.
[11] 云科, 徐俊杰, 楚振興, 等. HIV/AIDS合并結核研究熱點的文獻計量分析. 國際病毒學雜志,2010,17(4):125-128.
[12] Ramos JM, Padilla S, Masiá M, et al.A bibliometric analysis of tuberculosis research indexed in PubMed, 1997—2006. Int J Tuberc Lung Dis, 2008, 12(12):1461-1468.
[13] 么鴻雁, 施侶元.1991—2002年《中國防癆雜志》的文獻計量學分析. 中國防癆雜志,2004,26(2):65-68.
[14] 仲衛功.《中華結核和呼吸雜志》2001至2005年引文分析及評價.中華結核和呼吸雜志, 2007, 30(1):48-51.
[15] 霍金榮.基于Web of Science的耐多藥結核文獻計量分析.中國防癆雜志,2009,31(11):628-632.
[16] 張洋, 邱均平. 網絡信息計量學的興起及其哲學思考. 情報雜志, 2005, 24(1):2-5.
(本文編輯:李敬文)
Laws of bibliometric and the application in tuberculosis prevention and cure
WANGJia,SUNJin-fang,YAOHong-yan,LIUJian-jun.
ChineseCenterforDiseaseControlandPrevention,Beijing102206,China
LIUJian-jun,Email:liujj@chinacdc.cn
Bibliometrics is an important methodology for literature study and analysis. Quantitative analysis is the key of bibliometrics. It combines information science, mathematics and statistics to collect and process the data, and use quantitative method to analyze the literature characteristics. We introduce the fundamental law and development of Bibliometrics, by applying it in the field of tuberculosis prevention and cure.
Bibliometrics; Tuberculosis; Medical information applications
10.3969/j.issn.1000-6621.2016.04.004
中國疾病預防控制中心青年科研基金課題(2015A204)
102206 北京,中國疾病預防控制中心
劉劍君,Email:liujj@chinacdc.cn
2016-03-07)