摘要:本研究以美國科技信息研究所出版的《科學引文索引》(SCI)為數據源檢索2004~2013年生物醫學領域文本挖掘文獻,并從年度變化、國家/地區分布、作者等方面進行文獻計量學分析。結果顯示:全球生物醫學文本挖掘文獻總量呈上升趨勢。而對其進一步的研究,必將促進文本挖掘技術的進步和成熟,從而也為生物醫學領域的發展注入新的活力。
關鍵詞:文本挖掘;生物醫學;發展動態;文獻計量學;SCI
文本挖掘(Text mining)是數據挖掘的一個方向,當數據挖掘的對象完全由文本這種數據類型組成時,這個過程就稱為文本挖掘[1]。1988 年, Swanson 教授在MEDLINE 的生物醫學文獻中發現了諸如鎂缺失與偏頭痛的醫學關系[2]并獲得了實驗的驗證。至此之后, 強有力的文本挖掘工具在現代生物醫學研究中扮演著越來越重要的角色。本研究采用文獻計量學的方法,對SCI數據庫收錄的2004~2013年間生物醫學領域的文本挖掘相關文獻從年度變化、國家/地區分布、作者等方面進行文獻計量學分析,旨在了解該領域的研究現狀和發展趨勢,以期為后續的研究提供參考。
1 方法
筆者所統計的文獻數據全部來源于美國ISI 的SCI 網絡版(SCI of Web),以與文本挖掘相關的自由詞text mining,Literature mining,Knowledge discovery in text,Text data mining和以生物醫學相關的自由詞Biomedicine,Systems biology,Medicine,Genomics,Proteomics,Metabolomics, Bioinformatics,Biology,Traditional Chinese Medicine對上述數據庫進行主題詞搜索。然后對下載的所有文獻進行數據的篩選和清理后,最終選擇納入文獻797篇。檢索完成時間為2014年3月20日。
2 結果
2.1年度發表量 我們整理出來的2004~2013年生物醫學領域文本挖掘文獻總共有797篇,每年的發文數量從2004年的43篇到2013年的124篇,總體呈現增長趨勢。
2.2國家/地區 經統計,在所有797篇文章中總共有53個國家參與了文章的發表,遍及全世界五個大洲,但各個大洲的對該領域的研究極不平衡。雖然歐洲有著最高的發文總量,但是北美洲的美國卻以最高發文量(289篇)位居全球國家排名的第一位,緊隨其后的是英國(125)和中國(82).
2.3高被引論文 根據普賴斯定律[3]可以算出在納入統計的文獻中被引頻次≥42 的為高被引文獻(注:Mp=42.21, Npmax=3177)。797篇文獻中被引頻次≥42 的論文共79篇。高被引論文排名前3位的文章為。《Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources》(被引3177次),《The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology》(366次)和《RegulonDB (version 6.0): gene regulation model of Escherichia coli K-12 beyond transcription, active (experimental) annotated promoters and Textpresso navigation》(274次)
2.4核心作者分析 在生物醫學領域文本挖掘研究的797篇文獻中,共有2565位作者(包含所有合著者),根據普賴斯定律,核心作者最低發文數m 的值為: 。其中指發文最多的作者發表的論文數。本次研究中 為23,故m 取整數為4。作者論文4篇以上為80人,其發表的論文為468篇,占總論文量58.7%,高于總論文數的50%,說明在生物醫學領域的文本挖掘研究已經形成了較為穩定的研究群體。
3 結論
2004~2013年以來發文數量總體呈現增長趨勢。全球大約有60%左右的文章都是通過國家間合作完成的,美國是發表文章最多的國家,其次是英國和中國。目前文本挖掘技術在生物醫學中的應用還處于不斷的研究和發展階段,但國際上對該領域的認識正不斷提高,初步形成了一批在該領域的核心研究地區、核心作者和核心研究領域。
致謝:衷心感謝北京市“青年英才計劃”基金(YETP0821)的支持。
參考文獻:
[1] Hearst M A. Text data mining: issues, techniques, and relationship to information access. Presentation notes for UW/MS workshop on data mining, 1997.
[2] Swanson D, Smalheiser N R. Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease[J]. Neuroscience Research Communications, 1994, 15: 1-9.
[3] 劉雪立,王兆軍.2004—2008 年我國情報專題研究高被引論文的統計與分析[J].情報雜志,2010, 29(1): 64-67.
編輯/王敏