,
科學數據與文獻是科技創新鏈條中緊密相關、使用緊密結合的重要內容,實現兩者的互操作對于科學研究具有重要的意義[1]。人類科學研究又一次面臨范式的轉變,e-Science環境已現端倪,數據密集型科學研究第四范式呼之欲出[2]。
2009 年微軟研究院出版的《第四范式:數據密集型科學發現》(The Fourth Paradigm:Data-intensive Scientific Discovery)[3]提出了“基于數據密集型計算的科學研究第四范式”。吉姆·格雷(Jim Gray) 在關于科學研究第四范式的著名演講中也討論了即將到來的學術交流革命,認為互聯網能把所有科學數據與文獻聯系在一起,創建一個數據和文獻能夠交互操作的世界,以提高科學的“信息速率”,促進研究人員的科學生產力。
生物醫學文獻數量大,增長快,為生命科學研究者提供了大量的信息與知識。2005年OA期刊上發表的生物醫學類文獻近4萬篇,2011年增長到12萬篇,占科學領域OA期刊文獻的35.5%,比科學材料、化學、物理、地理環境等其他領域都要多[4]。
美國國家醫學圖書館于2000年創建PMC(PubMed Center)用于收錄和存檔生物醫學類文獻,截至2014年10月,已收錄320萬篇全文文獻,數據來源包括1 585個完全參與期刊(full participation journals)、297個NIH資助論文發表期刊 (NIH Portfolio Journal)和2 768個選擇性存繳期刊(selective deposit journals)。大量生物醫學文獻以非結構化的文本形式存在,文獻挖掘技術能夠從海量的生物醫學文獻中發現有趣的知識和模式[5],為文獻與科學數據的整合奠定了基礎。
目前,人類已進入大數據時代。國際數據公司的研究結果表明,2011 年全球產生的數據量就高達 1.82 ZB。生命科學領域的數據從20世紀后期開始飛速增長,基因測序技術、蛋白質測序技術的突破進一步促進了數據的積累,再加上藥物設計、藥物篩選、臨床試驗等本來就是產生海量數據的源頭,與人類健康密切相關的生命科學領域的數據已經達到了驚人的地步。
在傳統的學術交流體系中,科研人員和出版商等都將科研文獻作為最重要的科研成果,但文獻自身并不能完全滿足科學研究深入和創新的需求??茖W數據與文獻的關聯與整合可以更好地實現知識的搜索與探索,使科研人員全面了解相關科研工作,對實現科學數據共享和科學發現具有重要的意義。
文獻挖掘是指從文獻中提取、整合并發現有用信息和知識的過程。文獻挖掘能夠快速處理大量文獻并得到特定領域的知識,涉及到數據挖掘、文本挖掘和自然語言處理等多個研究領域。生物醫學文獻挖掘就是從海量文本中定位出相關片段。
生物醫學文獻挖掘廣泛應用的核心技術包括信息檢索(Information Retrieval,IR)、命名實體識別(Named Entity Recognition,NER)、信息提取(Information Extraction,IE)、文本挖掘(Text Mining,TX)和數據集成整合(Data Integration,DI)[6]。上述技術的成熟為生物醫學文獻和科學數據的進一步整合奠定了基礎。
信息檢索是指根據用戶提交的查詢需求,在信息庫中快速有效地檢索到有用的信息并反饋給用戶。最著名的文獻信息檢索系統是PubMed,該系統使用了布爾模型和向量模型兩種檢索模型,這兩種模型的交叉使用能夠解決生命科學領域中同物異名和異物同名的查詢功能。
命名實體識別是指從文本中識別出指定的生物實體,如蛋白質和基因的名稱等,常用的識別方法包括基于字典的方法、基于啟發式規則的方法和基于機器學習的方法[7]。其中,基于機器學習的方法是研究重點;基于字典的方法受名稱覆蓋率和名稱變體的限制,通常作為學習字典被整合到機器學習方法中;基于規則的方法需要耗費大量人力建立識別規則庫且領域依賴性強,通常被整合到機器學習方法的后期處理過程中。
信息提取不僅要找到特定的文本,還要根據用戶的需求從文獻資料中提取生命科學研究對象間的相互關系。目前主要有基于統計和基于自然語言處理兩種方法,其技術難點在于文本的語義理解和相互關系的確立。
文本挖掘更強調了文獻中信息的自動提取,自主發現潛在的、有價值的信息,目前的研究主要集中在基于邏輯推理方法獲取間接關系和結合時間序列的文本挖掘上。
數據集成整合是將不斷增長的生物醫學文獻資源同生命領域科學數據有效地集成整合,彌補文獻資源的不足,也滿足日益增長的生命科學領域知識的需求。
以上五項技術的功能層次有所不同,前面問題的解決構成了后面部分研究和發展的基礎。就目前研究的現狀而言,從信息檢索到數據集成整合,方法研究的成熟度依次遞減,而知識發現的潛力卻依次遞增。生命科學領域的文本挖掘和數據集成整合則依賴于對本領域知識的理解和應用,更依賴于從科學文獻中挖掘出的未知生命科學知識的新理論和新方法[8]。
文獻與科學數據的整合有多種形式,目前專有名詞注釋、文章自動摘要、參考文獻深度關聯以及交互式關聯等方面的技術已經比較成熟,極大地促進了生物醫學文獻和科學數據的整合。
生物醫學文獻與科學數據的整合方式如圖1所示。

圖1 生物醫學文獻與科學數據的整合方式
生物醫學文獻挖掘的基本任務之一就是生物醫學領域專有名詞的識別和注釋, 通過從生物醫學文本集合中識別指定類型的名稱, 如蛋白質、基因、核糖核酸、脫氧核糖核酸等。實體識別是進一步抽取關系和其他潛在信息的關鍵步驟[9]。
為了增強文獻的可閱讀性,2007年英國皇家化學學會(RSC)研發出一個基于HTML格式的文獻增強工具Prospect。讀者在閱讀文獻時,Prospect工具會以側邊欄的形式提供蛋白成分、生物名詞、化學本體名詞等生物醫學領域專有名詞的相關注釋[10]。與此類似的是,the ChemSpider Journal of Chemistry將同樣具有專業領域名詞注釋功能的軟件命名為ChemMantis System[11]。軟件在ChemSpider數據庫中完成搜索,對文獻中化學名詞進行解釋,然后使用名詞-結構轉換算法和字典查詢,提供名詞相對應的化學結構,同時給出維基百科對該名詞解釋的相關鏈接。
專業名詞注釋的另一種表現形式是文獻中高頻詞匯、專業詞匯的高亮注釋。BioLit就是一個能夠實現詞匯高亮注釋的開源文獻-數據整合系統[12],系統的底層數據來源于PDB數據庫。系統的工作方式是先在文獻的全文范圍內尋找高頻詞匯,并將這些詞匯轉換成機器可讀的XML格式文件,然后在基于頁面的閱讀器的輔助下,在原始文獻中標注出這些詞匯,以可讀的形式為讀者提供幫助。
愛思維爾出版社在專有名詞注釋方面的研究更具有前瞻性。2008年,愛爾思維出版社針對生命科學研究舉辦了一場“知識增強”的挑戰賽,開發了語義增強和文獻文本挖掘的工具Reflect。這個工具能夠幫用戶實現在閱讀文獻過程中,隨著鼠標的滑動,在基因或蛋白質的名稱旁以浮動對話框的形式顯示其相對應的分子序列,便于生命科學家了解文中特定的基因、蛋白質分子結構。Reflect工具的學習字典包含了373類生物的430萬種小分子結構和150萬個蛋白質序列,通過鼠標點擊文獻中高亮表示的領域專有名詞,工具就會從學習字典中找到關聯數據,提供相應的名詞解釋和可視化圖形展示(如化學物質的分子式、蛋白質結構等)。目前,該工具需要以瀏覽器插件的形式安裝到用戶的計算機中。為了便于使用,該工具也正在向Web服務編程訪問的方式發展。
摘要是以提供文章關鍵信息的形式來展示原始文章的主要內容,可以幫助讀者初步了解文獻的重點內容,快速掌握信息,準確找到所需資料。生物醫學文獻數量快速增長,如果只靠人工編制摘要,其速度遠遠跟不上發展要求。如何合理、快速地發現文章信息受到關注,關于文章自動摘要的研究應運而生。1958年IBM 公司的Luhn首次進行了自動文摘的實驗,宣告了該項技術的誕生;1993年12月在德國Wadern召開了歷史上第一次以自動文摘為主題的國際研討會;1995年,Information Processing & Management出版了一期題為Summarizing Text的??幷咴谛蜓灾兄赋觥斑@一期專刊的出版標志著自動文摘的時代已經到來”[13]。自動文摘技術受到計算機科學、人工智能、情報科學和語言學等多個學科的共同推動,取得了很大的進步。
FEBS Letters曾進行過一系列文獻挖掘研究,其中最關鍵的一項技術就是結構化文獻摘要。最終形成的文獻摘要以XML編碼格式書寫,便于現有的文本挖掘工具直接處理。但在便于機器處理的同時,對于人來講,摘要的可讀性就會有所降低。這項技術是以存儲在MINT和UniProtKB中的數據為底層數據的,所以文獻摘要也會提供這兩個數據庫中的交互式鏈接。
David Shotton等人的研究結果提供了一個文本摘要編輯器,如圖2所示,編輯器能夠提供文章摘要、高頻詞語的標簽云、標簽樹、本體詞庫、引用報告等內容[14]。

圖2 文章自動摘要信息
科學文獻是科學知識的重要承載物,研究人員通過發表科學文獻使自己的研究成果為人所知。對于整個科學的發展而言,每一篇發表的科學文獻都具有相應的價值??茖W文獻作為知識節點,構成了特定研究主題的知識網絡。為了支撐文章的論點,作者通常會從知識網絡中選擇同領域研究人員的調研數據、實驗結果作為參考,來增強論文的說服力。傳統的參考文獻引用,通常是被作為一個完整的實體使用,而沒有對參考文獻中具體內容的引用。如果讀者需要閱讀相關的文本,必須離開當前閱讀的文章,下載并瀏覽參考文獻,這樣的引用操作會大大降低文獻的閱讀效率和使用效率。
David Shotton等人開發了一個支持文獻深度關聯的工具Citations in Context[14],實現了參考文獻的深度關聯。當讀者將鼠標指針懸停在參考文獻上時,工具會自動彈出一個提示框,提供被引參考文獻的關鍵支撐文本信息,如實驗方法、結果討論等。該工具的使用能夠幫助讀者在不通讀全文的前提下,準確地尋找到文獻中最直接的論點和論據。
公開發表文章除了展示研究人員的科學成果外,還為讀者提供了可利用、可操作的數據。生物醫學文獻中包含了多種類型的數據(文本、圖片、表格、完成清理的數據),甚至可以實現文章使用的原始數據和文章相關內容的交互式動態展示。
Attwood等人就研發了一個功能集成的PDF閱讀系統——Utopia系統[15],實現了文獻與科學數據的語義關聯。系統可為靜態文本提供命名實體注釋、參考文獻鏈接和可視化數據展示等功能,交互式數據操作功能是該系統的一大亮點。文獻中的表格和圖形通常是大量數據的縮影,如表格能夠表示某一個蛋白質的結構或者生物分子的某一特定功能。Utopia 系統則可將這些靜態的表格、數字和圖片以動態交互的形式展現給讀者,使得讀者通過雙擊即可對表格的原始數據進行數據更新、數據修改等操作。該系統還為讀者提供了文獻相關數據的獲取方式和鏈接地址,使讀者能夠更便捷地獲取底層數據。Utopia 系統除了可以實現文獻中數據的交互關聯外,還能夠對蛋白結構、基因結構進行交互式的3D展示。鼠標點擊文獻中的二維圖片,圖片區域變成活動對話框,二維圖片也轉換成三維圖形,讀者只需拖動鼠標就可從不同角度觀看三維圖形,從立體可觀的三維結構圖中獲取更多的信息。
隨著大數據時代的來臨,人們越來越認識到數據的重要性。在大量公開發表生物醫學文獻的背后,是大量數據的積累,而讀者只有權限獲得嵌入文章中的表格和圖片,無法獲取文章使用的原始數據。隨著生物醫學領域本體的出現,這一問題也被隨之解決。生物醫學領域本體整合了多種類型的數據,方便了讀者的查找和使用。目前,比較成熟的生物醫學本體有RNA本體庫、蛋白質序列本體庫、細胞本體庫、基因本體庫、系統生物學本體庫等[16]。
通過以上的調研發現,目前國際上已有很多機構開始致力于文獻與科學數據的整合研究,并已經有了顯著成效,詳見表1。目前,大部分從事該領域的研究機構都能實現文獻的專有名詞注釋,牛津大學、加利福尼亞大學、曼徹斯特大學等機構已經實現了文章自動摘要、參考文獻深度關聯等更深層次的關聯。

表1 生物醫學文獻與科學數據的整合方式
注:表格中的“√”表示該項研究具有相關的功能。
生物醫學文獻與科學數據的整合已成為當今文獻挖掘利用與知識發現的熱點問題,這方面的研究具有廣闊的應用前景和重要的現實意義。Reflect,Utopia等整合工具大量涌現,使科學文獻與科學數據不再是孤立的研究范疇,而是一個相輔相成的整體。二者的有機融合在提升了靜態文獻使用價值的同時,也為科學家提供了文章與科學數據間的無縫連接,獲取隱藏在生文章背后的生物實驗原始數據也變得更加便捷。
改變傳統的閱讀模式,增加讀者的閱讀體驗,創建一個數據和文獻能夠交互操作的開放式環境,有助于開展大數據環境下的科研互動,提高生物醫學文獻與數據整合的實效性。
具有文獻挖掘功能的閱讀器通常是基于PDF靜態文本閱讀或基于Web閱讀中的一種。移動客戶端上的文獻閱讀使得文獻與數據的整合更具實時性,讀者不需要計算機就可閱讀文獻,并對相關聯的科學數據進行互操作。
移動閱讀還能實現諸多功能,如文獻閱讀中的個性化標注;將文獻審核人員對文獻的旁注共享給其他的領域專家和期刊編輯人員,便于相關人員進一步編輯和校對文章,將文獻閱讀過程中的個性化標注共享給文獻的后續讀者。而且在個性化評注的基礎上,實現文獻評注的連續性共享,將成為科學文獻閱讀以及科學文獻與科學數據整合領域的一個重要發展方向。
隨著技術的發展和提升,文獻挖掘和科學數據的整合將會有力地推動生物醫學領域的發展和進步,實現文獻和數據的整合使用,架起生物醫學文獻(文獻庫)與生命科學實驗數據(科學數據庫)之間的橋梁。