摘要:生物醫學文獻以非結構化的文本形式存在,文本挖掘能夠從海量的生物醫學文獻中發現有趣的知識和模式,可以提高對生物醫學文獻的管理和建設效率。本文針對生物醫學領域,闡述了文本挖掘的具體過程,論述了生物醫學文本挖掘現有的研究方法,詳細討論了生物醫學文獻的分類和關系抽取,最后對文本挖掘在生物醫學領域的應用前景做了展望。
關鍵詞:文本挖掘 生物醫學文獻 文本分類 關系抽取
一、引言
信息爆炸時代,各行業每時每刻都在產生和積累大量的以各種形式保存的信息,這些信息以指數級的速度不斷積累和增長,如何快速準確地從這些紛亂的數據中提取出有價值的信息是急待解決的問題。文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考[1]。如今文本挖掘已經成為國際上非常活躍的一個研究領域。
隨著生物醫學領域的快速發展,生物醫學文獻呈指數級增長,成為一座巨大的知識寶庫。然而面對如此大規模的、快速增長的科學文獻數據,即便是該領域內的專家也無法依賴手工方式從中獲取感興趣的信息。由于生物醫學文獻絕大多數都是以非結構化的形式存在于文本文件中,因此采用文本挖掘技術對生物醫學文獻數據進行管理是非常有必要的。
二、文本挖掘過程
文本挖掘通常包括文本數據預處理、特征信息提取和數據挖掘三個步驟。文本挖掘過程如圖1所示:
圖1 文本挖掘過程
文本數據預處理的質量會直接影響到最終的結果,英文文本數據預處理包括無用詞過濾和詞干化處理。文本特征信息提取是將非結構化或半結構化的文本數據轉化為挖掘工具可以處理的中間形式的過程,特征提取首先要識別文本中包含重要信息的特征項。本文采用數學模型來表示這些特征項,常用的特征表示模型有布爾模型、向量空間模型和概率模型,通過特征表示得到的向量維數較高,特征抽取的基本思想是利用映射的方法將高維特征映射到低維空間中,特征抽取一般是構造一個評價函數,然后對每個特征向量進行評估,刪除評估分數較低的特征向量。經過特征信息提取之后,文本數據以結構化形式存儲在數據庫中,因此計算機就可以對文本數據的特征信息進行分類、聚類、關聯分析和趨勢分析等數據挖掘處理。
三、文本挖掘技術在生物醫學文獻管理中的應用
將文本挖掘技術應用到生物醫學領域中,通過挖掘文本數據發現生物醫學的規律,能夠提高生物醫學文獻管理的效率。
(一)生物醫學文獻分類
對生物醫學文獻進行合理分類可以對文獻的組織和搜索帶來極大的便利,也為進一步的數據處理打下基礎。文本分類是指將文本數據映射到預先定義好的類別中,我國常用的分類方法有基于距離的方法、決策樹分類法、貝葉斯分類法等。生物醫學文獻語料庫是對生物醫學文獻分類的基礎,目前國際上可以公開獲取的生物醫學語料庫有:GENIA語料庫、Yapex語料庫、PDG語料庫等。另外由于生物醫學文獻中的專用術語較多,有些術語在文獻中出現次數不多但非常重要,具有很強的分類特征,因此如何在已有的分類方法的基礎上設計出符合這一特點的算法來提高生物醫學文獻分類的準確率和效率是亟待解決的問題。
(二)生物醫學文獻關系抽取
生物醫學文獻關系抽取的目的是從文獻信息中找出生物實體之間的關系,例如基因與某種疾病之間的關系。由于生物醫學文獻中同一概念有多種不同的表示方法,同時文獻中也可能出現很多語料庫中不存在的新概念,因此生物醫學文獻關系抽取的難度較大,國際上常用的關系抽取方法有共現方法、關鍵詞方法、機器學習方法和自然語言處理方法[2]。這些方法在生物醫學文獻關系抽取中都存在一些不足之處,有學者提出利用向量空間模型來識別文獻中生物實體間的關系,在現有方法的基礎上進行開發或多種方法融合運用以期獲得更準確的關系抽取結果。
本文主要介紹了生物醫學文獻的分類和關系抽取,當前生物醫學文本挖掘的研究熱點主要集中在文獻分類、信息檢索、自動摘要、生物醫學領域實體識別、文獻信息關系抽取等方面。通過文本分類可以縮小搜索范圍,為后續的數據處理做準備;通過信息檢索可以幫助用戶在海量的文本信息中快速找到有價值的信息;通過自動摘要技術計算機可以自動地從原始生物醫學文獻中提取出主要內容,使研究者不用花費較多時間就可以從海量的生物醫學文獻中獲得有價值的信息。通過文獻信息關系抽取技術可以從生物醫學文獻中抽取出特定的事實信息,對生物知識網絡的建立、生物體關系的預測和新藥的研制等均具有重要的意義。
四、總結
文本挖掘是當今國內外學者研究的熱點問題,其在生物醫學領域的研究具有廣闊的應用前景和重要的現實意義。本文概述了在生物醫學文獻中文本挖掘的具體過程,重點論述了文本挖掘在生物醫學文獻的分類和關系抽取中的應用和研究狀況。文本挖掘技術在生物醫學文獻管理中的應用在近年來已取得了一定成果,但在很多方面仍需要更深入地研究和探索,文本挖掘技術的提升將會推動生物醫學領域的發展進步。
參考文獻:
[1]楊斌,孟志青.一種文本分類數據挖掘的技術[J].湘潭大學自然科學學報,2001,23(4):34-37
[2]王浩暢,趙鐵軍.生物醫學文本挖掘技術的研究與進展[J],中文信息學報,2008,22(3):89-98