生物信息學中的文本挖掘

2016-05-30 13:03:04周玉新

科技風 2016年17期

周玉新

摘要：隨著生物信息學領域的發展，信息抽取和信息檢索廣泛應用于生物信息學領域。文章總結了近幾年來生物信息學中信息抽取和信息檢索方法的應用，作為生物信息學中文本挖掘的重要工具，其研究價值正得到越來越多的認可和重視。

關鍵詞：生物信息學；信息抽取；信息檢索；文本挖掘

在過去的十幾年中，隨著生物醫學文獻的飛速增長，基因組學和蛋白質組學領域的生物醫學數據出現了巨量增長。人類基因組序列排序標志著大規模基因組學和蛋白質組學時代的開始。雖然可以進行涉及基因和蛋白質的大規模實驗，但對它們的解釋仍然是一個關鍵問題。例如，到目前為止，許多基因組數據的大規模分析都側重于基因表達模式，并且在基因表達基礎上建立基因聚類，而解釋形成的基因聚類需要進行更進一步的分析。

當前，最常使用的生物醫學摘要源是由美國國家生物醫學技術信息中心（NCBI）維護的PubMed，它包含超過12，000，000篇生物醫學科技文獻摘要，每天被遍及世界的數百萬用戶訪問。

PubMed中的典型相關文獻搜索是一個布爾查詢，需要用戶提供相應的搜索項或搜索項組合，然后返回所有滿足查詢的摘要集合。但是，PubMed并不提供基于相似度的工具以幫助用戶訪問這些返回的摘要集中與相關文檔相似的文檔。

為了提高文獻搜索的效率和精度，一些研究人員提出了一些自動文獻搜索方法，主要分為兩種方法：一種是建立在信息抽取和自然語言處理基礎上的生物信息學信息抽取；另一種是建立在信息檢索基礎上的生物信息學信息檢索，它在檢索粒度上解決了文獻挖掘問題。

1 生物信息學信息抽取

迄今為止，多數生物醫學文獻挖掘的工作都側重于自動信息抽取，在生物信息學背景下，信息抽取系統旨在發現關于一個給定基因或關于特定基因間相互關系的信息。

Leek利用隱馬爾科夫模型（HMM）抽取文獻中討論染色體上基因定位的句子。基因和染色體名稱利用簡單的啟發式識別，而實驗方法以及定位標志在一個預定義列表中給出，HMM自身的狀態概率和轉移概率從被標注的OMIM項中學習。訓練和測試集都由幾百個句子組成，系統性能用準確率和召回率度量。

Craven等在這一工作上進行了擴展，他們開發了用于從枯燥的句子中鑒別描述事實句子的系統。系統被設計成用于識別兩種類型的事實：蛋白質亞細胞定位和基因疾病之間的關聯。Ray & Craven進一步擴展了這一工作，他們利用描述句子結構的HMMs識別那些討論基因與疾病間相關聯的句子。該工作不使用預定義的詞匯，而有關基因和蛋白質句子的正確識別也仍局限于在訓練模型中使用過的名稱。

Rindflesch等和Friedman等在傳統NLP基礎上提出了基于解析和使用主題詞表的方法，該方法可以從文檔中抽取關于基因和蛋白質的相關信息。他們的不同之處在于Rindflesch等的工作關注藥物對細胞中基因活性的作用，而Friedman等則關注于基因和作為調控途徑的蛋白質之間的相互作用。

Blachke等使用了一種更簡單的方法，該方法依賴于句子中基因和蛋白質的共現，而不是機器學習方法或先進的NLP，其目標是在一個與蛋白質相關的預定義集合中抽取蛋白質相互作用的信息。它使用了一個蛋白質名稱列表和一個相互作用，通過查找兩個共現的蛋白質被一個表示相互作用的單詞分割的句子來識別蛋白質相互作用。Blashke & Valencia擴展了這一工作，在該工作中他們使用了一個蛋白質名稱檢測模塊，并對句子中的否定進行了處理。

到目前為止所有的方法都是被應用于較小的樣本集，Jenssen等邁出了在大規模分析上的重要一步。他們利用一個預定義的蛋白質名稱列表，通過一個布爾查詢查找PubMed中提及這些基因的所有摘要，并在此基礎上建立了一個以基因作為節點和連接在相同文獻中提及基因為邊的圖，邊的權重表示共現的次數。與此類似，許多基于蛋白質/基因名稱共現的系統通常建立在一個從公用數據中收集而來的詞庫基礎上。

雖然研究人員對于使用信息抽取和自然語言處理的方法投入了很多努力，但這些方法通常強依賴于預定義信息，但很多預定義信息往往難以獲得。

2 生物信息學信息檢索

最常用的信息檢索已經被研究者廣泛應用于搜索感興趣的文章，同樣，在生物信息學領域已經開發出許多基于信息檢索的大規模生物醫學分析方法。

該領域的最初工作是由Shatkey等完成的，他們的目標是發現基因間的功能性關系而不強依賴于基因名稱或句子結構，該方法是建立在許多基因和它們的功能已經在文獻中討論這一假設基礎上。

其他一些研究者將一些信息檢索方法應用于生物信息學領域，主要是聚類和分類的變形。Renner & Azodi提出一個蛋白質標注聚類方法。Iliopoulos等將k-means聚類應用到一個較小的PubMed摘要集以獲取有意義的子集，每一個子集討論一些共同的主題，該主題由聚類中抽取的詞項來描述。Marcotte等使用一個依賴于辨別詞的Bayers分類器來識別討論PPI的摘要。

信息檢索技術的另一個應用是蛋白質的同源性領域。Donaldson等開發了PreBind/Textomy系統，該系統為了從文獻中發現PPI，組合了信息檢索和信息抽取。

在信息檢索階段，訓練了一個SVM分類器來區分摘要是否討論了PPI，然后分類器被用于識別和檢索與PPI相關的摘要。一旦檢索到相關摘要，則應用信息抽取來識別文本間的相互作用。

3 結語

隨著生物信息學領域的發展，信息抽取和信息檢索廣泛應用于生物信息學領域。文章總結了近幾年來生物信息學中信息抽取和信息檢索方法的應用，作為生物信息學中文本挖掘的重要工具，其研究價值正得到越來越多的認可和重視。

參考文獻：

[1] 于躍，徐志健，王珅等.基于雙聚類方法的生物醫學信息學文本數據挖掘研究[J].圖書情報工作，2012，56（18）：133-136.

[2] 齊彬，呂婷.共現分析技術在生物醫學信息文本數據挖掘中的應用[J].中華醫學圖書情報雜志，2009（3）：41-43.