摘要:隨著基因和蛋白質序列的發布和分子生物學研究的發展,其相關的數據呈指數級增長,因此如何從海量的相關文獻中直接獲取生物學家研究領域的相關信息變得迫在眉睫,識別生物文獻中的命名實體如蛋白質、基因、脫氧核糖核酸名稱等成為生物信息學中信息抽取的最基本任務。介紹了國際同類研究中生物命名實體識別的各種方法,重點介紹了蛋白質名稱識別的相關方法、所用資源、實驗結果及與國際同類研究的比較結果。
關鍵詞:生物信息; 命名實體識別; 機器學習; 特征選擇
中圖法分類號:TP391文獻標識碼:A
文章編號:1001-3695(2007)01-0100-03
1引言
生物命名實體識別的直接目的是從文本集中識別出指定類型的名稱,如蛋白質、基因、核糖核酸、脫氧核糖核酸、細胞的名稱等。命名實體識別包括兩項任務:①識別,即找到文本中命名實體的邊界;②分類,即確定命名實體的語義類別。完成命名實體的識別任務是能夠進行更為復雜的信息抽取任務的關鍵一步,是更高級別信息訪問任務的核心技術,如識別生物命名實體能夠進一步抽取生物命名實體之間的關系。這個任務很富有挑戰性,主要有以下幾個原因:
(1)新術語不斷出現,并且目前并不存在一個完整的包含各種類型生物命名實體的詞典,所以簡單的文本匹配算法已經失去了作用。
(2)生物命名實體中有大量的大寫字母、數字和非字母字符。據統計,GENIA[4] v3.0中只有62.8%的命名實體是由小寫字母組成的。
(3)描述性的命名習慣,這種現象增加了識別生物命名實體左邊界的困難。
(4)很多生物命名實體是多詞短語,在GENIA v3.0中有18.6%的生物命名實體至少由四個詞組成。
(5)有些生物命名實體是由連詞連接(如and),在GENIA v3.0中有2.06%的生物名實體是這樣的結構。
(6)相同的詞或者短語可以表示不同類別的生物命名實體,要依據上下文才能推斷出來。
(7)非標準的命名習慣。同一命名實體有多種拼寫形式,而且很多的生物命名實體由作者發明,并沒有經過統一標準化,所以導致現存的生物詞典覆蓋率很低,因此傳統的字典識別方法不能奏效。
(8)存在大量縮寫形式的生物命名實體。直到2001年為止,Medline上42.8%的摘要至少有一個縮寫詞,23.7%的摘要至少有兩個或者更多的縮寫詞。而且平均5~10篇摘要有一個新出現的縮寫詞,而且新縮寫詞出現的增長率還在升高。很多縮寫詞的形成是沒有規律可言的,并且縮寫詞還具有高度的歧義性。據統計,在Medline的摘要上81.2%的縮寫詞具有歧義,并且平均每個詞有16.6種含義。因此縮寫詞的識別很大程度上依賴于上下文,而不能依賴于現存的生物詞典。
(9)嵌套形式,即一個生物命名實體包含在另一個生物命名實體中。在GENIA v3.0中有16.57%的生物命名實體具有嵌套形式,因此需要解決候選命名實體的重疊問題。
由于生物命名實體識別研究的潛在應用價值和問題的復雜性,這項研究已經吸引了很多有興趣的研究者。目前大部分生物命名實體的識別都集中在識別Medline文本中的基因和蛋白質的名稱,識別分子生物學中的命名實體成為生物信息學中知識發現的最基本任務。蛋白質的角色和功能是生命科學的重要研究項目,精確地識別蛋白質名稱有很多重要的應用,如能夠在識別蛋白質名稱的基礎上建立蛋白質和蛋白質的關系、蛋白質和基因之間的關系,亞細胞定位,建立基因表達模式及建立蛋白質和疾病的聯系等。
目前已經有很多研究方法嘗試應用到生物文獻的命名實體識別中。它們大致分為以下幾個方法:
(1)基于啟發式規則的方法。需要手動地或啟發式地產生規則以識別文本中的命名實體。基于規則的方法的優點是:規則可以按照需求靈活地加以定義和擴展。但是手動地分析目標領域的文本并產生相應規則需要花費大量的時間,并且需要由專家參與,當其他領域需要應用這些規則時,必須手動地加以改寫。
(2)基于統計/機器學習的方法。在自然語言處理的研究及其相關領域中它已經產生了相當大的影響,如詞性標注、分詞和語音識別等。統計/機器學習方法的優點是:如果提供了適當的模型和訓練數據就很容易地應用到專業領域當中去,然而手動地產生訓練數據也需要花費大量的時間并且需要生物專家的參與,如果想獲得更高的性能就需要更為復雜的模型,這樣通常就需要更多的訓練數據以合理地估價參數增加的數量。
(3)基于字典的方法,其本質是為識別命名實體提供標志信息。命名實體識別就是從字典中搜索最相似的或者相同的詞以得到目標術語。基于字典的方法的優點是簡單實用,因此基于字典的方法通常作為生物文獻命名實體識別的第一步。然而如果只是單一地使用基于字典的方法對命名實體的識別并不是很有效,因為新的命名實體會不斷地出現,并且通常有很多比較短的命名實體及其變體會影響命名實體的識別。為了解決基于字典的方法所帶來的缺點,通常基于字典的方法要與其他的技術結合使用。
2研究方法
下面介紹我們研究中所使用的基于特征的機器學習方法:基于Generalized Winnow(GW)[6]的蛋白質名稱識別的方法和基于SVM的蛋白質名稱識別的方法。
命名實體識別問題可以定義成分類問題,即每一個詞屬于預先定義的表示區域位置信息的類別。我們用{wi}(i=0,1,…,m)表示文本的Token序列,目的是給每一個文本符號wi分配一個類標簽ti,ti的取值為預先定義的類標簽集合。我們用傳統的BIO編碼系統作為文本符號的類標志。其中B表示當前的詞是蛋白質名稱的起始部分,I表示當前的詞是蛋白質名稱的一部分但是為非起始部分,O表示當前的詞不是蛋白質名稱的一部分。我們的學習系統的任務就是預測每一個文本符號wi的類標簽ti。
機器學習方法已經成功地應用到很多自然語言處理問題當中,Winnow算法尤其適用于自然語言處理問題當中的分類問題,因為自然語言處理問題中經常會遇到高維特征空間數據,并且使用的大部分特征是不相關的,Winnow算法對處理不相關的特征有很好的穩定性。但是原始的Winnow算法存在以下兩個問題[6]:①只能確保線性可分數據的分類,但是在自然語言處理問題中大部分數據是線性不可分的,直接應用原始Winnow算法就會帶來數值不穩定問題。②原始的Winnow算法不能對預測的置信度產生一個穩定的估計。Generalized Winnow算法有效地解決了這兩個問題,并提高了原始Winnow算法的性能。Generalized Winnow算法已經成功地應用到語塊識別[6]、分句[7]、文本分類[8]等自然語言處理問題當中,并且取得了很好的結果。
支持向量機是一種基于核函數方法的機器學習方法,主要思想就是將在低維空間沒有辦法線性分類的數據通過核函數變換到高維空間,找到對應的超平面來線性分類。高維空間的構建比較困難,然而核函數的存在使得變換時并不需要顯式構建高維空間,這使得應用變得比較方便。
因此,使用SVM進行數據集分類工作的過程為:預先選定的一些非線性映射將輸入空間映射到高維特征空間,使得在高維屬性空間中有可能對訓練數據實現超平面的分割,避免了在原輸入空間中進行非線性曲面分割計算。在處理高維輸入空間的分類時這種方法尤其有效。
Generalized Winnow和SVM都是基于特征的分類器,為了比較兩類算法和特征對結果的影響,兩個系統選取了相同的特征,并選用相同的訓練和測試語料。
由于生物文本中含有大量的命名實體的縮寫形式,因此使用自動的方法識別這些縮寫詞對識別生物命名實體有很大的幫助。縮寫詞的識別依賴于全稱和縮寫詞的接近程度,文本中通常有以下兩種情況:全稱形式(縮寫形式)和縮寫形式(全稱形式)。這個問題通常被簡化為尋找最佳的縮寫詞及其全稱的對齊過程。我們這里定義縮寫詞為一個較長的詞或者短語的縮寫形式,如首字母縮寫詞被定義為一個全稱詞中每一個詞的第一個字母的連接形式。使用這樣一個定義就排除了一些在生物醫學文獻中出現的其他縮寫形式類型(目前不做這些縮寫形式詞的研究)。目前做了縮寫詞和全稱詞鄰近的研究實驗,使用了文獻[9]的算法,縮寫詞和全稱詞非鄰近的情況要進一步研究。
圖1蛋白質名稱識別系統結構圖
3特征選擇
識別生物命名實體最常使用的特征有兩種:一種是文本符號本身的特征,另一種是文本符號局部的上下文特征及其周圍的詞或符號的特征。還有第三種特征也可以使用,即文本符號在整個篇章中的上下文特征,這種特征不同于以上兩種特征,它不能夠從文本符號和其局部環境中得到。
在我們的研究中,主要使用了以下一些特征:
(1)詞形特征。
由于生物命名實體多數含有數字、大寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征。在新聞領域,這些詞形特征對識別命名實體的邊界很有用,盡管生物領域文本中的詞形特征沒有在新聞領域中那么顯著,但是對區別生物命名實體和非命名實體仍舊有用。
(2)詞性特征。
在新聞領域的命名實體識別中,POS特征已被證明沒有貢獻,因為POS特征會影響更可靠的決定命名實體邊界的大寫字母特征的使用。但是由于生物命名實體中大部分詞是小寫形式,大寫字母特征沒有新聞領域的命名實體的特征貢獻大,并且生物命名實體很多是描述性的名稱且名稱很長,因此POS特征在識別生物命名實體邊界時能夠提供更有幫助的信息,并且詞性信息作為局部的詞義消歧器一般可以幫助整個系統提高準確率。從以往的研究看,在生物名實體的識別上POS的幫助不大,主要有兩個原因[10]:①缺少面向生物領域的POS標注器,大部分系統使用的POS標注器是面向新聞領域開發的。②使用了不當的POS模型造成的。
(3)核心詞特征。
使用統計方法在語料中統計出高頻的蛋白質名稱核心詞,實驗證明核心詞能夠提供重要的特征線索。
(4)詞法特征。
即前后綴特征,我們使用統計的方法從訓練語料中獲得高頻的前后綴詞表。
(5)字典特征。
使用了一些字典資源作為特征加入特征向量空間,有Common Word詞典、Species詞典、Tissue詞典、Mine ̄rals詞典、Endings of Chemicals詞典[1]和Stopword詞典等。
(6)其他特征。筆者研究方法中還使用了Chunk特征、別名特征、頻率特征、Bigram特征、Trigram特征等。
(7)二階特征及多階特征,是以上特征的簡單合取。
4實驗結果
我們的實驗結果由精確率(P)、召回率(R)和F測度(F)評價。Franzen標注了200篇Medline上的摘要用于Yapex系統[2],Yapex的200篇語料中有150篇從PubMed中隨機抽取(關鍵字“protein binding(Mesh term) AND interaction AND molecular”和參數“human”“publication date 1996200”查詢),另外50篇摘要從GENIA語料中隨機選取,這200篇語料中蛋白質名稱全部標注,我們的系統使用Yapex語料進行訓練和測試。
我們使用了三種匹配模式(M)對試驗結果進行評測:
(1)片段匹配(F)。蛋白質名稱多為多詞短語,每個短語中的一個詞看作一個片段,以片段為單位,如果識別出的是蛋白質片段就認為是正確匹配。
(2)部分匹配(P)。即識別出的蛋白質名稱的任何一部分和正確答案的蛋白質名稱的一部分相匹配就認為是正確匹配。
(3)全部匹配(W)。即識別出的蛋白質名稱全部與正確答案的蛋白質名稱完全相匹配就認為是正確匹配。
我們采用了kfold方法,k取值為20,將訓練語料分為20個不相交的等大小的子集,這樣200篇Yapex語料中每一篇都有一次用于測試,有19次用于訓練。表1中列出了20組數據的精確率和召回率的平均值,并由此計算F測度。
表2中列出了我們的研究方法和目前國際上同類研究的幾個系統的性能比較結果,我們的系統和這些系統使用了相同的評測語料。從表2中可以看出,Generalized Winnow方法取得了最好的結果,SVM方法和NLProt[1]系統結果相近。
表1實驗結果
5結論
本文介紹了我們使用機器學習方法在蛋白質名稱識別的研究上所取得的結果。首先簡要描述了Generalized Winnow算法和SVM算法,給出了算法實現的結構,然后介紹了在上述方法中使用的特征,最后分析了實驗結果,并與國際相關研究結果作了對比,從中可以看出我們的研究取得了較好的結果。
參考文獻:
[1]Mika S, B Rost. Protein Names Peeled Precisely off Free Text[J]. Bioinformatics, 20-04,20(Suppl 1):I241I247.
[2]Franzen K, Eriksson G, Olsson F,et al. Protein Names and How to Find Them[J]. Int J Med Inf, 2002,67(13):4961.
[3]K Fukuda, A Tamura, T Tsunoda,et al. Toward Information Extraction: Identifying Protein Names from Biological Papers[C]. Procee ̄dings of Pacific Symposium on Biocomputing, 1998.707718.
[4]T Ohta, Y Tateishi, H Mima,et al. The GENIA Corpus: An Annotated Research Abstract Corpus in the Molecular Biology Domain[C]. Human Language Technologies Conference, 2002.7377.
[5]Tong Zhang, David E Johnson. A Robust Risk Minimization Based Named Entity Recognition System[C].Proceedings of CoNLL, 2003.204207.
[6]Tong Zhang, Fred Damerau, David E Johnson. Text Chunking Based on a Generalization of Winnow[J].Journal of Machine Learning Research, 2002,(2): 615637.
[7]Radu Florian, Abe Ittycheriah, Hongyan Jing,et al. Named Entity Recognition Through Classifier Combination[C]. Proceedings of CoNLL, 2003.168171.
[8]Tong Zhang. Large Margin Winnow Methods for Text Categorization[C]. KDD Workshop on Text Mining, 2000.8187.
[9]Schwartz A, Hearst M. A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text[J]. Pacific Symposium on Biocomputing, 2003,(8):451462.
[10]Zhou G, Zhang J, Su J,et al.Recognizing Names in Biomedical Texts: A Machine Learning Approach[J].Bioinformatics,20-04,20(7):11781190.
作者簡介:
王浩暢(1974),女,博士研究生,研究方向為生物信息智能計算;趙鐵軍(1962),男,教授,研究方向為自然語言處理;于浩(1971),男,副教授,研究方向為信息檢索。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文