999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展

2010-01-01 00:00:00強(qiáng)劉齊軍王正華朱云平

摘 要:為直接高效地獲取文獻(xiàn)中的知識(shí),命名實(shí)體識(shí)別用來識(shí)別文本中具有特定意義的實(shí)體。這是應(yīng)用文本挖掘技術(shù)自動(dòng)獲取知識(shí)的關(guān)鍵的第一步,因此受到日益廣泛的關(guān)注。主要從評(píng)測(cè)方法、特征選擇、機(jī)器學(xué)習(xí)方法和后期處理等方面介紹了近年來生物醫(yī)學(xué)命名實(shí)體識(shí)別方面的主要研究方法及成果,并對(duì)目前各方面存在的問題進(jìn)行了分析和討論,最后對(duì)該領(lǐng)域的研究前景進(jìn)行了展望。

關(guān)鍵詞:命名實(shí)體識(shí)別; 文本挖掘; 特征選擇; 機(jī)器學(xué)習(xí)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2010)03-0811-05

doi:10.3969/j.issn.1001-3695.2010.03.003

Research and development on biomedical named entity recognition

ZHENG Qiang1,2, LIU Qi-jun1,2, WANG Zheng-hua1, ZHU Yun-ping2

(1.National Laboratory for Parallel Distributed Processing, National University of Deference Technology, Changsha 410073, China;2.State Key Laboratory of Proteome, Beijing Proteome Research Center, Beijing Institute of Radiation Medicine, Academy of Military Medical Sciences, Beijing 102206, China)

Abstract:In order to acquire the useful knowledge directly and effectively from documents, named entity recognition is to recognize the meaningful entities in documents. It is the first and important step to acquire relevant knowledge automatically by using text mining technology. This review introduced main approaches and achievements in recognizing biomedical named entities, focusing on the strategy of evaluation, feature selection, methods on machine learning and the post-processing. It also looked into the current problems and displayed the promising solutions. The last section drew the prospection for the research on biomedical named entity recognition.

Key words:named entity recognition; text mining; feature selection; machine learning

隨著生命醫(yī)學(xué)研究的廣泛開展,相關(guān)成果不斷涌現(xiàn),海量生物醫(yī)學(xué)文獻(xiàn)得以產(chǎn)生并仍以指數(shù)級(jí)增長。截至2009年1月,當(dāng)前國際上最權(quán)威的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫MEDLINE收錄了超過1 700萬篇生物醫(yī)學(xué)文摘,并仍以每年60萬篇的速度增長。因此,如何高效處理海量文獻(xiàn)以自動(dòng)獲取專業(yè)知識(shí)對(duì)生物醫(yī)學(xué)的研究意義十分重大。

作為生物信息學(xué)的一個(gè)重要分支,文本挖掘技術(shù)以其自動(dòng)、高效地獲取知識(shí)的能力被越來越多的研究者所關(guān)注。命名實(shí)體識(shí)別(named entity recognition,NER)作為它的第一步,主要完成識(shí)別文本中代表知識(shí)主體的命名實(shí)體(named entity,NE)的任務(wù),如人名、地名、機(jī)構(gòu)名、專有名詞等。命名實(shí)體識(shí)別技術(shù)廣泛應(yīng)用于信息抽取、問答系統(tǒng)、句法分析、機(jī)器翻譯等眾多領(lǐng)域。生物醫(yī)學(xué)命名實(shí)體識(shí)別(biomedical named entity recognition,Bio-NER)對(duì)生物醫(yī)學(xué)文獻(xiàn)中的基因、蛋白質(zhì)、疾病名、藥物名、組織名等命名實(shí)體進(jìn)行識(shí)別,是進(jìn)行下一步抽取文本中隱含的語義關(guān)系及生物過程進(jìn)行的背景條件等知識(shí)的前提,因此,識(shí)別效率將直接影響整個(gè)自動(dòng)獲取知識(shí)系統(tǒng)的性能。

然而,這涉及到生物學(xué)、自然語言處理和機(jī)器學(xué)習(xí)等多方面的知識(shí),面臨著眾多的困難,是一項(xiàng)非常具有挑戰(zhàn)性的研究工作。本文首先介紹了命名實(shí)體的特點(diǎn),再從評(píng)測(cè)方法、特征選擇、機(jī)器學(xué)習(xí)方法和后期處理等方面綜述了生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究方法、成果、存在的問題及可能的研究方向,為后續(xù)研究提供了重要的參考。

1 命名實(shí)體的特點(diǎn)

在通用領(lǐng)域(如新聞專線)中,命名實(shí)體一般具有數(shù)目相對(duì)穩(wěn)定(如地名)、結(jié)構(gòu)比較規(guī)范(如人名)、命名規(guī)則比較統(tǒng)一(人名)等有利的特點(diǎn),這使得命名實(shí)體識(shí)別系統(tǒng)的f測(cè)度(系統(tǒng)性能的評(píng)估參數(shù))可達(dá)到90%以上,近乎人類識(shí)別水平[1]。而生物醫(yī)學(xué)領(lǐng)域中的命名實(shí)體含有一些獨(dú)特性質(zhì),它們使得該領(lǐng)域中的命名實(shí)體識(shí)別問題更加復(fù)雜。

a)命名實(shí)體的數(shù)目達(dá)數(shù)百萬之多,而且仍在不斷增長,字典和訓(xùn)練數(shù)據(jù)無法提供充分的信息。

b)命名規(guī)則不統(tǒng)一,如Alpha UF1 cells可能也被描述為Alpha UF-1 cells或者UF-1 Alpha cells。

c)命名實(shí)體構(gòu)詞形式復(fù)雜。大量命名實(shí)體存在嵌套結(jié)構(gòu)[2],即一個(gè)實(shí)體名稱中包含了另一個(gè)實(shí)體名稱。另外,很多命名實(shí)體由多詞短語組成,且包含大小寫字母、數(shù)字、希臘字母等各種形式的符號(hào)(如65-75 and 120-125 kDa)。

d)命名實(shí)體存在歧義性,如較難判別一個(gè)名稱是否屬于實(shí)體(如一些前置修飾語)或一個(gè)實(shí)體屬于哪種類別(如ELK1可表示蛋白質(zhì)或DNA)。另外,由于命名的隨意性,大量以縮寫詞形式存在的命名實(shí)體具有很高的歧義性。

因?yàn)榇嬖谏鲜龅牟焕攸c(diǎn),常用的一些命名實(shí)體識(shí)別方法在生物醫(yī)學(xué)領(lǐng)域得不到在其他通用領(lǐng)域所能獲得的高性能[1]。例如,命名實(shí)體識(shí)別在新聞專線領(lǐng)域的f測(cè)度達(dá)到了95%[3],而在生物醫(yī)學(xué)領(lǐng)域的f測(cè)度為72.55%[4](識(shí)別五類命名實(shí)體)和83.2%[5](識(shí)別兩類命名實(shí)體)。因此,生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別還有待研究人員的努力。

2 數(shù)據(jù)格式和系統(tǒng)性能評(píng)價(jià)

2.1 數(shù)據(jù)格式

通常給出如下格式的文本作為系統(tǒng)的輸入數(shù)據(jù):

IL-2/B-DNA gene/I-DNA expression/O and/O NF-kappa/B-protein B/I-protein activation/O through/O CD28/B-protein requires/O reactive/O oxygen/O production/O by/O 5-lipoxygenase/B-protein ./O

其中:B-c表示當(dāng)前詞是c類命名實(shí)體的第一個(gè)詞(beginning);I-c表示當(dāng)前詞是c類命名實(shí)體的內(nèi)部詞(inside);O(outside)表示當(dāng)前詞非命名實(shí)體。通過IOB模型將生物醫(yī)學(xué)文獻(xiàn)中的每個(gè)詞標(biāo)注為各類命名實(shí)體。生物醫(yī)學(xué)命名實(shí)體識(shí)別的任務(wù)就是從未被標(biāo)注的文獻(xiàn)中識(shí)別出命名實(shí)體并按如上格式輸出。標(biāo)注文本中的命名實(shí)體還可以采用IO和IOBEW兩種模型[6]。由于IOB模型具有較好的表達(dá)力且相對(duì)簡單,當(dāng)前主要采用IOB模型標(biāo)注語料庫。

2.2 系統(tǒng)性能評(píng)價(jià)

2.2.1 評(píng)測(cè)標(biāo)準(zhǔn)

評(píng)測(cè)標(biāo)準(zhǔn)由精確率p(precision)、召回率r(recall)和f測(cè)度(f-measure)構(gòu)成:

p=TP/(TP+FP),r=TP/(TP+FN), f=2pr/(p+r)

其中:TP(true positive)表示系統(tǒng)識(shí)別正確的命名實(shí)體數(shù)目;FP(1 positive)表示系統(tǒng)識(shí)別錯(cuò)誤的命名實(shí)體數(shù)目;FN(1 negative)表示系統(tǒng)未找出的命名實(shí)體數(shù)目;f測(cè)度整合p和r兩個(gè)參數(shù),給出一個(gè)系統(tǒng)性能的綜合評(píng)定值,一般取p和r的調(diào)和平均值。

2.2.2 評(píng)測(cè)數(shù)據(jù)集

本領(lǐng)域應(yīng)用最廣泛的評(píng)測(cè)數(shù)據(jù)集有GENIA語料庫[7]和GENETAG語料庫[8]等。其中,GENIA v3.02語料庫包含2 000篇通過在MEDLINE上查詢“human”“blood cell”和“transcription factor”三個(gè)關(guān)鍵詞獲得的摘要,并被領(lǐng)域?qū)<覙?biāo)注出48類生物命名實(shí)體,是目前標(biāo)注規(guī)模最大、分類最多的語料庫。GENETAG語料庫由MEDLINE摘要中的20 000個(gè)句子組成,被生物化學(xué)、遺傳學(xué)、分子生物學(xué)等領(lǐng)域的專家標(biāo)注出24 000個(gè)基因/蛋白質(zhì)名稱。此外,還有PDG、Wisconsin、Yapex、Medstract等語料庫[9]。

在生物醫(yī)學(xué)領(lǐng)域,目前國際上主要有兩個(gè)評(píng)測(cè)會(huì)議:JNLPBA (Joint Workshop on Natural Language Processing in Biomedicine and Its Applications)[4]和BioCreAtIve(Critical Assessment of Information Extraction Systems in Biology)[5]。JNLPBA以GENIA為訓(xùn)練集,以新發(fā)表的404篇摘要作為測(cè)試集,要求識(shí)別“protein”“DNA”“RNA”“cell line”“cell type”五類實(shí)體;BioCreAtIve采用GENETAG語料庫,主要任務(wù)是識(shí)別文本中的基因和蛋白質(zhì)名稱及其同義詞。

3 命名實(shí)體識(shí)別方法

3.1 基于字典的方法

最早采用的方法是基于字典的方法,1998年,Proux等人[10]第一次應(yīng)用英語詞典來識(shí)別基因和蛋白質(zhì)。雖然這種方法簡單且實(shí)用,但新的命名實(shí)體不斷出現(xiàn),并且很多命名實(shí)體的長度較長甚至存在變體,建立一個(gè)完整的包含各種類型的生物醫(yī)學(xué)命名實(shí)體字典是不切實(shí)際的。因此,基于字典的方法通常需要與其他方法結(jié)合使用,當(dāng)前主要是以字典特征的形式被整合到基于機(jī)器學(xué)習(xí)的方法中[11~13]。

3.2 基于啟發(fā)式規(guī)則的方法

基于啟發(fā)式規(guī)則的方法也是早期廣泛使用的一種方法。Fukuda等人[14]最早利用基于規(guī)則的系統(tǒng)判定文檔中的蛋白質(zhì)名稱;Tsuruoka等人[15]采用啟發(fā)式規(guī)則以最小化相關(guān)術(shù)語的歧義性和變化性,實(shí)現(xiàn)了術(shù)語名稱的標(biāo)準(zhǔn)化進(jìn)而提高了查找字典的效率。基于啟發(fā)式規(guī)則的方法通常需要手工或利用啟發(fā)式信息產(chǎn)生識(shí)別命名實(shí)體的規(guī)則,雖然這些規(guī)則可以靈活地定義和擴(kuò)展,但它們對(duì)領(lǐng)域知識(shí)的依賴性很強(qiáng),修改它們需要該領(lǐng)域?qū)<覅⑴c并花費(fèi)大量時(shí)間。另外,由于命名實(shí)體類型多樣,且新類型的命名實(shí)體還在不斷涌現(xiàn),這使得人們很難建立一套一致的規(guī)則。目前,基于規(guī)則的方法一般被整合到基于機(jī)器學(xué)習(xí)的方法的后期處理過程中[11,16~18]。

3.3 基于機(jī)器學(xué)習(xí)的方法

基于機(jī)器學(xué)習(xí)的方法是目前主流的方法,它們利用統(tǒng)計(jì)方法從大量數(shù)據(jù)中估算相關(guān)參數(shù)和特征進(jìn)而建立識(shí)別模型,具有客觀、移植性好(只需提供適當(dāng)?shù)哪P秃陀?xùn)練數(shù)據(jù)就很容易應(yīng)用到其他各個(gè)專業(yè)領(lǐng)域)的優(yōu)勢(shì),但是需要大量的訓(xùn)練數(shù)據(jù)且訓(xùn)練過程相當(dāng)耗時(shí)。目前已經(jīng)有很多機(jī)器學(xué)習(xí)方法應(yīng)用于本領(lǐng)域。命名實(shí)體識(shí)別可以看做是詞的分類問題,因此可以采用基于分類的方法如貝葉斯模型和支持向量機(jī)(support vector machine,SVM)等;同時(shí),它也可以看做是序列分析問題(每個(gè)詞語作為序列中的一個(gè)詞被打上標(biāo)簽),因此可采用隱馬爾可夫模型(hidden Markov model,HMM)、最大熵馬爾可夫模型(maximum entropy Markov model,MEMM)和條件隨機(jī)域(conditional random field,CRF)等基于馬爾可夫的模型。另外,還有一些其他的機(jī)器學(xué)習(xí)方法(如generalized winnow[19]等)也可用來解決該問題。

基于機(jī)器學(xué)習(xí)的方法包括特征選擇、分類方法和后期處理等幾個(gè)步驟。下面分別對(duì)這三個(gè)方面的研究方法及成果進(jìn)行總結(jié),并介紹了可提高系統(tǒng)性能的分類器融合方法。

3.3.1 特征選擇

特征選擇是指從文本信息中選取能區(qū)分各類實(shí)體的文本屬性(即特征集合)。合理的特征集合能夠準(zhǔn)確地表示命名實(shí)體的特點(diǎn),為后期的分類工作提供直接的參考。截至目前,已經(jīng)有許多特征被應(yīng)用到生物醫(yī)學(xué)命名實(shí)體識(shí)別中。

a)核心詞特征[18]。核心詞是名詞短語中的一個(gè)主要名詞,描述了短語的核心功能或性質(zhì),如activated human B cells中的B cells。核心詞被證明可以為正確識(shí)別命名實(shí)體提供重要的線索[20]。

b)字典特征,如停用詞詞典、通用詞詞典、領(lǐng)域詞典等。Torii等人[21]利用生物醫(yī)學(xué)用語詞典幫助系統(tǒng)在識(shí)別蛋白質(zhì)和基因兩類實(shí)體上達(dá)到了88.7%的f測(cè)度。

c)構(gòu)詞特征。根據(jù)當(dāng)前詞由大小寫、數(shù)字、希臘字母、橫線等字符的構(gòu)成情況,幫助標(biāo)注出當(dāng)前詞的實(shí)體類別。本特征被廣泛應(yīng)用于各領(lǐng)域的命名實(shí)體識(shí)別系統(tǒng)[18],結(jié)果證明它能有效發(fā)現(xiàn)命名實(shí)體模式。

d)詞形特征。相同類別的詞可能具有相同的詞形。當(dāng)前一種通用的詞形表示方法是:將大寫字母替換為“A”,小寫字母替換為“a”,數(shù)字替換為“0”,其他字符替換為“x”,如“PP2A”和“PP2B”均可被替換為“AA0A”形式。進(jìn)一步簡化,可將連續(xù)相同字符用一個(gè)字符表示,如“Aaaa_0”可表示為“Aa_0”。

e)詞綴特征。單詞的詞綴可以作為劃分實(shí)體類型的依據(jù),如以“-ase”結(jié)尾的詞一般是蛋白質(zhì)名。詞綴若太短,對(duì)分類幫助不大;而詞綴長度越長,符合的詞數(shù)目越少。因此,一般取3~5個(gè)字符長度的詞綴比較合適。

f)POS(part-of-speech,詞性)特征。使用POS標(biāo)注器將詞標(biāo)注為動(dòng)詞、名詞、前置詞等多種詞性標(biāo)志。POS特征對(duì)識(shí)別命名實(shí)體的邊界有很大的幫助[18],比如,動(dòng)詞和前置詞通常指出了一個(gè)命名實(shí)體的邊界;新出現(xiàn)的名詞通常是專有名詞,很可能預(yù)示著一個(gè)新命名實(shí)體。常用的POS標(biāo)注器有GENIA tagger和Stanford POS tagger等。值得注意的是,在BANNER系統(tǒng)[6]中,使用面向生物醫(yī)學(xué)領(lǐng)域的標(biāo)注器MedPost POS tagger效果反而不如非面向生物醫(yī)學(xué)領(lǐng)域的Hepple tagger,因此如何選擇合適的POS標(biāo)注器也是一個(gè)問題。

g)NP(noun phrase,名詞語塊)特征。NP標(biāo)注器將句子分割為名詞、動(dòng)詞和介詞短語等語塊。命名實(shí)體一般在名詞語塊中,且大多數(shù)情況下兩者邊界相符,因此NP特征可有效識(shí)別實(shí)體的邊界。例如,在名詞語塊the human interleukin-2 gene中,基因名human interleukin-2 gene與其右邊界相符。常用的NP標(biāo)注器有GENIA tagger。

h)聯(lián)合特征。以上所述均為單獨(dú)的特征,有些情況下仍不足以有效地分類命名實(shí)體,而組合相鄰的若干個(gè)單獨(dú)特征即聯(lián)合特征被證實(shí)能提供更多的可靠信息[22]。由于命名實(shí)體平均長度為2~3個(gè),一般只對(duì)與當(dāng)前詞相鄰的3~5個(gè)詞的特征進(jìn)行組合。

上述這些特征對(duì)生物醫(yī)學(xué)命名實(shí)體識(shí)別均有一定效果;此外,還有詞特征[17]、關(guān)鍵詞特征、邊界詞特征、別名特征[18]、數(shù)字標(biāo)準(zhǔn)化特征[17]等也比較常用。

根據(jù)長度、模式和在句子中所處位置的不同,每種特征又有若干種形式。比如,詞形特征有經(jīng)簡化的和未經(jīng)簡化的;構(gòu)詞特征有超過一百萬種構(gòu)詞形式[23]。采用全部特征需要很大的時(shí)間開銷,而且并非所有特征都對(duì)命名實(shí)體識(shí)別系統(tǒng)有積極影響。通常情況下,選取最優(yōu)特征集合比選用全部特征更有效[24]。McDonald等人[12]采用基于過濾法的特征歸納法(features induction)將f測(cè)度提高了2%。NERBio系統(tǒng)[17]采用基于封裝法的順序前向選擇方法選取了詞的六種聯(lián)合特征,結(jié)果顯示系統(tǒng)在GENIA語料庫上的f測(cè)度提高了1.67%,最終達(dá)到72.98%。

3.3.2 分類方法

經(jīng)過特征選擇后,文本中的每個(gè)詞都被用特征集合表示出來;下一步是采用適當(dāng)?shù)姆诸惙椒▽?duì)詞進(jìn)行分類。下面主要介紹SVM、HMM、MEMM和CRF等幾種機(jī)器學(xué)習(xí)方法的應(yīng)用進(jìn)展。

1)SVM方法

SVM方法是Vapnik等人[25]提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的很有效的分類方法。它的主要思想是:通過非線性變換將樣本轉(zhuǎn)換到高維空間,然后從中尋找一個(gè)最優(yōu)分界面使樣本分類間隔最大。眾所周知,SVM具有較強(qiáng)的泛化能力,可有效解決小樣本情況下的機(jī)器學(xué)習(xí)問題,在模式識(shí)別、信息提取、預(yù)測(cè)等方面具有良好的應(yīng)用。由于命名實(shí)體識(shí)別問題也是一個(gè)分類問題,可應(yīng)用SVM的方法求解。Park等人[26]結(jié)合POS特征、NP特征等豐富特征集合識(shí)別DNA、RNA等五類命名實(shí)體,f測(cè)度達(dá)到63.0%;Mitsumori等人[13]結(jié)合POS特征、詞形特征和字典特征等,在GENETAG語料庫上識(shí)別蛋白質(zhì)和基因兩類實(shí)體,達(dá)到了79.46%的f測(cè)度。在JNLPBA2004評(píng)測(cè)任務(wù)中,SVM方法被證明能有效解決生物醫(yī)學(xué)命名實(shí)體識(shí)別問題[4]。SVM本質(zhì)上是一個(gè)二元分類器,而在實(shí)際應(yīng)用中,多分類問題更常見,因此還需把SVM通過一對(duì)一、一對(duì)多、有向非循環(huán)圖、半對(duì)半等方法擴(kuò)展為多類分類器[23]。

當(dāng)前,SVM面臨的主要問題是樣本類別分布不平均和訓(xùn)練時(shí)間過長,研究人員正在采用各種方法來克服這些問題。Lee等人[27]將命名實(shí)體識(shí)別任務(wù)分成兩階段:a)采用SVM找出命名實(shí)體的邊界;b)SVM被用來對(duì)識(shí)別出的命名實(shí)體進(jìn)行分類。該方法能夠在每個(gè)階段選擇更合適的特征和分類方法,減輕了樣本類別分布不平均問題所產(chǎn)生的影響,在縮短訓(xùn)練時(shí)間的同時(shí)也提高了系統(tǒng)的性能。Habib[23]提出了基于線性訓(xùn)練二元SVM學(xué)習(xí)算法SVM-Pref的SVM-PerfMulti,相對(duì)于多類SVM分類器,在訓(xùn)練時(shí)間方面有顯著提高(縮短為后者的1.7%~3.2%)。

2)HMM方法

為給定的觀測(cè)序列找出最可能的狀態(tài)序列是HMM要解決的基本問題之一。通過統(tǒng)計(jì)由隱含狀態(tài)到觀測(cè)序列的發(fā)射概率和隱含狀態(tài)到另一個(gè)隱含狀態(tài)的狀態(tài)轉(zhuǎn)移概率等概率矩陣,HMM對(duì)觀測(cè)序列生成過程進(jìn)行建模,最大化觀測(cè)序列與狀態(tài)序列的聯(lián)合概率,最終找到能最好解釋觀測(cè)序列的狀態(tài)序列。命名實(shí)體識(shí)別對(duì)一個(gè)句子序列中的各個(gè)詞進(jìn)行標(biāo)注,狀態(tài)序列確定每個(gè)詞是否處于命名實(shí)體中。因此,HMM在生物醫(yī)學(xué)命名實(shí)體識(shí)別研究中被廣泛應(yīng)用。Zhou等人[18]使用基于豐富特征集合(構(gòu)詞特征、詞性特征、核心詞特征、別名特征等)的方法訓(xùn)練HMM,在GENIA語料上獲得66.6%的f測(cè)度;Zhao等人[28]采用HMM結(jié)合基于詞相似度的平滑技術(shù),在GENIA語料上f測(cè)度達(dá)到了66.04%。

當(dāng)前,HMM的應(yīng)用仍然存在一些問題。HMM為保證推導(dǎo)的正確性,必須假設(shè)序列元素之間具有較強(qiáng)的馬爾可夫性,即假設(shè)當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān),而與其他狀態(tài)均無關(guān)。但在實(shí)際觀測(cè)序列中,元素之間往往存在著長距離相關(guān)關(guān)系;另外,HMM也受限于數(shù)據(jù)稀疏問題。由于HMM是通過學(xué)習(xí)聯(lián)合概率來建立模型的,某類樣本的缺乏將導(dǎo)致系統(tǒng)性能的下降。當(dāng)測(cè)試集中出現(xiàn)訓(xùn)練集中未出現(xiàn)的命名實(shí)體時(shí),對(duì)應(yīng)的發(fā)射概率為0,這意味著基于HMM的系統(tǒng)無法有效處理未知的命名實(shí)體。

3)MEMM方法

早在1999年,MEMM就被應(yīng)用于命名實(shí)體識(shí)別系統(tǒng)[29],它是一種條件概率模型,為每個(gè)狀態(tài)定義一個(gè)指數(shù)模型作為在給定當(dāng)前狀態(tài)時(shí)下一個(gè)狀態(tài)的條件概率。

P(S|O)=1z(s)exp ∑iλifi(o,s)

其中:O表示句子序列;S表示對(duì)應(yīng)的標(biāo)注序列;i表示當(dāng)前詞在句子中的位置;λ是需要被學(xué)習(xí)的權(quán)重;f表示依賴于狀態(tài)s和觀測(cè)序列o的特征函數(shù);z(s)是一個(gè)標(biāo)準(zhǔn)化因子。

z(s)=∑oexp ∑iλifi(o,s)

最后,MEMM用Viterbi算法來找出最好的狀態(tài)序列即類別標(biāo)注。

MEMM速度比SVM快,不受數(shù)據(jù)稀疏問題的影響且不需要獨(dú)立性假設(shè),因此可以很容易整合具有相關(guān)性的特征,優(yōu)于HMM。但它存在著標(biāo)注偏置(label bias)問題[30],即轉(zhuǎn)移到下一個(gè)狀態(tài)時(shí)只考慮到當(dāng)前狀態(tài)后面的幾個(gè)候選狀態(tài)之間的競(jìng)爭,而未考慮整個(gè)序列狀態(tài)之間的競(jìng)爭,因此得到的結(jié)果只是局部最優(yōu)的。Lin等人[11]使用基于特征的MEMM并結(jié)合基于字典和規(guī)則的后期處理,在GENIA語料庫上獲得72%的f測(cè)度。Finkel等人[31]混合MEMM及多種特征識(shí)別蛋白質(zhì)和基因, f測(cè)度達(dá)到83.2%。

4)CRF方法

CRF是Lafferty等人[30]為解決MEMM的標(biāo)注偏置問題而提出的一種連續(xù)優(yōu)化最大熵模型。在CRF系統(tǒng)中,給定的觀測(cè)序列On1=o1o2…on與其對(duì)應(yīng)的狀態(tài)序列Sn1=s1s2…sn存在的條件概率為

P(S|O)=1zo exp (∑ni=1 ∑mj=1 λjfj(si-1,si,o,i))

其中:zo是所有狀態(tài)序列的標(biāo)準(zhǔn)化因子;fi是特征向量函數(shù);λi是特征權(quán)值,通過訓(xùn)練找到最優(yōu)值。最后通過Viterbi算法找到使條件概率最大的標(biāo)注序列。

CRF繼承了MEMM的優(yōu)點(diǎn),并且由于只使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列的條件下整個(gè)標(biāo)注序列的聯(lián)合概率,訓(xùn)練得到的特征權(quán)值是全局最優(yōu)的,解決了標(biāo)注偏置問題。

近幾年來,很多系統(tǒng)采用CRF作為分類方法并證明了它的有效性。Tsai等人[16]采用CRF結(jié)合豐富的特征集合和后期處理在JNLPBA2004測(cè)試語料上獲得了70.2%的f測(cè)度。McDonald等人[12]結(jié)合詞形特征、字典特征等多種特征集合,f測(cè)度達(dá)到82.4%,證明了CRF可以有效地識(shí)別基因和蛋白質(zhì)兩類命名實(shí)體。Leaman等人[6]結(jié)合目前文獻(xiàn)提到的大部分可用的特征方法識(shí)別基因和蛋白質(zhì),f測(cè)度達(dá)到81.96%。

3.3.3 后期處理

通過分類模型,命名實(shí)體已基本標(biāo)注完畢,但仍需通過一些后期處理來修正結(jié)果從而進(jìn)一步提高系統(tǒng)性能,如可通過匹配括號(hào)、引號(hào)等一般成對(duì)出現(xiàn)的字符發(fā)現(xiàn)標(biāo)注錯(cuò)誤[32];通過縮寫詞識(shí)別算法[33]對(duì)全稱和簡稱進(jìn)行互相驗(yàn)證等。Zhou等人[18]從訓(xùn)練數(shù)據(jù)中自動(dòng)抽取出六種規(guī)則并第一次解決了實(shí)體嵌套問題,將f測(cè)度提高了3.1%,達(dá)到72.55%。這種后期處理方法使分類系統(tǒng)可以利用實(shí)體標(biāo)注的全局信息。至此之后,雖然大多數(shù)研究人員都采用普遍認(rèn)為分類效果最好的CRF方法,但卻很少有優(yōu)于Zhou等人的系統(tǒng)性能。造成這種現(xiàn)象的原因之一可能是缺乏基于動(dòng)態(tài)規(guī)劃的系統(tǒng),無法利用全局信息[36]。直到2006年,Tsai等人[17]在CRF方法中結(jié)合了基于模式的后期處理,將f測(cè)度提高了0.57%,達(dá)到72.98%,使系統(tǒng)性能達(dá)到與Zhou等人的系統(tǒng)同等水平;接著,Yoshida等人[36]提出重歸類的后期處理算法,由兩個(gè)基于對(duì)數(shù)—線性模型的統(tǒng)計(jì)學(xué)分類器級(jí)聯(lián)組成,后一個(gè)分類器對(duì)前一分類器的結(jié)果進(jìn)行重新處理,以此利用全局信息而不依賴于基于規(guī)則的方法。重歸類算法使f測(cè)度提高了1.55%并最終達(dá)到72.65%。

以上文獻(xiàn)說明,后期處理是一個(gè)非常重要的過程,它可以有效提高分類系統(tǒng)的性能。

3.3.4 分類器的融合

雖然當(dāng)前已采用了很多方法,但分類系統(tǒng)仍未獲得令人滿意的性能,原因可能包括兩個(gè)方面[34]:分類系統(tǒng)無法找到足夠豐富的特征來表示命名實(shí)體;只使用單個(gè)算法無法達(dá)到最佳性能。近幾年的研究證明,融合分類器的方法富有成效。結(jié)合多個(gè)分類器可以克服單個(gè)分類器的弱點(diǎn),使分類系統(tǒng)達(dá)到更高的性能。例如,Wang等人[35]提出了仲裁規(guī)則法、疊加歸納法和級(jí)聯(lián)歸納法三種融合策略,分別對(duì)SVM等四種分類器進(jìn)行融合,在JNLPBA2004提供的測(cè)試語料上的f測(cè)度分別為73.18%、77.57%和76.24%,均優(yōu)于單個(gè)分類器的性能(72.55%);Chan等人[36]將生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)分成識(shí)別和分類兩階段,采用級(jí)聯(lián)策略融合基于最大熵邊緣的模型,取得了72.94%的f測(cè)度;Torii等人[21]采用了投票方案融合多個(gè)系統(tǒng)對(duì)文本中的蛋白質(zhì)和基因進(jìn)行識(shí)別,f測(cè)度達(dá)到了88.87%。

4 結(jié)束語

近幾年來,生物醫(yī)學(xué)命名實(shí)體識(shí)別在語料庫、特征選擇、識(shí)別方法等方面取得了一定的進(jìn)展,但由于生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體具有一些獨(dú)特的特點(diǎn),要使系統(tǒng)達(dá)到更高的性能仍面臨著很大的挑戰(zhàn)。今后可以從以下幾個(gè)方面進(jìn)行研究:

a)建立并遵循統(tǒng)一的實(shí)體命名規(guī)則。命名實(shí)體識(shí)別的一個(gè)關(guān)鍵步驟是提取命名實(shí)體的特征。系統(tǒng)性能的高低很大程度上取決于提取的特征能否有效地表示命名實(shí)體的獨(dú)特性,當(dāng)前生物醫(yī)學(xué)領(lǐng)域?qū)嶓w命名的隨意性使得命名實(shí)體名稱結(jié)構(gòu)復(fù)雜多樣且具有很強(qiáng)的歧義性,給特征提取帶來很大的難度。因此,當(dāng)前亟待建立一種統(tǒng)一的、規(guī)范的、有效的且能得到相關(guān)研究人員和文獻(xiàn)作者遵循的命名規(guī)則。若命名實(shí)體具有某種規(guī)范的結(jié)構(gòu),則特征提取將更加簡單有效,系統(tǒng)性能也將獲得較大提高。

b)構(gòu)建規(guī)模更大、質(zhì)量更高的語料庫。當(dāng)前主流的方法——機(jī)器學(xué)習(xí)方法主要是通過統(tǒng)計(jì)樣本數(shù)據(jù)的方法來得到相關(guān)參數(shù)并建立模型,語料庫所含樣本越多、質(zhì)量越高,則建立的模型客觀性越強(qiáng)。但是相對(duì)于生物醫(yī)學(xué)領(lǐng)域快速增長且種類眾多的新命名實(shí)體,當(dāng)前語料庫的完整性仍顯不足,而且仍存在標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一的問題[17];另外,語料庫中的各類命名實(shí)體的數(shù)目不平衡也將導(dǎo)致整個(gè)系統(tǒng)性能的下降。因此,需要獲取規(guī)模更大、質(zhì)量更高的標(biāo)注語料庫,僅僅通過人工方法標(biāo)注大規(guī)模語料庫將耗費(fèi)大量的時(shí)間和精力。如何利用小規(guī)模已標(biāo)注語料庫自動(dòng)構(gòu)建大規(guī)模語料庫是近年來的一個(gè)研究方向,如采用自擴(kuò)展(bootstrapping)[37]的方法。

c)消除命名實(shí)體的歧義性。生物醫(yī)學(xué)領(lǐng)域的一些固有歧義性導(dǎo)致了標(biāo)注以及識(shí)別的困難。例如,由于蛋白質(zhì)名中經(jīng)常使用DNA名,導(dǎo)致DNA識(shí)別率不與其樣本數(shù)目成正比,同樣的問題也存在于cell line和cell type類實(shí)體[17]。這可以看做是一詞多義問題,因此,命名實(shí)體的分類也是一個(gè)詞義消歧(word sense disambiguation,WSD) 的過程。20世紀(jì)50年代以來,詞義消歧一直是計(jì)算語言學(xué)和自然語言處理領(lǐng)域中的一個(gè)重要的熱點(diǎn)研究問題。

d)提取更具推廣能力的特征。針對(duì)生物醫(yī)學(xué)領(lǐng)域新命名實(shí)體不斷出現(xiàn)的特點(diǎn),該領(lǐng)域命名實(shí)體識(shí)別應(yīng)更注重提高系統(tǒng)的推廣能力。從某種程度來講,目前選取的特征如字典特征和基于規(guī)則的特征只是對(duì)命名實(shí)體名稱和句子的一種匹配,只用到文本中比較表層的一些信息,無法有效地處理未知的命名實(shí)體和句子結(jié)構(gòu)。在以后的工作中,應(yīng)更注重利用文本中更深層次的信息(如句法知識(shí)和詞匯的語義知識(shí)等在自然語言處理中比較重要的基本知識(shí)),提取命名實(shí)體的更本質(zhì)、更具推廣能力的特征(如語義特征等),從而提高系統(tǒng)識(shí)別未知命名實(shí)體的能力。

e)融合多種分類方法。由于基于規(guī)則的方法需要領(lǐng)域?qū)<业膮⑴c,耗費(fèi)人力和時(shí)間且缺乏可移植性,而統(tǒng)計(jì)的方法雖然具有一定的客觀性,但依賴于大規(guī)模語料庫且處理時(shí)間太長。而混合使用兩種方法將具有較好的可移植性和較短的訓(xùn)練時(shí)間,是比較理想的方法。雖然目前并沒有方法知道所使用的分類模型或資源與系統(tǒng)性能的確切關(guān)系,但當(dāng)前較好的系統(tǒng)有一個(gè)重要的特點(diǎn)就是廣泛應(yīng)用了基于規(guī)則的后期處理方法[36]。因此,如何整合人工規(guī)則與統(tǒng)計(jì)模型值得進(jìn)一步研究。

f)賦予系統(tǒng)自我提升的能力。當(dāng)前大部分系統(tǒng)在訓(xùn)練模型的過程中只能利用有限的訓(xùn)練語料庫,而且模型在建立后基本不再變化。隨著生物醫(yī)學(xué)領(lǐng)域的發(fā)展,新的命名實(shí)體不斷涌現(xiàn),系統(tǒng)不斷面對(duì)包含未知信息越來越多的測(cè)試集,性能將逐漸下降。對(duì)此,可以嘗試賦予系統(tǒng)自我提升的能力,使系統(tǒng)利用用戶對(duì)系統(tǒng)的使用和對(duì)結(jié)果的反饋,不斷自我更正錯(cuò)誤的識(shí)別、驗(yàn)證正確的識(shí)別、接受新出現(xiàn)的命名實(shí)體,利用用戶的專業(yè)知識(shí)為系統(tǒng)提供訓(xùn)練,建立系統(tǒng)的經(jīng)驗(yàn)信息,從而使系統(tǒng)性能隨著領(lǐng)域的發(fā)展而提高。

g)利用更多的外部資源,如構(gòu)建更加全面的領(lǐng)域字典,利用文獻(xiàn)的全文信息。字典是一種比較簡單的資源,可提高系統(tǒng)識(shí)別已知命名實(shí)體的能力。當(dāng)前大部分語料庫只收集了文獻(xiàn)摘要部分的信息,在下一步工作中,可以利用全文信息,在驗(yàn)證摘要信息的同時(shí)獲取更多更全的領(lǐng)域知識(shí)。

另外,目前大部分生物醫(yī)學(xué)命名實(shí)體識(shí)別研究以英文文獻(xiàn)為語料庫,而其他語言(如中文)的文獻(xiàn)也在不斷增加。例如,中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫包含1978年后發(fā)表在1 600多種中文生物醫(yī)學(xué)期刊上的超過300萬篇文獻(xiàn)[38]。因此,除英文外的其他語種的命名實(shí)體識(shí)別任務(wù)也有待研究。

參考文獻(xiàn):

[1]TANABE L, WILBUR W J. A priority model for named entities[C]//Proc of Human Language Technology Conference. Morristown:Association for Computational Linguistics, 2006:33-40.

[2]GU Bao-hua. Recognizing nested named entities in GENIA corpus[C]//Proc of Human Language Technology Conference.Morristown: Association for Computational Linguistics, 2006:112-113.

[3]SUNDHEIM B M. Overview of results of the MUC-6 evaluation[C]//Proc of the 6th Conference on Message Under Standing. Morristown: Association for Computational Linguistics, 1996:423-442.

[4]KIM J, OHTA T, TSURUOKA Y, et al. Introduction to the bio-entity recognition task at JNLPBA[C]//Proc of International Workshop on Natural Language Processing in Biomedicine and It’s Applications. 2004:70-75.

[5]YEH A, MORGAN A, COLOSIMO M, et al. BioCreAtIvE task 1A: gene mention finding evaluation[J]. BMC Bioinformatics, 2005,6(1): S2.

[6]LEAMAN R, GONZALEZ G. BANNER: an executable survey of advances in biomedical named entity recognition[C]//Proc of Pacific Symposium on Biocomputing. 2008:652-663.

[7]KIM J D, OHTA T, TATEISI Y, et al. GENIA corpus:a semantically annotated corpus for bio-textmining[J]. Bioinformatics, 2003,19(1): i180-i182.

[8]TANABE L, XIE N, THOM L H, et al. GENETAG: a tagged corpus for gene/protein named entity recognition[J]. BMC Bioinform-atics, 2005,6(1): S3.

[9]COHEN K B, FOX L, OGREN P V, et al. Corpus design for biomedical natural language processing[C]//Proc of ACL-ISMB Workshop on Linking Biological Literature,Ontologies and Database. 2005:38-45.

[10]PROUX D, RECHENMANN F, JULLIARD L, et al. Detecting gene symbols and names in biological texts: a first step toward pertinent information extraction[C]//Proc of the 8th Workshop on Genome Informatics. 1998: 72-80.

[11]LIN Y, TSAI T, CHOU W, et al. A maximum entropy approach to biomedical named entity recognition[C]//Proc of the 4th ACM SIGKDD Workshop on Data Mining in Bioinformatics. 2004:56-61.

[12]MCDONALD R, PEREIRA F. Identifying gene and protein mentions in text using conditional random fields[J]. BMC Bioinformatics, 2005,6(1):S6.

[13]MITSUMORI T, FATION S, MURATA M, et al. Gene/protein name recognition based on support vector machine using dictionary as features[J]. BMC Bioinformatics, 2005,6(1): S8.

[14]FUKUDA K, TAMURA A, TSUNODA T, et al. Toward information extraction:identifying protein names from biological papers[C]//Proc of Pacific Symposium on Biocomputing. 1998:707-718.

[15]TSURUOKA Y, MCNAUGHT J, ANANIADOU S. Normalizing biomedical terms by minimizing ambiguity and variability[J]. BMC Bioinformatics, 2008,9(3):S2.

[16]TSAI T, CHOU W, WU S. Integrating linguistic knowledge into a conditional random field framework to identify biomedical named entities[J]. Expert Systems with Applications, 2006,30(1): 117-128.

[17]TSAI R T, SUNG C L, DAI H J, et al. NERBio: using selected word conjunctions, term normalization, and global patterns to improve biomedical named entity recognition[J]. BMC Bioinformatics, 2006,7(5): S11.

[18]ZHOU Guo-dong, ZHANG Jie, SU Jian, et al. Recognizing names in biomedical texts: a machine learning approach[J]. Bioinformatics, 2004,20(7):1178-1190.

[19]ZHANG Tong, DAMERAU F, JOHNSON D. Text chunking based on a generalization of winnow[J].Journal of Machine Learning Research, 2002,2: 615-637.

[20]NOBATA C, COLLIER N, TSUJII J. Automatic term identification and classification in biology texts[C]//Proc of the 5th Natural Language Pacific Rim Symposium. 1999:369-374.

[21]TORII M, HU Z, WU C H, et al. BioTagger-GM: a gene/protein name recognition system[J]. Journal of the American Medical Informatics Association, 2009,16(2): 247-255.

[22]FINKEL J, DINGARE S, NGUYEN H, et al. Exploiting context for biomedical entity recognition from syntax to the Web[C]//Proc of International Conference on Computational Linguistics. 2004:88-91.

[23]HABIB M S. Addressing scalability issues of named entity recognition using multi-class support vector machines[C]//Proc of World Aca-demy of Science,Engineering and Technology. 2008: 69-78.

[24]McCALLUM A. Efficiently inducing features of conditional random fields[C]//Proc of the 19th Conference on Uncertainty in Articifical Intelligence. 2003:403-410.

[25]VAPNIK V N, CORTES C. Support vector networks[J]. Machine Learning, 1995,20(3): 273-297.

[26]PARK K M, KIM S H, LEE D G. Boosting lexical knowledge for biomedical named entity recognition[C]//Proc of Joint Conference on Natural Language Processing in Biomedicine and It’s Applications. 2004:76-79.

[27]LEE K J, HWANG Y S, KIM S, et al. Biomedical named entity re-cognition using two-phase model based on SVMs[J]. Journal of Biomedical Informatics, 2004,37(6):436-447.

[28]ZHAO Shao-jun. Named entity recognition in biomedical texts using an HMM[C]//Proc of Joint Conference on Natural Language Processing in Biomedicine and It’s Applications. 2004:87-90.

[29]BORTHWICK A E. A maximum entropy approach to named entity recognition[D].New York: New York University, 1999.

[30]LAFFERTY J, McCALLUM A, PEREIRA F. Conditional random fields probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publisher, 2001:282-289.

[31]FINKEL J, DINGARE S, MANNING C D, et al. Exploring the boundaries: gene and protein identification in biomedical text[J]. BMC Bioinformatics, 2005,6(1): S5.

[32]DINGARE S, NISSIM M, FINKEL J, et al. A system for identifying named entities in biomedical text: how results from two evaluations reflect on both the system and the evaluations[J]. Comparative and Functional Genomics, 2005,6(1-2): 77-85.

[33]SCHWARTZ A S, HEARST M A. A simple algorithm for identifying abbreviation definitions in biomedical text[C]//Proc of Pacific Symposium on Biocomputing. 2003:451-462.

[34]YOSHIDA K, TSUJII J. Reranking for biomedical named-entity recognition[C]//Proc of Human Language Technology Conference.Morristown: Association for Computational Linguistics, 2007:215-222.

[35]WANG Hao-chang, ZHAO Tie-jun, TAN Hong-ye, et al. Biomedical named entity recognition based on classifiers ensemble[J]. International Journal of Computer Science and Applications, 2006,5(2):1-11.

[36]CHAN S, LAM W, YU Xiao-feng. A cascaded approach to biomedical named entity recognition using a unified model[C]//Proc of the 17th International Conference on Data Mining. Washington DC: IEEE Computer Society, 2007:93-102.

[37]VLACHOS A, GASPERIN C. Bootstrapping and evaluating named entity recognition in the biomedical domain[C]//Proc of Workshop on Linking Natural Language Processing and Biology. Morristown: Association for Computational Linguistics,2006:138-145.

[38]GU B, POPOWICH F, DAHL V. Recognizing biomedical named entities in Chinese research abstracts[M]//Advances in Artificial Intelligence. Berlin/Heidelberg:Springer, 2008:114-125.

主站蜘蛛池模板: 日本久久网站| 亚洲天堂啪啪| 国产精品乱偷免费视频| 精品视频第一页| 福利一区三区| 欧美中文字幕在线视频| 天天色天天综合| 国产三级国产精品国产普男人| 91久久偷偷做嫩草影院电| 精品国产免费观看一区| 国产在线视频自拍| 国产精品高清国产三级囯产AV | 亚洲视屏在线观看| 免费一级无码在线网站| 中文字幕自拍偷拍| 免费视频在线2021入口| 亚洲成人网在线播放| 毛片网站在线播放| 欧美成人免费一区在线播放| 国产系列在线| 亚洲综合精品第一页| 国产精品香蕉在线| 色香蕉影院| 精品福利视频导航| 久久综合色88| 久久成人国产精品免费软件| 中文成人在线| 亚洲精品国产首次亮相| 久久国产精品影院| 亚洲日韩精品伊甸| 欧美A级V片在线观看| 精品国产aⅴ一区二区三区| 狼友av永久网站免费观看| 91啦中文字幕| 91色国产在线| 亚洲熟妇AV日韩熟妇在线| 99热这里只有精品久久免费| 成人免费视频一区| 国产在线观看第二页| 呦系列视频一区二区三区| 亚洲第一视频网| 美女被操黄色视频网站| 日韩视频福利| 国产拍揄自揄精品视频网站| 午夜无码一区二区三区| 综1合AV在线播放| 亚洲欧洲天堂色AV| 国产精品亚洲综合久久小说| 国产女人在线| 成年av福利永久免费观看| 国产精品美女网站| 亚洲AV成人一区二区三区AV| 精品黑人一区二区三区| 国产色偷丝袜婷婷无码麻豆制服| 精品久久香蕉国产线看观看gif| 亚洲精品第1页| 亚洲国产精品日韩av专区| 国产精鲁鲁网在线视频| 久青草国产高清在线视频| 亚洲成年人片| 午夜爽爽视频| 毛片基地美国正在播放亚洲| 全部免费特黄特色大片视频| 亚欧乱色视频网站大全| 国产成年女人特黄特色大片免费| 日韩一级毛一欧美一国产 | 国产精品污污在线观看网站| 国产高颜值露脸在线观看| 第一页亚洲| 久久综合伊人 六十路| 亚洲综合九九| 亚洲av无码成人专区| 午夜性刺激在线观看免费| 欧美性精品不卡在线观看| 日本一区中文字幕最新在线| 中文无码精品A∨在线观看不卡 | 精品视频在线一区| 精品成人一区二区三区电影| 国产国语一级毛片在线视频| 精品国产福利在线| 人妻丰满熟妇αv无码| 国产农村1级毛片|