李嘉欣 王平
摘? 要: 命名實體是存在于現實世界里的事物,它們與現實世界有著相互作用、相互影響的關系,因此命名實體在一些場景里是很重要的。文章從命名實體識別的定義著手,逐步闡述它從始初到如今的發展狀況和識別方法及手段,分析命名實體識別的主要難點,最后通過命名實體識別的三個評價指標來判斷實體的邊界是否正確,以及實體的類型是否標注正確。
關鍵詞: 自然語言處理; 命名實體識別; 條件隨機場; 評價指標; 信息抽取
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)04-18-04
Abstract: Named entities are things that exist in the real world. They interact and influence each other with the real world. Therefore, named entities are very important in some scenarios. Starting with the definition of named entity recognition, this paper gradually elaborates its development from the beginning to the present and its recognition methods and means, and analyzes the main difficulties of named entity recognition, and finally judges whether the entity boundary is correct and whether the entity type is marked correctly through three evaluation indexes of named entity recognition.
Key words: natural language processing; named entity recognition; conditional random fields; evaluation index; information extraction
0 引言
隨著大數據時代的出現和機器學習的發展,自然語言處理NLP變得越來越重要,而自然語言處理中的一個熱門的研究方向--命名實體識別NER也發展了起來。命名實體識別(Namedentityrecognition,NER)是機器翻譯、問答系統、信息抽取和自然語言處理中一項重要的任務[1],它的目的是從給出的一段文本中找出其中所有的實體,并將實體的屬類標注出來。如今,命名實體識別在生物醫學、警情軍事及農業漁業等方面均有廣泛應用。
1 命名實體識別的定義
在1991年LisaF.Rau[2]研究如何從文本中抽取公司的名稱,論文主要是將人工編寫規則的方法與啟發式算法結合以此來實現公司名稱識別的問題。在1993年宋柔等[3]人出了一本基于規則庫的識別方法的書用于識別人名。命名實體識別被正式的提出是在1995年的第六屆MUC會議上,在之后的第七屆MUC會議上給出了命名實體識別需要識別的三大類和七小類的實體。后來在CONLL會議上將其定義為包含名稱的短語[5]。SIGHANBakeoff-2006,Bakeoff-2007等也大多采用了這種分類[1]。除了主流的NER評測會議之外,Petasis、Alfonseca、Sekine、Borrega、Marrero等[1]學者也對命名實體的含義和類型進行熱烈的討論。
2 命名實體識別的研究方法
早期用來命名實體識別的方法主要是基于規則的方法和基于字典的方法,但隨著語料的增加制定的規則也將越來越繁瑣,使用基于規則的方法和基于字典的方法就會過于費時費力。隨著大數據時代的到來,如HMM、SVM和CRF等傳統的機器學習方法也被學者用于命名實體識別的任務上,到后期的深度學習方法,將神經網絡模型引入進行命名實體識別和近期開始將注意力機制和遷移學習應用其中,命名實體識別的發展正受到了各方面的持續關注。
2.1 基于詞典和規則的方法
在正式提出命名實體概念后,早期的研究主要是采用規則和字典的方法[6]。基于規則的方法和基于字典的方法都是要構建大量的規則集或字典,然后按照需求將需要識別的漢字串放入制定的規則集中或與所構建的字典進行匹配,經過多次修正直到匹配成功。但這種方法只能在小數據集上得到很好的準確率,而隨著數據集中數據的增加這種方式變得不再適用。
由于使用基于詞典和規則的方法進行命名實體識別存在限制,它只能在特定的語料上識別能夠得到很高的準確度,這樣隨著需要識別的實體多樣化就需要制定更多的規則和更大的詞典,這樣的工作也會越來越重和越來越復雜。而隨著機器學習的發展,在進行命名實體識別的任務時也開始考慮基于統計機器學習的方法。
2.2 基于統計機器學習的方法
基于統計機器學習的方法有基于隱馬爾可夫模型(HiddenMarkovMode,HMM)的方法、基于最大熵(MaxmiumEntropy)的方法、基于支持向量機(SupportVectorMachine,SVM)的方法和基于條件隨機場(ConditionalRandomFields,CRF)的方法。
2.2.1 統計機器學習方法在NER的第一步
第一個基于支持向量機(SVM)的NE系統是由Yamada等人在2001年提出來的。
2002年HidekiIsozak和HidetoKazawa將支持向量機應用在命名實體識別任務上。同年,McCallum等人將條件隨機場也應用到命名實體識別的任務上。
在2004年莊明,老松楊,吳玲達[7]等人提出了基于統計的命名實體識別的方法。該方法首先將一段文本切分為幾段較短的句子,再使用自增長統計算法從切分后的句子中生成最初的數據集,并利用得到的信息篩選出實體。這個方法不需要建立專業領域的大規模語料庫,而是基于文本自身的用詞特點進行統計分析,在實驗中取得了良好的效果。但它的缺點是對帶有前綴的模式的生成過程難以進行有效分析而且自增長生成算法作為一種統計方法對低頻詞條無法有效識別。
2.2.2 統計機器學習方法在NER的第二步
繼統計機器學習的方法提出之后,人們嘗試使用統計與規則結合的方法用于命名實體識別。如2005年向曉雯等[8]采用了統計與規則結合的方法進行命名實體識別,其首先使用HMM模型對文本做詞性標注,然后使用制定好的規則對已經標注的文本再有一個修改的過程,他們采用的這種方法來做命名實體識別時,其三項評價標準均得到較高的數值。
2006年張劍[9]主要是對英文文本進行命名實體識別的研究,文中分別利用了改進的隱馬爾可夫模型和條件隨機域模型兩種方法進行英文文本的命名實體識別,這個方法既兼顧了每個句子內部的局部特征又兼顧到每個詞在同一文檔中全局特征。同年,Okanohara[10]在生物領域上使用改進的半監督條件隨機場模型進行命名實體識別,主要用于識別蛋白質,DNA和RNA等實體。
2009年高國洋,戚銀城,潘德鋒[11]等對中文地名識別進行了研究,提出了一種結合多知識的識別方法,該方法首先以CRF模型為框架,將專家知識與局部特征以及復合特征相融合進行命名實體識別;并利用構建的規則庫對識別結果進行修正。
2010年鞠久朋等[12]也提出將條件隨機場與規則相結合的方法用于地理空間中的命名實體識別。
2.3 深度學習下的命名實體識別
隨著基于神經網絡模型的深度學習技術在機器學習領域的發展越來越深入[4]。尤其是使用詞向量來表示詞語的方法,一方面解決了由于高緯度向量空間的原因導致的數據稀疏問題,另一方面詞向量本身也比人工選擇的特征包含更多的語義信息,而且該方法可以從異構的文本中獲取統一向量空間下的特征表示,給NER中的命名實體識別問題帶來強大的發展動力。
在2011年Collobert[13]等學者首次提出基于神經網絡的命名實體識別方法,該方法中每個單詞具有固定大小的窗口,但未能考慮長距離單詞之間的有效信息。
2015年Yonghuiwu[14]等學者在文中先后使用了兩次深度神經網絡,首先是對未標注的文本使用一次深度神經網絡進行訓練,然后再使用一次深度神經網絡對訓練后的詞向量進行實體識別,該方法在生物學上F值超過了使用統計的方法進行命名實體識別。同時ZhihengHuang[15]等人使用雙向長短期記憶模型用于命名實體,文中采用雙向長短期記憶模型和條件隨機場即BILSTM-CRF模型進行命名實體識別。
2016年XuezheMal和EdurdHovy[16]提出的BILSTM-CNNs-CRF模型,相比于ZhihengHuang提出的BILSTM-CRF模型來說,文中多一步使用卷積神經網絡訓練詞向量,再將訓練后的向量作為雙向長短期記憶模型的輸入,再使用CRF對輸出建立標簽關系,以此來更有效的實現實體識別。
MouradGridach,HatemHaddad在2017年先前用于現代標準阿拉伯語(MSA)的命名實體識別(NER)模型在很大程度上依賴于功能和地名詞典的使用,這非常耗時。在文中介紹了一種基于雙向選通遞歸單元(GRU)結合條件隨機場(CRF)的新型神經網絡架構,這種新穎的體系結構可以消除了對大多數手工工程功能的需求。
2.4 近期的命名實體識別研究方法
近期的命名實體識別方法除了在循環神經網絡模型進行模型改進提出門控GRU模型外,還嘗試使用CNN、SVM、Lattice、BERT等模型進行語言預訓練,并在模型中引入注意力機制、遷移學習等來提高命名實體識別的準確度。
周曉磊[17]等人提出了使用SVM-BILSTM-CRF的神經網絡模型對財產糾紛案件進行命名實體識別。文中提出構建一個關于財產糾紛裁判文書的語料庫,首先使用支持向量機將文本中包含實體的句子篩選出來,然后輸入給BILSTM-CRF模型進行訓練,最后使用訓練好的模型對財產糾紛裁判文書進行命名實體識別王博冉[18]等人方法利用LatticeLSTM模型來提取句子中的詞匯詞,從而將文本中詞信息輸入到基于字符的循環神經網絡-條件隨機場模型中。與基于字符和基于詞的命名實體識別方法相比,本文提出模型的優勢是其利用顯性詞匯信息而不是字符序列進行標注,且得到的分詞誤差率也得到了大幅度下降。
王子牛[19]等人提出了基于BERT的神經網絡方法進行命名實體識別。BERT預訓練語言模型具有雙向Transformer結構不僅可以增強字的語義表示,還可以根據其上下文生成語義向量。文中提出的方法結合BERT和BILSTM-CRF模型對中文實體進行識別,以無需添加任何特征的方式提升了實體識別的準確率、召回率及F1值,驗證了該方法的有效性。
武惠[20]等人提出了一種基于遷移學習的命名實體識別模型即TrBILSTM-CRF模型,該模型通過遷移學習算法將源域的信息遷移到所需的目標域中以此可以從其他領域獲取到目前工作任務中所需要的信息。實驗結果表明,TrBILSTM-CRF模型在小規模數據集上進行中文機構名命名實體識別時,其準確率、召回率和F值相比于其他方法,取得了較好的效果。
3 命名實體識別的研究難點
由于中文的多樣性且并沒有可以將其劃分開的明顯標注,這導致我們在對中文進行命名實體識時會更加的困難。實體能否被準確的從文本中識別出來主要在這兩個方面:是否可以準確的劃分出實體的邊界;是否可以準確的判斷出實體屬類。
中文命名實體識別的難點有以下幾個方面。
⑴ 命名實體的定義:在對中文進行實體識別時,可以發現中文實體的數量龐大且屬類也很模糊,這就導致我們在對中文命名實體進行定義時會有很大的分歧。首先是在對其進行命名實體識別時需要大量的標注數據而這恰恰也是我們缺少的,而且在對數據進行標注時還需要有一個命名實體的標準,這也是目前的難點之一。
⑵ 歧義的消解:傳統的詞典規則方法可以很容易召回文本序列中在詞表匹配到的詞,但它的局限在無法解決歧義問題。一種典型的歧義是多種可能劃分的問題,比如下面這個例子。輸入序列:看到良方正在澆花。可以分為:看到/良方/正在/澆花;也能分為:看到/良方正/在/澆花。
⑶ 邊界的界定:雖然深度學習對歧義的消解有顯著優勢,但它通常會遇到的問題是對新詞的邊界把握模糊。而詞典中包含了大量詞的邊界信息。因此如何把詞典信息融入到深度學習模型中是近幾年研究的主流。現如今的方法是先對文本進行中文分詞,再對得到的詞進行標注。
⑷ 缺少標注數據:我們在進行命名實體識別的過程中不可缺少的就是已經標注好的數據,這也是在進行機器訓練中不能缺少的一環。但這些標注好的數據都是需要人工去標注的,這樣就需要更多的人力投入到這個過程中,而這個已有的標注數據并不完全適用于各個領域,這樣,在我們對特殊領域進行命名實體識別時就必須先人工構建這個領域的標注數據庫,一旦這個標注數據庫不夠準確或者數據不夠多,就會使得計算機的學習能力大幅度下降且難以訓練出好的結果,這也是命名實體識別的難點之一。
4 展望
命名實體識別作為機器翻譯、問答系統、信息抽取和自然語言處理的研究熱點之一。通過閱讀,近年來學者們在神經網絡模型的基礎上通過引入注意力機制和遷移學習等方法以此取得了大量新的研究成果,而命名實體識別未來的發展也將圍繞這些方面。如今我們通過構建法律、生物、醫學、軍事等領域的數據庫并在該數據庫上進行實驗,都取得了不錯的結果。
但這里不可避免會遇到未登錄詞的問題,未登錄詞指的是那些沒有被收錄在詞典中但必須切分出來的詞。而如何識別并處理未登錄詞將是命名實體識別未來的一個重要研究方向。因此,后面的工作我們不僅要將已有的命名實體識別方法應用在各個領域上還要通過不斷的改進模型來提高命名實體識別的準確度,并在命名實體識別的基礎上對未登錄詞展開研究。
參考文獻(References):
[1] 劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018.37(3):329-340
[2] RauLF.Extracting Company Names from Text[C].In:Proceeding softhe 7th IEEE Conference on Artificial Intelligence Applications.1991:29-32
[3] 宋柔.基于語料庫和規則庫的人名識別方法[M].計算語言學研究與應用,北京語言學院出版社,1993.
[4] 陳曙東,歐陽小葉.命名實體識別技術綜述[J].無線電通信技術,2020.46(3):251-260
[5] Grishman R,Sundheim B.Message Understanding?Conference-6:ABriefHistory[C].In:Proceeding softhe 16th International Conferenceon Computational Linguistics,1996.
[6] 隋臣.基于深度學習的中文命名實體識別研究[D].浙江大學碩士學位論文,2017.
[7] 莊明,老松楊,吳玲達.一種統計和詞性相結合的命名實體發現方法[J].計算機應用,2004.1:22-24
[8] 向曉雯,史曉東,曾華琳.一個統計與規則相結合的中文命名實體識別系統[J].計算機應用,2005.10:2404-2406
[9] 張劍.基于CRF的英文命名實體識別研究[D].哈爾濱工業大學碩士學位論文,2006.
[10] Daisuke Okanohara,Yusuke Misyao.Yoshimasa Tsuruka.Improvingthe Scalability of Semi-Markov Conditional Random Fiekds for Named Entity Recognition[C].Proceeding softhe21 "International Conferenceon Computational Linguisticsand 44th Annual Meetingofthe ACL,2006:465-472
[11] 高國洋,戚銀城,潘德鋒.基于條件隨機場與規則相結合的中文地名識別[J].電腦開發與應用,2009.22(8):26-28
[12] 鞠久朋,張偉偉,寧建軍,周國棟.CRF與規則相結合的地理空間命名實體識別[J].計算機工程,2011.37(7):210-212,215
[13] COLLOBERTR,WESTONJ,BOTTOUL,etal.Natural Language Processing(almost) from Scratch[J].Journal of Machine Learning Research,2011.12(Aug):2493
[14] YonghuiW,MinJiang,JianboLei,HuaXu.Named Entity Recognitionin Chinese Clinical Text Using Deep Neural Network.Studiesin Health Technology and Informatics,2015:624-628
[15] Zhiheng Huang,Wei Xu and Kai Yu.Bidirectional LSTM-CRF Models for Sequence Tagging[J].arXiv,2015.1508.01991
[16] MAX,HOVYE.End-to-end Sequence Labeling ViaBi-directional LSTM-CNNs-CRF[J].arXivpreprintarXiv:1603.01354,2016.
[17] 周曉磊,趙薛蛟,劉堂亮,宗子瀟,王其樂,里劍橋.基于SVM-BILSTM-CRF模型的財產糾紛命名實體識別方法[J].計算機系統應用,2019.28(1):245-250
[18] 王博冉,林夏,朱曉東,朱萬琳,馬學華.LatticeLSTM神經網絡法中文醫學文本命名實體識別模型研究[J].中國衛生信息管理雜志,2019.16(1):84-88
[19] 王子牛,姜猛,高建瓴,陳婭先.基于BERT的中文命名實體識別方法[J].計算機科學,2019.46(S2):138-142
[20] 武惠,呂立,于碧輝.基于遷移學習和BILSTM-CRF的中文命名實體識別[J].小型微型計算機系統,2019.40(6):1142-1147