李冬梅,羅斯斯,張小平,許 福
1.北京林業大學 信息學院,北京 100083
2.國家林業和草原局林業智能信息處理工程技術研究中心,北京 100083
3.中國中醫科學院 中醫藥信息研究所,北京 100700
命名實體識別(named entity recognition,NER)是指識別出文本中具有特定意義的命名實體并將其分類為預先定義的實體類型,如人名、地名、機構名、時間、貨幣等。在大數據時代,如何精準并高效地從海量無結構或半結構數據中獲取到關鍵信息,這是自然語言處理(natural language processing,NLP)任務的重要基礎。命名實體通常包含豐富的語義,與數據中的關鍵信息有著密切的聯系,NER 任務可以用于解決互聯網文本數據的爆炸式信息過載問題,能有效獲取到關鍵信息,并廣泛應用于關系抽取、機器翻譯以及知識圖譜構建等領域。
NER 歷經了MUC(message understanding conference)、MET(multilingual entity task)、CoNLL(conference on computational natural language learning)、ACE(automatic content extraction)等,眾多研究者不斷深入研究,其理論和方法愈加完善。研究方法從最初需要人工設計規則,到后來借助傳統機器學習中的模型方法,目前已經發展到利用各種深度學習。研究領域從一般領域到特定領域,研究語言從單一語言發展到多種語言,各種NER模型的性能隨著發展也在不斷提升。
本文調研了NER 發展史上有代表性的綜述論文,孫鎮等綜述了NER 的方法,包括對基于規則和詞典的方法以及基于統計的方法的介紹。Li 等詳細總結和分析了NER 的深度學習方法。李猛等從遷移學習的角度,總結了NER 的遷移方法。趙山等調研了在不同神經網絡架構下最具代表性的晶格結構的中文NER 模型。以上綜述都是對NER 的傳統方法或者深度學習的部分方法的闡述,沒有詳細地包含基于規則和詞典的NER 方法、基于統計機器學習的NER 方法和基于深度學習的NER 方法這三者的介紹,且并未針對最新的基于提示學習的方法進行總結。本文首先從基于規則和詞典、基于統計機器學習和基于深度學習的NER 方法這三方面對目前NER 研究工作進行系統性梳理,歸納總結了每一種NER 方法的關鍵思路、優缺點和具有代表性的模型。同時對基于提示學習的NER 方法進行了比較分析。其次,擴充了中文NER 的介紹,給出了中文NER 的特殊性,總結歸納中文NER 特有的數據集,對各個階段的主流方法均單獨進行了綜述。
最初在1991 年第7 屆IEEE 人工智能應用會議上,Rau發表了一篇“從文本中抽取公司名稱”的論文,提出了一種從文本中提取公司名的方法,在文中需要識別的命名實體僅為公司名稱。在1996 年MUC-6 會議上,命名實體被定義為“實體的唯一標識符”,需要識別的命名實體包含:人名、地名、機構名、時間、日期、貨幣和百分比。
NER 是對文本中的命名實體進行定位和分類的過程。對給定文本的標注序列=<,,…, w>,經過NER 過程后得到三元組列表,如<,,>,每一個三元組都包含一個實體的信息。在三元組<,,>中,∈[1,],∈[1,],分別指代實體的開始索引和結束索引,是預定義類別集合中的實體類型。圖1 給出了一個標注序列的樣例,在經過NER 系統后得到了3 個三元組,根據三元組判斷得到:Zhang San 是Person 類實體,Beijing 和China 是Location 類實體。

圖1 NER 任務的實例Fig.1 Example of NER task
目前,針對NER 的研究仍存在一些通用難點。
(1)未登錄詞。隨著時間的推移和各領域發展,會產生大量新實體,這些新產生的實體并沒有一個統一的命名規則,傳統的方法不再適用,此時要求NER 模型具有較強的上下文推理能力。
(2)嵌套實體。嵌套實體是指該實體中存在其他命名實體。這類實體不僅需要識別外層實體,還要識別內層實體,對模型來說具有很大的挑戰,這也是目前NER 的一個研究熱點。
(3)文本歧義。文本在某處為命名實體,而在另一處為普通名詞,或者為不同的實體類型,即文本類型是不明確的。因此,需要在NER 之前進行額外的命名實體消歧任務。
(4)非正式文本。隨著社交軟件的流行,如微博等社交媒體中含有大量的語料,但這些語料有著簡短、口語化、包含諧音等特點,這使得NER 任務更加難于處理,可以使用注意力機制和遷移學習結合深度學習完成對非正式文本的識別。
面向中文的NER 起步較晚,而且中文與英文等其他語言相差較大,由于其自身的語言特性,中文領域的NER 主要存在以下3 個特殊性。
(1)中文詞語的邊界不明確。中文的單元詞匯邊界模糊,缺少英文文本中空格這樣明確的分隔符,也沒有明顯的詞形變換特征,因此容易造成許多邊界歧義,從而加大了NER 的難度。
(2)中文NER 需要同中文分詞和語法分析相結合。只有準確的中文分詞和語法分析才能正確劃分出命名實體,才能提升NER 的性能,這也額外增加了中文NER 的難度。
(3)中文存在多義性、句式復雜表達靈活、多省略等特點。在不同領域的同一詞語所表示的含義并不相同,且同一語義也可能存在多種表達。此外,互聯網的迅速發展,尤其是網絡文本中的文字描述更加個性化和隨意化,這都使得實體的識別更加困難。
常用于NER 的英文數據集有:MUC-6、MUC-7、CoNLL2002-2003、ACE2004-2005、GENIA、Onto-Notes5.0、BC5CDR、NCBI Disease、Few-NERD 等。中文數據集有:1998年人民日報數據集、MSRA、Onto-Notes5.0、BosonNLP NER、Weibo NER、Chinese Resume、CCKS2017-2020、CLUENER2020 等。以上數據集總結如表1 所示。

表1 NER 數據集總結Table 1 Summary of NER datasets
在NER 領域,通常使用準確率(precision)、召回率(recall)和F1 值作為評估指標。其中,準確率是對于給定的測試數據集,分類器正確識別的實體樣本數與提取出來的全部實體樣本數之比;召回率則是對于給定的測試數據集,分類器正確識別測試集中的全部實體的百分比;而F1 值則是準確率和召回率的調和平均值,可以對系統的性能進行綜合性評價。準確率、召回率和F1 值的計算公式如下:

其中,表示將正例預測為正;表示將負例預測為正;表示將正例預測為負。
根據NER 的發展歷程,主流的NER 方法可以分為3 類:基于規則和詞典的方法、基于統計機器學習的方法和基于深度學習的方法。這3 類方法根據處理特點又細分為若干種不同的子方法。圖2 給出了NER 方法的詳細分類,后面的內容圍繞該分類方法分別進行詳細闡述。

圖2 NER 方法的分類Fig.2 Classification of NER methods
早期的NER 方法主要運用由語言學專家根據語言知識特性手工構造的規則模板,通過匹配的方式實現命名實體的識別。針對不同的數據集通常需要構造特定的規則,一般根據特定統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞、中心詞等特征來構造。Krupka提出了一個用于英文NER 的SRA系統,系統包括NameTag 和HASTEN 兩個子系統,HASTEN 根據文本的語義信息來構造生成人名和地名規則模板,進一步來識別。Shaalan 等利用文本的上下文特征構造規則,并同時增加地名詞典來識別專業名詞。
對于中文NER,最初的研究聚焦于專業名詞的研究,張小衡等根據機構名稱的結構規律和形態標記等特點進一步總結規則,從600 多萬的三地語料庫
中識別高校名稱實體,正確率達到了97.3%。王寧等從專業名詞識別的角度,充分考慮金融領域的特征,利用規則的方法專門針對公司名的識別問題進行了研究。該方法分析研究了金融新聞文本,總結了公司名的結構特征以及上下文信息,歸納形成知識庫,并采取兩次掃描的策略進行識別。在共1 336 篇真實金融新聞的數據集上進行實驗,其中在封閉測試環境中的準確率和召回率分別為97.13%和89.13%,在開放測試環境中分別為62.18%和62.11%。
表2 對上述提及到的方法進行了總結。基于規則和詞典的方法可以利用相關語言特性或特定領域知識來制定規則,在特定的語料庫中該類方法具有較好的識別效果,但是該方法存在規則制定成本高、規則無法移植到其他語料等局限性。因此在其他大型語料中單純依靠這種方法較難獲得有效的識別結果。

表2 基于規則和詞典的主流NER 方法總結Table 2 Summary of mainstream NER methods based on rules and dictionaries
隨著機器學習在NLP 領域的興起,研究者們借助機器學習的方法研究NER。這種方法可以在一定程度上克服基于規則和詞典的NER 方法的局限性,該類方法可以歸納為三種:有監督學習、半監督學習和無監督學習。
有監督學習的NER 方法是將NER 任務轉換成分類問題,通過機器學習方法將已標記的語料構造為特征向量,以此建立分類模型來識別實體。基于特征的有監督學習的NER 方法一般流程包括:(1)獲取實驗原始數據。(2)對原始數據預處理。(3)根據數據的文本信息,選擇合適的特征。(4)給不同的特征設置不同的權重并選擇合適的分類器訓練特征向量,得到NER 模型。(5)利用NER 模型進行實體識別。(6)對結果進行評估。
采用有監督機器學習的分類模型包括:HMM(hidden Markov models)、MEM(maximum entropy models)、SVM(support vector machines)和CRF(conditional random fields)等模型。
(1)HMM
基于HMM 的NER 方法利用維特比算法將可能的目標序列分配給每個單詞序列,能夠捕捉現象的局部性,進而提高了實體識別性能。Bikel 等基于大小寫、數字符號、句子首詞等特征,利用HMM 來計算某一單詞為某一實體類型的概率。但該模型仍然無法捕捉到遠距離信息,還存在一些無法識別的實體。Zhou 等提出一種基于HMM 的組塊標記器的NER 方法,在Bikel 的基礎上擴充了內部語義特征、內部地名詞典特征以及外部上下文特征,對HMM 的傳統公式做了改進,以便能融合更多的上下文信息來確定當前預測類型。
對于中文NER,張華平等借助HMM 提出了基于角色標注的中國人名自動識別方法。該方法采取HMM 對分詞結果進行角色標注,通過對最佳角色序列的最大匹配來識別和分類命名實體,該方法解決了不具備明顯特征的姓名的丟失、內部成詞以及上下文成詞的人名難召回的問題。俞鴻魁等提出一種基于層疊HMM 的中文NER 模型,該模型由三級HMM 構成。在分詞后低層的HMM 識別普通無嵌套的人名、地名和機構名等,高層的HMM 識別嵌套的人名、地名和機構名。
(2)MEM
基于MEM 的NER 方法的主要思想是在已知部分知識的前提下選擇熵最大的概率分布,從而來確定某一實體的類型,MEM 能夠較好地融合多種特征信息進行分類。Borthwick 等最早將MEM 用于英文NER 任務,綜合考慮了首字母大小寫、句子的結尾信息以及文本是否為標題等多種特征信息。Bender等在Borthwick 的基礎上進行改進,模型結構依次為輸入序列、預處理、全局搜索、后處理和序列標注。
對于中文NER,周雅倩等最早將MEM 應用在中文名詞短語的識別上,將短語識別問題轉化為標注問題。利用預定義的特征模板從語料中抽取候選特征,然后根據候選特征集識別名詞短語。但該模型未能將更多的語義、詞語共現等信息融合在模型中。因此,張玥杰等提出一種融合多特征的MEM中文NER 模型,該模型能集成局部與全局多種特征,將規則和機器學習的方法相結合,分別構建了局部特征模板和全局特征模板,同時引入啟發式知識解決效率和空間問題。
(3)SVM
SVM 是定義為特征空間上的間隔最大的線性分類器。首先通過高維特征空間的轉化使分類問題轉換成線性可分問題,然后基于結構風險最小理論構建最優分割超平面,使得分類器得到全局最優化。該模型在NER 任務上被廣泛使用,Isozaki 等提出了一種基于SVM 的特征選擇方法以及有效的訓練方法,能增加系統訓練的速度。為了驗證SVM 在不同領域的表現效果,Takeuchi等在MUC-6 評測語料與分子生物學領域語料使用SVM 進行實體識別,發現SVM 在生物領域的NER 具有良好的表現。
對于中文NER,李麗雙等提出一種基于SVM的中文地名的自動識別的方法,結合地名的特點信息作為向量的特征。此外,面對訓練數據不足的難點,陳霄等針對中文組織機構名的識別任務,提出了一種基于SVM 的分布遞增式學習的方法,利用主動學習的策略對訓練樣本進行選擇,逐步增加分類器訓練樣本的規模,進一步提高分類器的識別精度。
(4)CRF
CRF 模型統計了全局概率,不僅在局部進行歸一化,且考慮了數據在全局的分布情況。CRF 具有表達長距離依賴性和交疊性的優勢,能有效融入上下文信息以及領域知識,可以解決標注偏置問題。即使CRF 具有時間復雜度高導致的訓練難度大等問題,但仍十分廣泛地被用于NER。McCallum 等提出了一種基于CRF 的特征歸納的NER 方法,與傳統方法相比,自動歸納特征既提高了準確性,又顯著減少了特征數量。Krishnan 等提出了一種利用非局部依賴且基于兩個耦合的CRF 分類器的方法。第一層CRF 利用局部信息提取特征,第二層CRF 將局部信息和從第一層CRF 的輸出中提取的特征結合,在整個文檔中使用特征去捕捉非局部的依賴信息。
對于中文NER,馮元勇等在CRF 框架中引入了小規模的常用尾字特征來降低特征集的規模,在提高模型訓練速度同時保證識別準確率。燕楊等針對中文電子病歷的NER 問題,提出一種層疊CRF,該模型在第二層中使用包含實體和詞性等特征的特征集,對疾病名稱和臨床癥狀兩類命名實體進行識別。與無自定義組合特征的層疊CRF 相比,該模型的F1 值提高了約3 個百分點,和單層CRF 相比,F1 值提高了約7 個百分點。
綜上所述,以上幾種有監督機器學習NER 方法各有所長,也各有所短。研究者充分利用各種算法的優勢,進一步提升實體識別的性能。上述幾種方法的相關比較如表3 所示。

表3 基于有監督機器學習NER 比較Table 3 Comparison of NER methods for supervised machine learning
有監督學習的方法需要專家手工標注大量訓練數據,為了解決這一問題,學者開始研究利用少量的標注語料進行NER 任務,因此,半監督的NER 方法應運而生。該方法通過使用少量標記和大量無標記的語料庫進行NER 的研究。半監督學習NER 的一般流程:(1)人工構造初始種子集合。(2)根據命名實體上下文信息生成相關聯的模式。(3)將生成的模式和測試數據匹配,標識出新的命名實體,生成新的模式,便于促進循環。(4)將新識別的命名實體添加到實體集合中。流程圖如圖3 所示。

圖3 半監督學習的NER 一般流程Fig.3 General process of NER based on semi-supervised learning
半監督學習的NER 方法主要采用自舉的方法,該方法利用少量的標注數據進行訓練,從而取得良好的實驗結果。如Teixeira等提出一種基于CRF 的自舉訓練方法,首先基于詞典對50 000 條新聞標注人名,并使用標注好人名的數據作為訓練集建立基于CRF 的分類模型。然后使用CRF 分類模型對初始種子語料庫額外標注,并將其用于訓練新的分類模型。該模型經過7 次自舉方法的迭代后,在HAREM數據集上進行實驗表現良好。此外,Thenmalar 等不僅在英文語料中使用半監督的自舉方法,還增加了泰米爾文語料進一步驗證該方法的可行性。該方法利用少量訓練數據中命名實體、單詞和上下文特征來定義模式,分別對英文和泰米爾文進行NER,兩種語言的平均F1 值為75%。
對于中文NER,針對結構復雜的產品名的識別任務,黃詩琳等提出一種半監督學習方法,提取不同產品實體的結構特征和相互關系,構建一種三層半監督學習框架。首層結合規則和詞典選取數據集中的候選數據;第二層利用相似度算法,把與種子集上下文相似的候選詞加入正例中,這一步驟能解決數據稀疏問題;第三層是一個CRF 的分類器用于識別相似度較低的實體。但因產品名的表達方式多樣化,該方法與一般的NER 方法相比,性能還存在一定的差距。在醫學NER 任務上,Long 等提出一個基于自舉的NER 方法,在自舉訓練過程中將命名實體特征集表示為類特征向量,候選命名實體的上下文信息表示為示例特征向量,這兩種特征向量的相似程度決定了候選實體是否為命名實體。此外,針對少數民族語言的NER 任務,王路路等以CRF 為基本框架,通過引入詞法特征、詞典特征以及基于詞向量的無監督學習特征,對比不同特征對識別結果的影響,進而得到最優模型。
為了解決跨域和跨語言標注文本的不足,學者們提出了NER 的無監督學習技術。無監督學習是不需要使用標注數據的算法,該方法使用未標注的數據來做出決策。無監督學習旨在考慮數據的結構和分布特征,從而發現更多關于數據的學習。
早期,Etzioni 等提出了一個名為KnowwitAll的無監督NER 系統,該系統以無監督和可擴展的方式自動地從網頁中提取大量命名實體。Nadeau 等在Etzioni 等的基礎上進一步研究,該系統可以自動構建地名詞典以及消解命名實體歧義,將構建的地名詞典與常用的地名詞典相結合。Han 等提出一個基于聚類主動學習的生物醫學NER 系統,該聚類方法通過使用底層分類器在文檔中查找候選命名實體來進行聚類,因而更能反映命名實體的分布。
綜上所述,無監督學習的NER 方法既能解決有監督學習中需要大量帶標注的訓練數據的問題,也不需要少量標注的種子數據,但是這種方法需要提前確定聚類閾值并且性能較低,仍需進一步改善聚類方法。
對基于有監督、半監督、無監督的三種方法進行了比較,如表4 所示,并對基于統計機器學習的各種主流NER 模型進行了總結,如表5 所示。

表4 基于有監督、半監督、無監督的NER 比較Table 4 Comparison of NER methods for supervised,semi-supervised and unsupervised

表5 基于統計機器學習的主流NER 模型總結Table 5 Summary of mainstream NER models for statistical machine learning
基于深度學習的方法對處理NER 等序列標注任務的處理流程是類似的。首先,將序列通過Word2Vec 等編碼方式轉換成分布式表示,隨后將句子的特征表示輸入到編碼器中,利用神經網絡自動提取特征,最后使用CRF 等解碼器來預測序列中詞對應的標簽。早期,研究者大多對基于有監督和遠程監督兩種深度學習的NER 方法進行深入研究。預訓練模型BERT(bidirectional encoder representation from transformers)自2018 年提出以來,也備受研究者關注。最近,基于提示學習的方法也在NER 任務上得到了初步嘗試,并取得了成功。
基于深度學習的NER 方法一般流程如圖4 所示,共分為4 步:(1)Sequence,預處理后的輸入序列。(2)Word embedding,將輸入序列轉換成固定長度的向量表示。(3)Context encoder,將詞嵌入進行語義編碼。(4)Tag decoder,進一步進行標簽解碼。

圖4 基于深度學習的NER 一般流程Fig.4 General process of NER based on deep learning
基于有監督深度學習的方法目前主要分為CNN(convolutional neural network)、RNN(recurrent neural network)和GNN(graph neural network)等。
(1)CNN
早期,CNN 在計算機視覺領域取得突破性成果,后來也逐漸在NLP 領域被廣泛使用。2011 年,Collobert 等提出了一種基于CNN 的NLP 模型,能處理包含NER 等多種任務。該模型不需要利用人工輸入特征,而是基于大量未標記的訓練數據來學習內部表示,在輸入時減少特征的預處理,使用以端到端方式訓練的多層神經網絡體系結構。在Collobert 等的基礎上,Yao 等將CNN 應用到生物醫學NER 上,模型具有多層結構,每層根據底層生成的特征提取特征。該模型具有良好準確率,但并未充分利用CPU并行性,其計算效率不高,因此,Strubell 等提出了一種迭代擴張卷積神經網絡(ID-CNNs),與傳統的CNN 相比,該模型具有更好的上下文和結構化預測能力并能大幅縮短訓練時間。
對于中文NER,2015 年Wu 等利用卷積層生成由多個全局隱藏節點表示的全局特征,然后利用局部特征和全局特征以識別臨床文本中的命名實體。Wu 等提出了一種CNN-LSTM-CRF,以獲取短距離和長距離內容依賴,同時提出將NER 和分詞任務聯合學習以挖掘這兩個任務之間的內在聯系,增強中文NER 模型識別實體邊界的能力,但該模型無法捕捉全局的上下文信息。因此,Kong 等提出一種融合多層次CNN 和注意力機制的中文臨床NER 方法。該方法既能捕捉短距離和長距離的上下文信息,且注意力機制還能獲取全局上下文信息,進一步解決了LSTM 在句子較長時無法捕捉全局信息的問題。但該方法目前對稀有命名實體仍然存在難以識別的問題,因此,Gui 等將詞典信息融合到CNN 結構中,解決稀有實體識別的問題。
綜上所述,CNN 最大的特點是可以并行化,每個時間狀態不受上一時間狀態的影響,但其無法很好地提取序列信息。隨著RNN 的深入研究,CNN 和RNN 常常混合使用。
(2)RNN
RNN 是基于深度學習的NER 方法中的主流模型,RNN 將語言視為序列數據,能很好地處理序列數據,解決了CNN 無法記憶上下文信息的問題。Huang 等在Collobert 等基礎上,提出了多種基于LSTM 的序列標注模型,包括LSTM、Bi-LSTM 和Bi-LSTM-CRF 等。首次將Bi-LSTM-CRF 模型用于NER,該模型不僅可以同時利用上下文的信息,而且可以使用句子作為輸入。Gregoric 等在同一輸入端采用多個獨立的Bi-LSTM 單元,通過使用模型間正則化來促進LSTM 單元之間的多樣性,能夠減少模型的參數。Li 等提出一個模塊化交互網絡模型用于NER,能同時利用段級信息和詞級依賴。Xu 等提出一種有監督多頭自注意網絡的NER 模型,利用自我注意力機制獲取句子中詞與詞之間的關系,并引入一個多任務學習框架來捕捉實體邊界檢測和實體分類之間的依賴關系。
對于中文NER,Zhang 等首次提出了基于混合字符和詞典的Lattice-LSTM 模型,通過門控單元,將詞匯信息嵌入到每個字符中,從而利用上下文中有用的詞匯提升NER 效果。但是由于詞匯的長度和數量無法確定,Lattice-LSTM 存在無法批量訓練而導致模型訓練較慢的問題。為了解決該問題,Liu 等提出了基于單詞的LSTM(WC-LSTM)。該方法在輸入的向量中融入最優詞匯的信息,在正向LSTM 中融入基于該字開頭的詞匯信息,在反向LSTM 中融入基于該字結尾的詞匯信息。Ma 等也在Lattice-LSTM 模型基礎上做了改進,不修改LSTM 的內部結構,只在輸入層進行詞與所有匹配到的詞匯信息的融合,該方法還可以應用到不同的序列模型框架中,如CNN和Transformer。
(3)GNN
近年來,GCN(graph convolutional network)和GGNN(gated graph neural network)在NER 任務中得到廣泛的關注。Cetoli 等率先在NER 任務中使用圖GCN 來解決實體識別問題,在傳統的Bi-LSTMCRF 模型的Bi-LSTM 層和CRF 層中間額外添加一層GCN 層。Bi-GCN 層利用句子的句法依存關系構圖,通過GCN 將節點信息傳遞給最近的節點,通過將層圖堆疊在一起,該網絡結構可以傳播最多相距跳的節點特征。
在中文領域,為了解決在NER 過程中使用詞典的最長匹配和最短匹配帶來的問題,Ding 等提出了一種基于GNN 并結合地名詞典的NER 方法,其目的使模型自動學習詞典的特征。該模型首先根據地名詞典構圖,然后依次通過GGNN 層、LSTM 層和CRF層進行實體的識別。Gui等通過引入一個具有全局語義的基于詞典的GNN 模型來獲取全局信息。此外,Tang 等進一步研究了如何將詞匯信息整合到基于字符的方法中,提出一種基于單詞-字符圖卷積網絡(WC-GCN),通過使用交叉GCN 塊同時處理兩個有向無環圖,并引入全局GCN 塊來學習全局上下文的節點表示。
基于遠程監督深度學習的方法主要利用外部詞典或知識庫對無標注數據進行標注,可以解決有監督學習需要大量已標注數據這一問題,其常采用的方式包括詞典匹配和詞典匹配與神經網絡相融合兩種。Peng 等僅借助未標記數據和命名實體詞典,提出了一種新的PU(positive-unlabeled)遠程監督NER模型,該模型不需要利用詞典標記句子中的每個實體,能大幅度降低對詞典質量的要求。此外,Yang等提出了一個基于部分標注學習和強化學習的遠程監督的NER 模型,不僅可以通過遠程監督自動獲取到大規模的訓練數據,而且通過使用部分標注學習和強化標注學習,解決了遠程監督方法產生的不完全標注和噪音標注的問題。
對于中文NER,Zhang 等利用遠程監督的方法識別時間,提出了一種利用中文知識圖譜和百度百科生成的數據集進行模型訓練的方法,該方法不需要像手動標注數據,且對不同類型的文本的適應性良好。此外,邊俐菁基于深度學習和遠程監督的方法針對產品進行實體識別,利用爬蟲整理得到的詞典高質量地標注數據,按照詞典完全匹配、完全匹配+規則、核心詞匯+詞性擴展+規則這三種方式進行實體識別,該方法能大大減少手工標注語料庫的工作量。
遠程監督的方法相對于有監督的方法極大地減少了人工成本,但遠程監督的方法會產生不完全標注和噪音標注,導致自動標注獲得的數據集準確率較低,會影響整個NER 模型的性能。
基于Transformer 方法典型代表是BERT 類的預訓練模型。Souza 等在NER 任務上提出一種BERT-CRF 模型,將BERT 的傳輸能力與CRF 的結構化預測相結合。Naseem 等提出一種針對生物醫學NER 的預訓練語言模型BioALBERT,該模型在ALBERT 中使用自我監督損失,能較好學習上下文相關的信息。Yang 等提出了一種分層的Transformer模型,應用于嵌套的NER。實體表征學習結合了以自下而上和自上而下的方式聚集的相鄰序列的上下文信息。
對于中文NER,李妮等提出了基于BERTIDCNN-CRF 的中文NER 模型,該模型通過BERT 預訓練模型得到字的上下文表示,再將字向量序列輸入IDCNN-CRF 模型中進行訓練。Li等為解決大規模標記的臨床數據匱乏問題,在未標記的中國臨床電子病歷文本上利用BERT 模型進行預訓練,從而利用未標記的領域特定知識,同時將詞典特征整合到模型中,利用漢字字根特征進一步提高模型的性能。Wu 等在Li 等的基礎上,提出了一個基于RoBERTa 和字根特征的模型,使用RoBERTa 學習醫學特征,同時利用Bi-LSTM 提取偏旁部首特征和RoBERTa 學習到醫學特征向量做拼接,解碼層使用CRF 進行標簽解碼。Yao 等針對制造文本進行細粒度實體識別,提出一種基于ALBERT-AttBiLSTMCRF 和遷移學習的模型,使用更輕量級的預訓練模型ALBERT 對原始數據進行詞嵌入,Bi-LSTM 提取詞嵌入的特征并獲取上下文的信息,解碼層使用CRF 進行標簽解碼。
隨著NLP 技術的發展,近兩年有研究者在低資源任務中使用提示學習的方法來獲得良好的任務效果。提示學習通常不需要改變預訓練語言模型的結構和參數,而是通過向輸入中添加一些提示信息,并修改下游任務來適應預訓練模型,進而獲得更好的任務效果的一種方法。Brown 等首次在文本分類任務中使用提示學習的方法進行了小樣本學習任務。在低資源的NER 任務中,沒有大規模的訓練語料,大量依賴訓練數據的模型都無法取得較好的效果。因此在低資源的NER 任務中使用提示學習是現在的一種新思路。Cui 等提出一種基于模板的NER 方法,再利用標注實體填充的預定義模板提示對預訓練模型BART(bidirectional and auto-regressive Transformers)微調,該方法解決了小樣本NER 的問題。Chen 等受提示學習的啟發,提出一種輕量級的低資源提示引導型注意生成框架,將連續的提示輸入到自我注意層中,來重新調節注意力并調整預先訓練的權重。基于模板提示的方法需要枚舉所有可能的候選實體,存在較高的計算復雜度問題,因此,Ma 等提出一種在小樣本場景下無模板的提示微調方法,放棄模板構建的枚舉思路,采用預訓練任務中的掩碼預測任務的方式,將NER 任務轉化成將實體位置的詞預測為標簽詞的任務。該方法能減少預訓練和微調之間的差距并且解碼速度比基線方法快1 930.12 倍。此外,Liu 等提出一種帶有問答的提示學習NER 方法,將NER 問題轉換成問答任務。該方法在低資源的場景下具有更高的性能和更強的魯棒性。總的來說,提示學習在低資源場景的NER任務上得到了初步嘗試,未來會有更多復雜的方法來增強提示,并應用于低資源場景下的許多任務中。
綜上所述,本文針對基于有監督深度學習、基于遠程監督深度學習、基于Transformer 和基于提示學習的四種方法進行了比較分析,具體如表6 所示。此外,本文還總結了一些經典的基于深度學習的NER模型,具體如表7 所示。

表6 基于深度學習的NER 方法比較Table 6 Comparison of NER methods for deep learning

表7 基于深度學習的主流NER 模型總結Table 7 Summary of mainstream NER models for deep learning
目前,NER 技術日漸成熟,但依然需要研究人員投入大量精力進行不斷探索,通過對現有NER 研究工作進行總結,在以后的研究中可以從下面幾個方面展開相關的研究。
(1)多任務聯合學習。傳統的pipeline 模型有一定的局限性,例如,NER 任務中的實體標注錯誤,將會進一步導致后續任務的標注錯誤;同時,多個任務之間會有一定信息共享,但是pipeline 模型是無法利用這些潛在的信息的。多任務的聯合學習,能解決pipeline 模型局限,使得多任務學習之間相互影響,提高學習的性能,利用這種方法來進一步研究NER 仍是未來的一個研究熱點。
(2)基于提示學習的低資源NER 研究。在近些年的研究中,NER 任務在廣度上已經延伸到跨領域、跨任務和跨語言等任務中。在一般領域,大多數最先進的NER 模型需要依賴大量已標記數據進行訓練,這使得它們難以擴展到新的、資源較少的語言中。隨著提示學習在低資源NER任務上的成功應用,這種方法能在低資源和高資源之間架起橋梁,從而實現知識轉移。因此,探索更優的提示學習方法來提升低資源的NER模型性能是該領域的重要研究方向。
(3)中文嵌套NER 的研究。由于中文構詞規則,中文信息文本中的實體嵌套更為明顯,此外中文詞語沒有明顯的邊界,使得中文的嵌套NER 具有一定挑戰。近年來,隨著深度學習的發展,中文嵌套NER方法出現新思路,如金彥亮等提出一種基于分層標注的中文嵌套NER 的方法,能充分捕捉嵌套實體之前的邊界信息,有效地提高中文嵌套NER 的效果。因此,將各種神經網絡、BERT、注意力機制等方法融合用于中文嵌套NER 仍然值得研究。