焦凱楠,李 欣,2,朱容辰
1.中國人民公安大學 信息網絡安全學院,北京100038
2.安全防范技術與風險評估公安部重點實驗室,北京100026
命名實體識別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)領域的子任務,通常解釋為從一段非結構化文本中,將那些人類通過歷史實踐規律認識、熟知或定義的實體識別出來,同時也代表了具有根據現有實體的構成規律發掘廣泛文本中新的命名實體的能力。實體是文本中意義豐富的語義單元,識別實體的過程分為兩階段,首先確定實體的邊界范圍,然后將這個實體分配到所屬類型中去[1]。
1991年Rau[2]隱式地提出了NER任務,需求是從文本中提取公司名稱。在1996年之后,NER作為信息抽取的一項子任務的屬性在第六屆消息理解會議(Message Understanding Conference 6,MUC-6)上被正式確立。
NER的提取對象隨著相關評測會議的進行不斷豐富。最先開始的英文文本實體集中在三大基本類[3]——person(人物)、organization(組織機構)、geographical location(地理位置)上,同時輔助于currency(貨幣)、time(時間日期)、percentage expression(百分數表達式)的識別,前者屬于實體類(entity type),后者屬于數字類(numeric type)。而person類下包含了名字、昵稱、代稱[4]、外文譯名[5]等識別任務,location類對城市、道路、區劃等名詞進行識別。隨著NER研究的推進,提取實體范圍更廣,實體分類更加精細,不同語種、不同學科領域被包含進來。
NER技術隨著相關評測會議的舉辦逐漸明確研究目標[6]。英文NER技術對于中文NER發展具有借鑒意義,中英文的構成差異和中文顯著區別于英文的特性,促進了相關中文評測會議的發展。英文是單詞和符號的組合,英文單詞由空格隔開,具有大小寫、詞根詞綴等特性。中文由單個漢字和符號組成,因此中文NLP研究最初集中在漢語自動化分詞[7]上,中文NER相較于英文文本缺少了一些單詞粒度信息。
促進中文NER發展的會議有SigHAN、863中文IP評測會議等。NER在SIGHAN Bakeoff-2010之后[6],不再作為評測任務出現,后續如命名實體消歧、命名實體鏈接任務被加入信息抽取任務中,NER最新進展被發表在ACL、AAAI、COLING、EMNLP、NAACL等NLP頂級會議中[1]。
面向特定領域的NER任務——領域命名實體識別(Domain Named Entity Recognition,DNER)產生于工業界對于NER業務場景的開放與擴展。中文DNER是在中文NER所識別的基本實體類別上提出的領域適應分類方案。表1列出了部分領域與所識別實體的對應關系。

表1 特定領域與對應實體Table 1 Specific domain and corresponding entities
這些領域的實體類型不盡相同,卻是組成各自領域文本的基本語義單元。部分實體也是對三大類基本實體的細粒度在場景下的擴充,如訴訟當事人、恐怖分子等實體類型是person類實體在具體場景下的細化。
DNER屬于NER面向不同行業領域的子任務,DNER技術依賴于NER技術發展,DNER廣度取決于我國工業化場景的集合,依據2017年國家標準《國民經濟行業分類》將我國行業分為20個門類、97個大類等。表2分別展示了行業門類信息和根據該分類標準統計所得的DNER研究及論文情況。
以搜索條件“篇名:實體識別”在知網得到的603篇文獻標題經過jieba分詞、去除論文標題常用停用詞作為統計總數。因搜索條件嚴格限制了領域關鍵詞必須出現在論文標題內,同時未納入同時段英文論文發表數目,因此所得數目與實際研究數量會有稍許差異。表2說明了衛生和社會工作類研究比例突出,占所有文獻的70.3%。
由表2可知,某一個領域頻繁地被選擇代表該領域對于NER技術的迫切需求,如通過挖掘日產且數量巨大的半結構化電子病歷以助力現代化醫療的建設,通過挖掘日產且龐雜的社交媒體信息反映大眾偏好,通過挖掘涉恐新聞報道中潛在恐怖組織痕跡對于維護現代化社會的和平穩定具有重要意義。
研究集中的領域使得NER技術的迭代速度加快,使復用到其他領域的可能性驗證實驗周期縮短。技術與產業的結合作為驅動力,使某個趨于成熟的DNER形成了一套從數據預處理、模型選擇、領域內新實體的處理框架,復用至其他DNER中,加快產業文本的結構化速度。表2隱含的DNER不均衡發展情況是領域遷移能力不成熟的體現,這受限于NER技術基礎。DNER不僅致力于特定領域實體識別準確率的提高,也對新領域實體提取效率的提高提出了要求。

表2 行業門類所對應領域NERTable 2 Industry category corresponding to domain NER
NER是NLP領域的重要基礎任務,其基礎性正體現在NER任務性能的提高進一步有利于非結構化文本朝結構化文本的轉化,有利于大數據時代中分類別大型知識庫的構建,有利于問答對話系統的精準意圖識別,有利于機器翻譯中正確的槽位填充等。隨著NER識別自然語言中已有類別的新實體的能力和新類別的新實體的能力的提高,現有知識庫得到了擴充,從而推動了在此基礎上人工智能與自然語言知識圖譜的發展[1]。
DNER框架參照NER的一般研究流程,如圖1所示。當DNER研究領域確定后,需要完成的NER基礎操作如數據源的獲取、評價指標的確立等,之后在技術選擇階段根據領域及數據集特點制定相應的方法。

圖1 中文領域命名實體識別框架Fig.1 Chinese domain named entity recognition framework
確定提取領域后,根據領域數據來源的差異來輔助確定實體類型。當數據源包含新聞文本時,實體類型需包含person、location、organization三類基本實體在領域內的細粒度角色。如在制定影視DNER實體標簽時,明星、電視劇都是構建影視知識圖譜所需的基本實體單元,明星既是person類實體在娛樂領域的細化,亦是娛樂領域的獨有實體,即訓練好的NER模型會把娛樂新聞中出現的人名識別為明星、導演等細化角色。三類基本實體的數據來源多為評測會議數據集,多由新聞文本組成,如表3所示。因此當研究領域的數據源包含新聞時,待識別實體類型需包含以上三類基本實體。

表3 公開數據集與實體類型Table 3 Exposed data sets and entity types
領域數據源還包括領域專業文本,此時需要根據專業文本特點制定實體規范。如涉恐、軍事領域的數據既包含了互聯網公開數據,也囊括了保密數據如作戰文書、專業數據,如GTD[10](Global Terrorism Database)。表4列出了一些領域的專業文本來源。領域專業文本有相關規范文件予以背書,識別需求與任務關系明確,將專業相關術語、文獻配合以任務驅動,使得實體規范不易產生歧義并能迅速投入標注過程。

表4 領域的專業數據來源Table 4 Professional domain data sources
DNER需要嚴格實體標簽,也稱為實體類型。領域內實體各具特點,需制定適應實體識別框架的領域實體規范。如圖2所示,確定領域后,若領域數據包含新聞類數據源,則實體類型需要包含三大類基本實體——person、location、organization在領域場景下的細化角色;若數據來源主要為專業文獻及出版物,則實體類型根據業務需求制定。細化角色的確定及具體的實體類型規范由領域專家參考命名規范類書籍討論或依據本體構建。

圖2 中文領域實體規范Fig.2 Chinese domain entity specification
實體規范制定難點之一在于工業場景對于實體的細粒度化。細粒度實體識別是在基本實體范疇下的細化方案,如person類下的明星實體。OntoNotes[8]數據集最早提出細化實體粒度方案,在7大類下制定了45個子類,為相關領域具體實體制定提供了解決思路。表5列出了三類基本實體的細化方案,當前基本實體的識別效果出色,但在具體領域下,盡管識別的實體屬于三類的子類,但因子類標簽固有的一層語義關系易使識別產生混淆,從而對此類DNER提出了挑戰。

表5 三大類實體細化方案列舉Table 5 Enumeration of detailed schemes for three major categories of entities
難點二是特定領域內實體標準未被唯一確定,領域語料庫無法融合。表6中的軍事實體類型的制定依據均為具有軍事意義的實體,但差異在于實體類型名、實體類數目、細粒度實體定義、數據來源的確定,這四點差異使得不同學者構建的軍事實體語料集和提出的相關算法無法及時遷移和比較。

表6 軍事領域實體細化方案列舉Table 6 Enumeration of detailed schemes for military entities
領域實體規范一般由領域專家參考相關專業規范根據業務聯合確定。如表4所示,專業特征極強、區分力強的實體領域包括醫學、數學等學科領域,橋梁檢測、航天等工業領域。醫學領域的蛋白質、疾病等實體,化學領域的有機物等實體不屬于三大基本類別,不因數據源的不同而產生歧義,同時有權威出版規范加以背書,實體規范更易制定,標注更易進行,面對新實體的出現也更易進行更新和補充。
在制定領域實體規范時參考與之任務相近領域的實體規范,能夠減少實體類別歧義,如表7所示,軍事、涉恐領域因涉及國際形勢研判,數據源存在交叉,制定出的實體有相似之處。

表7 反恐領域實體及數據來源Table 7 Entities and data sources in field of counter-terrorism
基于本體理論[17]制定領域實體類型,以文本結構化為目標,將提取的實體作為實例化本體元素并按照本體結構存入知識庫中,是知識庫填充的技術基礎。有學者[17]歸納總結領域知識,構建了審判文書本體提取司法領域實體。本體推理技術的發展如類的一致性檢查[18],可以避免定義本體直接運行后出現的類不一致錯誤,在理論層面解決實體類型之間的矛盾。
較低的領域實體規范認同度使得人類表現低于深度學習NER模型的表現。有學者提出限制性標注原則[19],明確了實體標注不重疊、不嵌套、不包含標點符號。強制規定實體不會跨越標點符號有助于標注方案的實際執行,從制定實體規范到標注工程仍然富含挑戰,不僅需要培訓專業標注人員保證標注不能自相矛盾,還需檢驗標注數據集質量。醫學領域提出了IAA檢測[20],標注后由不同專家進行交叉檢驗,根據指標估計標注體系的合理性,該方法逐漸被其他領域采用。
綜上可知,DNER的第一步是數據源的選取,第二步是根據任務需求嚴格制定實體類型并制定提取標準。健壯的實體類型規范有助于領域語料庫匯集,表3中的評測會議數據集具有質量高但覆蓋領域不全面的特點,此時領域語料集的補充顯得尤為重要。
數據集標注規范即命名實體輸入模型前的表示。主要標準標注規范由評測會議制定,為多數研究所認可,也可根據實體類型自行制定。常見標注規范如下:
(1)BIO,自CoNLL 2003使用。創新性提出以flagcategory方式進行標注,B代表實體首部,B-school表示一個school實體首部;I代表實體內部或結束,I-person表示一個person實體內部或尾部;O代表非命名實體,標注規范約束了B-school后應為I-school而非I-person。根據模型需要利用的信息以及原始數據集是否需預先分詞,標注粒度可分為詞語級和字級,如圖3所示。

圖3 BIO標注規范Fig.3 BIO annotation specification
(2)BIOES,BIO的擴展。在BIO的基礎上,使E表示實體尾部;I僅表示實體內部成分;S表示由一個詞或字構成的單獨命名實體,區別于B(I*)E形式的復雜實體;O含義不變。
(3)Markup標注,為OntoNotes[8]使用,是一種類XML規范。使用字段設置類型,

圖4 Markup標注規范Fig.4 Markup annotation specification
有學者使用中文分詞任務的BMES標注規范[21]進行實體標注,BMES字母含義類似于BIOES;在此基礎上有學者擴充了刑事案件文本實體標簽[22],提出含7個標注符號的bmelros體系,其中b、e是實體左右邊界,m是實體內部,l、r分別為實體左、右提示詞,s和o繼承自BIOES。具體標注規范的選擇由數據集及訓練方式決定,選擇字或詞來標注取決于算法利用字級別或詞級別信息。BIOES標注規范因更準確地指代了實體的內部特征,被證明能提高識別效率[23],但后續深度學習出現的預訓練語言模型使用了BIO標注,BIO與BIOES格式可輕松進行轉化。
NER常用評價指標有precision(精確率)、recall(召回率)、F1,有時以Micro-F1、Macro-F1來輔助評定識別效果。
對輸入模型句子中的每一個token進行多分類。NER中的gold_tag代表真實標簽,predict_tag代表預測標簽,若需要識別出N類實體,則為任一類實體i,i∈N,計算:
TPi:gold_tag與predict_tag均為i的token數目。
TNi:predict_tag、gold_tag均非i的token數目。
FPi:predict_tag為i、gold_tag非i的token數目。
FNi:predict_tag非i、gold_tag為i的token數目。
precision:識別正確的實體標簽數量占全部predict_tag標簽為該實體標簽標記數量的比例。

recall:識別正確的實體標簽數量占全部gold_tag為該實體標簽的比例。

Micro-F1:將為每一類實體i計算precisioni和recalli時所需的基礎因子TPi、FPi、FNi加權求和運算得到precisionmicro和recallmicro,并代入F1的運算公式。

由公式可以看出,Micro-F1受各類別實體數目分布的影響,若數據集中實體分布不均,則Micro-F1能夠客觀描述提取效果。
Macro-F1:將所有類別的precision總和與recall總和分別求平均值,并代入F1公式進行運算。


由公式可以看出,Macro-F1不考慮各類別實體數目具體分布的影響,被具有較高precision和recall的實體類別所影響。
由上述計算公式可知,NER評估指標一般在token級別上計算,即在逐字標注的基礎上,判斷每個字與對應答案是否一致,而不考慮字前后是否屬于相同實體等約束條件。但當識別出的命名實體被用于下游任務時,在完整實體級別計算上述指標會更有用。實體級別即同時考慮實體邊界和實體類型,在表8所示六種情形下,CoNLL[24]、ACE[25]、MUC[3]、SemEval[26]等評測會議規定了細致的解決方案。如SemEval提出的精確模式規定只將情形1計入識別正確時會導致準確率較低,可以把情形2、情形3也計入識別正確[27]以提高相關指標。某些DNER應用只需識別句子中的實體邊界即可計入識別正確,如影視文本將《紅玫瑰與白玫瑰》識別為書名或電影名均計為正確,前提是將這7個字視為完整實體。

表8 實體標注結果Table 8 Entity labeling results
綜上所示,若領域內沒有公開用于評測的數據集,則同領域內不同方法的優劣很難在不同數據集上比較,誤差可能出現在:
(1)實體標注種類和數目的不同。
(2)評價指標在計算實現上的不同。
DNER技術依賴于NER技術的發展。NER從基于詞典、規則的模式匹配方法,到統計機器學習方法、深度學習神經網絡方法,再到基于融合其他研究方向先進技術的思想,如應用計算機視覺(Computer Vision,CV)領域取得成功的圖神經網絡,或NLP另一個子任務“機器翻譯”提出的Attention機制,NER技術發展路線如圖5所示。

圖5 NER技術發展路線Fig.5 Technical development route of NER
模式匹配方法應用最早,也被稱作NER專家系統方法(Expert System,ES)。ES要求包含專業最高水平知識,提取專家知識并將其轉換為規則形式?;谠~典和規則的模式匹配方法需要領域專家由語法規則等構造大量的規則模板,符合ES知識獲取的定義。
模式匹配方法包括:
(1)維護一個數量大且全的詞典,如鑒于少數民族人名特點,有學者構建了維吾爾語人名數據詞典進行維吾爾語NER[28],若文本中有實體未被詞典收錄,則手動錄入詞典以供下一次識別。
(2)在詞典基礎上,增加實體的構造規則,據此提取實體。典型的規則[1]包括關鍵詞、位置詞、中心詞等元素。如中文譯名NER[29]利用普通人名的構成規律——全稱如[姓+名],代稱如[姓+職位]、[老(?。誡等模式進行識別;化學物質NER利用化學物質的構成模式——化學介詞+化學詞頭+化學符號[30],使用正則表達式進行化學物質名稱提取。
基于模式匹配方法的NLP系統如University of Sheffield NLP開發的NLP框架GATE[31],有著清晰 的NER規范。GATE下的JAPE組件是一種專屬于GATE的模式匹配語言,編寫語法與正則表達式相似,由實體在文本中的特征來確定構造規則。不同的構造規則會產生沖突,如[武漢市長江大橋]能被分成[武漢市長|江大橋]或[武漢市|長江大橋]等兩種合乎語法規范的實體,此時主要使用基于前向匹配或后向匹配或兩者結合的算法[32]來解決此類沖突。亦可借鑒英文詞干算法原理[33],統計實體出現的頻率作為實體分割優先級的依據,缺點是不易變通。
模式匹配方法準確率高,但眾多實體識別規則的制定依賴領域專家,領域間基本無復用。此外,領域詞典需定期維護,不斷涌現的新實體與實體的不規則性使得難以構造完備的詞典。即使存在缺點,模式匹配方法依舊被應用,因為某些領域實體的規則可以被窮舉95%以上,規則仍是提取裁判文書部分實體[17]的首選,同時在之后的機器學習、深度學習NER模型中加入規則和字典能夠提高準確率。
統計機器學習時代,NER的發展基于大規模有標注語料庫(監督數據集)的出現,從編制全面的不易變通的規則系統到期待機器通過大規模語料庫的訓練自動識別語言規律。語料庫中的語言學知識體現在用特征模板來解釋實體上下文的特征,使機器理解實體周圍成分的含義,這稱為特征提取,目的是為了提高統計模型的準確率。
文本特征是指將文本的特點轉換成數值[32]。針對中國人名識別和性別判斷問題[32],特征定為名字中是否包含某個特征字,并將名字用特征表示。如“余秋雨”是一位男性作家,名字由“秋”“雨”組成,但許多女性名字中包含了“雨”字,此時無法直接通過“雨”字判斷性別,因此將名字表示為多個特征字的組合,從而讓機器通過大量語料來學習。特征的種類不定,數量不定,若將中國人名的特征字增加到5個,如表9所示,人名中的單字都從特征字中選取,則“余秋雨”可表示為5維向量[1,1,0,0,0]后再輸入機器學習模型。當特征條件包括了所有常用漢字后,就可以給常見人名向量化的特征表示。

表9 特征模板Table 9 Characteristics of template
特征模板用來自動化提取特征,挑選特征并設計特征模板的過程是特征工程[32]。統計機器學習的NER的關鍵在于特征選取,這些特征來自于反映某類實體特性的特征集合。特征集合通過統計分析訓練語料反映了待提取實體的特性,包括具體的漢字特征、上下文特征、詞典及詞性特征等[34]。有學者[35]為實體設計了包含只考慮單元素原子特征模板和多原子特征模板結合的組合特征模板的特征工程,并通過原子特征模板的加入順序驗證了特征模板的有效性,得出特征模板并非越多越好的結論。有學者提出在訓練時應優先選擇貢獻度大的特征[36],并證明組合特征模板可以提升系統的性能。同時一些外部資源如分詞結果[7]、外部知識庫如知網[37]也被當作特征錄入特征集合中。
隨著將標注語料集和選定的特征模板輸入到隱馬爾科夫模型[38](Hidden Markov Model,HMM)、最大熵[39](Maximum Entropy,ME)、支持向量機[40](Support Vector Machine,SVM)、決策樹[29](Decision Tree,DT)、條件隨機場[36](Conditional Random Fields,CRF)等統計機器學習模型中,NER作為序列標注任務的屬性被固定下來,即通過預測文本中的每個字的標簽判斷其是否為一個實體。
上述機器模型各有所長,HMM作為概率圖模型以發射概率、隱藏概率、初始概率對應了中文人名識別的角色標注[4]問題,使用viterbi算法找到最佳標記序。ME在給定數據集上選擇一個模型使未知結果的分布盡可能與現有分布實現一致均勻分布。CRF作為生成圖模型,吸收了ME綜合有效語言信息的優點,不依附于HMM嚴格的獨立性假設,并排除了其他非生成圖模型的標記偏置缺點,逐漸成為DNER應用的主要模型。針對上述優缺點,有學者利用模型改進思想,利用層疊CRF進行旅游領域NER[41]。漢語詞法分析系統ICTCLAs采用層疊HMM[4]去識別三大類基本實體,底層實體識別的結果為高層實體識別提供特征。
統計機器學習的NER受限于高質量的大規模標注語料庫以及對豐富的、不畏懼語料變遷挑戰的特征模板的需要,構建特征模板開銷巨大但準確率會相應提高,因此在后續NER發展中,特征工程的保留也可助力實體識別。
深度學習提供了代替復雜龐大的特征工程的解決方案,讓機器自動找出潛在的特征模板集合。End-to-End解決問題的思路是將數據輸入模型,由模型得到結果,第一步是如何更好地表示文本。
3.3.1詞向量與預訓練語言模型發展
文本中的詞語最初表示為one-hot編碼向量,即僅以該詞在詞典中的位置作為代表詞語的向量,受制于詞典的覆蓋能力,也無法表示詞語之間的聯系。將文本表示成機器能理解的向量而非簡單的數字組合,是詞向量相對于one-hot編碼所做的貢獻。
CV領域利用神經網絡從圖像里提取特征的思路被NLP借鑒。神經網絡語言模型[42](Neural Network Language Model,NNLM)被用來訓練詞向量,目的是通過無監督訓練方法得到合理存在的語句。Word2vec[43]是NNLM后提出的詞向量訓練方式,包括兩種訓練步驟,分別是根據中心詞推理上下文窗口內單詞的skip-gram和根據上下文窗口推理中心詞的CBOW。GloVe[44]克服Word2vec只能看到窗口內上下文信息的缺點,由詞向量共現理論通過矩陣分解利用了全局信息。GloVe和Word2vec根據后續任務的不同而各有優勢,如有學者[40]指出GloVe訓練出的詞向量后接SVM效果更好。
文本詞向量表示后,神經網絡被用來提取向量化的文本特征。CV領域的卷積神經網絡(Convolutional Neural Network,CNN)被最早應用于NER[45],提取句子級別的特征。CNN卷積運算與文本序列輸入的特征不符,具有時間序列特征的循環神經網絡(Recurrent Neural Network,RNN)被用于深層次的語義特征提取,為了使未來的狀態也能預測當前時刻的輸出,雙向RNN如BI-LSTM[46]、BI-GRU[47]被提出。RNN的訓練速度受限于其時間序列性,CNN模型卷積核權值共享可降低計算復雜度、多卷積核可并行計算的優點被重新重視。有學者[46]提出了空洞迭代卷積神經網絡進行特征提取,通過疊加CNN擴大模型的感受野,提高模型的訓練和預測速度。提取特征后的文本輸入至解碼網絡得到最佳預測標簽序列。
如表10所示,一系列預訓練語言模型(Pre-trained Language Model,PLM)的產生使得Word2vec和GloVe這兩種詞向量被稱作靜態詞向量,無法解決一詞多義現象,訓練結果是一個固定的詞向量矩陣,不能被動態修改,也就無法真正理解文本語義。PLM通過兩階段來訓練詞向量,首先使用NNLM來訓練,然后根據下游任務進行微調。ELMO為了達到更好的效果,在第一階段使用BILSTM作為特征提取器提取雙向文本信息;GPT則采用Transformer特征提取器[59]提取單向文本信息,Transformer特征抽取器在機器翻譯任務上效果顯著,訓練的詞向量可以解決一詞多義;BERT使用Transformer提取雙向文本特征,并采用CBOW方式訓練雙向語言模型,通過MLM訓練方式隨機去除文本中的一些實體去訓練語言模型,使得訓練效果顯著高于GPT。

表10 文本向量化表示的發展Table 10 Development of textual vectorization
BERT的出色表現使一些學者開始思考如何降低BERT訓練所需的資源而達到同樣效果,因此RoBERTa[53]、AlBERT[52]、TinyBERT[57]、SpanBERT[56]等PLM被相繼提出。BERT類模型的輸入長度偏短,在生成式任務如文本摘要上表現不佳,因此XLNet[51]提出了自回歸語言模型和自編碼語言模型來貼合生成式文本規律,并應用Transformer-XL解決長文本特征提取問題。百度提出了ERNIE[55]模型專門訓練中文的詞向量,GPT模型也已經發展到了GPT-3[60]。
3.3.2深度學習模型解決NER問題架構
PLM動態訓練詞向量使文本獲得更好的向量化表示,進而利用特征提取器提取文本特征,再通過解碼器獲得預測的序列標簽,具體如下:
(1)對輸入文本基于靜態詞向量或者動態的PLM進行向量化表示(Input Representation,IR),具體分為基于字(character)或單詞(word)的方式,或融合兩種方式的信息(hybrid)進行向量化。IR階段需要有效地融合詞和字的信息[61],還可輔助以統計機器學習方法使用的特征工程。
(2)文本編碼層(Context Encoder,CE)或序列建模層,對于IR階段輸出的向量化文本采用特征提取器進一步提取文本特征。
(3)標簽解碼層(Tag Decoder,TD),將CE層輸出的向量輸入解碼網絡得到最佳序列標簽。
圖6 展示了根據領域文本特征選擇不同的文本向量化方法與特征提取器的組合。Word2vec-BILSTMCRF[62]的組合取得了當時英文NER最佳的效果,之后被應用到中文NER中,深度學習時代BERT-BILSTM-CRF的組合[63]也成為了性能提升時的參照。表11列出的論文標題展示了DNER的研究趨勢,符合圖6的深度學習模型架構。深度學習準確率高,但仍需要大規模的標注數據集和高資源的算力,PLM的應用對于小模型的訓練是一種負擔。

圖6 深度學習模型解決NER架構Fig.6 Architecture of deep learning models to solve NER

表11 基于深度學習的論文標題Table 11 Titles of paper based on deep learning
一些NLP書籍[74]將分詞放在NER章節前,產生一種先分詞再進行NER的認識,但這兩個任務并非嚴格的前驅后繼關系。有學者將這兩個任務都看成序列標注問題,采用相同模型[61]進行訓練,同時提高兩個任務的準確率,這是多任務方法解決NER的應用。多任務也被用于關系抽取,先進行NER,將NER識別結果輸入關系抽取模型是關系抽取的pipeline方法[75]。
有學者[75]提出閱讀理解式的解決方案,將實體規范編碼成問題代入模型查找實體,在部分數據集上取得了較好效果。有學者[76]提出利用詞典信息的深度學習NER框架,具有更高的準確率,不同于模式匹配方法中詞典信息的利用方式——將文本與詞典碰撞,若存在該詞語就以觸發詞的方式進行識別,這樣會存在一些規則沖突問題。此處是在對輸入文本進行編碼時,將詞典信息作為特征融入到輸入表示中,形成Lattice結構[76]或使用基本圖網絡[77]、多維圖網絡[78]來融合詞典信息。為了避免對CE層進行繁瑣的設計,保持CE層繼續使用BiLSTM,有學者[21]提出了soft-lexicon,通過設計IR層來利用詞典中的所有詞。在此基礎上FLAT結構[79]被提出,為lattice中的每一個字再編碼其所屬詞中對應的位置信息。
圖7 給出了DNER的技術解決框架。首先根據領域獲得的數據集規模及實體規律性選擇使用機器學習方法或模式匹配方法;在大數據集前提下,根據工程量確定是否使用特征工程,特征工程與HMM、SVM等機器學習模型聯合使用;若不使用特征工程,則利用神經網絡訓練詞向量或PLM,領域內已訓練的詞向量可以被微調復用;深度學習時代的NER沒有摒棄規則或者特征工程等方法,在將詞典信息融合至模型的過程中,還可應用Attention機制[80]、圖神經網絡[77]、遷移學習[81]等其他領域的新技術。

圖7 領域NER解決框架Fig.7 Domain NER solution framework
DNER系列研究體現了NER既是信息抽取的重要子任務,也是業務文本結構化的基本步驟這兩大特點,DNER有助于完成以下工作:
(1)構建領域高質量標注語料庫
目前研究集中在有監督數據領域的學習,CLUENER語料[9]構建過程中提到了機器訓練的樣本數多于人類,是人類表現不如機器理解樣本標簽含義從而表現不佳的理由之一。深度學習需要質量高的標注數據集,DNER的研究必然會為領域貢獻一部分語料知識,如何整合語料促進語料融合,從而實現技術遷移是當前DNER的研究趨勢。同屬領域的不同研究因受限于業務的細節,從而決定了在制定規范時實體類型和數量的差異,造成子業務提取指標增加的同時遷移能力減弱。因此在DNER研究之初,需要構思數據集及標注規范問題,這也是不可避免的步驟。制定優秀強壯的標注規范,借鑒該領域前人的標注規范,或是觸類旁通與子任務相近領域的實體制定規范,充分利用有限的語料,能夠為NER后續任務提供幫助。
(2)能夠構建領域知識庫
涉恐DNER是為了我國網絡恐怖信息數據庫而構建[82],因我國目前還沒有自己的網絡恐怖信息數據庫。隨著在本體概念上構建知識庫的觀念的回歸,在領域本體架構下,通過DNER方法提取本體架構中的各項實例并錄入數據庫中是可選擇的途徑。知識庫涉及的內容龐雜,但其基礎屬性是由本體的基本單元所構成,隨著NER技術的成熟,新涌現實體被識別并被自動添加到現有知識庫中,文本中的關鍵信息也能被挖掘。在反恐領域,恐怖組織的準確識別能夠為恐怖形勢的研判提供幫助,可以通過關聯恐怖組織周圍實體關注動態,此外通過提取的反恐領域實體內在地構成了反恐事件的框架,因反恐實體標簽在定義時就內化了一層與事件的語義關系信息。一些公司將知識庫應用于搜索查詢任務,并通過知識庫構建相關比賽促進了NER的發展。
(3)能夠構建領域知識圖譜
與構建知識庫的原理相似,知識圖譜更關注于智能問答,林業領域植物知識圖譜[83]的構建是為了林業病蟲害研究,影視知識圖譜[84]的構建是為了展示作品與影視行業工作人員、影視公司之間的關系。知識圖譜中所包含的基本單元就是有意義的實體,而知識庫包含實體及實體附加的其他屬性。從實體流轉到知識庫再到知識圖譜是被認可的路徑。知識圖譜構建技術不僅在于NER技術的提升,也需要其他NLP子任務的協助,如關系抽取、實體鏈接技術等,這也是多任務進行NER的基本目標,通過訓練同一模型在節約訓練資源的同時提高多重任務的效率。
NER的發展汲取了不同階段的優點,體現在模式匹配方法仍然可以應用在實體規律性強的領域,如司法領域提取裁判文書中某些實體的規則可以被窮舉90%,以及詞典信息也在更好地融入深度模型架構;統計機器學習方法提出的特征工程的概念也輔助應用于深度學習模型框架,選取分詞、上下文等特征對輸入信息進行編碼,從而提取一些固定模板無法提取的特征;深度學習End-to-End的特性通過改變神經網絡架構捕捉隱含文本信息,提高準確率卻耗費算力。根據NER不同發展階段的特點,列舉如下研究熱點:
(1)高質量領域數據集的獲取。當前領域NER數據語料缺乏,開展一類新的DNER的首要步驟是領域數據集的構建。標注資源匱乏會導致大型深度學習模型無法有效部署和訓練,有標注的高質量的監督數據集一定能為深度學習助力。在資源限制條件下,需采取其他方法來擴大領域數據集。國內對于無監督領域的學習較國外少[85],自學習算法[86]和主動學習[86]分別是兩種利用半監督學習(少量標注樣本)和無監督學習(大量未標注樣本)的算法,其概念來源于CV領域,但這兩種方式并未完全解決標注資源緊缺帶來的困難。自學習算法會挑選出與初始部分樣本較相近的樣本,則模型學習到新的信息速度變慢,還會有標注錯誤的累積問題。主動學習算法依然通過人力來審查每輪的新標注樣本,相當于減少了人工標注量,但可能會忽略含有其他豐富信息的樣本。
(2)促進現有領域語料庫的融合以實現技術遷移。由于目前一些DNER的研究并非使用了統一語料庫,采用了相同的實體制定規范,這對于大規模語料庫的構建提出了難題,已被訓練過的資源無法得到有效擴展,無法做到資源共享,這從實體的規范制定和標注工程兩方面對DNER提出了要求。
(3)DNER通用實現框架的構建。在3.3.2節中探討了DNER對于通用NER技術的應用可行性,說明了一種深度學習時代DNER研究的一般模式,如使用PLM/Word Embedding-Encoder-Decoder(預訓練語言模型或詞向量-文本編碼-解碼)的模式。由于不同領域實體類型分布及標注規范不同,在不考慮以上差異前提下,論證特定領域NER是否可以采用一種通用方法識別各領域不同類型的實體,表11列出題目中的技術正在應用這一模式。除此之外,新模式的嘗試需要各領域的反復實踐以驗證,通用方法的成熟會使得表2中部分領域DNER的產出速度加快。
(4)基于多方融合的深度學習時代NER技術的提高。首先是多任務進行NER的思想,DNER為下游任務提供所需實體,如準確的DNER是主題詞發現技術的基礎,有助于實現領域更友好的分詞,有助于關系抽取中對于實體的準確定位等,多任務的共同提高能夠節約訓練資源。其次是將Attention機制、圖神經網絡、遷移學習思想等技術與現有NER模型架構融合,分別對主體架構的某些側面進行改進,及時記錄結構的改進帶來效果的正負反饋。
本文從中文領域命名實體的概念開始,介紹了開展中文領域命名實體識別研究的所需基礎條件,如數據集的獲取和實體規范的確立,以及所需研究框架,如從模式匹配方法至深度學習方法,由于神經網絡在深度學習中表現出色,著重介紹了深度學習時代從文本向量化到實體提取所需的一些模型。NER對于NLP領域重要性同樣體現在中文DNER的發展促進工業場景化NLP任務的提高。目前研究熱點和難點集中在多方融合技術促進實體提取方法的改進與已有研究資源的集合上,DNER的自動化發現新實體的功能能夠讓人們自動地監視網絡中指數式增長的信息,緩解人力資源的配置。NER技術不斷推陳出新,促進非結構化文本的有效信息自動結構化。