999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文命名實體識別研究綜述

2023-02-18 07:16:10王穎潔張程燁白鳳波汪祖民季長清
計算機與生活 2023年2期
關鍵詞:特征文本方法

王穎潔,張程燁,白鳳波,汪祖民+,季長清,2

1.大連大學 信息工程學院,遼寧 大連116622

2.大連大學 物理科學與技術學院,遼寧 大連116622

3.中國政法大學 證據科學研究院,北京100088

命名實體識別(named entity recognition,NER)是自然語言處理中的一項基礎任務,主要用于識別文本中實體的類別和邊界。該任務最初是在信息理解會議(message understanding conference,MUC)任務[1]上作為實體關系分類的一個子任務被提出,其中關注的實體類型主要包括組織名、人名、地名等。命名實體識別的主要思想是先將待識別文本轉換為嵌入向量的形式,然后將嵌入向量輸入到識別模型中,最終將模型的輸出通過分類器得到實體分類的結果。將文本中的實體進行準確的劃分和分類,可以有效地為接下來關系抽取、情感分析和文本分類等下游任務提供可靠的支撐,因此,如何有效提高命名實體識別的效果,成為當前工業界關注和研究的焦點。

本文從當前中文命名實體識別的研究成果出發,首先對命名實體識別各個階段的研究成果進行了概述,同時從漢字和單詞兩個角度,對當前中文NER 熱門的字詞特征融合方法進行了論述和總結。然后,針對當前中文NER 的研究成果,在模型方法優化和模型預處理兩個優化方向上進行了總結。最后,對中文NER 任務中常用的數據集和評價指標進行了歸納和整理,并對中文NER 任務未來的研究方向和研究重點進行了展望。

1 命名實體識別方法

命名實體識別的主要任務是從海量的文本數據中識別不同類型的實體。這不僅是構建知識圖譜或智能問答系統的基礎技術環節,而且也是進行文本信息挖掘的第一步。命名實體識別的方法按照發展歷程可以分為基于規則的方法、基于統計模型的方法和基于深度學習的方法三類。

1.1 基于規則的方法

基于規則的方法由于易于實現且無需訓練的特點,在早期的實體抽取任務中取得了很好的效果。基于規則的方法在已有知識庫和詞典的基礎上,通過特定領域的專家手工制定規則模板,以標點符號、指示詞、位置詞、方向詞、關鍵字、中心詞等特征作為抽取的依據。常見的基于規則的實體抽取方式包括基于實體詞典的最大匹配算法和基于正則表達式的規則模板設計。基于規則的方法的優點是在特定領域內的準確率高,且召回率很低,適用于數據集較小且更新不頻繁的領域。Feng 等人[2]針對在數據集實例較少時,單一基于條件隨機場(conditional random field,CRF)的提取器準確率和召回率效果不好的情況,將CRF、規則模板和中文實體詞典結合使用,實現了良好的性能。Pan[3]通過將識別規則引入統計方法,減少了對大規模語料庫的依賴。Yan[4]從實體內部組成和上下文語境入手,針對姓名構建了相應的識別規則,極大地提高了中文人名識別的準確率。但同時基于規則的方法也存在著泛化能力差、詞典構造成本高的問題。因此在面向海量文本數據的今天,基于規則的方法大多情況下與選用的訓練模型結合使用,以提高模型的準確率。

1.2 基于統計模型的方法

基于統計模型的方法的核心在于針對特定的研究背景來選擇合適的訓練模型。與基于規則的方法相比,這種方法省略了諸多繁瑣的規則設計,可以花費更短的時間訓練人工標注的語料庫,提高了訓練效率。同時,面對特定領域規則不同的問題,基于統計模型的方法只需要針對特定領域的訓練集,重新對模型進行訓練即可。因此這種方法的可移植性很高,使用方便。目前常用的模型有隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機場模型、支持向量機(support vector machine。SVM)和最大熵模型(maximum entropy,ME)等。而HMM 和CRF 在序列標注領域效果突出,因此被廣泛應用于實體抽取領域。以下對HMM 模型進行簡要的介紹。

隱馬爾可夫模型是一種針對序列標注的概率模型,能夠通過觀測序列來預測隱含的狀態序列。它的基本思想是根據觀測序列找到隱藏的狀態序列,同時服從于齊次馬爾可夫假設和觀測獨立假設。按照所研究的基本問題可以將其分為三類,即概率計算問題、參數學習問題和解碼計算問題。

(1)概率計算,即給定模型參數λ=(A,B,π)和觀測序列Z=(z1,z2,…,zN),計算觀測序列Z的條件概率P(Z|λ)。其中A為狀態轉移矩陣,B為觀測矩陣。以前向算法為例,其流程描述如圖1 所示。

圖1 序列標注問題流程描述Fig.1 Description of sequence labeling problem process

設有T個序列,定義前向概率αt(i)表示t時刻的狀態以及第1,2,…,t時刻的觀測在給定參數下的聯合概率;bi(x)表示由狀態xi生成給定觀測數據的概率。經推導后可得第t+1 時刻的前向概率為:

其中,aij表示在當前時刻處于狀態xi的條件下,下一時刻轉移到狀態xj的狀態轉移概率。則觀測序列Z的條件概率為:

(2)參數學習,即在給定觀測序列Z=(z1,z2,…,zN)的情況下,求模型中的最優參數λ*:

其實質上就是對模型進行訓練并調參的過程,一般通過最大期望算法進行求解,具體的數學推導這里不做贅述,可以參考Rabiner[5]的文章或者其他相關書籍。

(3)解碼計算,即在給定模型參數λ=(A,B,π)和觀測序列Z=(z1,z2,…,zN)的情況下,求最可能出現的狀態序列X=(x1,x2,…,xN)。常用的解決方法是將其看作一個最短路徑問題,采用Viterbi 算法的思想,首先尋找概率最大的路徑,其次在得到概率最大路徑之后,從最優路徑終點開始,回溯地尋找最優路徑上當前點的上一個點,直到找到最優路徑的起點。因此解碼計算問題也可以認為是一個模型預測問題。

HMM 模型訓練速度快,復雜度低,但容易在訓練過程中陷入局部最優解。為了解決標注偏置問題,得到序列標注問題的全局最優解,Lafferty 等人[6]提出使用CRF 來解決序列標注問題。現階段存在海量的文本數據,因此基于統計模型的實體抽取方法由于可以面向大規模語料而占據了一定的研究地位。Wang 等人[7]提出了一種帶有回路的條件隨機場(conditional random field with loop,L-CRF)來研究句子級別的序列特征,能夠對上下文之間的關聯進行更精準的推斷,得到更為合理的序列。Yang 等人[8]提出了一種基于注意力機制的Attention-BiLSTM-CRF模型,發現在BiLSTM(bi-directional long short-term memory)層中單獨的詞特征要比單獨的字符特征好,且二者同時運用能進一步提高性能。Li 等人[9]將HMM 與Transformer 模型結合,增加了模型的穩定性和魯棒性。Alnabki 等人[10]通過使用局部近鄰算法尋找語義上與模糊術語相似的標記,與BiLSTM-CRF相結合后,F1 值在特定實體類型上有明顯提高。

但是基于統計模型的實體抽取方法也存在一定的局限性,所使用的模型只與當前時刻的狀態和所觀察的對象有關。在模型的實際訓練過程中,序列的標注不僅和單獨的某個詞相關,而且和這個詞所在的位置和序列總長度都有關聯。因此為了與上下文進行語境的結合,提出了基于深度學習的實體抽取方法。

1.3 基于深度學習的方法

深度學習的概念由Hinton 等人于2006 年提出,起源于對人工神經網絡的研究。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。深度學習覆蓋領域多,涉及到的知識面廣,可以解決以往的機器學習難以解決的大量問題,但其實質仍然是機器學習的一個子集。常見的深度學習模型包括卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)、圖神經網絡(graph neural network,GNN)、深度神經網絡(deep neural network,DNN)、生成對抗網絡(generative adversarial network,GAN)、長短時記憶網絡(long short-term memory,LSTM)、Transformer 和BERT(bi-directional encoder representation from transformers)等。

神經網絡的基本結構由輸入層、隱藏層、輸出層三部分組成,其中輸入層的每個神經元(neuron)可以看作待研究對象的一個特征;隱藏層用于將輸入層傳遞的數據通過內部的函數進行處理后傳遞給輸出層,具體的實現細節對用戶透明;輸出層將隱藏層的計算結果進行處理后輸出。其中隱藏層的層數應當適中,過少的層數會導致需要增加更多的訓練集,而過多的層數會產生過擬合的現象。

1.3.1 長短時記憶網絡

長短時記憶網絡(LSTM)隸屬于一種循環神經網絡,在時序數據預測、語音識別、文本翻譯等領域均表現出不錯的效果。在命名實體識別領域,LSTM可以有效提取上下文的語義信息,從而能夠更好地理解文本內容。LSTM 的單元結構如圖2 所示。

圖2 LSTM 單元結構Fig.2 Unit structure of LSTM model

可以看出,相較于RNN 而言,LSTM 的每個單元結構增加了圖2 所示的遺忘門、更新門和輸出門三種門控制結構,從而解決了對上文長期依賴的問題。因此LSTM 可以具有較長的短期記憶,與RNN 相比具有更好的效果。

LSTM 遺忘門的結構如圖3(a)所示,其作用是決定上一時刻的單元狀態有多少會保留到當前時刻。設輸入數據為i維列向量xt,上一時刻的隱藏狀態為j維列向量ht-1,則參數矩陣Wif和Whf的維度分別為j×i和j×j,偏置矩陣bif和bhf的維度均為j×1。最終,遺忘門的輸出ft的計算公式如下:

LSTM 更新門的結構如圖3(b)所示,其作用是決定當前時刻網絡的輸入有多少會更新到單元狀態中。更新門首先對輸入數據xt和上一時刻的隱藏狀態ht-1進行計算,其中參數矩陣Wii和Wig的維度為j×i、Whi和Whg的維度為j×j,偏置矩陣bii、bhi、big、bhg的維度均為j×1。最終,更新門的輸出it和gt計算公式如下:

計算出it和gt后,即可和遺忘門的輸出ft與前一時刻的狀態Ct-1進行計算,得到更新的單元狀態Ct,其計算公式如下:

其中⊙表示哈達瑪乘積運算。

LSTM 輸出門的結構如圖3(c)所示,其作用是決定從更新后的單元狀態中輸出的信息。輸出門根據輸入數據xt和上一時刻的隱藏狀態ht-1計算得到輸出門的輸出ot,其計算公式如下:

圖3 LSTM 門控結構Fig.3 Gate control structure of LSTM model

其中參數矩陣Wio和Who的維度分別為j×i和j×j,偏置矩陣bio和bho的維度均為j×1。

最后,根據ot和更新后的單元狀態Ct,得到該時刻的輸出ht,并傳遞到下一個LSTM 單元中,ht的計算公式如下:

LSTM 相較于RNN 而言,在一定程度上解決了梯度消失和梯度爆炸問題。但是為了更好地捕捉雙向的語義依賴,通常會在NER 任務中選擇使用由前項LSTM 和后項LSTM 組合而成的雙向Bi-LSTM,并與CRF 結合使用以提高識別準確率。

1.3.2 中英文NER 相互借鑒關系

相對于中文命名實體識別而言,英文文本的NER 技術由于文本分詞界限清晰,相關研究起步較早,對應的成果和產品均已經處于成熟期。中文文本和英文文本同時具有相似的詞性類型和語法結構,因此國內外的學者近年來逐步嘗試將英文命名實體識別的相關技術應用到中文命名實體識別中。并且中文命名實體識別面臨的問題在英文文本中也有類似的體現。例如,對于原始數據的標注大多停留在原始的手工標注階段,需要一種相對穩定且可靠的標注手段。同時,隨著大數據時代的到來,每天都會出現大量的互聯網新詞,需要尋找一種能夠使詞典不斷更新的方式,以避免出現OOV(out of vocabulary)問題。因此,從已有的英文命名實體識別研究中尋找思路是極有必要的。

Zhao 等人[11]提出了一種多標簽CNN 方法,將實體識別任務作為分類任務處理,在原有的輸出層上加入多標簽機制,用于捕獲相鄰標簽之間的相關信息,在疾病名和化合物識別任務中取得了更好的效果。Wang 等人[12]提出了一種基于生成對抗網絡的數據增強算法,可以在不使用外部資源的情況下,生成更加多樣化的訓練數據擴大數據集,同時可以自動生成標注。為了解決文本數據中噪聲的干擾,Aguilar 等人[13]提出了一種多任務神經網絡,將CNN和BiLSTM 并行使用,能夠從字詞序列、語法信息和地名詞典信息中學習到更高階的特征。但該方法對于實體邊界的處理效果仍然不太理想。為了解決這個問題,Guo 等人[14]在模型中加入了注意力機制,同時針對中文語料,將部首嵌入集成到字符嵌入中作為輸入,以豐富語義信息。

在某些專業領域中,文本類型的語料庫規模較小,訓練的效果明顯降低。針對文本數據集較少的問題,Zhang 等人[15]提出使用GAN 模型所生成的注釋數據作為訓練數據,同時采用光滑近似逼近思想處理離散類型的文本數據,解決了標注數據缺乏和同一實體標注不一致的問題。通常在處理不同領域的數據集時,需要對模型進行重新訓練,在模型比較復雜且語料庫規模較大時會花費大量成本。Das等人[16]基于圖聚類算法,采用無監督方法提取語料庫中的實體關系,可以有效地將實體進行分類,并且適用于一般數據集。由于實體抽取的效果依賴于前期對文檔分詞的效果,有學者提出在文檔級別對文本進行實體抽取。Zhao 等人[17]使用基于文檔級的注意力機制,采用連續詞袋模型(continuous bag of words,CBOW)對輸入字向量進行預訓練,保證了實體標簽的一致性。Yang 等人[18]將雙向RNN 與膠囊網絡結合,提出了文檔級的BSRU-ATTCapsNet(bi-directional simple recurrent unit-attention-based capsule network)模型,不僅可以提取文檔中復雜結構的遠距離依賴信息,而且可以從多個維度學習實體對的更深層次的關系。

相較于傳統的深度學習模型,預訓練模型訓練的時間較短,同時訓練結果也通常優于傳統模型。預訓練模型是指已經用數據集訓練好的模型,在遇到相似的問題時,可以在調整模型中的參數后直接使用,大大縮短了模型訓練的時間。目前應用較多的主流預訓練模型有ELMo(embedding from language model)、BERT、GPT-2(generative pretrained transformer)、ALBERT 和Transformer 等。然而,預訓練模型的參數量并非越大越好,過多的參數量會產生推理速度慢、內存空間占用大的問題,從而增加了不必要的訓練時間。常見的預訓練模型參數量如圖4所示。

圖4 預訓練模型參數量對比Fig.4 Comparison of parameters of pre-training model

Guo 等人[19]提出了一種字級別的中文NER 方法,將BiLSTM 和Transformer-XL(Transformer-extra long)模型結合使用,解決了Transformer 位置和方向信息缺失的問題,大大提高了實體邊界識別的準確率。Cai[20]使用多準則融合方法構建BERT-DNN-CRF 模型以挖掘語料庫間的共有信息,從而提高中文命名實體識別的準確率和召回率。Liu 等人[21]將兩個BiLSTM 網絡以點對點的方式合并后與ALBERT 結合使用,提高了中文實體識別任務的細粒度,可以實現高精度的序列標注,在CLUENER 2020 數據集上可以達到91.56%的準確率。針對在命名實體識別時概念不夠明確或實體數量較少,導致F 值下降的問題,Chen 等人[22]提出了一種融合BERT 的多層次司法文書實體識別模型,使用掩碼語言模型(Masked LM)在BERT 層進行無監督預訓練,在中國裁判文書網上公開的裁判文書訓練中,F1 值達到了89.12%,明顯優于對照模型。

2 文本預處理

2.1 序列標注方法

序列標注(sequence tagging)是自然語言處理領域的基礎任務,其目標是對句子中每個單詞的實體或詞性進行標注,并在此基礎上預測給定的文本序列中的標簽類型。對于中文文本而言,序列標注任務即是對文本中每一個漢字給出一個對應的標簽。在命名實體識別任務中,常用的序列標注方法有三種,分別為三位序列標注的BIO 方法、四位序列標注的BMES 和BIOES 方法。表1 列出了標注的標簽類型所表示的含義。

表1 常用標注標簽類型含義Tabel 1 Meaning of common label annotation types

相較于BIO 方法,BIOES 方法額外提供了實體結束位置的信息,并給出了針對單字實體的標簽,因此可以提供更多的信息;但它需要預測的標簽更多,效果也可能因此而受到影響。在BIOES 的基礎上,衍生了針對于特定領域數據集的標注方法BILOU 和BMEWO,其表示含義如表2 所示。

表2 BILOU 和BMEWO 標簽類型Tabel 2 Annotation label types of BILOU and BMEWO

2.2 中文文本詞匯分割

在執行自然語言處理任務中,對于整段的文本,首先需要以字或詞為單位進行分割。分詞的準確率會對下游任務產生直接影響,分詞產生的誤差也將在接下來的過程中逐級傳遞。因此,作為自然語言處理的基礎,分詞是文本預處理環節的關鍵技術。

在以英語為代表的印歐語系語言中,每個單詞之間都以空格進行分割,因此可以相對簡單和準確地提取單詞,極大地降低了文本分詞的難度。然而,中文文本將漢字作為基本單位,使用連續的字符序列進行書寫,文本中的短語和詞組無法直接通過文本的外在屬性進行切分,在一定程度上影響了分詞的準確率。因此,近年來對于中文分詞(Chinese word segmentation,CWS)的研究受到了極大的關注。在國際計算語言協會(ACL)下屬的中文特殊興趣研究小組SIGHAN 舉辦的國際中文分詞比賽中[23-24],所使用的SIGHAN Bakeoff 2005/2008 依然是當前中文分詞研究的主要數據集。目前對于中文分詞任務,主要采用開源的中文分詞系統進行處理。圖5 列出了主要采用的中文分詞系統及其特性,并通過四類數據測試了不同分詞系統的分詞準確度。

圖5 不同分詞系統對比Fig.5 Comparison of different word segmentation systems

CWS 方法分為兩類:基于詞典的方法[25],根據預先定義的分詞規則,從字符串中切出單詞,然后與詞典中的單詞匹配以完成分詞。基于詞典的方法簡單有效,但這種方法無法處理不在詞匯表中的單詞,同時對于多義詞的切分效果不佳。基于統計的方法,依賴于從語料庫中學習的統計模型或特征[26-27],本質是將分詞視為一個概率最大化問題。統計方法在表外詞識別和多義詞分割方面有了很大的改進,但其分詞性能依賴于訓練語料庫的質量。并且基于統計的方法對于一些共現頻率高的單字符詞的識別精度較差,大多情況下有較高的時間復雜度。近年來,基于神經網絡的連續小波分解方法,由于其非線性映射能力、自學習能力以及有效減少特征工程工作量的優勢,多次被用于解決CWS 問題[28-30]。

中文分詞相較于英文分詞,存在著以下四個難點:第一,在漢語中,同一個漢字在不同的語境中可能有不同的語義;第二,漢語中的詞不僅可以是一個字符,也可以由兩個或多個字符組成;第三,漢語句子中的每個字之間處于緊密連接的狀態,詞組之間沒有明顯的切分特點和詞性變化;第四,許多新詞匯的出現和中英文混合詞匯的加入給分詞帶來了挑戰。針對上述問題,國內外的學者展開了深入研究。

Wang 等人[31]和Li 等人[32]利用深度神經網絡的優勢,自動學習和提取CWS 深度特征,極大地降低了傳統機器學習序列標記模型中,稀疏特征向量和維數過大導致內存和計算資源的浪費。對于跨域CWS,Zhang 等人[33]提出了一種用于聯合CWS 和詞性標記的監督域自適應方法。Qiu 等人[34]基于連續小波分解方法,提出了一種使用雙傳播算法自動挖掘小說名詞實體的方法。Zhang 等人[35]將外部字典集成到CWS 模型中,提高了跨域CWS 的準確率。

作為一種替代表示學習模型,自注意力網絡(self-attention network,SAN)[36]已被證明對一系列自然語言處理任務非常有效,例如機器翻譯[37]、選區解析[38]、語義角色標記[39]和語言建模[40-42]。Gan 等人[43]首次使用SAN 模型處理CWS 任務,不僅可以實現高度并行化,而且在域內和跨域中文分詞數據集上都能夠實現良好的效果。然而,現有的中文自動分詞研究成果還不能完全滿足實際應用的需要。在一些專業領域中,對于分詞規范化、分詞歧義、非語料庫詞識別、分詞順序等問題,仍然需要進一步研究。

2.3 中文NER 任務常用數據集

為了準確地評估中文NER 模型識別的效果,研究人員嘗試采用一種可以通過理論證明的模型評價方法。在通常情況下,同一模型在不同環境下的效果存在較大的差異,因此需要提供一個基準評估數據集,從而客觀地評價當前模型的實體識別效果,進而開展下一步模型分析和改進的研究。

對于中文命名實體識別任務而言,數據集中標簽的標注準確率可以對模型的識別效果產生很大的影響。圖6 列出了近年來在中文命名實體識別任務中常用的數據集,并列舉了其年份、來源和實體類型數量。

圖6 中文NER 常用數據集Fig.6 Commonly used Chinese NER datasets

2.4 模型評價指標

模型在構建完成后,需要對其執行結果進行評估。模型評估不僅為了確認該模型是否符合實際的需求,而且在評估的同時,模型的參數和特征值都需要根據評估結果進行相應的修正,從而對模型進一步優化。對于同一個模型,需要從各個角度進行評估,而非從某個單一的角度判斷其性能優劣。當多種模型進行橫向對比時,使用不同的評價方法往往會導致不一樣的測試結論。因此,在評估具體模型時,評估結果的好壞通常是相對的。總體而言,模型的好壞不僅取決于測試數據的質量和使用算法的性能,還決定于所完成任務的具體需求。

在知識抽取任務中,常見的評價指標有準確率(precision)、召回率(recall)和F 值(F-score),這三個指標常被用來衡量所采用的知識抽取系統的性能。由于在二元分類任務中,預測結果和真實情況之間存在四種不同的組合,即預測為正例的正樣本TP、預測為正例的負樣本FP、預測為負例的正樣本FN 和預測為負例的負樣本TN,這四者組成了二元分類任務的混淆矩陣(confusion matrix)。

準確率:指在所有預測為正例的樣本中,真實值也為正例的概率。

召回率:指在真實值的所有正樣本中預測為正例的概率。

F 值:用來衡量二分類模型精確度的一種指標,當準確率和召回率發生相互矛盾的情況時,可以同時兼顧分類模型的精確率和召回率兩個評價指標。

當準確率和召回率都很重要時,可以認為二者有相同的權重,即β=1,則稱此時的F 值為F1 值。

模型的評估檢驗方式眾多,以下對其中常用的三種檢驗方式進行介紹。

(1)Holdout檢驗

Holdout檢驗是一種最為簡單也最為直接的驗證方法。它將原始的數據集隨機劃分成訓練集和驗證集兩個互斥的集合。這種方式的缺點也很明顯,計算出來的評估指標與劃分方式有很大的關系,并且當數據集中數據不平衡時,無法進行劃分。為了消除這種隨機性,引入了交叉檢驗的方式。

(2)交叉檢驗

交叉驗證的核心思想是在已有數據集規模較小的情況下重復使用數據。首先對數據集進行切分,并將切分后的子集歸為訓練集和測試集兩類,最終基于訓練集和測試集反復進行模型的訓練和優化,從而對模型進行檢驗。從數據切分的方式上看,交叉檢驗分為簡單交叉驗證和K-fold交叉驗證兩種方式。

簡單交叉驗證首先將給定的數據劃分為訓練集與測試集兩部分,接著用訓練集在不同的條件下對模型進行n次訓練,從而得到n個不同的模型;最后在測試集上對當前n個模型進行測試,計算其測試誤差,并選取誤差最小的模型作為最優訓練模型。

K-fold 交叉驗證首先將全部樣本劃分成k個大小相等的樣本子集;接著依次遍歷這k個子集,每次遍歷利用k-1 個子集的數據作為訓練集,余下的子集作為測試集,進行模型的調參和優化;最后把k次評估指標的平均值作為最終的評估指標。

(3)自助檢驗法

不管是Holdout 檢驗還是交叉檢驗,其原理都是基于劃分訓練集和測試集的方法來進行模型評估。然而在實際情況中,訓練數據集的規模通常較小,因此無論如何進行劃分都會減少訓練集的規模,從而影響模型的訓練效果。此時基于自主采樣的自助法成為了目前針對小規模樣本模型評估的主流選擇。

自助法首先對總數為N的樣本集合進行N次有放回的隨機抽樣,根據抽樣結果得到大小為N的訓練集。由于采樣過程隨機,必定會存在從未被抽取的樣本。自助法將這些沒有被抽取過的樣本作為驗證集,進行模型驗證。

當采用自助法進行模型評估時,訓練數據集越大,其訓練集和驗證集的比例越會趨近于一個穩定值。其證明過程如下:

由于在一次抽樣過程中,某一樣本未被抽中的概率Pval為:

則N次抽樣均未被抽中的概率為:

當訓練集較大時,N可以視作趨近于無窮大,則當樣本數較大時有:

也即當樣本數很大時,樣本中約有36.8%的數據會作為驗證集使用。

3 中文字詞特征融合

傳統的中文命名實體識別方法根據固定的轉換編碼,將每個漢字轉換為特征向量輸入到網絡模型中。然而,這種方法存在著較為嚴重的局限性。首先,該類方法僅利用了漢字自身的特征,并沒有結合字在詞中的位置信息,會導致出現上下文語義缺失的問題。同時,與英文單詞不同,漢字自身具有豐富的象形特征,而這種固有的特征信息并沒有被充分利用。為了解決上述問題,在中文特征融合這一方面有超過百篇的文章來討論如何解決語義缺失問題。根據所融合的特征對象進行劃分,大體上可以分為兩類特征融合:詞語特征融合和漢字特征融合。

3.1 詞語特征融合

在中文文本中,分詞的錯誤引起的錯誤傳播會導致命名實體識別的效果變差,使用常規的通用分詞方法甚至會導致基于詞語的NER 方法的準確率低于基于字符的方法[44]。因此,為了有效利用單詞序列信息,可以采用一種格結構[45]進行處理,通過詞開始和結束的字符來確定所在的位置。該方法的主要缺點在于只適用于LSTM 模型,存在一定的信息損失且無法使用GPU 進行并行化計算。

為了解決這些問題,Sui 等人[46]構建了三種不同的字詞連接圖網絡,并使用生成式對抗網絡提取三種圖網絡中的前n個字符節點的特征,證明了該方法可以有效避免詞級別特征融合時的信息損失。為了避免信息損失而導致的詞沖突問題,Gui 等人[47]將中文NER 視為一個圖節點分類任務,通過圖結構實現局部信息的聚合,并增加全局節點進行全局信息融入。Ma 等人[48]將特定長度的單詞放在特定的層中,并加入整個句子的語境信息和更高維度的信息,不僅減少了單詞之間的沖突,而且實現了模型的并行計算。Kong 等人[49]將每個字能夠對應的標簽匯成一個分詞標簽嵌入向量,在融合詞典的嵌入向量與字向量直接連接,可以極大地提高訓練速度。

為了捕捉長距離的依賴,Transformer 模型采用了自注意力機制以保持位置信息。由于自注意力機制具有無偏性,可以使用位置向量來提取位置信息。Li 等人[50]根據自注意力機制的無偏性,對文獻[45]的結構進行了重構。具體而言,該方法對于所有漢字和詞都提供了一個位置向量,以包含其開始和結束位置。因此,所提出的FLAT(flat lattice transformer)模型可以直接實現字符與所匹配的全部詞匯的交互。

3.2 漢字特征融合

作為世界上最古老的文字之一,漢字由于其濃縮性和聯想性的特點,使得單一漢字可以包含極大數量的隱含信息。與其他語言相同,漢字的語義會隨著說話者的語氣、說話的時間和場合以及上下文語境的不同而變化。同時,漢字作為一種象形文字,文字本身也蘊含著大量的特征信息,例如漢字的筆畫、筆順、偏旁部首以及語調。這些特征信息交融在一起,共同構成了漢字豐富的語義信息。在Zhang 等人[51]的研究中已經證明,筆畫、結構和拼音相似的漢語單詞具有相似的語義。因此,對漢字的固有字形特征進行提取是很有必要的。在現有的研究中,主流方法包括融合漢字字形特征、漢字筆畫特征、漢字偏旁特征和漢字讀音特征等。

3.2.1 漢字字形特征

基于傳統的命名實體識別方法,Li等人[52]結合漢字的詞性特征,對中文文本進行命名實體識別,并證明了詞性特征可以有效提高中文命名實體識別的準確率。作為一種象形文字,漢字自身固有的形態也可以視作一種特征。因此有學者嘗試將漢字視為圖像進行處理[53]。

Su 等人[54]對漢字的位圖進行處理,通過自動編碼器直接從字符的位圖中學習,并依據漢字圖向量進行語義增強。Meng 等人[55]使用了一種改進的CNN 處理漢字位圖,有效提高了模型的泛化性。

3.2.2 漢字筆畫特征

為了得到單詞和字符是如何構造的先驗假設,以自動獲取與漢語單詞相關的有意義的潛在表示,有學者提出利用漢語單詞所傳達的筆畫信息,來捕捉單詞的形態和語義信息。Cao 等人[56]首次提出了使用漢字的筆畫特征信息進行語義增強的思想,將漢字筆畫分為五種不同的類型,并為每個筆畫分配一個整數類型的ID 值作為特征標識。實驗證明引入筆畫特征后可以得到更好的中文實體識別效果。Zhang 等人[57]對中文和日文的筆畫特征進行特征提取和比對,并應用在機器翻譯中,識別率得到了顯著提高。

3.2.3 漢字偏旁特征

在中文文本中,漢字的偏旁是由筆畫所組成,因此可以包含筆畫特征的一部分特征信息。同時,漢字的偏旁在一定程度上可以反映漢字所屬的類別。由此可見,對漢字的偏旁特征進行提取可以實現更好的識別效果。

Sun 等人[58]通過使用漢字的詞根特征,在中文命名實體識別任務中的識別率得到了顯著提高。同時,Shao 等人[59]也通過實驗證明,在中文自然語言的理解任務中,對詞根和偏旁這類漢字的固有特征進行提取可以起到良好的改進作用。

在文獻[55-56]的基礎上,Chen 等人[60]對漢字的偏旁特征進行提取,并結合GRU-GatedConv(gated recurrent unit with gated convolution)網絡,在公開數據集上進行了測試,實驗結果表明提取偏旁特征對中文命名實體識別起到了積極的作用。在中醫領域,Yang 等人[61]將筆畫特征和偏旁特征結合使用進行命名實體識別,其F1 值高于單獨使用筆畫特征或偏旁特征。

3.2.4 漢字讀音特征

在中文文本中,即使是同樣的漢字,在不同的語境下所代表的含義也有所差異,有的時候甚至代表了完全相反的含義。其中,漢字的讀音在一定程度上可以反映說話人的情感或所處語境的類型。同時,從語言學的角度來看,口語是一種更直接的語義表達,文本只有作為口語的記錄時才具有實際意義。因此,漢字的讀音也作為漢字的固有特征之一,得到了廣泛的研究。

Zhang 等人[51]在Cao 等人[56]研究的基礎上,將漢字的拼音特征嵌入到漢字的特征向量中,并通過實驗證明了融合拼音特征、字形特征和偏旁特征的識別準確率高于僅使用字形特征和偏旁特征。Zhu 等人[62]在漢語文本中引入漢字的讀音特征向量,并采用相同的模型進行比對,結果表明讀音特征的引入對文本的識別可以起到良好的改進效果。Chaudhary等人[63]同樣將漢字的拼音特征融入網絡模型中,使模型的識別效果得到顯著的提升。Zhang 等人[64]結合上述特征,將漢字的結構、偏旁、筆畫和拼音特征融合到漢字的字符向量中,并通過設計特征子序列來學習這些特征之間的相關性。該方法在融合了四種漢字固有特征后,在中文命名實體識別任務和文本分類任務中的結果均優于目前最先進的方法。

4 中文命名實體識別方法改進

中文命名實體識別相較于英文而言,首先面臨的問題就是如何對文本中的詞語進行正確的分割。同時中文的詞語數量龐大,且更新速度快,時效性較強,因此基于詞典的模型往往會出現無法識別新詞的問題。并且一詞多義和多音字的問題在中文文本中廣泛存在,需要進行特殊的標記處理。最后,對于識別性能較好的模型,需要對其中的算法進行優化,以縮短模型的訓練時間和模型泛化性。

4.1 模型結構優化

近年來,基于深度學習的模型逐漸成為命名實體識別主流的解決方案。與基于特征的方法[65]相比,基于深度學習的模型有助于發現文本中隱含的深層特征。根據單詞在句子中的形式,可以把基于深度學習的模型分為處理字和處理詞兩類。

對于處理字的模型,輸入的句子被視為一個字符序列,該序列通過相應模型結構,輸出各個字符對應的預測標簽。Peters等人[66]提出了ELMO 模型對中文文本進行處理,該模型在具有字符卷積的兩層雙向語言模型的基礎上計算,具有較高的準確率。對于處理詞的模型,輸入的每個單詞都由其單詞嵌入表示。Yadav 等人[67]提出了一個詞級別LSTM 結構,并使用CRF 層處理預測的標簽向量以提高模型性能,在CoNLL 2003 數據集上獲得了84.26%的F1 分數。在實際的應用環境中,需要減少模型的訓練時間,針對這個問題,Yohannes 等人[68]使用CNN 進行語義信息的降維,極大地減少了模型的參數量。

在醫學命名實體識別領域,Xie 等人[69]使用skipgram 編碼引入漢字詞匯特征,在CCKS 2019 公開數據集中取得了較好的醫學實體識別效果。Lee 等人[70]基于一種改進的圖神經網絡,并結合多特征融合方法,在保證模型識別效果的情況下提高了模型的識別效率。華為諾亞方舟實驗室首創了一種預訓練語言模型哪吒NEZHA[71],該模型首次使用了函數式相對位置編碼。通過對比實驗可發現,采用了函數式相對位置編碼的方式明顯優于其他位置的編碼方式。

4.2 基于BERT 的預處理方法

BERT 是在2018 年由谷歌公司的Devlin 等人[40]提出的一種基于深度學習的語言表示模型,其主要的模型結構是Transformer 編碼器。BERT 模型使用掩詞模型和相鄰句預測兩個方法完成文本字詞特征的預訓練。其中,掩詞模型通過將單詞掩蓋,從而學習其上下文內容特征,來預測被掩蓋的單詞;相鄰句預測通過學習句子間關系特征,預測兩個句子的位置是否是相鄰的。由于BERT 在做文本處理類任務時,不需要對模型做過多修改,在中文命名實體識別的研究中受到了廣泛的關注。谷歌公司在2018 年發布了用于處理中文文本的BERT 模型,該模型僅含有1.1×108的參數量,并可以識別簡體中文和繁體中文。該模型一經問世,便有眾多學者嘗試將它用于中文命名實體識別任務中。

Li 等人[72]將外部詞典知識直接集成到BERT 層中,實現詞典增強型BERT 做預訓練。直接使用BERT 雖然可以提升識別的準確率,但是由于BERT內部參數過多,會導致內存不足和訓練時間過長等問題。因此,Lan 等人[73]提出了一種簡化的BERT 模型ALBERT,該模型使用跨層參數共享方法,在略微犧牲模型性能的情況下極大地減少了模型的參數量和訓練時間。Xiong等人[74]將ALBERT 和雙向長短期記憶神經網絡相結合,并用于中國政府公文的處理,在各類政府文書實體上均實現了良好的識別效果。

在醫學領域,同樣開展了一系列關于醫學中文實體識別的研究。Wen 等人[75]使用BERT 對中醫文本進行了實體識別,根據比對識別效果,證明了預訓練的語言模型在中醫命名實體識別任務中的有效性。Xiao 等人[76]對多源詞典信息進行了融合,不僅提高了中醫實體識別的效果,而且模型具有良好的領域遷移性。Zhang 等人[77]將字符與所對應的詞匯相結合,在CCKS 2019數據集中實現了84.98%的F1值。

對于臨床醫療診斷文本,Zhu 等人[78]將多個Bi-LSTM 模型與BERT 結合,并通過實驗證明以交錯的方式堆疊Bi-LSTM 模型相對于直接堆疊可以實現更好的識別效果,并可以花費更少的訓練時間。針對臨床醫療診斷文本標注量少的問題,Chen 等人[79]結合BERT 模型,采用半監督方法進行訓練,減少了對大量標記數據的依賴。同時,對比研究表明,在已有模型的基礎上,使用BERT 模型作為編碼器進行預訓練,可以在醫學實體的識別任務中取得良好的效果。表3 列出了在CCKS 2020 數據集上表現良好的幾種模型,其相應的實現效果使用F1 值作為評價指標[80-83]。

表3 基于BERT 的模型在CCKS 2020 上的效果Tabel 3 Effect of BERT-based models on CCKS 2020

4.3 實際應用優化

相對于實驗環境中的理想情況,實際工程應用中的因果結構常常會存在各種偽相關的路徑。由于預訓練數據和所使用測試集之間的偽相關性,預訓練模型會對特定標簽有一定的預測偏好。一旦對預訓練數據或測試集進行很小的干預,性能就會迅速下降,極大地影響命名實體識別的準確率。同時,同一概念可以存在多種表達方式,這也導致了預訓練模型在不同測試集上的效果極不穩定。目前主流的方法是在文本中引入更多的信息,主要分為加入示例的類比信息[84]和加入上下文推理信息[85]兩類。

加入上下文推理信息是指在原有基礎上,增加通過檢索得到的相關上下文[86]。上下文推理信息分為顯式和隱式兩種推理方式。顯式推理指上下文中已經包含了答案的詞語;隱式推理指上下文中雖然沒有明確給出具體的答案,但是同樣可以根據詞性等方式預測答案。這種方式可以對文本的各種表述有更高的適應能力,在一定程度上提高模型的預測穩定性。加入示例的類比信息是指在原有基礎上,增加一些示范性的樣例[87]。這種方式可以借助示例的類比,幫助模型更好地識別實體類別,同時也提升了答案的類別準確率,從而提升了NER的準確率[88]。這種方式也存在著不足之處。所加入的示例只能幫助預訓練模型更好地識別實體的類別,對于某一個類別內部的實體識別效果,并沒有實質性的提升。并且,預測偏好的問題在示例類比過程中同樣存在。預訓練模型同樣傾向于選擇示例中的標簽,導致預測存在整體的偏差[89]。同時,錯誤的示例標簽對模型的性能影響并不明顯。Min 等人[89]在12 個不同的主流模型上進行了測試,發現即使僅有格式正確的輸入或輸出時,模型的識別效果依然可以達到95%以上。因此,加入示例的類比信息導致的模型性能提高,主要是因為模型學習了輸出的大致分布,而并非輸入和輸出的對應關系。

目前,命名實體識別在大型網商平臺的應用包括搜索召回、情感分析等。在網商平臺的O2O(online to offline)搜索中,對商家的描述是商家名稱、地址等多個互相之間相關性并不高的文本域,如果采用簡單取交集的方式,必然會產生大量的誤召回。國內的某電商技術團隊采用實體詞典匹配和模型預測相結合的框架,使模型預測具備泛化能力,同時解決了詞典匹配的歧義問題。整體識別架構如圖7 所示。

圖7 實體識別整體架構Fig.7 Entity recognition overall architecture

同時,用戶數據的吞吐量極大,因此存在搜索性能和訓練數據質量的要求。針對以上問題,該電商技術團隊采用模型蒸餾、算子融合、混合精度和批處理推理的方式,在不影響效果的基礎上,極大提升了模型訓練和預測的速度。同時,通過弱監督標注數據生成的方法,解決了標注數據難以獲取的問題,在搜索召回的實際應用中取得了良好的效果。

5 中文命名實體識別實際應用

5.1 中文命名實體識別在醫療領域的應用

電子病歷作為一種重要的醫學信息資源,是衛生健康領域信息化的重要組成部分之一。研究者通過利用其中蘊含的大量關于疾病癥狀、診斷和治療信息,使用自然語言處理和人工智能技術來挖掘和發現電子病歷中的有效知識,可以有效優化就醫流程和降低醫療成本。近年來,隨著“互聯網+醫療”概念的引入,電子病歷系統廣泛應用于各級醫院,電子病歷文本的數量也隨之呈爆炸式的增長。然而,當前對于醫療領域的命名實體識別仍然存在著許多問題。首先,現階段暫時沒有系統化的中文醫學語料庫,對醫療領域命名實體識別的研究造成了許多困難;同時,在醫療領域內傳統使用的RNN 模型在文本序列較長時,容易損失大量的有價值信息;并且,現有方法大多僅將一個文本序列映射為單一的向量表示,無法從多個維度分析文本序列的特征;最后,當前醫療領域命名實體識別的研究對標注訓練數據集的數量和質量依賴極大。但是,醫療領域數據集中大量的醫學專有名詞、非標準化的名詞縮寫、大量專業名詞的英文縮寫和書寫或表達錯誤產生的噪聲,都對當前的研究帶來了巨大的挑戰。

針對醫學語料庫較少的問題,美國國家集成生物與臨床信息研究中心針對不同疾病危險因素,在2006 年建立了較為完善的生物疾病信息語料庫。我國的知識圖譜與語義計算大會從2017 年開始,組織了多次面向中文電子病歷的命名實體識別評測任務,并構建了中文電子病歷的語料庫。Su 等人[90]所在的研究團隊在國內外電子病歷標注規則的基礎上,提出了一套相對完整的中文電子病歷命名實體標注方案。

同時,國內外的學者對所使用的模型也進行了相應的優化。Luo 等人[91]將領域詞典和多頭注意力機制相結合,不僅捕獲了語境、語義等潛在特征,而且減少了數據不均衡導致的精確度降低問題。Wang等人[92]采用了RNN-CNN 的混合式結構,并使用RoBERTa(robustly optimized BERT pretraining approach)進行向量嵌入表示,在處理長短交替的序列文本時實現了更高的準確率和更短的訓練時間。Tian等人[93]使用泛化的通用語料庫對當前基于Transformer 的衍生模型和基于BiLSTM-CRF 的衍生模型進行了評估,證明了基于Transformer 的衍生模型擁有更為優秀的泛化性。Li等人[81]采取了特征融合的思路,使用BiLSTM 和IDCNN(iterated dilated CNN)分別提取文本的上下文特征和局部特征,F1 值在CCKS 2020 的數據集中達到了89.68%。

針對中文電子病歷數據集質量存在的問題,Zhang等人[94]采用RoBERTa 與WWM(whole word masking)方法結合的方式進行預訓練,有效減少了數據集中文本噪聲的影響。Jing 等人[95]針對小樣本電子病歷數據集,采取了半監督的方式,顯著降低了人工標注的工作量,對相關項目的實際應用開發有較大的指導意義。

5.2 中文命名實體識別在政法領域的應用

近年來,隨著國家司法和政務改革的持續開展,政法領域智能化平臺的建設受到了廣泛的關注,對海量的政法類文書進行智能分析和處理已成為當前研究的重要內容。在目前政法領域命名實體識別的研究中,主要存在以下兩點問題:首先,現有的政法命名實體識別大多傾向于識別實體的固有屬性,而并沒有落實到政法屬性,限制了諸如政法知識圖譜下游任務的展開。同時,相對于通用領域的NER 任務,政法領域要求實體識別的細粒度更高。例如,對于地理實體的識別,通用領域的NER 只要求提取出大體的行政區即可。然而政法領域所需要提取的地理實體常常需要精確到街道和樓宇一級,因此使用現有的方法會導致準確率降低,并產生很大的誤差。

針對上述問題,國內外的學者近年來對此展開了一系列的研究。Li 等人[96]通過手工的方式構建法律文本語料庫,在司法領域中取得了86.09%的F1值。Liu 等人[97]采取自監督的方式,在迭代過程中擴展標注詞典,只需要手工標注小部分數據即可達到良好的效果。針對政法領域實體的高細粒度要求,Ding 等人[98]使用ELECTRA 模型對電信網絡詐騙案件文本進行處理,可以得到細粒度較高的識別實體。然而,噪聲和一詞多義的問題仍然沒有得到有效解決。Roegiest等人[99]提出使用句子的邏輯傾向進行標記,從而縮小實體識別的范圍。在文獻[99]的基礎上,Donnelly 等人[100]提出了一種雙層結構的篩選器,其中一層對可能包含實體的句子進行篩選,另一層對句子中實體的位置進行篩選。這種方式不僅緩解了數據不均衡的問題,而且提高了實體識別的細粒度。

6 結束語

對于中文命名實體識別任務而言,目前所提出的模型和方法基本可以滿足實際生產環境的需要,并且在特定領域中能夠達到令人滿意的識別準確率。但是,當前中文NER 的研究仍然受到諸多因素的制約,主要存在以下四點的不足:第一,現有的中文NER 模型參數量十分龐大,模型的訓練需要消耗大量的時間,因此需要一種輕量化的模型來彌補這一不足之處。第二,當前的研究大多集中在特定領域,也即所提出的模型大多具有領域專一性,在遷移領域數據集后,模型的效果可能會明顯降低,因此需要提出一種具有良好泛化性的模型。第三,當前大多神經網絡模型對于訓練詞表外的詞的識別效果不佳。第四,目前所使用的網絡模型大多是基于人工神經網絡的結構,因此可以嘗試與生物神經學相結合,使用基于脈沖神經網絡的方法開展進一步研究。

猜你喜歡
特征文本方法
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品成人AⅤ在线一二三四| 亚洲第一天堂无码专区| 国产无码精品在线播放 | 成年人国产网站| 久久久久中文字幕精品视频| 欧美成人一区午夜福利在线| 92午夜福利影院一区二区三区| 国产91透明丝袜美腿在线| 91丝袜美腿高跟国产极品老师| 97av视频在线观看| 国产91九色在线播放| 亚洲欧洲日本在线| 91国内外精品自在线播放| 国产精品福利一区二区久久| 欧美成a人片在线观看| 国产91无毒不卡在线观看| 第一区免费在线观看| 干中文字幕| 国产成人精品一区二区| 亚洲欧美一区在线| 日本一区高清| 99精品热视频这里只有精品7| 国产精品夜夜嗨视频免费视频| 日韩午夜片| 91丝袜在线观看| 国产视频a| 亚洲精品无码人妻无码| 国产原创第一页在线观看| 亚洲无码精彩视频在线观看| 亚洲色图狠狠干| 99国产精品国产| 黄色不卡视频| 亚洲日本中文综合在线| 日韩中文无码av超清| 亚洲无码高清免费视频亚洲| 9啪在线视频| 久久亚洲国产最新网站| 国产成人8x视频一区二区| 激情综合网激情综合| 色香蕉影院| 国产一在线| 女人18毛片久久| 18禁黄无遮挡网站| 欧美一级夜夜爽www| 午夜精品久久久久久久无码软件| 福利片91| 久久毛片免费基地| 欧美午夜网| 成人免费网站在线观看| 麻豆精品在线视频| 91成人精品视频| 国产在线97| 国产色网站| 亚洲欧美综合另类图片小说区| 538国产在线| 97精品伊人久久大香线蕉| 亚洲成人免费看| 99久久精品国产综合婷婷| 亚瑟天堂久久一区二区影院| 久久无码av一区二区三区| 九九热免费在线视频| 67194在线午夜亚洲| 另类重口100页在线播放| 亚洲欧美国产视频| A级毛片高清免费视频就| 女人av社区男人的天堂| 久久久久国产精品熟女影院| 亚洲系列中文字幕一区二区| 亚洲欧美在线看片AI| 国产AV无码专区亚洲A∨毛片| 一级看片免费视频| 国产一区自拍视频| 中文天堂在线视频| 一级毛片免费不卡在线视频| 国产精品永久久久久| 成人一区专区在线观看| 久久久波多野结衣av一区二区| 亚洲视频无码| av一区二区三区高清久久| 日韩人妻少妇一区二区| 最新亚洲人成网站在线观看| 欧美一级高清免费a|