














摘 要:實體漏標是目前遠程監督命名實體識別(distantly supervised named entity recognition,DS-NER)存在的一個難點問題。訓練集中的漏標實體在模型訓練中提供了不正確的監督信息,模型將在后續預測實體類型時更傾向于將該類實體預測為非實體,導致模型的實體識別和分類能力下降,同時影響了模型的泛化性能。針對這一問題,提出了融合實體特征相似度計算負采樣命名實體識別方法。首先,通過對候選樣本和標注實體樣本進行相似度計算并打分;其次,以相似度得分作為依據對候選樣本進行采樣,采樣出參與訓練的樣本。與隨機負采樣方法相比,該方法通過結合相似度計算,降低了采樣到漏標實體的可能性,進而提高了訓練數據的質量,從而提升了模型的性能。實驗結果表明,該方法在 CoNLL03、Wiki、Twitter三個數據集上與其他模型相比,比基線模型平均取得了5%左右的F1值提升,證明了該方法能夠有效緩解遠程監督條件下實體漏標帶來的命名實體識別模型性能下降的問題。
關鍵詞:命名實體識別; 實體漏標; 遠程監督; 負采樣; 數據增強
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)08-011-2322-07
doi:10.19734/j.issn.1001-3695.2023.12.0577
Incorporating similarity negative sampling for distantly supervised NER
Liu Yang1,2, Xian Yantuan1,2, Xiang Yan1,2, Huang Yuxin1,2
(1.Faculty of Information Engineering & Automation, Kunming University of Science & Technology, Kunming 650500, China; 2.Yunnan Key Laboratory of Artificial Intelligence, Kunming 650500, China)
Abstract:The entity omission is a typical problem of distantly supervised named entity recognition. Entity omission in the training set provides incorrect supervision information during model training, model will be more inclined to predict this type of entity as a non-entity when subsequently predicting entity types, resulting in a decline in the model’s entity recognition and classification capabilities, and affects the generalization performance of the model. To deal with the problem, this paper proposed a incorporating similarity negative sampling for distantly supervised named entity recognition. Firstly, it calculated and scored the similarity between the candidate samples and the labeled entity samples. Secondly, it sampled the candidate samples based on the similarity score, and sampled the samples participating in the training. Compared with the random negative sampling method, this method reduced the possibility of sampling missing entities by combining similarity calculations, thereby improving the quality of training data and thus improving the performance of the model. Experimental results show that compared with other models on the three data sets of CoNLL03, Wiki, and Twitter, compared with the baseline model, the proposed model achieved an average F1 value improvement of about 5 percentage points. It is proved that this method can effectively alleviate the problem of performance degradation of the named entity recognition model caused by missing entities under distantly supervised conditions.
Key words:named entity recognition; entity omission; distantly supervised; negative sampling; data augmentation
0 引言
命名實體識別(named entity recognition,NER)主要是從文本中識別出特定類別的實體,例如人名、地名、組織機構名等,是自然語言處理(natural language processing,NLP)中的基礎任務之一,能夠服務于事件抽取[1]、實體鏈接[2]、關系抽取[3]、知識圖譜等一系列下游任務。例如:在對話理解任務中,系統通過命名實體識別系統提取出相應的實體詞,能夠幫助系統更加準確地理解對話;在機器翻譯任務中,正確的識別命名實體有助于保證翻譯的準確性和一致性,提高機器翻譯模型的整體性能,所以提升命名實體識別模型的性能是十分必要的。
早期的命名實體識別任務識別實體種類少,標注粒度較粗,且語種和領域單一,隨著自然語言處理任務的不斷發展和應用領域的不斷拓展,為了保障下游任務的性能,就對命名實體識術提出了更高的要求。實體種類由早期的幾類實體類型發展到十幾類實體類型;標注粒度從早期的粗粒度標注進化到更細粒度的標注;從早期的大語種不斷發展到使用人口較少的語種,并且根據不同具體的應用領域衍生出了針對領域的命名實體識別等。由于上述原因,命名實體識別使用人工標注訓練數據成為了制約模型性能發展的一大瓶頸。由于語種與領域的不斷拓展,利用人工方式來標注數據花費時間較長,成本較為高昂,難以滿足當前條件下各類命名實體識別模型對訓練數據的要求。一種解決手段是引入遠程監督(distantly supervised,DS)[4]的策略,不同于傳統命名實體識別方法采用人工標注數據來訓練,遠程監督的思路是利用外部知識庫或領域詞典對來自不同語種或者不同領域的訓練數據進行大量的標注,這樣可以使得模型獲得所需的訓練數據,從而緩解訓練數據缺乏的問題。在擁有了訓練數據后,命名實體識別模型的應用領域由此得到了極大擴展,下游任務性能也因此得到了提高。
不過基于遠程監督方法的命名實體識別仍存在缺陷,這阻礙了遠程監督方法的進一步使用,因為通過遠程監督獲取的標簽,標注的實體大多有正確的標簽,由于外部知識庫或詞典并不是完備集,其覆蓋范圍有限,不能保證完全覆蓋數據集中包含的所有實體,從而導致數據集中有少量標注數據存在實體被漏標的情況。圖1展示了一個遠程標注示例,其中“OGR”指機構,“PER”指人名。第一行是初始文本,第二行是遠程監督標注,第三行是正確標注。示例中,由于外部知識庫或者詞典不完備,機構實體“Manchester City”和“Arsenal”未被標注。
若有某個實體在訓練集中被漏標,模型在訓練時便會將其作為非實體學習,導致模型在后續預測實體類型時更傾向于將該實體預測為非實體,這將損害模型的性能。
在訓練過程中引入負采樣策略緩解漏標實體問題是當前的一種主流方法,能夠在一定程度上避免采樣到漏標實體作為負例參與訓練。已有的采樣方法在采樣策略上進行了諸多探索,如隨機采樣、均勻采樣[5]、加權采樣[6]等,有效地提升了遠程監督命名實體識別的效果。然而上述模型的采樣方法在采樣策略上大多帶有一定的隨機性,不可避免地導致采樣出部分漏標實體參與訓練,給模型帶來了不正確的監督信號,從而導致命名實體識別模型性能下降。
針對上述提出的問題,本文提出了融合相似度負采樣的遠程監督命名實體識別方法。該方法主要貢獻在于:
a)不同于之前方法的負采樣策略帶有隨機性,本文提出了融合相似度計算的主動采樣策略,能夠盡可能地避免采樣出未標注的實體參與訓練,提高訓練數據的質量,緩解實體漏標帶來的模型性能下降問題。
b)采用了基于同義實體詞替換的數據增強方法,有效地擴充了訓練數據,同時提高了訓練樣本的豐富度,而且可以獲得相對原始數據更多樣性的語義特征。
c)本文方法在CoNLL03、Wiki、Twitter三個數據集上的結果與以往的基線模型相比,性能相比基線模型平均取得了5%左右的F1值提升。
1 相關工作
命名實體識別方法的發展經歷了基于規則和手工模板的方法、基于統計機器學習方法和基于深度學習的方法三個階段。
早期的命名實體識別方法主要采用基于規則和手工模板的方法,該方法主要通過相關領域專家對目標文本手工制定有效的規則識別命名實體。
基于統計機器學習的方法從給定的、有標簽的訓練數據出發,然后通過手動方式構造特征,根據特定模型對文本中的每個單詞進行標簽的標注,實現命名實體識別。方法有條件隨機場(conditional random field,CRF)[7,8]、最大熵模型(maximum entropy,ME)[9]、支持向量機(support vector machine,SVM)[10]、隱馬爾可夫模型(hidden Markov model,HMM)[11]等。
近年來,隨著技術的發展和計算設備算力的不斷提升,深度學習在計算機視覺、圖像處理等方面取得了巨大的成功,而且在自然語言處理領域的應用也取得了很大的進步。命名實體識別方法的研究也從傳統基于統計機器學習的方法轉向基于深度學習的方法。長短期記憶網絡(long short-yerm memory,LSTM)[12]被應用于處理命名實體識別問題,使用LSTM作為編碼器,CRF作為解碼器成為了NER任務中最基礎的模型架構之一。Lample等人[13]在此基礎上采用了雙向長短期記憶網絡(bi-directional long short-term memory,BiLSTM)作為編碼器,提出了BiLSTM-CRF模型用于解決命名實體識別問題,BiLSTM網絡結構有效利用輸入的前向和后向特征信息,能同時關注到上下文的語義信息進行輸出。Google在2018年提出基于Transformer的預訓練語言模型(pre-trained language model,PLM)BERT(bidirectional encoder tepresentations from Transfor-mers)[14],在多項NLP任務中成功SOTA(state-of-the-art),掀起了NLP領域使用預訓練語言模型的潮流,此后大多NER工作均在PLM的基礎上進行微調。
基于跨度(Span)的命名實體識別方法是一種直觀而有效的方式,基于Span的方法將句子視為實體跨度的集合,其中的元素就是句子所有可能的子序列,利用Span的語義信息對每一個Span進行驗證,進而可以有效地識別實體。Fu等人[15]首先研究了基于Span的命名實體識別預測模型,并與傳統序列標記框架進行了對比。游新冬等人[16]提出了一種基于跨度與拼接的中文命名實體抽取模型,在多個中文命名實體識別數據集上的實驗證明了其有效性。
為了克服人工標注時間成本過長的缺陷,能以較快的速度構建數據集,遠程監督方法被用于訓練數據標注。但在實際應用中,外部知識庫或詞典并不是完備集,無法保證完整覆蓋訓練集中的所有實體,實體漏標情況不可避免。為了減輕漏標實體對模型的影響,Yang等人[17]將部分條件隨機場 (partial conditional random fields,partial CRF)引入學習過程中,同時設計了一個選擇器對樣本進行過濾,在一定程度上減輕了遠程監督所帶來的漏標問題。Peng 等人[18]提出了一種基于正無標注(positive-unlabeled,PU)學習的命名實體識別方法,該方法可以利用未標注數據和實體詞典進行模型的學習,且只需使用實體詞典去標注部分實體,當詞典的質量不佳時,該方法仍能很好地識別句子中的實體。但當高質量的訓練數據稀缺時,上述方法仍會很大程度上受到未標注實體的影響,從而影響模型的性能。
漏標的實體(偽負樣本)所占比例與真負樣本相比占較少,因此負采樣的優勢在于能夠提高采集到真負樣本的概率。因而在實體漏標條件下訓練模型過程中,負采樣策略被廣泛應用。楊一帆等人[19]在病歷領域使用了負采樣方法,有效緩解了醫療領域數據漏標造成的模型性能下降問題。Xu等人[20]利用Span標注方法,以負采樣的方式代替了部分訓練,緩解了遠程監督數據集中樣本帶噪的問題。但是上述負采樣策略均基于隨機性采樣,仍會采樣出部分漏標實體參與訓練,影響命名實體識別模型的性能。
數據增強(data augmentation)一般是基于現有數據生成更多的新數據,這樣可以增加訓練的數據量,提高模型的泛化能力;或者給數據增加噪聲,提升模型的魯棒性。計算機視覺(computer vision,CV)被廣泛使用,在NLP任務中也被普遍應用。Yang等人[21]提出了一種名為FactMix的數據增強方法,通過利用訓練集對訓練樣本進行詞替換,利用PLM對非實體部分進行隨機替換,能夠提高模型的跨領域能力。Wei[22]等人提出一種簡易的數據增強技術(easy data augmentation,EDA),通過同義詞替換、隨機插入、隨機交換和隨機刪除實現數據增強效果,能夠提高神經網絡的分類性能。但上述數據增強方式大多是隨機的,增強應盡可能YpIUO1m1a4xSnwsx87HXAQ==使擴增的數據句子在語義和結構上沒有發生變化,而對應的實體之間類型應該相同。因此,本文的數據增強考慮采用基于同義實體詞替換的數據增強方法。
2 融合相似度負采樣的遠程監督命名實體識別模型
2.1 問題定義
命名實體識別是將文本中的命名實體定位識別并分類為預定義實體類型(如人名、組織名、地名等)的過程。給定一個長度為n的句子X={x1,x2,…,xn},基于Span的方法是通過枚舉出X所有可能的子序列,即跨度(Span),本文使用S表示所有可能的Span的集合,記為S={s1,1,s1,2,…,si,j,…,sn,n}。其中使用(i,j)來表示每個單獨的Span,i表示每個Span在句子中的開始位置,j表示每個Span的結束位置,L為Span的最長取值,即0<j-i<L。對于所有枚舉出的Span,模型會從預定義的標簽空間預測相應的實體類型,預定義的標簽空間中有v個實體類型,記為Y={y1,y2,…,yv}。
如圖2所示,給定一個句子x=“Liverpool FC is a football club”,其對應標簽為Y={(0,1,ORG)},其可能的所有跨度為
S={(0,0),(0,1),…,(1,1),(1,2),…,(5,5)}
對于其他非實體Span,則被標記為標簽O。
2.2 模型架構
原有的負采樣策略采樣過程是基于隨機采樣方法獲取負樣本,不可避免地會采樣到漏標實體作為負例進行訓練,造成模型性能下降。因為漏標實體應與相同類型實體具有高相似度,與不同類型的其他實體具有低相似度。如果候選樣本與不同實體類型都具有較高的相似度,則此樣本很可能是一個負樣本而不是漏標實體。所以本文提出了一種融合相似度計算遠程監督命名實體識別方法,采用基于樣本相似度計算的主動采樣策略,盡可能避免采樣到漏標實體參與訓練,以此緩解實體漏標帶來的模型性能下降問題。
本文模型的總體結構如圖3所示,該模型主要包括編碼器層、Span處理層、樣本相似度計算及采樣層、分類預測層。按批次輸入的文本數據通過數據增強及編碼層中的數據增強部分得到增強數據,而后將原始數據和增強數據通過編碼部分進行編碼;Span處理層將編碼后的數據處理成跨度的向量表示,并將其送入樣本相似度計算及采樣層;通過計算候選樣本與已標注樣本之間的相似度并獲取相似度得分,以相似度得分作為依據進行采樣,而后把已標注樣本和采樣的樣本通過分類層輸出樣本的預測值。針對已標注樣本和采樣出的樣本分別計算損失,合并后即為總損失。
2.3 編碼器層及Span處理層
本文使用預訓練語言模型BERT作為編碼器。開始階段,為了得到句子中每個單詞對應的上下文特征向量hi,需要利用BERT對句子進行編碼。給定句子X={x1,x2,…,xn},將句子X輸入BERT編碼器后,對于其中的每一個單詞xi,都會得到一個對應的上下文特征向量hi,如式(1)所示。
h1,h1,…,h1=BERTencoder(x1,x2,…,xn)(1)
Span的長度記為L,如式(2)所示。其中i表示Span的開始位置,j表示每個Span的結尾位置。
L=j-i+1(2)
對Span長度進行編碼,記為l,是對Span的長度特征進行編碼后的可訓練嵌入。將可能的所有跨度集合記為S,對于S中的每個Span而言,si,j∈S,其中每個子元素可以表示為
si,j=[hi;hj;l](3)
其中:hi表示Span的開始部分;hj表示每個Span的結尾部分。有跨度集合S∈Euclid ExtraaBpB×N×r,其中B為批次中數據條數,N為批次數據中最長Span的長度,r為使用多層線性層進行降維后的維度。
2.4 相似度計算及采樣層
本文通過實體的標簽信息,將跨度分為標注樣本和未標注樣本,并且將未標注樣本都視為潛在的負樣本。以此為據,將處理得到的S劃分為已標注樣本向量表示集SL={sl1,sl2,…,slR}和候選樣本向量表示集SU={su1,su2,…,suT},其中T>>R。未標注樣本與標注樣本的相似度計算公式如式(4)所示。
p=sim(su)=su·sl‖su‖‖sl‖(4)
對于su∈SU,都會與SL中的每一個樣本計算相似度,記為pi;用上述計算出的相似度來計算未標注樣本的相似度得分H,其計算過程如式(5)所示,其中R為批次中已標注樣本的數量。
H(su)=-∑Ri=1pilog2pi(5)
而后以計算出的相似度得分為依據,對SU中的樣本按從高到低進行排序,并按此得分為依據進行采樣。為了盡可能地從候選樣本中采樣出負樣本,也為了節省計算成本,采樣數量由采樣率控制,采樣數量如式(6)所示,其中T為未標注樣本的數量,r代表采樣率。
K=(1-r)×T(6)
由此采樣出的樣本集合為Sselect={ssel1,ssel2,…,sselk},數量為K個。
2.5 分類預測層
對于SL和Sselect中的特征向量si,j,將其輸入到多層感知機(multi-later perceptron,MLP)中來預測Span的標簽類型,通過標簽的權重和Span向量的內積來評分,評分函數如式(7)所示。
score(si,j,yv)=sTi,jwlabel(7)
其中:wlabel代表標簽的權重;si,j代表Span的特征向量;v為可學習的實體類型種類。而后將每個實體Span得分輸入到softmax函數中,選擇得分最高的標簽當作實體標簽,如式(8)所示。
P(y|si)=softmax(W·score(si,j,yv)+b)(8)
其中:W和b分別為softmax層的權重和偏置。
本文模型的損失函數采用Zhang等人[23]提出的廣義交叉熵損失函數(generalized cross entropy loss,GCE loss),如式(9)所示。
LGCE=∑ni=11-P(y|si,j)qq(9)
其中:n為樣本數量;q為變換參數。
對于SL和Sselect來說,兩個序列經過兩次廣義交叉熵損失函數分別得到LossL、Losssel,總損失為兩者加和,如式(10)所示。
Lossall=LossL+Losssel(10)
3 實驗結果與分析
3.1 實驗數據集
本文使用了三個公共數據集進行實驗,分別是CoNLL03、Wiki、Twitter,其中數據集的標簽通過遠程監督方式[24]獲得。
a)CoNLL03數據集是來自路透社語料庫的新聞通信文章,標注了人名(PER,persons)、地名(LOC,locations)、組織機構(ORG,organizations)、MISC(miscellaneous)四種實體,其中原始訓練集數據為14 041條,測試集為3 250條,實驗集為3 453條;b)Wiki數據集來自于維基百科的文章,標注了人名(PER,persons)、地名(LOC,locations)、組織機構(ORG,organizations)、MISC(miscellaneous)四種實體。其中原始訓練集數據為1 142條,測試集為280條,實驗集為274條;c)Twitter數據集來自于推特的推文,標注了地名(geoloc)、設施(facility)、電影(movie)、公司(company)等10種實體,其中原始訓練集數據為2 393條,測試集為1 000條,測試集為3 473條。此外為了驗證本文模型在中文命名實體識別上的能力,還在Ontonotes[25]中文數據集上開展了對比實驗。
3.2 實驗設置
實驗使用的GPU為GeForce RTX 2080Ti。本文采用PyTorch實現提出的模型和算法實驗。實驗中采用反向傳播算法進行參數優化。
本文使用Adam優化器來訓練模型,其學習率初始值為1E-5。廣義交叉熵損失函數的變換參數q值設為0.2。Span最大長度設置為8。訓練過程將BERT_BASE作為預訓練語言模型,隱層數為768,注意力機制頭數為12頭。其他主要超參數具體設置如表1所示。
3.3 評價指標
本文將準確率P(precision)、召回率R(precision)、F1值(F1 score)作為實驗的評價標準,如式(11)~(13)所示。
P=識別正確的實體數識別的實體數×100%(11)
R=識別正確的實體數樣本的實體總數×100%(12)
F1=2PRP+R×100%(13)
3.4 模型實現細節
實體漏標會導致模型學習不正確的監督信號,導致模型對噪聲數據產生擬合,從而導致模型性能變差。本文提出融合相似度計算的負采樣算法來盡量避免噪聲數據參與訓練。具體而言,該算法首先通過基于同義詞替換的數據增強方法擴充訓練數據,例如句子“Shanghai is an East Asian city”中,“Shanghai”為LOC實體類型,在其對應的同義實體候選集中有其同義的單詞“Tokyo”,進行替換后,生成新句子“Tokyo is an East Asian city”,依此類推,一個句子就可以變成兩個句子或者多個句子,實現訓練數據的擴充,從而達到數據增強的目的。
在同義實體詞替換過程中,因為替換的實體詞與被替換的詞屬于同一實體類型,所以替換后生成的句子仍然是合乎語法和語義的。而后依據實體的標簽信息,將樣本劃分為標注樣本和未標注樣本,其中標注樣本視為正樣本,未標注樣本視為負樣本,通過計算正負樣本之間的相似度并計算相似度得分,以此作為主動采樣的依據。最后在相似度得分的基礎上對負樣本進行采樣,采樣出的訓練數據參與訓練。
算法1 融合相似度計算的負采樣算法
輸入:存在數據漏標情況的原始訓練數據樣本。
輸出:采樣出的參與訓練的樣本。
a)對輸入數據進行預處理。
b)使用基于同義詞替換的數據增強方法對訓練數據進行擴充。
c)根據式(1)對訓練數據進行編碼得到數據的特征向量h。
d)根據式(3)對特征向量進行跨度編碼得到跨度向量集S。
e)根據實體的標簽信息,將跨度向量集劃分為標注樣本向量集SL和候選樣本向量集Sselect。
f)根據式(4)計算候選樣本與標注樣本之間的樣本相似度pi。
g)由步驟f)計算出的樣本相似度,根據式(5)計算出樣本的相似度得分H。
h)將步驟g)計算出的相似度得分按從高到低對候選樣本進行排序,并根據式(6)來進行負采樣,從而采樣出參與訓練的樣本。
i)返回最后參與訓練的樣本集Sselect。
3.5 對比實驗
為驗證本文模型的有效性,采用以下方法作為基準模型,與本文模型進行比較:
a)BiLSTM-CRF[26]是傳統的命名實體識別方法,使用通過遠程監督獲得標記數據進行訓練。
b)AutoNER[24] 通過附加規則和字典對遠程監督的數據集進行過濾,并為遠程監督命名實體識別任務提出了一種新的標注方案。
c)LRNT[27] 將部分條件隨機場用于采樣非實體部分數據參與訓練。
d)KB Matching使用基于知識庫的方法,通過字符串匹配來檢索實體。
e)Span-NS[5]在訓練過程中采用了基于隨機采樣方法的采樣策略。
f)Span-NS-V[6]在訓練過程中均采用了基于加權抽樣方法的采樣策略。
g)BS-NER[17]利用Span標注方法,以負采樣的方式代替了部分訓練,緩解了遠程監督數據集中樣本帶噪的問題。
本文模型和其他基線模型在CoNLL03、Wiki、Twitter數據集上的實驗結果如表2所示。
如表2所示,相比于其他的基線模型,本文模型的主要評價指標都有所提升,尤其是F1值的表現均為最優。本文模型在CoNLL03數據集上的表現都優于其他基線模型,其中R和F1值都高于其他模型,與BiLSTM-CRF等未采用負采樣策略的模型相比,F1值分別提升了10.33~21.69百分點不等,這說明融合相似度計算的主動采樣策略有利于緩解實體漏標問題,能夠提高模型性能。
與Span-NS等負采樣模型相比,本文模型的性能仍要好于先前的負采樣模型。因為先前的負采樣模型的采樣策略大多帶有一定的隨機性,所以模型不可避免地會選擇未標記的實體參與訓練,從而在一定程度上對模型的性能造成影響。本文模型對比先前的采樣模型,F1值提升了1.11~5.58百分點不等,這說明當訓練數據中存在漏標實體時,在負采樣的過程中引入融合相似度計算的主動采樣策略,可以提高采樣出的樣本質量,盡可能地避免采樣到漏標實體。
在Wiki數據集上,本文模型的表現也全面超過了其他基線模型。與Span-NS和Span-NS-V相比,F1值分別提升了2.92和2.90百分點。即使是和當前性能最優的模型相比,本文模型的性能仍要好于BS-NER,F1值提高1.89百分點。Wiki數據集數據量與其他兩個數據集相比是偏少的,訓練數據的缺少可能會給模型帶來過擬合問題,本文模型與之前的模型相比,引入了基于同義詞替換的數據增強方法,有效擴充了訓練數據,同時可以獲得相對原本數據更多樣性的語義特征,并且能夠提高模型的泛化能力;同時得益于負采樣方法提升了R值,從而提升了整體的F1值,這也反映在了實驗結果上。
本文模型在Twitter數據集上也取得了不錯的效果,相比未采用負采樣方法的F1值平均提高了22.31百分點。與近期的BS-NER相比,都同樣取得了最優的結果,F1值提高了2.64百分點。與Span-NS-V相比,取得了最優F1值,在精確率和召回率上各有優勢。
從圖4可以更加直觀地看出,本文模型在CoNLL03、Wiki和 Twitter三個數據集上的F1值都取得了較其他模型更優的結果。總體來看,本文模型在各類指標上優勢明顯,表明了融合相似度計算的主動采樣策略的遠程監督命名實體識別方法能夠有效緩解實體漏標帶來的模型性能下降問題,并且結合了同義實體詞替換的數據增強方法,提高了數據來源的豐富性,從而提升了模型的泛化性能。
為了驗證本文模型在中文命名實體識別中的應用能力,在Ontonotes數據集上開展對比實驗,本文選擇TENER[28]、FLAT[29]、Lattice[30]三個具有代表性的中文命名實體識別模型作為基線模型來進行對比。本文模型和其他基線模型在Ontonotes數據集上的實驗結果如表3所示。
如表3所示,相比于其他三個基線模型,F1值分別提高了 2.37、0.71和0.62百分點。雖然本文模型是用于處理英文命名實體識別,但實驗結果證明本文模型在中文命名實體識別上也能達到較好的效果。綜上,由本文模型在中文命名實體識別數據集上的表現,可以證明本文模型在中文命名實體識別領域也有一定的競爭力。
3.6 消融實驗
本節通過消融實驗來驗證模型模塊的有效性。消融實驗將在三個通過遠程監督進行的標注數據集上進行,設置如下:a)不使用負采樣策略與數據增強方法,只使用原始的框架訓練模型(記為w/o AUG+NEG_S);b)僅使用數據增強方法訓練模型,不采用負采樣策略參與訓練(記為w/o NEG_S);c)僅使用負采樣方法訓練模型,不采用數據增強方法參與訓練(記為w/o AUG)。實驗結果如表4所示。
從表中可以得出以下結論:
a)在三個數據集上,本文模型的F1值都是最佳的,說明模型中的每一個模塊(包括負采樣策略和數據增強方法)都是十分重要的。
b)在三種設置條件下,w/o AUG+NEG_S效果是最差的,分別比原模型降低了7.46、7.44、7.19百分點。這說明本文模型所提出的融合相似度計算的主動采樣策略和同義實體詞替換的數據增強方法能夠十分有效地提升模型性能,其效果對模型皆具有正向作用。融合相似度計算的主動采樣策略能夠更加準確地避免從樣本中采樣出漏標實體作為樣本來訓練分類器,從而提高模型分類性能;數據增強模塊可以有效擴充訓練數據,增強模型泛化性。
c)為驗證融合相似度計算的負采樣策略對模型的提升能力,本文以w/o NEG_S同原始模型進行比較,實驗結果相比較實驗組F1值下降了5.98~6.58百分點不等。這說明當訓練數據中存在漏標實體時,在采樣負例訓練模型的過程中引入相似度計算機制,可以進一步提升訓練數據質量,從而提高模型的性能。這對模型性能的提升是非常有效的,其在模型中是不可或缺的一部分。
d)w/o AUG相較于原始模型,數據指標有一定程度的下降,證實了基于同義實體詞替換的數據增強方法對模型是有正增益的。通過基于同義實體詞替換的數據增強可以有效擴充訓練數據,增加了樣本來源的多樣性,同時又可以獲得相對原本數據更多樣性的語義特征,提高了模型的泛化能力,對模型的增益效果也體現在了實驗結果上。
3.7 采樣率對比實驗
在負采樣階段,采樣的樣本數量與質量都和采樣率有關,這由式(5)可以看出,因此本文對不同的采樣率進行對比實驗,以探索采樣率對實驗結果的影響。
以三個數據集的F1值為例,表5列出了不同采樣率下,三個數據集的實驗結果。high代表采樣時按樣本相似度得分從高到低對樣本進行采樣,low代表采樣時按樣本相似度得分從低到高對樣本進行采樣,如圖5所示。
從表5中發現,當采樣出的樣本為相似度得分靠前5%的樣本時,F1值結果為最優,另兩個相似度得分靠前的采樣率下的模型表現略有下降。
相比之下,當采樣到相似度得分較低的樣本時,模型性能出現了明顯的下降。說明從相似度得分較低的樣本中采樣出的樣本中可能含有較多的漏標實體,這樣的樣本不利于模型學習樣本分類,會給模型帶來錯誤的監督信號,從而導致模型性能下降。
3.8 案例分析
本文使用“Japan began the defence of their Asian Cup title with a lucky 2-1 win against Syria in a Group C championship match on Friday.”作為例子進行示例分析,其中將未使用融合相似度計算的主動負采樣方法的訓練模型(without NS)作為本文模型的對比案例,Gold是標準標簽。在表6中,展示了未使用負采樣方法的模型和本文模型在遠程監督條件下獲取標簽數據訓練模型后作出的預測。未使用負采樣方法的模型主要從遠程監督中獲取標簽學習,在訓練過程中由于漏標實體影響,將Asian識別為實體;而本文模型通過融合相似度計算的主動采樣策略,避免了漏標實體帶來的錯誤監督信號,而且通過數據增強和學習預訓練語言模型中的知識成功識別出Asian Cup為MISC類型實體,由此進一步說明了本文模型的有效性。
4 結束語
本文提出了一種融合相似度負采樣的遠程監督命名實體識別方法。融合相似度計算的主動負采樣策略盡可能地避免采樣出漏標實體作為負例參與訓練,提升了遠程監督條件下命名實體識別模型的性能;同時,通過基于同義詞替換的數據增強方法,增強了模型的泛化能力。實驗結果表明,本文模型在三個常用的命名實體識別數據集均取得了優異的性能,有效地緩解了遠程監督方法條件下實體漏標造成的模型性能下降問題。由于本文模型是針對實體漏標這一噪聲進行研究的,對其他類型實體噪聲的抗噪能力還有待進一步提高。在下一步的研究方向中,擬對數據中不完全標注帶來的噪聲進行進一步研究處理,以提高模型在此種噪聲條件下的預測精度,進而增強模型的泛用能力。
參考文獻:
[1]張虎, 張廣軍. 基于多粒度實體異構圖的篇章級事件抽取方法[J]. 計算機科學, 2023, 50(5): 255-261. (Zhang Hu, Zhang Guangjun. Document-level event extraction based on multi-granularity entity heterogeneous graph[J]. Computer Science, 2023, 50(5): 255-261.)
[2]Gupta N, Singh S, Roth D. Entity linking via joint encoding of types, descriptions, and context[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2681-2690.
[3]王紅, 史金釧, 張志偉. 基于注意力機制的LSTM的語義關系抽取[J]. 計算機應用研究, 2018, 35(5): 1417-1420,1440. (Wang Hong, Shi Jinchuan, Zhang Zhiwei. Text semantic relation extraction of LSTM based on attention mechanism[J]. Application Research of Computers, 2018,35(5): 1417-1420,1440.)
[4]Ji Guoliang, Liu Kang, He Shizhu, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//Proc of the 31st AAAI Conference on Artificial Intelligence, the 29th Innovative Applications of Artificial Intelligence Conference and the 7th Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press, 2017: 3060-3066.
[5]Li Yangming, Liu Lemao, Shi Shuming. Empirical analysis of unlabeled entity problem in named entity recognition[EB/OL].(2021-03-18). https://arxiv.org/abs/2012.05426.
[6]Li Yangming, Liu Lemao, Shi Shuming. Rethinking negative sampling for handling missing entity annotations[EB/OL].(2022-02-25). https://arxiv.org/abs/2108.11607.
[7]Song Shengli, Zhang Nan, Huang Haitao. Named entity recognition based on conditional random fields[J]. Cluster Computing, 2017, 22(S3): 5195-5206.
[8]栗偉, 趙大哲, 李博, 等. CRF與規則相結合的醫學病歷實體識別[J]. 計算機應用研究, 2015,32(4): 1082-1086. (Li Wei, Zhao Dazhe, Li Bo, et al. Combining CRF and rule based medical named entity recognition[J]. Application Research of Compu-ters, 2015, 32(4): 1082-1086.)
[9]Ahmed I, Sathyaraj R. Named entity recognition by using maximum entropy[J]. International Journal of Database Theory & Application, 2015, 8:43-50.
[10]原旎, 盧克治, 袁玉虎, 等. 基于深度表示的中醫病歷癥狀表型命名實體抽取研究[J]. 世界科學技術-中醫藥現代化, 2018, 20(3): 355-362. (Yuan Ni, Lu Kezhi, Yuan Yuhu,et al. Depth representation-based named entity extraction for symptom phenotype of TCM medical record[J]. World Science and Technology—Modernization of Traditional Chinese Medicine and Materia Medica, 2018, 20(3): 355-362.)
[11]Patil N V, Patil A S, Pawar B V. HMM based named entity recognition for inflectional language[C]//Proc of International Conference on Computer, Communications and Electronics. Piscataway, NJ: IEEE Press, 2017: 565-572.
[12]王博冉, 林夏, 朱曉東,等. Lattice LSTM神經網絡法中文醫學文本命名實體識別模型研究[J]. 中國衛生信息管理雜志, 2019, 16(1): 84-88. (Wang Boran, Lin Xia, Zhu Xiaodong, et al. Chinese name language entity recognition(NER) using Lattice LSTM in medical language[J]. Chinese Journal of Health Informatics and Management, 2019,16(1): 84-88.)
[13]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.
[14]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019:4171-4186.
[15]Fu Jinlan, Huang Xuanjing, Liu Pengfei. SpanNER: named entity recognition as span prediction[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 7183-7195.
[16]游新冬, 劉陌村, 韓君妹,等. EMSS: 一種基于Span匹配的中文實體抽取方法[J/OL]. 小型微型計算機系統. (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html. (You Xindong, Liu Mocun, Han Junmei, et al. EMSS: a Chinese entity extraction method based on Span matching[J/OL].Journal of Chinese Computer Systems. (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html.)
[17]Yang Yaosheng, Chen Wenliang, Li Zhenghua, et al. Distantly supervised NER with partial annotation learning and reinforcement lear-ning[C]//Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational LinguisticPeElexO9iLW9K2uUQQNYdNcQyXvqx2SqmcxswMohuRM=s, 2018: 2159-2169.
[18]Peng Minlong, Xing Xiaoyu, Zhang Qi, et al. Distantly supervised named entity recognition using positive-unlabeled learning[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2409-2419.
[19]楊一帆, 施淼元, 繆慶亮,等. 基于遠程監督的病歷文本漏標問題研究[J]. 中文信息學報, 2022, 36(8): 73-80. (Yang Yifan, Shi Miaoyuan, Miao Qingliang, et al. Conquering unlabeled entity in medical record text under distant supervision framework[J]. Journal of Chinese Information Processing, 2022, 36(8): 73-80.)
[20]Xu Lu, Bing Lidong, Li Wei. Sampling better negatives for distantly supervised named entity recognition[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 4874-4882.
[21]Yang Linyi, Yuan Lifan, Cui Leyang, et al. FactMix: using a few labeled in-domain examples to generalize to cross-domain named entity recognition[C]//Proc of the 29th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 5360-5371.
[22]Wei J, Zou Kai. EDA: easy data augmentation techniques for boosting performance on text classification tasks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 6382-6388.
[23]Zhang Zhilu, Sabuncu M R. Generalized cross entropy loss for trai-ning deep neural networks with noisy labels[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 8792-8802.
[24]Shang Jingbo, Liu Liyuan, Gu Xiaotao, et al. Learning named entity tagger using domain-specific dictionary[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2054-2064.
[25]Weischedel R, Palmer M, Marcus M, et al. OntoNotes release 4. 0. LDC2011T03[EB/OL].(2011-02-15). https://doi.org/10.35111/gfjf-7r50.
[26]Ma Xuezhe, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1064-1074.
[27]Cao Yixin, Hu Zikun, Chua T S, et al. Low-resource name tagging learned with weakly labeled data[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 261-270.
[28]Yan Hang, Deng Bocao, Li Xiaonan, et al. TENER: adapting Transformer encoder for named entity recognition[EB/OL].(2019-12-10). https://arxiv.org/abs/1911.04474.
[29]Li Xiaonan, Yan Hang, Qiu Xipeng, et al. FLAT: Chinese NER using flat-lattice transformer[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 6836-6842.
[30]Zhang Yue, Yang Jie. Chinese NER using Lattice LSTM[C] //Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1554-1564.