王嘉誠 王 凱 王昊奮 杜 渂 何之棟 阮 彤 劉井平
1(華東理工大學信息科學與工程學院 上海 200237)
2(同濟大學設計與創意學院 上海 200092)
3(迪愛斯信息技術股份有限公司 上海 200032)
(y80220109@mail.ecust.edu.cn)
命名實體識別(named entity recognition,NER)旨在從文本中定位命名實體,并將其分類到預定義的實體類型,如人、組織和位置.NER 是自然語言處理(natural language processing,NLP)的基本任務,有助于各種下游應用,如關系抽取[1]、問答系統[2]、知識庫的構建[3-6].
傳統的NER 監督方法如BERT-CRF[7]和指針網絡[8]嚴重依賴于大量的標注數據,而數據的標注過程往往既費時又費力.因此,遠程監督技術被提出用于自動生成NER 的標注數據,其核心思想是識別文本中存在于知識庫,如維基數據開放知識庫的實體提及,并將相應類型分配給它們.然而,使用遠程監督技術會產生2 類噪聲:假陰性(false negatives,FNs)和假陽性(false positives,FPs)[9].首先,由于知識庫覆蓋的范圍有限,文本中并非所有正確實體都會被標注,因此會產生FNs.其次,由于使用簡單的字符串匹配來識別實體提及,知識庫中實體的模糊性可能會導致FPs.圖1 展示了一個遠程監督標注示例,其中“PRO”指產品名稱類型,“PER”指人名.第1 行是初始文本,第2 行是遠程監督標注,第3 行是正確標注.示例中,由于知識庫的規模有限,產品實體“拖把”沒有被正確匹配,這屬于FNs.此外,示例中的“包”表示一個量詞,而不是一個產品,但因為知識庫的模糊性被錯誤匹配,這屬于FPs.

Fig.1 An example of distantly supervised annotation圖1 遠程監督標注示例
為了解決上述遠程監督NER 的噪聲問題,研究者提出了一系列噪聲檢測的方法.這些方法主要可以被分為2 類:一類是在訓練過程中設計樣本降噪策略來減小噪聲對模型的負面影響.常見的降噪策略有數據聚類[10]、負采樣[11-12]等.然而,這類方法僅能處理FNs 噪聲,仍無法解決遠程監督過程中的FPs噪聲.另一類是是在訓練之前設計噪聲過濾手段來刪除訓練集中的噪聲樣本,該方法可以同時處理FNs 與FPs 這2 類噪聲,但是對噪聲過濾的準確性有較高要求.此外,由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征,許多研究者將其視為一個決策問題,并使用強化學習的強大決策能力來解決.典型的方法是制定不同的獎勵和策略,并使用強化學習框架訓練一個噪聲識別器模型[13-14].然而,這類方法都以句子為單位進行噪聲檢測,可能會丟棄其中正確的實體標注信息,進而無法為模型提供充足的訓練語料.比如,在圖1 中,模型可能會因為“包”和“拖把”這2 個噪聲實體把整個語句刪除,導致正確的實體標注信息“小明”和“釘子”也會被刪除.
為此,本文提出了一種新穎的基于強化學習的遠程監督NER 方法,稱為RLTL-DSNER(reinforcement learning and token level based distantly supervised named entity recognition).該方法可以從遠程監督產生的噪聲文本中準確識別正確實例,減少噪聲實例對遠程監督NER 的負面影響.具體而言,本文把強化學習框架中的策略網絡中引入了標簽置信度函數,為文本語句中的每個單詞提供了標簽置信分數.此外,本文提出了一種NER 模型預訓練策略,即預訓練階段的F1 分數達到85%~ 95%時即停止訓練.該策略可以為強化學習的初始訓練提供精準的狀態表示和有效獎勵值,幫助策略網絡在訓練初期以正確的方向更新其參數.
總的來說,本文的主要貢獻有3 點:
1)提出了一種新的基于強化學習的方法,用于解決遠程監督NER 任務,稱為RLTL-DSNER.該方法利用策略網絡與一個標簽置信函數,從有噪聲的遠程監督數據中,以單詞為單位識別正確實例,最大限度保留樣本中的正確信息.
2)提出了一種NER 模型預訓練策略,以幫助RLTL-DSNER 在訓練初期就能以正確的方向更新其可學習參數,使訓練過程穩定.
3)實驗結果表明,RLTL-DSNER 在3 個中文數據集和1 個英文醫學數據集上都顯著優于最先進的遠程監督NER 模型.在NEWS 數據集上,相較于現有最先進的方法,獲得了4.28%的F1 值提升.
傳統的NER 方法是基于人工標注的特征,常用的方法有最大熵[15]、隱馬爾可夫模型[16]、支持向量機[17]和條件隨機場[18].近年來,深度神經網絡的發展使其成為研究的主流.深度神經網絡自動提取隱藏的特征,從而使研究人員不用再把重心放在特征工程中.
預訓練語言模型BERT[19]被提出后,以其動態詞向量獲取能力強、通用性強兩大優點備受研究者關注,許多方法都以其作為編碼器.Souza 等人[7]構建了BERT-CRF 模型,在BERT 的基礎上,使用CRF 層學習句子的約束條件,提升句子的整體標注效果.Hao等人[8]使用了基于指針網絡的模型結構,提升了模型對實體邊界的敏感性,并解決了現實中普遍存在的重疊實體問題.除了對模型架構的設計,許多研究將重點放在了額外特征的探索和挖掘中.羅凌等人[20]在模型中引入了包含漢字內部結構的筆畫信息,Xu等人[21]融合了中文文本中的詞根、字符以及單詞信息,這些額外特征的引入進一步提高了模型的表現.
雖然文獻[7-8,20-21]方法都在NER 任務上取得了不錯的效果,然而它們都依賴于大量的人工標注數據.在缺乏人工標注數據的情況下,為了緩解數據不足帶來的負面影響,許多研究者提出了遠程監督標注方法.Shang 等人[22]提出了AutoNER 模型,采用“Tie or Break”標注方案代替傳統的B?O 方案或B?OES 方案.同時,他們引入字典裁剪方法和高質量的短語來實現遠程監督NER,并在3 個基準數據集上取得了最先進的F1 值.繼Shang 等人[22]之后,Wang 等人[23]在不完全字典的幫助下實現字符串匹配,以檢測可能的實體.此外,他們利用匹配實體和不匹配候選實體的上下文相似性來檢測更多的實體.相比常規僅使用精準字符串匹配生成自動標注的遠程監督方法,通過詞典拓展、匹配策略修改等方法,提高了數據質量.然而,這些方法的效果好壞與他們使用的詞典質量有密切關系.在詞典質量較差的情況下,依然無法避免自動標注產生的FNs 與FPs 這2類噪聲標注.
針對噪聲標注問題,主要有2 類方法:
1)在訓練過程中設計樣本降噪策略來減小噪聲對模型的負面影響.高建偉等人[24]利用外部知識圖譜當中的結構化知識和文本語料中的語義知識,設計了一種實體知識感知的詞嵌入表示方法,豐富句子級別的特征表達能力.Lange 等人[10]建議利用數據特征對輸入實例進行聚類,然后為聚類計算不同的混淆矩陣.Peng 等人[25]將遠程監督NER 任務定義為正樣本無標簽學習問題,其中正樣本由匹配的實體組成,非實體單詞構成無標簽數據.為了擴展字典,他們使用修改的AdaSampling 算法來迭代地檢測可能的實體.Liang 等人[26]提出了一個2 階段框架,利用預訓練模型的優勢解決遠程監督NER 任務.他們引入了一種自訓練策略,將微調的BERT 作為教師和學生模型,并使用教師模型生成的偽標簽對學生模型進行訓練.Li 等人[11]引入負采樣以緩解噪聲未標注實體的影響.然而,這類方法僅能處理FNs 噪聲,仍無法解決FPs 噪聲.
2)在訓練之前設計噪聲過濾手段來刪除訓練集中的噪聲樣本.由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征,許多研究者使用強化學習技術實現此類方法.此類方法發揮了強化學習的強大決策能力,識別遠程監督產生的噪聲樣本,一齊解決假陰性與假陽性實體問題.Qin 等人[27]使用關系抽取器的F1 值作為策略網絡的獎勵.Feng 等人[28]使用關系提取器的預測概率計算獎勵.受其啟發,一些研究人員[13-14]將強化學習和CRF 層的拓展Partial CRF 結合起來完成遠程監督NER 的任務.然而,他們的方法中,策略網絡模型架構都較簡單,僅使用MLP 建模,識別能力較弱.此外,都以完整的句子樣本為單位進行識別,導致句子中的部分正確信息被丟棄.
本節首先給出問題的形式化定義,然后概述本文提出的基于強化學習的遠程監督方法NER.
NER 通常被建模為序列標注任務,并使用B?O模式對樣本進行標注.給定文本S=[s1,s2,…,sn],其中n表示S中單詞的數量,NER 的目的是將標簽序列T=[t1,t2,…,tn] 分配給S,其中ti∈{BX,IX,O}.B 和? 分別表示實體的首部和后續部分;X表示對應實體提及的類型;O 表示該單詞不屬于任何類型的實體.需要注意的是,類型往往是預先定義的.與許多研究[13-14,29-30]類似,本文NER 任務的數據集包括少量人工標注的數據集合H和大量通過遠程監督獲取的數據集合D.具體數據量見表1.
如圖2 所示,本文提出的RLTL-DSNER 模型主要包括2 階段:模型預訓練階段和迭代訓練階段.

Fig.2 The main framework of RLTL-DSNER圖2 RLTL-DSNER 的主要框架
1)在模型預訓練階段,擬通過少量人工標注的數據來預訓練NER 模型,使得NER 模型在訓練集上的F1 值達到某一閾值 α(α一般取值為85%~ 95%).這一做法的目的是幫助NER 模型在迭代訓練階段的初期為策略網絡生成高質量的狀態和獎勵.
2)在迭代訓練階段,以深度強化學習作為框架,提出了單詞級別的噪聲檢測模型.具體而言,首先通過預訓練的NER 模型為文本數據生成向量表示和標簽概率分布,并將兩者作為狀態輸入到策略網絡.策略網絡利用卷積神經網絡(convolutional neural network,CNN)、標簽置信函數以及多層感知器(multilayer perceptron,MLP)進行單詞級別的噪聲檢測,判斷文本數據中的各個單詞是否被保留,如圖2 中刪除了噪聲實體“鴿子蛋”與“機械”,因為“鴿子蛋”算作一個產品而不是“鴿子”,“機械”算作描述產品“鍵盤”的規格,保留了正確實體“陳明亮”“鍵盤”“北京”.隨后,將保留的數據與人工標注的數據進行合并,聯合訓練NER 模型.同時,NER 模型為保留的數據進行打分,并將其作為獎勵來更新策略網絡參數.上述流程不斷循環迭代,直到達到預定義的輪次.
在RLTL-DSNER 中,NER 模型主要用于狀態與獎勵的生成,其性能將會直接影響噪聲檢測結果.NER 模型若不進行預訓練,在迭代訓練的初期往往無法為遠程監督文本語句生成高質量的狀態和獎勵,可能導致策略網絡被誤導到錯誤的更新方向.
本文向EC 數據集人工標注集合中手動添加噪聲數據來研究深度神經網絡的學習特性.具體來說,本文將數據集合中一定比例數據的標注實體隨機替換為其他實體,并將其視為噪聲數據,其余數據視為干凈數據.圖3 展示了添加不同比例噪聲情況下模型的訓練情況.

Fig.3 The training situation after artificially adding different proportions of noise to the dataset圖3 人工往數據集中添加不同比例噪聲后的訓練情況
由圖3 可以看出,在訓練過程中,模型在干凈數據上的F1 值會先得到大幅度提升,當干凈數據上的F1 值較大時,模型才會漸漸提升其在噪聲數據上的F1 值.這個現象表明了深度神經網絡在訓練過程中通常先學習簡單且通用的數據模式,然后逐漸強制擬合噪聲數據.換言之,模型的訓練F1 值達到某一閾值時,其在干凈數據上的F1 值較高,而在噪聲數據上的F1 值較低,此時模型將獲得最佳性能.因此,本文擬采用上述方法對NER 模型進行預訓練.由于此階段采用的數據集由人工標注,噪聲較少,閾值α一般取值為85%~95%.
給定人工標注數據集合H,本文定義作為H中的實例,其中MH表示集合大小,即包含的樣本個數,分別表示集合H中第m個樣本的文本和標簽序列.此外,假定NER 模型用f(θ)表示,其中 θ表示模型的參數,當f(θ)擬合H中的實例的F1值達到閾值時,NER 模型停止預訓練.
上述預訓練方式與早期停止(early stop)策略相似.但兩者不同之處在于早期停止是指當驗證集上的損失值增加或訓練集的F1 值達到99.9%時,模型停止訓練.本文采用的預訓練方法更像是“非常早期停止”.相對于早期停止策略,本文的預訓練方式有2 點優勢:
1)即使是人工標注的數據集,也難免存在噪聲數據.因此當訓練F1 值達到85%~ 95%時,模型已經學到大部分的數據模式;而繼續學習,只會強制記憶噪聲數據,損害模型性能.
2)預訓練過程僅有少量的數據樣本,當模型訓練到F1 值達到99%時,很容易導致過擬合,降低了模型的泛化能力和噪聲檢測能力.
5.3 節的實驗表明,通過上述預訓練方式的NER模型具有將正確樣本和噪聲樣本分離的能力,有助于策略網絡在迭代訓練初期正確更新.
本節主要介紹RLTL-DSNER 中的3 個組件,即狀態、動作和獎勵.與常規的基于強化學習的噪聲過濾方法不同的是,RLTL-DSNER 在策略網絡中引入了一個標簽置信函數,其結合噪聲判定模型識別正確實例.需要注意的是,實例的識別是單詞級別的,而不是傳統樣本級別的.
由于訓練數據中的輸入句子是相互獨立的,僅將句子的信息作為當前狀態很難滿足馬爾可夫決策過程(Markov decision process,MDP).RLTL-DSNER 將通過NER 模型獲得的當前句子表示與標簽概率進行拼接,以此作為強化學習智能體的狀態.需要注意的是NER 模型是通過歷史所選擇的句子進行參數更新的.換言之,第i步的狀態融入了前i-1步的狀態與動作信息.因此,RLTL-DSNER 建模方式滿足馬爾可夫決策過程,即未來狀態的條件概率分布僅依賴于當前狀態,而與過去狀態無關,因為過去狀態的信息都已經隱式融入到當前狀態了.
在RLTL-DSNER 中,狀態由2 部分組成:當前文本的表示和其各個單詞用遠程監督標注標簽的概率.具體而言,給定文本S=[s1,s2,…,sn],本文首先將S與特殊字符 [cls] 和 [sep] 進行拼接,即 [cls];S;[sep],并輸入到大規模預訓練語言模型中(如BERT).其次,取語言模型中最后一層隱藏狀態即S=(s1,s2,…,sn)作為文本S的語義表示,其中si(i=1,2,...,n) 是單詞si的隱藏狀態.針對各單詞si的標簽概率,本文首先將上述的文本表示輸入到全連接層中,為每個單詞獲取所有標簽的概率即其中L表示標簽類型的數量,表示tj是單詞sj的標簽的概率.其次,根據上述的標簽概率分布,為每個單詞取出遠程監督自動標注標簽的概率.因此,可得到文本中所有單詞的標簽概率,定義為其中是單詞si的標簽概率.
以往基于強化學習的噪聲檢測往往定義樣本的取舍作為動作[8,10,27-28],但這會丟棄大量正確的實體信息.因此,在RLTL-DSNER 中,本文為文本中的每個單 詞定義一個 動作ai∈{0,1},(i=1,2,…,n),其中ai=0 表示丟棄當前單詞,ai=1表示保留當前單詞.為了這一目標,本文設計了由2 個組件組成的策略網絡:噪聲實體判別器和標簽置信度(tag confidence,TC)函數.
噪聲實體判別器是由CNN 和MLP 所構成,其輸入是文本語句表示 S和其所有單詞的標簽概率P,輸出是每個單詞保留的概率.這一過程形式化定義為
其中Wc是卷積核的可學習參數,c表示CNN 網絡,Wm和b是線性層的參數,m 表示MLP 網絡,σ(·)是具有參數θ={Wc,Wm,b}的sigmoid函 數,a∈{0,1}表 示動作,?表示卷積運算,⊕表示矩陣拼接運算.整體運算流程為:文本語句表示 S和其所有單詞的標簽概率P作為噪聲實體判別器的輸入,先通過CNN 對文本語句表示 S作卷積運算 ?,得到文本語句的整體表示;隨后,將結果 (Wc?S) 與所有單詞的標簽概率P進行矩陣拼接,并通過線性層得到 ((Wc?S)⊕P)Wm+b;最終將結果輸入sigmoid函數,得到每個單詞的保留概率,即動作分別為0 和1 的概率.
通常情況下,僅使用噪聲實體判別器是不充分的,原因有:在訓練樣本量少和數據不平衡的情況下,NER 模型會傾向分配較高的概率給樣本中出現次數較多的標簽,分配較低的概率給出現次數較少的標簽.換言之,當數量較少的標簽的預測概率有較大提升時,噪聲實體判別器可能會選取另一頻繁出現的標簽(預測概率較高),而忽略標簽概率的相對提升.
一種直接的做法是根據文本的長度進行歸一化,凸顯標簽概率的相對提升.然而,不同文本的長度是不一致的,導致無法定義統一的閾值進行單詞的篩選.因此,本文采用TC 函數對單詞標簽歸一化.具體而言,給定一個批次的語句 {S1,S2,…,Sm},其中第i條文本Si=[s1,s2,…,sn],本文首先定義單詞sj(j=1,2,…,n) 的標 簽預測為l的 概率為pi,j,l,并定 義ql為所有 文本中各個單詞標簽預測為l的概率的平方和,即
其中L表示標簽類型的數量.
然后,對同一批次中每個單詞的標簽預測概率,通過ql歸一化,并取出所有標簽中的最大值作為文本Si中第j個單詞sj的標簽置信分數,定義為
從本質上來說,該標簽置信分數可看作歸一化后的標簽最大預測概率,本文通過上述手段進行歸一化,為了削弱僅使用噪聲實體判別器的不充分性,凸顯標簽概率的相對提升.
值得注意的是,本文在ql的定義以及歸一化的過程中都對單詞sj的標簽預測概率pi,j,l取平方處理,由于概率的取值范圍為 [0,1],且平方函數在該范圍內的導數單調遞增,有助于篩選高置信度單詞,提高篩選質量.
對于每條文本,本文使用噪聲實體判別器與TC函數確定是否保留文本中的每個單詞:
其中 φ是預先設定的TC 閾值.
圖4 展示了針對給定文本的動作選擇,其中最終動作“0”表示丟棄該單詞,“1”表示保留該單詞.通過遠程監督對初始文本自動標注,生成人物實體“小明”與產品實體“包”“釘子”,在得到文本的句子表示和標簽概率后,通過策略網絡分別得到噪聲實體判別器與TC 函數的輸出,并根據閾值篩選得到相應結果.噪聲實體判別器輸出閾值為 ?=0.5 進行篩選,TC 函數輸出閾值自定義(圖4 中閾值 φ=0.9).根據噪聲實體判別器輸出 π,將丟棄單詞“包”,根據TC 函數輸出conf,將丟棄單詞“拖”“把”.最終結合2 個輸出,得到最終動作為丟棄單詞“包”“拖”“把”.圖4 中可以看出,TC 函數幫助識別出了噪聲實體判別器無法篩選出的噪聲實體,相比通常情況下僅使用噪聲實體判別器進行篩選,增強了策略網絡的噪聲識別性能.

Fig.4 An example of action selection圖4 動作選擇示例
在策略網絡的每次迭代中,當某一批次文本語句的所有動作執行完后,策略網絡會接受以批次為單位的獎勵.該獎勵r與NER 模型的性能有關.
其中 B表示一個批次的文本,即一次選取的所有文本,S表示批次中的任意文本,文本長度為N,i表示文本中的單詞下標,T表示標注序列,首先得到文本S輸入NER 模型后,預測標簽序列為標注序列T的概率,并通過對該單詞執行的動作ai∈{0,1}來判斷是否要將第i個單詞對應的值pi(T|S)加入計算,表示在句子層面,根據所選擇單詞的數量進行平均.最終,根據批次大小 |B|平均所有文本的反饋來獲得最終獎勵.在式(5)定義下,模型保留單詞的標注標簽,預測概率越高,獎勵越大,以此來衡量動作選擇的正確程度.策略網絡由RE?NFORCE 算法[31]更新為:
其中 θ表示策略網絡的可學習參數,η表示學習率,是一個超參數,表示可學習參數 θ 的梯度,π(a|S;P;θ)表示策略網絡對文本語句表示 S和句中所有單詞的標簽概率P的輸出結果.
本節首先介紹了數據集、基線模型、評估指標以及參數設置;隨后,詳細對比了不同模型在中英文數據集上的結果;最后,對模型進行詳細分析,如進行消融實驗和NER 模型預訓練,并給出案例分析.
1)數據集.本文擬采用3 個中文數據集EC[13],NEWS[13],CCKS-DS 和1 個英文NER 數據集BC5CDR[32].下面詳細介紹這4 個數據集.
①EC 是一個中文基準數據集,共有5 種標簽類型:品牌(pp)、產品(cp)、型號(xh)、原料(yl)和規格(gg).
②NEWS 是一個中文基準數據集.該數據集由MSRA[33]生成,只有一種實體類型:人名(PER).
③CCKS-DS 由一個名為CCKS2017 的開源中文臨床數據集構建,它包含5 種類型的醫療實體:檢查和檢驗、疾病和診斷、癥狀和體征、治療、身體部位.
本文從CCKS2017 的數據集中提取了約1 700 個實例作為人工標注的訓練集.其余的大約5 800 個原始句子被收集為遠程監督集,并通過遠程監督方法進行標注.遠程監督使用的知識庫為人工標注訓練集中的所有特殊實體.
④BC5CDR 是一個英文生物醫學領域基準數據集,它包含2 種類型的實體:疾病(disease)和化學品(chemical).本文從Shang 等人[22]提供的原始文本庫中選取了15 000 條文本,并使用其提供的詞典對這些語料庫進行遠程監督自動標注.
這4 個數據集的統計數據如表1 所示,每個數據集都包含人工標注的小樣本數據和遠程監督生成數據.
2)基線模型.本文共對比了DSNER[13],NER+PA+RL[14],LexiconNER[25],Span-based+SL[34],NegSampling-NER[11],NegSampling-variant[12],MTM-CW[35],BioFLA?R[36],Spark-Biomedical[37]等方法.
①DSNER 與NER+PA+RL 都利用部分標注學習的方法來解決標簽標注不完整的問題,并設計基于強化學習的實例選擇器,以句子級別篩選噪聲.
②LexiconNER 將遠程監督NER 任務定義為正樣本無標簽學習問題,并使用自采樣算法迭代地檢測可能的實體,降低了對詞典質量的要求.
③NegSampling-NER 在訓練過程中采用負采樣策略,以減少訓練過程中未標記實體的影響.
④NegSampling-variant 在負采樣的基礎上,通過自適應加權抽樣分布,處理錯抽樣和不確定性問題.
⑤Span-based+SL 采用跨度級特征來更新遠程監督的字典.
⑥MTM-CW 通過一個可重用的BiLSTM 層對字符級特征進行建模,并利用多任務模型的優勢解決缺乏監督數據的問題.
⑦BioFLA?R 是一個使用額外的生物醫學文本預訓練而成的池化上下文嵌入模型.
⑧Spark-Biomedical 使用混合雙向LSTM 和CNN的模型架構,自動檢測單詞和字符級別的特征.
⑨RLTL-DSNER(句子級別)是本文方法RLTLDSNER 的一個變體.其基于本文提出的模型架構,以句子級別識別正確實例,TC 函數修改為式(7),采用句子中各單詞標簽置信分數的最小值作為該句子的整體標簽預測分數.
3)評估指標.本文報告了3 個評估指標:準確率(P)、召回率(R)和F1 值(F1).需要注意的是僅當預測實體與標注實體完全匹配時,才將其視為正確實體.在訓練過程中,本文保存模型在驗證集上F1 最高的參數,并報告其在測試集上的各個指標.
4)參數設置.對于每個數據集,本文采用相同的參數設置.在第1 階段,訓練的F1 值限制為90%.在第2 階段,優化器采用隨機梯度下降;策略網絡和NER 模型的學習率均為 1×10-5;每一網絡層的Dropout 設置為0.3,迭代次數設為80;式(4)中的置信度閾值 φ設置為0.9.本文使用的標注方法為B?O標注.
對于BC5CDR 數據集,本文使用“allenai/sciBERTscivocab-uncased[38]”作為預訓練模型(PLM).對于其他數據集,PLM 使用“BERT-base-chinese”.報告的結果采用5 次結果的平均值,以減少隨機性.
為了驗證模型的有效性,本文擬在2 個通用領域數據集EC 和NEWS 上進行實驗.實驗結果如表2 和表3 所示.從表2~3 中可以得出3 點結論:

Table 2 Main Results on EC Dataset表2 EC 數據集的主要結果 %

Table 3 Main Results on NEWS Dataset表3 NEWS 數據集的主要結果 %
1)本文提出的RLTL-DSNER 獲得了最好的性能.特別地,RLTL-DSNER 在EC 數據集上獲得了2.31 個百分比的性能提升,并在NEWS 數據集上獲得了4.28 個百分比的性能提升.
2)與句子級別的噪聲過濾方法相比(如DSNER,NER+PA+RL),即使在句子級別的選擇策略下,本文提出的噪聲過濾方法都獲得了更好的效果,說明策略網絡中引入的TC 函數的有效性.
3)RLTL-DSNER 相較于RLTL-DSNER(句子級別)效果更好,說明以單詞為單位識別正確實例可以最大限度保留樣本4~5 中的正確信息,提升模型性能.
此外,為了進一步驗證模型的通用性,本文擬在CCKS-DS(中文)和BC5CDR(英文)2 個醫療領域數據集中進行實驗.實驗結果如表4 和表5 所示,從表4~5 中可以得出2 點結論:

Table 4 Main Results on CCKS-DS Dataset表4 CCKS-DS 數據集的主要結果 %

Table 5 Main Results on BC5CDR Dataset表5 BC5CDR 數據集的主要結果 %
1)無論是在中文數據集還是英文數據集,RLTLDSNER 在F1 值上達到了新的SOTA,說明了該模型具有良好的語言適配性.
2)本文的RLTL-DSNER 相較于醫學領域的模型,如BioFLA?R,Spark-Biomedical 依然獲得了小幅度的F1 值提升,說明該模型具有較好的領域適配性.
本節擬通過消融實驗來驗證模型每一模塊的有效性,并進一步驗證預訓練方式的有效性.
1)消融實驗.本節將在4 個數據集上進行消融實驗.實驗條件設置為:
①不使用RL 框架,只利用人工標注的數據集作為訓練集來訓練NER 模型,記為“baseline: H”;
②使用人工標注和遠程監督的數據集作為訓練集,而不利用RL 框架,記為“baseline: H+D”;
③不采用預訓練策略,即訓練階段在人工數據集上的F1 值達到近100%才進入第2 階段的迭代訓練,記為“w/o HT”.
實驗結果如表6 所示,從表6 中得出2 點結論:

Table 6 Ablation Study表6 消融實驗 %
①在4 個數據集上,RLTL-DSNER 模型在所有指標上都取得了最佳的效果,說明模型中的每一模塊(包括NER 模型預訓練、遠程監督數據和單詞級別的噪聲檢測)都是十分重要的.
②在3 種基線中,baseline:H+D 模型的效果是最差的,說明遠程監督自動生成數據中存在大量的噪聲實例.特別地,在CCKS-DS 數據集中F1 值下降了9.40 個百分比.而在BC5CDR 數據集上,F1 值獲得了1.32 個百分比的提升,這是由于本文使用了Shang等人[22]提供的詞典進行自動標注,詞典質量較高,噪聲較少,因此并沒有很大程度影響模型的性能.
2)預訓練NER 模型的有效性.為了說明本文采用預訓練方式的有效性,將NER 模型的F1 值訓練到90%的方式,擬與將模型的F1 值訓練到近100%的方式進行對比.這2 種方式的F1 值是迭代訓練過程中的前20 個迭代次數在測試集上進行測試得到的.實驗結果如圖5 所示,從圖5 中可以得出2 點結論:

Fig.5 ?nitial training performance of the same model under different strategies圖5 不同策略下相同模型的初期訓練表現
①使用本文的預訓練方式,RL 模型的訓練較為穩定,僅在NEWS 數據集上出現小幅度的性能下降.這說明了該預訓練方式避免了模型的過擬合現象,可以為RL 模型在訓練初期提供高質量的文本表示和反饋獎勵.
②將NER 模型訓練到近100%的情況下,RL 的訓練過程十分不穩定.在4 個數據集上都出現了十分嚴重的性能下降,在EC,NEWS,BC5CDR 數據集上,經過5 個迭代次數后訓練趨于穩定,而在CCKS-DS數據集上,模型直至10 個迭代次數后訓練才逐漸穩定.這是由于NER 模型對小樣本的人工標注數據集過擬合,記住了許多訓練樣本.此外,模型也學習到了人工標注數據集中難免存在的部分標注噪聲.因此導致其生成的句子表示和獎勵質量不高.
本節擬通過具體的數據實例與模型預測結果,進一步說明本文提出的RLTL-DSNER 的有效性.
圖6 顯示了遠程監督數據中噪聲檢測的7 個示例,動作一欄表示在句子級別的動作選擇策略下模型的輸出結果,動作“0”表示丟棄該句子,動作“1”表示保留該句子.

Fig.6 ?nstances selection examples for the distantly supervised data圖6 遠程監督數據的實例選擇示例
從圖6 可以看出,本文提出的模型準確識別出了FNs 如“梁連起(人名)”“等大等圓(癥狀和體征)”“全脂(產品)”“農夫山泉(品牌)”“天然(產品)”,FPs 如“金燦燦(無類型)”“面色(無類型)”.這些示例表明,本文的方法能夠精準地在單詞級別進行噪聲檢測,選擇正確的實體,并丟棄有噪聲的實體,最大限度保留樣本中的正確信息.
此外,根據相同示例下句子級別選擇策略的預測結果,可以看出在此策略下會丟棄許多正確信息,如第5 個句子中的“純牛奶(產品)”、第7 個句子中的“礦泉水(產品)”,同時會使模型學習到許多噪聲信息,如第1 個句子中的“梁連起”、第4 個句子中的“面色(身體部位)”等,降低了模型性能.
圖7 展示了3 個中文數據集中部分人工標注實例,可以看到“廚房紙(產品)”“王太守則(人名)”“腸管(身體部位)”“干濕性啰音(檢查和檢驗)”這些實體并沒有被標注出.此現象說明了人工標注數據集耗時耗力,工作量龐大,但是依然無法避免小部分由于人為疏漏或標注人員間判斷標準的差異引入的噪聲實體,再次證明了我們提出的NER 模型預訓練策略的有效性.

Fig.7 ?nstances of manual annotation data圖7 人工標注數據示例
本文提出了一種解決遠程監督NER 任務中噪聲標注問題的新方法RLTL-DSNER.其在強化學習框架中的策略網絡引入了TC 函數,為文本語句中的每個單詞提供了標簽置信分數,并使用單詞級別的實例選擇策略以最大限度保留樣本中的正確信息,減少噪聲實例對遠程監督NER 的負面影響.此外,本文提出了一種NER 模型預訓練策略,該策略可以為強化學習的初始訓練提供精準的狀態表示和有效獎勵值,幫助策略網絡在訓練初期以正確的方向更新其參數.在3 個中文數據集和1 個英文醫學數據集上的大量實驗結果驗證了RLTL-DSNER 的優越性,在NEWS數據集上,相較于現有最先進的方法,獲得了4.28%的F1 值提升.
作者貢獻聲明:王嘉誠和王凱完成了算法思路設計、實驗方案制定,并完成實驗和論文撰寫工作;王昊奮提供論文撰寫指導、技術支持;杜渂和何之棟完成了相關文獻梳理、實驗數據整理,并討論方案;阮彤完成了論文框架設計、整體內容規劃;劉井平提供論文撰寫指導和完善實驗方案.