999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LEBERT-BCF的電子病歷實體識別*

2023-02-23 01:26:36吳廣碩樊重俊陶國慶賀遠珍
計算機時代 2023年2期
關鍵詞:詞匯信息模型

吳廣碩,樊重俊,陶國慶,賀遠珍

(上海理工大學管理學院,上海 200093)

0 引言

電子病歷是指醫務人員在醫療活動過程中,使用醫療機構信息系統生成的數字化信息,并能實現存儲、管理、傳輸和重現的醫療記錄[1]。由于電子病歷通常為非結構化文本,高效提取電子病歷中數據信息成為了推進智慧醫療發展的關鍵點。

中文醫療命名實體識別與其他領域不同,醫療實體通常具有長度較長、專業性強的特點,因此中文醫療命名實體識別對文字語義特征提取和實體邊界準確識別的要求較高。BERT[2]在輸入時以字符為基本單位,字符之間的相互割裂導致BERT 在醫療命名實體識別任務中產生了以下問題:

⑴ 中文字符的詞匯信息學習不充分。在中文NER 任務中每個字符更希望和其相近并能夠組成詞語的字符特進行特征融合,而且字符作為基本輸入浪費了詞匯中的實體邊界信息。

⑵ 對于嵌套實體的識別效果不佳。如在實體‘原發性肝癌’中,BERT 在輸入時由于缺乏全局觀,解碼時通常會將長度較短的‘肝癌’單獨識別為實體導致實體類別預測錯誤。

⑶神經網絡訓練不穩定導致模型魯棒性差。神經網絡由于很容易受到線性擾動的攻擊,細微的擾動也能使模型預測錯誤。

針對上述問題本文提出了基于外部詞典增強和對抗訓練的實體識別模型LEBERT-BCF,LEBERT 相比較BERT 引入了外部詞典,優點是可以借助詞典匹配出輸入文本中的潛在詞匯學習詞信息。比如實體“原發性肝癌”,LEBERT 輸出層在輸出字符“癌”對應特征向量時,會考慮到“癌”字對應詞“肝癌”、“原發性肝癌”的語義信息,防止了模型將“肝癌”單獨識別為實體。而且LEBERT 另一個優點是允許在BERT 不同Transformer Encoder 層注入詞信息,對研究NER 特征增強發生在預模型底層或是高層有一定的現實意義,本文同時引入對抗訓練作為正則化,提高了BERT 在長實體NER任務中的魯棒性和泛化能力。

1 相關研究

命名實體識別方法主要分為三大類:第一類是基于規則的方法,通過構建實體知識庫去匹配句子中的單詞是否為實體。第二類是傳統的機器學習方法,主要有HMM、CRF 等。第三類是深度學習方法。通過神經網絡將NER 看做序列標注任務。隨著對NER 研究的深入,目前的主流方法為深度學習和機器學習相結合模型,深度學習負責學習字符之間的語義信息并解碼輸出標簽,機器學習負責學習標簽之間的轉換關系,前者使用神經網絡訓練,后者基于統計學習規則優化。針對中文NER 任務中缺少詞信息的問題,Zhang 等人[3]提出Lattice-LSTM 首次在中文NER 任務中引入了詞信息。Gui等人[4]在LR-CNN 中對Lattice-LSTM 進行了改進,使用CNN 對字符特征進行編碼并堆疊多層獲得multi-gram 信息。Sui 等人[5]提出了CGN 模型構建圖網絡,圖網絡中三種不同的建圖方式融合字詞信息。Zou 等人[6]提出LGN 將每個字符視作節點并在節點周圍做匹配,匹配到單詞則構成邊融合信息。Li等人[7]提出的FLAT引入了相對位置信息,字符可以直接與其所匹配詞匯間的交互。Liu 等人[8]提出了WC-LSTM 模型為每個字符引入靜態固定的詞匯,解決了Lattice-LSTM 無法并行化計算的缺點。Ding 等人[9]提出了利用實體詞典引入詞匯信息的Multi-digraph 模型。Ma 等人[10]提出了Simple-Lexicon模型,該模型設計了三種不同的字詞信息融合方法。Zhu 等人[11]提出了LEX-BERT 模型,通過引入實體類型type 信息提高了NER 性能。Liu 等人[12]提出了LeBERT 將詞信息注入模型底部提升實體識別性能。在中文醫療實體識別的任務中,羅凌等人[13]提出了基于筆畫ELMo 和多任務學習的命名實體識別模型,以筆畫序列為特征輸入到ELMo 學習向量表示。唐國強等人[14]提出了一種將BERT 輸出和注意力機制相結合進行特征增強的方法。王星予等人[15]提出一種在輸入層融合實體關鍵字特征的實體分類模型。

綜上所述,在中文醫療實體識別任務中多數模型都是將詞信息注入到模型末端或者將筆畫信息注入模型的Embedding 層,沒有直接將詞信息注入到模型內部與字信息進行交互以及考慮到模型的魯棒性。本文在BERT內部以直觀形式引入每個字符在該段輸入文本中所匹配到的多個詞信息,探討將詞信息注入到BERT 不同Transformer Encoder 層[16]中對模型性能的影響,最后通過對抗訓練提升了模型的魯棒性。

2 LEBERT-BCF模型

本文提出的LEBERT-BCF 模型結構上主要分為三部分,第一部分是使用LEBERT 引入詞信息并將每個字符進行向量化表示。Tencent AI Lab開源的中文詞典覆蓋面廣泛,包了各領域的專業詞匯并且已經訓練得到了對應的詞向量,故使用Tencent AI Lab 的開源詞典為外部詞典。根據外部詞典為每個字符建立詞典樹,在輸入每一條電子病歷時,根據詞典樹自動為每個字符匹配出潛在詞匯構建字符-詞語對輸入到模型進行訓練,在此過程中達到模型學習詞信息和實體邊界信息的目的。第二部分是BiLSTM 學習電子病歷的上下文特征。第三部分是CRF 學習實體標簽的上下文約束,防止出現不合理的標簽預測序列。圖1給出了LEBERT-BCF模型的主要結構。

圖1 LEBERT-BCF模型

2.1 LEBERT

LEBERT 在BERT 的基礎上通過Lexicon Adapter模塊融合電子病歷中的詞信息,因此在NER 過程中具有學習詞信息和實體邊界信息的能力。

2.1.1 BERT

BERT 模型通常由12 個Transformer 的Encoder模塊疊加而成,在模型的微調過程中,每個字符的特征向量會根據下文變化而變化,是一種動態的字向量表示。

BERT 模型內部的多頭注意力機制有助于每個字符動態融合其他字符的語義信息。在多頭注意力機制的過程中,Q、K、V 分別為查詢矩陣,鍵矩陣,值矩陣,WQ、WK、WV、W為線性變換矩陣。

2.1.2 Char-Words Pair Sequence

根據給定的中文句子sc={c1,c2…cn} 利用事先根據外部詞典構建好的詞典樹匹配出句子中每個字符ci在該文本中對應的潛在詞匯。在匹配到的詞匯中,每個字符和包含該字符的詞匯組成字符-詞語對集合,表示為scw={(c1,ws1),(c2,ws2),…(cn,wsn)}。其中wsi表示包含字符ci單詞組成的字符-詞語對。如圖2 中,輸入文本為“原發性肝癌”,通過詞典樹匹配,得到“癌”字符的字符-詞語對為(癌,[原發性肝癌,肝癌,<PAD>]),其中<PAD>為填充,限制每個字符對應3 個詞語。

圖2 字詞對序列

2.1.3 Lexicon Adapter

通過Lexicon Adapter 模塊將詞匯信息注入到BERT 中,對于給定的ci將其構造出字符-詞語對向量表示為表示為第i 個位置的字向量表示為字符i 所對應第m 個詞匯的詞向量。由于外部詞典詞向量和TransformerEncoder 輸出的字向量維度不一致,首先通過非線性變換將字向量和詞向量進行向量維度對齊:

使用hci為query 向量,其對應的詞向量集合Vi為key和value,計算注意力分數:

Wattn為權重矩陣。利用注意力分數αi對value 進行加權求和,得到ci對應所有詞匯融合后的詞特征:

具體流程如圖3所示。

圖3 Lexicon Adapter模塊

2.1.4 詞信息注入

假設第k 層Transformer Encoder 的輸出為Hk=,利用Lexicon Adapte 模塊將詞匯信息注入到第k層與第k+1層Transformer Encoder之間:

LA 為Lexicon Adapte 模塊,在第k 層,得到具有字詞特征信息的特征向量集合

2.2 BiLSTM

LSTM 通過增加遺忘門、輸入門與輸出門三部分增強RNN 的學習能力,缺點是只能利用上文已經出現過的語義信息,在NER 任務中忽視了數據的前后依賴性。本文使用BiLSTM 將前向LSTM 隱藏層的輸出和后向LSTM 隱藏層的輸出拼接得到含有雙向語義信息的向量做標簽預測。

2.3 CRF

CRF 是給定一組變量X 的條件下,另外一組隨機變量Y的條件概率分布的模型。在NER任務中,S(X,y)表示輸入句子序列X被標記為序列y的得分值:

分別表示第句子序列X 中第i 個字符的發射分數和轉移分數,輸入句子序列X 被標記為序列y的概率為:

其中YX代表了所有的標簽預測集。

2.4 FGM

FGM 是對抗訓練的常用方法之一,假設LEBERTBCF輸入文本的embedding矩陣為x,根據LEBERT-BCF模型第一次反向傳播得到x 對應的梯度?xL(x,y,θ)得到輸入文本的對抗擾動radv:

ε為超參數。將對抗擾動加到x 矩陣得到對抗樣本xadv:

在原始樣本損失函數增大方向得到對抗樣本,將對抗樣本再次輸入模型訓練可以尋找到更健壯的參數值。

3 實驗

3.1 實驗數據

實驗數據集來自中文醫療數據集CCKS 2019,將數據集劃分為訓練集、驗證集、測試集,分別是800、200、379條。數據集中共包含6種實體,各個實體在數據集的分布如表1。

表1 CCKS 2019 數據集實體類別及數目

3.2 參數設置

在本文命名實體識別實驗中,使用Python和Pytorch搭建實驗環境,對LEBERT、BiLSTM、CRF 三個模塊采用差分學習率。模型詳細參數見表2。

表2 LEBERT-BCF模型超參數設置

3.3 評估指標

本文采用的評價指標有準確率P,召回率R 和F1值,均采用嚴格評判標準,只有當模型所識別的實體邊界與真實邊界一致且實體類別一致時才被判定為一次正確識別。

準確率P計算公式為:

召回率R計算公式為:

F1 值為準確率和召回率的加權調和平均值,計算公式為:

3.4 實驗結果及分析

為驗證本文所提出LEBERT-BCF 模型在醫療命名實體識別有效,在同樣的實驗環境下采用多種模型對比的方法,使用本文模型與BiLSTM,BiLSTM-CRF,BERT-BiLSTM-CRF,LEBERT-BCF*(各模塊學習率相等)在準確率,召回率,F1 指標上做對比實驗,對比結果如表3所示。

表3 模型對比實驗結果

由表3可知,由于BERT模型引入了自注意力機制,在實體識別效果上相對于BiLSTM-CRF 有較大提升,在P,R,F1 指標上分別提升了7.93%,8.67%,8.31%。BERT-BiLSTM-CRF 與BERT-CRF 相比較引入了BiLSTM 學習文字方向性信息,在P,R,F1 指標上分別提升了0.47%,1.17%,0.82%,對比發現在BERT 模型后引入BiLSTM 在NER 任務中各項指提升效果并不明顯,原因在于BERT 模型在下游任務中通常具有較強的擬合能力,堆疊一層同樣是字符為輸入單位BiLSTM 模型對中文醫療實體識別性能影響較小。LEBERT-BCF*與BERT-BiLSTM-CRF相比較在P,R,F1 指標上分別提升了2.1%,2.97%,2.53%,充分驗證了BERT 內部引入Lexicon Adapter 模塊和embedding層引入FGM 可以提升模型的實體識別性能,有效解決了字符模型BERT 在NER 任務中的詞信息損失、實體邊界信息浪費和模型魯棒性較差的問題。通過對模型的不同模塊單獨設置學習率,LEBERT-BCF相比較LEBERT-BCF*在P,R,F1 指標上分別提升了0.98%,0.85%,0.92%,證明了預訓練模型在下游任務微調時只需要設置較小的學習率就可以迅速收斂,而其他模塊通常設置相對較大學習率才可以收斂。

為了更加直觀的顯示在BERT 的NER 任務中引入詞信息和FGM 可以提高實體識別性能,圖4 為BERT-BiLSTM-CRF與LEBERT-BCF在CCKS 2019測試集上各個實體的F1值。

圖4 F1值對比

由圖4 可知LEBERT-BCF 在各個實體的識別效果均優于BERT-BiLSTM-CRF 證明了本文模型在專業性較強和實體較長的中文醫療數據集上可以更好的提取特征信息。

通過在LEBERT 底層和高層引入詞信息,探討不同Transformer Encoder 層進行特征增強對模型實體識別的影響,對比結果如表4所示,推斷出在模型底層引入詞信息可以高效地進行特征增強,而在模型末端引入詞信息的增強效果最低。

表4 注入層數對模型的影響

4 結論

在對電子病歷的數據挖掘過程中,BERT 不能充分利用中文詞信息和邊界信息這些重要特征進行NER 任務,而且神經網絡訓練不穩定導致模型魯棒性較差。針對這些問題本文提出了一種基于詞典匹配和對抗訓練的中文電子病歷實體識別模型LEBERTBCF。經過實驗證明,該模型在CCKS 2019 數據集上實體識別效果優于BERT-BiLSTM-CRF,有效解決了BERT 在實體識別過程中的詞信息損失問題和實體邊界浪費問題,提升了模型的魯棒性。LEBERT-BCF的缺點一方面是需要依靠詞典匹配得到每個字符在文中所對應的詞匯,而本文所使用的詞典為通用型詞典,因此在今后的工作中會研究專業性醫療詞典匹配對模型的影響;另一方面缺點是FGM 需要兩次反向傳播,計算量大,訓練時間長。

猜你喜歡
詞匯信息模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 亚洲成人播放| 黄色网在线免费观看| 国产精品免费久久久久影院无码| 在线观看国产精品日本不卡网| 999福利激情视频| 日韩123欧美字幕| 992Tv视频国产精品| 99人妻碰碰碰久久久久禁片| 亚洲欧美另类日本| 国产99在线观看| 亚洲午夜国产精品无卡| 亚洲精品图区| 91人妻日韩人妻无码专区精品| 五月婷婷激情四射| 国产精品第5页| 亚洲综合久久成人AV| 国产免费怡红院视频| 国产精品无码AV片在线观看播放| 亚洲第一页在线观看| 好紧好深好大乳无码中文字幕| 2021天堂在线亚洲精品专区| 国产午夜人做人免费视频中文 | 18黑白丝水手服自慰喷水网站| 国产天天色| 日本不卡免费高清视频| 国产白浆视频| 欧美爱爱网| 一本大道视频精品人妻 | 亚洲视频免费播放| 国产91视频免费观看| 91色在线视频| 亚洲欧美日韩天堂| 亚洲视频在线观看免费视频| 国产成人一级| 日韩在线播放欧美字幕| www.99在线观看| 强奷白丝美女在线观看| 91尤物国产尤物福利在线| 国产黄网永久免费| 青青操国产视频| 亚洲一区精品视频在线| 国产精品3p视频| 色噜噜狠狠色综合网图区| 国产精品极品美女自在线| 国产大全韩国亚洲一区二区三区| 91探花在线观看国产最新| 色综合a怡红院怡红院首页| 亚洲日韩国产精品综合在线观看| 另类欧美日韩| 国产凹凸一区在线观看视频| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 国产欧美在线观看一区| 波多野结衣第一页| 精久久久久无码区中文字幕| 97精品久久久大香线焦| 日本三级欧美三级| 欧美成人a∨视频免费观看| a级免费视频| 成人中文在线| 天堂亚洲网| 免费国产不卡午夜福在线观看| 91亚洲精选| 日本久久网站| 手机在线国产精品| 999精品在线视频| 色婷婷丁香| 国产在线自在拍91精品黑人| 波多野结衣一区二区三视频 | 亚洲欧洲综合| 找国产毛片看| 熟妇丰满人妻| 国产免费自拍视频| a级高清毛片| 欧美啪啪网| 99国产精品一区二区| 国产aⅴ无码专区亚洲av综合网| 无码精品国产dvd在线观看9久 | 99久久精品免费观看国产| 亚洲有无码中文网| 中文字幕在线观| 亚洲床戏一区|