999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習多模型融合的醫療命名實體識別

2022-11-07 10:49:20梁文桐朱艷輝冀相冰
計算機應用與軟件 2022年10期
關鍵詞:融合信息模型

梁文桐 朱艷輝 詹 飛 冀相冰 張 旭

(湖南工業大學計算機學院 湖南 株洲 412008)(湖南省智能信息感知及處理技術重點實驗室 湖南 株洲 412008)

0 引 言

醫療命名實體識別(Medical Named Entity Recognition, MNER)是指從電子病歷(Electronic Medical Records, EMR)等醫療文本中抽取特定的實體術語作為醫療知識,如疾病和解剖部位等,是后續計算機輔助診斷、醫療知識圖譜的構建和應用等任務的基礎。

早期MNER方法包括基于規則和基于統計機器學習。其中,基于規則的方法往往需要醫療專家利用專業領域知識來編輯大量的規則,隨著醫療數據不斷增加,該類方法需要耗費大量的時間;基于統計機器學習的方法需要構建大量的特征,如詞性特征、字符特征和詞典特征等,需要較高的特征工程成本而且很難獲取隱含特征信息。近年來,基于深度學習的方法成為醫療命名實體識別的主流方法。雙向循環神經網絡(RNN)結構經常在MNER任務中被使用,Xu等[1]使用混合語義的雙向LSTM和CRF模型針對疾病名進行實體識別,Chowdhury等[2]提出一種多任務的雙向RNN模型,通過使用詞性標注任務中獲得的知識更好地從中文電子病歷中抽取醫療實體。但是,RNN是一種序列結構,后一狀態的輸入依賴于前一狀態的輸出,無法很好地進行并行計算,需要較多的訓練時間。因此,Strubell等[3]提出了IDCNN模型以進行NER任務,在保持較高的識別精度的同時可以有效地進行并行計算。Gao等[4]提出了基于IDCNN的醫療電子病歷實體識別方法,該方法在嵌入層加入位置嵌入信息,同時使用注意力機制[5](Attention Mechanism)對不同的字符分配不同的權重,在兩種測試數據集上都取得了較好的效果。Wu等[6]在BiLSTM-CRF模型的基礎上加入自注意力機制完成中文MNER任務。2018年10月,谷歌提出了BERT預訓練語言模型,在多項自然語言處理任務中都有最好的表現[7]。Gong等[8]將BERT中文預訓練嵌入運用到NER任務中,在中文數據集中取得了良好的效果。為了充分利用詞語邊界和語義信息,Zhang等[9]提出了用于中文NER任務的Lattice LSTM模型,該模型能夠很好地將潛在詞信息整合到基于字符的LSTM-CRF模型中。近期,圖卷積網絡[10](Graph Convolutional Networks, GCN)被運用到NER任務中,該類方法能夠很好地捕獲不同的語義和邊界信息,Cetoli等[11]使用GCN構建依賴關系樹來完成英文NER任務。Gui等[12]引入具有全局語義的基于詞典的圖卷積網絡,從而緩解基于RNN的模型容易受到單詞歧義影響的問題。GAT[13]在GCN的基礎上加入自注意力機制來分配給每個節點的鄰接節點不同的權重。

現有的MNER方法大多是使用單一神經網絡模型進行命名實體識別,識別時容易造成醫療實體邊界和類別識別錯誤,獲取文本語義特征不足,導致最終識別的效果較差。為了解決上述問題,本文提出一種基于深度學習多模型融合的醫療命名實體識別方法:首先使用BERT-MNER、IDCNN-MNER和GAT-MNER模型分別自動識別醫療實體,BERT預訓練語言模型可以得到電子病歷上下文相關的語義表示,IDCNN保證了后續模型融合時子模型的多樣性和結構差異性,可以取得更好的融合結果,GAT通過構建三種字詞圖可以充分利用詞語的邊界和語義信息;然后采用基于變異系數的加權投票算法將三種模型的識別結果進行融合處理;最后構建基于歷史信息的實體糾錯算法優化融合結果。

1 基于深度學習的融合模型的構建

電子病歷通常由專業的醫務人員編寫,包含大量的醫療知識,醫療命名實體識別能夠將電子病歷中疾病名稱、解剖部位和藥品名稱等醫療實體識別出來。與通用領域實體識別相比,醫療實體識別存在實體數量眾多,實體長度不定,實體界限模糊,存在大量的別名、嵌套和縮略詞等特點,識別難度更大,單一模型很難達到較好的識別效果。

本文構建的融合模型整體框架如圖1所示,基于深度學習融合模型的醫療命名實體識別整體算法如下:

Step1預處理醫療電子病歷數據集。將電子病歷集合按照字符進行標注,標注時字符和預定義類別使用空格隔開。

Step2訓練BERT-MNER、IDCNN-MNER和GAT-MNER模型。基于深度學習訓練上述三種醫療命名實體識別模型。

Step3識別電子病歷文本測試數據集。通過訓練好的模型對測試集的電子病歷文本進行預測。

Step4構建融合模型。采用基于變異系數的加權投票算法對BERT-MNER、IDCNN-MNER和GAT-MNER的識別結果進行融合處理。

Step5優化融合模型結果。設計基于歷史信息的實體糾錯算法對融合結果進一步優化,得到最終醫療命名實體識別結果。

1.1 BERT-MNER模型

BERT-MNER模型結合BERT預訓練語言模型和BiLSTM-CRF模型對電子病歷中的醫療實體進行識別。傳統的BiLSTM-CRF模型使用在中文維基百科語料上訓練的字向量來進行字的嵌入表示,該嵌入表示是上下文無關的,而BERT-MNER模型使用BERT預訓練語言模型可以得到電子病歷句子中每個字的上下文相關的字嵌入表示。

該模型主要分為BERT層、BiLSTM層和CRF層。BERT層主要獲取電子病歷句子中每個字的上下文相關的字嵌入表示,BiLSTM層將字嵌入進行編碼自動抽取上下文特征,CRF層使用維特比算法解碼,從而得到全局最優的標簽序列。圖2為該模型的整體結構。

預訓練語言模型能夠表示字符或詞語的多義性,在自然語言處理的各項任務中有著廣泛的應用。BERT預訓練語言模型的結構如圖3所示,使用Transformer作為編碼器,總特征向量由字向量、句子切分向量和位置向量相加得到,位置向量的計算公式如式(1)和式(2)所示,其中使用正弦和余弦函數編碼,pos表示的是電子病歷中的字符,i表示第幾維,dmodel是編碼后向量的維度。

(1)

PE(pos,2i+1)=cos(pos/10 0002i/dmodel)

(2)

LSTM是循環神經網絡(RNN)的一種變體,可以有效地解決由長期依賴問題帶來的梯度消失和梯度爆炸。CRF層的作用是約束電子病歷中每個字的預測標簽的依賴關系,進而獲得全局最優序列。

1.2 IDCNN-MNER模型

IDCNN-MNER模型的整體結構如圖4所示。該模型主要分為字嵌入層、IDCNN層和CRF層。字嵌入層將詞表中的字映射成低維稠密的實值向量,把序列中每個字對應的字向量送入IDCNN層自動進行特征提取。IDCNN層是將結構相同的膨脹卷積塊堆疊,每次迭代將前一次的結果作為輸入,這種參數共享可以有效地防止模型過擬合,每個膨脹卷積塊有膨脹寬度分別為1-1-2 的三層膨脹卷積。最后,通過CRF層約束預測標簽的依賴關系,獲取全局最優序列。

IDCNN[14]在進行卷積運算時增加了膨脹寬度,同時取消了池化操作,在增加感受域的同時減少了信息損失,能夠更快速和準確地獲取較長的序列信息依賴。IDCNN-MNER模型的整體結構與BiLSTM-CRF模型相似,其中IDCNN是一種特殊的CNN,該模型保證了后續模型融合時子模型的多樣性和結構差異性,可以取得更好的融合結果。

1.3 GAT-MNER模型

GAT-MNER模型的整體框架如圖5所示,該模型包括Embedding層、Graph層、Fusion層和CRF層。其中Embedding層包括電子病歷句子中的每個字符和該句子在詞向量中匹配到的詞語即潛在詞詞典信息,使用雙向門控循環單元(BiGRU)自動提取字符級別的特征,將獲取的字符和詞語特征輸入到Graph層,該層包括字詞包含圖(C-graph)、字詞轉移圖(T-graph)和字詞網格圖(L-graph),使用圖注意力網絡(GAT)對三種圖進行建模,然后通過Fusion層進行融合,最后使用CRF層進行解碼,獲得最優預測序列。

1.4 基于變異系數的加權投票算法的多模型融合

因為單個醫療命名實體識別模型很容易導致預測結果的假陰性和假陽性,從而影響最終的識別準確率。所以本文在一般的加權投票算法基礎上,引入變異系數這一統計量,提出一種基于變異系數的加權投票算法對BERT-MNER、IDCNN-MNER和GAT-MNER三種模型的結果進行融合處理。

每個子模型可以看成一個二分類器,即分類正確和分類錯誤。對于二分類問題,假設存在n個分類器且相互獨立,第n個分類器分類正確的概率是P,錯誤的概率是1-P。H(n)表示n次分類中正確的概率,則n個分類器中有k個分類器分類正確的概率如式(3)所示。若錯誤率是δ,f(x)表示正確分類,則每個分類器h(x)分類錯誤的概率如式(4)所示。

(3)

P(h(x)≠f(x))=δ

(4)

對于一個醫療實體,假設超過半數的分類器識別出這個實體,那么最終認為該實體識別正確。由霍夫丁不等式[15]可得,對于ε>0,k=(p-ε)n時,霍夫丁上界將按照指數級變化,有公式:

P(H(n)≤(p-ε)n)≤e-2ε2n

(5)

(6)

可以看出,當融合模型的數量n逐漸增大時,其錯誤率呈指數下降。該結論說明,通過將BERT-MNER、IDCNN-MNER和GAT-MNER三個模型進行融合,能夠提升醫療命名實體識別的精度。

在評價指標中,變異系數在數值上等于標準差與平均數的比率,是衡量各觀測值的一個統計量,是刻畫離中趨勢的重要指標,反映了取值的差異和波動。如果評價指標中某因素取值差異大,那么該因素是反映所評價對象的關鍵因素,因此要賦予更高權重。一般的加權投票算法往往選取評價指標中的F1值作為賦予權重的依據,但是這種算法不能全面地反映評價指標中各因素的差異和波動。因此,本文將評價指標中的精確率、召回率和F1值看作反映所評價對象的因素。因素的取值差異越大,該因素被賦予的權重越高。本文提出的基于變異系數的加權投票算法過程如下。首先,計算第i個分類器的精確率、召回率和F1值這三個因素的變異系數CVMi1、CVMi2和CVMi3:

(7)

式中:σMik、μMik分別是第i個分類器的第k個因素的標準差和平均數。

其次,計算各分類器的權重公式如下:

(8)

式中:weighti表示第i個分類器的權重;Mik表示第i個分類器的k個因素的值;CVMik是第i個分類器第k個因素的變異系數;n是分類器的個數。將第i個分類器所有k個因素的變異系數和該因素占所有因素的比例對應相乘求和后,即可得到各分類器的權重大小。確定完各分類器的權重后,計算第j個預測實體的投票綜合得分sum-scorej:

(9)

(10)

1.5 基于歷史信息的實體糾錯算法

由于數據的標注不一致,實體識別模型會不可避免地產生一些實體邊界預測錯誤的問題,為了解決該問題,本文提出基于歷史信息的實體糾錯算法,如算法1所示。該算法糾錯的處理準則是如果預測的實體邊界與構建的醫療實體歷史信息庫中存在的實體邊界不一致,那么將該實體邊界更新為庫中實體的邊界。

算法1基于歷史信息的實體糾錯算法

輸入:實體信息字典(Entity Dictionary,ED),電子病歷語句集(EMR Sentences,ES),電子病歷語句中識別出的實體列表(Recognized Entities List,REL)。

輸出:完成糾錯的實體列表(Complete Error Correction Entities List,CECEL)。

Step:

2.foreachsentence in ESdo

3. if string match with EDT

5.endfor

6.foreachrecognized entity in RELdo

7. if matching entity in MEL and recognized entity are overlap in position

8. if len(recognized entity)

9. update recognized entity position;

11.endfor

12.returnCECEL

該算法能夠利用訓練集和驗證集中的醫療實體歷史信息構建醫療實體歷史信息庫來糾正預測錯誤的實體。算法的輸入是實體信息字典ED、電子病歷語句集ES和電子病歷語句中識別出的實體列表REL,輸出是完成糾錯的實體列表CECEL。其中,實體信息字典是根據電子病歷訓練集和驗證集的標注實體信息構建的,字典中的鍵為實體的名稱,值為實體的預定義類別。首先,使用Trie樹結構將實體信息字典ED存儲為實體信息詞典樹EDT;其次,依次輸入電子病歷測試集的語句ES,查找該語句與實體信息詞典樹EDT中所有匹配的醫療實體,將其存儲為匹配實體列表(Matching Entities List, MEL);然后,對于電子病歷中的每一個語句,如果該語句中識別出的實體列表REL中的實體與匹配實體列表MEL中實體的位置存在重疊,且REL中該實體的長度小于MEL中實體的長度,那么就更新REL中的該實體的位置,將該實體添加至完成糾錯的實體列表CECEL;最后,返回完成糾錯的實體列表CECEL。

2 實驗與結果分析

2.1 實驗數據集

本文使用的實驗數據集源自CCKS2019評測任務一的子任務“面向中文電子病歷的醫療實體識別”。該數據集包括訓練集和測試集,各包含7 717個句子和379個句子,每個句子標注了醫療實體的名稱、開始位置、結束位置和預定義類別信息。共有六類預定義醫療實體,分別為解剖部位、疾病和診斷、手術、藥物、實驗室檢驗和影像檢查。采用BIO標注方法,共有13種標簽,如“B-ANA”“I-ANA” “B-DIS”“I-DIS”等。在數據集預處理的過程中,針對預定義實體邊界標注錯誤和標注前后不一致等問題,使用人工糾錯的方式將標注錯誤的實體糾正。

2.2 評價指標

醫療命名實體識別任務使用精確率(P)、召回率(Recall)以及F1值作為評價指標,具體公式如式(11)-式(13)所示。其中,正確識別的醫療實體個數是TP,識別到不相關的醫療實體個數是FP,未識別出的醫療實體個數是FN。P值是正確識別的醫療實體個數占識別出的所有醫療實體的比率,R值是正確識別的醫療實體個數占標注的所有醫療實體的比率,F1值是P值和R值的調和平均值。

(11)

(12)

(13)

2.3 實驗環境與參數設置

本文實驗基于PyTorch框架,具體實驗環境如表1所示。

表1 實驗環境

BERT-MNER、IDCNN-MNER和GAT-MNER三種深度學習識別模型的超參數設置相同,具體信息如表2所示,其他參數設置信息如表3所示。

表2 三種模型的超參數表

表3 三種模型的參數表

2.4 結果分析

2.4.1不同模型對比實驗與分析

將本文提出的融合模型(CV-Weighted-Fusion)與BERT-MNER、IDCNN-MNER和GAT-MNER三個單一模型進行對比實驗,實驗結果如圖6所示,本文方法的P值和F1值相比單個模型有顯著提升,分別達到88.72%和85.11%。P值相比三種模型分別提升5.95百分點、5.66百分點和5.73百分點,F1值相比三種模型分別提升1.83百分點、2.38百分點和1.99百分點。實驗結果表明,本文提出的融合模型獲得了較好的實體識別效果。

為了更直觀地對比本文提出的融合模型與其他單一模型的實驗效果,表4列舉了一段電子病歷語料和其中包含的預定義醫療實體及類別。同時,對比了不同模型識別結果,如表5所示。

表4 電子病歷語料示例

表5 不同模型識別結果示例

由表5可看出,本文提出的融合模型識別的醫療實體更加精確。BERT-MNER模型錯誤識別“腫塊”實體,IDCNN-MNER模型和GAT-MNER模型錯誤識別“髂嵴水平上腹部L5腰椎”實體的邊界,而本文提出的基于變異系數的加權投票算法的融合模型則正確識別出“CT,影像檢查”和“髂嵴水平上腹部L5腰椎,解剖部位”兩個電子病歷語料示例中預定義的醫療實體及類別。

2.4.2投票算法對比實驗與分析

將本文提出的基于變異系數的加權投票算法(CV-Weighted-Fusion)與常用的多數投票算法(Fusion)、加權投票算法(Weighted-Fusion)進行對比實驗,結果如表6所示。

表6 投票算法實驗結果(%)

可以看出,使用基于變異系數的加權投票算法進行模型融合后,R值雖然降低1.68百分點,但是P值提升較多,達2.40百分點,F1值亦有提升。實驗結果表明,基于變異系數的加權投票算法相比多數投票算法和加權投票算法進行模型融合,能較大幅度提升實體識別的準確率。

2.4.3基于歷史信息的實體糾錯算法實驗與分析

表7是基于歷史信息的實體糾錯算法(Algorithm)在融合模型上的實驗結果。如表7所示,使用該算法對單個模型和融合模型進行優化后,P值、R值和F1值均有提升。將基于變異系數的加權投票算法得到的融合結果進行優化后,P值、R值和F1值分別提升0.84百分點、0.98百分點和0.92百分點。同時,CV-Weighted-Fusion+Algorithm的方法與所有模型相比F1值最高。該實驗表明,基于歷史信息的實體糾錯算法能夠優化模型融合的結果,在醫療命名實體識別任務中取得很好的效果。

表7 基于歷史信息的實體糾錯算法實驗結果(%)

3 結 語

本文提出一種基于深度學習多模型融合的醫療命名實體識別方法:首先,分別使用BERT-MNER、IDCNN-MNER和GAT-MNER模型識別醫療實體,其中BERT預訓練語言模型能夠更加精確地表示電子病歷文本中的上下文相關語義,IDCNN保證了后續模型融合時子模型的多樣性和結構差異性,GAT通過構建三種字詞圖可以充分利用詞語的邊界和語義信息;然后,使用基于變異系數的加權投票算法對三種模型的識別結果進行融合;最后,使用基于歷史信息的實體糾錯算法優化融合結果。實驗表明,與基于單一深度學習網絡的命名實體模型相比,該方法能夠更好地識別電子病歷中的醫療實體。下一步工作是在融合時,嘗試增加NER模型的個數,同時將更多更新的模型運用其中,從而達到更好的識別性能。

猜你喜歡
融合信息模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 日韩高清欧美| 在线观看国产黄色| 国产精品3p视频| 99久久国产综合精品女同| 91av国产在线| 国产精品漂亮美女在线观看| 亚洲精品第一在线观看视频| 9久久伊人精品综合| 亚洲bt欧美bt精品| 国产精品冒白浆免费视频| 人人澡人人爽欧美一区| 欧美激情综合| 国产导航在线| 成人免费黄色小视频| 久久无码高潮喷水| 亚洲av综合网| 国产青榴视频| 色综合婷婷| 色久综合在线| 欧美国产日产一区二区| 香蕉网久久| 日本人又色又爽的视频| 亚洲国产AV无码综合原创| 久久久久亚洲精品成人网 | 国产主播一区二区三区| 国产福利在线观看精品| 91精品久久久无码中文字幕vr| 91小视频在线观看免费版高清| 亚洲动漫h| 老色鬼欧美精品| 黄色网站不卡无码| 999精品色在线观看| 日韩精品欧美国产在线| 亚洲综合第一区| 在线观看国产精品日本不卡网| 精品国产Av电影无码久久久| 日韩中文欧美| 永久天堂网Av| 99久久婷婷国产综合精| 最近最新中文字幕免费的一页| 综合网天天| 婷婷五月在线| 国产精品欧美激情| 亚洲国产精品一区二区第一页免 | 国产性生大片免费观看性欧美| 在线五月婷婷| 久久天天躁狠狠躁夜夜2020一| 国产成人精品优优av| 国产精品无码一区二区桃花视频| 日韩欧美中文字幕在线精品| 99热这里只有精品免费| 亚洲狠狠婷婷综合久久久久| 97狠狠操| 六月婷婷精品视频在线观看| 中文字幕无码制服中字| 亚洲国产成人久久精品软件| 免费国产高清视频| 久久婷婷色综合老司机| 永久免费AⅤ无码网站在线观看| 国产对白刺激真实精品91| 天堂在线视频精品| 国产精品第三页在线看| 伊人色婷婷| 国产区网址| 91青青草视频在线观看的| www.91在线播放| 亚洲成人精品在线| 久久亚洲高清国产| 国产在线专区| 伊人丁香五月天久久综合 | 国产夜色视频| 中文字幕无线码一区| 一级爱做片免费观看久久| 色综合狠狠操| 91久久偷偷做嫩草影院| 亚洲h视频在线| www.亚洲国产| 亚洲成人在线网| 亚洲欧洲自拍拍偷午夜色无码| 国产成人福利在线视老湿机| 色成人亚洲| 亚洲国产理论片在线播放|