999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入領域信息的醫療領域命名實體識別研究

2022-12-06 04:06:30陳繼剛
科學與信息化 2022年22期
關鍵詞:實驗模型

陳繼剛

西安交通大學第二附屬醫院信息網絡部 陜西 西安 710004

引言

電子病歷廣泛應用于各大醫療機構的臨床工作,其中包含大量的醫療領域非結構化文本,是現代醫學研究的重要數據來源。如何分析、挖掘、理解和有效利用這些文本,在指導醫療行業科研,提供臨床決策支持和提供個性化醫療服務等方面具有重要意義。

1 相關工作

文本的分析挖掘工作一般通過自然語言處理(Natural Language Processing,NLP)完成,命名實體識別(Named Entity Recognition,NER)作為NLP領域的重要基礎任務,為上層任務(如信息抽取、信息檢索等)提供豐富的語義知識。

命名實體的概念于MUC-6會議上首次提出,早期NER研究主要有基于規則和詞典和基于統計機器學習兩種方法。近年來,基于深度學習的方法被廣泛應用于NER任務。來自百度的Huang等[1]提出了BiLSTM(Bidirectional Long Short-Term Memory)-CRF(Conditional Random Field)模型并應用于序列標注任務,成為NER任務的泛用基礎方法之一。研究者們同時發現,使用預訓練語言模型生成詞向量作為下層網絡的輸入,可以大幅提高NER任務的效果。Google的Devlin J等[2]提出了預訓練模型BERT(Bidirectional Encoder Representation from Transformers),使用多層雙向Transformer網絡同時捕捉上下文信息,在多達11項自然語言處理任務中取得了最優表現,現已廣泛應用于NER任務中。兩者結合的BERT-BiLSTM-CRF模型,是NER目前最常用的模型。

實際應用中發現,通用文本訓練的BERT字向量(以下簡稱BERT字向量),無法很好適應醫療領域的下游任務。如何讓BERT字向量適配醫療領域任務,是本次研究的關注點。

2 方法

2.1 領域信息融入字向量

針對傳統模型在醫療領域適配性不佳的現狀,本文提出利用領域信息調整BERT字向量的方法,最終輸入模型中的字向量同時包含BERT字向量中的語義信息和醫療領域文本的上下文關系。受Huang等的啟發,本文主要考慮了以下三種方法結合BERT字向量與醫療領域預訓練模型字向量(以下簡稱領域字向量),得到結合后的字向量

領域字向量表示為如式(2)的形式:

2.1.1 加權求和。將BERT字向量與領域字向量按位進行加權求和得到,見式(3):

2.1.2 擴展維度。將領域字向量補在BERT字向量后面得到,如式(4)所示:

2.1.3 注意力機制。通過注意力機制融合BERT字向量與領域字向量可分為三步:

首先輸入信息,即BERT字向量 與領域字向量 。

其次計算注意力分布,見式(5):

注:表示sigmoid函數;tanh表示雙曲正切函數;W為訓練得到的矩陣。

最后計算融合后的字向量,利用前一步求得的注意力分布,得到融合后的字向量 ,見式(6):

得到 后繼續使用標注數據對其進行微調,具體表現為在結合后的網絡上加一層全連接層,用標注數據調整全連接層的參數,實現對字向量進行微調的效果。經過全連接層的微調之后,得到最終字向量 ,見式(7)。

注:tanh為全連接層的激活函數;W,b為訓練得到的參數。

將微調之后的最終字向量 輸入到下層BiLSTM-CRF網絡,得到融入領域信息的醫療領域NER模型。

2.1.4 訓練方法。使用融入領域信息的醫療領域NER模型訓練相關數據集的具體過程如下:①使用從網絡渠道及“中國醫學影像資源共享平臺”獲取的病例數據,作為醫療領域的未標注文本進行無監督訓練,可得到醫療領域的字向量 ;②采用多種方式將BERT字向量 與領域字向量 結合在一起構成新的字向量 ;③利用經過標注的公開數據集和“中國醫學影像資源共享平臺”上部分經過人工標注的病例數據集對新的字向量進行微調,在第2步生成字向量的網絡之后增加一層全連接層,通過對標注數據的訓練調整全連接層的參數;④遍歷數據集每一個句子,針對句子中的每一個字生成對應的字向量,將生成的字向量輸入BiLSTM層中,通過BiLSTM層學習數據的文本特征,并最終生成輸出向量;⑤將BiLSTM生成的輸出向量輸入CRF層,通過CRF的打分矩陣以及概率轉移矩陣得到每一種標簽對應的分數,并定義損失函數,通過將損失函數最小化更新需要學習的網絡參數;⑥在經過多輪學習參數收斂之后,固定網絡參數,輸出模型文件,供后續醫療領域NER系統使用。

3 實驗

3.1 實驗配置

實驗環境的軟硬件配置如下:CPU為i7-8700,內存16GB,顯卡為NVIDIA RTX 2080Ti/11GB,操作系統為Ubuntu18.04LTS,編程語言為Python3.6,深度學習框架為TensorFlow1.12,CUDA版本10.0。

3.2 評價指標

模型訓練結束之后,在測試集上驗證常用相關指標:準確率(Precision)、召回率(Recall)以及F1值,對比訓練后的不同模型的效果。

3.2.1 準確率P標注正確的實體占標注出的實體總數的百分比,見式(8)。

注:P代表準確率;EM代表標注正確的實體數量;AE代表標注出的實體總數。

3.2.2 召回率R標注正確的實體占測試集中實體總數的百分比,見式(9)。

注:R代表召回率;EM代表標注正確的實體數量;AM代表測試集中的實體總數。

3.2.3 F1值為準確率與精確率的調和平均,見式(10)。

比較不同模型在測試集上三種指標的高低,可以評判各自的優劣程度。

3.3 前置實驗

在進行醫療領域NER實驗之前,首先需要用醫療領域的未標注文本作為語料庫,訓練領域字向量。

3.3.1 獲取語料庫。本次研究的醫療領域語料庫來源,見表1。

表1 語料庫統計表

3.3.2 預訓練。訓練使用Python的Gensim模塊下的Word2Vec函數,其模型結構相對簡單,訓練消耗的資源較少,適合本次訓練醫療領域字向量。相關參數設置見表2。

表2 領域字向量訓練參數

3.3.3 保存預訓練模型。預訓練完成之后,將預訓練模型保存至文件系統,供后續NER實驗使用。

3.4 實驗參數

實驗過程中的參數設置見表3,為緩解過擬合帶來的影響,在生成最終字向量的全連接層中加入了正則化方法Dropout[6]。在模型訓練過程中,使用Adam優化算法加速收斂速度,提高學習效果。

表3 融入領域信息的醫療領域命名實體識別模型實驗參數

3.5 實驗數據集

訓練結果在公開數據集Yidu-s4k數據集、CCKS2020-Task3數據集以及“醫學影像資源共享平臺”已標注的病例數據上進行了相關實驗。

3.6 實驗結果

為驗證將領域信息融入字向量方法的合理性,將本文提出的模型稱為Domain-BERT-BiLSTM-CRF模型,與CRF及BiLSTM-CRF等NER經典模型進行對比,實驗結果見表4。其中加權求和選擇效果最好的展示,CRF與BiLSTM-CRF均使用BERT作為生成字向量的預訓練模型。

表4 不同模型在三種數據集上的實驗結果

根據表4中的結果,可以得出以下結論:

對比BiLSTM-CRF模型與原始CRF模型,可以看出利用BiLSTM提取訓練數據中的上下文特征,有利于提高模型的特征提取能力,模型的效果更優。

對比Domain-BERT-BiLSTM-CRF模型與BiLSTM-CRF模型,可以看出通過擴展維度的方式結合BERT字向量與領域字向量,取得了比原始BERT字向量更好的效果。在CCKS2020-Task3數據集中,該方式的F1值比使用通用BERT的BiLSTMCRF模型的F1值提高了2%。

實驗過程中記錄了各模型F1值隨epoch的變化,以CCKS2020-Task3數據集為例,見圖2。將以擴展維度的方式結合BERT字向量與領域字向量的模型命名為Domain-BERTBiLSTM-CRF-1,將以加權求和的方式結合BERT字向量與領域字向量的模型命名為Domain-BERT-BiLSTM-CRF-2,將以注意力機制的方式結合BERT字向量與領域字向量的模型命名為Domain-BERT-BiLSTM-CRF-3。

從圖1可以看出,融入領域信息的醫療領域命名實體模型的F1值趨于穩定的時間比其他兩種傳統模型稍慢,但穩定后的模型F1值更高。

圖1 CCKS2020-Task3數據集F1值的變化情況

4 結束語

醫療領域的文本標注工作需要由受過專業培訓的人員處理,鑒于醫療信息自身具有敏感性,各醫療機構之間的原始數據又難以共享,最終導致標注醫療數據的獲取成本高昂且難以實現。如何在有限條件下調整原始字向量,適應醫療領域的NER任務是本次研究關注的改進點。

針對通用BERT字向量無法很好適應醫療領域任務的問題,本文提出一種將領域信息融入字向量的新方法:①利用醫療領域內大量未標注數據預訓練一個領域字向量;②通過擴展維度等方式將BERT字向量與領域字向量相結合;③增設一個全連接層,利用標注數據對結合后的字向量進行微調,得到最終的字向量。為了驗證新方法的有效性,本文使用Yidu-s4k、CCKS2020-Task3以及“醫學影像資源共享平臺”的已標注病例數據作為語料庫進行實驗,對比原始CRF模型,BiLSTM-CRF模型與三種Domain-BERT-BiLSTM-CRF模型的效果。

實驗結果表明,相比CRF和BiLSTM-CRF,采用擴展維度的方式結合BERT字向量與領域字向量效果最佳,有效提升了模型性能。這也驗證了Zhang等[7]的實驗結果,即維度擴展方式要優于加算、乘算和注意力機制等方式的效果,猜測原因為維度擴展得到的向量在反向傳播計算誤差時,能更好地差異化處理不相關的特征,獨立地反映語言模型對上下文結構和上下文語義的表達與預期的差別。

擴展維度方式的Domain-BERT-BiLSTM-CRF模型在一定程度上改善了原始BERT字向量對醫療領域NER任務適應性不佳的情況,但該模型也存在一定局限性,其F1值趨于穩定的時間稍慢,穩定后的F1值更高。猜測原因是新模型在生成最終字向量時,需要比其他兩種傳統模型額外訓練一個全連接網絡。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品美女在线| 亚洲国产清纯| 农村乱人伦一区二区| 国产网站免费看| 丁香综合在线| 欧美午夜精品| 国产成人乱码一区二区三区在线| 欧美精品二区| 欧洲在线免费视频| 免费jizz在线播放| 久久久久九九精品影院| 午夜人性色福利无码视频在线观看| 欧美性猛交一区二区三区| 999在线免费视频| 亚洲视频在线青青| 青青青国产精品国产精品美女| 欧美日韩国产成人高清视频| 中文字幕在线日韩91| 91综合色区亚洲熟妇p| 亚洲AV无码乱码在线观看代蜜桃| 国产极品美女在线播放| 97精品伊人久久大香线蕉| 91国语视频| 国产精品99一区不卡| 国产视频一二三区| 成人自拍视频在线观看| 欧美国产在线看| 国产欧美精品一区aⅴ影院| 欧美精品v| 99热这里只有免费国产精品| 久视频免费精品6| 一级毛片在线播放免费| 99精品免费在线| 宅男噜噜噜66国产在线观看| 97亚洲色综久久精品| 国产91精品久久| 亚洲男女在线| 在线观看国产黄色| 在线观看亚洲国产| 91福利片| 91在线视频福利| 在线国产91| 美女国产在线| www亚洲精品| 国产69精品久久久久孕妇大杂乱| 91麻豆精品视频| 日a本亚洲中文在线观看| 久久亚洲欧美综合| 国产成人夜色91| 国产午夜小视频| 国产真实乱子伦视频播放| 国产成人你懂的在线观看| 欧美日韩亚洲国产| 97在线公开视频| 婷婷五月在线| 一区二区自拍| 国产成人综合日韩精品无码首页| 在线视频精品一区| 午夜毛片免费观看视频 | 国产成人成人一区二区| 国产无码高清视频不卡| 国模极品一区二区三区| 国产成人久久777777| 最新亚洲av女人的天堂| 岛国精品一区免费视频在线观看| 亚洲小视频网站| 伊人久久久久久久| 日本三级欧美三级| 她的性爱视频| 精品一区二区久久久久网站| 99视频在线精品免费观看6| A级毛片高清免费视频就| 亚洲制服丝袜第一页| 狠狠色成人综合首页| 国模私拍一区二区| 999精品色在线观看| 国产香蕉一区二区在线网站| 一级毛片免费不卡在线视频| 福利姬国产精品一区在线| 一本综合久久| 日韩精品亚洲人旧成在线| 亚洲视频无码|