999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語義及邊界信息的中文電子病歷命名實體識別

2022-07-15 08:10:14崔少國陳俊樺李曉虹
電子科技大學學報 2022年4期
關鍵詞:實驗信息模型

崔少國,陳俊樺,李曉虹

(重慶師范大學計算機與信息科學學院 重慶 沙坪壩區 401331)

隨著醫院信息系統的快速發展與應用,醫療機構中積累了大規模的電子病歷數據。這些數據是病人在醫院就診及治療過程中所產生的重要記錄,包含病歷文本、醫學圖表、醫學影像等多種類型數據。其中,非結構化形式的電子病歷文本數據是最主要的部分,如主訴、診斷結果、入院/出院記錄和治療過程等,這些數據蘊含著大量有價值的醫療知識及健康信息[1]。從非結構化文本中識別出與醫療相關的實體名稱,并將它們歸類到預定義類別,如疾病、治療、癥狀、藥品等,是電子病歷數據挖掘與信息抽取的關鍵步驟,這一任務稱為電子病歷命名實體識別(named entity recognition, NER)[2]。它不僅是自然語言處理(natural language processing, NLP)相關任務,如信息檢索、信息抽取以及問答系統等的重要基礎工作[3],同時對電子病歷的應用如合并癥分析、不良藥物事件檢測以及藥物相互作用分析等起到了巨大的推動作用。

近年來,針對英文電子病歷的命名實體識別問題,學者們已經提出了幾種有效的神經網絡算法模型。其中,雙向長短記憶(bidirectional long short memory, BiLSTM)與 條 件 隨 機 場 (condiftional random field, CRF)的組合[4-6]以及卷積神經網絡(convolutional neural network, CNN)與條件隨機場的組合模型[7-8]最為流行。

與英文電子病歷的命名實體識別相比,中文電子病歷的命名實體識別問題更具有挑戰性。主要原因是醫學文本經常使用不規范的縮寫,并且大多數實體有多種書寫形式。目前大多數中文電子病歷的命名實體識別方法主要是基于字的BiLSTM-CRF和CNN-CRF 算法模型,并利用漢字和醫學詞典等特征,來提升識別的性能[9-11]。但是,由于循環神經網絡(recurrent neural network, RNN)無法并行計算,當句子中的某個字符與詞典中的多個詞組有關時,RNN 模型通常難以做出判斷。如Lattice LSTM[12]使用了跨輸入長度的雙重遞歸過渡計算,一個用于句子中的所有字符,另一個用于詞典中匹配的潛在單詞,因此其計算速度有限。除此之外,這類模型很難處理字典中潛在單詞之間的沖突:如果一個字符對應字典中成對的潛在單詞,這種沖突可能會誤導模型,使其預測不同的標簽。如“重慶市長安藥店”,文本中的“長”可能屬于“市長”一詞,也可能屬于“長安”一詞,對“長”所屬詞組判別的不同,將導致對字符“長”預測的標簽不同。 而flat-Lattice transformer for Chinese NER(FLAT)[13]模型,采用全連接自注意力結構,字符可以直接與其所匹配詞匯進行交互,同時捕捉長距離依賴,不但可以提高并行計算效率,還能很好地避免潛在單詞之間的沖突問題。

在命名實體識別任務中有一種增強識別能力的方法叫做自適應嵌入范式。該方法僅在嵌入層對詞匯信息進行自適應調整,后面通常接入LSTM+CRF或其他通用網絡,這種范式與模型無關,具備可遷移性。如WC-LSTM[14],采取單詞編碼策略,將每個字符為結尾的詞匯信息進行固定編碼表示,每一個字符引入的詞匯表征是靜態的、固定的,如果沒有對應的詞匯則用代替,因此可以進行批量并行化。文獻[15]第一次研究了部首級別信息在中文NER 的應用,使用Bi-LSTM 來提取部首層面的嵌入,然后將其與字符嵌入連接起來作為最終輸入。文獻[16]利用漢字圖像提取漢字的筆畫、結構等特征,取得了較好的性能。

在以上研究的基礎上,本文將漢字圖像特征、五筆字型編碼進行融合,然后將其作為高級語義信息,與依據字符及潛在醫學詞組生成的相對位置編碼融合,采用FLAT 的Lattice 模型架構實現中文電子病歷的命名實體識別。

1 方 法

本文提出了一種新的算法模型WHSemantic+Lattice,其結構框架如圖1 所示。算法將漢字圖像特征、五筆字型編碼進行融合作為高級語義信息,再融入包含潛在醫學詞組的FLAT 模型的Lattice中,最后通過條件隨機場輸出標記結果。

圖1 WHSemantic+Lattice 結構

1.1 FLAT 模型

受到位置向量表征的啟發,FLAT 模型設計了一種巧妙的位置編碼來融合Lattice 結構。如圖2所示,對于每一個字符和詞匯都構建兩個頭位置編碼和尾位置編碼,這種方式可以重構原有的Lattice結構。也正因如此,FLAT 可實現該字符與其所有匹配信息詞匯之間的交互,如字符[藥 ]可以匹配詞匯[長 安藥店]和 [藥 店]。

圖2 Flat-Lattice 結構

基于Lattice 結構的嵌入層是將自然語言文本轉為計算機能夠識別的向量表示,而詞向量ctb.50d.vec 是基于CTB 6.0(Chinese treebank 6.0)語料庫訓練得到的。鑒于醫學詞組的專業性強、語法結構復雜,為了提高模型對中文電子病歷實體識別能力,本文收集了全國知識圖譜與語義計算大會(CCKS: China Conference on Knowledge Graph and Semantic Computing)近幾年與醫學相關的比賽數據集,并將數據集中提到的醫學詞組作為醫學詞匯表保存下來,表中包含近3 萬個醫學詞組。在獲取ctb.50d.vec 中的所有詞匯信息并保存為列表以后,再將醫學詞匯表中ctb.50d.vec 不包含的詞組增加到列表中組成潛在詞表,從而在Lattice中嵌入層輸入字符匹配詞表中的潛在單詞時,可以匹配到更多的醫學詞組,提高漢字水平的中文醫學內隱能力。

圖2 為FLAT 的輸入和輸出,使用頭部(head)和尾部(tail)位置轉換的相對位置編碼來擬合單詞的邊界信息。相對位置編碼Ri j計算如下:

式中,Wr為 學習參數;4 種相對距離表示輸入xi和xj之間的關系,同時也考慮字符和詞匯之間的關系,其表示如下:

而pd的計算方式與文獻[17]相同:

然后得到縮放的點積注意力:

1.2 HSemantic 模型

漢字是以象形文字為基礎的,其含義用物體的形狀來表達,因此漢字的結構對NER 有一定的改善信息。如部首“艸”(草)和“木”(木)一般代表植物,可以增強中醫命名實體識別;“月”(身體)代表人體部分或器官,“疒”(疾病)代表疾病,這有利于中文電子病歷命名實體識別。本文考慮將漢字的圖像特征通過CNN 提取出來,象形信息在簡體中文中大量丟失。因此,本文嘗試了不同的文字圖形,最后發現基于NotoSansCJKsc-Regular的文字效果最好,于是將基于NotoSansCJKsc-Regular 的漢字輸入圖像。

Noto 是Google 一直在開發的一種字體系列,旨在以和諧的外觀支持所有語言,具有多種樣式和權重。NotoSansCJKsc 為簡體中文,其包含7 種款式,9 種語言,4 個地區,通過字體百科網站(https://www.zitibaike.com)可下載該字體。

本文通過Python 的圖像處理庫ImageFont 中的TrueType 函數創建NotoSansCJKsc 字體對象,再基于每一個字符調用getmask 生成對應的位圖,并利用numpy 中的asarray 函數將位圖轉為特征矩陣,最后通過HSemantic 模型提取漢字圖像的結構特征。

圖3 為HSemantic 模型結構,首先通過內核大小為5 輸出通道為64 的卷積層,以捕獲較低級別的圖形特征。然后,將其送到2×2 的最大池化中,將分辨率從15×15 降低到2×2,形成類似田字格的形狀,田字格是一種傳統的中國書法形式,展示了部首在漢字中的排列方式以及漢字的書寫順序,能夠更好地顯示漢字圖像的結構特征。最后,應用文獻[18]的組卷積運算將網格映射到最終輸出,因為組卷積不容易過擬合。

圖3 HSemantic 結構

1.3 WHSemantic+Lattice 模型

通過Python 的漢字五筆轉換工具庫pywubi 中的wubi 函數,根據輸入字符,找到其對應的五筆編碼,再通過五筆編碼在五筆解碼庫中找到對應的解碼。如字符[中 ]的五筆編碼為[k,h,k],對應解碼id 為[35,32,35]。最后,將經過解碼后的五筆傳到LSTM 中來增強五筆編碼間的特征聯系,作為字符的筆畫特征表示向量。

在文字圖像及五筆字型特征提取后,將它們通過全連接層連接起來,作為漢字的語義特征,再將其與FLAT 結構的字符部分拼接起來作為嵌入層的輸入:

式中,E表示Lattice 嵌入層和漢字圖形及筆畫特征的嵌入層拼接;EL表示Lattice 的嵌入層;Es表示漢字圖形及筆畫特征的嵌入層,其中Es對應Lattice 的潛在單詞部分用0 補齊,從而不會對潛在單詞部分造成影響。

將E通過Lattice 的線性變換:

式中,I是單位矩陣;WQ和WV是權重矩陣。然后使用FLAT 中的位置編碼來表示單詞的邊界信息,并計算注意力得分:

式中,u和 ν表 示學習參數;A表示注意力得分;=Ri jWR, 相對位置編碼Ri j計算公式為:

在獲得FLAT 層的最終輸出后,屏蔽其他部分,只將字符表示帶入輸出層,送到文獻[19]的條件隨機場中計算最終結果。

2 實 驗

2.1 數據集

本實驗使用的電子病歷數據集是醫渡云(北京)技術有限公司用于醫療命名實體識別評測任務的Yidu-S4K,其包含:疾病和診斷、檢查、檢驗、手術、藥物、解剖部位6 個實體類型,采用BIOES 標注體系統一進行標注。在BIOES 標注體系中,B 代表實體的開始位置,I 代表實體的內部,O 代表非實體部分,E 代表實體的結尾,S 代表單獨組成一個實體部分。本文將subtask1_training_part1和subtask1_training_part2 部分的訓練數據合并在一起,并隨機打亂后,按照7:3 的比例劃分訓練集和驗證集。表1 顯示了該數據集的分布情況。

表1 Yidu-S4K 中文電子病歷數據集情況 /個

為了驗證模型的泛化能力,使用Resume 數據集[13]。這是一份簡歷數據集,包含中國股市上市公司高管的簡歷。Resume 數據集采用BMESO 標注體系統一進行標注,BMESO 標注體系中,B 代表實體的開始位置,M 代表實體的內部,E 代表實體的結尾,S 代表單獨組成一個實體,O 代表非實體部分。表2 顯示了該數據集的統計情況。

表2 Resume 數據集情況 ×103

2.2 實驗設置

實驗采用python 3.8,pytorch 1.7.0 和fastNLP 0.6.0 框架,并使用NVIDIA 顯卡GTX3080Ti 進行加速,優化器采用sgd+moment 梯度下降算法進行參數優化。

本文使用準確率(Precision),召回率(Recall)和F1 值來評價模型的識別效果,其中F1 值可用來評價模型的綜合性能。

2.3 對比實驗

為了驗證本文方法的性能,設計了對比實驗,包括與其他算法模型的對比及新算法自身的消融實驗。

1) BiLSTM-CRF 模型[20]。該模型應用于序列標注任務。將句子的詞向量表示輸入該模型并對句子的標注序列進行預測。與文獻[20]不同,為了應對詞語邊界模糊的問題,本文以字為單位構建字向量。

2) BiLSTM+Attention+CRF 模型[21]。該模型在BiLSTM 層和CRF 層之間加入了注意力機制。

3) Lattice LSTM+CRF 模型[12]。該模型將字符的潛在單詞一起進行編碼,利用了單詞和單詞序列信息。

4) LR-CNN 模型[22]。該模型在CNN 中加入了rethink 機制。

另外,為了驗證文字圖像特征提取時最大池化對識別效果的影響,同時驗證五筆特征(WSemantic+Lattice)、文字圖像(HSemantic+Lattice)信息以及WHSemantic+Lattice 對識別效果的影響,本文進行了消融實驗。

3 結果及分析

針對Yidu-S4K 中文電子病歷數據集,本文從準確率、召回率和F1 值3 個性能指標方面對各種算法進行了對比。實驗結果如表3 所示。

表3 Yidu-S4K 中文電子病歷數據集的實驗結果 /%

從實驗結果可以看出,Lattice 結構模型使算法的性能指標均得到提高,說明邊界信息可以為電子病歷實體識別提供參考的位置信息,以確保算法的識別性能;而當模型在邊界信息的基礎上融合了單詞的語義信息后,模型整體識別性能進一步提升,本文算法在各項性能指標上均取得了最優值,F1值從73.13%提升到75.37%??梢?,邊界與語義信息的融合有效提升了電子病歷命名實體識別精度。

針對Resume 數據集,本文使用提出的算法實現了命名實體識別,并將實驗結果與其他模型進行了對比,結果如表4 所示。

表4 Resume 數據集上實驗結果 /%

從表4 可以看出,使用Lattice 可以使F1 值顯著提高,而使用語義信息的WHSemantic+Lattice模型比FLAT 模型的F1 值提升了0.61%。這是因為FLAT 的Lattice 更加關注詞與字符之間的關系,從而可以獲得詞的位置信息和邊界信息。WHSemantic關注點集中在全局信息上,通過筆畫特征修正每個字的語義信息。因此,FLAT 的Lattice 關注點和WHSemantic 關注點為本文方法在中文命名實體識別中的性能提升提供了補充信息。

針對消融實驗(1)和實驗(2),分別在FLAT的Lattice 中加入實驗(1)的處理方法,即處理漢字圖像提取時分別使用8×8、4×4、2×2 的最大池化層和不使用池化層的WHSemantic 模型;另加入實驗(2)的處理方法,即WSemantic 或HSemantic。并在Yidu-S4K 中文電子病歷數據集測試其效果。

表5 和表6 分別顯示了實驗(1)、實驗(2)各自的對比結果。

表5 消融實驗(1)的實驗結果 /%

表6 消融實驗(2)的實驗結果 /%

從表5 的結果來看,恰當地使用最大池化層可以有效提高漢字圖像特征,使識別效果得到進一步提升。但并不是所有最大池化層都可以提升模型的效果,如果使用不恰當的最大池化層,反而會使模型的識別效果變差,如當使用4×4 的最大池化層時,F1 值比不使用最大池化層低了3.39%。并且通過不同最大池化層對比,發現基于2×2(類似于田字格)的最大池化層較適合提取漢字圖像特征。

從表6 可以看出,使用五筆字型特征可以顯著提升模型的精度,是因為相同類型的實體部分偏旁信息也可能是相似的,而文字圖像信息可以進一步提升語義信息,從而有效提高模型的識別能力。

漢字特征對于中文電子病歷命名實體識別任務非常有用,因為它可以提供豐富的語義信息。為了驗證本文模型可以更好地利用邊界及語義信息,本文分析了 Yidu-S4K 中文電子病歷數據集中的一個示例。如表7 所示(DD 為疾病和診斷縮寫),與Lattice 模型不同,本文模型沒有遺漏任何重要的信息,且與標準劃分具有一樣的醫學含義。

表7 應用效果示例對比

4 結 束 語

中文電子病歷命名實體識別是醫學文本理解的重要基礎性工作。本文提出了將漢字圖像特征、五筆字型編碼作為高級語義信息,融入包含潛在醫學詞組的FLAT 模型的Lattice 中,充分利用了語義及邊界特征信息對中文電病歷數據進行醫學實體命名識別,并在Yidu-S4K 數據集上表現出高效的識別性能。但是,中文電子病歷的命名實體識別是一個高度復雜的序列標記任務,識別效率仍然有較大的提升空間。后期會對模型繼續進行優化調整,將更多的語言先驗知識融入到中文電子病歷命名實體識別任務中。

猜你喜歡
實驗信息模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 99久久精品久久久久久婷婷| 美女扒开下面流白浆在线试听| 伊人久热这里只有精品视频99| 久久五月视频| 日韩黄色大片免费看| 国产精品亚洲va在线观看| 中文字幕啪啪| 呦视频在线一区二区三区| 中文字幕乱码二三区免费| 国产视频a| 亚洲精品制服丝袜二区| 亚洲综合一区国产精品| 国产中文一区二区苍井空| av一区二区无码在线| 国产极品美女在线| 香蕉久久国产精品免| 欧美人在线一区二区三区| 亚洲最猛黑人xxxx黑人猛交| 一边摸一边做爽的视频17国产| 国产视频欧美| 天堂在线www网亚洲| 67194成是人免费无码| 欧美高清视频一区二区三区| 色男人的天堂久久综合| 久久伊人久久亚洲综合| 精品国产aⅴ一区二区三区| 国产精品久久久久久搜索 | 成人免费视频一区| 欧美特黄一级大黄录像| 成人一区在线| 99伊人精品| 欧美精品不卡| 天堂岛国av无码免费无禁网站| 国产一级毛片在线| 精品午夜国产福利观看| 亚洲色图综合在线| 制服丝袜 91视频| 久久久久国产精品熟女影院| 国产精品无码久久久久AV| 国产一级一级毛片永久| 青青草国产免费国产| 免费大黄网站在线观看| 72种姿势欧美久久久大黄蕉| 91蜜芽尤物福利在线观看| 97综合久久| 亚洲黄网在线| 99久久婷婷国产综合精| 成人免费一区二区三区| 99精品久久精品| 97久久精品人人做人人爽| 91无码网站| 欧美成人午夜影院| 中文字幕首页系列人妻| 欧美三级自拍| 天堂网国产| 四虎永久免费在线| 成人国产精品网站在线看| 欧美成人免费午夜全| 日韩中文精品亚洲第三区| 国产肉感大码AV无码| 综合色天天| 日本久久网站| 香蕉蕉亚亚洲aav综合| 日本www色视频| 青青草原国产精品啪啪视频| 亚洲国产成熟视频在线多多| 日本亚洲欧美在线| 亚洲综合精品第一页| 国产系列在线| 日韩二区三区无| 色一情一乱一伦一区二区三区小说 | 国产精品毛片一区视频播| 青青青国产视频手机| 国产福利拍拍拍| 国产精品yjizz视频网一二区| 国产成人欧美| 国产传媒一区二区三区四区五区| 欧美一级夜夜爽| 114级毛片免费观看| 中文字幕精品一区二区三区视频| 国产精品无码AⅤ在线观看播放| 国产主播在线一区|