999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合字形特征的中醫醫案命名實體識別研究

2023-07-17 05:57:28胡為劉偉盛威盧彥杰石玉敬
計算機時代 2023年7期

胡為 劉偉 盛威 盧彥杰 石玉敬

關鍵詞:中醫醫案;命名實體識別;漢字字形;BERT模型;BiLSTM

0 引言

中醫醫案記錄了患者癥狀、病因、治法和方藥[1],研究從醫者望聞問切的診療機理可輔助醫生進行臨床決策。如何從海量的中醫醫案臨床診斷信息中準確的抽取癥狀實體是挖掘中醫辨證規律的重要基礎。

文獻[2]采用基于統計學的條件隨機場CRF 方法,對名老中醫臨床肺癌中癥狀實體抽取F1 值均達92%。近年來,大量研究者將神經網絡用于信息抽取領域取得了不錯的效果。文獻[3]對于中醫醫案臨床癥狀術語提取構建了一種基于長短期記憶網絡和條件隨機場相結合的方法,該方法的F1值達78%。文獻[4]利用BiLSTM-CRF 模型對中醫醫案進行命名實體識別F1值達89.8%。在上述的中醫醫案研究中,輸入普遍采用的是字向量,常用的中文字向量表示方法Word2Vec[5],BERT[6]等都沒有考慮漢字的字形結構所包含的語義信息,如在中醫醫案中表示疾病的實體通常都有“疒”部首,如“痛”、“瘧”等,包含身體部位的實體通常包含“月”部首如“胸”、“肺”[7]。漢字起源于象形文字,漢字的結構由詞根組成,而詞根由筆畫組成[8],利用漢字字形的筆畫、部首、詞根信息,可以學習到漢字整體字形結構所隱含的語義信息,提高命名實體識別的準確率。本研究將漢字的字形特征融入到中醫醫案癥狀實體抽取研究中,設計了一種基于漢字筆畫+部首+詞根的中醫醫案命名實體識別方法,并在中醫醫案數據集上和其他研究者采用的方法進行對比,證明了該方法的優越性,可為中醫醫案準確的抽取癥狀實體提供參考。

1 數據集及相關處理

1.1 數據集來源

數據來自人民衛生出版社出版的經典中醫醫案叢書《中國現代名中醫醫案精粹》,該叢書有6 集,分三批共收錄434 位名中醫的5172 例醫案。

1.2 數據集篩選標準

納入標準:至少包含患者的主述、醫生對患者的辨證、醫生開的處方的醫案。

排除標準:數據不完整的醫案。

1.3 數據預處理

根據篩選標準從《中國現代名中醫醫案精粹》的5172 例醫案中甄選了1000 條優質醫案。圍繞患者的癥狀和醫生的辨證方法并參考了《中醫臨床癥狀術語規范》等國家規范,將每條醫案劃分為辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體6 類不同的標簽。與疾病無關的醫案信息劃分為非命名實體標簽。為了提高數據集的質量,本數據由多位經驗豐富的中醫專家和學者共同進行數據集的人工標注和校對。采用BIO 標注法,其中實體開頭用B-X 表示,實體的中間和結尾用I-X 表示,非實體及標點符號用O 表示。詳細的標注信息見表1,最終的標注的數據集共有104,785 字,最后將數據集按照7:2:1 的比例劃分為訓練集、驗證集和測試集。

1.4 融合字形特征中醫醫案命名實體識別模型構建

在中文的主流命名實體識別方法中,通常利用漢字的字嵌入特征[9],通過神經網絡對其編碼后再通過條件隨機場的解碼分類器來標記出具體的實體類別。但由于漢字本身的結構多樣性和復雜性,漢字的筆畫、部首和詞根本身也包含了大量的語義信息,目前的中醫醫案命名實體方法都未很好的解決漢字潛在的字形表征不足的問題[10],對此,本文提出一種融合漢字筆畫、部首和詞根的漢字字形特征的中醫醫案命名實體識別方法即Strokes-Radical-Root-Word-BERTBiLSTM-CRF(簡稱SRRW-BERT-BiLSTM-CRF)模型。模型的整體示意圖如圖1 所示。本模型主要包含了Embeddings 層、BiLSTM 層和CRF 層。

Embeddings 層:每個字向量的輸入特征由四部分組成。①每個字符的筆畫特征經過BiLSTM 神經網絡后得該字符的筆畫特征輸入向量esi。②每個字符的部首特征經過BiLSTM 神經網絡后得該字符的部首特征輸入向量eri。③每個字符的詞根特征經過BiLSTM 神經網絡后得該字符的詞根特征輸入向量eci。④通過BERT 模型得到該字符的字向量表示ewi。最終每個字符的嵌入向量ei 可以表示為:

筆畫特征:漢字筆畫是指組成漢字且不間斷的各種形狀的點和線,如橫(一)、豎(丨)、撇(丿)、捺(?)、折()等,它是構成漢字字形的最小連筆單位。本文按照《現代漢語通用字表》規定的五類基本筆畫:橫類(包括所有形式的長橫、短橫、橫鉤、橫提)、豎類(包括所有形式的長豎、短豎、豎鉤)、撇類(包括所有形式的向左撇出去的點)、點類(包括捺和所有向右寫出去的點)、折類(包括所有的橫折、豎折、折鉤、折撇),如表2所示,對于筆畫編碼1 到5。

漢字筆畫語義提取,主要是通過BiLSTM 網絡來獲取,將筆畫的輸入特征經過BiLSTM 網絡后通過softmax層來標準化權重,以組合不同的筆畫輸出表示。圖2 顯示了筆畫的特征輸入結構圖。

1.5 模型對比實驗設計

本研究設計了6 組對照模型。①基于雙向長短記憶神經網絡和條件隨機場的BiLSTM-CRF 模型。②在BiLSTM-CRF 模型上加入預訓練模型BERT 的BERT-BiLSTM-CRF 模型。③僅加入筆畫和字融合的Strokes-BERT-BiLSTM-CRF 模型。④僅加入部首和字融合的Radical- BERT-BiLSTM-CRF 模型。⑤僅加入詞根和字融合的Root-BERT-BiLSTM-CRF 模型。⑥設計了融合字形的筆畫、部首、詞根SRRWBERT-BiLSTM-CRF 模型。

本研究實驗使用PyTorch 1.12 版本、Python3.7 版本的環境,BERT 預訓練模型采用Google 官方的Bert_Base_Chinese 版本。模型的批處理大小(batchsize)為32,學習率(Learning rate)為1e-5,BERT 的參數最大句子長度設置為256,dropout 參數為0.5,BiLSTM 中隱藏層的維度為128,每個模型訓練的輪數為30。

1.6 模型評價指標

本研究使用精確率(P)、召回率(R)和F1 測度值(F1)值三個評價指標來評估模型在命名實體識別抽取任務中的性能。假設Tp表示模型預測正確識別的實體個數,Fp表示模型識別錯誤實體個數,FN為模型沒有識別出的實體個數。三個指標具體公式如下:

2 實驗結果

2.1 對比實驗結果

根據研究的數據集在選取的六組對照模型進行測試,分別觀察各模型對數據集劃分的辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體等六類實體的精確率(P)、召回率(R)和F1 測度值(F1)測試結果,模型結果見表3。從表3 的結果可知,在中醫醫案癥狀實體抽取模型中,在BiLSTM-CRF 模型上加上預訓練模型BERT 在一定程度上可以提高模型的各項評估指標,在預訓練模型上單獨加入筆畫、部首和詞根都可以提升模型的評估指標,其中加入筆畫的提升效果最為明顯,將筆畫、部首和詞根都加入可以最大程度上提升模型的效果。將筆畫、部首和詞根都加入的SRRW-BERT-BiLSTM-CRF 模型取得了最佳的精確率93.2%,最佳的召回率92.8% 和最佳的F1 值92.9%。

SRRW-BERT-BiLSTM-CRF 模型得到的各類癥狀實體評價指標如表4 所示,從表4 的結果看出,SRRW-BERT-BiLSTM-CRF 模型在不同的癥狀實體標簽評價指標結果上有一定的差異,“辨證實體”、“治則實體”、“功效實體”比其他的實體得分低,分析其原因是這些實體在概念相似,人工標注時對這三類實體比較難界定其邊界。

2.2 SRRW-BERT-BiLSTM-CRF模型字向量維度實驗

為了進一步探究模型輸入的四個向量即字向量、筆畫向量、部首向量、詞根向量的維度對模型結果的影響,本研究對四個向量選取了不同維度進行的實驗,實驗結果如圖3 所示。

從實驗結果可以看出當字向量維度為768 時模型取得的效果最好,筆畫向量維度為64 時取得最好的效果,部首向量在維度為512 時取得最佳效果,詞根向量在維度為384 時取得最佳效果,因為字向量采用的BERT 預訓練模型作為輸出,需要較大的維度才能學到更多的語義信息,筆畫向量本身所需要編碼的信息較少,故不需要太大的維度,部首和詞根都是基于字編碼得到的,但本身所包含的字編碼又沒有字向量多,故其需要的向量維度也無需字向量那么高。

2.3 實驗結果討論

本研究對辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體等六類實體進行了實驗驗證,取得了精確率93.2%,召回率92.8% 和F1 值92.9% 的結果,該結果證明本研究提出的方法的優越性,同時也說明在中醫醫案中大量的癥狀實體與漢字本身的字形如筆畫、部首和詞根有密切關系,將這些信息加入到模型中,能有效學習到中醫醫案的語義信息。結果中的人群類實體、方藥類實體的F1 值都超過了90%,而辨證實體、治則實體、功效實體的F1 值比人群類實體、方藥類實體低了近10%,其原因可能是在醫案數據集中,不同的從醫者對醫案的記錄習慣存在一定的差異,辨證實體、治則實體、功效實體差異性較大故而影響最終的識別結果,辨證實體、治則實體、功效實體概念上較為相似,在人工標注數據時未明確三類實體的邊界對識別結果也有一定的影響,在后續的研究中將會進一步優化數據集。

與其他的中醫醫案癥狀實體模型方法如文獻[3]的方法對比結果表明,在模型中加入筆畫、部首和詞根都能對中醫醫案癥狀實體的結果有提升,將筆畫、部首和詞根都加入對模型的F1 提升達3%,說明本模型能提高中醫醫案癥狀命名實體方法的準確率及提高中醫臨床信息的自動化抽取程度。在BiLSTM-CRF模型中加入預訓練模型BERT 效果提升也比較明顯,本模型實驗結果表明,模型輸入向量的維度會影響最終模型的結果說明筆畫、部首和詞根選擇合適的維度能夠學到更多字形所隱含的語義信息。

3 結束語

本文研究設計了一種融合字形特征的中醫醫案命名實體識別方法,利用漢字的筆畫、部首和詞根來提高文本的語義信息,結合BERT 預訓練模型強大的文本特征表征能力,通過BiLSTM 神經網絡學習上下文信息的以及條件隨機場CRF 提取全局最優標注序列最終輸出中醫醫案的癥狀實體。通過實驗證明了該方法優于其他同類中醫醫案命名實體識別方法。本文方法在一定程度上提升了中醫醫案實體識別的效率,為分析和挖掘中醫醫案文本提供技術支撐。本研究后續將訓練一個面向中醫醫案領域專有的預訓練模型來替換本研究算法中的通用領域的BERT 模型,進而進一步提高模型識別的準確性。

主站蜘蛛池模板: 国产精彩视频在线观看| 一级看片免费视频| 精品人妻无码区在线视频| 色悠久久久久久久综合网伊人| 国产中文一区二区苍井空| 亚洲欧洲日产无码AV| 国产成本人片免费a∨短片| 亚洲女同欧美在线| 在线播放真实国产乱子伦| 91亚瑟视频| 亚洲国产天堂在线观看| 国产亚洲欧美在线中文bt天堂| 天天综合色天天综合网| 成人福利在线视频免费观看| 激情無極限的亚洲一区免费 | 小说 亚洲 无码 精品| 青青极品在线| 欧美成人精品在线| 青青热久麻豆精品视频在线观看| 亚洲欧美国产视频| 亚洲人成成无码网WWW| 亚洲视屏在线观看| 亚洲成人黄色在线| 香蕉蕉亚亚洲aav综合| 亚洲欧美日韩另类在线一| 又猛又黄又爽无遮挡的视频网站| 国产精品va免费视频| 国产精品自拍露脸视频| 毛片久久久| 激情乱人伦| 国产精品福利导航| 国产一二三区在线| 亚洲黄网在线| 色综合日本| 国产JIZzJIzz视频全部免费| 18禁黄无遮挡网站| 国产精品成人久久| 亚洲男人的天堂久久香蕉| 国产成人久久综合一区| 无码日韩视频| 欧美国产日产一区二区| 欧美三级视频网站| 伊人激情综合网| 18禁黄无遮挡免费动漫网站| 久久国产亚洲欧美日韩精品| 久久免费观看视频| 国产96在线 | 亚洲自偷自拍另类小说| 欧美啪啪视频免码| 欧洲亚洲欧美国产日本高清| 国产精品亚洲天堂| 成人va亚洲va欧美天堂| 91免费精品国偷自产在线在线| 亚洲欧美人成电影在线观看| 国产激爽大片高清在线观看| 亚洲欧美日韩动漫| 日韩二区三区无| 国产精品漂亮美女在线观看| 亚洲欧美另类中文字幕| 露脸国产精品自产在线播| 91激情视频| 精品无码人妻一区二区| 国产精品视频白浆免费视频| 在线观看亚洲成人| 国产Av无码精品色午夜| 精品国产一区91在线| 亚洲天堂视频网站| 精品视频一区二区观看| 国产av剧情无码精品色午夜| 午夜激情福利视频| 亚洲国产综合自在线另类| 无码电影在线观看| 国产精品自在在线午夜区app| 综合五月天网| 国产视频一区二区在线观看| 国模粉嫩小泬视频在线观看| 国产地址二永久伊甸园| 国内精品免费| 欧美伦理一区| 成人国产三级在线播放| 九九精品在线观看| 97久久免费视频|