999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合字形特征的中醫(yī)醫(yī)案命名實(shí)體識(shí)別研究

2023-07-17 05:57:28胡為劉偉盛威盧彥杰石玉敬
計(jì)算機(jī)時(shí)代 2023年7期

胡為 劉偉 盛威 盧彥杰 石玉敬

關(guān)鍵詞:中醫(yī)醫(yī)案;命名實(shí)體識(shí)別;漢字字形;BERT模型;BiLSTM

0 引言

中醫(yī)醫(yī)案記錄了患者癥狀、病因、治法和方藥[1],研究從醫(yī)者望聞問切的診療機(jī)理可輔助醫(yī)生進(jìn)行臨床決策。如何從海量的中醫(yī)醫(yī)案臨床診斷信息中準(zhǔn)確的抽取癥狀實(shí)體是挖掘中醫(yī)辨證規(guī)律的重要基礎(chǔ)。

文獻(xiàn)[2]采用基于統(tǒng)計(jì)學(xué)的條件隨機(jī)場(chǎng)CRF 方法,對(duì)名老中醫(yī)臨床肺癌中癥狀實(shí)體抽取F1 值均達(dá)92%。近年來,大量研究者將神經(jīng)網(wǎng)絡(luò)用于信息抽取領(lǐng)域取得了不錯(cuò)的效果。文獻(xiàn)[3]對(duì)于中醫(yī)醫(yī)案臨床癥狀術(shù)語提取構(gòu)建了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)相結(jié)合的方法,該方法的F1值達(dá)78%。文獻(xiàn)[4]利用BiLSTM-CRF 模型對(duì)中醫(yī)醫(yī)案進(jìn)行命名實(shí)體識(shí)別F1值達(dá)89.8%。在上述的中醫(yī)醫(yī)案研究中,輸入普遍采用的是字向量,常用的中文字向量表示方法Word2Vec[5],BERT[6]等都沒有考慮漢字的字形結(jié)構(gòu)所包含的語義信息,如在中醫(yī)醫(yī)案中表示疾病的實(shí)體通常都有“疒”部首,如“痛”、“瘧”等,包含身體部位的實(shí)體通常包含“月”部首如“胸”、“肺”[7]。漢字起源于象形文字,漢字的結(jié)構(gòu)由詞根組成,而詞根由筆畫組成[8],利用漢字字形的筆畫、部首、詞根信息,可以學(xué)習(xí)到漢字整體字形結(jié)構(gòu)所隱含的語義信息,提高命名實(shí)體識(shí)別的準(zhǔn)確率。本研究將漢字的字形特征融入到中醫(yī)醫(yī)案癥狀實(shí)體抽取研究中,設(shè)計(jì)了一種基于漢字筆畫+部首+詞根的中醫(yī)醫(yī)案命名實(shí)體識(shí)別方法,并在中醫(yī)醫(yī)案數(shù)據(jù)集上和其他研究者采用的方法進(jìn)行對(duì)比,證明了該方法的優(yōu)越性,可為中醫(yī)醫(yī)案準(zhǔn)確的抽取癥狀實(shí)體提供參考。

1 數(shù)據(jù)集及相關(guān)處理

1.1 數(shù)據(jù)集來源

數(shù)據(jù)來自人民衛(wèi)生出版社出版的經(jīng)典中醫(yī)醫(yī)案叢書《中國(guó)現(xiàn)代名中醫(yī)醫(yī)案精粹》,該叢書有6 集,分三批共收錄434 位名中醫(yī)的5172 例醫(yī)案。

1.2 數(shù)據(jù)集篩選標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn):至少包含患者的主述、醫(yī)生對(duì)患者的辨證、醫(yī)生開的處方的醫(yī)案。

排除標(biāo)準(zhǔn):數(shù)據(jù)不完整的醫(yī)案。

1.3 數(shù)據(jù)預(yù)處理

根據(jù)篩選標(biāo)準(zhǔn)從《中國(guó)現(xiàn)代名中醫(yī)醫(yī)案精粹》的5172 例醫(yī)案中甄選了1000 條優(yōu)質(zhì)醫(yī)案。圍繞患者的癥狀和醫(yī)生的辨證方法并參考了《中醫(yī)臨床癥狀術(shù)語規(guī)范》等國(guó)家規(guī)范,將每條醫(yī)案劃分為辨證實(shí)體、癥狀實(shí)體、功效實(shí)體、方藥實(shí)體、治則實(shí)體、人群實(shí)體6 類不同的標(biāo)簽。與疾病無關(guān)的醫(yī)案信息劃分為非命名實(shí)體標(biāo)簽。為了提高數(shù)據(jù)集的質(zhì)量,本數(shù)據(jù)由多位經(jīng)驗(yàn)豐富的中醫(yī)專家和學(xué)者共同進(jìn)行數(shù)據(jù)集的人工標(biāo)注和校對(duì)。采用BIO 標(biāo)注法,其中實(shí)體開頭用B-X 表示,實(shí)體的中間和結(jié)尾用I-X 表示,非實(shí)體及標(biāo)點(diǎn)符號(hào)用O 表示。詳細(xì)的標(biāo)注信息見表1,最終的標(biāo)注的數(shù)據(jù)集共有104,785 字,最后將數(shù)據(jù)集按照7:2:1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

1.4 融合字形特征中醫(yī)醫(yī)案命名實(shí)體識(shí)別模型構(gòu)建

在中文的主流命名實(shí)體識(shí)別方法中,通常利用漢字的字嵌入特征[9],通過神經(jīng)網(wǎng)絡(luò)對(duì)其編碼后再通過條件隨機(jī)場(chǎng)的解碼分類器來標(biāo)記出具體的實(shí)體類別。但由于漢字本身的結(jié)構(gòu)多樣性和復(fù)雜性,漢字的筆畫、部首和詞根本身也包含了大量的語義信息,目前的中醫(yī)醫(yī)案命名實(shí)體方法都未很好的解決漢字潛在的字形表征不足的問題[10],對(duì)此,本文提出一種融合漢字筆畫、部首和詞根的漢字字形特征的中醫(yī)醫(yī)案命名實(shí)體識(shí)別方法即Strokes-Radical-Root-Word-BERTBiLSTM-CRF(簡(jiǎn)稱SRRW-BERT-BiLSTM-CRF)模型。模型的整體示意圖如圖1 所示。本模型主要包含了Embeddings 層、BiLSTM 層和CRF 層。

Embeddings 層:每個(gè)字向量的輸入特征由四部分組成。①每個(gè)字符的筆畫特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的筆畫特征輸入向量esi。②每個(gè)字符的部首特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的部首特征輸入向量eri。③每個(gè)字符的詞根特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的詞根特征輸入向量eci。④通過BERT 模型得到該字符的字向量表示ewi。最終每個(gè)字符的嵌入向量ei 可以表示為:

筆畫特征:漢字筆畫是指組成漢字且不間斷的各種形狀的點(diǎn)和線,如橫(一)、豎(丨)、撇(丿)、捺(?)、折()等,它是構(gòu)成漢字字形的最小連筆單位。本文按照《現(xiàn)代漢語通用字表》規(guī)定的五類基本筆畫:橫類(包括所有形式的長(zhǎng)橫、短橫、橫鉤、橫提)、豎類(包括所有形式的長(zhǎng)豎、短豎、豎鉤)、撇類(包括所有形式的向左撇出去的點(diǎn))、點(diǎn)類(包括捺和所有向右寫出去的點(diǎn))、折類(包括所有的橫折、豎折、折鉤、折撇),如表2所示,對(duì)于筆畫編碼1 到5。

漢字筆畫語義提取,主要是通過BiLSTM 網(wǎng)絡(luò)來獲取,將筆畫的輸入特征經(jīng)過BiLSTM 網(wǎng)絡(luò)后通過softmax層來標(biāo)準(zhǔn)化權(quán)重,以組合不同的筆畫輸出表示。圖2 顯示了筆畫的特征輸入結(jié)構(gòu)圖。

1.5 模型對(duì)比實(shí)驗(yàn)設(shè)計(jì)

本研究設(shè)計(jì)了6 組對(duì)照模型。①基于雙向長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)的BiLSTM-CRF 模型。②在BiLSTM-CRF 模型上加入預(yù)訓(xùn)練模型BERT 的BERT-BiLSTM-CRF 模型。③僅加入筆畫和字融合的Strokes-BERT-BiLSTM-CRF 模型。④僅加入部首和字融合的Radical- BERT-BiLSTM-CRF 模型。⑤僅加入詞根和字融合的Root-BERT-BiLSTM-CRF 模型。⑥設(shè)計(jì)了融合字形的筆畫、部首、詞根SRRWBERT-BiLSTM-CRF 模型。

本研究實(shí)驗(yàn)使用PyTorch 1.12 版本、Python3.7 版本的環(huán)境,BERT 預(yù)訓(xùn)練模型采用Google 官方的Bert_Base_Chinese 版本。模型的批處理大小(batchsize)為32,學(xué)習(xí)率(Learning rate)為1e-5,BERT 的參數(shù)最大句子長(zhǎng)度設(shè)置為256,dropout 參數(shù)為0.5,BiLSTM 中隱藏層的維度為128,每個(gè)模型訓(xùn)練的輪數(shù)為30。

1.6 模型評(píng)價(jià)指標(biāo)

本研究使用精確率(P)、召回率(R)和F1 測(cè)度值(F1)值三個(gè)評(píng)價(jià)指標(biāo)來評(píng)估模型在命名實(shí)體識(shí)別抽取任務(wù)中的性能。假設(shè)Tp表示模型預(yù)測(cè)正確識(shí)別的實(shí)體個(gè)數(shù),F(xiàn)p表示模型識(shí)別錯(cuò)誤實(shí)體個(gè)數(shù),F(xiàn)N為模型沒有識(shí)別出的實(shí)體個(gè)數(shù)。三個(gè)指標(biāo)具體公式如下:

2 實(shí)驗(yàn)結(jié)果

2.1 對(duì)比實(shí)驗(yàn)結(jié)果

根據(jù)研究的數(shù)據(jù)集在選取的六組對(duì)照模型進(jìn)行測(cè)試,分別觀察各模型對(duì)數(shù)據(jù)集劃分的辨證實(shí)體、癥狀實(shí)體、功效實(shí)體、方藥實(shí)體、治則實(shí)體、人群實(shí)體等六類實(shí)體的精確率(P)、召回率(R)和F1 測(cè)度值(F1)測(cè)試結(jié)果,模型結(jié)果見表3。從表3 的結(jié)果可知,在中醫(yī)醫(yī)案癥狀實(shí)體抽取模型中,在BiLSTM-CRF 模型上加上預(yù)訓(xùn)練模型BERT 在一定程度上可以提高模型的各項(xiàng)評(píng)估指標(biāo),在預(yù)訓(xùn)練模型上單獨(dú)加入筆畫、部首和詞根都可以提升模型的評(píng)估指標(biāo),其中加入筆畫的提升效果最為明顯,將筆畫、部首和詞根都加入可以最大程度上提升模型的效果。將筆畫、部首和詞根都加入的SRRW-BERT-BiLSTM-CRF 模型取得了最佳的精確率93.2%,最佳的召回率92.8% 和最佳的F1 值92.9%。

SRRW-BERT-BiLSTM-CRF 模型得到的各類癥狀實(shí)體評(píng)價(jià)指標(biāo)如表4 所示,從表4 的結(jié)果看出,SRRW-BERT-BiLSTM-CRF 模型在不同的癥狀實(shí)體標(biāo)簽評(píng)價(jià)指標(biāo)結(jié)果上有一定的差異,“辨證實(shí)體”、“治則實(shí)體”、“功效實(shí)體”比其他的實(shí)體得分低,分析其原因是這些實(shí)體在概念相似,人工標(biāo)注時(shí)對(duì)這三類實(shí)體比較難界定其邊界。

2.2 SRRW-BERT-BiLSTM-CRF模型字向量維度實(shí)驗(yàn)

為了進(jìn)一步探究模型輸入的四個(gè)向量即字向量、筆畫向量、部首向量、詞根向量的維度對(duì)模型結(jié)果的影響,本研究對(duì)四個(gè)向量選取了不同維度進(jìn)行的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3 所示。

從實(shí)驗(yàn)結(jié)果可以看出當(dāng)字向量維度為768 時(shí)模型取得的效果最好,筆畫向量維度為64 時(shí)取得最好的效果,部首向量在維度為512 時(shí)取得最佳效果,詞根向量在維度為384 時(shí)取得最佳效果,因?yàn)樽窒蛄坎捎玫腂ERT 預(yù)訓(xùn)練模型作為輸出,需要較大的維度才能學(xué)到更多的語義信息,筆畫向量本身所需要編碼的信息較少,故不需要太大的維度,部首和詞根都是基于字編碼得到的,但本身所包含的字編碼又沒有字向量多,故其需要的向量維度也無需字向量那么高。

2.3 實(shí)驗(yàn)結(jié)果討論

本研究對(duì)辨證實(shí)體、癥狀實(shí)體、功效實(shí)體、方藥實(shí)體、治則實(shí)體、人群實(shí)體等六類實(shí)體進(jìn)行了實(shí)驗(yàn)驗(yàn)證,取得了精確率93.2%,召回率92.8% 和F1 值92.9% 的結(jié)果,該結(jié)果證明本研究提出的方法的優(yōu)越性,同時(shí)也說明在中醫(yī)醫(yī)案中大量的癥狀實(shí)體與漢字本身的字形如筆畫、部首和詞根有密切關(guān)系,將這些信息加入到模型中,能有效學(xué)習(xí)到中醫(yī)醫(yī)案的語義信息。結(jié)果中的人群類實(shí)體、方藥類實(shí)體的F1 值都超過了90%,而辨證實(shí)體、治則實(shí)體、功效實(shí)體的F1 值比人群類實(shí)體、方藥類實(shí)體低了近10%,其原因可能是在醫(yī)案數(shù)據(jù)集中,不同的從醫(yī)者對(duì)醫(yī)案的記錄習(xí)慣存在一定的差異,辨證實(shí)體、治則實(shí)體、功效實(shí)體差異性較大故而影響最終的識(shí)別結(jié)果,辨證實(shí)體、治則實(shí)體、功效實(shí)體概念上較為相似,在人工標(biāo)注數(shù)據(jù)時(shí)未明確三類實(shí)體的邊界對(duì)識(shí)別結(jié)果也有一定的影響,在后續(xù)的研究中將會(huì)進(jìn)一步優(yōu)化數(shù)據(jù)集。

與其他的中醫(yī)醫(yī)案癥狀實(shí)體模型方法如文獻(xiàn)[3]的方法對(duì)比結(jié)果表明,在模型中加入筆畫、部首和詞根都能對(duì)中醫(yī)醫(yī)案癥狀實(shí)體的結(jié)果有提升,將筆畫、部首和詞根都加入對(duì)模型的F1 提升達(dá)3%,說明本模型能提高中醫(yī)醫(yī)案癥狀命名實(shí)體方法的準(zhǔn)確率及提高中醫(yī)臨床信息的自動(dòng)化抽取程度。在BiLSTM-CRF模型中加入預(yù)訓(xùn)練模型BERT 效果提升也比較明顯,本模型實(shí)驗(yàn)結(jié)果表明,模型輸入向量的維度會(huì)影響最終模型的結(jié)果說明筆畫、部首和詞根選擇合適的維度能夠?qū)W到更多字形所隱含的語義信息。

3 結(jié)束語

本文研究設(shè)計(jì)了一種融合字形特征的中醫(yī)醫(yī)案命名實(shí)體識(shí)別方法,利用漢字的筆畫、部首和詞根來提高文本的語義信息,結(jié)合BERT 預(yù)訓(xùn)練模型強(qiáng)大的文本特征表征能力,通過BiLSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)上下文信息的以及條件隨機(jī)場(chǎng)CRF 提取全局最優(yōu)標(biāo)注序列最終輸出中醫(yī)醫(yī)案的癥狀實(shí)體。通過實(shí)驗(yàn)證明了該方法優(yōu)于其他同類中醫(yī)醫(yī)案命名實(shí)體識(shí)別方法。本文方法在一定程度上提升了中醫(yī)醫(yī)案實(shí)體識(shí)別的效率,為分析和挖掘中醫(yī)醫(yī)案文本提供技術(shù)支撐。本研究后續(xù)將訓(xùn)練一個(gè)面向中醫(yī)醫(yī)案領(lǐng)域?qū)S械念A(yù)訓(xùn)練模型來替換本研究算法中的通用領(lǐng)域的BERT 模型,進(jìn)而進(jìn)一步提高模型識(shí)別的準(zhǔn)確性。

主站蜘蛛池模板: 亚洲天堂网在线视频| 久久久久九九精品影院| 日韩在线视频网站| 国产欧美日韩免费| 欧美特黄一免在线观看| 国产福利免费观看| 日韩在线视频网| 永久免费精品视频| 国产精品女同一区三区五区| 亚洲三级电影在线播放| 国产人前露出系列视频| 特级毛片8级毛片免费观看| 久久窝窝国产精品午夜看片| 五月天天天色| 国产精品无码AV中文| 国产人人乐人人爱| 亚洲黄色成人| 日韩精品一区二区三区中文无码| 亚洲福利视频一区二区| 大香伊人久久| 国产天天色| 久久国产精品波多野结衣| 亚洲av无码专区久久蜜芽| 毛片视频网址| 国产精品亚洲五月天高清| 一区二区三区成人| 99久久99这里只有免费的精品 | 日韩av在线直播| 久久国产毛片| www.亚洲色图.com| 欧洲高清无码在线| 麻豆AV网站免费进入| 高清无码一本到东京热| 少妇高潮惨叫久久久久久| 亚洲综合在线网| 国产精品九九视频| 男人天堂伊人网| 国产在线精彩视频二区| 国产精品永久不卡免费视频| 中文字幕在线观| AV不卡在线永久免费观看| 久久久久青草大香线综合精品| 乱系列中文字幕在线视频| 精品中文字幕一区在线| 制服丝袜无码每日更新| 再看日本中文字幕在线观看| 国产精品尤物铁牛tv| 亚洲制服丝袜第一页| 2020精品极品国产色在线观看 | 国产乱人伦偷精品视频AAA| 99免费在线观看视频| 久久人妻xunleige无码| 国产成人毛片| 久久大香伊蕉在人线观看热2| 亚洲综合极品香蕉久久网| 午夜免费小视频| 国产成人精品视频一区视频二区| 一级毛片无毒不卡直接观看| 欧美色图久久| 国产精品第一区在线观看| 日韩AV无码一区| 40岁成熟女人牲交片免费| 亚洲国产精品一区二区第一页免| 麻豆国产精品一二三在线观看| 一本一道波多野结衣av黑人在线| 在线视频亚洲色图| 亚洲无码日韩一区| 在线欧美一区| 在线亚洲小视频| 无码在线激情片| 波多野结衣一级毛片| 999在线免费视频| 老司国产精品视频91| 免费在线视频a| 日本一区高清| 国产三级国产精品国产普男人| 老司机精品99在线播放| 国产极品美女在线播放| 99视频只有精品| www精品久久| 人妻中文久热无码丝袜| 99视频只有精品|