999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)MC-Bert 的ICD 編碼映射方法研究

2023-06-21 01:59:00周浩然鄭建立
關(guān)鍵詞:語(yǔ)義實(shí)驗(yàn)模型

周浩然, 鄭建立

(上海理工大學(xué)健康科學(xué)與工程學(xué)院, 上海 200093)

0 引 言

疾病和相關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(International Statistical Classification of Diseases and Related Health Problems,ICD)由世界衛(wèi)生組織創(chuàng)立,用來(lái)確定全球衛(wèi)生趨勢(shì)和統(tǒng)計(jì)數(shù)據(jù)的一種醫(yī)療編碼體系國(guó)際標(biāo)準(zhǔn)。 該體系由表1 所示的醫(yī)學(xué)編碼及對(duì)應(yīng)醫(yī)學(xué)名稱組成最小描述單元,涉及到手術(shù)、疾病、診斷等醫(yī)療環(huán)節(jié),對(duì)生物醫(yī)學(xué)領(lǐng)域如醫(yī)學(xué)知識(shí)實(shí)體對(duì)齊、醫(yī)療標(biāo)準(zhǔn)化、臨床路徑等研究起著重要作用,同時(shí)也作用于醫(yī)保結(jié)算、醫(yī)療監(jiān)督等領(lǐng)域。

表1 ICD 編碼示例Tab. 1 Examples of ICD code

當(dāng)前,國(guó)內(nèi)醫(yī)療體系中存在著多種本地化的ICD 編碼版本,且大部分基于ICD-9 和ICD-10。 雖然部分機(jī)構(gòu)發(fā)布了某版本與另一版本的映射,但不論是從映射版本的數(shù)量以及更新速度都不盡如人意。 除此以外,各個(gè)醫(yī)療機(jī)構(gòu)還存在各自定義的院內(nèi)碼,這更對(duì)醫(yī)療數(shù)據(jù)的一致性提出了挑戰(zhàn)。

目前,醫(yī)學(xué)編碼相關(guān)的研究大多集中在病案的命名實(shí)體識(shí)別和編碼領(lǐng)域,如夏等[1]基于深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)電子病歷的實(shí)體識(shí)別;厐等[2]基于文本相似度實(shí)現(xiàn)了康復(fù)量表與 ICF ( International Classification of Functioning,Disability and Health)編碼的映射。 此外,專業(yè)醫(yī)生也就各自專業(yè)領(lǐng)域ICD編碼的合理性進(jìn)行了討論,如葉[3]等對(duì)ICD-10 在眼挫傷的分類編碼討論;許等[4]對(duì)ICD-10 編碼在癲癇方面的質(zhì)量分析。

實(shí)現(xiàn)ICD 映射的方式往往需要大量的人工分級(jí)、字典映射等傳統(tǒng)方式,而基于語(yǔ)義相似度的方法較少。 隨著蘊(yùn)含大量生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)的預(yù)訓(xùn)練模型MC-Bert(Meta-Controller BERT)的出現(xiàn),中文醫(yī)學(xué)文本可以轉(zhuǎn)化為更加稠密和準(zhǔn)確的向量表示,在此基礎(chǔ)上本文提出一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,該方法通過(guò)語(yǔ)義相似度在現(xiàn)有的ICD 版本映射庫(kù)中進(jìn)行匹配實(shí)驗(yàn),在不同匹配精度下的準(zhǔn)確率均達(dá)到較高水平。似度,依次進(jìn)行排序獲得Top5,輸出用于驗(yàn)證。

1 改進(jìn)的MC-Bert 模型

改進(jìn)的MC-Bert 是一種利用白化處理優(yōu)化MCBert 編碼輸出的無(wú)監(jiān)督學(xué)習(xí)模型,其結(jié)構(gòu)圖如圖1 所示。

圖1 改進(jìn)的MC-Bert 模型結(jié)構(gòu)圖Fig. 1 Model structure diagram of improved MC-Bert

首先,由于ICD 中的名稱部分既有較短小的詞語(yǔ)如霍亂,也有較長(zhǎng)的句子如“遺傳性腎病伴有輕微的腎小球異常,不可歸類在他處者”,本文將其統(tǒng)一填充為相同長(zhǎng)度的句子,輸入MC-Bert 進(jìn)行編碼;其次,將兩個(gè)文檔中編碼名稱的輸出矩陣拼接,作為白化處理的輸入,計(jì)算獲得消除各向異性后的句向量;最后,將兩文檔的句向量?jī)蓛捎?jì)算余弦相

1.1 預(yù)訓(xùn)練語(yǔ)言模型MC-Bert

MC-Bert 由Zhang 等[5]提出,訓(xùn)練過(guò)程如圖2所示。 以BERT 作為基礎(chǔ)模型,使用大量生物醫(yī)學(xué)領(lǐng)域語(yǔ)料進(jìn)行訓(xùn)練,包含許多生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)。 雖然預(yù)訓(xùn)練語(yǔ)言模型在各項(xiàng)語(yǔ)言任務(wù)中性能均有大幅的提升,但Gao 等[6]發(fā)現(xiàn),其在詞向量方面仍存在各向異性,導(dǎo)致模型出現(xiàn)語(yǔ)義表達(dá)的退化問(wèn)題。

圖2 MC-Bert 的訓(xùn)練過(guò)程Fig. 2 The training process of MC-Bert

1.2 白化處理

白化處理是一種預(yù)處理方法,由Su 等[7]首先引入以解決預(yù)訓(xùn)練模型語(yǔ)義表達(dá)的退化問(wèn)題,其具體操作是將文檔中N條句子經(jīng)過(guò)預(yù)訓(xùn)練模型的編碼層輸出為向量集合{xi}N i=1,然后將此集合經(jīng)過(guò)如式(1)的線性變換,轉(zhuǎn)變?yōu)榫禐? 且協(xié)方差矩陣為單位矩陣的向量集合。

其中,μ代表平移系數(shù),ω代表縮放系數(shù)。

為了實(shí)現(xiàn)x~i的均值為0,則μ需要滿足式(2):

而{xi}Ni=1的協(xié)方差矩陣Σ滿足式(3):

轉(zhuǎn)換后的協(xié)方差矩陣與Σ的關(guān)系為式(4):

由于為單位矩陣,則式(4)等價(jià)于式(5):

由此可得到Σ滿足式(6):

由于協(xié)方差矩陣是正定對(duì)稱矩陣,因此Σ滿足式(7)所示的奇異值分解:

其中,U是ΣΣT的特征向量矩陣,Λ為對(duì)角矩陣

由式(6)、式(7)聯(lián)立,可以得到式(8):

最終可得到ω滿足式(9):

1.3 余弦相似度

余弦相似度是一種常用的計(jì)算文本相似度的方法,計(jì)算公式(10):

其中,x,y代表兩條句向量;d代表句向量的長(zhǎng)度;xi,yi代表x,y在下標(biāo)為i處的值。

余弦相似度的值越接近1,兩個(gè)句子的相似度越高。

2 實(shí)驗(yàn)方法和評(píng)價(jià)指標(biāo)

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)例見(jiàn)表2。

表2 實(shí)驗(yàn)數(shù)據(jù)示例Tab. 2 Examples of experimental data

2.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

改進(jìn)的MC -Bert 通過(guò)python 3. 9. 7,基于PyTorch 框架實(shí)現(xiàn);硬件環(huán)境為Intel Core i7-11700,顯卡為RTX 3060,顯存12 G,操作系統(tǒng)為window 10。 運(yùn)用Top-K 準(zhǔn)確率(Accuracy)評(píng)估方法性能,計(jì)算如公式(11)所示:

其中,nk是前k個(gè)候選項(xiàng)中包含正確項(xiàng)的個(gè)數(shù),N是映射條目的總數(shù)。

2.3 實(shí)驗(yàn)設(shè)計(jì)

本文涉及到使用不同版本的ICD 名稱進(jìn)行相似度計(jì)算,但不同版本的ICD 之間可能存在大量重復(fù)的醫(yī)學(xué)名稱,會(huì)干擾不同醫(yī)學(xué)名稱間的相似度匹配結(jié)果,因此設(shè)計(jì)實(shí)驗(yàn)(1);ICD 編碼數(shù)據(jù)蘊(yùn)含豐富的醫(yī)學(xué)知識(shí),注入這類數(shù)據(jù)或可提高模型匹配的準(zhǔn)確率,因此設(shè)計(jì)實(shí)驗(yàn)(2);為了驗(yàn)證改進(jìn)MC-Bert 與其他模型在匹配準(zhǔn)確率上確有提升,因此設(shè)計(jì)實(shí)驗(yàn)(3)。

(1)重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾評(píng)估實(shí)驗(yàn):從ICD-10 國(guó)標(biāo)2020 版中篩選出與醫(yī)保2.0 版醫(yī)學(xué)名稱不重復(fù)的1 773 條數(shù)據(jù),分別與去除重名項(xiàng)的、包含重名項(xiàng)的醫(yī)保2.0 版數(shù)據(jù)進(jìn)行匹配實(shí)驗(yàn)。

(2)醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn):編碼部分包含類目、亞目、細(xì)目、附加碼,分別代表不同范圍的醫(yī)學(xué)知識(shí)范疇。 ICD-9 團(tuán)標(biāo)版中篩選出非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條,分為編碼不注入、整條編碼注入、拆分三類編碼分別注入3 種數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),3 種實(shí)驗(yàn)數(shù)據(jù)示例見(jiàn)表3。

表3 三組實(shí)驗(yàn)數(shù)據(jù)示例Tab. 3 Three sets of experimental data examples

(3)改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn):在數(shù)據(jù)去重和拆分三類編碼注入后,在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保2.0 版對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)版和醫(yī)保2.0 版對(duì)照庫(kù)中,就改進(jìn)MC-Bert 和TF-IDF(Term Frequency-Inverse Document Frequency)、LSI(Latent Semantic Indexing)、MC-Bert、VSM(Vector Space Model)模型的表現(xiàn)進(jìn)行對(duì)比。

3 結(jié)果分析和總結(jié)

3.1 重名項(xiàng)對(duì)非重名項(xiàng)的擾動(dòng)評(píng)估實(shí)驗(yàn)

ICD-10 國(guó)標(biāo)2020 版與醫(yī)保2.0 版重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果見(jiàn)表4。 由此實(shí)驗(yàn)證明,重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾影響較大,因此需要將不同版本ICD 中的重名項(xiàng)和非重名分開(kāi)匹配。 同時(shí),也驗(yàn)證了改進(jìn)MC-Bert 在非重名項(xiàng)之間依舊保有較高的準(zhǔn)確率。

表4 重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果Tab. 4 The experimental results of the perturbation evaluation of the duplicated items to the non-duplicated items%

3.2 醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn)

CD-9 團(tuán)標(biāo)版中非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條分別對(duì)文本中的英文、符號(hào)進(jìn)行預(yù)處理后,分為編碼不注入、整條編碼注入、拆分三類編碼注入的性能對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表5。 由此實(shí)驗(yàn)證明,拆分編碼為類目、亞目、細(xì)目三級(jí)注入醫(yī)學(xué)名稱中可顯著提升準(zhǔn)確率,因而結(jié)合醫(yī)學(xué)名稱與三級(jí)編碼是最為合理的語(yǔ)義匹配方案。

表5 三種實(shí)驗(yàn)數(shù)據(jù)的性能對(duì)比結(jié)果Tab. 5 Comparison of experimental results of three groups of experimental data%

3.3 改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn)

通過(guò)將ICD-9 團(tuán)標(biāo)版中非重名的1 289 條向量進(jìn)行t-SNE 降維,對(duì)降維后的向量進(jìn)行可視化,得到如圖3 所示的向量分布對(duì)比圖,可見(jiàn)改進(jìn)MCBert 相較MC-Bert 能夠有效的將重疊的向量分散開(kāi)來(lái),擁有更好的語(yǔ)義表達(dá)能力,提升語(yǔ)義相似度檢索的敏感度。

圖3 向量分布對(duì)比圖Fig. 3 Comparison of vector distributions

同時(shí)本文也對(duì)加進(jìn)MC-Bert 與其他模型在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)上非重名項(xiàng)的準(zhǔn)確率進(jìn)行比較,結(jié)果見(jiàn)表6、表7。

表6 ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 6 Comparison experiments of ICD-9 group standard 2020 version and medical insurance version 2.0 mapping%

表7 ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 7 Comparison experiments of ICD-10 national standard 2020 version and medical insurance version 2.0 mapping%

可以看到改進(jìn)后的MC-Bert 模型與其他模型相比,除了在top1 匹配精度下的準(zhǔn)確率方面低于VSM 模型外,其他匹配精度下的準(zhǔn)確率較其他模型有較大提升。

4 結(jié)束語(yǔ)

本文提出來(lái)一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,通過(guò)實(shí)驗(yàn)證明了該方法相較其他模型在準(zhǔn)確率方面有較大的提升,為醫(yī)學(xué)編碼領(lǐng)域的智能化映射提供了一種思路。

猜你喜歡
語(yǔ)義實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 久久国产精品影院| 国产自产视频一区二区三区| 青青国产在线| 日韩精品成人网页视频在线| 永久免费av网站可以直接看的| 欧美激情网址| 欧洲免费精品视频在线| 国产尤物视频网址导航| 就去吻亚洲精品国产欧美| 亚洲视频一区| 99久久精品国产麻豆婷婷| 欧美成人精品一级在线观看| 91无码视频在线观看| 国产美女在线观看| 久久久噜噜噜| 九九热精品视频在线| 伊人久热这里只有精品视频99| 999精品视频在线| 欧美日一级片| 欧美精品成人一区二区在线观看| 亚洲美女久久| 91在线精品麻豆欧美在线| 亚洲精品桃花岛av在线| 久久影院一区二区h| 国产成人综合网在线观看| 亚洲国产日韩视频观看| 欧美97色| 蝌蚪国产精品视频第一页| 国产成人精品午夜视频'| 国产乱子精品一区二区在线观看| 国产99视频免费精品是看6| 亚洲人成网站18禁动漫无码| 91麻豆国产视频| 国产精品粉嫩| 国产精选自拍| 色成人亚洲| 嫩草国产在线| 狠狠操夜夜爽| 国产簧片免费在线播放| 亚洲一级色| 婷婷亚洲综合五月天在线| 2018日日摸夜夜添狠狠躁| 免费高清毛片| 久久国产高潮流白浆免费观看| 99热这里只有免费国产精品| 中文毛片无遮挡播放免费| 露脸一二三区国语对白| 五月激激激综合网色播免费| 成人亚洲天堂| 欧美国产成人在线| 91免费精品国偷自产在线在线| 中文字幕无码av专区久久| 亚洲爱婷婷色69堂| 色一情一乱一伦一区二区三区小说| 欧美一级高清免费a| 欧美在线视频不卡第一页| 国产成熟女人性满足视频| 欧美色视频网站| 久热中文字幕在线| 亚洲精品免费网站| 欧美精品在线看| 精品天海翼一区二区| 波多野结衣久久高清免费| 亚洲视频影院| 99青青青精品视频在线| 白丝美女办公室高潮喷水视频| 久久夜色精品| 色综合婷婷| 欧美视频二区| 人妻一本久道久久综合久久鬼色| 18禁黄无遮挡免费动漫网站| 97久久精品人人| 日本高清免费不卡视频| 亚洲天堂首页| 久久www视频| 26uuu国产精品视频| 国产成人三级在线观看视频| 精品偷拍一区二区| 被公侵犯人妻少妇一区二区三区| 欧美精品aⅴ在线视频| 2021国产在线视频| 国内丰满少妇猛烈精品播|