999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中英文對(duì)照的影像學(xué)報(bào)告在預(yù)測(cè)模型中的一致性評(píng)價(jià)

2023-10-19 08:14:46李一晨黃艷群張志強(qiáng)王牧雨郜斌宇陳卉
中國(guó)醫(yī)療設(shè)備 2023年10期
關(guān)鍵詞:一致性英文分類

李一晨,黃艷群,張志強(qiáng),王牧雨,郜斌宇,陳卉

1.首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069;2.臨床生物力學(xué)應(yīng)用基礎(chǔ)研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100069

引言

目前,深度學(xué)習(xí)方法在自然語(yǔ)言處理、多模態(tài)機(jī)器學(xué)習(xí)等領(lǐng)域中取得了顯著進(jìn)展,但針對(duì)特定任務(wù)需要使用專有數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,耗費(fèi)大量時(shí)間和經(jīng)濟(jì)成本[1]。預(yù)訓(xùn)練模型與微調(diào)相結(jié)合的方式是解決這一問(wèn)題的常用方式,許多學(xué)者通過(guò)搭建預(yù)訓(xùn)練模型處理電子病歷(Electronic Medical Record,EMR)[2-3]。EMR 是指通過(guò)信息化的醫(yī)療管理系統(tǒng)存儲(chǔ)管理患者的相關(guān)數(shù)據(jù),包括住院史、病史和實(shí)驗(yàn)室指標(biāo)等,具有存儲(chǔ)成本低、便于管理等特點(diǎn),有利于實(shí)現(xiàn)患者追蹤管理[4]。目前國(guó)內(nèi)尚缺少可用于搭建預(yù)訓(xùn)練模型的開放、大規(guī)模EMR 公共數(shù)據(jù)集,而國(guó)外已有如美國(guó)麻省理工學(xué)院發(fā)布的Medical Information Mart for Intensive Care(MIMIC)數(shù)據(jù)庫(kù)等公開數(shù)據(jù)集。然而,國(guó)外 EMR 數(shù)據(jù)庫(kù)與國(guó)內(nèi)數(shù)據(jù)庫(kù)中臨床文本的語(yǔ)言不同,因此如果利用它們搭建面向國(guó)內(nèi) EMR 的預(yù)訓(xùn)練模型時(shí),需要解決臨床文本語(yǔ)言不同的問(wèn)題。解決這一問(wèn)題的方法之一是直接將英文文本翻譯成中文后用于搭建中文預(yù)訓(xùn)練模型,但直接將英文文本翻譯成中文文本能否能表達(dá)原英文文本的語(yǔ)義和知識(shí)以及在機(jī)器學(xué)習(xí)任務(wù)中能否達(dá)到相同的性能等問(wèn)題還需要探索?;诖?,本研究旨在探究將英文文本應(yīng)用于搭建中文預(yù)訓(xùn)練模型、將國(guó)外 EMR數(shù)據(jù)集用于搭建面向國(guó)內(nèi)應(yīng)用的預(yù)訓(xùn)練模型的可行性。

1 資料與方法

1.1 數(shù)據(jù)準(zhǔn)備

本研究的數(shù)據(jù)來(lái)源為MIMIC-IV 數(shù)據(jù)集,其是一個(gè)多參數(shù)、結(jié)構(gòu)化、包含圖像和文本等多模態(tài)數(shù)據(jù)的大型數(shù)據(jù)集[5],在去隱私化后對(duì)公眾免費(fèi)開放,提供給全球的研究者進(jìn)行研究[6-7]。由于數(shù)據(jù)集中的影像學(xué)報(bào)告均為胸部X 線片報(bào)告,因此本研究選取肺部疾病患者的文本作為研究對(duì)象。

根據(jù)患者的第一診斷提取患者記錄,將第一診斷為肺炎[國(guó)際疾病分類(International Classification of Diseases,ICD)第十次修訂本(ICD-9)編碼如481、486、4801 等;國(guó)際疾病分類第九次修訂本(ICD-10)編碼如J1000、J1008、J121 等)、氣胸(ICD-9 編碼如5120、5121、5128 等;ICD-10 編碼如J930、J9311、J9381 等)和胸腔積液(ICD-9 編碼如5119、51181、51189;ICD-10 編碼如J90、J910、J940、J942)的住院患者的X 線影像報(bào)告提取出來(lái),并進(jìn)一步提取影像報(bào)告中“影像所見(jiàn)”部分的文本,后續(xù)任務(wù)均基于這些文本。在提取數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗之后,列入本研究的X 線影像報(bào)告共1986 份。在1986 份影像報(bào)告中,患者的患病情況如表1 所示。

表1 病例患病情況(分)

1.2 文本處理

1.2.1 英文翻譯為中文

雙語(yǔ)評(píng)估替換(Bilingual Evaluation Understudy,BLEU)評(píng)分于2002 年由Papineni 等[8]提出,是廣泛應(yīng)用于翻譯效果評(píng)價(jià)的指標(biāo)。本研究測(cè)試了百度翻譯和谷歌翻譯對(duì)影像報(bào)告進(jìn)行翻譯,并使用BLEU 評(píng)分對(duì)兩者翻譯結(jié)果進(jìn)行量化評(píng)價(jià),最終將BLEU 評(píng)分較高的翻譯工具提供的中文文本用于后續(xù)研究。依據(jù)BLEU 評(píng)分原則為1-gram、2-gram、3-gram、4-gram 分配不同的權(quán)重,并將1-gram至4-gram下的BLEU評(píng)分進(jìn)行加權(quán)求和,結(jié)果如表2 所示。最終選取百度翻譯對(duì)影像報(bào)告文本的影像所見(jiàn)部分進(jìn)行翻譯。

表2 不同權(quán)重下的BLEU評(píng)分(分)

1.2.2 分詞與向量化

對(duì)于中文版本的影像報(bào)告,采用jieba 分詞軟件進(jìn)行分詞。在本研究中,通過(guò)閱讀X 線影像報(bào)告,人工記錄了報(bào)告中的專業(yè)詞匯,并將它們添加到詞典中,用于輔助jieba 分詞。對(duì)于英文文本,直接按照空格分詞。

使用Doc2vec[9]、詞頻-逆文檔頻率算法(Term Frequency - Inverse Document Frequency,TF-IDF)[10]、Tokenizer[11]和雙向編碼器表示(Bidirectional Encoder Representation from Transformers,BERT)[12]進(jìn) 行 文本向量化。其中,對(duì)于英文文本,使用BERT-Base-Uncased 進(jìn)行向量化;對(duì)于中文文本,使用BERTBase-Chinese 進(jìn)行向量化,為了便于表述,以下統(tǒng)稱為BERT。使用Doc2vec、Tokenizer 和TF-IDF 向量化方法,將中英文文本嵌入為一個(gè)100 維的向量;使用BERT 時(shí)將每篇中英文文本轉(zhuǎn)換為一個(gè)256 維的向量。

1.3 分類模型與分類任務(wù)

在對(duì)中英文文本進(jìn)行分詞與向量化之后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、TextCNN[13]、Softmax 和隨機(jī)森林(Random Forest,RF)[14]進(jìn)行疾病分類。

本研究設(shè)置了3 種二分類任務(wù)、3 種三分類任務(wù)和1 種五分類任務(wù)。二分類任務(wù)分別對(duì)肺炎-正常、氣胸-正常、胸腔積液-正常進(jìn)行分類;三分類任務(wù)分別對(duì)肺炎-氣胸-正常、氣胸-胸腔積液-正常、肺炎-胸腔積液-正常進(jìn)行分類;五分類任務(wù)則針對(duì)僅肺炎-僅氣胸-僅胸腔積液-患多種病-正常進(jìn)行分類。由于BERT 向量化方法有較多參數(shù),需要用較多數(shù)據(jù)進(jìn)行訓(xùn)練,因此本研究?jī)H在樣本較多的胸腔積液-正常二分類任務(wù)(共1020 例樣本)和五分類任務(wù)(共1986 例樣本)上采用BERT 方法。各分類任務(wù)采用的輸入向量以及分類器模型整理如表3 所示。

表3 向量化、分類方法及其對(duì)應(yīng)任務(wù)

1.4 模型分類結(jié)果的評(píng)價(jià)

以7 ∶3 的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集。使用F1 值對(duì)分類模型在測(cè)試集上的分類準(zhǔn)確性進(jìn)行評(píng)估[15]。使用一致率和Kappa 系數(shù)對(duì)中英文文本分類結(jié)果的一致性進(jìn)行評(píng)價(jià)[16]。Kappa 值>0.40 時(shí)認(rèn)為一致性中等,Kappa 值>0.75 則認(rèn)為一致性較高。

2 結(jié)果

2.1 二分類任務(wù)結(jié)果與一致性

各個(gè)任務(wù)下,模型所得F1 值、一致率、Kappa 值如表4 所示,胸腔積液-正常二分類任務(wù)中,BERTSoftmax 在對(duì)中英文版本的影像報(bào)告的分類中,所得F1值(中文0.917 和英文0.948)明顯高于其他模型,得到一致率為0.922,Kappa 值為0.724。在肺炎-正常分類任務(wù)中,TF-IDF-RF 方案能夠得到較高的F1 值(中文0.834 和英文0.845),Tokenizer-CNN 得到更高的一致率(0.730)和Kappa 值(0.459)。在氣胸-正常分類任務(wù)中,Tokenizer-CNN 方案對(duì)于英文文本的分類能夠得到較高的F1 值(0.832);TF-IDF+Doc2vec-TextCNN與TF-IDF-RF 相比,前者對(duì)中文文本分類效果較好,后者對(duì)英文文本分類效果較好;此3 個(gè)模型得到的分類一致率范圍在0.801~0.819,Kappa 值范圍在0.203~0.312。在二分類任務(wù)中,中英文文本具有中等的一致性。

表4 二分類任務(wù)下各模型性能及結(jié)果一致性

2.2 三分類任務(wù)結(jié)果與一致性

三分類任務(wù)下各個(gè)模型的性能及結(jié)果一致性指標(biāo)值如表5 所示,Tokenizer-CNN 模型在肺炎-氣胸-正常三分類和氣胸-胸腔積液-正常三分類中,F(xiàn)1 值高于其他模型。在各個(gè)模型下,一致率均可以達(dá)到0.65 以上,Kappa 基本可以達(dá)到0.40 以上,說(shuō)明在此任務(wù)下中英文不同語(yǔ)言版本的影像報(bào)告具有中等的相似性。在肺炎-胸腔積液-正常三分類任務(wù)中,TF-IDF+Doc2vec-TextCNN 方案可以得到更高的F1 值,但3 個(gè)模型的性能均低于在其他兩個(gè)三分類任務(wù)中模型的性能,因此在此任務(wù)中中英文不同語(yǔ)言版本的影像報(bào)告的一致率和Kappa 值相對(duì)較低,中英文文本一致性差。

表5 三分類任務(wù)下各模型性能及結(jié)果一致性

2.3 五分類任務(wù)結(jié)果與一致性

在五分類任務(wù)中,BERT-Softmax 方案對(duì)中文文本進(jìn)行分類的F1 值可達(dá)0.664,對(duì)英文文本分類的F1 值可達(dá)0.777,中英文結(jié)果的一致率為0.744,Kappa 值為0.638。說(shuō)明在此任務(wù)中,中英文文本分類結(jié)果的一致性較高。

3 討論

大規(guī)模訓(xùn)練樣本是建立 EMR 預(yù)訓(xùn)練模型的關(guān)鍵,在目前難以獲得可用的國(guó)內(nèi) EMR 數(shù)據(jù)集的情況下,利用國(guó)外公開的大規(guī)模數(shù)據(jù)集可作為一種備選方法。本研究將國(guó)外 EMR 數(shù)據(jù)集MIMIC-IV 中胸部X 線影像學(xué)報(bào)告的英文文本翻譯為中文,探究二者完成機(jī)器學(xué)習(xí)任務(wù)時(shí)結(jié)果的一致性,從任務(wù)的角度驗(yàn)證中文譯文是否能保留原英文的語(yǔ)義和信息,目前尚無(wú)類似研究的報(bào)道。

在跨語(yǔ)言文本相似度的研究中,一些研究將不同語(yǔ)言的文本利用深度學(xué)習(xí)方法投影到雙語(yǔ)共享的同一向量空間,利用詞向量距離度量其語(yǔ)義相似度,并用于抄襲檢測(cè)等任務(wù)[20-21]。也有研究跨語(yǔ)言文本投影到獨(dú)立于語(yǔ)言的語(yǔ)義空間中,使用如余弦相似性[22]、Jaccard 相似性系數(shù)[23]等方式進(jìn)行文本相似度的評(píng)估,以達(dá)到多語(yǔ)言文本進(jìn)行主題分類、文本分類等目的[24]。本研究在將中文文本和英文文本分別投射到不同的向量空間中后,并不直接衡量文本間的相似程度,而是利用這些文本向量完成同樣的分類任務(wù),對(duì)分類結(jié)果的一致性進(jìn)行評(píng)價(jià),因而是一種任務(wù)驅(qū)動(dòng)的跨語(yǔ)言文本相似性評(píng)價(jià),對(duì)利用英文文本的中文譯本建立機(jī)器學(xué)習(xí)模型更有借鑒意義。

在將醫(yī)療文本用于機(jī)器學(xué)習(xí)分類任務(wù)(如預(yù)測(cè)患者結(jié)局)時(shí),影響分類性能的因素包括文本的嵌入(向量化)方法、分類算法等[25-26]。因此評(píng)價(jià)中英文文本分類的結(jié)果一致性時(shí)也需要考慮這些因素,特別是對(duì)文本的處理方法。有研究顯示,基于BERT 預(yù)訓(xùn)練模型的文本向量化方法會(huì)帶來(lái)顯著的性能提升[27-28],而在本研究中也發(fā)現(xiàn),采用BERT 預(yù)訓(xùn)練模型進(jìn)行文本向量化后,不僅分類性能高(F1 值最高可達(dá)0.9 以上),而且中英文文本分類結(jié)果的一致性也最高(一致率最高可達(dá)0.92%,Kappa 值超過(guò)0.7)。此外,從分類算法考察,對(duì)于同一任務(wù),相比深度學(xué)習(xí)中的常規(guī)CNN 和用于文本的TextCNN,RF 算法反而可以獲得較高的結(jié)果一致性,而基于BERT 的文本向量化后,簡(jiǎn)單的Softmax 分類函數(shù)就可達(dá)到最高一致性。

本研究存在以下不足:① 本研究的文本僅為X 線影像報(bào)告文本,醫(yī)療文本的來(lái)源和種類較為單一。后續(xù)的研究中將選擇更多類型的醫(yī)療文本(如CT 影像報(bào)告、病程記錄文本),進(jìn)行更廣泛的對(duì)比、評(píng)價(jià)、驗(yàn)證實(shí)驗(yàn)。② 本研究使用適合大批量自動(dòng)翻譯的機(jī)器翻譯工具進(jìn)行翻譯,翻譯軟件的性能會(huì)對(duì)中英文文本的分類一致性產(chǎn)生影響,未來(lái)將在后續(xù)的研究中針對(duì)文本的特點(diǎn)結(jié)合領(lǐng)域知識(shí)改進(jìn)翻譯的準(zhǔn)確性。③ 本研究采用了任務(wù)驅(qū)動(dòng)的文本性能評(píng)價(jià)方法,因此評(píng)價(jià)結(jié)果可能受到機(jī)器學(xué)習(xí)任務(wù)的影響,因而具有一定的局限性。

EMR 的應(yīng)用場(chǎng)景較多,后續(xù)將設(shè)置更多任務(wù)(如聚類分析、評(píng)估患者相似性、預(yù)測(cè)患者結(jié)局等),本研究將國(guó)外 EMR 數(shù)據(jù)集中的英文文本翻譯為中文后,相當(dāng)于擁有了類似國(guó)內(nèi) EMR 的大規(guī)模數(shù)據(jù)集,為建立國(guó)內(nèi) EMR 預(yù)訓(xùn)練模型缺少大數(shù)據(jù)支撐這一難題提供了一種解決思路。

4 結(jié)論

本研究結(jié)果表明,在二分類任務(wù)下,中英文版本影像學(xué)報(bào)告分類BERT-Softmax 模型可以得到一致率為0.922,Kappa 值為0.724;在三分類任務(wù)下,Tokenizer-CNN、TF-IDF+Doc2vec-TextCN、TF-IDF-RF 中英文版本的影像學(xué)報(bào)告分類一致率可以達(dá)到0.6~0.7,Kappa 值可以達(dá)到0.3~0.4;在五分類任務(wù)下,BERT-Softmax 得到中英文文本分類一致率為0.744,Kappa 值為0.638。針對(duì)特定任務(wù),可以通過(guò)尋找合適的模型,使同源的中英文不同版本X 線影像報(bào)告在分類任務(wù)中表現(xiàn)出較高的一致性,證明將源于英文數(shù)據(jù)庫(kù)中的文本數(shù)據(jù)在翻譯后用于搭建面向中文預(yù)訓(xùn)練模型具有可行性。

猜你喜歡
一致性英文分類
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
英文摘要
英文摘要
英文摘要
主站蜘蛛池模板: 人人爱天天做夜夜爽| 亚洲精品国产首次亮相| 天天综合色天天综合网| 午夜精品一区二区蜜桃| 福利国产微拍广场一区视频在线| 欧美A级V片在线观看| 麻豆精品在线视频| 精品丝袜美腿国产一区| 亚洲一区波多野结衣二区三区| 欧美乱妇高清无乱码免费| 国产jizz| 少妇露出福利视频| 国产精品成人免费视频99| 粉嫩国产白浆在线观看| 亚洲三级网站| 欧美一区二区精品久久久| 亚洲经典在线中文字幕| 精品無碼一區在線觀看 | 国产人人乐人人爱| 亚洲黄色成人| 国内99精品激情视频精品| 性欧美在线| 2020国产免费久久精品99| 日韩欧美国产中文| 亚洲精品无码不卡在线播放| 国产成人亚洲无吗淙合青草| 国产美女无遮挡免费视频网站 | 亚洲AⅤ波多系列中文字幕| 亚洲欧美综合精品久久成人网| 国产精品自拍露脸视频| 国产十八禁在线观看免费| 亚洲AV无码乱码在线观看裸奔| 99久久婷婷国产综合精| 中文成人在线| 欧美人与动牲交a欧美精品| 亚洲视频在线网| 国产va欧美va在线观看| 91无码网站| 综合亚洲网| 国产精品视频导航| 亚洲婷婷在线视频| 欧美成人午夜影院| 亚洲全网成人资源在线观看| 美女亚洲一区| 欧美成人h精品网站| 萌白酱国产一区二区| av色爱 天堂网| 东京热一区二区三区无码视频| 亚洲国产成人久久77| 呦系列视频一区二区三区| 国产精品视频系列专区| 激情亚洲天堂| 暴力调教一区二区三区| 日本在线亚洲| 91系列在线观看| 久草中文网| 免费A∨中文乱码专区| 成人中文字幕在线| a天堂视频在线| 亚洲第一区在线| 在线观看国产网址你懂的| 国产午夜在线观看视频| 久久semm亚洲国产| 88av在线| 人妻一区二区三区无码精品一区| 亚洲国产日韩在线成人蜜芽| 欧美一区二区三区香蕉视| 精品自拍视频在线观看| 热热久久狠狠偷偷色男同| 国产一二三区在线| 中文字幕永久视频| 欧美精品另类| 国产永久无码观看在线| 日本精品一在线观看视频| 国产理论一区| 国产一区亚洲一区| 在线国产毛片| 无码'专区第一页| 成人国产精品视频频| 视频一区视频二区中文精品| 国产真实乱子伦视频播放| 精品国产成人a在线观看|