中英文對(duì)照的影像學(xué)報(bào)告在預(yù)測(cè)模型中的一致性評(píng)價(jià)

2023-10-19 08:14:46李一晨黃艷群張志強(qiáng)王牧雨郜斌宇陳卉

中國(guó)醫(yī)療設(shè)備 2023年10期

李一晨，黃艷群，張志強(qiáng)，王牧雨，郜斌宇，陳卉

1.首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院，北京 100069；2.臨床生物力學(xué)應(yīng)用基礎(chǔ)研究北京市重點(diǎn)實(shí)驗(yàn)室，北京 100069

引言

目前，深度學(xué)習(xí)方法在自然語(yǔ)言處理、多模態(tài)機(jī)器學(xué)習(xí)等領(lǐng)域中取得了顯著進(jìn)展，但針對(duì)特定任務(wù)需要使用專有數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，耗費(fèi)大量時(shí)間和經(jīng)濟(jì)成本[1]。預(yù)訓(xùn)練模型與微調(diào)相結(jié)合的方式是解決這一問(wèn)題的常用方式，許多學(xué)者通過(guò)搭建預(yù)訓(xùn)練模型處理電子病歷（Electronic Medical Record，EMR）[2-3]。EMR 是指通過(guò)信息化的醫(yī)療管理系統(tǒng)存儲(chǔ)管理患者的相關(guān)數(shù)據(jù)，包括住院史、病史和實(shí)驗(yàn)室指標(biāo)等，具有存儲(chǔ)成本低、便于管理等特點(diǎn)，有利于實(shí)現(xiàn)患者追蹤管理[4]。目前國(guó)內(nèi)尚缺少可用于搭建預(yù)訓(xùn)練模型的開放、大規(guī)模EMR 公共數(shù)據(jù)集，而國(guó)外已有如美國(guó)麻省理工學(xué)院發(fā)布的Medical Information Mart for Intensive Care（MIMIC）數(shù)據(jù)庫(kù)等公開數(shù)據(jù)集。然而，國(guó)外 EMR 數(shù)據(jù)庫(kù)與國(guó)內(nèi)數(shù)據(jù)庫(kù)中臨床文本的語(yǔ)言不同，因此如果利用它們搭建面向國(guó)內(nèi) EMR 的預(yù)訓(xùn)練模型時(shí)，需要解決臨床文本語(yǔ)言不同的問(wèn)題。解決這一問(wèn)題的方法之一是直接將英文文本翻譯成中文后用于搭建中文預(yù)訓(xùn)練模型，但直接將英文文本翻譯成中文文本能否能表達(dá)原英文文本的語(yǔ)義和知識(shí)以及在機(jī)器學(xué)習(xí)任務(wù)中能否達(dá)到相同的性能等問(wèn)題還需要探索?；诖?，本研究旨在探究將英文文本應(yīng)用于搭建中文預(yù)訓(xùn)練模型、將國(guó)外 EMR數(shù)據(jù)集用于搭建面向國(guó)內(nèi)應(yīng)用的預(yù)訓(xùn)練模型的可行性。

1 資料與方法

1.1 數(shù)據(jù)準(zhǔn)備

本研究的數(shù)據(jù)來(lái)源為MIMIC-IV 數(shù)據(jù)集，其是一個(gè)多參數(shù)、結(jié)構(gòu)化、包含圖像和文本等多模態(tài)數(shù)據(jù)的大型數(shù)據(jù)集[5]，在去隱私化后對(duì)公眾免費(fèi)開放，提供給全球的研究者進(jìn)行研究[6-7]。由于數(shù)據(jù)集中的影像學(xué)報(bào)告均為胸部X 線片報(bào)告，因此本研究選取肺部疾病患者的文本作為研究對(duì)象。

根據(jù)患者的第一診斷提取患者記錄，將第一診斷為肺炎[國(guó)際疾病分類（International Classification of Diseases，ICD）第十次修訂本（ICD-9）編碼如481、486、4801 等；國(guó)際疾病分類第九次修訂本（ICD-10）編碼如J1000、J1008、J121 等）、氣胸（ICD-9 編碼如5120、5121、5128 等；ICD-10 編碼如J930、J9311、J9381 等）和胸腔積液（ICD-9 編碼如5119、51181、51189；ICD-10 編碼如J90、J910、J940、J942）的住院患者的X 線影像報(bào)告提取出來(lái)，并進(jìn)一步提取影像報(bào)告中“影像所見(jiàn)”部分的文本，后續(xù)任務(wù)均基于這些文本。在提取數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗之后，列入本研究的X 線影像報(bào)告共1986 份。在1986 份影像報(bào)告中，患者的患病情況如表1 所示。

表1 病例患病情況（分）

1.2 文本處理

1.2.1 英文翻譯為中文

雙語(yǔ)評(píng)估替換（Bilingual Evaluation Understudy，BLEU）評(píng)分于2002 年由Papineni 等[8]提出，是廣泛應(yīng)用于翻譯效果評(píng)價(jià)的指標(biāo)。本研究測(cè)試了百度翻譯和谷歌翻譯對(duì)影像報(bào)告進(jìn)行翻譯，并使用BLEU 評(píng)分對(duì)兩者翻譯結(jié)果進(jìn)行量化評(píng)價(jià)，最終將BLEU 評(píng)分較高的翻譯工具提供的中文文本用于后續(xù)研究。依據(jù)BLEU 評(píng)分原則為1-gram、2-gram、3-gram、4-gram 分配不同的權(quán)重，并將1-gram至4-gram下的BLEU評(píng)分進(jìn)行加權(quán)求和，結(jié)果如表2 所示。最終選取百度翻譯對(duì)影像報(bào)告文本的影像所見(jiàn)部分進(jìn)行翻譯。

表2 不同權(quán)重下的BLEU評(píng)分（分）

1.2.2 分詞與向量化

對(duì)于中文版本的影像報(bào)告，采用jieba 分詞軟件進(jìn)行分詞。在本研究中，通過(guò)閱讀X 線影像報(bào)告，人工記錄了報(bào)告中的專業(yè)詞匯，并將它們添加到詞典中，用于輔助jieba 分詞。對(duì)于英文文本，直接按照空格分詞。

使用Doc2vec[9]、詞頻-逆文檔頻率算法（Term Frequency - Inverse Document Frequency，TF-IDF）[10]、Tokenizer[11]和雙向編碼器表示（Bidirectional Encoder Representation from Transformers，BERT）[12]進(jìn) 行文本向量化。其中，對(duì)于英文文本，使用BERT-Base-Uncased 進(jìn)行向量化；對(duì)于中文文本，使用BERTBase-Chinese 進(jìn)行向量化，為了便于表述，以下統(tǒng)稱為BERT。使用Doc2vec、Tokenizer 和TF-IDF 向量化方法，將中英文文本嵌入為一個(gè)100 維的向量；使用BERT 時(shí)將每篇中英文文本轉(zhuǎn)換為一個(gè)256 維的向量。

1.3 分類模型與分類任務(wù)

在對(duì)中英文文本進(jìn)行分詞與向量化之后，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）、TextCNN[13]、Softmax 和隨機(jī)森林（Random Forest，RF）[14]進(jìn)行疾病分類。

本研究設(shè)置了3 種二分類任務(wù)、3 種三分類任務(wù)和1 種五分類任務(wù)。二分類任務(wù)分別對(duì)肺炎-正常、氣胸-正常、胸腔積液-正常進(jìn)行分類；三分類任務(wù)分別對(duì)肺炎-氣胸-正常、氣胸-胸腔積液-正常、肺炎-胸腔積液-正常進(jìn)行分類；五分類任務(wù)則針對(duì)僅肺炎-僅氣胸-僅胸腔積液-患多種病-正常進(jìn)行分類。由于BERT 向量化方法有較多參數(shù)，需要用較多數(shù)據(jù)進(jìn)行訓(xùn)練，因此本研究?jī)H在樣本較多的胸腔積液-正常二分類任務(wù)（共1020 例樣本）和五分類任務(wù)（共1986 例樣本）上采用BERT 方法。各分類任務(wù)采用的輸入向量以及分類器模型整理如表3 所示。

表3 向量化、分類方法及其對(duì)應(yīng)任務(wù)

1.4 模型分類結(jié)果的評(píng)價(jià)

以7 ∶3 的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集。使用F1 值對(duì)分類模型在測(cè)試集上的分類準(zhǔn)確性進(jìn)行評(píng)估[15]。使用一致率和Kappa 系數(shù)對(duì)中英文文本分類結(jié)果的一致性進(jìn)行評(píng)價(jià)[16]。Kappa 值＞0.40 時(shí)認(rèn)為一致性中等，Kappa 值＞0.75 則認(rèn)為一致性較高。

2 結(jié)果

2.1 二分類任務(wù)結(jié)果與一致性

各個(gè)任務(wù)下，模型所得F1 值、一致率、Kappa 值如表4 所示，胸腔積液-正常二分類任務(wù)中，BERTSoftmax 在對(duì)中英文版本的影像報(bào)告的分類中，所得F1值（中文0.917 和英文0.948）明顯高于其他模型，得到一致率為0.922，Kappa 值為0.724。在肺炎-正常分類任務(wù)中，TF-IDF-RF 方案能夠得到較高的F1 值（中文0.834 和英文0.845），Tokenizer-CNN 得到更高的一致率（0.730）和Kappa 值（0.459）。在氣胸-正常分類任務(wù)中，Tokenizer-CNN 方案對(duì)于英文文本的分類能夠得到較高的F1 值（0.832）；TF-IDF+Doc2vec-TextCNN與TF-IDF-RF 相比，前者對(duì)中文文本分類效果較好，后者對(duì)英文文本分類效果較好；此3 個(gè)模型得到的分類一致率范圍在0.801～0.819，Kappa 值范圍在0.203～0.312。在二分類任務(wù)中，中英文文本具有中等的一致性。

表4 二分類任務(wù)下各模型性能及結(jié)果一致性

2.2 三分類任務(wù)結(jié)果與一致性

三分類任務(wù)下各個(gè)模型的性能及結(jié)果一致性指標(biāo)值如表5 所示，Tokenizer-CNN 模型在肺炎-氣胸-正常三分類和氣胸-胸腔積液-正常三分類中，F(xiàn)1 值高于其他模型。在各個(gè)模型下，一致率均可以達(dá)到0.65 以上，Kappa 基本可以達(dá)到0.40 以上，說(shuō)明在此任務(wù)下中英文不同語(yǔ)言版本的影像報(bào)告具有中等的相似性。在肺炎-胸腔積液-正常三分類任務(wù)中，TF-IDF+Doc2vec-TextCNN 方案可以得到更高的F1 值，但3 個(gè)模型的性能均低于在其他兩個(gè)三分類任務(wù)中模型的性能，因此在此任務(wù)中中英文不同語(yǔ)言版本的影像報(bào)告的一致率和Kappa 值相對(duì)較低，中英文文本一致性差。

表5 三分類任務(wù)下各模型性能及結(jié)果一致性

2.3 五分類任務(wù)結(jié)果與一致性

在五分類任務(wù)中，BERT-Softmax 方案對(duì)中文文本進(jìn)行分類的F1 值可達(dá)0.664，對(duì)英文文本分類的F1 值可達(dá)0.777，中英文結(jié)果的一致率為0.744，Kappa 值為0.638。說(shuō)明在此任務(wù)中，中英文文本分類結(jié)果的一致性較高。

3 討論

大規(guī)模訓(xùn)練樣本是建立 EMR 預(yù)訓(xùn)練模型的關(guān)鍵，在目前難以獲得可用的國(guó)內(nèi) EMR 數(shù)據(jù)集的情況下，利用國(guó)外公開的大規(guī)模數(shù)據(jù)集可作為一種備選方法。本研究將國(guó)外 EMR 數(shù)據(jù)集MIMIC-IV 中胸部X 線影像學(xué)報(bào)告的英文文本翻譯為中文，探究二者完成機(jī)器學(xué)習(xí)任務(wù)時(shí)結(jié)果的一致性，從任務(wù)的角度驗(yàn)證中文譯文是否能保留原英文的語(yǔ)義和信息，目前尚無(wú)類似研究的報(bào)道。

在跨語(yǔ)言文本相似度的研究中，一些研究將不同語(yǔ)言的文本利用深度學(xué)習(xí)方法投影到雙語(yǔ)共享的同一向量空間，利用詞向量距離度量其語(yǔ)義相似度，并用于抄襲檢測(cè)等任務(wù)[20-21]。也有研究跨語(yǔ)言文本投影到獨(dú)立于語(yǔ)言的語(yǔ)義空間中，使用如余弦相似性[22]、Jaccard 相似性系數(shù)[23]等方式進(jìn)行文本相似度的評(píng)估，以達(dá)到多語(yǔ)言文本進(jìn)行主題分類、文本分類等目的[24]。本研究在將中文文本和英文文本分別投射到不同的向量空間中后，并不直接衡量文本間的相似程度，而是利用這些文本向量完成同樣的分類任務(wù)，對(duì)分類結(jié)果的一致性進(jìn)行評(píng)價(jià)，因而是一種任務(wù)驅(qū)動(dòng)的跨語(yǔ)言文本相似性評(píng)價(jià)，對(duì)利用英文文本的中文譯本建立機(jī)器學(xué)習(xí)模型更有借鑒意義。

在將醫(yī)療文本用于機(jī)器學(xué)習(xí)分類任務(wù)（如預(yù)測(cè)患者結(jié)局）時(shí)，影響分類性能的因素包括文本的嵌入（向量化）方法、分類算法等[25-26]。因此評(píng)價(jià)中英文文本分類的結(jié)果一致性時(shí)也需要考慮這些因素，特別是對(duì)文本的處理方法。有研究顯示，基于BERT 預(yù)訓(xùn)練模型的文本向量化方法會(huì)帶來(lái)顯著的性能提升[27-28]，而在本研究中也發(fā)現(xiàn)，采用BERT 預(yù)訓(xùn)練模型進(jìn)行文本向量化后，不僅分類性能高（F1 值最高可達(dá)0.9 以上），而且中英文文本分類結(jié)果的一致性也最高（一致率最高可達(dá)0.92%，Kappa 值超過(guò)0.7）。此外，從分類算法考察，對(duì)于同一任務(wù)，相比深度學(xué)習(xí)中的常規(guī)CNN 和用于文本的TextCNN，RF 算法反而可以獲得較高的結(jié)果一致性，而基于BERT 的文本向量化后，簡(jiǎn)單的Softmax 分類函數(shù)就可達(dá)到最高一致性。

本研究存在以下不足：① 本研究的文本僅為X 線影像報(bào)告文本，醫(yī)療文本的來(lái)源和種類較為單一。后續(xù)的研究中將選擇更多類型的醫(yī)療文本（如CT 影像報(bào)告、病程記錄文本），進(jìn)行更廣泛的對(duì)比、評(píng)價(jià)、驗(yàn)證實(shí)驗(yàn)。② 本研究使用適合大批量自動(dòng)翻譯的機(jī)器翻譯工具進(jìn)行翻譯，翻譯軟件的性能會(huì)對(duì)中英文文本的分類一致性產(chǎn)生影響，未來(lái)將在后續(xù)的研究中針對(duì)文本的特點(diǎn)結(jié)合領(lǐng)域知識(shí)改進(jìn)翻譯的準(zhǔn)確性。③ 本研究采用了任務(wù)驅(qū)動(dòng)的文本性能評(píng)價(jià)方法，因此評(píng)價(jià)結(jié)果可能受到機(jī)器學(xué)習(xí)任務(wù)的影響，因而具有一定的局限性。

EMR 的應(yīng)用場(chǎng)景較多，后續(xù)將設(shè)置更多任務(wù)（如聚類分析、評(píng)估患者相似性、預(yù)測(cè)患者結(jié)局等），本研究將國(guó)外 EMR 數(shù)據(jù)集中的英文文本翻譯為中文后，相當(dāng)于擁有了類似國(guó)內(nèi) EMR 的大規(guī)模數(shù)據(jù)集，為建立國(guó)內(nèi) EMR 預(yù)訓(xùn)練模型缺少大數(shù)據(jù)支撐這一難題提供了一種解決思路。

4 結(jié)論

本研究結(jié)果表明，在二分類任務(wù)下，中英文版本影像學(xué)報(bào)告分類BERT-Softmax 模型可以得到一致率為0.922，Kappa 值為0.724；在三分類任務(wù)下，Tokenizer-CNN、TF-IDF+Doc2vec-TextCN、TF-IDF-RF 中英文版本的影像學(xué)報(bào)告分類一致率可以達(dá)到0.6～0.7，Kappa 值可以達(dá)到0.3～0.4；在五分類任務(wù)下，BERT-Softmax 得到中英文文本分類一致率為0.744，Kappa 值為0.638。針對(duì)特定任務(wù)，可以通過(guò)尋找合適的模型，使同源的中英文不同版本X 線影像報(bào)告在分類任務(wù)中表現(xiàn)出較高的一致性，證明將源于英文數(shù)據(jù)庫(kù)中的文本數(shù)據(jù)在翻譯后用于搭建面向中文預(yù)訓(xùn)練模型具有可行性。