

摘要:醫(yī)學(xué)影像報(bào)告自動(dòng)生成需要關(guān)注影像的整體結(jié)構(gòu)與局部細(xì)微變化以生成準(zhǔn)確流暢的文本描述。為此,文章提出了基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告自動(dòng)生成方法,利用跨模態(tài)注意力機(jī)制和滑動(dòng)窗口機(jī)制分別獲得影像與報(bào)告之間的局部以及全局特征,通過(guò)門控融合機(jī)制,自適應(yīng)整合來(lái)自不同尺度的多模態(tài)特征,在保持對(duì)影像全局感知的同時(shí)又能關(guān)注到微觀變化。在IU X-Ray數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,文章所提出的方法在BLEU-2/3/4、ROUGE-L以及METEOR指標(biāo)上領(lǐng)先于基線方法。
關(guān)鍵詞:醫(yī)學(xué)影像報(bào)告;多模態(tài)表征;多模態(tài)融合;跨模態(tài)注意力機(jī)制
中圖分類號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)08-0019-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
醫(yī)學(xué)影像在臨床診斷中扮演著重要的角色,為醫(yī)生提供豐富的診斷信息。然而,解讀醫(yī)學(xué)影像高度依賴于醫(yī)生的專業(yè)知識(shí)與臨床經(jīng)驗(yàn),面對(duì)日益增長(zhǎng)的影像數(shù)據(jù),醫(yī)生需要花費(fèi)大量時(shí)間進(jìn)行解讀,增加了工作負(fù)擔(dān)[1]。因此,醫(yī)學(xué)影像報(bào)告生成(Medical Report Generation,MRG) 已經(jīng)成為人工智能領(lǐng)域一個(gè)熱門的研究方向。
目前,醫(yī)學(xué)影像報(bào)告生成方法[2-3]多使用卷積神經(jīng)網(wǎng)絡(luò)提取影像特征信息,利用循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種生成相應(yīng)的報(bào)告。鑒于循環(huán)神經(jīng)網(wǎng)絡(luò)在生成文本時(shí)需要依賴先前隱藏狀態(tài),存在報(bào)告生成效率低,以及無(wú)法利用長(zhǎng)距離交互等問(wèn)題,影響生成報(bào)告質(zhì)量。隨著Transformer[4]在各項(xiàng)任務(wù)領(lǐng)域中展現(xiàn)出巨大的優(yōu)越性,越來(lái)越多的研究人員開始關(guān)注基于Transformer架構(gòu)的醫(yī)學(xué)影像報(bào)告生成框架。Chen等[5]提出基于記憶驅(qū)動(dòng)的Transformers醫(yī)學(xué)影像報(bào)告生成模型。在生成過(guò)程中,利用關(guān)系存儲(chǔ)器(RM) 記錄關(guān)鍵信息,并利用存儲(chǔ)器驅(qū)動(dòng)的條件層規(guī)范化(MCLN) 將其整合到Transformer解碼器中,從而生成內(nèi)容豐富的長(zhǎng)篇醫(yī)學(xué)影像報(bào)告。為了探究影像與文本之間的映射關(guān)系,跨模態(tài)記憶網(wǎng)絡(luò)(Cross-modal Memory Networks,CMN) [6]設(shè)計(jì)一個(gè)共享存儲(chǔ)器來(lái)記錄圖像和文本之間的映射信息,用于促進(jìn)跨模態(tài)交互和醫(yī)學(xué)影像報(bào)告的生成。雖然在上述工作的驅(qū)動(dòng)下,醫(yī)學(xué)影像報(bào)告生成的質(zhì)量得到顯著提升,但在該領(lǐng)域仍存在一些挑戰(zhàn),醫(yī)學(xué)影像報(bào)告需要關(guān)注影像整體與局部信息,幫助臨床醫(yī)生精準(zhǔn)地評(píng)估患者健康狀況。
本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成方法,使用自適應(yīng)注意力機(jī)制建立全局、局部影像特征與文本模態(tài)之間的交互信息,用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。在自適應(yīng)注意力模塊中,跨模態(tài)注意力機(jī)制構(gòu)建全局多模態(tài)表征,滑動(dòng)窗口機(jī)制構(gòu)建局部多模態(tài)表征,門控融合機(jī)制自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)表征信息,這使得模型在保持對(duì)全局感知的同時(shí)又能關(guān)注到微觀的變化,從而生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。本文在印第安納大學(xué)公開的IU X-Ray數(shù)據(jù)集[7]上進(jìn)行大量實(shí)驗(yàn),在BLEU-2/3/4、ROUGE-L以及METEOR評(píng)價(jià)指標(biāo)上優(yōu)于基線。
1 模型概述
醫(yī)學(xué)影像報(bào)告生成任務(wù)是從給定的醫(yī)學(xué)影像I中提取關(guān)鍵信息,生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告Y。圖1展示本文提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型的整體架構(gòu),該模型包括視覺(jué)特征提取器、視覺(jué)特征編碼器以及基于自適應(yīng)注意力機(jī)制的解碼器。
1.1 影像特征處理
本文使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)ResNet[8]作為圖像特征提取器(Image Extractor) 提取輸入影像[I]的特征,影像按照網(wǎng)格分割的形式被分解為多個(gè)大小相等的區(qū)域(patch) ,[{x1,x2,...,xn}=fres(I)∈Rn×d] ,其中[n]代表patch數(shù)量,[d]代表patch的特征維度。將經(jīng)過(guò)視覺(jué)特征提取器得到的patch特征加入位置編碼(用于記錄patch在原始圖片中的位置信息) 后作為視覺(jué)編碼器(Image Encoder) 輸入,對(duì)于視覺(jué)編碼器,本文采用的是標(biāo)準(zhǔn)的Transformer編碼器,沒(méi)有做任何改動(dòng),輸出視覺(jué)編碼器的隱藏狀態(tài),[H=fe(x1,x2,...,xn)∈Rn×dh],其中[n]代表patch的數(shù)量,[dh]代表隱藏狀態(tài)維度,[fe]代表視覺(jué)編碼器。
1.2 解碼器
在基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型中,解碼器主要包括前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward)、自適應(yīng)注意力機(jī)制(Adaptive Attention)、有遮掩的多頭注意力機(jī)制(Masked Multi-Head Attention) 以及殘差連接和層歸一化(Add amp; Norm) 。與傳統(tǒng)的解碼器不同之處在于,針對(duì)醫(yī)學(xué)影像需要關(guān)注不同尺度的特征,本文引入自適應(yīng)注意力機(jī)制,通過(guò)自適應(yīng)門控機(jī)制,動(dòng)態(tài)融合來(lái)自全局與局部?jī)煞N不同尺度的多模態(tài)表征信息,用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。
自適應(yīng)注意力機(jī)制接受源序列和目標(biāo)序列作為輸入,其中源序列是來(lái)自視覺(jué)編碼器輸出[H],目標(biāo)序列是醫(yī)學(xué)影像報(bào)告經(jīng)過(guò)有遮掩的多頭注意力機(jī)制及殘差連接和層歸一化的輸出[Y']。在整個(gè)多模態(tài)序列內(nèi),利用跨模態(tài)注意力機(jī)制,獲得全局多模態(tài)表征信息,具體公式描述如下:
[Ma=CoAttentionH,Y'" " " =softmaxY'WQaW?KaH?dhHWVa]" " " " " (1)
式中:[Ma]代表全局多模態(tài)表征信息,[WQa]、[WKa]和[WVa]是可訓(xùn)練的權(quán)重矩陣,[dh]是來(lái)自視覺(jué)編碼器輸出的特征維度。通過(guò)滑動(dòng)注意力窗口機(jī)制,將參與交互的多模態(tài)數(shù)據(jù)限制在給定窗口大小范圍內(nèi),從而獲得局部的多模態(tài)表征信息,假設(shè)給定窗口半徑為[w],對(duì)于任意位置[i],只允許關(guān)注到[Win i=[max(0,i-w),min(i+w,n)]]內(nèi)的信息。具體公式描述如下:
[Attention_mask(i,j)=0, if j∈ Win (i)-∞, otherwise ]" " " " (2)
[Ml= SWAttention H,Y'" " "=softmaxY'WQlW?KlH?dh+Attention_maskHWVl]" "(3)
式中:[Ml]代表局部多模態(tài)表征信息,[WQl]、[WKl]和[WVl]是可訓(xùn)練的權(quán)重矩陣。為融合來(lái)自不同尺度的多模態(tài)表征,使用門控機(jī)制,自適應(yīng)地整合來(lái)自不同尺度的多模態(tài)表征信息:
[M=Ga(Ma)+Gl(Ml)=MaWTa+MlWTl]" " " (4)
式中:[M]代表融合后得到的多模態(tài)表征信息,[Gl(?)]和[Ga(?)]代表門機(jī)制,[Wa]和[Wl]是可訓(xùn)練的權(quán)重矩陣。最后,解碼器輸出的信息經(jīng)過(guò)一個(gè)線性層映射到字典維度,使用Softmax函數(shù)計(jì)算輸出的概率分布。
2 實(shí)驗(yàn)設(shè)置
本小節(jié)首先介紹模型的評(píng)價(jià)指標(biāo),然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
2.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
本文使用自然語(yǔ)言生成領(lǐng)域常用的評(píng)價(jià)指標(biāo)來(lái)評(píng)估基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型結(jié)果與真實(shí)報(bào)告之間的精確率,包括以下指標(biāo):
BLEU-[n]指標(biāo):雙語(yǔ)互譯質(zhì)量評(píng)估輔助工具[9](n代表連續(xù)文本的個(gè)數(shù),通常包括BLEU-1/2/3/4) 。BLEU-1可以衡量生成報(bào)告和真實(shí)報(bào)告在單詞級(jí)別的一致性,對(duì)于BLEU-2/3/4可以衡量?jī)烧叩牧鲿扯取LEU-n分?jǐn)?shù)越高,表示模型性能越接近于人類表現(xiàn)。
ROUGE指標(biāo):ROUGE[10]是一種側(cè)重召回率的評(píng)價(jià)指標(biāo)。ROUGE-L作為ROUGE的一種重要變體,使用最長(zhǎng)公共子序列作為匹配基礎(chǔ),能夠更加靈活地捕捉生成文本與真實(shí)文本之間的相似性,ROUGE-L分?jǐn)?shù)越高代表模型表現(xiàn)效果越好。
METEOR指標(biāo):與BLEU和ROUGE不同的是,METEOR[11]指標(biāo)是基于整個(gè)語(yǔ)料庫(kù)上的準(zhǔn)確率和召回率,引入多層次匹配機(jī)制,不僅考慮精準(zhǔn)匹配還包括同義詞匹配、詞干匹配等,更加符合人工判別的標(biāo)準(zhǔn)。METEOR分?jǐn)?shù)越高,模型表現(xiàn)效果更好。
2.2 實(shí)驗(yàn)結(jié)果分析
本文所提出的模型在IU X-Ray數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),與先前具有代表性的工作進(jìn)行對(duì)比。具體有:通過(guò)記憶驅(qū)動(dòng)的Transformer生成放射報(bào)告(R2Gen) [5]、用于生成放射報(bào)告的跨模態(tài)記憶網(wǎng)絡(luò)(CMN) [6]以及基于圖引導(dǎo)混合特征一致性的半監(jiān)督醫(yī)學(xué)影像報(bào)告生成(RAMT) [12]。
本文所提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型與R2Gen、CMN以及RAMT的實(shí)驗(yàn)結(jié)果對(duì)比(見表1) ,最優(yōu)結(jié)果加粗展示。從表1中可以觀察到,本文提出的模型在BLEU-2/3/4、ROUGE-L以及METEOR五項(xiàng)評(píng)價(jià)指標(biāo)上都顯著優(yōu)于對(duì)比的基線模型,對(duì)于BLEU-1指標(biāo),本文所提出的模型表現(xiàn)略低于RAMT。本文所提出的方法相較于其他基線最優(yōu)表現(xiàn)的對(duì)比結(jié)果如下:BLEU-2提升約為2.6%,BLEU-3提升約為3.6%,BLEU-4提升約為2.9%,ROUGE-L提升約為4.6%,METEOR提升約為2.1%,BLEU-1下降約為0.6%。針對(duì)不同場(chǎng)景,本文提出的模型可以動(dòng)態(tài)地調(diào)整全局以及局部特征權(quán)重,兼顧影像的整體架構(gòu)以及細(xì)節(jié),實(shí)現(xiàn)在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性能。
3 總結(jié)與展望
本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型,利用門控融合機(jī)制,自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)特征,用于生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。在公開的IU X-Ray數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),與具有代表性的基線模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果證明文章中所提出的方法在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性。
盡管本文所提出的模型在醫(yī)學(xué)影像報(bào)告生成任務(wù)中取得優(yōu)異的性能,但也存在一些不足之處,主要體現(xiàn)在模型可訓(xùn)練的參數(shù)量龐大,未來(lái)將嘗試剪枝以及知識(shí)蒸餾等方法探索輕量級(jí)的醫(yī)學(xué)影像報(bào)告生成模型。
參考文獻(xiàn):
[1] 邢素霞,方俊澤,鞠子涵,等.基于記憶驅(qū)動(dòng)的多模態(tài)醫(yī)學(xué)影像報(bào)告自動(dòng)生成研究[J].生物醫(yī)學(xué)工程學(xué)雜志,2024,41(1):60-69.
[2] JING B Y,XIE P T,XING E P.On the automatic generation of medical imaging reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).Melbourne:ACL,2018:2577-2586.
[3] YANG Y,YU J,ZHANG J,et al.Joint embedding of deep visual and semantic features for medical image report generation[J].IEEE Transactions on Multimedia,2021,25:167-178.
[4] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems 30.Long Beach:NIPS,2017.
[5] CHEN Z,SONG Y,CHANG T H,et al.Generating radiology reports via memory-driven transformer[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Online:EMNLP,2020:1439-1449.
[6] CHEN Z,SHEN Y,SONG Y,et al.Cross-modal memory networks for radiology report generation[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Online:ACL,2021:5904-5914.
[7] DEMNER-FUSHMAN D,KOHLI M D,ROSENMAN M B,et al.Preparing a collection of radiology examinations for distribution and retrieval[J].Journal of the American Medical Informatics Association,2016,23(2):304-310.
[8] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:CVPR,2016:770-778.
[9] PAPINENI K,ROUKOS S,WARD T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:311-318.
[10] LIN C Y.ROUGE:a package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop Text Summarization Branches Out.Barcelona:ACL,2004:74-81.
[11] BANERJEE S,LAVIE A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization.Ann Arbor:ACL,2005:65-72.
[12] ZHANG K,JIANG H,ZHANG J,et al.Semi-supervised medical report generation via graph-guided hybrid feature consistency[J].IEEE Transactions on Multimedia,2023,26:904-915.
【通聯(lián)編輯:謝媛媛】