基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成方法研究

2025-04-11 00:00:00郭繼偉魯慧哲許杰

電腦知識(shí)與技術(shù) 2025年8期

摘要：醫(yī)學(xué)影像報(bào)告自動(dòng)生成需要關(guān)注影像的整體結(jié)構(gòu)與局部細(xì)微變化以生成準(zhǔn)確流暢的文本描述。為此，文章提出了基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告自動(dòng)生成方法，利用跨模態(tài)注意力機(jī)制和滑動(dòng)窗口機(jī)制分別獲得影像與報(bào)告之間的局部以及全局特征，通過(guò)門控融合機(jī)制，自適應(yīng)整合來(lái)自不同尺度的多模態(tài)特征，在保持對(duì)影像全局感知的同時(shí)又能關(guān)注到微觀變化。在IU X-Ray數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，文章所提出的方法在BLEU-2/3/4、ROUGE-L以及METEOR指標(biāo)上領(lǐng)先于基線方法。

關(guān)鍵詞：醫(yī)學(xué)影像報(bào)告；多模態(tài)表征；多模態(tài)融合；跨模態(tài)注意力機(jī)制

中圖分類號(hào)：TP391" " " 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2025）08-0019-03

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

0 引言

醫(yī)學(xué)影像在臨床診斷中扮演著重要的角色，為醫(yī)生提供豐富的診斷信息。然而，解讀醫(yī)學(xué)影像高度依賴于醫(yī)生的專業(yè)知識(shí)與臨床經(jīng)驗(yàn)，面對(duì)日益增長(zhǎng)的影像數(shù)據(jù)，醫(yī)生需要花費(fèi)大量時(shí)間進(jìn)行解讀，增加了工作負(fù)擔(dān)[1]。因此，醫(yī)學(xué)影像報(bào)告生成（Medical Report Generation，MRG）已經(jīng)成為人工智能領(lǐng)域一個(gè)熱門的研究方向。

目前，醫(yī)學(xué)影像報(bào)告生成方法[2-3]多使用卷積神經(jīng)網(wǎng)絡(luò)提取影像特征信息，利用循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種生成相應(yīng)的報(bào)告。鑒于循環(huán)神經(jīng)網(wǎng)絡(luò)在生成文本時(shí)需要依賴先前隱藏狀態(tài)，存在報(bào)告生成效率低，以及無(wú)法利用長(zhǎng)距離交互等問(wèn)題，影響生成報(bào)告質(zhì)量。隨著Transformer[4]在各項(xiàng)任務(wù)領(lǐng)域中展現(xiàn)出巨大的優(yōu)越性，越來(lái)越多的研究人員開始關(guān)注基于Transformer架構(gòu)的醫(yī)學(xué)影像報(bào)告生成框架。Chen等[5]提出基于記憶驅(qū)動(dòng)的Transformers醫(yī)學(xué)影像報(bào)告生成模型。在生成過(guò)程中，利用關(guān)系存儲(chǔ)器（RM）記錄關(guān)鍵信息，并利用存儲(chǔ)器驅(qū)動(dòng)的條件層規(guī)范化（MCLN）將其整合到Transformer解碼器中，從而生成內(nèi)容豐富的長(zhǎng)篇醫(yī)學(xué)影像報(bào)告。為了探究影像與文本之間的映射關(guān)系，跨模態(tài)記憶網(wǎng)絡(luò)（Cross-modal Memory Networks，CMN） [6]設(shè)計(jì)一個(gè)共享存儲(chǔ)器來(lái)記錄圖像和文本之間的映射信息，用于促進(jìn)跨模態(tài)交互和醫(yī)學(xué)影像報(bào)告的生成。雖然在上述工作的驅(qū)動(dòng)下，醫(yī)學(xué)影像報(bào)告生成的質(zhì)量得到顯著提升，但在該領(lǐng)域仍存在一些挑戰(zhàn)，醫(yī)學(xué)影像報(bào)告需要關(guān)注影像整體與局部信息，幫助臨床醫(yī)生精準(zhǔn)地評(píng)估患者健康狀況。

本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成方法，使用自適應(yīng)注意力機(jī)制建立全局、局部影像特征與文本模態(tài)之間的交互信息，用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。在自適應(yīng)注意力模塊中，跨模態(tài)注意力機(jī)制構(gòu)建全局多模態(tài)表征，滑動(dòng)窗口機(jī)制構(gòu)建局部多模態(tài)表征，門控融合機(jī)制自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)表征信息，這使得模型在保持對(duì)全局感知的同時(shí)又能關(guān)注到微觀的變化，從而生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。本文在印第安納大學(xué)公開的IU X-Ray數(shù)據(jù)集[7]上進(jìn)行大量實(shí)驗(yàn)，在BLEU-2/3/4、ROUGE-L以及METEOR評(píng)價(jià)指標(biāo)上優(yōu)于基線。

1 模型概述

醫(yī)學(xué)影像報(bào)告生成任務(wù)是從給定的醫(yī)學(xué)影像I中提取關(guān)鍵信息，生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告Y。圖1展示本文提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型的整體架構(gòu)，該模型包括視覺(jué)特征提取器、視覺(jué)特征編碼器以及基于自適應(yīng)注意力機(jī)制的解碼器。

1.1 影像特征處理

本文使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)ResNet[8]作為圖像特征提取器（Image Extractor）提取輸入影像[I]的特征，影像按照網(wǎng)格分割的形式被分解為多個(gè)大小相等的區(qū)域（patch），[{x1，x2，...，xn}=fres（I）∈Rn×d] ，其中[n]代表patch數(shù)量，[d]代表patch的特征維度。將經(jīng)過(guò)視覺(jué)特征提取器得到的patch特征加入位置編碼（用于記錄patch在原始圖片中的位置信息）后作為視覺(jué)編碼器（Image Encoder）輸入，對(duì)于視覺(jué)編碼器，本文采用的是標(biāo)準(zhǔn)的Transformer編碼器，沒(méi)有做任何改動(dòng)，輸出視覺(jué)編碼器的隱藏狀態(tài)，[H=fe（x1，x2，...，xn）∈Rn×dh]，其中[n]代表patch的數(shù)量，[dh]代表隱藏狀態(tài)維度，[fe]代表視覺(jué)編碼器。

1.2 解碼器

在基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型中，解碼器主要包括前饋神經(jīng)網(wǎng)絡(luò)（Feed Forward）、自適應(yīng)注意力機(jī)制（Adaptive Attention）、有遮掩的多頭注意力機(jī)制（Masked Multi-Head Attention）以及殘差連接和層歸一化（Add amp; Norm）。與傳統(tǒng)的解碼器不同之處在于，針對(duì)醫(yī)學(xué)影像需要關(guān)注不同尺度的特征，本文引入自適應(yīng)注意力機(jī)制，通過(guò)自適應(yīng)門控機(jī)制，動(dòng)態(tài)融合來(lái)自全局與局部?jī)煞N不同尺度的多模態(tài)表征信息，用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。

自適應(yīng)注意力機(jī)制接受源序列和目標(biāo)序列作為輸入，其中源序列是來(lái)自視覺(jué)編碼器輸出[H]，目標(biāo)序列是醫(yī)學(xué)影像報(bào)告經(jīng)過(guò)有遮掩的多頭注意力機(jī)制及殘差連接和層歸一化的輸出[Y']。在整個(gè)多模態(tài)序列內(nèi)，利用跨模態(tài)注意力機(jī)制，獲得全局多模態(tài)表征信息，具體公式描述如下：

[Ma=CoAttentionH，Y'" " " =softmaxY'WQaW?KaH?dhHWVa]" " " " " （1）

式中：[Ma]代表全局多模態(tài)表征信息，[WQa]、[WKa]和[WVa]是可訓(xùn)練的權(quán)重矩陣，[dh]是來(lái)自視覺(jué)編碼器輸出的特征維度。通過(guò)滑動(dòng)注意力窗口機(jī)制，將參與交互的多模態(tài)數(shù)據(jù)限制在給定窗口大小范圍內(nèi)，從而獲得局部的多模態(tài)表征信息，假設(shè)給定窗口半徑為[w]，對(duì)于任意位置[i]，只允許關(guān)注到[Win i=[max（0，i-w），min（i+w，n）]]內(nèi)的信息。具體公式描述如下：

[Attention_mask（i，j）=0， if j∈ Win （i）-∞， otherwise ]" " " " （2）

[Ml= SWAttention H，Y'" " "=softmaxY'WQlW?KlH?dh+Attention_maskHWVl]" "（3）

式中：[Ml]代表局部多模態(tài)表征信息，[WQl]、[WKl]和[WVl]是可訓(xùn)練的權(quán)重矩陣。為融合來(lái)自不同尺度的多模態(tài)表征，使用門控機(jī)制，自適應(yīng)地整合來(lái)自不同尺度的多模態(tài)表征信息：

[M=Ga（Ma）+Gl（Ml）=MaWTa+MlWTl]" " " （4）

式中：[M]代表融合后得到的多模態(tài)表征信息，[Gl（?）]和[Ga（?）]代表門機(jī)制，[Wa]和[Wl]是可訓(xùn)練的權(quán)重矩陣。最后，解碼器輸出的信息經(jīng)過(guò)一個(gè)線性層映射到字典維度，使用Softmax函數(shù)計(jì)算輸出的概率分布。

2 實(shí)驗(yàn)設(shè)置

本小節(jié)首先介紹模型的評(píng)價(jià)指標(biāo)，然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

2.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文使用自然語(yǔ)言生成領(lǐng)域常用的評(píng)價(jià)指標(biāo)來(lái)評(píng)估基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型結(jié)果與真實(shí)報(bào)告之間的精確率，包括以下指標(biāo)：

BLEU-[n]指標(biāo)：雙語(yǔ)互譯質(zhì)量評(píng)估輔助工具[9]（n代表連續(xù)文本的個(gè)數(shù)，通常包括BLEU-1/2/3/4）。BLEU-1可以衡量生成報(bào)告和真實(shí)報(bào)告在單詞級(jí)別的一致性，對(duì)于BLEU-2/3/4可以衡量?jī)烧叩牧鲿扯取LEU-n分?jǐn)?shù)越高，表示模型性能越接近于人類表現(xiàn)。

ROUGE指標(biāo)：ROUGE[10]是一種側(cè)重召回率的評(píng)價(jià)指標(biāo)。ROUGE-L作為ROUGE的一種重要變體，使用最長(zhǎng)公共子序列作為匹配基礎(chǔ)，能夠更加靈活地捕捉生成文本與真實(shí)文本之間的相似性，ROUGE-L分?jǐn)?shù)越高代表模型表現(xiàn)效果越好。

METEOR指標(biāo)：與BLEU和ROUGE不同的是，METEOR[11]指標(biāo)是基于整個(gè)語(yǔ)料庫(kù)上的準(zhǔn)確率和召回率，引入多層次匹配機(jī)制，不僅考慮精準(zhǔn)匹配還包括同義詞匹配、詞干匹配等，更加符合人工判別的標(biāo)準(zhǔn)。METEOR分?jǐn)?shù)越高，模型表現(xiàn)效果更好。

2.2 實(shí)驗(yàn)結(jié)果分析

本文所提出的模型在IU X-Ray數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，與先前具有代表性的工作進(jìn)行對(duì)比。具體有：通過(guò)記憶驅(qū)動(dòng)的Transformer生成放射報(bào)告（R2Gen） [5]、用于生成放射報(bào)告的跨模態(tài)記憶網(wǎng)絡(luò)（CMN） [6]以及基于圖引導(dǎo)混合特征一致性的半監(jiān)督醫(yī)學(xué)影像報(bào)告生成（RAMT） [12]。

本文所提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型與R2Gen、CMN以及RAMT的實(shí)驗(yàn)結(jié)果對(duì)比（見表1），最優(yōu)結(jié)果加粗展示。從表1中可以觀察到，本文提出的模型在BLEU-2/3/4、ROUGE-L以及METEOR五項(xiàng)評(píng)價(jià)指標(biāo)上都顯著優(yōu)于對(duì)比的基線模型，對(duì)于BLEU-1指標(biāo)，本文所提出的模型表現(xiàn)略低于RAMT。本文所提出的方法相較于其他基線最優(yōu)表現(xiàn)的對(duì)比結(jié)果如下：BLEU-2提升約為2.6%，BLEU-3提升約為3.6%，BLEU-4提升約為2.9%，ROUGE-L提升約為4.6%，METEOR提升約為2.1%，BLEU-1下降約為0.6%。針對(duì)不同場(chǎng)景，本文提出的模型可以動(dòng)態(tài)地調(diào)整全局以及局部特征權(quán)重，兼顧影像的整體架構(gòu)以及細(xì)節(jié)，實(shí)現(xiàn)在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性能。

3 總結(jié)與展望

本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型，利用門控融合機(jī)制，自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)特征，用于生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。在公開的IU X-Ray數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)，與具有代表性的基線模型進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果證明文章中所提出的方法在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性。

盡管本文所提出的模型在醫(yī)學(xué)影像報(bào)告生成任務(wù)中取得優(yōu)異的性能，但也存在一些不足之處，主要體現(xiàn)在模型可訓(xùn)練的參數(shù)量龐大，未來(lái)將嘗試剪枝以及知識(shí)蒸餾等方法探索輕量級(jí)的醫(yī)學(xué)影像報(bào)告生成模型。

參考文獻(xiàn)：

[1] 邢素霞，方俊澤，鞠子涵，等.基于記憶驅(qū)動(dòng)的多模態(tài)醫(yī)學(xué)影像報(bào)告自動(dòng)生成研究[J].生物醫(yī)學(xué)工程學(xué)雜志，2024，41（1）：60-69.

[2] JING B Y，XIE P T，XING E P.On the automatic generation of medical imaging reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）.Melbourne：ACL，2018：2577-2586.

[3] YANG Y，YU J，ZHANG J，et al.Joint embedding of deep visual and semantic features for medical image report generation[J].IEEE Transactions on Multimedia，2021，25：167-178.

[4] VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need[C]//Advances in Neural Information Processing Systems 30.Long Beach：NIPS，2017.

[5] CHEN Z，SONG Y，CHANG T H，et al.Generating radiology reports via memory-driven transformer[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Online：EMNLP，2020：1439-1449.

[6] CHEN Z，SHEN Y，SONG Y，et al.Cross-modal memory networks for radiology report generation[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Online：ACL，2021：5904-5914.

[7] DEMNER-FUSHMAN D，KOHLI M D，ROSENMAN M B，et al.Preparing a collection of radiology examinations for distribution and retrieval[J].Journal of the American Medical Informatics Association，2016，23（2）：304-310.

[8] HE K，ZHANG X，REN S，et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas：CVPR，2016：770-778.

[9] PAPINENI K，ROUKOS S，WARD T，et al.BLEU：a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia：ACL，2002：311-318.

[10] LIN C Y.ROUGE：a package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop Text Summarization Branches Out.Barcelona：ACL，2004：74-81.

[11] BANERJEE S，LAVIE A.METEOR：an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization.Ann Arbor：ACL，2005：65-72.

[12] ZHANG K，JIANG H，ZHANG J，et al.Semi-supervised medical report generation via graph-guided hybrid feature consistency[J].IEEE Transactions on Multimedia，2023，26：904-915.

【通聯(lián)編輯：謝媛媛】

電腦知識(shí)與技術(shù)2025年8期

電腦知識(shí)與技術(shù)的其它文章: 課程思政視域下“Android項(xiàng)目開發(fā)”精品在線開放課程建設(shè)實(shí)踐; 項(xiàng)目教學(xué)法在高職計(jì)算機(jī)教學(xué)中的應(yīng)用研究; 基于PBL理念的Python程序設(shè)計(jì)課程教學(xué)改革與實(shí)踐; 產(chǎn)教融合背景下高職計(jì)算機(jī)基礎(chǔ)課程混合式教學(xué)模式研究; Web滲透測(cè)試課程與CTF競(jìng)賽結(jié)合的創(chuàng)新教學(xué)模式探索; CDIO-OBE理念下的嵌入式系統(tǒng)課程改革探索與實(shí)踐