999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成方法研究

2025-04-11 00:00:00郭繼偉魯慧哲許杰
電腦知識(shí)與技術(shù) 2025年8期

摘要:醫(yī)學(xué)影像報(bào)告自動(dòng)生成需要關(guān)注影像的整體結(jié)構(gòu)與局部細(xì)微變化以生成準(zhǔn)確流暢的文本描述。為此,文章提出了基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告自動(dòng)生成方法,利用跨模態(tài)注意力機(jī)制和滑動(dòng)窗口機(jī)制分別獲得影像與報(bào)告之間的局部以及全局特征,通過(guò)門控融合機(jī)制,自適應(yīng)整合來(lái)自不同尺度的多模態(tài)特征,在保持對(duì)影像全局感知的同時(shí)又能關(guān)注到微觀變化。在IU X-Ray數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,文章所提出的方法在BLEU-2/3/4、ROUGE-L以及METEOR指標(biāo)上領(lǐng)先于基線方法。

關(guān)鍵詞:醫(yī)學(xué)影像報(bào)告;多模態(tài)表征;多模態(tài)融合;跨模態(tài)注意力機(jī)制

中圖分類號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2025)08-0019-03

開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :

0 引言

醫(yī)學(xué)影像在臨床診斷中扮演著重要的角色,為醫(yī)生提供豐富的診斷信息。然而,解讀醫(yī)學(xué)影像高度依賴于醫(yī)生的專業(yè)知識(shí)與臨床經(jīng)驗(yàn),面對(duì)日益增長(zhǎng)的影像數(shù)據(jù),醫(yī)生需要花費(fèi)大量時(shí)間進(jìn)行解讀,增加了工作負(fù)擔(dān)[1]。因此,醫(yī)學(xué)影像報(bào)告生成(Medical Report Generation,MRG) 已經(jīng)成為人工智能領(lǐng)域一個(gè)熱門的研究方向。

目前,醫(yī)學(xué)影像報(bào)告生成方法[2-3]多使用卷積神經(jīng)網(wǎng)絡(luò)提取影像特征信息,利用循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種生成相應(yīng)的報(bào)告。鑒于循環(huán)神經(jīng)網(wǎng)絡(luò)在生成文本時(shí)需要依賴先前隱藏狀態(tài),存在報(bào)告生成效率低,以及無(wú)法利用長(zhǎng)距離交互等問(wèn)題,影響生成報(bào)告質(zhì)量。隨著Transformer[4]在各項(xiàng)任務(wù)領(lǐng)域中展現(xiàn)出巨大的優(yōu)越性,越來(lái)越多的研究人員開始關(guān)注基于Transformer架構(gòu)的醫(yī)學(xué)影像報(bào)告生成框架。Chen等[5]提出基于記憶驅(qū)動(dòng)的Transformers醫(yī)學(xué)影像報(bào)告生成模型。在生成過(guò)程中,利用關(guān)系存儲(chǔ)器(RM) 記錄關(guān)鍵信息,并利用存儲(chǔ)器驅(qū)動(dòng)的條件層規(guī)范化(MCLN) 將其整合到Transformer解碼器中,從而生成內(nèi)容豐富的長(zhǎng)篇醫(yī)學(xué)影像報(bào)告。為了探究影像與文本之間的映射關(guān)系,跨模態(tài)記憶網(wǎng)絡(luò)(Cross-modal Memory Networks,CMN) [6]設(shè)計(jì)一個(gè)共享存儲(chǔ)器來(lái)記錄圖像和文本之間的映射信息,用于促進(jìn)跨模態(tài)交互和醫(yī)學(xué)影像報(bào)告的生成。雖然在上述工作的驅(qū)動(dòng)下,醫(yī)學(xué)影像報(bào)告生成的質(zhì)量得到顯著提升,但在該領(lǐng)域仍存在一些挑戰(zhàn),醫(yī)學(xué)影像報(bào)告需要關(guān)注影像整體與局部信息,幫助臨床醫(yī)生精準(zhǔn)地評(píng)估患者健康狀況。

本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成方法,使用自適應(yīng)注意力機(jī)制建立全局、局部影像特征與文本模態(tài)之間的交互信息,用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。在自適應(yīng)注意力模塊中,跨模態(tài)注意力機(jī)制構(gòu)建全局多模態(tài)表征,滑動(dòng)窗口機(jī)制構(gòu)建局部多模態(tài)表征,門控融合機(jī)制自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)表征信息,這使得模型在保持對(duì)全局感知的同時(shí)又能關(guān)注到微觀的變化,從而生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。本文在印第安納大學(xué)公開的IU X-Ray數(shù)據(jù)集[7]上進(jìn)行大量實(shí)驗(yàn),在BLEU-2/3/4、ROUGE-L以及METEOR評(píng)價(jià)指標(biāo)上優(yōu)于基線。

1 模型概述

醫(yī)學(xué)影像報(bào)告生成任務(wù)是從給定的醫(yī)學(xué)影像I中提取關(guān)鍵信息,生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告Y。圖1展示本文提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型的整體架構(gòu),該模型包括視覺(jué)特征提取器、視覺(jué)特征編碼器以及基于自適應(yīng)注意力機(jī)制的解碼器。

1.1 影像特征處理

本文使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)ResNet[8]作為圖像特征提取器(Image Extractor) 提取輸入影像[I]的特征,影像按照網(wǎng)格分割的形式被分解為多個(gè)大小相等的區(qū)域(patch) ,[{x1,x2,...,xn}=fres(I)∈Rn×d] ,其中[n]代表patch數(shù)量,[d]代表patch的特征維度。將經(jīng)過(guò)視覺(jué)特征提取器得到的patch特征加入位置編碼(用于記錄patch在原始圖片中的位置信息) 后作為視覺(jué)編碼器(Image Encoder) 輸入,對(duì)于視覺(jué)編碼器,本文采用的是標(biāo)準(zhǔn)的Transformer編碼器,沒(méi)有做任何改動(dòng),輸出視覺(jué)編碼器的隱藏狀態(tài),[H=fe(x1,x2,...,xn)∈Rn×dh],其中[n]代表patch的數(shù)量,[dh]代表隱藏狀態(tài)維度,[fe]代表視覺(jué)編碼器。

1.2 解碼器

在基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型中,解碼器主要包括前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward)、自適應(yīng)注意力機(jī)制(Adaptive Attention)、有遮掩的多頭注意力機(jī)制(Masked Multi-Head Attention) 以及殘差連接和層歸一化(Add amp; Norm) 。與傳統(tǒng)的解碼器不同之處在于,針對(duì)醫(yī)學(xué)影像需要關(guān)注不同尺度的特征,本文引入自適應(yīng)注意力機(jī)制,通過(guò)自適應(yīng)門控機(jī)制,動(dòng)態(tài)融合來(lái)自全局與局部?jī)煞N不同尺度的多模態(tài)表征信息,用于生成準(zhǔn)確流暢的醫(yī)學(xué)報(bào)告。

自適應(yīng)注意力機(jī)制接受源序列和目標(biāo)序列作為輸入,其中源序列是來(lái)自視覺(jué)編碼器輸出[H],目標(biāo)序列是醫(yī)學(xué)影像報(bào)告經(jīng)過(guò)有遮掩的多頭注意力機(jī)制及殘差連接和層歸一化的輸出[Y']。在整個(gè)多模態(tài)序列內(nèi),利用跨模態(tài)注意力機(jī)制,獲得全局多模態(tài)表征信息,具體公式描述如下:

[Ma=CoAttentionH,Y'" " " =softmaxY'WQaW?KaH?dhHWVa]" " " " " (1)

式中:[Ma]代表全局多模態(tài)表征信息,[WQa]、[WKa]和[WVa]是可訓(xùn)練的權(quán)重矩陣,[dh]是來(lái)自視覺(jué)編碼器輸出的特征維度。通過(guò)滑動(dòng)注意力窗口機(jī)制,將參與交互的多模態(tài)數(shù)據(jù)限制在給定窗口大小范圍內(nèi),從而獲得局部的多模態(tài)表征信息,假設(shè)給定窗口半徑為[w],對(duì)于任意位置[i],只允許關(guān)注到[Win i=[max(0,i-w),min(i+w,n)]]內(nèi)的信息。具體公式描述如下:

[Attention_mask(i,j)=0, if j∈ Win (i)-∞, otherwise ]" " " " (2)

[Ml= SWAttention H,Y'" " "=softmaxY'WQlW?KlH?dh+Attention_maskHWVl]" "(3)

式中:[Ml]代表局部多模態(tài)表征信息,[WQl]、[WKl]和[WVl]是可訓(xùn)練的權(quán)重矩陣。為融合來(lái)自不同尺度的多模態(tài)表征,使用門控機(jī)制,自適應(yīng)地整合來(lái)自不同尺度的多模態(tài)表征信息:

[M=Ga(Ma)+Gl(Ml)=MaWTa+MlWTl]" " " (4)

式中:[M]代表融合后得到的多模態(tài)表征信息,[Gl(?)]和[Ga(?)]代表門機(jī)制,[Wa]和[Wl]是可訓(xùn)練的權(quán)重矩陣。最后,解碼器輸出的信息經(jīng)過(guò)一個(gè)線性層映射到字典維度,使用Softmax函數(shù)計(jì)算輸出的概率分布。

2 實(shí)驗(yàn)設(shè)置

本小節(jié)首先介紹模型的評(píng)價(jià)指標(biāo),然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

2.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文使用自然語(yǔ)言生成領(lǐng)域常用的評(píng)價(jià)指標(biāo)來(lái)評(píng)估基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型結(jié)果與真實(shí)報(bào)告之間的精確率,包括以下指標(biāo):

BLEU-[n]指標(biāo):雙語(yǔ)互譯質(zhì)量評(píng)估輔助工具[9](n代表連續(xù)文本的個(gè)數(shù),通常包括BLEU-1/2/3/4) 。BLEU-1可以衡量生成報(bào)告和真實(shí)報(bào)告在單詞級(jí)別的一致性,對(duì)于BLEU-2/3/4可以衡量?jī)烧叩牧鲿扯取LEU-n分?jǐn)?shù)越高,表示模型性能越接近于人類表現(xiàn)。

ROUGE指標(biāo):ROUGE[10]是一種側(cè)重召回率的評(píng)價(jià)指標(biāo)。ROUGE-L作為ROUGE的一種重要變體,使用最長(zhǎng)公共子序列作為匹配基礎(chǔ),能夠更加靈活地捕捉生成文本與真實(shí)文本之間的相似性,ROUGE-L分?jǐn)?shù)越高代表模型表現(xiàn)效果越好。

METEOR指標(biāo):與BLEU和ROUGE不同的是,METEOR[11]指標(biāo)是基于整個(gè)語(yǔ)料庫(kù)上的準(zhǔn)確率和召回率,引入多層次匹配機(jī)制,不僅考慮精準(zhǔn)匹配還包括同義詞匹配、詞干匹配等,更加符合人工判別的標(biāo)準(zhǔn)。METEOR分?jǐn)?shù)越高,模型表現(xiàn)效果更好。

2.2 實(shí)驗(yàn)結(jié)果分析

本文所提出的模型在IU X-Ray數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),與先前具有代表性的工作進(jìn)行對(duì)比。具體有:通過(guò)記憶驅(qū)動(dòng)的Transformer生成放射報(bào)告(R2Gen) [5]、用于生成放射報(bào)告的跨模態(tài)記憶網(wǎng)絡(luò)(CMN) [6]以及基于圖引導(dǎo)混合特征一致性的半監(jiān)督醫(yī)學(xué)影像報(bào)告生成(RAMT) [12]。

本文所提出的基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型與R2Gen、CMN以及RAMT的實(shí)驗(yàn)結(jié)果對(duì)比(見表1) ,最優(yōu)結(jié)果加粗展示。從表1中可以觀察到,本文提出的模型在BLEU-2/3/4、ROUGE-L以及METEOR五項(xiàng)評(píng)價(jià)指標(biāo)上都顯著優(yōu)于對(duì)比的基線模型,對(duì)于BLEU-1指標(biāo),本文所提出的模型表現(xiàn)略低于RAMT。本文所提出的方法相較于其他基線最優(yōu)表現(xiàn)的對(duì)比結(jié)果如下:BLEU-2提升約為2.6%,BLEU-3提升約為3.6%,BLEU-4提升約為2.9%,ROUGE-L提升約為4.6%,METEOR提升約為2.1%,BLEU-1下降約為0.6%。針對(duì)不同場(chǎng)景,本文提出的模型可以動(dòng)態(tài)地調(diào)整全局以及局部特征權(quán)重,兼顧影像的整體架構(gòu)以及細(xì)節(jié),實(shí)現(xiàn)在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性能。

3 總結(jié)與展望

本文提出基于多模態(tài)表征的醫(yī)學(xué)影像報(bào)告生成模型,利用門控融合機(jī)制,自適應(yīng)地融合來(lái)自不同尺度的多模態(tài)特征,用于生成準(zhǔn)確流暢的醫(yī)學(xué)影像報(bào)告。在公開的IU X-Ray數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),與具有代表性的基線模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果證明文章中所提出的方法在醫(yī)學(xué)影像報(bào)告生成領(lǐng)域的先進(jìn)性。

盡管本文所提出的模型在醫(yī)學(xué)影像報(bào)告生成任務(wù)中取得優(yōu)異的性能,但也存在一些不足之處,主要體現(xiàn)在模型可訓(xùn)練的參數(shù)量龐大,未來(lái)將嘗試剪枝以及知識(shí)蒸餾等方法探索輕量級(jí)的醫(yī)學(xué)影像報(bào)告生成模型。

參考文獻(xiàn):

[1] 邢素霞,方俊澤,鞠子涵,等.基于記憶驅(qū)動(dòng)的多模態(tài)醫(yī)學(xué)影像報(bào)告自動(dòng)生成研究[J].生物醫(yī)學(xué)工程學(xué)雜志,2024,41(1):60-69.

[2] JING B Y,XIE P T,XING E P.On the automatic generation of medical imaging reports[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).Melbourne:ACL,2018:2577-2586.

[3] YANG Y,YU J,ZHANG J,et al.Joint embedding of deep visual and semantic features for medical image report generation[J].IEEE Transactions on Multimedia,2021,25:167-178.

[4] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems 30.Long Beach:NIPS,2017.

[5] CHEN Z,SONG Y,CHANG T H,et al.Generating radiology reports via memory-driven transformer[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Online:EMNLP,2020:1439-1449.

[6] CHEN Z,SHEN Y,SONG Y,et al.Cross-modal memory networks for radiology report generation[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Online:ACL,2021:5904-5914.

[7] DEMNER-FUSHMAN D,KOHLI M D,ROSENMAN M B,et al.Preparing a collection of radiology examinations for distribution and retrieval[J].Journal of the American Medical Informatics Association,2016,23(2):304-310.

[8] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:CVPR,2016:770-778.

[9] PAPINENI K,ROUKOS S,WARD T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:311-318.

[10] LIN C Y.ROUGE:a package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop Text Summarization Branches Out.Barcelona:ACL,2004:74-81.

[11] BANERJEE S,LAVIE A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization.Ann Arbor:ACL,2005:65-72.

[12] ZHANG K,JIANG H,ZHANG J,et al.Semi-supervised medical report generation via graph-guided hybrid feature consistency[J].IEEE Transactions on Multimedia,2023,26:904-915.

【通聯(lián)編輯:謝媛媛】

主站蜘蛛池模板: 亚洲综合精品香蕉久久网| 91探花在线观看国产最新| 国产一区二区三区精品欧美日韩| 国产欧美在线视频免费| 日本国产一区在线观看| 韩国自拍偷自拍亚洲精品| 亚洲精品无码在线播放网站| 久久99精品久久久大学生| 免费jjzz在在线播放国产| 99九九成人免费视频精品| 亚洲无线视频| 国产自在线拍| 71pao成人国产永久免费视频| 亚洲VA中文字幕| 嫩草国产在线| 青青草原国产| 91精品国产91久无码网站| 久久综合九色综合97网| 日韩精品少妇无码受不了| 一级毛片免费的| 亚洲日本一本dvd高清| 久久人搡人人玩人妻精品一| 91精品网站| 东京热av无码电影一区二区| 99精品在线视频观看| 久久久成年黄色视频| 亚洲综合极品香蕉久久网| 伦精品一区二区三区视频| JIZZ亚洲国产| 国模私拍一区二区 | 久久一色本道亚洲| 2021国产v亚洲v天堂无码| 在线看片国产| 2021国产v亚洲v天堂无码| 亚洲一区二区三区麻豆| 久久久久国产一区二区| 一区二区三区精品视频在线观看| 夜精品a一区二区三区| 色噜噜综合网| 免费在线视频a| 啪啪永久免费av| 久久久久久久久亚洲精品| 国产三级毛片| 欧洲熟妇精品视频| 欧美日韩亚洲综合在线观看| 88国产经典欧美一区二区三区| 成人福利在线视频| 伊人久久福利中文字幕| 国产精品美女自慰喷水| 大乳丰满人妻中文字幕日本| 91久久国产综合精品女同我| 91视频首页| 小说区 亚洲 自拍 另类| 久久精品aⅴ无码中文字幕| 国产免费网址| 在线视频亚洲欧美| 在线国产91| 久久99国产综合精品女同| 日韩欧美国产区| 日本国产在线| 99久久亚洲精品影院| 久久综合色视频| 亚洲免费三区| 国产超碰在线观看| 亚洲欧美另类中文字幕| 亚洲成人在线网| 亚洲综合色区在线播放2019| 亚洲男人天堂2020| 国产精品专区第1页| 国产第一页免费浮力影院| 精品国产欧美精品v| 欧美综合区自拍亚洲综合绿色 | 亚洲专区一区二区在线观看| 思思热精品在线8| 无码内射在线| 亚洲成AV人手机在线观看网站| 中文字幕无码制服中字| 亚洲国产亚综合在线区| 久99久热只有精品国产15| 亚洲天堂免费| 久久精品无码中文字幕| 色窝窝免费一区二区三区|