

摘要:圖像配準是指尋找兩幅或多幅圖像之間的空間變換關系,將一幅圖像映射到另一幅圖像,使得圖像間對應于空間同一位置的點相互對齊,它是進行圖像融合的關鍵步驟。在醫學圖像分析領域,醫學圖像配準在疾病診斷、放射治療、手術導航等方面具有廣泛應用。因此,如何進行高效、精準的圖像配準成為研究熱點。傳統配準方法受限于速度慢、計算復雜度高且對多模態圖像配準適用性差的問題,難以滿足現代醫療影像分析對高效、精確和魯棒性的需求。近年來,隨著深度學習技術的迅猛發展,以卷積神經網絡為代表的深度學習網絡憑借其端到端、可遷移的優勢受到了廣泛關注。文章總結了醫學圖像配準研究中采用的4種主流深度學習技術,并對其未來發展趨勢進行了討論。
關鍵詞: 醫學圖像分析;圖像配準;深度學習;卷積神經網絡;圖像融合
中圖分類號:TP311" " " " 文獻標識碼:A
文章編號:1009-3044(2025)17-0019-03
開放科學(資源服務) 標識碼(OSID)
0 引言
隨著醫學影像技術的快速發展,在臨床中很容易獲取患者的大量醫學圖像數據,這為疾病診斷和治療提供了豐富的信息資源。常見的醫學圖像有計算機斷層掃描成像(CT) 、磁共振成像(MRI) 等。在臨床實踐中,為了全方位獲取患者的多方面信息,常采用醫學圖像配準技術實現不同類型圖像的融合。然而,醫學圖像的多樣性和復雜性也為圖像配準帶來了一系列挑戰。由于不同類型醫學圖像在質量、形變復雜性和非線性灰度方面的差異,使得多模態圖像配準成為關鍵難點之一。此外,醫學圖像樣本標注較少,配準效果評價缺乏統一的金標準,這也導致配準方法在實際應用中面臨一些困境。傳統的醫學圖像配準框架如圖1所示,通常需要設計一個相似性測度函數,通過多次優化尋找一組最佳參數,使該測度達到最優值,以實現配準。該方法需要大量的迭代優化來調整參數,不僅消耗大量時間和計算資源,而且容易陷入局部最優,導致配準精度受到影響。
近年來,深度學習技術的迅猛發展為醫學圖像配準提供了新的解決思路。深度學習方法通過自動學習圖像之間復雜的非線性關系,有助于提升配準的準確性和效率,特別是在處理大規模高分辨率圖像數據集時具有顯著優勢。這種方法不僅減少了人工干預,還提高了配準的自動化和智能化水平,在推動精準醫療的發展方面具有重大潛力。本文綜述了深度學習在醫學圖像配準中的主要技術及其應用,分析了當前存在的問題,并探討了未來的發展方向。
1 基于深度學習的醫學圖像配準技術
根據近年來發表的有關深度學習的醫學圖像配準文獻,總體上,基于深度學習的配準模型大致可以分為4類:基于卷積神經網絡的圖像配準、基于生成對抗網絡的圖像配準、基于深度強化學習的圖像配準以及基于Transformer的圖像配準。接下來將主要對這四類技術進行介紹。
1.1 基于卷積神經網絡的醫學圖像配準
卷積神經網絡(CNN) 的概念自提出以來,隨著計算機算力的提升,其發展速度迅猛。在醫學圖像配準領域,早期CNN網絡的應用主要是在圖像配準中篩選最佳特征時,采用CNN結構自動學習圖像配準過程中自動提取的高維特征。通過自適應的學習特征,替代手工設計的特征以實現自動化配準[1]。由于CNN網絡的訓練較為自動化和高效,此后,很多學者將CNN網絡用于圖像配準中模型參數的回歸計算。例如,Miao等[2]提出了一種基于CNN的回歸方法,以解決現有基于灰度的2D/3D配準技術計算速度慢和捕獲范圍小的兩個局限性。對于非線性配準,比較典型的是Balakrishnan等[3]提出的Voxelmorph模型,該模型的典型框架如圖2所示。它以CNN網絡為基礎設計,這種網絡結構使其能夠自動學習圖像之間的映射關系。由于Voxelmorph采用了輕量級的架構,它不僅在計算效率上高于許多同類工具,而且對內存的要求也相對較低。Voxelmorph配準框架在醫學圖像配準,尤其是3D圖像配準中的成功實踐,使其在后續研究中也受到了學者們的推崇[4],催生了一些改進的Voxelmorph配準模型,以優化配準性能。
1.2 基于生成對抗網絡的醫學圖像配準
早期,醫學圖像配準主要基于有監督學習的配準方法。然而,隨著醫學數據量的增長,主要有兩方面問題限制了有監督學習在醫學圖像配準中的應用:數據標簽標注困難和標注數量有限。因此,很多學者轉向研究無監督配準的框架。生成對抗網絡(GAN) 的最大優勢是在訓練過程中無需提供真實標簽,也不需要指定圖像之間的相似性度量。Qiao等[5]基于多模態圖像配準,提出了一種多模態醫學圖像配準模型,它使用單個生成器和判別器來處理多種模態圖像數據對比度不一致的問題。Wang等[6]采用循環一致生成對抗網絡,實現了多序列腦MR數據以及多模態腹部CT和MR數據的有效配準和融合。該方法不僅實現了參考圖像和浮動圖像的對齊,還能夠保障圖像的高質量顯示。Yang等[7]針對MRI-CT多模圖像配準設計了一種DTR-GAN網絡,實驗驗證了其優異性能。GAN模型在無需數據標注的情況下,能夠生成更細致和完善的變形場,但模型也存在著一些顯著問題,比如因其存在對抗博弈過程,這往往導致訓練時間過長、難以收斂等情況[8]。
1.3 基于深度強化學習的醫學圖像配準
深度強化學習(DRL) 是一種結合了深度學習(DL) 和強化學習(RL) 的機器學習方法。它通過使用深度神經網絡來近似強化學習中的策略或價值函數,從而解決復雜的決策問題[9]。與傳統方法相比,它具有參數更少、推理性能更強的優勢,在多模態圖像配準中發揮著重要作用。考慮到傳統圖像配準方法中特征的表示和相似性測度的選擇很容易受到人為因素的干擾,這將會導致配準結果出現很大偏差。基于此,研究者設計了一種由策略網絡和價值網絡組成的人工智能體模型,能夠引導浮動圖像向參考圖像位置移動,實現精準配準[10]。策略網絡是一種神經網絡,它通過學習能夠預測在特定狀態下采取各種可能動作的概率分布,從而指導智能體的決策過程。價值網絡則為智能體提供了一種機制,用以評估不同狀態和動作的潛在價值,輔助智能體識別出更優的決策路徑。Hu等[11]針對多模態圖像配準中不同特征難以對齊的問題,將配準過程轉化成一個決策問題,并通過異步強化學習訓練的人工智能體來實現圖像配準。該方法在堆疊卷積層后引入卷積長短期記憶,以提取時空圖像特征并隱式地學習相似性度量。該模型在鼻咽癌患者的CT-MR圖像數據集上的實驗表明,其在醫學圖像配準方面取得了較為優越的性能。
1.4 基于Transformer的醫學圖像配準
Transformer的優勢在于利用注意力機制來捕獲全局的上下文信息,從而對目標建立起遠距離的依賴,以提取出更強有力的圖像特征。Chen等[12]提出了ViTVNet架構,這是一種將Vision Transformer(ViT) 架構與VNet結合的網絡,旨在實現全局信息的捕捉以及圖像多尺度信息的提取。該網絡不僅能夠捕捉圖像中的全局信息,還能提取多尺度的特征。Song等[13]結合了Transformer和CNN二者的優勢,首先使用CNN獲得圖像的特征圖,然后使用Transformer作為編碼器來提取全局信息。在腦部MRI數據集上的配準實驗相較于對比模型,性能提升了1%。Chen等[14]在ViTVNet的基礎上進一步發展,提出了TransMorph模型,該模型采用了Swin Transformer來替代傳統的ViT模塊。然而,這種方法的配準效果受限于窗口大小的選擇,并且多次的滑動窗口操作會增加網絡的計算負擔。為了降低計算復雜度和減少模型參數量,Ma等[15]提出了SymTrans模型。SymTrans模型采用了高效的多頭自注意力機制,有效減少了參數量和計算量。
2 醫學圖像配準評價指標
針對醫學圖像配準方法中,采用的評價指標主要有:DICE系數、均方誤差(MSE) 、均方根誤差(RMSE) 、目標配準誤差(TRE) 、誤差平方和(SSD) 以及Hausdorff距離等。下面將逐一介紹這些評價指標。
DICE系數是一種常見的圖像配準評價指標,可以用來衡量兩幅圖像的相似程度。它的取值范圍介于0~1之間,值越接近于1,表示兩幅圖像的重合度越高,也說明兩幅圖像越相似。如有兩個集合X和Y,則DICE系數的計算公式為:
[DICE=2*|X?Y|/(|X|+|Y|)] (1)
均方誤差計算的是兩幅圖像之間誤差平方的平均值,它衡量的是兩幅圖像在灰度值上的相似性。設有兩幅圖像X和Y,均方誤差的計算公式為:
[MSE=1Ni=1Nxi-yi2] (2)
其中:[xi]和[yi]分別表示在圖像X和Y上第[i]個像素點的灰度值;[N]表示像素點的總數量。MSE值越小,表示配準效果越好。均方根誤差RMSE則為均方誤差的開平方根。
目標配準誤差可以用于衡量配準算法的精確度。在臨床中,TRE能夠提供關于配準效果的直接量化信息。它定義了配準后基準點與相應點之間的距離,TRE值越接近于零,表示配準效果越好。
誤差平方和則通過計算兩個圖像對應像素點的差值的平方和來度量它們的相似度。針對兩幅圖像I和J,它們的SSD值可以通過以下公式計算:
[SSD(I,J)=I(x,y)-J(x,y)2] (3)
其中:[I(x,y)]和[J(x,y)]分別表示兩幅圖像在位置[(x,y)]處的像素值。在實際應用中,常通過最小化SSD值來尋找最佳的配準參數,從而實現圖像之間的對齊。Hausdorff距離常用于衡量兩個圖像集合之間的相似度。它定義了度量空間中任意兩個集合之間的距離。在圖像配準中通過計算兩組點集之間的最大距離來評估配準的準確性。
3 未來發展趨勢
盡管深度學習方法近年來在醫學圖像配準領域受到了廣泛研究,但其精度方面相較傳統算法卻并未實現較大的超越。基于深度學習的圖像配準方法主要有兩大顯著優勢:首先,GPU的并行加速運算提升了計算效率;其次,端到端的網絡結構增強了模型的自動化和可遷移性。有監督的圖像配準高度依賴精確的數據標注,但實際應用中,高質量的標注樣本往往非常稀缺。這一問題導致深度學習模型在訓練過程中容易過擬合,影響模型的泛化能力。在具體實施中,需要采用各種數據增強策略擴充數據以改善此類問題。而無監督配準無需標注樣本,有效地緩解了訓練數據集不足的問題,但由于不同類別圖像之間的相似性難以量化,在處理多模態配準問題時,無監督配準仍存在很大的挑戰性。因此,目前無監督配準方法主要用于處理單模配準問題,而在多模態圖像配準問題中,研究者主要采用半監督的配準方法。考慮到醫學樣本的特殊性,無監督學習的圖像配準后續仍然是主要研究熱點。且GAN模型比較擅長無監督學習,Transformer模型則在圖像全局特征提取方面具有顯著優勢,因此未來基于GAN模型和Transformer的深度學習技術仍然是醫學圖像配準的重要研究方向。
4 結束語
本文針對深度學習技術應用于醫學圖像配準的研究進行了綜述,列舉了目前主流的4種深度學習技術在各類型醫學圖像配準中的研究成果和進展,對醫學圖像配準的常用評價指標及未來發展趨勢進行了討論,闡明了深度學習技術在該領域仍然具有巨大的研究價值。但針對醫學圖像數據標注少及缺乏金標準的問題,未來仍然需要廣大學者們的持續關注和研究。
參考文獻:
[1] ZHAO L Y,JIA K B.Deep adaptive log-demons:diffeomorphic image registration with very large deformations[J].Computational and Mathematical Methods in Medicine,2015,2015(1):836202.
[2] MIAO S,WANG Z J,LIAO R.A CNN regression approach for real-time 2D/3D registration[J].IEEE Transactions on Medical Imaging,2016,35(5):1352-1363.
[3] BALAKRISHNAN G,ZHAO A,SABUNCU M R,et al.VoxelMorph:a learning framework for deformable medical image registration[J].IEEE Transactions on Medical Imaging,2019.
[4] LI Y X,TANG H,WANG W,et al.Dual attention network for unsupervised medical image registration based on VoxelMorph[J].Scientific Reports,2022,12:16250.
[5] QIAO J, LAI Q, LI Y, et al. A GAN based multi-contrast modalities medical image registration approach[C]//2020 IEEE International Conference on Image Processing (ICIP).IEEE,2020:3000-3004.
[6] WANG C J,YANG G,PAPANASTASIOU G,et al.DiCyc:GAN-based deformation invariant cross-domain information fusion for medical image synthesis[J].Information Fusion,2021,67:147-160.
[7] YANG A L,YANG T J,ZHAO X,et al.DTR-GAN:an unsupervised bidirectional translation generative adversarial network for MRI-CT registration[J].Applied Sciences,2024,14(1):95.
[8] ZHOU T,LI Q,LU H L,et al.GAN review:Models and medical image fusion applications[J].Information Fusion,2023,91:134-148.
[9] ZHOU S K,LE H N,LUU K,et al.Deep reinforcement learning in medical imaging:a literature review[J].Medical Image Analysis,2021,73:102193.
[10] 姚明青,胡靖.基于深度強化學習的多模態醫學圖像配準[J].計算機輔助設計與圖形學學報,2020,32(8):1236-1247.
[11] HU J,LUO Z W,WANG X,et al.End-to-end multimodal image registration via reinforcement learning[J].Medical Image Analysis,2021,68:101878.
[12] CHEN J Y,HE Y F,FREY E C,et al.ViT-V-net:vision transformer for unsupervised volumetric medical image registration[EB/OL].2021:2104.06468. https://arxiv.org/abs/2104.06468v1.
[13] SONG L,LIU G X,MA M R.TD-Net:unsupervised medical image registration network based on Transformer and CNN[J].Applied Intelligence,2022,52(15):18201-18209.
[14] CHEN J Y,FREY E C,HE Y F,et al.TransMorph:Transformer for unsupervised medical image registration[J].Medical Image Analysis,2022,82:102615.
[15] MA M R,XU Y B,SONG L,et al.Symmetric transformer-based network for unsupervised image registration[J].Knowledge-Based Systems,2022(257):109959.
【通聯編輯:代影】