王帥坤,周志勇,胡冀蘇,錢旭升,耿辰,陳光強,紀建松,戴亞康,5
(1.中國科學技術大學(蘇州)生物醫學工程學院生命科學與醫學部,江蘇蘇州 215163;2.中國科學院蘇州生物醫學工程技術研究所,江蘇 蘇州 215163;3.蘇州大學附屬第二醫院,江蘇 蘇州 215000;4.麗水市中心醫院,浙江 麗水 323000;5.濟南國科醫工科技發展有限公司,濟南 250000)
肝癌是最危險的致死癌之一[1]。常規的肝癌診斷、放療規劃、圖像引導的介入治療等技術都需根據醫學圖像的分析,其中多模態配準是關鍵環節。通過多模態圖像如電子計算機斷層掃描(Computed Tomography,CT)和核磁共振圖 像(Magnetic Resonance,MR)的配準和融合能夠利用不同模態的互補信息,從不同側面分析疾病。由于配準速度和配準結果的好壞都會嚴重影響后續的定量分析,因此實現快速、精準的多模態配準具有重要的臨床意義。
配準的根本目的是尋找一組最優轉換參數,使不同圖像變換后在整體和結構上均對齊。多模態配準相較于單模態配準的主要難點在于不同模態圖像的灰度、紋理差異較大,轉換參數的尋優困難。以肝臟為例,CT 與MR 圖像的灰度值相差巨大,CT 圖像的灰度值為[-1 024,1 024],而MR 僅為[0,500],因此度量兩者的相似性十分困難。另外,肝臟器官體積較大,與周圍組織存在滑動,導致不同模態圖像上的非線性形變巨大,這也是限制配準精度的關鍵因素。傳統的迭代式肝臟多模態配準方法主要利用相似測度的迭代最大值來尋找圖像對的最優轉換參數,其中,有效的相似測度至關重要,常用的多模態相似測度有互信 息[2]、熵圖[3]、模態無關鄰域描述符[4]等。雖然上述方法在解決圖像對齊的優化問題上已經取得了不錯的效果,但是迭代優化的計算量巨大、配準時間長、容易陷入局部最優的缺點限制了其臨床應用范圍。隨著深度學習在醫學圖像處理領域的應用,基于深度學習的配準算法被陸續提出,并且取得了相當高的配準性能[5]。
測度估計式配準是指通過卷積神經網絡學習到一種通用的相似測度用于指導多模態配準。基于此思想,SIMONOVSKY 等[6]采用一種Siamese 網絡來顯式地學習多模態腦圖像對的相似測度表達。他們將測度估計問題建模為分類任務,通過判斷不同模態的圖像塊是否對齊來估計相似測度,然后用估計到的相似測度指導配準。后來,GRANT 等[7]使用類似的理論學習MR-TRUS 配準的相似測度,并且提出一種復合優化策略來提高訓練速度。上述方法從設計測度角度看待多模態問題,存在一個巨大的缺點—偽分類任務需要預先設計兩類圖像塊(對齊和不對齊)來監督訓練相似測度網絡,導致相似測度網絡和配準網絡不能同時訓練,整體網絡權重訓練不能端對端進行。
對抗訓練式配準受益于生成對抗式[8]思想,通過使用鑒別網絡代替損失函數,實現對抗式訓練。YAN 等[9]率先提出多模態圖像對抗訓練式配準框架,他們將生成器設計為配準網絡,直接估計形變場,并用鑒別器評估生成圖像和參考圖像的相似性,總體網絡采用對抗式訓練,直到達到平衡狀態。盡管文章中的配準精度還有待提高,但至少證明了算法的可行性。MAHAPATRA 等[10]拓展 了對抗訓練式配準框架,使用多種對抗網絡實現多模態眼底圖像的配準。FAN 等[11]通過精心設計參考圖像,同時實現了單模態和多模態的對抗訓練配準。
深度學習的數據驅動能力具備直接優化轉換參數的能力,例如形變參數估計式配準方法被應用于單模態配準,產生出如DIRNet[12]、SVF-Net[13]、VoxelMorph[14]等配準性能良好的圖像配準框架,但由于單模態相似測度不適用于多模態,導致其在多模態配準中應用受限。后來,HU 等[15]提出采用前列腺不同區域的分割標簽來監督訓練形變參數估計網絡,實現了前列腺MR 圖像和超聲(Ultrasound,US)圖像的多模態配準。然而,標簽驅動的弱監督配準需要手動分割解剖標簽,耗時耗力。ZHOU 等[16]提出采用深度學習的方式自動分割肝臟CT 和MR 標簽,然后使用分割標簽輔助配準,提高了配準精度。從本質上說,形變參數估計配準是一個利用深度學習網絡實現圖像特征表征的過程,其中從差異性較大的區域中提取合適的特征是難點。衍生出的標簽驅動配準能夠從損失函數的角度進行全局約束,但是本身標簽的獲取困難,約束也比較微弱,容易使網絡陷入局部最優。
為有效提高肝臟多模態圖像的特征表達能力,解決導致肝臟配準精度低的大形變問題,本文提出一種基于多尺度形變融合和雙輸入空間注意力的無監督圖像配準算法(Ms-RNet)。采用一種全新的多尺度形變融合框架分解肝臟的大形變問題,通過提取不同分辨率的圖像特征實現肝臟的逐階配準,提高配準精度。此外,提出一種雙輸入空間注意力模塊,通過融合編解碼階段中不同水平的空間和文本信息來提取圖像間的差異特征,從而增強配準網絡的特征表達,獲得更加精確的形變場。為實現無監督配準,將傳統多模態配準中常用的模態無關鄰域特征向量化,構建可以用于深度學習網絡的相似測度,并通過在結構信息損失項的基礎上添加雅可比負值罰項來懲罰折疊體素,保證形變的穩定性。
定義3D 空間Ω∈R3上的一組圖像,固定圖像F和浮動圖像M。圖像配準的目的是尋找一組最優的空間變換參數?,使配準后的圖像M(?)與圖像F在形態和解剖結構上對齊。與傳統配準迭代優化的思路不同,本文基于深度學習思想構建了一個卷積神經網絡模型,直接估計圖像F和M之間的形變場,即:

其中:f表示卷積神經網絡要學習的映射函數;θ是網絡參數;?是估計得到的形變場。一般通過最大化相似測度函數來訓練網絡,學習最優的網絡參數,構建配準模型。其圖像配準過程可表示為式(2)所示:

其中:S(F,M(?))表示固定圖像F和配準后圖像M(?)之間的損失項;R(?)是為了保證形變的平滑性而添加的正則項。
整體配準框架如圖1 所示,包含形變場估計、空間變換和相似性度量3 個部分。具體來說,首先把浮動圖像和固定圖像合并為雙通道圖像,并將其輸入到本文提出的Ms-RNet 網絡(具體網絡的結構見1.2 節),經過特征提取和解耦,得到三通道的形變場。然后經過空間變換對浮動圖像進行重采樣,得到最終的配準圖像。最后,將配準圖像與固定圖像間的結構特征相似性指標作為網絡的損失項來引導網絡參數的優化。在使用正則項保證整體形變平滑性的同時,引入雅可比負值罰項來進一步懲罰折疊體素,保證配準圖像的拓撲特性。在測試階段中,給定未知的圖像對,直接通過配準網絡即可得到配準后的圖像,無需重復訓練,配準速度快。

圖1 肝臟多模態配準流程Fig.1 Procedure of liver multimodal registration
盡管本文Ms-RNet 網絡屬于多階配準框架,但是整個網絡訓練過程是端對端的,可以直接輸出最終配準結果,而且訓練階段不需要任何標簽信息,屬于無監督式配準。
本文提出的Ms-RNet 是在多尺度形變融合框架下的配準網絡,其中的基礎全卷積配準網絡RNet 融合了雙輸入空間注意力模塊來增強特征表達,具體細節見2.2.1 節~2.2.3 節。
1.2.1 多尺度形變融合框架
肝臟多模態圖像非線性形變明顯,結構差異性較大。深度學習網絡中常用的3×3、5×5 的卷積核感受野較小,難以提取圖像中差異性較大的特征,不利于大形變的配準[17-18]。同時由于網絡參數較多且具有較大自由度,在沒有良好的初始化參數的情況下,直接優化較為困難,容易陷入局部最優。受傳統配準方法中的多分辨率思想和文獻[17]啟發,本文設計了一種多尺度形變融合框架,將大形變配準問題簡化為從粗到細的逐階配準問題。通過逐層精細化配準,網絡在每個尺度估計的形變可以作為后續配準的初始值,避免了網絡陷入局部最優,提高配準精度。
圖2 是多尺度形變融合框架的示意圖(本文采用三階的結構),采用倒金字塔式形態,各階輸入為不同分辨率的圖像對。其中,每一階的基礎配準網絡RNet 是本文提出的融合了雙輸入空間注意力模塊的全卷積配準網絡,他們具有一樣的網絡架構,但是輸入的圖像尺寸不同。

圖2 多尺度形變融合框架Fig.2 Multi-scale deformation fusion framework
多尺度形變融合框架的基本流程如下:
1)將原始圖像分別下采樣為原圖像大小的1/2和1/4,即F=F0=2F1=4F2,M=M0=2M1=4M2,其中F為原固定圖像,M為原浮動圖像。
2)每一階形變估計均采用RNet 來完成,對于低階配準,輸入為最低分辨率圖像對(F2,M2),使用RNet 提取輸入圖像的特征,然后解碼得到形變場?2。由于輸入的是最低分辨率圖像,網絡主要提取全局文本信息,生成粗糙形變場。中間階配準需要先上采樣?2,得到與圖像對(F1,M1)大小一樣的形變場′,然后配準M1得到配準后的圖像,所以實際上中間階網絡輸入為這樣,中間階配準使用了低階形變進行初始化操作,可以預測更加精細的形變場,補充更多結構信息。需要注意的是,由于從中間階開始,浮動圖像實際上是配準后的圖像,所以配準網絡估計的形變是一種殘差形變?r1,實際形變場?1需要加上低階形變場,即多尺度的形變融合。高階配準重復中間階的過程,即可得到最終的形變場?。中間階與高階配準的表達式如式(3)所示:

其中:up 代表形變場上采樣2 倍,實驗中采用三線性插值實現;α代表形變的振幅,可以保證不同階形變幅值的一致性,一般α=2;?2為低階形變場;?r1為中間階殘差形變;?r0為高階殘差形變。
1.2.2 全卷積配準網絡
為適應配準本身的特征提取特點,本文設計一種全新的融合了雙輸入空間注意力的全卷積配準網絡RNet,其基礎結構類似于U-Net[19],主要由編解碼層和注意力層組成,如圖3 所示,其中:編碼階段利用級聯的卷積層來降低特征圖維度,進行特征提取;解碼階段使用反卷積層將特征圖恢復至與原始圖像大小相同的特征圖,然后進行形變估計,得到最終的形變場。具體來說:在提取特征階段,每次下采樣后都會使用2 個3×3×3卷積層提取不同層次的圖像特征,并使用參數為0.2 的LeakyReLU 激活層進行激活,同時緊接一個步長為2 的卷積來壓縮特征維度,增加網絡深度。在解碼階段,每次上采樣后的特征圖,首先通過跳躍連接層和相同層級編碼階段的淺層特征融合,然后經過2 個3×3×3 的卷積層(每一個卷積層后面依然接一個LeakyReLU 激活層)來進一步解耦特征,同時提高網絡的非線性映射能力。最后,經過一個卷積核大小為3,步長為1 的卷積和SoftSign 激活層輸出三通道形變場,即位移向量dx、dy和dz。

圖3 全卷積配準網絡的結構Fig.3 Structure of fully convolution registration network
RNet 與經典U-Net 不同之處在于:
1)由于配準是逐體素配準,需要盡量保留更多特征,因此上下采樣層全部使用卷積實現,避免圖像特征的丟失。
2)為進一步提高特征表達能力,引入空間注意力機制,將簡單的跨越連接替換成了雙輸入空間注意力模塊(細節見1.2.3 節),將來自編解碼層的不同水平信息合并到空間特征圖上,通過空間權重的重新賦值來突出差異性區域,提高特征表達能力。
1.2.3 雙輸入空間注意力模塊
空間自注意力[20]已被應用于文本的語義分割。后來,自注意力機制被用于消除對于外界門控信息的依賴[21-22],如WANG 等[22]利用非局部自注意力來抓取長程依賴關系。后來也有工作表明,通過將注意力模塊集成到標準的U-Net 中,可以捕獲最相關的語義上下文信息,且不需要很大的視野域[23]。本文將空間自注意力機制嵌入圖像配準網絡,利用其優點來更好地提取特征,優化配準。
雙輸入空間注意力模塊的基本結構如圖4 所示,通過連接編碼和解碼階段不同尺度的特征圖,來獲取空間維度上的不同權值,進而保留相關區域激活,去除不相關或者噪聲響應。在實現上,首先對解碼階段的特征圖d進行上采樣操作,得到dup∈RC×H×W×D,然后沿著通道軸對e和dup最大池化,并且將結果相加,得到一個融合特征圖,其中沿著通道軸應用池化操作可以有效突出信息區域[24]。對融合特征圖進行卷積核大小為1,步長為1 的標準卷積操作后,通過Sigmoid 激活來歸一化空間權重圖α,消除差異性噪聲。最后,將α與e進行體素間對位相乘,即可得到具有豐富上下文信息的特征圖。將上述過程公式化為式(4)所示:

圖4 雙輸入空間注意力模塊的結構Fig.4 Structure of the dual-input spatial attention module

本模塊與OKTAY 等[23]設計的自注意力門控模塊類似,但是由于僅使用池化操作和卷積核為1 的卷積操作,增加的必須優化的參數幾乎為0,可以配合更加深層的網絡使用,而幾乎不增加額外的時間成本。
1.3.1 結構信息損失項
為實現無監督配準,網絡的損失項必須不受模態限制,能夠真正度量不同模態圖像的相似性。模態無關鄰域描述符(Modality Independent Neighbourhood Descriptor,MIND)特征是傳統配準中經典的多模態測度,它定義在局部圖像塊(patch)上,描述的是每個體素周圍的鄰域特性。基于MIND 的相似測度假設是,即使在不同模態圖像中,圍繞體素的局部模式應該是相似的,與模態無關,通過最小化該相似性,可以促進配準優化。結構信息約束已被用作多模態合成時的損失函數[25],促進合成網絡的優化,但是在深度學習配準網絡中應用較少。本文將其向量化,實現梯度回傳,直接應用于配準網絡。下面將具體介紹結構信息損失項的計算方式。
MIND 特征可以用距離向量r和大小為p的圖像塊參數化。定義Dp為一對圖像塊的相似距離,其表達式為式(5)所示:

其中:x1和x2是圖像I上的兩個體素位置;P是以x1和x2為中心,大小為p×p×p的圖像塊之間的一系列位移量。因此,Dp實際上計算的是2 個圖像塊的均方差。
MIND 則被定義為Dp的高斯函數:

其中:x是圖像I上的任一體素;r是距離向量;V(I,x) 是局部方差估計,一般采用6-鄰域圖像塊(如圖5 所示)的Dp期望值來估計,其表達式如式(7)所示:


圖5 MIND 特征的6-鄰域結構示意圖Fig.5 Schematic diagram of six-neighborhood structure of MIND feature
由于MIND 特征是Dp的高斯函數,在圖像塊不相似時表現為低響應,在圖像塊相似時表現為高響應,可以很好地表征局部特性。
最后,為構建結構信息損失項,采用平均絕對誤差來計算配準圖像之間的MIND 特征,定義如下:

其中:F是固定圖像;M(?)是配準后的圖像;R是6-鄰域的位移向量。
1.3.2 雅可比負值罰項
除了相似性測度函數,一般為了保證形變的平滑性,會在損失函數中添加平滑約束項來約束形變,如:

其中:g表示x,y,z方向的形變位移量。正則項通過對圖像在3 個方向上的梯度進行約束來確保平滑變形。
但是在圖像配準過程中,所有的體素不一定經歷相同的形變量,嚴重變形的體素會出現折疊或者撕裂現象,不符合真實圖像情況。為減少上述情況發生,引入雅可比負值罰項來進一步約束形變。其定義如式(10)所示:

其中:N是中全部元素總數;σ(·)表示一個線性激活函數,對所有正值都是線性的,負值全部為0;實驗中,設置線性激活函數為ReLU 函數。J?(p)代表形變?在位置p上的雅可比矩陣,其定義如下:

形變場的雅可比矩陣是3 個方向形變導數的二階張量,其行列式可以用于分析形變場的局部狀態。例如:點p∈J(?) 為正值,表示點p在其鄰域范圍內能夠保持方向一致性。相反的,如果點p∈J(?)為負值,表示點p在其鄰域范圍內存在折疊,導致正常的拓撲性遭到破壞。根據此事實,在雅可比負值體素上添加反折疊罰項,可以抑制負值區域的折疊性,正值區域幾乎不受影響。本文聯合使用平滑約束項,在反折疊的同時盡量保持整體形變的平滑。
1.3.3 總體損失函數
配準網絡的整體損失函數L如下:

其中:α,β和γ分別是平衡結構信息約束項,平滑約束項和雅可比負值罰項的權值;Lsmooth是保持形變平滑性的約束項;LJet是用來減少體素折疊,保持圖像的拓撲特性。經過多次實驗調優,最終確定α,β和γ的值分別為10,0.5 和200。
本文實驗數據為采集自麗水市中心醫院的肝臟數據集,經過整理共有95 組CT-MR 圖像及其對應的分割標簽,表1 為圖像的具體信息,其中兩種模態圖像層厚相差2 mm,是本文實驗中距離誤差的主要來源。分割標簽由兩位放射科專家標注、校對,用于評價配準精度。采用腫瘤的分割標簽和中心點來評估局部配準精度[26],腫瘤的分割標簽同樣由放射科專家標注得到。

表1 圖像及采集設備的具體信息Table 1 Specific information of image and acquisition equipment
本文隨機選擇20 組數據用作測試集,剩下的75 組數據作為訓練集,同時采用5 折交叉驗證的方式減少實驗誤差。為了提高配準精度,提升模型的魯棒性,訓練模型前,本文采用如下的預處理方式對數據進行處理:首先,采用Elastix[27]工具包中的線性變換對CT 和MR 圖像進行病人內的對齊操作,減少由于體位變化和FOV 造成的巨大差距。然后,將圖像重采樣為1 mm×1 mm×1 mm 的各向同性空間分辨率。接著,將所有圖像都中心裁剪和零填充為256 mm×256 mm×192 mm 的大小來適應卷積神經網絡固定大小輸入的要求。注意,裁剪的圖像包含全部肝臟圖像,足夠進行實驗。最后,將75 組訓練數據中的每一組數據隨機沿著x、y、z軸的任一方向進行翻轉變換,擴充數據量為原來的2 倍,提升網絡在有限數據情況下的訓練精度。
配準網絡基于PyTorch 深度學習框架完成,并且使用Nvidia RTX 2080Ti GPU 進行加速。訓練過程中使用Adam 優化器實現梯度下降,尋找使得損失函數最小的網絡參數。網絡訓練的epoch 數為300;學習率為固定值0.000 4。另外,為適應GPU 內存大小,設置批次batch size 為1,同時下采樣輸入圖像為原始大小的1/2,即128 mm×128 mm×96 mm。但是在推理階段,會通過上采樣獲得全圖大小的形變場,得到原始大小的配準結果。
當epoch 達到最大次數時停止網絡訓練,保存對應模型進行測試。本文每次訓練需要近10 h,但是在測試階段,完成一對尺寸為256 mm×256 mm×192 mm 的3D CT-MR 圖像的配準僅需要不到0.4 s。
本文采用如下5 個評價指標來評估算法在全局配準以及內部配準的有效性。
1)Dice相似系數(Dice Similarity Coefficient,DSC)和95% 的豪斯多夫距離(95 percentile Hausdorff distance,Hd95)常被用來評估圖像的整體配準準確度。其中DSC 指標主要表示結構間的重疊程度,數值越接近1 越好;Hd95主要表示2 個標簽邊界間的距離程度,數值越低越好。假設圖像A和圖像B的分割標簽分別為Amask和Bmask,則兩者的定義分別如下:

2)結構相似性系數(Structural Similarity Index。SSIM)是評估重建圖像結構信息相似度的一個指標[29]。其假設是人類在觀察圖像時主要關注結構信息(如形狀、位置等),關注圖像的結構性可以更準確評估圖像的質量。SSIM 取值范圍是[0,1],越接近1 表明配準后圖像與固定圖像越相似。SSIM 定義如下:

其中:μA,μB分別是圖像A和圖像B的均值,代表圖像亮度估計;σA和σB是圖像的標準差;σAB是協方差,用于測量結構相似性。c1和c2是維持穩定度的常量。
3)圖像的拓撲特征也是決定圖像配準質量的關鍵,一般使用雅可比值來評價,其中正值代表可逆性和拓撲保持。本文計算雅可比負值(|J?|≤0)的占比來表示形變的拓撲性,數值越小代表拓撲結構越好。
4)目標配準誤差(Target Registration Error,TRE)主要用來測量圖像內部標記點的配準程度,定義為一組圖像全部標記點的距離誤差均方根,即:

其中:N是全部標記點的數目;ai和bi是圖像的第i組標記點坐標向量。
本文對肝臟配準的全局評估采用DSC、Hd95、SSIM 和|J?|≤0 這4 個指標,內部配準質量的評估采用DSC 和TRE 指標。
基于上述臨床肝臟數據集,本文進行了如下實驗:整體算法與其他相關算法的對比實驗;結構信息損失項的有效性實驗;多尺度形變融合框架和雙輸入空間注意力的消融實驗;網絡收斂性分析實驗。
為評估Ms-RNet 的性能,本文將與傳統配準算法Elastix[27]以及2 個前沿的深度 學習配準算法Voxelmorph[14]、HU 等[15]進行比較。
Elastix 是一種經典的基于信息論的魯棒多模態配準算法,常被用于胸腹腔多模態圖像配準。本文在配準的準確度和運行時間上進行權衡,其中:相似度設置為最大互信息測度;優化器采用自適應隨機梯度下降法;變換方式為B-樣條變換;多分辨率是3 階,每個分辨率的迭代次數為500。Affine 配準也是通過Elastix 實現的,可以用于觀察整體形態上的仿射配準情況。Voxelmorph[14]是一種經典的無監督深度學習配準算法,能夠直接學習輸入圖像對的非線性映射。HU 等[15]的半監督深度學習算法在多模態配準中具有優越的性能。為了滿足對比需要,對于深度學習算法,本文保留上述原始論文的網絡結構,損失項更換為結構信息損失項,對比結果見表2,其中“—”表示在初始狀態時無法計算該值。

表2 肝臟和腫瘤的定量評估結果Table 2 Quantitative evaluation of the results from liver and tumors
由表2 可知,在肝臟的全局配準上,本文算法Ms-RNet的配準性能顯著優于其他深度學習配準算法,達到最高的DSC、最低的Hd95和最優的SSIM值,分別為0.926 1±0.018 6、5.82±2.30 mm和0.547 5±0.091 4。另外,與Elastix 算法相比,Ms-RNet 算法在全局配準結果上略有優勢,結構相似性指標提升明顯。說明本文算法能夠明顯提高肝臟多模態配準的準確度。內部配準上,本文主要通過肝腫瘤的配準結果來展示。從表2 可以看出,本文算法在TRE 和局部腫瘤DSC指標上均能達到最優結果,從配準時間上看,本文算法的平均配準速度為0.35 ±0.018 s,明顯優于傳統Elastix 算法,提升了近380 倍,能夠滿足臨床配準中的時效性需求。
為進一步直觀展示本文算法的配準結果,隨機選取兩組測試數據進行可視化,結果如圖6 所示,其中第1 列和最后1 列分別為浮動圖像和固定圖像,中間5 列分別是5 種不同的配準算法對應的配準結果。為展示肝臟的全局配準效果,將固定圖像的分割標簽(白色曲線)勾畫在配準后的MR 圖像上,同時使用箭頭標記出配準后明顯改進的區域。內部腫瘤的配準結果也進一步放大顯示。從圖6 可以看出,相比于其他算法,本文算法配準后的結果與固定圖像最接近。尤其是箭頭標記的大形變區域,Ms-RNet算法的配準效果最好,邊界重合程度最高。內部的配準結果可以看圖6 中腫瘤區域的放大圖,其中白色曲線是“金標準”,黑色曲線是配準后的腫瘤區域。可以看出,本文算法能夠較好地配準內部腫瘤區域,配準后的圖像相似性最高。說明本文算法采用的注意力機制和多尺度融合策略能夠提高特征表達能力,降低肝臟多模態配準的難度。此外,本文使用結構信息作為相似測度,能夠有效度量內部紋理和形狀特征,進而減少結構性差異,提高配準精度。

圖6 不同算法在測試集下的配準結果Fig.6 Registration results of different algorithms under the test dataset
為驗證本文模態無關結構信息損失項的有效性,對基于不同損失項的網絡進行對比分析,結果如表3 所示。其中,Loss-MI 表示式(12)中使用互信息[28](MI:Mutual Information)損失項,約束項保持不變;Loss-SSIM 表示式(12)中使用結構相似性[29](SSIM)損失項,約束項保持不變;Loss-Ours 為式(12)的損失項。

表3 不同損失項的配準結果Table 3 Registration results with different loss items
由表3 可以看出,Loss-Ours 在多數指標上表現較好。在全局配準中:
1)與基于互信息損失的Loss-MI 對比,全局DSC 和SSIM 指標有明顯提升,Hd95指標也有明顯降低。但對于|J?| ≤0 指標,Loss-MI 由于采用全局互信息約束,整體形變更加規則,雅可比負值更小,故此指標更有優勢。
2)與基于結構相似性損失的Loss-SSIM 對比,除去SSIM 指標,本文損失項均能達到更優的結果。在局部配準中,Loss-Ours 明顯優于另外兩種損失項,體現出了模態無關結構信息損失項在局部結構配準上的優越性。
圖7 所示為不同損失項的配準結果對比。從圖7 虛線框可以看到,與另外2 種損失項相比,本文損失項可以更好地指導整體大結構的形變,得到與固定圖像更加相近的配準結果。另外,由圖7 觀察箭頭指示的肝臟邊緣區域可以看出3 種損失項的配準平滑度有所不同,其中基于Loss-Ours 和Loss-MI得到的邊緣更加規則,然而基于Loss-SSIM 的配準結果邊緣曲折變化。這說明基于互信息和模態無關結構信息的損失項在保證圖像形變的同時,可以在一定程度上減少拓撲折疊。

圖7 不同損失項的配準結果對比Fig.7 Comparison of registration results with different loss items
本節主要分析雙輸入空間注意力和多尺度形變融合框架的有效性,及有無雅可比負值罰項對于拓撲結構的影響。
3.3.1 雙輸入空間注意力的有效性驗證
為驗證雙輸入空間注意力的有效性,對有無雙輸入空間注意力的網絡進行對比實驗,結果如表4所示。可以看到,添加雙輸入空間注意力模塊后,算法在全局配準以及局部配準上均有明顯提升,且TRE 指標降低了16.33%。這表明該模塊能夠有效提取雙流輸入的不同水平信息,并通過空間權重的重賦值來突出差異性區域,提高特征表達能力。

表4 有無雙輸入空間注意力的結果對比Table 4 Results comparision with and without dual-input spatial attention
3.3.2 多尺度形變融合框架的有效性驗證
為驗證多分辨率殘差形變框架的有效性,將配準網絡RNet 與多階Ms-RNet 進行了比較,結果如表5 所示。

表5 有無多尺度形變融合的結果對比Table 5 Results comparision with and without multi-scale deformation architecture
由表5 可知,Ms-RNet 與RNet 相比,配準性能有所提升。其中,在全局配準結果中,Ms-RNet 的DSC均值提升了約1.50%,Hd95均值降低了約16.50%,SSIM 提升了約5.11%。可見使用多尺度形變融合后可以降低配準難度,能更好地配準圖像,提高配準的整體精度。由于多分辨率思想存在上下采樣操作,導致Ms-RNet 的雅可比負值百分比|J?|≤0 高于RNet,為0.005 5 ±0.003 6,但數值仍然在1%以內,配準后圖像仍然能夠保持良好的拓撲特性。本文采用的多尺度形變融合框架是一種coarse-to-fine 的理論,適用于解決大形變配準問題。然而,在局部結構的配準上,該理論作用有限。由表5 可知,盡管腫瘤TRE 指標降低了8.97%,但是腫瘤DSC 僅提高1.61%,提升幅度有限。另外,雖然Ms-RNet 算法增加了網絡的參數量,但是從測試時間上看,整體的推理時間僅增加0.01 s,仍然可以很快完成配準。
為進一步直觀展示多尺度形變融合框架的有效性,本文將Ms-RNet 生成的各階形變場進行可視化,并且與RNet 網絡的結果進行比較,如圖8 所示。需要說明的是,本文可視化形變是將任意體素位置的形變向量的標量值()轉化為灰度圖得到的,其中灰度值表示該位置形變位移量大小,由黑到白逐漸變大。由圖8可知,對于Ms-RNet算法,低分辨率圖像主要是全局結構上的粗配準,當過渡到高分辨率圖像配準時,會逐步精細化內部結構,增加對大形變區域的關注。具體表現為形變的復雜性增加,灰度值分散性增加,較大值主要集中在大形變區域(圖中虛線框區域)。這表明,使用多分辨率殘差形變可以更好地配準大形變區域,得到的配準結果也更接近固定圖像。

圖8 Ms-RNet 算法和RNet 算法的形變場和配準結果的可視化Fig.8 Visualization of deformation fields and registration results for Ms-RNet and RNet algorithm
3.3.3 雅可比負值罰項的有效性驗證
為了驗證雅可比負值罰項LJet的有效性,本節在其他網絡設置參數不變情況下,僅對是否使用雅可比負值罰項進行對比實驗,結果如表6 所示。

表6 有無雅可比負值罰項的結果對比Table 6 Results comparison of with and without non-positive Jacobian determinant penalization
由表6 可知,在不添加LJet時,配準結果中的SSIM 值最高,說明在不加約束時,配準的圖像在結構上會盡可能通過扭曲來接近固定圖像,導致生成的圖像存在更嚴重的體素折疊情況,雅可比負值|J?|≤0 高達0.105 5 ±0.039 2。同時,由于內部腫瘤較小,受體素折疊的影響更大,內部配準性能明顯下降,其中腫瘤配準DSC 僅為0.431 8 ±0.246 2,下降了近15.82%。而算法在添加LJet正則項后,不僅在|J?|≤0 值上有顯著的下降(降低了近19 倍),在其他配準指標上也均有顯著提升。
圖9進一步展示了有無LJet罰項的配準結果和形變場的可視化圖。可以看出,沒有罰項約束的形變場呈現非常明顯的體素折疊和撕裂,配準的圖像也存在明顯的偽影(圈中區域)。而使用了LJet罰項的形變基本不存在拓撲折疊現象,形變平滑且連續。這說明雅可比負值罰項在保證基本形變不變的情況下,有效抑制不規則的形變,保證了算法的準確性和拓撲的一致性。

圖9 有無雅可比負值罰項的配準結果及形變場可視化Fig.9 Visualization of registration results and deformation fields with and without non-positive Jacobian determinant penalization
為進一步說明Lmind的有效性以及本文算法的魯棒性,本節對不同的深度學習配準算法進行收斂性分析,其訓練和驗證損失曲線如圖10 所示。從圖10 損失曲線可以看出,前沿深度學習算法VoxelMorph 收斂速度最快,驗證損失在接近100 個epoch 時即可收斂,但后續損失值逐漸升高(訓練損失仍在下降),網絡呈現過擬合現象。對比之下,RNet 和Ms-RNet 算法的損失曲線下降趨勢穩定,且不存在過擬合現象。RNet 在接近270 個epoch 時基本收斂。Ms-RNet 由于采用多分辨率策略來降低參數初始化難度,收斂更快,在180個epoch附近即可收斂。

圖10 不同深度學習配準算法的訓練和驗證損失曲線Fig.10 Training loss and validation loss curves of different deep learning registration algorithms
結合表2 和圖10 整體損失曲線可知,結構信息損失能夠有效促進多模態深度學習配準,即使在數據量較少時,也能夠保證穩定收斂,得到良好的配準結果。本文的Ms-RNet使用雙輸入空間注意力和多分辨殘差形變框架,在解決卷積神經網絡感受野不足的同時,能很好地促使網絡初始化,提高訓練速度。
針對肝臟多模態圖像差異性大、非線性形變明顯、常規迭代式配準耗時長、配準精度低等問題,本文提出一種基于多尺度形變融合與雙輸入空間注意力的無監督圖像配準算法。采用多尺度形變融合框架,以準確提取不同分辨率的圖像特征。在設計的全卷積配準網絡中添加雙輸入空間注意力模塊,從而提取圖像間的差異特征,增強特征表達。通過引入一種結構信息損失項進行網絡迭代優化,在不需要任何先驗信息的情況下實現精確的無監督配準。在臨床肝臟數據集上的實驗結果表明,本文所提算法能夠準確配準CT 與MR圖像,其配準精度高,且配準速度較Elastix 算法提升了近380 倍,能夠滿足臨床需求。下一步將基于圖像塊進行配準,從而提高內部配準精度及解決數據量不足的問題。