張 糾 劉曉芳 楊 兵
1(中國計量大學電子信息與通信研究所 浙江 杭州 310018) 2(中國計量大學計算機應用與技術研究所 浙江 杭州 310018) 3(浙江省電磁波信息技術與計量檢測重點實驗室 浙江 杭州 310018)
醫(yī)學圖像配準是利用計算機技術發(fā)現(xiàn)兩幅或多幅圖像在同一坐標系空間匹配關系的醫(yī)學影像分析技術,是圖像融合、疾病診療、多模態(tài)圖像分析的前提和基礎。一直以來,圖像配準是醫(yī)學影像自動分析中的熱點問題,一些基于參數(shù)模型的配準方法如非剛性配準[1]將配準抽象為參數(shù)優(yōu)化模型,通過參數(shù)空間搜索和優(yōu)化等得到圖像間的空間匹配關系。然而,在多參數(shù)情況下,這些方法通常具有配準效果較差、無法取得最優(yōu)解等局限性問題。近年來,深度學習技術不斷應用在醫(yī)學影像分析領域,其具有自動完成特征空間搜索與參數(shù)優(yōu)化等優(yōu)點,廣泛應用于多模態(tài)圖像配準[2]、模態(tài)轉(zhuǎn)換[3]、基于配準技術的圖像融合[4]等。
基于編碼和解碼的網(wǎng)絡結(jié)構如U-net網(wǎng)絡[5]是醫(yī)學影像處理的常用卷積神經(jīng)網(wǎng)絡框架,Balakrishnan等[6]將U-net網(wǎng)絡用于腦圖像配準,用神經(jīng)網(wǎng)絡取代傳統(tǒng)配準算法的優(yōu)化過程。傳統(tǒng)U-net網(wǎng)絡將特征提取過程抽象為三部分:1) 編碼結(jié)構對輸入圖像進行特征編碼,抽取輸入圖像的底層信息;2) 解碼結(jié)構對底層信息進行解碼,增大圖像分辨率;3) 特征融合傳遞同級特征信息,有利于圖像特征精細化提取。
基于U-net的網(wǎng)絡采用跳躍連接進行同級特征之間的信息融合,其主要采用通道拼接的方式傳遞特征信息。然而,此方法沒有充分考慮到不同通道的特征對信息融合的貢獻度不同,同級特征之間存在空間位置不匹配等問題。針對此問題,本文提出基于雙通道特征融合網(wǎng)絡的配準模型用于腦部圖像配準,同時進行特征重要性賦權以及特征空間校正。利用全局平均池化等操作對輸入特征進行通道賦權,同時,采用空間變換網(wǎng)絡對多層級配準場進行空間變換,提高配準場估計精度。
圖像配準是指基于參數(shù)優(yōu)化的方法確定在同一坐標系下浮動圖像(Moving image)與固定圖像(Fixed image)之間的空間坐標對應關系,根據(jù)圖像維度不同,可分為2D(Two Dimension)圖像配準與3D(Three Dimension)圖像配準。基于圖像間灰度差異的配準方法對待配準圖像間的灰度值敏感,無法適應醫(yī)學圖像灰度不均勻的特點。針對基于灰度差異配準方法的局限性,改進的互相關[7](Cross Correlation)以及相關系數(shù)[8](Correlation Coefficient)等用于圖像配準中,此外,互信息[9](Mutual Information)、KL散度[10](Kullback-Leibler Divergence)等相似性測度也多用于醫(yī)學圖像配準中。
相較于傳統(tǒng)配準方法,基于神經(jīng)網(wǎng)絡的配準方法在解決特征提取以及參數(shù)優(yōu)化問題上顯示出其較好的學習性能。此外,由于圖像配準要求兩幅或多幅圖像之間的空間位置嚴格匹配,基于神經(jīng)網(wǎng)絡的配準方法能夠通過優(yōu)化算法自動尋找特征空間,優(yōu)化配準參數(shù)。
卷積神經(jīng)網(wǎng)絡如U-net是一種基于特征編碼-特征解碼的卷積神經(jīng)網(wǎng)絡[5],其特點是利用跳躍連接(skip connection)進行特征間的信息融合,使融合后的特征同時具有高層和底層的語義信息,有利于精細化提取圖像特征。ResNet[11]提出的殘差結(jié)構使用跳躍連接的方式使得訓練深層網(wǎng)絡成為可能,其數(shù)學表達如下:
Y=F(X,Wi)+X
(1)
式中:Y為輸出;X為輸入;W為權重;F表示W(wǎng)與X的非線性關系。U-net中跳躍連接的方式為通道拼接,其數(shù)學表達如下:
(2)
式中:O為輸出;XCi+ZCj表示同級特征之間的通道方法疊加。
空間變換網(wǎng)絡(Spatial Transform Networks,STN)[12]是一種針對圖像局部形變的校正網(wǎng)絡,能較好處理輸入圖像局部變形等問題。空間變換網(wǎng)絡常用于醫(yī)學圖像配準中作為特征變換模塊對基礎網(wǎng)絡提取到的特征進行空間變換,以確定圖像間的空間匹配位置,如圖1所示。空間變換網(wǎng)絡分為三部分:(1) 定位網(wǎng)絡(Localization Network)模塊對輸入特征進行空間變換如仿射變換,輸出變換參數(shù):
(3)

(4)


圖1 基于空間變換網(wǎng)絡的配準模型
針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡中特征融合部分沒有考慮到特征重要性以及特征空間位置不匹配的局限性問題,提出一種用于特征信息融合的雙通道特征融合模塊(Dual-channel Feature Blending Module,DCFBM),其整體結(jié)構如圖2所示。

圖2 雙通道特征融合模塊(DCFBM)
DCFBM是一種通用的特征融合模塊,可用于不同通道間的特征加權以及特征空間匹配和校正,在基于雙通道分組卷積的基礎上,同時對輸入特征進行通道賦權以及特征位置校正。其可以分為三個部分:
1) 特征重要性賦權(Feature Importance Weighting):首先,利用分組卷積對原始輸入特征的不同通道進行卷積操作,得到兩組不同特征;然后用全局平均池化對輸入特征進行降維,得到每個通道的權值,此操作稱為Squeeze,如式(5)所示。
(5)
式中:C輸入特征R的通道數(shù);H、W分別為輸入特征R的高和寬;Rc表示輸入特征R中第C個通道。再利用全連接以及激活函數(shù)得到每個通道的賦權參數(shù):
Fexcitation(z,W)=σ(g(z,W*))
(6)
式中:z表示Squeeze處理后的特征向量;W為權值;g(·)表示全連接對特征進行加權;W*表示加權權值;σ(·)表示激活函數(shù)(如Sigmoid等)。最后將賦權參數(shù)乘以每個通道的輸入特征,得到加權后的特征。
2) 特征空間位置校正(Feature Space Position Correction):利用STN網(wǎng)絡對輸入特征分別進行空間定位,網(wǎng)格生成,坐標采樣,對原始輸入特征進行形變。
3) 雙通道特征融合(Dual-channel Feature Blending):感受野(Receptive Field,RF)大小是卷積神經(jīng)網(wǎng)絡識別并提取感興趣區(qū)域(Region of Interest,ROI)的關鍵,大感受野可使網(wǎng)絡捕捉到更為全局的信息,看到相當于輸入圖像大小的視野,而小感受野則能使網(wǎng)絡捕捉到更為細致的局部特征,對局部信息的識別至關重要。對于卷積網(wǎng)絡,大感受野和小感受野的結(jié)合對于識別整體與局部目標十分重要,本文利用兩個不同尺寸大小的三維卷積核(3×3×3,5×5×5)對原始輸入特征進行分組卷積,對生成的兩組特征分別進行加權以及校正,最后對兩組特征采用通道疊加的方式進行信息融合。
圖3為基于特征融合模塊DCFBM的DCFB-Net配準模型。其中,DCFB-Net用于特征提取以及特征空間搜索,獲得配準場(Registration Field),然后用空間變換網(wǎng)絡對浮動圖像以及配準場進行空間變換,得到配準后的圖像,利用配準圖像與固定圖像之間的差異衡量配準的精度,通過損失函數(shù)優(yōu)化配準參數(shù),得到最終配準結(jié)果。

圖3 基于DCFB-Net的配準模型
腦部圖像掃描通常為三維立體圖像,包括整個成像部位,其中每個切片表示某一層的成像部位剖面,由于三維掃描能反映掃描部位整體輪廓和細節(jié),故在卷積網(wǎng)絡中將三維掃描作為輸入能使網(wǎng)絡捕捉到各切片之間的內(nèi)在聯(lián)系,這對于腦部圖像配準十分重要,傳統(tǒng)U-net網(wǎng)絡都是基于二維圖像,使用二維圖像算子如二維卷積(2D convolutions)、二維池化(2D max pooling)、二維上采樣層(2D up-convolutional layers)等,將切片與切片之間孤立,忽略了人體解剖結(jié)構之間的空間相關性,不利于網(wǎng)絡獲取切片之間的空間位置關系。本文使用3D掃描圖像作為輸入,構建雙通道特征融合網(wǎng)絡模型。
表1和表2為第一層特征與最后一層特征融合模塊的主要網(wǎng)絡參數(shù),其他層特征融合模塊的參數(shù)參照表1和表2,主要區(qū)別為輸出大小以及卷積核數(shù)量不同。特征重要性加權主要細節(jié)總結(jié)如下:
(1) 用分組卷積將輸入特征分為兩組,分組卷積使用3×3×3大小的卷積核,數(shù)量為32。
(2) 用全局平均池化對分組卷積后的特征進行降維,得到1×1×1×32大小的特征向量,此步驟為Squeeze操作。
(3) 用數(shù)量分別為128、32的全連接層以及激活函數(shù)ReLU對對特征向量進行加權。
(4) 最后使用sigmoid函數(shù)對特征向量進行Excitation操作,再與輸入特征相乘,得到不同通道加權后的特征。

表1 雙通道特征融合模塊主要網(wǎng)絡參數(shù)1

表2 雙通道特征融合模塊主要網(wǎng)絡參數(shù)2
特征空間變形與轉(zhuǎn)換主要網(wǎng)絡細節(jié)如下:
(1) 定位網(wǎng)絡模塊將采用兩個卷積大小為5×5×5,數(shù)量為32的卷積核,同時用激活函數(shù)ReLU增加了非線性表達;
(2) 網(wǎng)格生成模塊采用兩個數(shù)量分別為64、32的全連接,以及仿射坐標生成采樣網(wǎng)格。
(3) 采樣器根據(jù)采樣網(wǎng)格以及采樣參數(shù)對輸入特征進行變換。
圖4展示了本文提出的DCFB-Net網(wǎng)絡的腦部圖像配準流程,流程可分為以下幾個步驟:
步驟1利用DCFB-Net中的編碼-解碼結(jié)構對浮動圖像和固定圖像進行特征提取。
步驟2利用DCFB-Net中的雙通道特征融合模塊DCFBM融合同級特征,進行特征賦權和空間變換。
步驟3分別抽取三層特征用于配準場融合,抽取的三層特征位于編碼-解碼結(jié)構中的最后三層。
步驟4對融合后的多層級配準場進行空間變換,學習空間映射參數(shù)。
步驟5執(zhí)行步驟4后得到的配準圖像,使用損失函數(shù)衡量配準效果,網(wǎng)絡反向傳播更新網(wǎng)絡參數(shù)。

圖4 腦部圖像配準流程


(7)
(8)

(9)
式中:λ為正則化參數(shù)。
本文在腦部公開數(shù)據(jù)上進行了配準實驗,數(shù)據(jù)集包括ADNI[13]、ABIDE[14]、ADHD[15],所有的數(shù)據(jù)都重采樣為132×132×132大小,層間厚度為1 mm×1 mm×1 mm。所有數(shù)據(jù)都用工具FreeSurfer[16]進行了標準預處理,包括初步配準、腦部區(qū)域提取、腦部區(qū)域分割等。同時,為了增加數(shù)據(jù)集多樣性,對原始數(shù)據(jù)進行了旋轉(zhuǎn)、扭曲變形、裁剪等數(shù)據(jù)增加操作。數(shù)據(jù)集中900個掃描圖像作為訓練數(shù)據(jù),50個作為驗證數(shù)據(jù),50個作為測試數(shù)據(jù)。實驗數(shù)據(jù)如圖5所示。

圖5 實驗圖像示例
本文腦部配準實驗基于深度學習框架TensorFlow實現(xiàn),DCFB-Net模型訓練使用顯存大小為11 GB的Nvidia GeForce GT1080ti顯卡。并使用遷移學習對網(wǎng)絡進行參數(shù)初始化,之后在腦部實驗數(shù)據(jù)集上進行微調(diào)。學習率設為0.000 1,迭代更新設為3萬次,采用隨機梯度下降(SGD)更新網(wǎng)絡參數(shù)。正則化系數(shù)λ設置為1.0。
為了評價固定圖像與配準圖像之間的相似性,本文采用Dice系數(shù)評價兩幅圖像之間的匹配度:
(10)
Dice系數(shù)為1表示兩幅圖像之間完全匹配,Dice系數(shù)為0表示兩幅圖像之間完全不匹配。
為了說明本文方法DCFB-Net在腦圖像配準上的有效性與準確性,與VoxelMorph方法[17]以及FAIM方法[18]進行了對比。
圖6為不同切片的腦部圖像配準結(jié)果,從左至右分別為固定圖像(Fixed image)、浮動圖像(Moving image)、本文方法(DCFB-Net)配準結(jié)果、VoxelMorph方法配準結(jié)果、FAIM方法配準結(jié)果,圖6最后一行為配準結(jié)果的局部放大圖。可以看出,本文與另外兩種方法在浮動圖像與固定圖像輪廓形狀差別較大的情況下,都能夠根據(jù)固定圖像的整體外形對浮動圖像進行形變,在此基礎上,三種方法最后的配準結(jié)果中,整體形狀輪廓相差不大。

(a) 固定圖像 (b) 浮動圖像 (c) 本文方法配準結(jié)果 (d) VoxelMorph方法配準結(jié)果 (e) FAIM方法配準結(jié)果圖6 配準實驗結(jié)果比較
從圖6中局部放大圖可以看出,在配準細節(jié)處理上,F(xiàn)AIM方法保留了一些浮動圖像原始的細節(jié)特征,不能很好地根據(jù)固定圖像與浮動圖像的細節(jié)差異對浮動圖像進行形變,另一方面,F(xiàn)AIM方法配準結(jié)果中存在多處既不符合固定圖像也不符合浮動圖像的配準細節(jié),說明FAIM在處理配準細節(jié)上具有一定的局限性,存在過處理的配準細節(jié)。VoxelMorph方法在細節(jié)處理上好于FAMI方法,其配準細節(jié)較符合固定圖像的形狀與紋理細節(jié),能夠較準確地對浮動圖像做出形變,但是VoxelMorph方法對配準細節(jié)存在欠處理,有局部放大圖可以看出,VoxelMorph方法在處理局部區(qū)域時,不能很好根據(jù)固定圖像的特征做出準確的局部變形。
本文方法相較于其他兩種方法能更準確地處理配準細節(jié),說明本文方法采用的特征融合模塊能更好地結(jié)合同級特征之間的信息,將下采樣中的特征信息進行篩選加權,有利于與上采樣中的特征進行信息融合,提高特征利用率。此外,從整體配準結(jié)果上看,本文方法也能很好地對浮動圖像進行整體形變。
為了評估本文提出的配準金字塔策略,分別對不同層級的配準場和多層級配準場融合的配準結(jié)果進行了評估,圖7展示了配準結(jié)果,可以看出,多層級配準場融合的效果好于單層級配準場的配準效果,說明多層級配準場可以有效融合多個單層級配準場的特征信息,有利于腦部圖像的配準。

(a) 浮動圖像 (b) 固定圖像 (c) 配準場融合配準結(jié)果 (d) 第一個配準場配準結(jié)果 (e) 第二個配準場配準結(jié)果 (f) 第三個配準場配準結(jié)果圖7 不同層級配準場的配準結(jié)果
表3展示了本文提出的DCFB-Net所使用的多層級配準場融合策略對配準評價指標的影響,可以看出,第一層配準場的Dice指標最低,這樣說明了第一層配準場無法有效提供豐富特征信息。第二層、第三層配準場的Dice指標逐漸提高,說明第二層和第三層配準場提供了較為豐富的特征信息。三層融合的配準場Dice指標最高,說明對三層配準場的融合效果較好,能有效提高配準精度。

表3 不同層級配準場的評價結(jié)果
表4為本文與VoxelMorph方法以及FAIM方法配準結(jié)果的定量評價,以平均Dice指標為評價標準,可以看出,本文方法在與其他兩種方法用時差距不大的情況在Dice評價指標最高。FAIM方法的平均Dice指標最低,但是其用時相較于本文方法多。VoxelMorph方法居中,但是其用時最多。本文方法較VoxelMorph方法提高了2.5%,較FAIM方法提高了5.0%,說明本文方法對于腦部圖像配準的有效性與準確性。

表4 不同方法配準評價
本文基于雙通道特征融合策略提出一種特征融合模塊并結(jié)合空間變換網(wǎng)絡應用于DCFB-Net中,結(jié)合雙通道融合模塊和多層級配準場融合策略,提高了配準場的估計性能。實驗表明,本文提出的特征融合策略能夠較好處理配準細節(jié),提高同級特征之間的信息融合程度,有效改善同級特征之間空間位置不匹配的問題,提高了腦圖像的配準精度。總的來說,本文方法能有效且準確地對腦部圖像進行配準,能根據(jù)固定圖像的全局以及局部特征對浮動圖像進行形變,在腦部圖像公開數(shù)據(jù)集上的配準實驗表明了本文方法的有效性與準確性,在解決腦圖像配準問題上具有較好應用前景。