楊玉聃,張俊華,劉云鳳
(云南大學信息學院,云南 昆明 650504)
脊柱是人體的重要骨性結構,作為運動和神經的樞紐支撐著人類日常活動。然而各類脊柱疾病的發病率卻日益增長,脊柱的計算機斷層攝影(CT)圖像分割有助于后續目標識別、特征測量或輔助診斷評估脊柱相關疾病,因而具有重要的實際意義。
目前,脊柱圖像分割方法主要分為傳統方法與深度學習方法2類。由于傳統方法算法復雜、分割精度低、結果誤差較大,因此難以解決實際的問題。人工智能的不斷發展彌補了傳統方法精度低的缺點。深度學習方法大多是針對CT圖像切片進行分割的,雖然能得到良好的精度,但是忽略了切片與切片間豐富的圖像信息。SHUVO等[1]基于U型網絡(U-Net)[2]和遷移學習設計了一個輕量級的系統用于椎體分割。于文濤等[3]在UNet++[4]的基礎上改進網絡,使用殘差連接模型代替原有的跳躍連接,解決了網絡退化問題。ZHANG等[5]基于Segmenter[6]進行脊柱分割,對于分割后的結果進行自適應優化,解決了椎塊之間的粘連問題。周靜等[7]提出一種基于多尺度的特征融合注意網絡來分割頸椎,增強了對頸椎細節部分的提取,提升了分割的完整性。上述二維(2D)分割方法都只考慮了局部區域,往往會丟失重要的空間信息,因此三維(3D)分割是醫學圖像分割上需要探索的重要領域。
目前針對脊柱CT圖像的三維分割仍然面臨著挑戰,如脊柱復雜的形狀結構、椎體與椎體之間多變的空間位置關系、椎體與相鄰器官組織之間相近的灰度值等。3D-UNet[8]是基于U-Net提出的三維醫學圖像分割網絡,其將網絡中的二維卷積替換為三維卷積進行體素分割,在許多醫學數據集上都表現出了良好的分割效果。LIU等[9]通過3D-UNet對第5節腰椎和第1節骶椎進行自動分割,從而實現快速準確的腰骶椎間孔(LIVF)模型重建。LI等[10]在3D-UNet的基礎上融合了一種新的殘差路徑,來解決脊柱分割時編碼器與解碼器之間特征丟失的問題。TAO等[11]先使用輕量化的3D Transformer對椎體進行標記,在標記后訓練一個針對所有椎骨的編碼器-解碼器網絡來完成椎骨的分割。LI等[12]基于對抗生成網絡分割三維脊柱,先建立空間特征提取層共享圖像的特征表示,再基于反卷積堆棧的擴展路徑將上下文信息傳播到更高層。劉俠等[13]提出一種融合加權隨機森林的自動3D椎骨CT主動輪廓分割方法,解決分割網絡對初始輪廓敏感和分割不準確的問題。上述分割方法保留了圖像的重要空間信息,但在面對脊柱復雜的結構時,網絡對于上下文特征的提取能力不夠,因此分割精度不高,難以應用于計算機輔助診療中。
針對上述問題,本文提出了一種基于三維循環殘差卷積模塊的U型網絡,主要貢獻如下:
1)提出三維循環殘差卷積代替普通卷積構成網絡基礎模塊,使每層網絡不斷累積遞歸殘差卷積層的特征,同時解決隨著網絡深度增加產生的梯度消失問題。
2)設計高效密集連接混合卷積模塊,通過擴大感受野增強網絡對多尺度特征的提取能力,減少細節特征的丟失。同時采用密集連接的方式融合編碼器與解碼器之間的特征信息。
3)針對解碼器與編碼器不同層級間語義信息差異較大的問題,提出雙特征殘差注意力模塊代替簡單的跳躍連接進行深淺層語義特征融合。
4)在編碼器的前端引入三維坐標注意力機制,使得網絡從一開始就關注感興趣區域(ROI)。
本文網絡結構如圖1所示(彩色效果見《計算機工程》官網HTML版,下同),主要包括編碼器、底部模塊和解碼器。圖像經過預處理后,被裁減為若干個64×64×64的立方體進行端到端的自動分割。圖像首先會經過三維坐標注意力機制來同時捕獲跨通道信息、位置信息和空間信息,使模型開始定位并關注脊柱位置區域。采用三維循環殘差模塊對圖像進行特征提取,循環卷積在時序上能有效地累積椎體特征信息,通過權重共享建立網絡對體素之間的長期依賴,而殘差結構可以加速網絡的收斂。本文采用卷積核大小為2×2×2、步長為2的卷積對圖片進行下采樣,下采樣層還包括激活函數ReLU和層標準化(LN)處理。圖像在4次下采樣后到達底部的高效密集連接混合卷積模塊進行編碼器與解碼器之間的過渡。在上采樣過程中,考慮到層級間的特征差異性,使用雙特征殘差注意力機制模塊來融合高、低級語義特征。圖像經過4次上采樣后,還原為輸入的64×64×64的大小,通過預測處理后還原成原始CT圖像的大小。

圖1 脊柱CT圖像自動分割框架Fig.1 Automatic segmentation framework of spine CT image
注意力機制可以使神經網絡關注感興趣的區域,SE[14]注意力機制將特征圖壓縮成通道注意力向量再與輸入特征圖結合進行通道特征的加強,但卻忽略了圖像的空間位置信息。CBAM[15]通過加入空間注意力模塊彌補了SE忽略空間位置信息的不足,但CBAM只能捕獲局部關系,無法對遠距離依賴進行建模。HOU等[16]提出了坐標注意力(CA)機制,為了獲取圖像的精確位置信息,分別對圖像的長和寬進行編碼,將橫向和縱向的位置信息編碼到通道注意力中,使移動網絡能夠關注大范圍的位置信息,在有效捕捉圖像長程信息的同時避免帶來過多計算量。本文將CA機制所關注到的位置信息關系從二維拓展到三維,除了長、寬位置信息外,將高的位置信息同樣編碼到通道注意力中。改進的三維坐標注意力機制如圖2所示。

圖2 三維坐標注意力機制Fig.2 3D coordinate attention mechanism
將圖像的長(H)、寬(W)、高(D)3種位置信息進行編碼,即對3個維度分別用(H×1×1)、(1×W×1)、(1×1×D)大小的卷積核進行平均池化操作。將通道注意力分解為3個方向的二維特征編碼,得到捕獲全局感受野的注意力感知圖。每個維度的注意力感知圖分別表示如下:
長為h的第c個通道的注意力感知圖Zc,h(h)表示為:

(1)
寬為w的第c個通道的注意力感知圖Zc,w(w)表示為:

(2)
高為d的第c個通道的注意力感知圖Zc,d(d)表示為:

(3)
對3個方向的注意力感知圖進行拼接,送入卷積核大小為1×1×1的共享卷積中,為了減小模型的復雜性,將其維度降低為原來的C/r。經過批量歸一化處理后得到形如C/r×(W+H+D)×1的保留了三維度空間信息的中間特征圖f:
f=δ(F13([Zc,h(h),Zc,w(w),Zc,d(d)]))
(4)
其中:F13()表示用卷積核大小為1×1×1的卷積對特征圖進行操作;δ表示非線性激活函數Sigmoid;[, ,]表示沿某個維度對特征向量進行拼接(Concat),且f∈C/r×(H+W+D)。將特征圖沿空間維度分離成3個獨立的張量,分別送入卷積核大小為1×1×1的三維卷積后得到每個方向的特征圖:fh,fw,fd,將每個特征圖的通道數調整為原始通道數大小,生成的gc,h、gc,w和gc,d3個注意力權重表示如下:
gc,h=σ(F13(fh))
(5)
gc,w=σ(F13(fw))
(6)
gc,d=σ(F13(fd))
(7)
其中:σ表示非線性激活函數Sigmoid;F13()表示用卷積核大小為1×1×1的卷積調整通道數,且滿足fh∈C/r×W、fw∈C/r×W和fd∈C/r×D。最后將得到的3個注意力權重與原始輸入xc(i,j,k)相乘得到輸出的注意力權重yc(i,j,k),表示如下:
yc(i,j,k)=xc(i,j,k)×gc,h(i)×
gc,w(j)×gc,d(k)
(8)
上述注意力機制可以改進SE和CBAM等注意力機制中編碼全局空間信息時將全局信息壓縮成一個標量而難以保留重要空間信息的缺點。三維坐標注意力機制能夠跨通道捕捉單方向上的長距離關系,同時保留另外2個方向上的空間信息,幫助網絡更準確地定位目標,捕捉感興趣區域。
單個卷積前饋網絡只在有限的單元具有較強的上下文提取能力,因此需要通過增加卷積層來增強網絡的特征提取能力,但隨著網絡層數的增加,又將面臨梯度消失和梯度爆炸等問題。為了解決上述問題,受殘差網絡[17]和二維循環卷積網絡[18]的啟發,本文提出了三維循環殘差模塊(RRB),隨著時間的推移,迭代權重可以有效累積圖像特征,時序的權重累積有利于捕捉體素之間的關系,使每個單元能夠將上下文信息合并到當前層中的區域,且循環卷積操作并不會增加額外的參數量。改進后的網絡增強了對于圖像特征的提取,以便更精準地分割出結構復雜的目標,同時也解決了隨著網絡層數增加而面臨的梯度消失問題。
在分割任務中能夠精準地區分背景和目標像素是神經網絡必須達到的效果。與一般前饋網絡不同,在普通卷積神經網絡中,當前層中單位的感受野大小是固定的,只有在更深的層才能獲得更大的感受野。而循環卷積卻可以通過權值共享,在保持可調參數量的情況下獲得更大的感受野,循環連接的效果相當于增加網絡深度卻又不增加參數量,殘差連接可以解決神經網絡隨著層數的增加可能面臨的梯度消失、網絡退化等問題。三維循環殘差卷積模塊結構如圖3所示,其中輸入圖像經過2個三維循環卷積后,與原始圖像進行相加得到輸出。單個三維循環卷積和總時間步長T的展開卷積層如圖3右側所示,其中,t代表時間步長。若t=2,則得到最大深度為3、最小深度為1的前饋網絡,包含1個三維卷積層和2個三維循環卷積層組成的子序列。當t=0時,將圖像輸入三維循環卷積層;當t=1時,對圖像首次進行卷積核大小為3×3×3的前向卷積操作;當t=2時,將輸入圖像以及第1次前向卷積操作的輸出整體作為第2次前向卷積操作的輸入;以此類推。隨著時間步長的增加,前層中越來越多鄰域單元的狀態都受到其他單元的影響,因此,通過共享權重單元在輸入空間中的感受野也會增大。

圖3 三維循環殘差卷積模塊Fig.3 3D recurrent residual convolution block
對于位于第m個特征圖上的(i,j,k)處的單元,其在時間步長t的輸出可表示為:
Oijkm,l(t)=(Wm,f)T×xl,f(i,j,k)(t)+
(Wm,r)T×xl,r(i,j,k)(t-1)+bm
(9)
其中:xl,f(i,j,k)(t)表示第l層前饋三維卷積的輸入;xl,r(i,j,k)(t-1)表示第l層三維循環卷積層的輸入;Wm,f和Wm,r分別表示第m個特征圖的前饋卷積層權重和循環卷積層權重;T表示總時間步長;bm表示偏差。整個三維循環殘差模塊的輸出xl+1可以表示為:
xl+1=xl+f(Oijkm,l(t))=
xl+max(0,Oijkm,l(t))
(10)
根據對比實驗結果,本文選取總時間步長T=2的三維循環殘差卷積模塊作為基礎模塊,在輸入層和輸出層之間建立長期依賴關系,幫助模型更好地學習復雜的結構特征。
圖像經過多次下采樣會降低輸入特征圖的分辨率,在到達編碼器和解碼器之間的底層后,將經過多次上采樣恢復輸入特征圖的分辨率,從而達到特征提取的效果。但是經過多次下采樣后再進行上采樣操作會導致一些邊緣特征和較小特征的體素丟失。針對此類問題,本文提出了一個高效密集連接混合卷積模塊(EHCM)來減少編碼器與解碼器之間底層信息的缺失,其結構如圖4所示。

圖4 高效密集連接混合卷積模塊Fig.4 Efficient dense-connected hybrid convolution module
EHCM模塊主要是利用不同空洞率的空洞卷積提取不同大小的尺度特征,而密集連接的方式可以有效地聚合特征,將不同空洞率大小的多尺度特征進行聚合可以提高網絡對不同尺度目標的分割能力。采用空洞卷積進一步增大網絡感受野,由于空洞卷積的卷積核并不連續,圖像經過多個相同空洞率的空洞卷積后會導致網格效應[19]:上下文信息不連續,存在嚴重的信息丟失。空洞率的大小會影響對目標特征的提取能力,若空洞率過大,則對于較小物體而言會存在信息丟失的問題,因此,針對不同的目標物體需要選擇合適的空洞率。考慮到三維卷積的成本大小和網格效應,本文選擇空洞率分別為1、2、5、卷積核大小為3×3×3的卷積進行操作,如圖5(a)所示,若在空洞率都設置為2的情況下對圖像進行連續的空洞卷積操作,得到的特征圖會存在像素級別的缺失,圖中白色方塊表示卷積核未采集到的部分,雖然擴大了感受野,但是會損失一些細小的特征信息。將空洞率分別設置為1、2、5對圖像進行連續的卷積操作,如圖5(b)所示,得到的特征圖感受野是連續的且不存在體素缺失的問題,相較于普通卷積既增大了感受野,又保持了圖像信息的連續性。

圖5 相同卷積核不同空洞率下的特征圖感受野Fig.5 Receptive field of feature map with the same convolution kernel and different void ratios
3D-UNet中采用跳躍連接來融合編碼器和解碼器間不同級別的特征,但是由于淺層特征和深層特征之間存在較大的語義差異,跳躍連接只是簡單連接而不能有效地融合具有語義間隙的特征,從而會限制網絡分割的性能。針對這個問題,本文提出了一種雙特征殘差注意力機制(DRAM)來解決淺層的低級信息和深層的高級信息之間的語義差異問題。DRAM將編碼器和解碼器中的層級特征利用殘差連接和激活函數實現非線性化擬合,通過聚合不同層級特征對全局上下文進行建模,其結構如圖6所示。

圖6 雙特征殘差注意力機制Fig.6 Double-feature residual attention mechanism
對編碼器的層特征Gen和解碼器的層特征Gde分別進行卷積核大小為3×3×3的卷積操作,與原始特征進行殘差連接后,為了保留更多的信息,將得到的2種特征進行拼接得到多尺度特征圖Eed,表示如下:
Eed=(Gen+F33(Gen))?(Gde+F33(Gde))
(11)
Eed通過激活函數ReLU實現多尺度特征的非線性化。對得到的非線性化特征圖進行卷積核大小為1×1×1的卷積操作來調整通道數。使用Sigmoid激活函數對卷積后的特征進行歸一化處理,得到注意力權重。將原始的編碼器的層特征Gen和解碼器的層特征Gde進行線性疊加,進一步擴大感知域,最后與注意力權重相乘得到最終輸出結果E,表示如下:
E=σs(F13(σr(Eed)))×(Gen+Gde)
(12)
在式(11)和式(12)中:F33表示卷積核大小為3×3×3的三維卷積操作;F13表示卷積核大小為1×1×1的三維卷積操作;?表示Concat操作;σr表示ReLU激活函數;σs表示Sigmoid激活函數。
為了驗證本文網絡的性能,采用脊柱分割挑戰公開數據集CSI2014[20]進行實驗。該數據集包含10例青壯年的胸腰椎CT掃描圖像,每例標簽都由多名專家手動標注,圖片大小為512×512×600像素。考慮到計算機資源限制,本文將原始CT圖像隨機裁剪為多個大小為64×64×64像素的圖像。在裁剪過程中,整個CT圖像都將被裁剪到且不會出現重復裁剪的現象。隨機選取8例作為訓練集、1例作為測試集、1例作為驗證集,考慮到數據集個數限制,本文采用十折交差驗證法[21]來獲取模型的平均指標。對于訓練集,本文從包含標簽部分的圖像中隨機選擇40%的圖像進行水平翻轉、隨機旋轉、隨機縮放等操作進行數據增強。經過預處理后,得到7 104幅訓練圖像、642幅驗證圖像和640幅測試圖像。
實驗環境主要配置如下:實驗操作系統為Windows 10,GPU采用RAM大小為16 GB的NVIDIA GeForce RTX 2080,采用Python 3.7和Tensorflow 2.4支撐的Keras框架。在實驗過程中,批處理大小設置為2,初始學習率設置為0.000 1,采用Adam優化器計算自適應學習率,訓練輪次為500次。訓練過程中使用了早停法,將限制條件設置為30,當驗證集Dice相似系數(DSC)連續30個epoch內不再提升,則自動停止迭代,選取最佳權重模型。
本文選擇Dice相似系數、像素準確率(PA)、精確率(Pre)以及召回率(Rec)作為評價指標。Dice相似系數可以衡量2個樣本的相似度,取值在0到1之間,公式如式(13)所示:

(13)
像素準確率表示預測正確的像素樣本數量占總像素樣本數量的比例,公式如式(14)所示:

(14)
精確率表示模型預測為正確的像素樣本中,實際的正確像素樣本數量占預測的正確像素樣本數量的比例。用此標準來評估預測正確像素樣本的準確度,公式如式(15)所示:

(15)
召回率表示實際為正確的像素樣本中,預測正確的像素樣本數量占總實際正確像素樣本數量的比例。用此標準來評估所有實際正確的像素樣本被預測出來的比例,公式如式(16)所示:

(16)
在上述公式中:NTP代表真陽性,即正確地預測出脊柱像素的樣本數量;NFP代表假陽性,即錯誤地將背景像素預測為脊柱像素的樣本數量;NTN代表真陰性,即正確地預測出背景像素的樣本數量;NFN代表假陰性,即錯誤地將脊柱像素預測為背景像素的樣本數量。
2.4.1 消融實驗
為了驗證本文網絡的性能,以3D-UNet為基礎設計4個模型的消融實驗:第1個模型(Model_1)將3D-UNet中所有卷積換成三維循環殘差卷積,針對三維循環殘差卷積模塊中總時間步長T對網絡性能的影響,本文設置了Model_1(T=1)、Model_1(T=2)、Model_1(T=3)、Model_1(T=4)4種方案;第2個模型(Model_2)在最優Model_1的基礎上引入三維坐標注意力機制;第3個模型(Model_3)在Model_2的基礎上將編碼器與解碼器之間的模塊替換成EHCM;第4個模型(Model_4)在Model_3的基礎上引入DRAM,Model_4表示本文網絡。
表1和圖7分別展示了消融實驗的數據指標和預測圖像切面效果圖,結合圖表可知:將3D-UNet改進為Model_1(T=2)時,DSC提升了4個百分點,從分割效果圖也能看出網絡對脊柱特征判斷更加有優勢,錯誤分割部分的明顯減少說明了三維循環殘差卷積模塊相對于傳統三維卷積模塊可以更有效地累積椎體特征;從Model_1到Model_2,引入三維坐標注意力機制后加深了網絡對脊柱位置的關注,錯誤分割相對減少;Model_2到Model_3,利用EHCM模塊中不同空洞率卷積的密集連接可以很好地將網絡底層的信息從底層編碼器過渡到解碼器中,關注到細小體素的特征信息;Model_3相比Model_2在細節處理時表現得更好;Model_4相比Model_3DSC提升了1.77個百分點,說明本文提出的DRAM能更好地融合語義差別較大的不同級特征,達到更接近標簽的分割效果;從3D-UNet到本文網絡Model_4DSC提升了7.65個百分點,錯誤分割、遺漏分割的部分明顯減少,直觀地體現了本文網絡的分割優勢。

表1 消融實驗數據指標Table 1 Indexes in ablation experiment %

圖7 消融實驗預測圖像切面效果圖Fig.7 Section renderings of predicted images in ablation experiment
2.4.2 與其他分割網絡的對比
使用3D分割網直接對三維圖像進行分割相較于二維分割可以更好地保留圖像的空間信息,尤其是對于脊柱這類空間結構較為復雜的物體,但是由于三維卷積的運算量較大,會消耗更多的計算機資源。目前三維分割網絡的發展并不像二維分割網絡一樣成熟,本文選擇了V-Net[22]、nnU-Net[23]、3D Dense-UNet[24]、3D Attetion U-Net[25]、3D Residual U-Net和UNETR[26]等經典三維分割網絡進行對比實驗,證明本文網絡優于這些三維分割網絡。
在相同數據集和環境配置下進行對比實驗,實驗結果如表2所示,其中,粗體表示最優值。為了更加直觀地看出不同網絡的三維分割效果,本文將預測結果和原始標簽轉換為STL文件進行三維效果可視化展示,如圖8和圖9所示。V-Net的DSC僅為84.18%,從分割效果可以看出,在面對結構復雜的目標時,V-Net的分割效果較差,其將部分周圍的器官組織錯誤分割成脊柱;3D Attention U-Net、3D Dense-UNet和3D Residual U-Net在一定程度上更加關注目標區域,但是出現大片椎體粘連現象;nnU-Net在一定程度上能有效地捕獲全局特征,但網絡對細小信息提取能力不夠,分割結果存在小部分假陽性現象;UNETR和本文網絡效果較為接近,但是本文網絡在分割細節上更加優秀,且4個數據指標均高于UNETR。對比實驗結果證明了本文網絡的分割性能要優于對比的這6種分割網絡。

表2 不同網絡的對比實驗結果Table 2 Comparative experiment result of different networks %

圖8 CSI2014數據集對比實驗三維可視化效果1Fig.8 3D visualization rendering 1 of CSI2014 dataset comparison experiment

圖9 CSI2014數據集對比實驗三維可視化效果2Fig.9 3D visualization rendering 2 of CSI2014 dataset comparison experiment
2.4.3 與脊柱分割方法的對比
本文使用的CSI2014數據集是脊柱挑戰賽的公開數據集,目前有很多不同的分割方法,將本文網絡與這些方法進行對比,對比結果如表3所示,其中,粗體表示最優值。SEITEL等[27]使用單個統計多目標形狀+姿態模型進行分割,該模型配準使用邊緣檢測從CT體積中提取椎骨邊緣點云,通過重復迭代配準進行分割,這種方法相對復雜且不能很好地提取特征。QADRI等[28]基于層疊稀疏自動編碼器分割脊柱CT圖像,相比SEITEL等[27]所提出的方法提高了椎體特征的可分辨性,但分割效果達不到實際需求。LI等[10]使用三維空洞卷積和殘差路徑結合的UNet-3D網絡分割脊柱,雖然保留了空間信息,但是忽略了對細小特征的關注,易丟失下文信息。LI等[29]利用多尺度卷積塊提取不同大小的感受野來增強網絡對椎骨結構的感知能力,增加注意力模塊感知特征通道圖之間的關系、探索位置和通道維度的特征,使得精度有了大幅度提升,但網絡只能捕獲切片之間的關系,忽略了空間信息。本文網絡能夠有效地分割脊柱,減小網絡中淺層特征和深層特征之間存在的語義差異,并且保留原始空間信息,因此,本文分割方法的DSC優于這些脊柱分割方法。

表3 不同脊柱分割方法對比Table 3 Comparison of different spine segmentation methods
2.4.4 腰椎數據集分割
為了進一步驗證本文網絡的性能,采用由昆華醫院提供的20例包含5節腰椎的CT數據集,部分CT圖像在裁剪的過程中保留了1節胸椎,分割標簽均由醫生手動標記。隨機選取14例作為訓練集、3例作為測試集、3例作為驗證集進行實驗。采用上述對比實驗中的7個三維網絡對腰椎進行分割,分割結果如表4所示,其中,粗體表示最優值。標簽和分割結果的三維可視化效果如圖10所示。本文網絡的各項評價指標均高于其他的網絡,從可視化對比圖可以看出,除了本文網絡和nnUNet外的其他網絡均錯分出了不同大小的區域,其中VNet更是將胸椎分割成腰椎。棘突作為脊椎上比較有特點的結構相對椎體分割難度較大,本文相比nnUNet在棘突的分割細節上表現更好,且與原標簽更為接近,驗證了本文方法的優良性能。

表4 腰椎分割對比實驗結果Table 4 Comparative experiment result of lumbar segmentation %

圖10 腰椎數據集對比實驗三維可視化效果Fig.10 3D visualization rendering of lumbar dataset comparative experiment
2.4.5 模型參數量與分割性能對比
為了更加準確地分析模型性能,結合上述2個數據集的分割實驗,給出了本文網絡與其他三維分割模型的參數量、平均分割精度以及運行時間的數據對比,如表5所示,其中,粗體表示最優值。本文模型參數量為4.39×107,因為殘差連接和循環操作均不會增加參數量,所以本文網絡參數相對于原始模型3D-UNet參數增加不多,相比nnU-Net減少了3.12×107,而UNETR參數量幾乎為本文模型的2倍。在分割測試運行時間方面,本文網絡僅比最快的3D Dense-UNet慢0.9 s,但是比nnU-Net和UNETR分別快了1.5 s和1.3 s,且本文網絡的平均分割精度最高,因此本文網絡的分割性能整體要優于其他7種分割網絡。

表5 模型參數量與分割性能對比Table 5 Comparison of model parameters quantity and segmentation performance
本文提出了一種基于三維循環殘差卷積的U型網絡進行脊柱CT圖像的三維分割。三維循環殘差模塊隨著時間步長的增加,通過權重迭代有效地累積椎體特征,解碼器與編碼器之間的EHCM通過密集連接不同空洞率的卷積模塊對不同感受野下的特征進行融合,減少了邊緣特征和較小特征的消失。同時,提出DRAM來代替簡單的跳躍連接進行編碼器和解碼器直接的特征融合,解決了深層與淺層之間語義信息差別較大的問題。本文還引入了三維坐標注意力機制使得網絡關注感興趣的區域。在CSI2014數據集和腰椎數據集上的分割結果表明,本文網絡優于對比分割網絡和不同數據集下的脊柱分割方法。對于分割后還需要對脊柱進行三維重建的問題, 本文方法也更加方便可行,具有實際意義。在后續的工作中,將會研究多類別的三維分割方法,分割并具體地識別出每一節椎體。