林家慶, 韓娟, 袁直敏, 彭佳林
(華僑大學 計算機科學與技術學院, 福建 廈門 361021)
醫學圖像理解的計算機輔助診斷/手術中,醫學圖像預處理是一個重要的步驟,是后續圖像融合、目標檢測和分割等任務的重要基礎[1].實現圖像的方向校正最直接的方法是剛性配準,但配準方法通常只適用于方向偏差較小的情況,當偏差角較大時,配準結果準確性仍有不足[2].Wei等[3]利用圖像旋轉后的插值陰影來進行旋轉角度判別計算;Solanki等[4]通過打印出的圖像的像素點特征來判斷旋轉角度.通過背景水平線檢測來校正方向是一種常用的自然圖像方向校正方案,但并不適合醫學圖像[5].此外,一些研究者們將旋轉角度控制在90°的倍數來進行方向校正研究[6],但沒有解決連續值情況.基于深度學習方法的頭部和手部等特定類別圖像的方向校正[7-12]的研究取得一定進展.Fischer等[13]嘗試通過難度劃分進行方向校正;de Vos等[14]嘗試使用深度網絡對圖像進行局部的配準校正.但這些研究只能對圖像進行略微調整且主要針對自然圖像,而醫學圖像上方向校正的主要方法還是配準[15].
深度學習方法雖然在數據充足的情況下可以表現出優異的性能,但在數據稀缺時則表現一般.因此,如何構建在小樣本訓練集下的深度學習方向校正方法,也是醫學圖像方向校正領域的一個主要挑戰.為解決上述方法的局限性,本文提出一種基于深度卷積網絡的圖像旋轉和翻轉的校正方法,以腹部CT(computed tomography)圖像數據集作為訓練和驗證集進行實驗驗證.
在訓練樣本充足(大樣本)的情況下,建立并行卷積回歸網絡(parallel convolutional regression network,PCRN)來完成大樣本下的方向校正任務,著重考慮網絡生成預測結果的效率.即采用PCRN提取兩個子任務的共享特征及專有特征,然后通過在最終層接上不同的回歸器,同時完成兩項子任務的回歸.在面對側旋角度回歸和翻轉狀態回歸兩個回歸任務時,模型使用共同的淺層特征生成各自任務相關特征完成多項任務的回歸.網絡結構如圖1所示.

圖1 并行卷積回歸網絡結構圖Fig.1 Network structure of parallel convolution regression network
該網絡整體上是一個特征編碼殘差網絡,分為數據輸入、特征提取、參數輸出三個部分.具體地,PCRN網絡輸入部分包含一個復制層,將原始圖像進行冗余復制,以便后續的殘差連接;特征提取部分包含4個殘差模塊和3個下卷積層.其中每兩個殘差模塊間使用卷積核大小為2×2,步長為2×2的下卷積層進行連接以壓縮特征編碼;每個殘差模塊中使用的卷積核大小為5×5,步長為1×1.受Highway神經網絡和殘差網絡的啟發[16-17],殘差模塊中的淺層和深層特征間使用Shortcut連接,使其中的卷積過濾器學到更容易習得的特征間殘差[16,18],從而提高最終輸出結果.

圖2 正余弦值符號與所在象限的關系Fig.2 Relationship between sine-cosine symbols and quadrants
網絡中的殘差模塊和下卷積層使用ReLu函數進行激活;參數輸出部分包含一個全連接層,其輸入為特征提取部分最后一層輸出的高層語義特征,輸出為預測偏轉角余弦值、預測偏轉角正弦值,以及圖像翻轉概率等3個目標方向校正參數.選用側旋角度的正弦值和余弦值作為預測輸出的原因是,使角度到輸出的映射函數在(-180°,180°]范圍均勻和連續[19].上述全連接層側旋校正輸出使用Tanh激活函數,翻轉概率輸出使用Sigmoid激活函數.


(1)

(2)
文中使用的偏差角回歸損失函數為均方誤差損失,即為
Lang=(cos(gt)-zcos)2+(sin(gt)-zsin)2.
(3)
式(3)中:gt為圖像偏轉角度真值;zcos,zsin分別為網絡輸出預測偏轉角的余弦值和正弦值.
翻轉概率邏輯回歸使用交叉熵損失,即
Lrev=-(r·lgp+(1-r)·lg(1-p)).
(4)
式(4)中:r為圖像翻轉真值,翻轉為1,否則為0;p是網絡判斷圖像為翻轉的概率輸出.
總損失函數L為兩個損失函數之和,即
L=Lang+Lrev.
(5)
在樣本數量充足的情況下,PCRN只需一次前向傳播就能生成所有結果,速度快且效率高;但在樣本數量較少的情況下,PCRN的校正能力仍有限.
在訓練樣本稀缺(小樣本)的情況下,采用串行卷積回歸網絡(serial convolutional regression network,SCRN)先完成較為簡單的側旋角度回歸任務;然后,通過預測的校正角度將圖像基本轉回正位,繼而對圖像進行翻轉判定,如圖3所示.

圖3 串行卷積回歸網絡結構圖Fig.3 Network structure of serial convolutional regression network

圖4 坐標旋轉變換示意圖Fig.4 Demonstration of coordinate rotationtransformation
首先構建側旋校正網絡預測三維圖像側旋角度α,然后通過α將圖像基本調回正位,最后再使用翻轉判定網絡對基本處于正常位置的圖像進行翻轉判定.該方法中的兩個網絡與“并行卷積回歸”中的網絡基本相同,不同點在于:前面的側旋校正網絡少了翻轉概率輸出,后面的翻轉判定網絡少了側旋角度正弦值和余弦值輸出.
在側旋校正階段,按照PCRN方法可以預測三維圖像I的偏轉角α.圖4為坐標旋轉變換示意圖.對于經旋轉α角度后的圖像I上的每一點(x′,y′),應用坐標旋轉公式

(6)
計算出其旋轉前坐標(x,y).由于圖像像素點坐標為整數,通過雙線性插值方法可以求得旋轉α前的圖像I.該階段使用式(3)所述的損失函數.
在翻轉判定階段,訓練時對未發生側旋的輸入切片進行[-5°,5°]范圍內的隨機側旋,以模擬側旋校正網絡的輸出偏差.測試時輸入經過側旋校正網絡校正后的切片,通過輸出翻轉概率判定原圖是否發生了翻轉.該階段使用式(4)所述的損失函數.
在實驗中,訓練和驗證數據使用ISBI 2017肝臟腫瘤分割競賽訓練數據集中的130個三維CT掃描圖像.其中,100個為訓練數據,30個為驗證數據.測試數據集使用Codalab肝臟腫瘤分割競賽測試數據集中的70個CT掃描圖像.對訓練數據進行如下預處理:1) 截取數據灰度范圍到[-100,250],以消除大量無用的灰度信息,再等比例縮放到[0,1];2) 在垂直方向上截取從盆骨上沿到胸腔下沿的圖像區域;3) 將每個三維圖像數據在垂直方向上進行切片,并將分辨率從512 px×512 px下采樣到256 px×256 px,以減小深度網絡的體積和計算負荷;4) 將切片數據在(-180°,180°)范圍內進行隨機旋轉,以作為訓練輸入數據;5) 對切片數據隨機進行倍數范圍在[0.95,1.05]的尺度縮放和灰度縮放.
為精確測量對比幾種方向校正方法的能力,實驗中對測試和驗證數據進行了擴充.即除了對每個數據進行了上述灰度范圍處理和區域截取外,還將每個區域截取后的三維數據切分為腹腔下部、腹腔中部和腹腔上部等3個區域.由此,總測試數據就達到70×3=210個,驗證數據達到30×3=90個.對所有測試數據,實驗先隨機抽取50%進行翻轉,再隨機抽取50%變換為側旋角度在(-180°,-90°]和[90°,180°]范圍內的“大角度”樣本,剩下的隨機變換為側旋角度在(-90°,90°)范圍內的“小角度”樣本.對于驗證數據也進行以上操作.另外,考慮到現實中醫療圖像數據通常較為稀缺,從100個訓練數據中抽取10個作為小樣本訓練數據集,在實驗中對訓練樣本稀缺時的深度學習方向校正方法也進行了研究.
文中模型訓練階段,網絡使用Adam優化方法進行網絡參數優化.Adam動量參數按照文獻[20]的推薦,設β1=0.9,β2=0.999;初始學習率設為λ=1.0×10-4, 在訓練中逐步遞減,最小到λ=1.0×10-5;批量大小為24,翻轉判定閾值為0.9.除了按照節2所述使用切片校正結果中位數代表三維圖像校正結果,實驗中還使用切片校正結果均值代表三維圖像校正結果以便對比分析.實驗評價指標分為側旋校正和翻轉判定兩個方面,前者使用平均誤差角度作為評價指標,后者使用錯判率作為評價指標.
以傳統配準校正方法作為基線方法進行對照比較.實驗選取的參考切片和待校正切片大體在人體同一位置,以確保配準效果良好.由于參考切片和待配準切片內部結構較為相似并且圖像本身不存在形變,因此考慮使用仿射變換進行配準[2].配準的變換參數定為縮放倍數、平移向量和旋轉角度等3個參數,并在配準完成一次后將圖像進行翻轉后再次進行配準,通過比較兩次配準的最優結果來判斷圖像是否發生了翻轉.配準度量方法為平均平方誤差,配準過程中的優化方法為梯度下降法.
進一步的,考慮到待配準切片和參考切片在腹腔內部細節上存在不同,實驗考慮屏蔽內部細節差異以進一步提高旋轉校正配準精度,并設計了第二種配準方法.即先將參考圖像和待校正圖像切片進行軀干內部填充,屏蔽掉軀體內部差異,使其成為簡單的類橢圓二值圖形;然后,按照第一種方法進行仿射變換配準.第二種方法由于屏蔽了腹腔內部細節差異而腹腔外形又為左右對稱結構,翻轉預測預期較差.最后,對于每個三維圖像的方向校正結果,使用該圖像中抽取切片的測試結果統計量,如平均值或中位數,作為三維圖像方向校正最終值.
在樣本充足下,PCRN和基線方法估算的平均方向偏差測試結果,如表1所示.

表1 樣本充足下PCRN和基線方法估算的平均方向偏差Tab.1 Average orientation error estimated by PCRN and baseline method on dataset with sufficient samples (°)
由表1可知:樣本充足情況下,文中所提出的深度學習“并行卷積回歸”方法對比參考方法在小角度情況下有略微的優勢.進一步深入了解發現,參考方法的校正結果受配準時選擇的參考切片影響較大.圖5為配準方法的多最優解情況.從如圖5可知:當選擇的參考切片與待配準切片外形差別較大時,就可能出現多最優解的情況,從而導致校正效果不佳,而文中提出的方法能較好地解決該問題.

(a) 待配準切片 (b) 參考切片 (c) 配準的第一種最優結果

(d) 內部填充后的待配準切片 (e) 內部填充后的參考切 (f) 配準的第二種最優結果 圖5 配準方法的多最優解情況Fig.5 Multiple optimal solutions of registration method
由表1還可知:文中所提出的深度學習“并行卷積回歸”實驗結果中,中位數統計結果與小角度情況下并無太大差異,而均值統計結果則明顯較差.圖6為校正角度符號相反的結果圖.由圖6可知:在極大角度情況下,校正角度在絕對值上差異不大,符號卻可能相反,導致均值受巨大影響.
參考方法取得局部最優的典型示例,如圖7所示.由圖7可知:參考方法可能因優化方向錯誤導致最終結果陷入局部最優,所以在大角度情況下的校正結果明顯差于文中所提的方法.

(a) 側旋角度為-177°的切片a (b) 將a校正177°后的圖像 (c) 將a校正-179°后的圖像 圖6 校正角度符號相反的結果示意圖Fig.6 Results of the opposite correction angle sign

(a) 待配準切片 (b) 參考切片 (c) 待配準切片校正結果

(d) 內部填充后的待配準切片 (e) 內部填充后的參考切片 (f) 正確的校正結果 圖7 參考方法取得局部最優的典型示例Fig.7 Typical examples of local optimal solution by reference method
PCRN典型方向校正結果,如圖8所示.由圖8(a),(b),(d),(e)可知:在樣本充足情況下,文中提出的深度學習“并行卷積回歸”方法在側旋校正和翻轉判定兩個子任務上都取得了優異的表現.這說明網絡充分的提取了圖像的側旋校正特征和翻轉判定特征.進一步,通過對錯判的翻轉樣本分析得知,由于圖像內左右辨識特征太過稀少,樣本本身辨識度太低,導致切片翻轉判斷錯誤(如圖8(e),(f)所示).在實際應用中,通過統計同一個三維圖像的整體翻轉標識來避開該問題.參考方法中的原始配準方法由于配準誤差大,導致翻轉的最終判定受到較大影響,準確率較低;而內部填充的配準方法則基本沒有翻轉辨識的能力.

(a) 小角度下典型切片a (b) 大角度下典型樣本切片b (c) 左右相似的難分樣本c

(d) 切片a校正結果 (e) 切片b校正結果 (f) 切片c校正結果圖8 PCRN典型方向校正結果展示Fig.8 Typical orientation correction results by PCRN
在樣本稀缺下,SCRN和PCRN估算的平均方向偏差測試結果,如表2所示.由表2可知: 在樣本稀缺情況下,使用SCRN方法側旋校正效果接近表1中樣本充足下的側旋校正效果,且比樣本稀缺下的PCRN方向校正效果好.此時,PCRN在小角度側旋校正方面已經不如內部填充的配準方法.在翻轉校正上,由于樣本數量太過稀少的原因,PCRN翻轉識別能力相比于樣本充足情況下下降較多.但可以看到SCRN方法此時在翻轉偏差平均值上,還是明顯優于PCRN方法的.

表2 樣本稀缺下SCRN和PCRN估算的平均方向偏差Tab.2 Average orientation error estimated by SCRN and PCRN on dataset with limited samples (°)
將復雜的CT圖像方向校正任務分解為簡單的側旋角度校正回歸和翻轉概率邏輯回歸兩個回歸子任務,并針對不同樣本數量的數據集,分別以并行和串行的方式設計了兩種多任務深度學習網絡——PCRN和SCRN.
經典的仿射配準方法需要在同時估計縮放、平移參數和旋轉參數情況下,才能實現較為準確的旋轉和翻轉估計.而文中提出的神經網絡方法一個最大優勢是,可以在無需估計縮放和平移的前提下,實現對旋轉和翻轉的更精準估計.在公開數據集上的實驗結果證明文中提出的方法,在小角度側旋、大角度側旋和翻轉判斷上都有著較強的校正能力,具有很強的應用價值.后續研究將把串行回歸的兩個網絡連接到一起,實現直接的端到端輸出,以簡化訓練過程,提高模型精度.