申利華,李 波
(武漢科技大學 計算機科學與技術學院,武漢 430081)
醫學圖像是現代醫學診斷中應用頻率很高的輔助工具,高分辨率(High-Resolution,HR)的醫學圖像能幫助醫生作出更準確的診斷。醫學圖像超分辨率(Super-Resolution,SR)重建有兩個關鍵要求:清晰度和真實感,只有清晰且真實的SR 圖像才能有效地幫助醫生觀察如肺結節等是否病變。然而,硬件限制會影響醫學圖像的獲取。為解決因傳感器獲取的數據稀少而造成醫學圖像分辨率低的問題,以及讓患者盡可能少地暴露在成像時的輻射下[1],科研工作者提出了醫學圖像SR 重建技術。SR 重建技術作用于序列SR 圖像[2]和單幅SR 圖像,本文通過SR 重建技術提高單幅肺部電子計算機斷層掃描(Computed Tomography,CT)圖像的分辨率。如今大多數SR 重建技術都應用于普通的彩色圖像,應用于醫學圖像重建的還較少。醫學圖像紋理要求更復雜,并且對圖像結構的準確還原度要求更高。而低分辨率(Low-Resolution,LR)醫學圖像缺乏高頻細節信息,難以識別病變,不利于輔助醫生診斷疾病。SR 重建技術能將LR 醫學圖像重建為HR醫學圖像,輔助醫生診斷疾病。因此,醫學圖像SR 重建技術成為圖像處理中研究的熱點,也是現代醫學界與人工智能技術聯系的一個重要方面。
傳統的圖像SR 重建方法有:1)基于插值的圖像超分法,如最鄰近元法、雙線性內插法、三次內插法等。這類方法算法簡單易實現,計算速度快,但產生的圖像過于平滑、有偽影,高頻細節無法恢復[3],生成的SR 圖像清晰度有限、精度較低。2)基于重建的方法。該方法通常都是基于多幀圖像的,要結合其先驗的知識,如凸集投影法、迭代反投影法、貝葉斯分析法等;但是這類方法計算非常復雜,需要使用大量計算資源。3)基于機器學習的超分方法,如稀疏表示法、知識向量回歸法等。4)基于深度學習的超分法,如由Dong等[4]設計的傳統超分辨率卷積神經網絡(Super-Resolution Convolutional Neural Network,SRCNN),通過三層卷積完成特征提取、非線性映射以及特征重建。Umehara 等[5]將卷積神經網絡(Convolution Neural Network,CNN)運用于肺部CT 圖像SR 重建中,并獲得了優異的結果,尤其是×2 放大。Abdel-Zaher 等[6]用CNN 對乳腺CT 圖像進行分析,實現了乳腺癌的自動檢測系統。Priya 等[7]提出了基于CNN 的間質性肺病輔助診斷法,提高了分類識別多種肺病的診斷率。SRCNN 可通過訓練集自動優化,在清晰度上有所進步;但SRCNN 會對初始圖像作放大處理,所以速度較慢。為了提高訓練速度,Dong 等[8]又提出了快速超分辨率卷積神經網絡(Fast SRCNN,FSRCNN),以及Shi 等[9]提出的高效亞像素卷積神經網絡(Efficient Sub-Pixel Convolutional Neural network,ESPCN)。以上都是單尺度前饋網絡,為了使用LR 圖像與HR 圖像之間依賴關系,Zhang 等[10]針對醫學圖像SR 重建還提出了一種并行結構,使多分支之間交叉投影用于交換信息,這也是并行結構應用于單圖像超分重建任務的首次嘗試?;诜椒ǖ难芯窟M入瓶頸后,科研工作者開始從深度上進一步研究?;贖e 等[11]提出的殘差網絡,Kim 等[12]提出了非常深的超分辨率(Very Deep Super-Resolution,VDSR)網絡和深度遞歸卷積網絡(Deeply-Recursive Convolutional Network,DRCN)。此類網絡通過加深網絡深度來優化超分效果。此后科研工作者將拉普拉斯金字塔以及通道注意力機制這類網絡結構用于醫學圖像SR 重建。Du 等[13]就采用迭代上采樣和下采樣,分層提取淺層和深層醫學圖像的特征,并且引入通道注意力機制,調整通道權重,抑制噪聲。這類方法都是基于像素空間優化的方法,由于缺少高頻信息,導致視覺模糊。為了提高視覺感知質量,有學者將生成對抗網絡(Generative Adversarial Network,GAN)應用到超分辨率中,提出了超分辨率生成對抗網絡(Super-Resolution Generative Adversarial Network,SRGAN)[14]。SRGAN 用內容損失和對抗損失提高了重建圖像的視覺感知質量,獲得了更自然的紋理;但該紋理細節并非全然真實,因此SRGAN 不太適用于醫學應用或監測(所以本文實驗與經典算法比較時沒有選擇SRGAN)。Wang 等[15]將反饋機制用于GAN 的生成器網絡,將殘差通道注意力機制與對抗性損失結合,使生成對抗網絡的優化效果更加明顯。
普通圖片對細節的要求較低,對整體的要求較高。因此,普通圖像SR 重建是對整體圖片的分辨率重建,沒有針對性。而肺部圖像重點在于輔助對肺結節的判定以及肺部CT圖像內部細節邊緣的清晰化,應當將注意力關注到肺結節和紋理細節這樣的小目標。對肺部圖像的SR 重建,首先要放大圖像,從視覺上幫助醫生更好地判斷病情;其次,幫助醫療輔助系統更準確地判定結節的位置,比如提高肺結節檢測的精度,以及提高肺結節良惡性分類的準確度。醫學圖像SR重建區別于普通圖像重建的兩點是:1)重建圖像要求具備真實性,不能憑空產生;2)更關注肺結節和紋理細節這類小目標的描述。
基于上述問題,本文提出了基于特征金字塔網絡(Feature Pyramid Network,FPN)和密集網絡的肺部圖像超分辨率重建(FPN and Dense Super-Resolution,FDSR)網絡。為了獲得更好的醫學圖像超分辨率的效果,本文的主要工作有:
1)在特征提取層引入了FPN 結構。通過下采樣提取小物體的特征,增強對肺部圖像中小目標結節及邊緣細節的關注度,繼而提高對肺結節檢測的精度,以及提高肺部圖像超分重建后的視覺效果。
2)在特征映射層引入了殘差網絡與特殊密集網絡結合的網絡結構。充分利用LR 圖像的特征,將LR 特征通過殘差學習融入特征重建的卷積層;并在殘差組合網絡(Residual Combined Network,RCN)內部加入殘差網絡,避免梯度消失等問題,從而映射出與HR 圖像更接近的特征圖像。
為了提高肺部圖像中肺結節以及紋理細節的重建效果,進而提高肺結節的檢測精度,本文提出了一種新的網絡FDSR。FDSR 網絡基于FPN、特殊密集網絡以及殘差網絡實現肺部圖像的SR 重建。其中FPN 用于特征提取,特殊密集網絡以及殘差網絡的組合用于特征映射。圖1 給出了完整的FDSR 網絡結構,其中非線性映射由各種不同深度但長寬尺度相同的RCN 組合而成。本文的特征提取部分采用FPN提取小目標的特征,使肺結節及紋理細節的特征重建更清晰,提高小目標的分辨率。非線性映射部分結合5 塊長寬結構相同、深度結構不同的網絡,網絡間用特殊密集網絡連接,網絡內部用殘差網絡連接。特征重建采用CNN 作最后映射。本章將從特征提取、非線性映射以及特征重建三部分介紹FDSR 網絡。

圖1 FDSR網絡Fig.1 FDSR network
普通圖像超分重建時特征提取采用幾層卷積神經網絡,準確度能達到大部分應用場景的要求。但對肺部CT 圖像進行SR 重建的目的有兩個:重建出HR 圖像,幫助醫生更好地診斷病情;提高肺結節檢測輔助醫療設備的準確度。
FPN 的總體架構包括以下四個方面:自下而上網絡、自上而下網絡、橫向連接網絡以及卷積融合,目的是融合上采樣后的高語義特征和淺層的定位細節特征。FPN 具體的實現方式見圖2。

圖2 特征金字塔網絡Fig.2 Feature pyramid network
FPN 被應用于許多領域,比較常見的有目標檢測模型。對圖像進行特征提取時,大目標包含的信息會越來越多,小目標包含的信息會越來越少。而FPN 可以放大小目標物體在整張圖片中的特征占比,提高對小目標物體的檢測精度。FPN 本身并不是目標檢測器,而是特征提取器,它通過卷積得到各個特征層,再逐步將其還原。在保證高級語義信息不丟失的情況下,解決小目標信息逐步遞減的問題。
有學者將FPN 的思想用于醫學圖像SR 重建中,該網絡能有效減少重建圖像的視覺偽影,并且實現對一個模型的多尺度重建[16]。拉普拉斯金字塔超分辨率網絡(Laplacian pyramid Super-Resolution Network,LapSRN)[17]有兩條分支:一條為特征提取分支,專門用于特征提??;另一條為圖像重建分支,逐步將小圖像作上采樣再融合到特征提取分支。LapSRN 與FPN 不完全相同,但對原始圖像特征的重視程度一致,同樣都是在特征向下提取的同時保留原始的特征。Tang 等[18]將LapSRN 與密集網絡聯系,設計的網絡結構將非插值操作的原始LR 圖像輸入到網絡中,用拉普拉斯網絡結構逐步對LR 圖像上采樣,將得到×2 和×4 的圖像特征融合,以逐步重建放大的HR 圖像,該網絡中密集網絡結構用于上采樣中的小模塊內。本文輸入網絡的數據是經過插值操作的LR 圖像,特征提取層采用的FPN 結構用于融合由于提取特征造成長寬倍數減小的各個特征層,目的是放大肺結節及紋理細節這類小目標的像素占比。本文提到的特殊密集網絡用于連接小模塊,而非小模塊內部結構。
將FPN 用于肺部圖像SR 重建,強化對肺結節及紋理細節這類小目標的關注度,從LR 圖像塊提取不同特征,以提高重建精度[19],而非在不斷地卷積中逐漸忽略小目標特征。因而從整體上提升圖像重建的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構 相似性(Structural SIMilarity,SSIM)值。由式(1)可知,生成最終SR 圖像,不斷訓練權值矩陣,將傳遞信號反向傳播,小目標的特征集合在計算中所占比例增加,能更有效地提高小目標的訓練質量。
其中:w和y的上標數字表示不同層,下標表示該層特征不同的權值與特征值。網絡的目的是不斷降低loss,讓重建的SR圖像盡可能地接近真實的HR 圖像。由式(1)可知,loss最終由初始的輸入圖像像素點和網絡的各個權值矩陣計算獲得。為了避免在特征提取時,大目標包含的信息越來越多,小目標包含的信息越來越少,加入FPN 結構,放大小目標在特征圖中的特征占比,增大小目標在整個訓練過程的權值占比。這不僅僅能對整個圖像SR 重建,也能增強網絡最后對細節紋理的恢復。
FDSR 的特征提取使用了FPN的思想,用2層FPN 結構提取更精細的特征,從而提高醫學圖像特征提取的質量,用于肺部CT 圖像SR 重建。具體的特征提取結構見圖3。由于SR 重建的特殊性,LR 圖片中包含大量有用的特征。因此,提取完小目標的特征后,還融入初始時LR 特征,特征融合的結果為后續特征映射的輸入。

圖3 FDSR的特征提取結構Fig.3 Feature extraction structure of FDSR
醫學圖像SR 重建中VDSR 巧妙運用了殘差網絡[20]。較深的非線性映射網絡重建的最終圖像效果更好的可能性更大,但過深的網絡結構可能造成梯度消失的問題。VDSR 在特征重建引入了LR 圖像的特征,解決了梯度消失的問題。很多學者將殘差網絡引入自己的深度模型,如Yang 等[21]以DRCN 作為延展,設計出了自己的深度模型,將每次迭代結果輸出到最終特征重建部分。因此,FDSR 的非線性映射部分引入了殘差網絡的思想,最后特征重建采用了FPN 提取的初始特征。在保證特征梯度不消失的同時,還融合LR 的初始特征。
Li 等[22]構建了多尺度殘差密集塊(Multi-scale Residual Dense Block,MRDB),在MRDB 內部的殘差小模塊用到密集網絡,有效地提高了重建圖像的質量。Qiu 等[23]在局部結構中用到密集網絡,整體結構用到殘差,有效提高了重建醫學圖像的精確度。因此,本文的FDSR 除了用到FPN 提取初始特征外,還用特殊密集網絡連接5 個RCN,具體的RCN 見圖4。5 個RCN 的網絡通道是對稱的,目的是先加深網絡的深度再降低深度,映射出更豐富的權重,提取更準確的特征,從前往后的深度分別是32、64、128、64、32,該結果是由后續多次對比實驗得出。RCN 首先用一層3×3 的CNN 加深一倍的通道數,再用一層CNN 初步映射特征;然后用殘差網絡加深RCN 的深度;最終再融合初始特征,輸出為下一個RCN 模塊的輸入。

圖4 RCNFig.4 RCN
在SR 重建中,LR 圖像包含大量的初始特征,并且該特征對圖像影響明顯。因此,連接RCN 的過程中選擇了和密集網絡類似的網絡,如式(2)所示:
其中:L的上標數字為RCN 的層級,一共有5 個RCN 結構,對應上標的1 到5,上標為0 表示1 號RCN 前一級的卷積塊;L的下標output 表示卷積列結果輸出,input 表示卷積列結果輸入。SeqConvN表示不同的網絡操作,除了SeqConv0 卷積列外,其他卷積列結構類似。
醫學圖像SR 重建不是由一張空白的初始圖像訓練而成,而是由LR 圖像不斷訓練,無限近似HR 圖像的效果,再保存最終訓練好的權值矩陣集。因此,LR 圖像特征尤為重要。特殊密集網絡為了凸顯初始特征的重要性,使每層RCN都接收到初始特征的輸入特征層。每一層RCN 都會由FPN提取的初始特征作為輸入的一部分,另一部分為上一部分網絡的輸出。圖5 中,虛線箭頭表示保留的密集網絡剩余的一部分,作用是更好地訓練RCN 內部結構。圖4 將此部分的連接融入RCN 內部結構中。該特殊密集網絡不僅保留了圖像原有的特征、結合低層和高層特征提高圖像性能,還減輕了梯度消失等問題。不同深度的RCN 特殊密集連接方式見圖5。

圖5 RCN間的密集連接Fig.5 Dense connection between RCNs
特征重建常用的方法有插值、解卷積、亞像素卷積。由于在特征提取模塊采用了FPN,最終特征提取結束后圖片的大小又恢復了原狀。因此,在特征重建時僅使用基礎的CNN降低維數,增加非線性,將特征映射后32×56×56 的結構轉換成初始時1×56×56 的結構。最終與初始的LR 圖像用torch.add 融合。具體圖像融合細節見式(3):
最后成像時殘差連接初始LR 圖像特征,原因是在SR 重建過程中,特征都是從LR 圖像中獲取的,LR 圖像中包含許多可有效用于HR 圖像的特征。通過殘差網絡引入捷徑連接,將輸入的LR 圖像直接連接到輸出的SR 圖像,實現身份映射。此類跳躍連接不引入額外的參數,并且幾乎不引入計算復雜度,還能使網絡更快收斂,解決了因深度增加導致網絡退化的問題。具體特征重建細節見圖6。

圖6 特征重建Fig.6 Feature reconstruction
由于肺部CT 圖像數據的特殊性,本文實驗首先對數據集進行預處理并且根據初步實驗確定參數細節,然后搭建特征提取、特征映射以及特征重建的基本網絡,調整FDSR 中FPN 融合特征的次數,以及特征映射中RCN 的個數和結構,選擇達到FDSR 對肺部CT 圖像SR 重建效果最好的結構組合。最后對比FDSR 與其他現有常用網絡的PSNR、SSIM 和視覺效果。
2.1.1 訓練集和測試集
本文使用的數據來源于Luna16 數據集。由于Luna16 數據集是三維的,所以需要對Luna16 中的數據進行切片,將其轉換成醫學圖像SR 能處理的二維圖片。本實驗用到的切片是一個樣本CT 中的一層數據,該切片根據z軸切割,按照當前z軸數據的1/2,再向下取整。做CT 掃描時,可采取正臥或仰臥,所以總是會導致圖像出現翻轉。將仰臥圖像的x、y坐標進行倒序調整,讓所有數據集中的圖像都是正臥的。對像素值在[-1 000,400]的CT 圖像進行預處理,將像素值截斷,并且將單通道的CT 圖像轉換成RGB 格式后保存。
訓練集采用800 張Luna16 中的肺部圖像,評估集采用480 張Luna16 中的肺部圖像,測試集中對比圖像采用3 張肺部圖像。訓練集、評估集以及測試集的圖像均沒有交集。
2.1.2 數據預處理
FDSR 通過LR 圖像重建的SR 圖像與HR 圖像對比,不斷訓練各個分支的權重,直到結果趨于穩定。因此,LR 圖像就作為實驗的輸入數據。訓練數據預處理過程見圖7(a),評估數據預處理過程見圖7(b)。首先用雙三次插值法重構圖像,保證數據集中圖像的像素值都為整數。然后將HR 圖片的長寬減半,再用雙三次插值法利用采樣點周圍16 個像素的灰度值進行3 次插補,用于模擬HR 圖像的退化過程。雙三次插值對HR 圖像進行下采樣,得到相應的LR 圖像[24]。構建LR 的過程用式(4)表示,構建SR 的過程用式(5)表示。

圖7 訓練、評估數據預處理過程Fig.7 Training and evaluation data preprocessing
其中:ILR表示LR 圖像的像素值矩陣;ε代表退化比例因子,A()表示在退化比例因子為ε時對HR 圖像像素值矩陣的操作;IHR表示HR 圖像的像素值矩陣;ISR表示SR 圖像的像素矩陣;δ代表進化比例因子,B()表示在進化比例為δ時對LR圖像像素矩陣的操作。
初步處理后,一張RGB 圖像的像素值數量近16×104,計算量大且訓練時間長。因此,完整的圖像不適用于該深度學習模型。例如DRCN 的輸入是以LR 圖像作插值法構建而成,這不僅增加了計算的復雜度,還丟失了原始LR 圖像的一些細節。因此,在訓練數據的預處理中,為了加深模型深度的同時保證訓練速度不會太慢,將獲取的LR 圖像裁剪成56×56 的塊,最后以56×56 的規格存入dataset 中。初步預處理后的HR 圖像,與進一步預處理后的LR 圖像實例見圖8。最終對比的肺部圖像與訓練圖像獲取LR 圖像的過程相同,只是不將它以56×56 的格式存儲到dataset 中,而是直接將整個圖片存入group。因為測試過程不需要反復多次訓練,所以可以將整個圖像都存入group。

圖8 HR圖像和處理后的LR圖像Fig.8 HR image and processed LR image
2.1.3 參數細節
訓練模型時,采用optim.Adam()優化器,損失函數使用nn.MSELoss(),學習率為1×10-4,batchsize 為16。具體計算方法見式(6):
其中:xi是原始HR 圖像的第i個像素值,yi是重建后的SR 圖像的第i個像素值,兩個參數的維度相同。
FDSR 以及常用對比網絡的迭代次數由實驗確定。由圖9 可看出,在訓練迭代次數到達250~300 時PSNR 的數值趨于平穩,因此本文訓練迭代次數為300。使用的放大因子為3,num_worker 設置為8,激活函數采用ReLU。使用PyTorch 深度學習框架建立模型,并采用NVIDIA GeForce RTX 2080 Ti對其進行訓練。

圖9 PSNR與迭代次數的關系Fig.9 Relationship between PSNR and epochs
2.1.4 評價指標
為了客觀評價重建圖像的效果,采用圖像處理評價中常用的PSNR 和SSIM。PSNR 是非常普遍的一種圖像客觀評價的指標,基于像素點間的誤差,也就是基于敏感圖像質量的評價[24]。PSNR 值越大,失真越少。
其中:RMSE為均方誤差(Mean Square Error,MSE),表示兩個尺寸為m×n 的原始圖像像素值和重建后圖像像素值的均方差。
SSIM 是一種廣泛使用的適應人類視覺系統的圖像質量指標。基于亮度、對比度和結構來測量圖像之間的結構相似性[25]。SSIM 的取值范圍為[0,1],值越大,重建圖像與真實圖像的結構相似性越高,圖像失真越小。
其中:μx和μy表示圖像x、y的均值;σx和σy表示圖像x、y的標準差;C1、C2為常數。
2.2.1 特征金字塔網絡的比較
實驗采用FPN 的目的是在重建SR 圖像時,提高對肺結節及紋理細節這類小目標的關注度。實驗中,訓練數據存儲的是56×56 的圖像,因此,最多可以進行3 次特征融合。分別對1、2、3 次特征融合做對比實驗:1 次融合是將28×28 的圖像特征與56×56 的圖像特征融合;2 次融合是在一次融合的基礎上將14×14 的圖像特征與28×28 的圖像特征融合;3 次融合是在2 次融合的基礎上將7×7 的圖像特征與14×14 的圖像特征融合。
其他變量相同,比較不同融合次數下測試集中HR 圖像與超分辨率圖像的PSNR 和SSIM 值。其中RCN 使用的個數不變,為5。表1 顯示了FDSR 在不同的融合次數下測試圖像的PSNR 以及SSIM 均值的結果。由表1 可以看出在融合次數為2 時,獲得的SR 圖像優秀的概率更高。因此,在最終FDSR 中使用2 次融合的特征金字塔網絡。

表1 測試圖像在不同融合次數下的PSNR和SSIMTab.1 PSNR and SSIM of test images under different fusion times
測試數據集中的肺部低分辨率1 號圖像在不同的融合次數下得到的SR 圖像見圖10。由圖10 可以看出,不同融合次數的FDSR 重建出的SR 圖像的效果都要優于BiCubic 圖像。由于不同融合次數間PSNR 和SSIM 差異并不明顯,所以從圖像的視覺感知中圖10(c)、(d)、(e)的視覺差距也不是很明顯。不過本文關注點在于重建肺部HR 圖像的真實清晰度,所以選擇融合次數的指標依據表1 數據。

圖10 不同融合次數圖像比較Fig.10 Comparison of images with different fusion times
2.2.2 RCN個數比較
采用RCN 的主要目的是經組合后完成特征映射,各個RCN 之間采用特殊的密集網絡連接。近來科研工作者對密集網絡的研究顯示,具有跳過連接和層重用的網絡結構不僅有利于提高性能和速度,還能減少訓練時間。RCN 內部結構是在保證梯度不消失的情況下,更準確地映射出特征。不同個數的RCN 使特征映射的深度不同。RCN 中層數由先高后低,再轉換為1×56×56 的圖像。由于LR 圖像中含有大量HR圖像的特征,最終會將1×56×56 的結果圖像與原始的LR 特征融合得到最終結果。為了單獨驗證RCN 和連接RCN 的特殊密集網絡的有效性,將RCN 組成的特征映射層替換VDSR的特征映射層構建VDSR_RCN,具體網絡結構見圖11。為了體現RCN 殘差網絡的有效性,引入Liu 等[26]提出的遞歸密集塊(Recursive Dense Block,RDB)結構。RDB 是個小型的密集網絡,也是其他將殘差組合網絡應用到CT 圖像的超分辨率重建結構。

圖11 VDSR_RCNFig.11 VDSR_RCN
VDSR_RCN 與VDSR、VDSR_RDB 的對比結果見表2,它們除網絡結構外,其他條件均相同,訓練次數都為100。由表2 可以看出,在網絡層數相同情況下,用RCN 重構映射層的VDSR 網絡訓練效果明顯優于VDSR 和VDSR_RDB,并且在某些情況下VDSR 的效果優于VDSR_RDB 的重建效果。可見殘差組合網絡是有效的,但也不是殘差結構越多越好,適量地使用殘差結構才能更好地重建圖像。

表2 VDSR、VDSR_RDB和VDSR_RCN的實驗結果Tab.2 Experimental results of VDSR,VDSR_RDB and VDSR_RCN
由上述實驗驗證RCN 的有效性后,將RCN 用于本文實驗的FDSR 中。接著對不同的RCN 個數進行比較,以得出其中結果最好的RCN 個數和結構。特征提取中融合特征的次數固定不變。而模型也不是越深就越好,與具有超過400 個卷積層的殘差通道注意力網絡(Residual Channel Attention Network,RCAN)[27]相比,雖然具有115 個卷積層的增強的超分辨率生成對抗網絡(Enhances Super-Resolution Generative Adversarial Network,ESRGAN)[28]的PSNR 值略遜一籌[29],但它有更好的重建視覺效果。
本文對比了6 種結構個數不同的RCN:n1的結構為(32),1 個RCN;n2的結構為(32,16),2 個RCN;n3的結構為(32,64,32),3 個RCN;n4的結構為(32,64,32,16),4 個RCN;n5的結構為(32,64,128,64,32),5 個RCN;n6的結構為(32,64,128,64,32,16),6 個RCN。不同結構以及不同個數RCN 獲得的PSNR 以及SSIM 見表3,可以看出,n5的PSNR 和SSIM 效果更好。可見在特征映射模塊,適當的深度大小,深度先遞增再遞減,能訓練出更精確的權值,使重建的SR 圖像更接近于真實HR 圖像。

表3 測試圖像在不同RCN個數下的PSNR和SSIMTab.3 PSNR and SSIM of test images under different RCN numbers
2.2.3 與現有網絡的比較
根據以上實驗結果,最終確定的FDSR 為表現最好的2次融合FPN 結構和5 個對稱的RCN 結構。為了體現SR 重建醫學圖像的效果,將它與BiCubic 以及近年來國內外提出的基于深度學習的方法SRCNN、FSRCNN、VDSR 和LapSRN 進行比較。為了提高訓練效率,對訓練數據集進行裁剪,評估和測試數據集不進行裁剪;且所有對比方法的重建結果都基于同樣的訓練數據集、驗證數據集、測試數據集、訓練框架以及測試框架,區別在于采用不同的深度學習網絡。因為SRGAN 是在感知的基礎上重建出非客觀存在的特征,基于特征空間優化的SRGAN 生成圖像存在結構變形和偽影,不夠逼真;而醫學圖像重視真實性,提倡重建客觀事實存在的特征。因此,SRGAN 方法不適合直接用于醫學圖像SR 重建,未作對比。
表4 展示了FDSR 與其他常用深度學習方法的PSNR 和SSIM 對比。圖12 展示了不同的深度學習模型下SR 重建圖像的感知效果和對應的PSNR 值。由表4 可知,本文FDSR 深度學習結構的PSNR 相較于經典SRCNN 有0.05~1.09 dB 的提升,且與FSRCNN、VDSR 和LapSRN 結構相比都有一定的提高。利用FPN 進行特征提取,采用特殊密集網絡連接RCN進行特征映射,以及利用CNN 進行特征重建,這三者組成的深度學習網絡的PSNR 比經典模型的PSNR 更高,圖像失真程度更小,結構相似性有一定提升。可見本文方法具有以下特點:1)由表4 可知,整體的重建上提升了PSNR 和SSIM 值;2)由圖12 的視覺對比可知,特征映射時增加了對小目標特征的關注度。本文針對肺部CT 圖像關注內部紋理的特點,設計優化細節的網絡結構,為醫學圖像SR 重建提供了一種新思路。圖12 圈中部分指出,從紋理細節的感知上,FDSR優于其他的對比網絡,尤其是微小細節。這也是本文引入FPN 結構的主要原因:提升肺結節和紋理細節的特征占比,關注小目標的重建效果。但本文重點放在對SR 圖像像素相似度數值的提升,而非提升視覺感知,所以圖12 中視覺差異不是特別明顯。圖12(b)~(g)中,各個圖像PSNR 值依次為:29.78、36.08、36.28、36.81、37.02 和37.17 dB??梢姡現DSR圖像的PSNR 數值更高,紋理細節重建效果更好。

圖12 FDSR與不同深度學習方法的視覺比較Fig.12 Visual comparison of FDSR and different deep learning methods

表4 FDSR與不同深度學習方法在PSNR和SSIM上的比較Tab.4 Comparison of FDSR and different deep learning methods on PSNR and SSIM
本文提出了一種基于FPN 和密集網絡的醫學圖像SR 重建的方法FDSR。該方法對LR 圖像與HR 圖像之間的殘差進行重建,在特征提取部分引入FPN,增大肺結節及紋理細節這類小目標的特征占比,在特征映射部分構建RCN 結構,用特殊密集網絡連接RCN,最終通過CNN 特征重建。實驗結果表明,FDSR 方法較Bicubic 等傳統方法以及SRCNN、FSRCNN 等基礎模型有更好的重建結果,比VDSR 和LapSRN等深度較深的模型效果也更好。作為醫學圖像SR 重建技術,FDSR 也保證了重建基礎的真實性。
后續工作可以考慮從空間注意力機制來加深對某些像素點的關注度。由于本文并未考慮到人眼的視覺特性,主要從PSNR 和SSIM 的角度優化模型,因此,觀察圖12 可以發現從視覺的角度判斷FDSR 對比其他經典模型的優勢比較微弱。下一步研究可以從視覺角度對FDSR 進一步優化:構建雙分支網絡,主要分支采用本文的FDSR 結構,感知分支采用肺實質分割圖像做輸入,融合其特征到主要分支,通過肺實質分割圖像的邊緣等細節信息增強特征中的高頻信息,從而提高視覺感知質量。