呂鑫棟,李嬌,鄧真楠,馮浩,崔欣桐,鄧紅霞
(太原理工大學(xué) 信息與計算機(jī)學(xué)院,山西 太原 030024)
圖像超分辨率重建(super resolution,SR)是指從低分辨率圖像(low resolution,LR)中恢復(fù)高分辨率(high resolution,HR)圖像的一類重要的圖像處理技術(shù),可以應(yīng)用于醫(yī)學(xué)成像、人臉圖像恢復(fù)和視頻監(jiān)視等領(lǐng)域.人臉圖像和醫(yī)學(xué)圖像具有結(jié)構(gòu)不變性,即固定的幾何結(jié)構(gòu)和豐富的先驗信息.人臉超分辨重建可以輔助提高人臉識別精準(zhǔn)度,高質(zhì)量的醫(yī)學(xué)圖像對病情診斷分析以及治療都具有重要的意義.近年來,隨著深度學(xué)習(xí)技術(shù)快速發(fā)展,各種深度學(xué)習(xí)方法被用于解決SR任務(wù),從早期的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[1]的方法到基于生成對抗網(wǎng)絡(luò)的SR方法(super resolution generative adversarial network,SRGAN)[2],已有不少學(xué)者提出可以利用圖像的結(jié)構(gòu)化特征進(jìn)行圖像重建.Ma等[3]利用梯度分支恢復(fù)HR的梯度圖,通過HR的梯度圖幫助生成器網(wǎng)絡(luò)關(guān)注圖像的幾何結(jié)構(gòu)特征.Zhang等[4]提出一種殘差非局部注意力網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)搭建局部和非局部注意力塊來提取特征.局部注意力塊關(guān)注特征圖的局部結(jié)構(gòu),而非局部注意力塊更多考慮整個特征圖中的長距離依賴關(guān)系.徐永兵等[5]提出一種視差注意力機(jī)制來充分學(xué)習(xí)雙目圖像的結(jié)構(gòu)信息,有效提高圖像質(zhì)量.上述方法利用圖像的結(jié)構(gòu)特征進(jìn)行重建,但是這些方法都未應(yīng)用在結(jié)構(gòu)化圖像數(shù)據(jù)集上.
基于深度學(xué)習(xí)的結(jié)構(gòu)化圖像SR算法可以歸納為以下2個方面.1)從不使用結(jié)構(gòu)化圖像先驗信息進(jìn)行重建的角度出發(fā),Zhou等[6]提出采用CNN來學(xué)習(xí)LR人臉圖像到HR人臉圖像的映射;Liu等[7]提出的是一種先對低頻信息進(jìn)行去噪恢復(fù),再利用子網(wǎng)絡(luò)對高頻信息進(jìn)行補(bǔ)償?shù)募壜?lián)模型;Liu等[8]提出利用漸進(jìn)式上采樣來逐步獲取高倍率的人臉圖像.這些SR方法都是采用CNN搭建網(wǎng)絡(luò),受CNN局部感受野的限制,重建網(wǎng)絡(luò)對全局信息的建模能力不足,結(jié)構(gòu)化圖像重建效果的自然度和逼真度還有待提高.2)由于結(jié)構(gòu)化圖像的特殊性,很多學(xué)者考慮利用結(jié)構(gòu)化圖像的先驗知識輔助圖像重建過程.Chen等[9]提出通過人臉圖像的特殊性,構(gòu)建先驗知識,從人臉圖像中提取幾何先驗信息(面部解析圖),輔助SR網(wǎng)絡(luò)重建,提高超分辨率的效果.與文獻(xiàn)[9]使用先驗信息類似,Zhang等[10]提出MSFSR創(chuàng)建一種新的面部先驗網(wǎng)絡(luò),利用對LR圖像進(jìn)行漸進(jìn)處理.對于8倍放大因子,使用3個2倍上采樣因子的子網(wǎng)絡(luò)構(gòu)建級聯(lián)網(wǎng)絡(luò).Yin等[11]提出利用人臉關(guān)鍵點(diǎn)先驗估計與人臉圖像SR之間的相關(guān)性進(jìn)行重建.Kim等[12]利用一個輕量級的邊緣塊和身份信息來最小化失真程度,使用邊緣塊來提取感知的邊緣信息,將邊緣塊連接到原始的多尺度特征映射,額外定義一個身份損失函數(shù)來保留SR圖像的身份.劉朋偉等[13]利用多感受野特征提取塊中的空間注意力模塊,充分獲取圖像空間特征信息,減少淺層和局部特征在網(wǎng)絡(luò)中的丟失,從而輔助生成高質(zhì)量醫(yī)學(xué)MRI圖像.基于先驗信息引導(dǎo)的結(jié)構(gòu)化圖像SR方法,大多只適用于特定的結(jié)構(gòu)化圖像上,例如人臉先驗信息引導(dǎo)的SR方法,利用面部解析圖或人臉關(guān)鍵點(diǎn)作為先驗知識進(jìn)行重建,但是無法適用在醫(yī)學(xué)圖像上.
針對上述SR方法存在的問題,提出一種基于改進(jìn)Transformer的結(jié)構(gòu)化圖像超分辨率網(wǎng)絡(luò)(structured image super-resolution network based on improved Transformer,TransSRNet):1)融合沙漏塊構(gòu)成的空間注意力單元和Swin Transformer構(gòu)成的殘差Transformer塊對圖像進(jìn)行超分辨重建.沙漏塊負(fù)責(zé)提取圖像映射過程中的結(jié)構(gòu)化信息并生成注意力矩陣,使得空間注意力模塊重點(diǎn)關(guān)注具有結(jié)構(gòu)化信息的區(qū)域,而Transformer彌補(bǔ)了沙漏塊在關(guān)注圖像結(jié)構(gòu)化特征時對全局上下文表征能力的不足,二者在功能上相互補(bǔ)充;2)利用通道注意力層ECA模塊減少網(wǎng)絡(luò)對冗余通道的關(guān)注;3)聯(lián)合像素?fù)p失、SSIM損失和風(fēng)格損失對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.本研究提出的網(wǎng)絡(luò)一方面利用Transformer的自注意力機(jī)制提高重建效果的真實(shí)度;另一方面,沙漏塊結(jié)構(gòu)可以不受特定結(jié)構(gòu)化圖像先驗信息的約束,即使在不同的結(jié)構(gòu)化圖像數(shù)據(jù)集上,也能保持較好的重建效果.
Newell等[14]提出利用沙漏塊(hourglass block,HB)進(jìn)行人體姿態(tài)估計.HB是對稱結(jié)構(gòu),在下采樣過程和上采樣的過程中的網(wǎng)絡(luò)層存在一一對應(yīng)的關(guān)系.HB將多個卷積層緊密相連,有利于處理多尺度的結(jié)構(gòu)化信息,能夠有效地處理和整合跨尺度的特征,HB網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.利用卷積層將特征分辨率逐步縮小;在對稱層之間進(jìn)行跳躍連接,在跳躍連接中對原來尺度的特征進(jìn)行卷積;得到低分辨率特征后,網(wǎng)絡(luò)開始進(jìn)行上采樣,并逐漸結(jié)合不同尺度的結(jié)構(gòu)化特征信息,將2個不同的特征集進(jìn)行逐元素相加后得到輸出特征.人臉圖像超分辨重建網(wǎng)絡(luò)FSRNet[9]使用HB構(gòu)建先驗預(yù)測子網(wǎng)絡(luò),對人臉幾何先驗信息進(jìn)行預(yù)測,從而輔助人臉圖像的恢復(fù).
Transformer[15]的多頭自注意力層和前反饋MLP層堆疊起來容易捕捉單詞之間的遠(yuǎn)程相關(guān)性.受到Transformer在自然語言處理(natural language processing,NLP)領(lǐng)域的激勵,人們嘗試著探索和利用Transformer在各種視覺任務(wù)中的優(yōu)勢,以強(qiáng)調(diào)提取全局特征的重要性.Dosovitskiy等[16]提出的Vision Transformer,它將16×16圖像塊視為序列,并通過一個唯一的類令牌預(yù)測圖像的類別.Swin Transformer[17]表現(xiàn)出巨大的潛力,因為它整合了CNN和Transformer的優(yōu)勢.一方面,由于局部注意機(jī)制,Swin Transformer具有CNN處理大尺寸圖像的優(yōu)勢;另一方面,Swin Transformer具有Transformer的優(yōu)點(diǎn),可以用移位的窗口對長期依賴關(guān)系進(jìn)行建模.
近年來,通道注意機(jī)制在提高深度卷積神經(jīng)網(wǎng)絡(luò)性能方面體現(xiàn)出巨大的潛力.Hu等[18]提出SENet利用全連接層預(yù)測通道注意力權(quán)重,減少對冗余通道的關(guān)注.Wang等[19]指出SENet中的降維會給通道注意力機(jī)制帶來副作用,并且捕獲所有通道之間的依賴關(guān)系,增加網(wǎng)絡(luò)復(fù)雜度.為了平衡性能與網(wǎng)絡(luò)復(fù)雜度,Wang等還提出一種高效通道注意力(effificient channel attention,ECA)模塊,該模塊只涉及很少參數(shù),卻能帶來明顯的績效提升.ECA模塊利用一維卷積實(shí)現(xiàn)不降維的局部跨通道交互,同時開發(fā)了一種自適應(yīng)選擇一維卷積核大小的方法,以確定局部跨通道相互作用的覆蓋范圍.
TransSRNet的整體架構(gòu)如圖2所示.它由5個部分組成:編碼器、空間注意力模塊、自注意力模塊、特征融合模塊和解碼器.網(wǎng)絡(luò)的輸入和輸出分別為ILR、ISR,具體操作如下.

圖2 TransSRNet結(jié)構(gòu)圖Fig.2 TransSRNet structure diagram
1)深層特征提取:使用雙三次插值對低分辨圖像進(jìn)行上采樣得到網(wǎng)絡(luò)輸入ILR;從輸入圖像ILR中,使用卷積層提取包含豐富結(jié)構(gòu)信息的淺層特征.淺層特征作為編碼器的輸入,進(jìn)一步提取深層特征.
2)建立映射關(guān)系:深層特征作為空間注意力模塊和自注意力模塊的輸入,分別提取局部特征和全局特征.在獲得局部和全局特征后,使用特征融合模塊進(jìn)行特征融合,該模塊先對局部特征和全局特征在通道維度進(jìn)行Concat拼接,然后依次經(jīng)過ECA模塊、卷積層和ECA模塊得到融合特征.
3)圖像上采樣重建:融合后的特征送入解碼器進(jìn)行圖片恢復(fù),隨后通過卷積層輸出RGB的三通道圖像ISR.
空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá),本質(zhì)上是將原始圖片中的空間結(jié)構(gòu)化信息通過空間轉(zhuǎn)換模塊,變換到另一個空間中并保留關(guān)鍵信息,為每個位置生成結(jié)構(gòu)化特征的注意力權(quán)重并加權(quán)輸出,從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域同時弱化不相關(guān)的背景區(qū)域.
使用沙漏塊構(gòu)建空間注意力單元,空間注意力單元結(jié)構(gòu)如圖3所示, 整體采用殘差結(jié)構(gòu),圖中H、W、C分別為特征圖的高、寬、通道數(shù).沙漏塊中下采樣卷積是一個步長為2的卷積層,上采樣卷積則是先進(jìn)行最近鄰插值,再進(jìn)行卷積操作,有助于避免棋盤形偽像.以第j個空間注意力單元為例,空間注意力單元的輸入特征和輸出特征分別為Ij-1、Ij:

圖3 空間注意力單元結(jié)構(gòu)圖Fig.3 Spatial attention unit structure diagram
式中:FCB()為一個由批量歸一化層、LeakyRelu激活函數(shù)和卷積層組成的卷積塊,目的是從輸入特征中提取包含更高維度信息的特征Iatt;FHB()為沙漏塊結(jié)構(gòu);?為矩陣乘;φ ()為sigmoid函數(shù),用來生成注意力權(quán)重矩陣.
空間注意力單元采用可以在結(jié)構(gòu)化圖像上捕捉多尺度的結(jié)構(gòu)化特征信息,通過將空間注意力單元堆疊在一起,使得重要的空間結(jié)構(gòu)化特征不斷增強(qiáng),從而輸出像素級的預(yù)測.編碼器和解碼器也采用類似的結(jié)構(gòu),編碼器和解碼器結(jié)構(gòu)如圖4所示.編碼器中的下采樣卷積與沙漏塊中下采樣卷積相同,解碼器中的上采樣卷積與沙漏塊中上采樣卷積相同.

圖4 編碼器和解碼器結(jié)構(gòu)圖Fig.4 Encoder and Decoder structure diagram
使用Swin Transformer構(gòu)造自注意力模塊,殘差Transformer塊結(jié)構(gòu)如圖5所示,殘差Transformer塊是由Swin Transformer塊和卷積層構(gòu)成的殘差塊.MSA為多頭自注意力層,MLP為多層感知機(jī).假設(shè)第i個殘差Transformer塊的輸入特征為Ii,0,那么第i個殘差Transformer塊中第j個Swin Transformer塊的輸出特征為

圖5 殘差Transformer塊結(jié)構(gòu)圖Fig.5 Residual Transformer block structure diagram
式中:FSTBi,j()為第i個殘差Transformer塊中的第j個Swin Transformer模塊.第i個殘差Transformer塊的輸出特征向量為
式中:Ii,J為第i個殘差Transformer塊中最后一個Swin Transformer塊的輸出特征,為一個卷積核大小為3*3的卷積層.Swin Transformer通過將自注意力計算限制在不重疊的局部窗口中,同時允許跨窗口連接,移位的窗口方案帶來更高的效率.這種分層體系結(jié)構(gòu)具有在各種尺度上建模的靈活性,并且相對于圖像大小具有線性計算復(fù)雜性.對于輸入特征X的傳播過程為
式中:M SA()為多頭自注意力層,M LP()為多層感知機(jī).
在多頭自注意力層和多層感知機(jī)之前添加LayerNorm(LN)層,2個模塊均采用殘差連接.在多頭自注意力層中,首先將輸入特征劃分為不重疊的N2個本地窗口,分別計算每個窗口的局部自注意.對于特征X,查詢矩陣Q、鍵矩陣K和值矩陣V、K和V為
式中:o,κ和υ為需要訓(xùn)練更新的權(quán)重參數(shù)矩陣.
與絕對位置編碼相比,經(jīng)典的Transformer[15-16]使用確定性的位置編碼或可學(xué)習(xí)的位置編碼.相對位置編碼[20]能夠在局部內(nèi)容之間學(xué)習(xí)更強(qiáng)的“關(guān)系”,在大規(guī)模數(shù)據(jù)集訓(xùn)練的情況下,帶來重要的性能提升,并得到廣泛的應(yīng)用[21].本研究中的Transformer添加相對位置編碼,通過局部窗口內(nèi)的自注意機(jī)制計算出注意力矩陣.注意力矩陣為
式中:d=C/M,C為特征X的通道數(shù),M為多頭自注意力層中的自注意力頭數(shù);E為可學(xué)習(xí)的相對位置編碼,作為偏置項加入到注意力圖中.
為了實(shí)現(xiàn)窗口之間的交互,交替使用正則窗口劃分和移位窗口劃分來實(shí)現(xiàn)跨窗口連接,其中移位窗口劃分就是在劃分前將特征移動(N/2,N/2)個像素.多層感知機(jī)利用全連接層和GELU非線性激活函數(shù)做進(jìn)一步的特征轉(zhuǎn)換.
使用ECA模塊關(guān)注空間注意力模塊和自注意力模塊中的通道重要性差異,同時在特征融合時減少對冗余通道的關(guān)注.ECA模塊結(jié)構(gòu)圖6所示,圖中GAP為全局平均池化層.假設(shè)ECA模塊的輸入特征為Iin,那么ECA模塊的輸出特征為

圖6 ECA模塊結(jié)構(gòu)圖Fig.6 ECA module structure diagram
式中:Iin在 經(jīng)過全局平均池化層FGAP()后,利用一維卷積F1DConv()在局部相鄰?fù)ǖ乐g建立連接關(guān)系,局部跨通道交互范圍的大小由一維卷積的卷積核大小決定.
卷積核大小與ECA模塊輸入特征Iin的通道維度大小呈正相關(guān).一維卷積的輸出特征經(jīng)過sigmoid函數(shù)得到通道注意力權(quán)重,ECA模塊的輸入特征與通道注意力權(quán)重進(jìn)行元素相乘后得到輸出 特 征Iout.
使用Adam優(yōu)化器,參數(shù)β1= 0.90,β2=0.99.學(xué)習(xí)率衰減策略選擇線性衰減.聯(lián)合多個損失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.聯(lián)合損失函數(shù)為
式中:α 、 β、γ 為各自損失對應(yīng)的權(quán)重.在圖像轉(zhuǎn)換問題中,像素?fù)p失是一種基于輸出圖像與真實(shí)圖像之間的差值方法,計算2幅圖片中所有對應(yīng)位置的像素點(diǎn)之間的平均絕對誤差,最小化差值就會使得2幅圖像越相似,定義為
式中:H、W、C分別為圖像的高度、寬度和通道數(shù),Ii,j,k為圖像I位于(i,j,k)上的像素值.像素?fù)p失采用L1損失(平均絕對誤差)來約束SR圖像在像素值上與HR圖像足夠接近.與像素?fù)p失類似,SSIM損失是為了改善超分辨圖像的SSIM而設(shè)計,原理如下:
式中:S SIM()為SSIM的計算.SSIM損失通常用于生成細(xì)節(jié)更精細(xì)、視覺質(zhì)量更好的超分辨圖像.Gatys等[22]提出風(fēng)格損失,并用于圖像樣式傳輸.在某種程度上,這種損失與感知損失相似,因為都是特征層面上的損失功能.超分辨重建圖像ISR和真實(shí)高分辨圖像IHR都被輸入到一個預(yù)先訓(xùn)練的VGG(visual geometry group)網(wǎng)絡(luò)中,以獲得它們相應(yīng)的特征FSR和FHR,計算Gram矩陣,這些矩陣用于計算損失,定義為
式中:G()為獲取特征Gram矩陣的操作.使用以上3個損失聯(lián)合訓(xùn)練可以從多個角度加速網(wǎng)絡(luò)的收斂,進(jìn)一步提高網(wǎng)絡(luò)性能.
3.1.1 數(shù)據(jù)集及參數(shù)設(shè)置 實(shí)驗過程使用CelebA數(shù)據(jù)集[23]進(jìn)行訓(xùn)練,從Helen數(shù)據(jù)集[24]中隨機(jī)選取200張作為測試集進(jìn)行測試.另外使用癌癥影像檔案(the cancer imaging archive, TCIA)網(wǎng)站公開的TCGA-ESCA食道癌和TCGA-COAD結(jié)腸腺癌的CT數(shù)據(jù)集,共計26522張圖像進(jìn)行放大因子分別為2、3、4、8的訓(xùn)練.將1000張圖片進(jìn)行測試,實(shí)驗設(shè)置批處理大小為16,迭代次數(shù)設(shè)置為20,網(wǎng)絡(luò)初始化方式設(shè)置為xavier,并確定學(xué)習(xí)速率為2×10-4,學(xué)習(xí)率衰減策略選擇線性衰減.實(shí)驗在一臺單獨(dú)的 Tesla V100 GPU上進(jìn)行訓(xùn)練和評估,所有代碼都是用Pytorch和Python編寫和測試的.
3.1.2 數(shù)據(jù)集預(yù)處理 對人臉數(shù)據(jù)集進(jìn)行預(yù)處理,使用多任務(wù)卷積網(wǎng)絡(luò)(multi-task convolutional neural network,MTCNN)[25]檢測人臉并粗略地裁剪出人臉區(qū)域,通過雙三次插值將大小調(diào)整為128×128,并用作HR訓(xùn)練集.通過對HR圖像進(jìn)行下采樣得到LR(16×16)訓(xùn)練集,產(chǎn)生大約202 K的圖像對.對CT圖像數(shù)據(jù)集進(jìn)行預(yù)處理則需要將27522張DCM格式的CT圖像轉(zhuǎn)換為PNG格式,通過雙三次插值調(diào)整圖像大小為256×256,并將26522張圖像作為訓(xùn)練集.為了避免過擬合,通過隨機(jī)水平翻轉(zhuǎn)、圖像縮放(縮放比例在1.0~1.3)進(jìn)行數(shù)據(jù)增強(qiáng).
3.1.3 評價指標(biāo) 在實(shí)驗中使用評價指標(biāo)圖像峰值信噪比(peak signal to noise ratio,PSNR)和圖像結(jié)構(gòu)相似度(structural similarity,SSIM)進(jìn)行量化評估.PSNR是有損變換(如圖像壓縮、圖像修補(bǔ))中最常用的重構(gòu)質(zhì)量度量之一.對于圖像超分辨率,PSNR是通過圖像之間的最大像素值(L)和均方誤差(MSE)來定義的.給定具有N個像素的真實(shí)高分辨率圖像h和重建圖像s,h和s之間的PSNR 定義為
式中:在圖像像素使用8個bit位表示的情況下,L=255.
PSNR僅與像素級的均方誤差相關(guān),只關(guān)心相應(yīng)像素之間的差異,PSNR是目前SR模型中使用最廣泛的評估標(biāo)準(zhǔn).SSIM用來測量圖像之間的亮度、對比度和結(jié)構(gòu)的差異.對于具有N個像素的真實(shí)高分辨率圖像h和重建圖像s,SSIM定義為
式中:μs為圖像s的平均值,σs為 圖像s的方差,μh為圖像h的平均值,σh為圖像h的方差,ωs,h為圖像s和圖像h的協(xié)方差.
消融實(shí)驗使用CelebA數(shù)據(jù)集進(jìn)行放大因子為8的訓(xùn)練,使用Helen數(shù)據(jù)集進(jìn)行測試,分別進(jìn)行以下實(shí)驗,目的是確定在網(wǎng)絡(luò)重建性能達(dá)到最佳時的空間注意力單元數(shù)量和殘差Transformer塊數(shù)量;探究空間注意力模塊和自注意力模塊各自對重建性能的影響;探究聯(lián)合不同的損失函數(shù)進(jìn)行訓(xùn)練對重建性能的影響;探究利用通道注意力機(jī)制進(jìn)行特征融合時,不同的通道注意力模塊對重建性能的影響.
為了確定在網(wǎng)絡(luò)重建性能達(dá)到最佳時的空間注意力單元數(shù)量N,實(shí)驗在移除自注意力模塊和ECA模塊的條件下進(jìn)行,實(shí)驗結(jié)果如圖7所示.三角形點(diǎn)為PSNR值,圓形點(diǎn)為SSIM值.結(jié)果表明,隨著空間注意力單元數(shù)量的增加,PSNR、SSIM逐漸增加,性能增益逐漸飽和,并在空間注意力單元數(shù)量為16時到達(dá)峰值.因此,在其余實(shí)驗中空間注意力塊設(shè)置為16.由此可見,由沙漏塊構(gòu)成的空間注意力單元經(jīng)過堆疊后可以對局部空間信息有效進(jìn)行有效建模.過多的空間注意力單元反而會導(dǎo)致網(wǎng)絡(luò)性能下降,原因在于過多的空間注意力單元會造成信息的冗余,從而影響網(wǎng)絡(luò)性能.

圖7 不同空間注意力單元數(shù)量對PSNR、SSIM的影響Fig.7 Effects of different numbers of spatial attention units on PSNR and SSIM
為了確定在網(wǎng)絡(luò)重建性能達(dá)到最佳時的殘差Transformer塊數(shù)量,實(shí)驗在空間注意力單元數(shù)量設(shè)置為16的前提下進(jìn)行.表1展示不同殘差Transformer塊數(shù)量對模型性能的影響.結(jié)果表明,隨著殘差Transformer塊數(shù)量增加,PSNR和SSIM也逐漸增加.當(dāng)殘差Transformer塊數(shù)量數(shù)為6時到達(dá)峰值,在其余實(shí)驗中,殘差Transformer塊數(shù)量設(shè)置為6.添加一定數(shù)量的殘差Transformer塊可以使得網(wǎng)絡(luò)利用自注意力機(jī)制對全局上下文進(jìn)行關(guān)注,從而對全局信息建立映射關(guān)系,由此可以驗證自注意力機(jī)制對結(jié)構(gòu)化圖像超分辨重建的有效性.

表1 不同殘差Transformer塊數(shù)量對PSNR、SSIM的影響Tab.1 Effects of different numbers of residual Transformer blocks on PSNR and SSIM
為了探究空間注意力模塊和自注意力模塊各自對重建性能的影響,進(jìn)行3個實(shí)驗,實(shí)驗結(jié)果如表2所示.其中模型1(Model1)是去除自注意力模塊,保留空間注意力模塊后的網(wǎng)絡(luò)模型;模型2(Model2)是去除空間注意力模塊,保留自注意力模塊后的網(wǎng)絡(luò)模型;模型3(Model3)是同時保留空間注意力模塊和自注意力模塊后的網(wǎng)絡(luò)模型.在這些實(shí)驗中,空間注意力塊中的空間注意力單元數(shù)量設(shè)置為16,自注意力模塊中殘差Transformer塊數(shù)量設(shè)置為6.分析實(shí)驗結(jié)果可以得出以下結(jié)論: 1)從實(shí)驗2、3中可以看出,去除空間注意力模塊后,重構(gòu)性能嚴(yán)重下降,因為網(wǎng)絡(luò)缺少對圖像局部結(jié)構(gòu)化信息的建模能力; 2)從實(shí)驗1~3中可以看出,添加自注意力模塊可以通過捕獲全局信息來約束局部信息生成,從而提高網(wǎng)絡(luò)性能.

表2 保留不同注意力模塊對PSNR、SSIM的影響Tab.2 Effects of retaining different attention modules on PSNR and SSIM
為了探究聯(lián)合不同的損失函數(shù)進(jìn)行訓(xùn)練對重建性能的影響而進(jìn)行的實(shí)驗結(jié)果如表3所示.從表3中觀察到聯(lián)合風(fēng)格損失進(jìn)行訓(xùn)練可以對PSNR評價指標(biāo)有一定程度的提升.這是由于風(fēng)格損失使用Gram矩陣來代替協(xié)方差矩陣,使得生成圖片與真實(shí)圖片的特征統(tǒng)計數(shù)據(jù)相近.聯(lián)合SSIM損失進(jìn)行訓(xùn)練能夠盡可能地提升SSIM指標(biāo),這是因為SSIM損失時刻關(guān)注圖像之間的結(jié)構(gòu)相似性差異.

表3 聯(lián)合不同損失函數(shù)對PSNR、SSIM的影響Tab.3 Effect of joint different loss functions on PSNR and SSIM
為了探究通道注意力機(jī)制的特征融合、不同的通道注意力模塊對重建性能的影響,在基礎(chǔ)網(wǎng)絡(luò)分別添加SE模塊和ECA模塊.實(shí)驗結(jié)果如圖8所示.圖中BL為基礎(chǔ)網(wǎng)絡(luò),SE為基礎(chǔ)網(wǎng)絡(luò)中添加SE模塊后的網(wǎng)絡(luò),ECA為基礎(chǔ)網(wǎng)絡(luò)中添加ECA模塊后的網(wǎng)絡(luò),劃線柱形為PSNR指標(biāo)值,空心柱形為SSIM指標(biāo)值.從圖8中看出, SE模塊使得PSNR值和SSIM值有一定的提升.ECA模塊對網(wǎng)絡(luò)性能的提升效果要優(yōu)于SE模塊,主要原因是ECA模塊中的一維卷積比SE模塊中的全連接層更能夠有效地提取通道特征,減少冗余特征對網(wǎng)絡(luò)性能的影響.

圖8 SE模塊和ECA模塊對PSNR、SSIM的影響Fig.8 Effects of SE module and ECA module on PSNR and SSIM
通過以上實(shí)驗可以得出結(jié)論:提出的TransSRNet經(jīng)過堆疊適當(dāng)數(shù)量的空間注意力單元和殘差Transformer塊能夠一定程度上,提高對結(jié)構(gòu)化圖像的重建效果.該網(wǎng)絡(luò)以空間注意力模塊為主要模塊和自注意力模塊為輔助模塊,對LR到HR建立映射關(guān)系,多損失聯(lián)合訓(xùn)練和ECA通道注意力模塊的加入也可以進(jìn)一步提升超分辨重建性能.
為了探討TransSRNet對不同結(jié)構(gòu)化圖像數(shù)據(jù)集的重建性能,將所提方法與當(dāng)前優(yōu)秀的重建算法進(jìn)行比較,包括基于生成對抗網(wǎng)絡(luò)的SRGAN[2],利用梯度圖關(guān)注圖像結(jié)構(gòu)特征的SPSR[3],基于先驗信息約束的人臉超分辨率重建網(wǎng)絡(luò)FSRNet[9]和EIPNet[12],這些方法與本研究的實(shí)驗條件相似,在TCGA-ESCA 食道癌、TCGA-COAD結(jié)腸腺癌CT圖像數(shù)據(jù)集上進(jìn)行對比試驗.通過實(shí)驗可以驗證TransSRNet能夠?qū)Σ煌愋偷慕Y(jié)構(gòu)化圖像保持良好的重建效果.
表4展示在Helen測試數(shù)據(jù)集上進(jìn)行放大因子為2、3、4、8的超分辨率重建實(shí)驗結(jié)果,表中最優(yōu)指標(biāo)為加粗字體,TransSRNet在PSNR和SSIM指標(biāo)上明顯優(yōu)于其他對比方法.在這些對比結(jié)果中,可以發(fā)現(xiàn)基于人臉先驗信息約束的FSRNet方法和EIPNet方法并沒有比所提的TransSRNet重建效果好,導(dǎo)致這一結(jié)果的主要原因在于人臉先驗信息約束的模型性能夠受先驗信息預(yù)測準(zhǔn)確度的影響,不準(zhǔn)確的先驗信息會嚴(yán)重影響重建效果.

表4 不同方法在Helen數(shù)據(jù)集上的對比結(jié)果Tab.4 Comparison results of different methods on Helen dataset
圖9展示不同方法在Helen測試數(shù)據(jù)集上進(jìn)行放大因子為2、3、4、8的主觀效果對比圖.可以從放大因子為8的實(shí)驗中發(fā)現(xiàn),由于SRGAN未考慮圖像結(jié)構(gòu)信息,SRGAN對人臉圖像的重建效果較差.與SRGAN相比,SPSR可以恢復(fù)出圖像的大致輪廓,這是因為SPSR利用梯度信息和梯度損失幫助生成器網(wǎng)絡(luò)關(guān)注圖像的幾何結(jié)構(gòu),F(xiàn)SRNet和EIPNet重建的結(jié)果則相對較好.與TransSRNet重建結(jié)果相比,F(xiàn)SRNet和EIPNet對眼睛和嘴唇的重建產(chǎn)生不同程度的失真,TransSRNet的重建結(jié)果更好地保留結(jié)構(gòu)信息.

圖9 在Helen數(shù)據(jù)集上放大因子為2、3、4和8的主觀效果對比圖Fig.9 Comparison of subjective effects with upscalefactors of 2, 3, 4 and 8 on Helen dataset
FSRNet和EIPNet是用于人臉圖像這一特定領(lǐng)域的超分辨重建算法,并不適用于醫(yī)學(xué)圖像超分辨重建.另取RNAN算法[4]和基于非局部稀疏注意力的圖像超分辨率網(wǎng)絡(luò)(NLSN)[26]進(jìn)行對比實(shí)驗.表5展示不同方法在醫(yī)學(xué)CT數(shù)據(jù)集上的超分辨率重建實(shí)驗對比結(jié)果,表中最優(yōu)指標(biāo)為加粗字體.從表5中可以看出,TransSRNet在放大因子為3、4、8時的評價指標(biāo)優(yōu)于其他算法,在放大因子為2時的評價指標(biāo)略低于NLSN算法,由此可以證明TransSRNet能夠?qū)Σ煌愋偷慕Y(jié)構(gòu)化圖像數(shù)據(jù)集保持相同的重建效果,原因在于TransSRNet的沙漏塊只需要考慮圖像的結(jié)構(gòu)信息,不需要考慮特定類型結(jié)構(gòu)化圖像的先驗知識,而且該網(wǎng)絡(luò)利用Transformer的自注意力機(jī)制,提高了對結(jié)構(gòu)化圖像重建效果的自然度和逼真度.

表5 不同方法在醫(yī)學(xué)CT數(shù)據(jù)集上的對比結(jié)果Tab.5 Comparison results of different methods on medical CT dataset
圖10~13分別展示不同方法在醫(yī)學(xué)CT數(shù)據(jù)集上放大因子為2、3、4、8時的重建效果對比圖.其中,圖10~13的第1幅圖片為TCGA-ESCA食道癌圖像、第2幅圖片為TCGA-COAD結(jié)腸腺癌圖像,圖像下方的數(shù)字為該圖像和對應(yīng)HR圖像之間的PSNR值和SSIM值,可以看出TransSRNet在放 大因子為3、4、8時的評價指標(biāo)上優(yōu)于其他方法.

圖10 在醫(yī)學(xué)CT數(shù)據(jù)集上放大因子為2的主觀效果對比圖Fig.10 Comparison of subjective effects with upscale factor of 2 on medical CT dataset

圖11 在醫(yī)學(xué)CT數(shù)據(jù)集上放大因子為3的主觀效果對比圖Fig.11 Comparison of subjective effects with upscale factor of 3 on medical CT dataset

圖12 在醫(yī)學(xué)CT數(shù)據(jù)集上放大因子為4的主觀效果對比圖Fig.12 Comparison of subjective effects with upscale factor 4 on medical CT dataset

圖13 在醫(yī)學(xué)CT數(shù)據(jù)集上放大因子為8的主觀效果對比圖Fig.13 Comparison of subjective effects with upscale factor 8 on medical CT dataset
本研究提出一種基于改進(jìn)Transformer的結(jié)構(gòu)化圖像超分辨網(wǎng)絡(luò),該網(wǎng)絡(luò)利用Swin Transformer對全局信息進(jìn)行關(guān)注,并且與沙漏塊構(gòu)成的空間注意力模塊做特征融合,在關(guān)注局部結(jié)構(gòu)化特征的同時保持對全局信息的一致性,在一定程度上提高了重建效果的保真度,可以應(yīng)用于不同類型的結(jié)構(gòu)化圖像數(shù)據(jù)集.本研究還利用ECA模塊的通道注意力機(jī)制,減少網(wǎng)絡(luò)對冗余特征的關(guān)注,通過大量消融實(shí)驗證明TransSRNet的有效性.TransSRNet存在一定局限性,雖然TransSRNet在一些評價指標(biāo)上取得較好的表現(xiàn),從網(wǎng)絡(luò)參數(shù)量和計算量的角度出發(fā),所提的TransSRNet還有待優(yōu)化,因此在保證重建性能的前提下如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、減少訓(xùn)練參數(shù)量,將成為下一步的研究重點(diǎn).