作者簡介:嚴靖易(1995-),男,四川宜賓人,碩士研究生,主要研究方向為計算機視覺、深度學習、圖像分割;李小霞(1976-),女(通信作者),四川安岳人,教授,博導,博士,主要研究方向為人工智能、模式識別(664368504@qq.com);秦佳敏(1979-),女,重慶酉陽人,副主任醫師,碩士,主要研究方向為消化道腫瘤的內鏡診治;文黎明(1964-),男,四川射洪人,主任醫師,碩導,碩士,主要研究方向為消化道腫瘤;周穎玥(1981-),女,四川馬爾康人,副教授,碩導,博士,主要研究方向為圖像處理與分析.
摘 要:針對內鏡圖像去模糊過程中語義信息難以提取和細節紋理重建困難的問題,設計了一種新的抽樣切分卷積,并將其應用于跨尺度特征融合過程中:通過等間隔抽樣將大尺度特征無損切分成小尺度特征塊,再與小尺度特征進行卷積融合。過程中大尺度特征的所有值都參與了特征融合,避免了細節信息的丟失;未對小尺度特征進行插值,避免了語義信息的模糊。為進一步實現特征互補,設計了特征交互融合模塊,先用語義特征激活細節特征,再將兩者融合。針對內鏡圖像亮通道、中間通道和暗通道的特征差異性設計了梯度重建和頻域重建損失函數,提升了重建圖像的銳度。在EAD和Kvasir-SEG數據集上,該算法的PSNR分別達到32.88 dB和33.01 dB,SSIM分別達到0.972和0.973。實驗結果表明,該算法的性能優于主流去模糊算法,視覺上重建圖像的紋理更清晰,且未產生偽影。
關鍵詞:內鏡圖像重建;抽樣切分卷積;去模糊;跨尺度特征融合;損失函數
中圖分類號:TP391.4 文獻標志碼:A
文章編號:1001-3695(2023)04-044-1233-06
doi:10.19734/j.issn.1001-3695.2022.07.0392
Abstract:To solve the challenges of semantic information extraction and texture reconstruction in the process of endoscopic image deblurring,this paper designed a new sampling slice convolution(SSC)and applied it to the cross-scale feature fusion process.It divided the large-scale features into small-scale feature blocks losslessly by sampling at equal intervals,and then fused these feature blocks with small-scale features through convolution.All values of large-scale features participate in the feature fusion process,which could avoid the loss of detailed information.There was no interpolation operation on small-scale features,which could avoid the blurring of their semantic information.This paper proposed a feature interaction fusion(FIF)mo-dule,which used semantic features to activate detailed features,and then fused the two to achieve feature complementarity.This paper designed gradient reconstruction and frequency domain reconstruction loss functions for the feature differences of the bright channel,middle channel,and dark channel of endoscopic images to improve the sharpness of reconstructed images.Experiments on EAD and Kvasir-SEG datasets show that the PSNR of the algorithm reaches 32.88 dB and 33.01 dB,respectively,and the SSIM reaches 0.972 and 0.973,respectively.The experimental results show that the performance of the proposed algorithm is better than that of the mainstream deblurring algorithms,and the texture of the reconstructed image is visually clearer and does not produce artifacts.
Key words:endoscopic image reconstruction;sampling slice convolution;deblurring;cross-scale feature fusion;loss functions
0 引言
消化道癌癥在我國屬于發病率和致死率都較高的癌癥[1]。通過內鏡檢查及時發現消化道疾病并進行治療,是保證消化道疾病患者存活率的有效手段。內鏡檢查采圖過程中時常出現圖像模糊的問題,即便是使用高性能的鏡頭也不可避免。內鏡圖像去模糊不僅對內鏡檢查的臨床應用具有重要意義,且對后續基于內鏡圖像的計算機輔助診斷[2]來說同樣非常重要。
基于卷積神經網絡(convolutional neural network,CNN)的方法已經被廣泛應用于圖像去模糊任務中,而且已經取得了較好的性能表現。目前基于CNN的主流圖像去模糊算法多為端到端的模式,即輸入一張模糊圖片,直接輸出一張清晰圖片。Kupyn等人[3,4]先后提出了基于對抗生成網絡的圖像去模糊算法(deblurring generative adversarial networks,DeblurGAN)及其改進算法,可以較好地還原細節信息,但對于輸出圖像又存在產生虛假結構或重影的風險。另一方面,Nah等人[5]提出了一種基于CNN的多尺度動態場景圖像去模糊網絡(deep multi-scale CNN for dynamic scene deblurring,DeepDeblur),其思想是向網絡輸入一組不同分辨率的模糊圖像序列,通過子網絡逐級重建全分辨率圖像,但計算復雜度和內存開銷都較大。此后,各種基于CNN的多尺度圖像去模糊算法[6~9]相繼被提出,去模糊性能也在不斷提升。2018年,Tao等人[6]提出了一種多尺度的循環去模糊網絡(scale-recurrent network-DeblurNet,SRN-DeblurNet),該方法在不同尺度的網絡中引入權值共享機制,在降低模型訓練參數量的同時提升了網絡的穩定性。2019年,Gao等人[7]提出了一種參數選擇性共享和嵌套跳連接的網絡結構(parameter selective sharing and nested skip connections,PSS-NSC),該網絡使用U-Net作為子網絡,同時在子網絡之間采用選擇性參數共享機制,以此降低內存開銷,但是計算復雜度仍然很大。2020年,Park等人[8]提出了多時循環神經網絡(multi-temporal recurrent neural networks,MT-RNN),該算法將一個U-Net循環迭代七次來節省內存,但是解算時間上并不占優勢。2021年,Cho等人[9]提出了一種多輸入—多輸出去模糊算法(multi-input multi-output UNet,MIMO-UNet),該算法只使用了一個U-Net實現多尺度輸入和多尺度輸出,大大降低了計算復雜度和內存開銷。2022年,崔昊楊等人[10]減少U-Net的層數構建對抗生成網絡,并使用了注意力機制、空洞空間金字塔池化和跳層連接,提升了該方法對全局信息的提取能力,也造成了其對細節信息的捕獲能力相對較弱。陳紫檸等人[11]提出了一種融合注意力機制和對抗生成網絡的方法,該方法的優點是改進了殘差卷積結構降低參數量,使用空洞卷積模塊增大感受野,但是該方法對空間細節的捕捉能力不足。程文濤等人[12]針對圖像散焦問題提出了循環去模糊網絡,分步驟進行散焦圖估計和圖像去模糊,對散焦模糊有較強的針對性,但對其他類型的模糊適應性不足。時永剛等人[13]提出了一種基于梯度指導生成對抗網絡的內鏡圖像去模糊算法,可以較好地還原圖像的紋理細節,但對圖像全局信息的利用不夠充分。
在深度學習領域,注意力機制常被用于提升圖像處理任務的精度。2018年,Woo等人[14]提出了卷積注意力模塊,可以分別在通道和空間上增強重要特征,提升網絡的精度。
U型網絡可以同時提取并利用圖像的低級細節特征和高級語義特征,在醫療圖像處理領域,U型網絡具有相當的優勢[15~17]。
根據不同的圖像處理任務設計具有針對性的損失函數[18],可以有效提升圖像處理任務的性能。在去模糊任務中,最小化輸出圖像與標簽圖像在某些特征空間中的距離可以顯著地提升去模糊效果[19,20]。
最終,本文設計了一種多尺度輸入—輸出的U型內鏡圖像去模糊網絡,創新性地提出了抽樣切分卷積(sampling slice convolution,SSC),并以此設計了抽樣切分卷積下采樣(sampling slice convolution down-sampling,SSCD)模塊和抽樣切分卷積上采樣(sampling slice convolution up-sampling,SSCU)模塊,為進一步平衡語義特征和細節特征,本文還提出了特征交互融合(feature interaction and fusion,FIF)模塊。另外,本文構建了頻域重建損失和梯度重建損失兩個針對內鏡圖像特點的輔助損失函數。實驗表明,本文算法在PSNR和SSIM指標上優于主流算法,并且重建后的內鏡圖像紋理更清晰。
針對內鏡圖像細節信息豐富、語義信息相對較少的特點,本文運用多尺度思想和注意力機制設計的U型網絡相對其他U-Net方法具有如下特點:
a)使用單個U-Net實現多輸入—多輸出任務,可以有效降低計算量和參數量。PSS-NSC使用多個U-Net構建多尺度網絡,MT-RNN使用U-Net在不同尺度之間進行循環迭代,此類U-Net方法的參數量和計算量都較大。U-Net、 RR-UNet、U-Net++等中涉及的U-Net只能完成單輸入—單輸出任務。
b)本文設計的U-Net在編碼階段使用所提出的SSCD模塊實現跨尺度特征融合,與MIMO-UNet所用的特征注意力模型(feature attention module,FAM)相比,SSCD模塊可避免細節信息的丟失。本文設計的U-Net在解碼階段使用所提出的SSCU模塊,先實現跨尺度特征融合再進行上采樣,相比主流U-Net采用先上采樣后特征融合的方式,SSCU模塊對于語義信息偏少的內鏡圖像可避免語義信息的模糊。
c)本文設計的U-Net編碼模塊和解碼模塊之間采用FIF模塊進行連接,不同于主流U-Net的跳連接,FIF將輸入原圖及其編碼特征進行融合作為解碼端的輸入,更有利于重建圖像中的紋理細節。
1 基于抽樣切分卷積的多尺度U-Net去模糊網絡
如圖1所示是本文網絡的總體結構,該網絡在通用U-Net結構的基礎上加以改進,使其能夠接受多尺度輸入,并且產生多尺度輸出,所提出的算法涉及到三個尺度。若尺度1表示所有涉及的圖像和特征的長寬為H×W,則尺度2表示所有涉及的圖像和特征的長寬皆為H/2×W/2,尺度3表示所有涉及的圖像和特征的長寬皆為H/4×W/4。
2 實驗與結果分析
2.1 實驗數據
本文所用到的數據集來自內窺鏡偽影檢測(endoscopy artifact detection,EAD)挑戰賽數據集[21]和息肉分割數據集(Kvasir-SEG)[22]中的清晰圖像。
本文將清晰圖像作為訓練標簽,在標簽上人為添加模糊,構建清晰—模糊對數據集。根據對實際內鏡模糊圖片的觀察,得出本文添加模糊的方式為:在標簽圖像上隨機添加一種模糊或者多種模糊的組合,包含平移模糊、旋轉模糊和高斯模糊。平移模糊為向任意方向隨機平移5~50個像素,旋轉模糊為隨機旋轉-50°~50°,高斯模糊的卷積核大小為7~21的隨機奇數。添加模糊后進行隨機裁剪和尺度變換,將分辨率統一到256×256。最終,在EAD數據集上獲得了2 828對清晰—模糊圖像,其中1 696對作為訓練集,1 132對作為測試集;在Kvasir-SEG數據集上獲得了3 056對清晰—模糊圖像,其中1 836對作為訓練集,1 220對作為測試集。
2.2 實驗設備和參數配置
軟件部分,本文的模型搭建基于PyTorch框架,所有代碼采用Python語言編寫。硬件部分,CPU為Intel i7-11700;GPU為NVIDIA A100,顯存40 GB。
訓練過程中主要的配置參數如表1所示。其中,學習率更新采用階梯下降的方式,訓練到一定輪次對當前學習率進行衰減,本文總共訓練5 000個輪次,初始學習率為0.001,學習率在輪次為500、1 000、2 000、3 000時進行衰減,衰減率為0.5,最終的學習率為0.000 062 5。
2.3 實驗結果評價指標
為方便實驗對比,本文的評價指標采用通用的圖像重建評價指標,即峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似度(structural similarity,SSIM),其中,PSNR可以客觀地評價圖片的質量,而SSIM更符合人類視覺感受。
2.4 實驗結果
2.4.1 消融實驗
為了驗證本文針對內鏡圖像數據設計的輔助損失函數對本文模型的影響,將對比在同時使用SSCD、FIF和SSCU的條件下,PSNR和SSIM的提升程度。表2為Kvasir-SEG數據集上的測試結果,相比只使用Lcont,同時使用Lcont、Lgrad、Lfrea,PSNR提升了0.27 dB,SSIM提升了0.003,驗證了本文輔助損失函數的有效性。
本文在Kvasir-SEG數據集上進行消融實驗,驗證本文各個模塊的有效性。在表3中,對于SSCD和SSCU欄,“√”表示使用該模塊,“—”表示使用圖2所示的特征融合模塊;對于FIF欄,“√”表示使用該模塊,“—”表示使用傳統的跳連接結構。
由表3可知,同時使用SSCD和SSCU模塊,相對初始模型,PSNR提升了3.08 dB,SSIM提升了0.043。插入FIF模塊,相比初始模型,PSNR提升了1.99 dB,SSIM提升了0.03。同時使用本文提出的SSCD、SSCU、FIF模塊,相對初始模型,PSNR提升了3.98 dB,SSIM提升了0.053。實驗結果驗證了本文提出的創新模塊的有效性。
2.4.2 對比實驗
本文主要對比模型是在公共去模糊數據集上取得較好性能的CNN去模糊模型,表4為本文的對比實驗結果。從表中可以看出,與主流算法相比,本文算法在PSNR和SSIM指標上都得到了較高提升,在EAD和Kvasir-SEG數據集上,本文算法與主流算法相比PSNR最高分別提升了3.80 dB和3.92 dB,SSIM最高分別提升0.05和0.052。
圖7為使用本文算法和當前主流算法進行內鏡圖像去模糊的效果對比圖。和主流去模糊算法相比較,本文算法的去模糊效果更好,從圖7中線框標注位置可以看出,本文算法對血管、息肉等細節還原更為清晰,更利于醫師或計算機輔助算法對病灶作出識別。
圖7所示的對比實驗是在人工添加的模糊數據上進行的,為了進一步驗證本文算法的性能,繼續在真實的模糊數據上進行測試。圖8所示的模糊圖像為EAD數據集中的真實模糊圖像,可以看出,使用本文算法去模糊后,圖像的病灶邊界和病灶紋理都比主流算法更清晰,且未產生偽影。
3 結束語
本文提出了一種新穎的多尺度輸入—輸出U-Net并用于內鏡圖像去模糊。實驗結果表明,在內鏡圖像數據集上去模糊效果優于當前主流的基于CNN的圖像去模糊算法。在編碼階段,本文提出的SSCD模塊,在避免細節信息丟失的情況下實現了跨尺度特征融合和下采樣。在解碼階段,本文提出的SSCU模塊,實現了跨尺度特征融合和上采樣,避免了對語義特征進行上采樣。另外,本文還提出了FIF模塊,實現語義信息和細節信息的交互融合。綜合三個模塊可以有效提取模糊圖像的語義特征,還原圖像的紋理細節。針對內鏡圖像亮通道、中間通道、暗通道的差異,本文提出了梯度重建損失函數和頻域重建損失函數,提升了重建圖像的銳度,使得重建圖像的紋理更清晰。下一步的研究則是擴大模糊數據集,進一步拓展本文算法的應用空間。
參考文獻:
[1]Sung H,Ferlay J,Siegel R L,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:A Cancer Journal for Clinicians,2021,71(3):209-249.
[2]李宏霄,李姝,石霞飛,等.基于BiT的早期胃癌內鏡圖像識別[J].激光與光電子學進展,2022,59(6):354-362.(Li Hongxiao,Li Shu,Shi Xiafei,et al.BiT-based early gastric cancer classification using endoscopic images[J].Laser amp; Optoelectronics Progress,2022,59(6):354-362.)
[3]Kupyn O,Budzan V,Mykhailych M,et al.DeblurGAN:blind motion deblurring using conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8183-8192.
[4]Kupyn O,Martyniuk T,Wu Junru,et al.DeblurGAN-v2:deblurring(orders-of-magnitude)faster and better[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8878-8887.
[5]Nah S,Hyun K T,Mu Lee K.Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3883-3891.
[6]Tao Xin,Gao Hongyun,Shen Xiaoyong,et al.Scale-recurrent network for deep image deblurring[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8174-8182.
[7]Gao Hongyun,Tao Xin,Shen Xiaoyong,et al.Dynamic scene deblurring with parameter selective sharing and nested skip connections[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3848-3856.
[8]Park D,Kang D U,Kim J,et al.Multi-temporal recurrent neural networks for progressive non-uniform single image deblurring with incremental temporal training[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:327-343.
[9]Cho S J,Ji S W,Hong J P,et al.Rethinking coarse-to-fine approach in single image deblurring[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:4641-4650.
[10]崔昊楊,韓奕,張馴,等.基于改進U-Net結構生成對抗網絡的運動模糊絕緣子圖像復原方法[J/OL].電網技術.(2022-06-30)[2022-08-19].https://doi.org/10.13335/j.1000-3673.pst.2022.0175.(Cui Haoyang,Han Yi,Zhang Xun,et al.Motion blurred insulator image restoration method based on improved U-Net structure ge-nerative adversarial network[J/OL].Power System Technology.(2022-06-30)[2022-08-19].https://doi.org/10.13335/j.1000-3673.pst.2022.0175.)
[11]陳紫檸,張宏怡,曾念寅,等.融合注意力機制的模糊圖像多尺度復原[J].中國圖象圖形學報,2022,27(5):1682-1696.(Chen Zining,Zhang Hongyi,Zeng Nianyin,et al.Attention mechanism embedded multi-scale restoration method for blurred image[J].Journal of Image and Graphics,2022,27(5):1682-1696.)
[12]程文濤,任冬偉,王旗龍.基于循環神經網絡的散焦圖像去模糊算法[J].計算機應用研究,2022,39(7):2203-2209.(Cheng Wentao,Ren Dongwei,Wang Qilong,et al.Defocus deblurring algorithm based on deep recurrent neural network[J].Application Research of Computers,2022,39(7):2203-2209.)
[13]時永剛,張岳,周治國,等.基于梯度指導的生成對抗網絡內鏡圖像去模糊重建[J].電子與信息學報,2022,44(1):70-77.(Shi Yonggang,Zhang Yue,Zhou Zhiguo,et al.Deblurring and restoration of gastroscopy image based on gradient-guidance generative adversarial networks[J].Journal of Electronics amp; Information Technology,2022,44(1):70-77.)
[14]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin: Springer,2018:3-19.
[15]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-assisted Intervention.Cham:Springer,2015:234-241.
[16]Alom M Z,Yakopcic C,Hasan M,et al.Recurrent residual U-Net for medical image segmentation[J].Journal of Medical Imaging,2019,6(1):014006.
[17]Zhou Zongwei,Siddiquee M M R,Tajbakhsh N,et al.UNet+:a nested U-Net architecture for medical image segmentation[M]//Deep Lear-ning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support.Cham:Springer,2018:3-11.
[18]姬東飛,丁學明.基于自適應角度損失函數的深度人臉識別算法研究[J].計算機應用研究,2020,37(10):3169-3174.(Ji Dongfei,Ding Xueming.Research on deep face recognition based on adaptive angle loss function[J].Application Research of Computers,2020,37(10):3169-3174.)
[19]王峰,蔡立志,張娟.基于雙分支融合的反饋迭代金字塔去模糊和超分辨率算法[J].計算機應用研究,2021,38(11):3478-3483.(Wang Feng,Cai Lizhi,Zhang Juan.Iterative pyramid deblurring and super-resolution network based on dual-branch fusion feedback[J].Application Research of Computers,2021,38(11):3478-3483.)
[20]Zheng Bolun,Yuan Shanxin,Slabaugh G,et al.Image demoireing with learnable bandpass filters[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3633-3642.
[21]Ali S,Zhou F,Daul C,et al.Endoscopy artifact detection(EAD 2019)challenge dataset[EB/OL].(2019-05-08).http://doi.org/10.17632/c7fjbxcgj9.1.
[22]Jha D,Smedsrud P H,Riegler M A,et al.Kvasir-SEG:a segmented polyp dataset[C]//Proc of International Conference on Multimedia Modeling.Cham:Springer,2020:451-462.
[23]Zhang Hongguang,Dai Yuchao,Li Hongdong ,et al.Spacked hierarchical multi-patch network for image deblurring[C]//Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:5978-5986.
[24]Suin M,Purohit K,Rajagopalan A N.Spatially-attentive patch-hierarchical network for adaptive motion deblurring[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3606-3615.
[25]Zamir S W,Arora A,Khan S,et al.Multi-stage progressive image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14821-14831.