舒忠,鄭波兒
基于卷積神經網絡的超分辨率失真控制圖像重構研究
舒忠1,2,鄭波兒1
(1.荊楚理工學院 電子信息工程學院,湖北 荊門 448000;2.荊門融媒網絡科技有限公司,湖北 荊門 448000)
解決超分辨率圖像重構模型中存在的功能單元之間關聯性差,圖像色度特征提取完整性不強、超分辨率重構失真控制和采樣過程殘差控制偏弱等問題。通過在卷積神經網絡模型引入雙激活函數,提高模型中各功能單元之間的兼容連接性;引用密集連接卷積神經網絡構建超分辨率失真控制單元,分別實現對4個色度分量進行卷積補償運算;將殘差插值函數應用于上采樣單元中,使用深度反投影網絡規則實現超分辨率色度特征插值運算。設計的模型集聯了內部多個卷積核,實現了超分辨率色度失真補償,使用了統一的處理權值,確保了整個模型內部組成單元的有機融合。相關實驗結果驗證了本文圖像重構模型具有良好可靠性、穩定性和高效性。
卷積神經網絡;超分辨率;激活函數;轉置卷積;深度反投影網絡模型;圖像重構
早期的圖像壓縮失真恢復方法通常以最近鄰域法和線性插值法為基礎并加以相應的改進,其失真恢復結果并不理想,以偽彩色和邊緣鋸齒效應等現象表現最為突出[1]。隨著殘差插值方法[2-5]的提出,對基于偽彩色和邊緣鋸齒效應的圖像壓縮失真現象起到較好的約束作用。近些年來,隨著深度學習字典在壓縮圖像重構領域的廣泛應用,特別是應用卷積神經網絡(Convolutional Neural Networks,CNN)通過設計2個或3個階段的圖像色度參數控制[6-8],進行壓縮編碼失真恢復處理;還有通過殘差插值與CNN結合的壓縮編碼失真控制[9-11]、超分辨率(Super-Resolution)圖像處理機制與CNN結合的壓縮編碼失真控制[12-14]等壓縮圖像重構方法等。
以上基于殘差插值、基于CNN模型應用和基于超分辨率處理三大類圖像重構方法,處理機制的總體思想在本質上是一致的,都是以分量為首要突破口,充分利用顏色分量的失真控制恢復經驗,指導其他顏色分量進行恢復重構。3種方法只關注了下采樣過程在圖像重構中的重要性,忽視了對上采樣過程的影響因素。其中,基于殘差插值的圖像重構過度依賴復雜的數學模型運算,忽略了對機器學習模型存在優勢的充分利用。基于CNN模型應用和基于超分辨率處理2種圖像重構方法則過度依賴CCN網絡模型的結構優勢,將色彩空間轉換采樣處理和圖像重構處理融合在一起,使得CCN網絡模型結構過度復雜。以上因素的存在,是本文開展相關研究的依據。
本文結合對基于殘差插值和基于深度學習的壓縮編碼圖像重構原理的分析,以卷積神經網絡為處理平臺,制定壓縮編碼圖像重構策略。主要的研究目標包括:減小卷積神經網絡模型的構建復雜度,提高處理效率;對圖像邊緣特征提取的損失進行有效控制,提高圖像邊緣特征的描述準確性;在圖像重構的邊緣特征映射策略中,引入多次上采樣策略,提高上采樣圖像像素采集的準確度;選取上采樣提取的有效圖像邊緣特征實現圖像重構。
通過對當前經典的壓縮圖像重構和失真控制策略進行分析,本文提出的壓縮編碼圖像重構模型,重點考慮2個方面的因素:由于圖像壓縮編碼后存在亮度和色度失真,因此壓縮圖像重構消除失真影響最有效的環節應在上采樣之前;由于卷積神經網絡模型的層次結構豐富,具有較大的可擴展性,在應用中會出現失真殘差值的梯度過度增大或梯度完全消失2種情況,將超分辨率圖像處理策略應用于殘差計算,可以大幅簡化卷積神經網絡的層次結構。本文設計的基于卷積神經網絡的超分辨率失真控制重構模型(Convolutional Neural Networks Super Resolution Model,CNN-SR-M)處理流程如圖1所示。

圖1 基于卷積神經網絡的超分辨率失真控制重構模型處理流程
1.2.1 圖像色度特征提取單元
CNN-SR-M模型各功能單元內部結構和處理策略如下:
圖像色度特征提取單元使用LeNet-5[15]作為基本的CNN模型,通過卷積運算提取圖像色度特征,省去LeNet-5中的池化、全連接層結構,該單元可以提取圖像各顏色通道的邊緣特征信息,本質上就是需要對邊緣特征進行殘差補償的信息。色度特征提取使用的卷積核激活函數采用Rectified Linear Unit(ReLU)[16],ReLU優于CNN模型中常用的Sigmoid和Tanh激活函數。ReLU的計算方法簡單,通過設計有效的閾值就可以控制神經元的開啟,不需要進行復雜的導數求極值運算,還可以獲取產生色度邊緣信息的稀疏特征;由于ReLU可以引入多個圖像樣本參與模型進行訓練,可以防止出現誤差過大產生的過擬合現象,避免了與正則化(Droupout)結合時而造成的兼容性差等問題。色度特征提取單元設計了2個卷積層,設定第2個卷積核的數量為第1個卷積核的2倍。定義圖像色度特征提取的輸出為(12),壓縮編碼圖像的輸入為(12),使用ReLU的激活函數的卷積層為(),Sigmoid激活函數卷積層為()。本文保留原始CNN模型中的Sigmoid激活函數卷積層()的原因是以保證CNN模型結構設計的一致性,便于與CNN-SR-M模型中其他功能單元建立聯系,防止各功能單元之間完全獨立,影響各單元之間的兼容性連接。圖像色度特征提取單元的主要運算規則為:

1.2.2 超分辨率失真控制單元
在超分辨率失真控制單元中,引用密集連接卷積神經網絡模型(Densely Connected Convolutional Networks,DenseNet)的結構框架,與圖像色度特征提取單元匹配,該單元也是由卷積層組成,使用Leaky ReLU激活函數和Sigmoid激活函數設計2類卷積層。定義其卷積層為();使用Sigmoid激活函數的卷積層與圖像色度特征提取單元中的定義完全相同。超分辨率失真控制單元內部密集連接卷積層組成結構及處理流程如圖2所示。


圖2 超分辨率失真控制單元的內部組成結構和處理流程

1.2.3 上采樣單元
上采樣單元的核心目標為將壓縮編碼后的12圖像映射為失真補償后的重構圖像,包括制定12向色彩空間轉換的上采樣策略、向12色彩空間轉換的下采樣策略、設計上采樣殘差插值函數等過程,關鍵是將殘差插值函數應用于上采樣中。在上采樣中,需要對生成的、、3個分量色度特征進行超分辨率處理,針對空間坐標維度的擴大,不僅要提高3個分量色度特征圖的維度(橫縱2個方向的尺寸),還要對增加的空間坐標維度的像素點進行特征值插值,特征插值就是通過殘差插值函數完成的。上采樣單元通過設計一個卷積層()用于上、下采樣的信息交換,主要是獲取上采樣和下采樣的權重分配控制參數,特別是上采樣對色度特征的增強控制;設計一個轉置卷積層(),主要用于上采樣過程對各個色度分量特征的維度進行擴大,對下采樣過程各個色度分量特征的維度進行縮小。除引入一個Sigmoid卷積層()與整個CNN-SR-M模型其他功能單元建立聯系外,()和()卷積層使用Parametric Rectified Linear Unit(PReLU)作為激活函數。使用PReLU激活函數的原因主要是充分應用了其更強的自適應性,實現對處理權值的靈活控制。依據以上對上采樣單元主要功能的論述,在設計的上采樣單元中應包含上采樣子單元、下采樣子單元、殘差插值函數和Sigmoid卷積層,其總體結構如圖3a所示,上采樣子單元和下采樣子單元的內部結構如圖3b和圖3c所示。
本文上采樣色度特征圖維度擴展選擇了轉置卷積(Transposed Convolution)實現拼接,轉置卷積根據對卷積運算核的維度控制,實現色度特征的維度進行擴展,其擴展只涉及特征圖的維度,與特征圖的值無關;同時,可以非常方便地在基于CNN的模型中進行部署。上采樣色度特征值的插值運算選擇了深度反投影網絡(Deep Back-Projection Networks,DBPN)方法。DBPN插值方法同時針對上采樣和下采樣2個過程進行迭代運算,依據前一次迭代運算產生的采樣誤差,對下一次迭代運算進行修正,在CNN等機器學習模型中實現對誤差的最小化控制。圖3所示的上采樣單元設計,應用轉置卷積拼接進行超分辨率色度特征圖空間擴展,應用DBPN插值運算進行超分辨率色度特征插值運算。

圖3 上采樣單元的總體組成結構和處理流程
依據圖3所示的上采樣單元處理流程,針對上采樣和下采樣子單元,在定義()和()卷積層的基礎上,還需要定義一個下采樣子單元卷積層(),在此,()轉置卷積層本質上就是上采樣子單元卷積層。針對上采樣單元的總體結構模型,定義整個上采樣單元卷積層為(),其卷積核使用PReLU作為激活函數;定義上采樣子單元為(),以轉置卷積運算為核心;定義下采樣子單元為(),激活函數同為PReLU。上采樣單元的處理過程可以表示為:




1.2.4 色度特征融合單元
色度特征融合單元的主要功能是將經過上采樣單元完成失真補償后特征圖映射為圖像,也就是依據圖像特征重構完整圖像,其實現方法也較為簡單。本文方法是在CNN模型中通過構建卷積層直接完成。
本文實驗使用的計算機處理器為AMD Ryzen 5 5600G with Radeon Graphics 3.90 GHz,內存為16.0 GB,操作系統為Windows10,64位,使用的實驗軟件為Matlab2014a。實驗選用LeNet-5模型作為卷積神經網絡的預訓練模型,使用Stanford Dogs Dataset犬類圖像數據集、CompCars汽車類圖像數據集、Flowers花卉類圖像數據集、Home Objects客廳類圖像數據集作為模型的測試數據集,以提高構建模型的泛化精度。LeNet-5模型的輸入層—隱層—輸出層的節點分配分別為10—6—1。其中,隱層中第1層的神經元設置為8個,后續層神經元設置為8遞增;最小訓練速度為0.9,盡量取最大值,但能夠保持訓練過程的權重分配變化和收斂變化適中;模型訓練的迭代次數設置為100,迭代步長為1。預訓練模型通過對以上3個圖像數據集進行訓練,完成模型的正則化,驗證以上超參數設置的準確性,確保實驗中重構圖像的可靠性和準確性。
實驗內容主要包括:在超分辨率失真控制單元中,對選擇Leaky ReLU和ReLU激活函數構建卷積核的性能進行比較驗證,對選擇LeNet-5模型和DenseNet模型構建卷積網絡模型的性能進行比較驗證,對構建模型的處理權重的取值進行驗證;在上采樣單元中,對選擇張量拼接和轉置卷積2種上采樣色度特征圖維度擴展方法進行比較分析,對選擇漸進式采樣和深度反投影網絡2種上采樣色度特征插值方法進行比較分析;本文設計的CNN-SR-M模型與文獻[3]、文獻[8]、文獻[11]、文獻[17]和文獻[18] 5種經典和較新的圖像重構失真控制方法進行比較分析。實驗結果評價指標詳見以上實驗中的相關論述。
2.2.1 超分辨率失真控制性能評價



在表1~3統計的實驗數據中,使用Leaky ReLU激活函數構建DenseNet模型時,對失真補償的信息最多,通過使用高斯平滑濾波器對失真補償后的色度特征圖進行檢測,補償信息均為有效高頻信息,不存在噪聲。失真補償后的色度特征圖的PSNR也在35以上,由于針對的檢測對象為圖像特征信息,因此,設定的PSNR的有效值為≥35,如果是針對完整的圖像,PSNR的有效值應為≥40。在DenseNet模型使用權值的檢測中,當=0時,統計數據表明,處理過程不僅沒有對失真進行補償,還造成了色度特征的大量損失;當=0.2和=0.3時,失真補償后的色度特征圖的PSNR均在35以上,=0.2時效果最佳;當=0.2~0.8時,起到了色度特征補償的作用,且補償效果依次下降;當=0.9和=1.0時,也會造成色度特征的小幅損失。表1統計的實驗數據直觀地體現了本文設計的超分辨率失真控制單元,起到了色度特征補償的作用,在多個不同類型的圖像測試中,其失真補償控制具有良好的可靠性和穩定性。
表1 使用不同激活函數和卷積網絡模型的色度特征補償統計數據

Tab.1 Statistical data on chromaticity feature compensation using different activation functions and convolutional network models
表2 使用不同激活函數和卷積網絡模型的失真控制質量評價數據

Tab.2 Quality evaluation data for distortion control using different activation functions and convolutional network models
表3 使用不同卷積權重對色度特征失真補償控制的質量評價數據

Tab.3 Quality evaluation data on chromaticity feature distortion compensation control using different convolutional weights

圖4 使用Leaky ReLU激活函數構建DenseNet模型采集的圖像色度邊緣特征圖
2.2.2 上采樣色度特征維度擴展與色度特征插值性能評價


表4 使用不同上采樣維度擴展和色度特征插值組合的重構圖像與原圖像平均誤差檢測結果

Tab.4 Average error detection results of reconstructed images and original images using different upsampling dimension extensions and chromaticity feature interpolation combinations
表5 使用不同上采樣維度擴展和色度特征插值組合的原圖像與重構圖像SSIM值有效性檢測結果

Tab.5 Effectiveness detection results of SSIM values for original and reconstructed images using different upsampling dimension extensions and chromaticity feature interpolation combinations
注:如果滿足0≤((,))≤1、0≤(y(,))≤1即為yes,否則為no。
表6 使用不同上采樣維度擴展和色度特征插值組合的原圖像與重構圖像SSIM值對稱性檢測結果

Tab.6 Detection results of SSIM value symmetry between original and reconstructed images using different upsampling dimension extensions and chromaticity feature interpolation combinations
注:如果滿足(y(,),(,))=((,),y(,))即為yes,否則為no。
表7 使用不同上采樣維度擴展和色度特征插值組合的重構圖像SSIM值檢測結果

Tab.7 Reconstructed image SSIM value detection results using different upsampling dimension extensions and chromaticity feature interpolation combinations
2.2.3 圖像重構失真控制性能評價


表8 6種圖像重構失真控制方法的輸入圖像和重構圖像之間標準差測試統計結果

Tab.8 Statistical results of standard deviation test between input image and reconstructed image for six image reconstruction distortion control methods
表9 6種圖像重構失真控制方法的輸入圖像和重構圖像之間平均梯度比測試統計結果

Tab.9 Statistical results of average gradient ratio test between input image and reconstructed image for six image reconstruction distortion control methods
表10 6種圖像重構失真控制方法的復合峰值信噪比測試統計結果

Tab.10 Statistical results of composite peak signal-to-noise ratio test for six image reconstruction distortion control methods
表11 6種圖像重構失真控制方法的視覺敏感度檢測結構相似度測試統計結果

Tab.11 Statistical results of visual sensitivity detection structure similarity test for six image reconstruction distortion control methods
表12 6種圖像重構失真控制方法完成圖像重構處理時間的測試統計結果

Tab.12 Statistical results of image reconstruction processing time for six image reconstruction distortion control methods





基于視覺敏感度檢測的結構相似度值的計算方法為:


表8~12統計的數據非常直觀地表明,本文設計的CNN-SR-M模型在圖像重構的性能、失真控制和處理效率方面都具有一定的優勢。
本文通過對殘差插值、殘差插值與深度學習融合、殘差插值與超分辨率處理融合的壓縮編碼圖像重構原理進行分析,充分復用卷積層在圖像色度特征提取方面的優勢,結合超分辨率處理在圖像色度殘差插值失真控制方面的優勢,設計了CNN-SR-M針對圖像壓縮編碼的重構模型。相關研究工作得出以下結論:
1)圖像色彩空間轉換中的上采樣過程非常重要。
2)壓縮編碼色度特征殘差損失計算處理與色度特征超分辨率強化處理之間需要進行關聯,壓縮編碼色度特征與失真強化色度特征也需要實現相關。
3)圖像重構失真控制需要引入去池化處理機制,并對全連接層進行改進。
4)完整的CNN-SR-M模型需要保證各功能單元中的激活函數應具有兼容性、處理權重可統一進行分配。
5)圖像重構上采樣特征圖維度擴展應采用轉置卷積,色度特征值的插值效果可依據峰值信噪比作為評判指標,殘差插值函數設計中應包含失真控制殘差插值和模型的處理權值。
通過對CNN-SR-M模型中3個主要組成單元的性能進行實驗檢測,客觀評價指標和主觀視覺感受的統計結果表明,本文制定的基于卷積神經網絡的超分辨率失真控制圖像重構策略,在實際應用中具有良好可靠性、穩定性和高效性。
后續研究工作的主要方向:提高圖像色度特征提取的精準性;通過下采樣實現圖像色度及色度特征的精細劃分;強化超分辨率處理與色度失真插值運算之間的關系。
[1] HUA L, XIE L, CHEN H. A Color Interpolation Algorithm for Bayer Pattern Digital Cameras Based on Green Components and Color Difference Space[C]// In Proceedings of the 2010 IEEE Interna-tional Conference on Progress in Informatics and Computing. New York: IEEE, 2010: 791-795.
[2] KIKU D, MONNO Y, TANAKA M, et al. Beyond Color Difference: Residual Interpolation for Color Image Demosaicking[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1288-1300.
[3] MONNO Y, KIKU D, TANAKA M, et al. Adaptive Residual Interpolation for Color and Multispectral Image Demosaicking[J]. Sensors, 2017, 17(12): 2787.
[4] 夏皓, 呂宏峰, 羅軍, 等. 圖像超分辨率深度學習研究及應用進展[J]. 計算機工程與應用, 2021, 57(24): 51-60.
XIA H, LYU H F, LUO J, et al. Survey on Deep Learning Based Image Super-Resolution[J]. Computer Engineering and Applications, 2021, 57(24): 51-60.
[5] 王海琳, 韓正昊, 李力, 等. 基于殘差和高頻替換的SONY-RGBW陣列彩色重構方法[J]. 激光與光電子學進展, 2021, 58(20): 66-78.
WANG H L, HAN Z H, LI L, et al. Residual and High-Frequency Replacement Based Color Reconstruction Method for SONY-RGBW Array[J]. Laser & Optoelectronics Progress, 2021, 58(20): 66-78.
[6] TAN R, ZHANG K, ZUO W, et al. Color Image Demosaicking Via Deep Residual Learning[C]// In Proceedings of the 2018 International Conference on Multimedia and Expo. New York: IEEE, 2018: 6-18.
[7] CUI K, JIN Z, STEINBACH E. Color Image Demosaicking Using a 3-stage Convolutional Neural Network Structure[C]// In Proceedings of the 2018 IEEE International Conference on Image Processing. New York: IEEE, 2018: 2177-2181.
[8] WANG Y, YIN S, ZHU S, et al. NTSDCN: New Three Stage Deep Convolutional Image Demosaicking Network[J]. IEEE Transactions on Circuits and Systems for Video Technology(Early Access), 2020, 31(9): 3725-3729.
[9] SHI W, CABALLERO J, HUSZáR F, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]// In Proceedings of the 2016 IEEE International Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 1874-1883.
[10] 湯漫, 楊斌. 基于快速殘差插值和卷積神經網絡的去馬賽克算法[J]. 南華大學學報(自然科學版), 2019, 33(6): 68-76.
TANG M, YANG B. Efficient Demosaicking Algorithm Based on Residual Interpolation and Convolution Neural Network[J]. Journal of University of South China (Science and Technology), 2019, 33(6): 68-76.
[11] LIU L, JIA X, LIU J, et al. Joint Demosaicing and Denoising with Self Guidance[C]// In Proceedings of the 2020 IEEE International Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 2240-2249.
[12] 馬昊宇, 徐之海, 馮華君, 等. 基于小遞歸卷積神經網絡的圖像超分辨算法[J]. 光子學報, 2018, 47(4): 0410004.
MA H Y, XU Z H, FENG H J, et al. Image Super-Resolution Based on Tiny Recurrent Convolutional Neural Network[J]. Acta Photonica Sinica, 2018, 47(4): 185-193.
[13] FENG L, ZHANG X. A Dual-Network Based Super-Resolution for Compressed High Definition Video[C]// In Proceedings of the 2018 Advances in Multimedia Information Processing. New York: IEEE, 2018: 600-610.
[14] CHEN H G, HE X H, REN C, et al. CISRDCNN: Super-Resolution of Compressed Images Using Deep Convolutional Neural Networks[J]. Neurocomputing, 2018, 285(4):204-219.
[15] 王濟民, 魏怡, 周宇, 等. 基于LeNet-5卷積神經網絡和顏色特征的限速標志識別[J]. 計算機科學, 2021, 48(S02): 345-350.
WANG J M, WEI Y, ZHOU Y, et al. Speed Limit Sign Recognition Based on LeNet-5 CNN and Color Feature[J]. Computer Science, 2021, 48(S2): 345-350.
[16] CHAITY B, TATHAGATA M, EDUARDO P J. Feature Representations Using the Reflected Rectified Linear Unit(RReLU) Activation[J]. Big Data Mining and Analytics, 2020, 3(2): 102-120.
[17] 潘澤民, 覃亞麗, 鄭歡, 等. 基于深度神經網絡的塊壓縮感知圖像重構[J]. 計算機科學, 2022, 49(S2): 510-518.
PAN Z M, QIN Y L, ZHENG H, et al. Block-Based Compressed Sensing of Image Reconstruction Based on Deep Neural Netork[J]. Computer Science, 2022, 49(S2): 510-518.
[18] 鄭鎧濤, 李海艷, 甘華權, 等. 基于低秩約束和全變分正則化的CUP-VISAR壓縮圖像重構算法[J]. 強激光與粒子束, 2023, 35(7): 74-82.
ZHENG K T, LI H Y, GAN H Q, et al. CUP-VISAR Image Reconstruction Based on Low-Rank Prior Andtotal-Variation Regularization[J]. High Power Laser and Particle Beams, 2023, 35(7): 74-82.
[19] 黃友文, 唐欣, 周斌. 結合雙注意力和結構相似度量的圖像超分辨率重建網絡[J]. 液晶與顯示, 2022, 37(3): 367-375.
HUANG Y W, TANG X, ZHOU B. Image Super-Resolution Reconstruction Network with Dual Attention and Structural Similarity Measure[J]. Chinese Journal of Liquid Crystals and Displays, 2022, 37(3): 367-375.
Image Reconstruction of Super-resolution Distortion Control Based on Convolutional Neural Network
SHU Zhong1,2, ZHENG Bo'er1
(1. School of Electronic Information Engineering, Jingchu University of Technology, Hubei Jingmen 448000, China; 2. Jingmen Rongmei Network Technology Co., Ltd., Hubei Jingmen 448000, China)
The work aims to solve problems of poor correlation between functional units, weak completeness of image chromaticity feature extraction, weak distortion control in super-resolution reconstruction, and residual control in sampling process in super-resolution image reconstruction models. By introducing the double activation function into the convolutional neural network model, the compatibility and connectivity between the functional units in the model were improved. A super-resolution distortion control unit was constructed using a dense connected convolutional neural network to perform convolutional compensation operations on four chromatic components, respectively. The residual interpolation function was applied to the upsampling unit and deep backprojection network rules were used to achieve super-resolution chromaticity feature interpolation operations. The designed model set combined multiple convolutional kernels internally to achieve super-resolution chromaticity distortion compensation. A unified processing weight was used to ensure the organic fusion of the internal components of the entire model. In conclusion, the relevant experimental results verify that the image reconstruction model proposed in this paper has good reliability, stability, and efficiency.
convolutional neural networks; super resolution; activation function; transposed convolution; deep back-projection networks (DBPN); image reconstruction
TP391.41;TP183;TS80
A
1001-3563(2024)07-0222-12
10.19554/j.cnki.1001-3563.2024.07.028
2023-04-15
湖北省荊門市科學技術研究與開發計劃重點項目(2023YFZD056)