基于多尺度深度可分離卷積的低照度圖像增強算法*

2023-10-24 02:52:52陳清江

計算機工程與科學 2023年10期

陳清江,顧媛

(西安建筑科技大學理學院,陜西西安 710055)

1 引言

在圖像采集過程中,所在環境的光照條件是影響圖像質量的重要因素之一。在弱光環境下,由于視覺質量較低,如對比度低、顏色失真等,導致對觀測圖像的檢測、識別、跟蹤等工作無法有效進行。因此,研究低照度圖像增強算法就顯得尤為重要。

低照度圖像增強算法主要分為傳統算法和深度學習算法2類。在傳統算法中,Hummel[1]提出了直方圖均衡化HE(Histogram Equalization)方法,是圖像增強領域最簡單的技術之一,但其易出現顏色失真的情況;Pizer等[2]提出了局部直方圖均衡化AHE(Adaptive Histogram Equalization)方法,但由于不同區域的直方圖不同,導致對光照不均勻的圖像增強效果較差;Land[3]提出了Retinex理論,將圖像分解為反射分量與光照分量?；赗etinex理論,Jobson等[4,5]提出單尺度Retinex SSR(Single Scale Retinex)算法與帶色彩恢復的多尺度Retinex MSRCR(Multi-Scale Retinex with Color Restoration)算法,將反射分量作為最終增強結果進行處理,但易出現色偏和過度增強的問題。

隨著深度學習技術在圖像修復[6]、超分辨率重建[7]等領域的成功應用,基于卷積神經網絡的低照度圖像增強算法極大地改善了傳統算法中存在的顏色失真與亮度提升不佳的問題。Wei等[8]提出了一種將Retinex理論與卷積神經網絡相結合的算法(RetinexNet),但會出現隨機噪聲;Zhang等[9]在RetinexNet算法的分解和重建結構上增加了調節網絡,提出了KinD(Kindling the Darkness)算法,在色彩恢復上有較好的效果,但存在局部細節不清晰的問題;Lü等[10]對不同層次的特征進行提取和融合,提出了MBLLEN(Multi-Branch Low-Light Enhancement Network)算法,但出現了邊緣模糊與偽影現象;Zhao等[11]提出了基于圖像分解網絡和圖像增強網絡的RISSNet(Retain low-light Image details and improve the Structural Similarity Net)算法,該算法可以應用于任何低照度圖像;Li等[12]將低照度圖像增強制定為基于深度網絡的特定曲線估計任務,提出了Zero-DCE(Zero-reference Deep Curve Estimation)算法;Lü等[13]提出了一種基于多分支卷積神經網絡CNN(Convolutional Neural Network)的端到端的注意力引導算法,在增強圖像顏色和對比圖時可以避免放大噪聲。然而,現有的低照度圖像增強算法大多在細節恢復方面不夠充分,仍存在較大的提升空間。

針對增強后的圖像細節恢復不充分以及不能充分利用不同尺度間的信息交流的問題,本文提出了一種新的多尺度深度可分離卷積算法,用于低照度圖像增強。使用深度可分離卷積(Depthwise Separable Convolution)[14]代替標準卷積,大大減少了參數量與計算量,加快了模型收斂速度。本文的主要工作如下:

(1)提出多尺度混合空洞卷積模塊MDC(Multi-scale hybrid Dilated Convolution module),多尺度綜合獲取顏色、亮度等全局信息。為避免連續使用相同擴張率的空洞卷積(Dilation Convolution)[15]導致出現網格效應(Gridding Problem)[16]的情況,本文使用4種空洞率分別為1,2,4,8的空洞卷積,使其具有連續的感受野。

(2)提出多尺度特征提取模塊MFE(Multi-scale Feature Extraction module),使用4種不同尺寸的卷積核,提取具有不同尺度感受野的特征信息。其中,連續使用小尺寸卷積核代替大尺寸卷積核來降低計算量與參數量,并融合不同尺度的信息,綜合提取紋理細節信息。

(3)設計多尺度深度可分離卷積網絡,對4種不同尺寸圖像進行全局與局部信息提取,有效地獲取更加豐富的圖像特征。不同尺度間進行參數共享,有效地降低模型參數量。

2 基本理論

2.1 深度可分離卷積

深度可分離卷積[14]不僅能夠處理空間維度,還可以處理深度維度通道的數量。這主要分為2個過程:逐通道卷積(Depthwise Convolution)和逐點卷積(Pointwise Convolution)。逐通道卷積的一個卷積核負責一個通道,一個通道只被一個卷積核卷積,這個過程產生了與輸入特征圖通道數一樣的特征圖。逐通道卷積完全是在二維平面內進行,卷積核的數量與上一層的通道數相同,通道和卷積核一一對應,一個三通道的圖像經過運算后生成了3個特征圖。逐點卷積是指用1×1的卷積核組合不同深度卷積的輸出,得到一組新的輸出。逐點卷積的運算與標準卷積的運算類似,這里的卷積運算會將上一步的特征圖在通道方向上進行加權組合,生成新的特征圖,其目的是實現不同通道間特征的融合以及通道方向上的升維或降維。其計算過程如圖1所示。

Figure 1 Process of depthwise separable convolution

若輸入特征圖的大小為H×H×M,輸出特征圖的大小為H×H×N,卷積核大小為F×F,則標準卷積的計算量與參數量分別如式(1)和式(2)所示:

Jsj=H×H×M×F×F×N

(1)

Jsp=F×F×M×N

(2)

深度可分離卷積的計算量與參數量分別如式(3)和式(4)所示:

Jdj=H×H×M×F×F+H×H×M×N

(3)

Jdp=F×F×M+M×N

(4)

因此,深度可分離卷積與標準卷積的計算量之比如式(5)所示:

(5)

2.2 空洞卷積

空洞卷積(Dilation Convolution)[15]是在標準卷積核中注入空洞(補零),在不改變卷積參數量的情況下將卷積核尺寸變大,擴大的幅度稱為擴張率(Dilation Rate)。圖2給出了不同擴張率的空洞卷積核,實現了在不增加參數量的基礎上擴大感受野,多尺度綜合更大范圍的特征信息。

Figure 2 Dilation convolutions with different dilation rates

空洞卷積的計算過程如式(6)所示:

(6)

其中,y[i,j]為空洞卷積的輸出,x[i,j]為輸入,r為擴張率,ω[k]為尺寸為k的卷積核。

3 本文算法

本文基于深度可分離卷積和空洞卷積,提出了多尺度混合空洞卷積模塊MDC(Multiscale hybrid Dilated Convolutional module)和多尺度特征提取模塊MFE(Multiscale Feature Extraction module)。首先,對256×256大小的輸入圖像進行多尺度混合空洞卷積模塊操作與下采樣操作,得到4種大小的特征圖,分別為128×128,64×64,32×32,16×16,同時還提取邊緣、顏色及亮度等低層特征;其次,對4種不同大小的特征圖分別經過多尺度特征提取模塊,提取到紋理細節高層特征;最后,不同大小的紋理細節高層特征圖再經過多尺度混合空洞卷積模塊,并通過上采樣操作與上一尺寸的輸出融合,獲得增強后圖像。這樣有效地將低層特征圖的空間信息與高層特征圖的語義信息充分融合,獲取了更加豐富的特征信息。所提算法的網絡結構如圖3所示:

Figure 3 Network structure of the proposed algorithm

3.1 多尺度混合空洞卷積模塊

空洞卷積雖然可以在不使用大尺寸卷積核、不增加參數量的基礎上實現指數級擴大感受野,但由于空洞卷積的卷積核中有空洞,連續使用相同擴張率的空洞卷積會導致采樣特征不連續,產生網格效應[16]。為解決網格效應,本文提出了多尺度混合空洞卷積模塊,并聯4個擴張率分別為1,2,4,8的空洞卷積分支,以保證感受野的連續性,其卷積均為深度可分離卷積。多尺度混合空洞卷積模塊如圖4所示。

Figure 4 Multi-scale hybrid dilated convolution module

3.2 多尺度特征提取模塊

為獲取豐富的細節信息,設計了多尺度特征提取模塊。使用4種尺寸分別為3×3,5×5,7×7,9×9的卷積核,提取具有不同尺度感受野的特征信息,再融合不同尺度下提取的信息,多尺度綜合細節特征。多尺度特征提取模塊如圖5所示。其中5×5卷積核用2層3×3卷積核代替,7×7卷積核用3層3×3卷積核代替,9×9卷積核用4層3×3卷積核代替,且所有的卷積均為深度可分離卷積。使用連續的3×3卷積核代替更大的卷積核,以達到減少模型參數量、提高收斂速度的目的。由式(5)可知,深度可分離卷積的使用可進一步減少網絡參數量,加快模型運行速度。

Figure 5 Multi-scale feature extraction module

3.3 損失函數

本文的損失函數由結構損失(Structural Loss)和感知損失(Perceptual Loss)2部分組成,其計算公式如式(7)所示:

L=λ1LS+λ2LP

(7)

其中,L為總損失,LS為結構損失,LP為感知損失,λ1,λ2分別為其對應的權重。

結構損失(Structural Loss):為了衡量真實圖像與所提算法增強后的圖像之間的差異性,改善整體視覺效果,保持圖像結構,避免圖像模糊,引入結構損失。結構損失計算如式(8)所示:

(8)

(9)

其中,N為訓練樣本的數量,img表示真實圖像和增強后圖像的集合。

感知損失(Perceptual Loss):為利用圖像的深層信息來改善視覺質量,引入訓練過的VGG16[17]作為特征提取器,測量重建圖像的特征和相應真實圖像之間的差異,其計算過程如式(10)所示:

(10)

4 實驗及結果分析

4.1 實驗條件及參數配置

本文實驗使用的是TensorFlow2.0深度學習框架,在Windows 10,Intel?i7-10750H,2.6 GHz,16 GB RAM,NVIDIA?GeForce?1660Ti GPU平臺上完成。采用Adam優化器對模型進行優化;動量參數為β1=0.9,β2=0.999;設置固定學習率lr=0.0001;損失函數的權重參數設置為:λ1=0.8,λ2=0.2;epoch設置為3 000次。

4.2 合成的低照度圖像實驗結果分析

首先對人工合成的低照度圖像進行實驗。從公開數據集Berkeley Segmentation Dataset[18]中選取330幅正常光照圖像,利用Retinex理論[3]對光照分量隨機取值,合成330幅低照度圖像。本文算法與經典算法、現階段主流算法均作了比較。對比的傳統算法有HE[1]、SSR[4]以及基于深度學習的RetinexNet[8]、KinD[7]、MBLLEN[10]和RISSNet[12]算法。隨機選取測試集中的4幅圖像為例進行主觀評價,對比結果如圖6所示。

Figure 6 Comparison of enhancement effects of different algorithms on synthesizing low-light images

由圖6可以看出,HE算法出現嚴重顏色失真問題;相比SSR算法,增強后圖像的質量有一定的提升,但存在過度曝光現象;MBLLEN算法雖提升了圖像的亮度及對比度,但部分區域出現了偽影,如圖6a中天空出現偏色現象;KinD算法從主觀效果來看很大程度地改善了低照度圖像,但在色彩恢復方面有所欠缺,如圖6c中天空出現了黑影;RISSNet算法在主觀視覺效果方面與所提算法較為相似;本文所提算法能有效增強圖像亮度及對比度,且在色彩恢復方面更接近真實圖像。

在定量對比中,參考已知圖像,選用峰值信噪比PSNR(Peak Signal-to-Noise Ratio)[19]、結構相似度(SSIM)[20]、均方誤差MSE(Mean Squared Error)及視覺信息保真度VIF(Visual Information Fidelity)[21]4項評價指標來測試本文算法的性能。PSNR是一種全參考的圖像質量評價指標,其值越大表明圖像質量越好;SSIM是一種衡量2幅圖像相似度的指標,其值越大表明增強圖像越接近參考圖像;MSE是一種反映2幅圖像之間差異性的指標,其值越小表明圖像失真越小;VIF是一種衡量2幅圖像之間互信息的指標,其值越大表明圖像細節信息保留得越好。不同算法在上述4幅圖像上的指標平均值如表1所示。

Table 1 Performance of different algorithms on synthesizing low-light images

由表1可以看出,本文算法在以上指標上的平均值均優于其他算法的,說明所提多尺度深度可分離卷積算法的增強效果最接近真實圖像。

4.3 真實的低照度圖像實驗結果分析

本文使用LOL(LOw-Light) dataset[22]公開數據集測試模型,LOL dataset數據集中包含500對低照度圖像和正常照度圖像。為檢驗本文算法在真實的低照度圖像上的有效性,與現有的低照度圖像增強算法進行對比,包括HE[1]、SSR[4]、RetinexNet[8]、KinD[7]、MBLLEN[10]以及RISSNet[12]算法。隨機選取測試集中的4幅圖像為例進行主觀評價,對比結果如圖7所示。

Figure 7 Comparison of enhancement effects of different algorithms on real low-light images

由圖7可以看出,HE算法增強后的圖像出現了顏色失真;SSR算法增強后的圖像亮度比真實圖像的亮度高很多,出現了曝光;RetinexNet算法增強后的圖像整體出現色偏,如圖7a和圖7b中出現了噪聲;MBLLEN算法增強后圖像色彩比真實圖像的深,圖像背景出現陰影條;與真實圖像相比,RISSNet算法在暗區域中的增強程度過高;KinD算法與本文所提算法在主觀視覺效果方面比較相似,但在細節與色彩恢復方面,本文算法增強后的圖像在視覺感官上效果更好,顯得更加自然。

在定量對比中,仍利用峰值信噪比(PSNR)、結構相似度(SSIM)、均方誤差(MSE)及視覺信息保真度(VIF)4項評價指標來驗證本文算法的有效性。不同算法在上述4幅圖像上的指標平均值如表2所示。

Table 2 Performance of different algorithms on real low-light images

由表2可以看出,本文算法在以上指標上均優于其他對比算法的,說明本文算法增強后的圖像與真實圖像最接近。

4.4 無參考的低照度圖像實驗結果分析

除了在上述有參考的真實低照度圖像上,本文算法在無參考的真實低照度圖像上的增強效果也較好。實驗從低照度圖像數據庫MEF[23]的測試集中隨機選取3幅圖像為例進行主觀評價,對比結果如圖8所示。

Figure 8 Comparison of enhancement effects of different algorithms on no reference low-light images

由圖8可以看出,HE算法與SSR算法增強后的圖像出現了嚴重色偏;RetinexNet算法增強后的圖像亮度較高,出現了曝光現象;KinD算法增強后的圖像存在模糊與噪聲,如圖8a中存在不規則噪聲;MBLLEN算法增強后的圖像存在曝光現象且部分圖像有偽影,如圖8b中存在偽影;本文算法在主觀視覺方面的亮度及色彩恢復較好。

在定量對比中,由于沒有同一場景下正常照度的圖像作為參考,故選用無參考圖像質量評價指標。本文選用信息熵IE(Information Entropy)、自然圖像質量評估NIQE(Natural Image Quality Evaluator)[24]、無參考結構相似度NRSS(NoReference Structural Sharpness)[25]及對比度失真的無參考圖像質量度量NIQMC(No reference Image Quality Measure of Contrast distortion)[26]對增強圖像進行評價。其中,IE反映圖像信息量的大小,其值越大圖像信息越豐富;NIQE用來評估圖像的失真程度,其值越小圖像失真度越小;NRSS用來衡量圖像高頻信息的多少,其值越大圖像質量越好;NIQMC用來衡量圖像的對比度,其值越大圖像質量越好。不同算法在上述3幅圖像上的指標平均值如表3所示。

Table 3 Performance of different algorithms on no reference low-light images

由表3可以看出,本文算法在IE指標上略低于HE算法的,在NIQE、NRSS與NIQMC指標上均優于其他對比算法的,說明所提算法增強后的圖像失真度更小,細節恢復更好,圖像更加自然。

4.5 消融實驗

為證明本文模型中將標準卷積替換為空洞卷積的效果以及layer數量設計為4的作用,對各模塊進行消融實驗。首先,將多尺度混合空洞卷積模塊中的深度可分離卷積的擴張率均設置為1(Model1)進行實驗。其次,對layer數量為1(Model2),2(Model3),3(Model4)以及5(Model6)的模型依次進行實驗。最后,與本文模型(Model5)進行對比。選取上述LOL dataset數據集中的圖7d對不同模型進行實驗,低照度圖像增強的主觀視覺效果如圖9所示。

Figure 9 Subjective visual comparison of low-light image enhancement with different models

由圖9可以看出,Model2與Model3增強后的圖像亮度過高,出現了曝光現象;Model1、Model4、Model6與本文模型的增強圖像在主觀視覺方面較為相似。為進一步衡量本文模型的有效性,利用PSNR與SSIM進行客觀評價,不同模型的指標值如表4所示。

Table 4 PSNR and SSIM of different models

由表4可以看出,空洞卷積的使用可以提高圖像的PSNR與SSIM值。layer數量由1增加到4時,PSNR與SSIM值在逐漸上升,而layer數量增加到5時,PSNR與SSIM值開始下降,說明模型性能開始退化。故本文選用4個layer構建網絡模型,以達到最佳效果。

5 結束語

為解決低照度圖像顏色失真、對比度低等問題,本文提出一種新的低照度圖像增強算法,通過端到端的方式學習低照度圖像與正常照度圖像之間的映射關系。本文算法實現模型包含2個模塊,即MDC和MFE。MDC通過并聯不同擴張率的空洞卷積進行全局特征提取,MFE通過并聯不同尺度的卷積提取豐富的細節信息,整個網絡通過上采樣融合不同尺度的特征信息,恢復圖像的紋理細節。深度可分離卷積的使用在不降低網絡性能的基礎上,減少了模型參數量與計算量。實驗結果表明,本文所提算法在真實圖像上的峰值信噪比及結構相似度分別達到了29.631 2 dB和0.901 6,均優于其他對比算法的。為提高本文算法的泛化性,下一步考慮擴大數據集,將其應用于更多的場景中。