徐超越,余 映,何鵬浩,李 淼,馬玉輝
(云南大學 信息學院,昆明 650091)
低照度圖像增強是計算機視覺中具有挑戰性的任務之一,在各個領域得到廣泛應用。在光線較暗的條件下,傳感器獲得的效果嚴重退化,產生的圖像不但辨識性差、對比度低,而且還存在顏色失真、包含大量噪聲等問題,這使得隨后的計算機視覺任務變得困難,如視頻監控、自動駕駛、目標檢測等。為了提高低照度圖像的實用性,需要采取低照度圖像增強方法進行處理。
傳統的低照度圖像增強模型可以分為基于直方圖均衡化、基于頻域和基于Retinex 理論對光照區域增強的方法。根據計算中考慮的區域不同,基于直方圖均衡化的方法可以分為全局直方圖均衡化[1]、局部直方圖均衡化[2]、自適應直方圖均衡化[3]、限制對比度自適應直方圖均衡化[4]等方法,但這些方法由于灰度合并可能會丟失圖像細節信息。基于頻域的方法主要 利用小 波變換[5]和傅里 葉變換[6]。在傅里葉變換域中,研究者采用高通濾波器增強高頻反射分量,抑制低頻照明分量來增強低照度圖像。YANG 等[7]利用雙樹復小波變換來進行圖像增強,但該方法需要大量計算,變換參數的選擇往往需要人工干預。文獻[8-10]提出基于Retinex 理論對光照區域增強的方法,利用顏色恒常知覺計算理論,通過獲得反映物體固有屬性的反射分量來實現圖像增強處理,但此類方法在強烈的陰影過渡區域容易出現光暈、偽影。張聿等[11]利用Retinex 理論提出一種基于分區曝光融合的不均勻亮度視頻增強方法。此外,DONG 等[12]采用去霧方法實現低照度圖像增強;WANG 等[13]提出一種雙對數變換和亮通濾波器,可以在圖像細節和亮度之間取得平衡;YING 等[14]提出一種雙曝光融合模型對低照度圖像進行增強。
近年來,基于深度學習的增強方法逐漸發展,通過深度學習,網絡經過訓練生成一個處理器,不僅能產生更好的效果同時也能將訓練好的網絡應用到智能手機上。LORE 等[15]在訓練低照度圖像增強LLNet 的框架中采用堆疊稀疏去噪自編碼器來實現圖像增強,但增強后的圖像細節模糊,存在噪聲。江澤濤等[16]基于變分自編碼器提出了一種多重構變分自編碼器,從粗到細地生成高質量低照度增強圖像。WEI 等[17]將Retinex 理論與深度學習相結合,但所得結果存在邊緣輪廓模糊的現象。Lü 等[18]提出一種新的網絡MBLLEN,通過特征融合產生輸出圖像,但其在亮度增強上效果不夠理想。LIU 等[19]提出一種基于最優加權多曝光融合機制的圖像增強方法。馬紅強等[20]利用深度卷積神經網絡(DCNN)對亮度分量進行增強。ZHANG 等[21]提出一個簡單有效的KinD 網絡處理低照度圖像。隨后,ZHANG 等[22]又在KinD 網絡的基礎上加入多尺度亮度注意力模塊來增強處理低照度圖像。LIU 等[23]基于生成對抗網絡(Generative Adversarial Network,GAN)提出一種感知細節GAN(PD-GAN)來調整光照。陳榆瑯等[24]提出一種基于生成對抗網絡的空間衛星低照度圖像增強方法。ZHU 等[25]采用零樣本學習(zero-shot)方案增強圖像。此類方法將低照度圖像增強制定為曲線估計任務,但圖像整體亮度仍偏暗。XU 等[26]提出一種用于低照度圖像增強的多尺度融合框架。基于深度學習的方法是當前圖像處理研究發展的主要趨勢,但其對不同尺度圖像特征的表達能力不足,使得網絡很難從極暗的圖像中復原細節信息,且增強后的圖像容易出現色彩畸變、噪聲被放大、邊緣輪廓模糊的現象。
針對上述問題,本文提出一種基于U-Net 的多尺度低照度圖像增強網絡(MSU-LIIEN),旨在增強圖像亮度,消除噪聲并使圖像細節內容清晰可見。利用特征金字塔網絡對原始低照度圖像進行處理,以便讓網絡模型在初期即可獲得融合深、淺層特征信息的特征圖,使得所有不同尺度的特征圖都含有豐富的高級語義信息。MSU-LIIEN 中每個網絡分支都采用U-Net 網絡,可以使模型在捕捉圖像特征信息的長期依賴方面更有效。在此基礎上,將多尺度和U-Net 互相結合,設計MSU-Net 模塊,以獲得豐富的細節信息,有效增強低照度圖像的亮度。由于融合不同尺度的特征圖是提高網絡性能的一個重要手段,因此還設計一種擴張的結構細節殘差融合塊(Structural Detail Residual Fusion Block,SDRFB)嵌入到U-Net 骨干網中。該模塊通過擴大感受野的方式,能夠獲得更為全面、語義層次更高的特征圖,提高網絡表達圖像特征信息的能力。
為了解決低照度圖像亮度增強、圖像細節恢復和噪聲去除的問題,本文提出一種基于U-Net 的多尺度低照度圖像增強網絡(MSU-LIIEN)。MSU-LIIEN 通過融合不同尺度的特征圖來對低照度圖像進行增強,采用特征金字塔(FPN)和U-Net 結合的方法使網絡模型獲得豐富的低照度圖像特征信息,并將所得到的特征圖沿著網絡模型逐漸融合。由于圖像細節是高頻信息,因此低照度圖像增強后會不可避免地導致圖像細節模糊或產生噪聲,且現有的特征提取塊[27]很難完全從低照度圖像中獲得紋理細節特征,所以,MSU-LIIEN以特征金字塔為基本結構,用于把低照度圖像轉換為特征映射,將特征金字塔網絡提取到的多級特征融合為基本特征。然后將其輸入到MSU-Net 模塊中,經過多層卷積消除噪聲,并獲得豐富的圖像特征信息。最后將3 個分支輸出的特征圖逐層進行融合,用于恢復出最終的結果圖。在MSU-Net模塊中的3 個分支中都采用U-Net 結構作為骨干網,對提取到的圖像特征進行編碼與解碼操作,并在所有分支上都進行相同的卷積和結構細節殘差融合操作,以加強主干網絡對特征信息的傳遞,獲得表達能力更強的特征圖。本文網絡整體結構框架如圖1 所示,原始低照度圖像首先通過特征金字塔提取淺層特征信息,然后將特征圖輸入到3 個U-Net 分支中,其中U1、U2 和U3 分別是輸入特征圖的尺寸為H×W,H/2×W/2 和H/4×W/4 的3 個U-Net分支。
將通過MSU-Net 模塊得到的所有尺度特征圖進行逐層融合,再通過兩層卷積和SDRFB 模塊得到最終增強后的正常光照圖像,該過程表示為:

其中:i表示輸入的原始低照度圖像;o為最終增強的正常光照圖像;Conv 表示大小為3×3、步長為1 的卷積操作;SDRFB 表示結構細節殘差融合塊;Cat 表示對圖像進行連接操作;U1、U2、U3 表示3 個分支,這里是對3 個分支輸出的特征圖進行Cat 操作。
每經過一層卷積噪聲的等級就會減小,但相應的圖像細節內容也會丟失,因此,本文設計了MSU-Net模塊。該模塊將多尺度結構和U-Net 互相結合,在達到良好去噪效果的同時較好地保留了圖像細節紋理信息。采用多尺度結構可以在不同尺度的特征圖上捕獲更全面的特征信息,增強網絡對不同尺度特征的感知能力。U-Net 網絡能夠將編碼器中的低級特征與解碼器中的深層語義特征相結合,充分利用上下紋理信息。與標準的U-Net 架構相比,MSU-Net 的不同主要在于采用多分支多尺度的方式融合了多個不同感受野大小的卷積序列產生的特征圖,在模塊中通過對多個不同感受野的特征圖進行信息提取,能夠讓網絡獲得更多的細節和語義信息,從而增強網絡對多尺度特征信息的提取和表達能力。MSU-Net 分支結構如圖2所示。

圖2 MSU-Net 分支結構Fig.2 MSU-NET branch structure
值得注意的是,每個分支采用的U-Net 網絡的結構和深度都一致,其每個分支都采用3×3 大小、步長為1 的卷積,下采樣執行2×2 最大池化操作,上采樣執行2×2 轉置卷積操作。編碼器由兩個卷積層、兩個結構細節殘差融合塊組成,解碼器也是同樣結構。當來自編碼器網絡的高分辨率特征圖與解碼器網絡含有豐富語義的特征圖逐漸融合時,能夠讓網絡更有效地捕獲圖像的細節和語義信息。在MSU-Net模塊中,下采樣用來逐漸展現環境信息,上采樣用來進行信息的傳遞。由于模塊具有對稱性,因此可以在提高網絡模型精度的同時減小計算量。每個分支的計算過程可以表示為:

其中:Fin為輸入的特征圖;F1、F2、F3分別為經過卷積、池化等操作產生的特征圖;Fout為MSU-Net 模塊每個分支輸出的特征圖;SDRFB 表示結構細節殘差融合操作;Conv 表示卷積操作;Max_Pooling 表示下采樣最大池化操作;up_sampling 表示上采樣轉置卷積操作。
為了更好地挖掘圖像的深層次特征信息,提高網絡表達特征信息的能力,本文將SDRFB 嵌入到UNet 中,它不僅可以結合不同尺度的圖像特征信息,同時也有助于梯度的反向傳播,加快網絡模型的訓練速度,解決網絡層數較深情況下梯度消散的問題。圖3 所示為本文設計的結構細節殘差融合塊結構,其對輸入的特征圖進行最大池化下采樣操作,以保留顯著的圖像特征信息并減少網絡訓練參數。

圖3 結構細節殘差融合塊Fig.3 Structure details residual block
在SDRFB 模塊內生成兩個不同尺度的特征圖,大小分別為H/2×W/2 和H/4×W/4,然后將特征圖進行融合獲得含有豐富信息的特征圖。受殘差網絡的影響,考慮到非線性因素的初始化方法適用于研究更深更大的網絡結構,因此該模塊借鑒了殘差網絡的結構,引入跳躍連接進行特征融合。與普通殘差塊的主要區別是,SDRFB 模塊可以在同一尺度內充分利用多尺度信息。該模塊因為具有更大的感受野,所以可以獲得更多的上下文信息,有助于網絡找回丟失的圖像細節信息。此外,它還是一個獨立的模塊,可以靈活地嵌入到各種網絡模型訓練中。
SDRFB 模塊首先對輸入的特征圖進行卷積操作,然后再對輸入的特征圖進行池化操作以獲得不同尺度特征圖,該過程可以表示為:

其中:x表示輸入的特征圖;Conv 表示大小為3×3、步長為1 的卷積操作;Max_Pooling 表示大小2×2、步長為2的池化操作;y1、y2分別表示通過卷積和池化操作得到的輸出特征圖,大小分別為H/2×W/2、H/4×W/4。
最后,將所有尺度的特征圖融合在一起,通過帶有BN 和PReLU 操作的卷積層,再和輸入特征圖x相加。該過程可以表示為:

其中:Up1表示一次上采樣操作;Cat 表示對特征圖進行拼接,融合不同尺度的特征信息;Z為通過結構細節殘差融合塊(SDRFB)輸出的特征圖;H 表示包含Conv、Batch Norm 和PReLU 操作組成的運算,可以加速網絡訓練,加強特征的傳播、減少模型參數,解決了深層網絡的梯度消散和減少小樣本的過擬合的問題。
為定性和定量地提高圖像質量,考慮圖像的結構信息、感知信息和區域差異,本文將均方誤差(Mean Square Error,MSE)、結構性相似度(Structural Similarity Index,SSIM)和梯度損失(Grad Loss,GL)結合起來作為圖像增強模型的聯合訓練損失函數,其計算公式如下:

MSE 是網絡訓練時常用的回歸損失函數,在訓練過程中具有較好的收斂性,其計算公式為:

其中:I表示原始正常圖像,大小為M×N;K表示經過網絡框架增強后的圖像。
為彌補普通的均方誤差無法衡量圖片結構相似性的缺陷,本文加入了SSIM 損失函數,其計算公式為:

其中:μx和μy分別為圖像x和y的均值分別是圖像x和y的方差;σxy表示圖像x和y的協方 差;c1和c2為默認調節參數。
為了避免網絡在訓練過程中陷入局部最優,在聯合訓練損失函數中加入梯度損失函數,計算公式為:

其中:?是梯度算子,包含圖像x和y兩個維度方向;?x和?y分別表示水平和垂直方向的梯度。
將本文提出的基于U-Net 的多尺度低照度圖像增強網絡MSU-LIIEN 與現有經典方法進行對比評估,并對網絡模型進行消融實驗。
本文使用LOL-datasets 和Brighting Train 數據集作為訓練數據集。LOL-datasets包括500 個低/正常光圖像對,有485對低光/正常光訓練圖像,15張低照度測試圖像。Brighting Train數據集包含1 000對低照度和正常光照圖像。實驗平臺配置Intel Xeon W-2102 2.90 GHz CPU、8 GB RAM 和Nvidia 2080 GPU,實驗程序在Tensorflow 1.15 框架上運行,聯合損失函數的權重參數設置為α=β=γ=1,利用學習率設置為1e-4 的Adam 優化模型對網絡進行優化,整個網絡訓練次數為2 000 次。
基于LOL數據集,本文將MSU-LIIEN網絡模型與9種經典低照度圖像增強模型進行比較,傳統模型為MSRCR[8]、DONG[12]、NPE[13]、SRIE[9]、MF[10]、BIMEF[14],深度學習模型為MBLLEN[18]、KinD[21]、RRDNet[25]。圖4~圖6 分別是從LOL 數據集中選取的3 張測試圖像的實驗結果對比圖,其中細節部分用方框標出。可以看出:SRIE、BIMEF 和RRDNet模型計算得到的圖像在亮度和清晰度上均不理想;DONG、BIMEF、MF、NPE、MSRCR 和SRIE 方法都產生了大量噪聲,導致主觀效果欠佳;MSRCR 模型使增強后的圖像存在過曝的現象且伴有大量噪聲;BIMEF、MBLLEN 和KinD 模型在其增強后的圖像物體邊緣會出現模糊現象,細節丟失嚴重;相比之下,本文提出的MSU-LIIEN 模型不但能更好地提升增強圖像的整體亮度,而且增強后的圖像保持了豐富的物體細節信息和清晰的邊緣輪廓,同時還能有效抑制噪聲的產生。

圖4 Wardrobe 圖像實驗結果對比Fig.4 Experimental results comparison of Wardrobe image

圖5 Natatorium 圖像實驗結果對比Fig.5 Experimental results comparison of Nataorium image

圖6 Doll 圖像實驗結果對比Fig.6 Experimental results comparison of Doll image
基于Brighting Train 數據集,本文模型與3 種基于深度學習的低照度圖像增強模型進行對比,對比模型包括Retinex-Net[16]、KinD[21]、TBEFN[28]模型。圖7~圖9分別是從Brighting Train 數據集中選取的3 張測試圖像的實驗結果對比圖,其細節部分用方框標出。由圖7 可以看出:TBEFN 的模型無法增強出其圖像本身的色彩,增強后的圖像整體呈現灰色黯淡的情況;拱門上面的獎杯出現灰度分布不均勻的現象,雕像側邊凹進去的墻壁邊緣模糊;Retinex-Net 模型在圖像整體色彩恢復上較差,拱門上面的獎杯存在色彩失真的現象,側邊凹進去的墻壁邊緣輪廓模糊不清;KinD 模型可以把獎杯的色彩均勻的恢復出來,但圖像的整體細節信息還是存在模糊的問題;本文提出的MSU-LIIEN 模型可以較好地恢復出建筑物本身的色彩,且拱門上面的獎杯和側邊凹進去的墻面邊界都能清晰地增強出來。由圖8可以看出:TBEFN 模型仍舊沒有把建筑物本身的色彩增強出來;Retinex-Net模型存在顏色失真、圖像模糊的現象,屋頂建筑物的輪廓和屋檐與墻壁之間的分界處由于噪聲的存在,導致圖像模糊,且天空中的烏云分布不自然合理;KinD 模型有偽影的現象發生,屋檐與天空的分界不明顯,屋頂建筑物的輪廓也不清晰;本文的MSU-LIIEN 模型能夠使天空中的烏云的分布恢復得更自然一些,屋頂及屋頂建筑物的輪廓增強得較為清晰,且細節更加豐富,顏色豐富度較其他模型有明顯的提高。由圖9 可以看出:TBEFN 模型使草地的顏色明顯發生了明顯退化,有很多小草的顏色沒有恢復出來;Retinex-Net 模型出現了大量的噪聲,且兩只鳥的色彩恢復較為單一;KinD 模型存在細節模糊的現象,兩只鳥的邊緣輪廓模糊;相比之下,本文提出的MSU-LIIEN模型可以使兩只鳥的邊緣輪廓更加清晰,草地的顏色更加合理自然,且有效地抑制了噪聲的產生。總體而言,本文模型取得了較好的效果。

圖7 Building1 圖像實驗結果對比Fig.7 Experimental results comparison of Building1 image

圖8 Building2 圖像實驗結果對比Fig.8 Experimental results comparison of Building2 image

圖9 Bird 圖像實驗結果對比Fig.9 Experimental results comparison of Bird image
本節實驗采用圖像質量客觀評價指標來評估本文提出的MSU-LIIEN 網絡模型。選用的評價指標包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結構相似性(Structual Similarity,SSIM)、噪聲質量評價(Noise Quality Measure,NQM)、信噪比(Signal-to-Noise Ratio,SNR)、視覺信息保真度(Visual Information Fidelity,VIF)以及信息保真度準則(Information Fidelity Criterion,IFC)來評價。PSNR 值越大,表明圖像的質量越好,失真越少;SSIM 值越大,表明圖像的質量越好,更符合人眼的評判標準;VIF、NQM 和IFC 越大,表明圖像細節保留得越好。
表1~表3 分別給出了對應LOL 數據集中3 幅測試圖像的各種對比模型所得到的客觀評價指標,其中,加粗數據為最優數據,下同。可以看出:在表1中除了SSIM 指標略低于KinD 方法外,本文模型在其他評價指標上明顯優于其他對比模型。在表2 中除了SSIM、VIF 指標外,其他評價指標都是最優的,而且在PSNR、NQM、IFC、SNR 指標上和圖像處理速度上明顯優于其他對比模型。在表3 中本文模型在所有評價指標上均明顯優于其他對比模型。此外,在表3 中還給出了LOL 數據集中全部15 幅測試圖像所對應各種模型的平均峰值信噪比(Average Peak Signal-to-Noise Ratio,AVG_PSNR)指標,可以看出,本文模型在該指標上也明顯優于其他所有對比模型。由此看見,本文模型對低照度圖像增強的效果在客觀評價指標上明顯優于其他9 種對比模型,且圖像的處理時間也為最短。

表1 Cabinet 圖像評價指標Table 1 Evaluation index of Cabinet image

表2 Natatorium 圖像評價指標Table 2 Evaluation index of Natatorium image

表3 Doll 圖像評價指標Table 3 Evaluation index of Doll image
表4~表6 分別給出了對應Brighting Train 數據集中3 幅測試圖像的各種對比模型所得到的客觀評價指標。可以看出,在表4~表6 中除了圖像的運行時間外,其他評價指標均是本文模型最優,且在PSNR、SSIM、NQM、IFC、VIF和SNR指標上明顯優于其他對比模型。此外,在表6 中還給出了Brighting Train 數據集中全部測試圖像所對應各種模型的平均峰值信噪比(AVG_PSNR)指標。可以看出,本文模型在該指標上也明顯優于其他所有對比模型。由此看見,無論是在像素層面、結構層面還是在感知層面,本文網絡模型的圖像增強質量均優于其他所有對比模型。

表4 Building1 圖像評價指標Table 4 Evaluation index of Building1 image

表5 Builling2 圖像評價指標Table 5 Evaluation index of Building2 image

表6 Bird 圖像評價指標Table 6 Evaluation index of Bird image
對MSU-LIIEN 網絡模型中各個網絡模塊進行消融實驗,本實驗采用LOL 數據集。為公平比較,實驗均在相同設置下進行訓練。為了驗證本文引入的結構細節殘差融合塊(SDRFB)和特征金字塔網絡(FPN)的有效性,每次訓練分別移除其中一個網絡模塊來進行消融實驗。
圖10 所示為從LOL_datasets 選出的3 張測試圖像。可以看出,去掉SDRFB 模塊的網絡模型在顏色豐富度上沒有基礎模型好,去掉FPN 的網絡模型在細節恢復上不夠理想,物體的邊緣輪廓較為模糊。
表7給出了采用LOL數據集中“Doll”圖像和“Room”圖像來進行消融實驗所得到的客觀評價指標。其中,AVG_PSNR 和 AVG_SSIM(Average Structural Similarity,AVG_SSIM)是采用LOL數據集中所有15幅測試圖像所得到的平均峰值信噪比和平均結構相似度。從表7中可以看出,本文引入SDRFB模塊和FPN能夠有效提升低照度圖像的增強效果,AVG_PSNR 和AVG_SSIM指標有明顯提升。加入FPN后,AVG_PSNR指標提升了4.95%,AVG_SSIM 指標提升了1.19%;而加入SDRFB 模塊后,AVG_PSNR 指標提升了23.02%,AVG_SSIM 指標提升了3.66%。

表7 消融實驗指標對比Table 7 Indexes comparison of ablation experiment
圖11(a)和圖11(b)分別為各消融實驗每隔200次迭代所得到的平均PSNR 值和平均SSIM 值的變化情況。可以看出,在每200 次迭代中,均值PSNR 及均值SSIM 指標均是本文模型最好,因此,本文的基礎模型能夠取得最好的結果。

圖11 消融實驗PSNR、SSIM 指標對比折線圖Fig.11 Line chart of comparison of PSNR and SSIM in ablation experiment
本文提出一種基于U-Net 的多尺度低照度圖像增強網絡(MSU-LIIEN),在網絡訓練過程中采用融合的策略對網絡進行端對端的有監督學習,以促進網絡模型融合更多的圖像特征信息。由于網絡中3 個分支都采用U-Net 作為骨干網,因此MSU-LIIEN能夠充分捕捉相隔較遠圖像區域間的特征信息,提取更豐富的語義信息,從而有利于恢復圖像的整體結構,增強圖像亮度。此外,MSU-LIIEN 模型中嵌入的SDRFB 模塊能夠更好地聚合上下紋理信息,捕獲更詳細的圖像特征信息,提高網絡模型精度。實驗結果表明,與KinD、MSRCR、NPE、MBLLEN 等模型相比,本文模型在增強圖像亮度的同時能保持更多的圖像結構和紋理信息,而且可以有效抑制噪聲的產生。MSU-LIIEN 模型只適用于靜態低照度圖像處理,下一步擬將其應用范圍擴展到低照度視頻增強領域。