周 桐,李冬春,田雨聃
(1.重慶師范大學(xué) 計算機與信息科學(xué)學(xué)院, 重慶 401331;2.重慶工程職業(yè)技術(shù)學(xué)院 大數(shù)據(jù)與物聯(lián)網(wǎng)學(xué)院, 重慶 402260;3.重慶大學(xué) 自動化學(xué)院, 重慶 400044)
交通隧道場景下的視頻圖像檢測是當(dāng)前掌握隧道內(nèi)的交通狀況和安全狀況的重要渠道和手段。對于隧道場景下的行人目標(biāo)檢測系統(tǒng),圖像信息清晰度直接影響檢測結(jié)果準(zhǔn)確度。但是,隧道場景下物理設(shè)備捕獲的圖像質(zhì)量仍然存在以下不足:第一,為了滿足監(jiān)控管理的要求,攝像機處于地面上方某一固定位置,這時雖然可以拍攝到較寬的路面范圍,但傳回的圖像都是遠(yuǎn)景,其中行人多是弱項目標(biāo),像素值低,比較模糊,并且特征信息較少;第二,隧道場景是一種受人造光源影響較嚴(yán)重的,總體亮度比露天場景更低的半封閉場景,圖像模糊不清或者因光照或角度遮擋等條件造成隧道背景與行人目標(biāo)難以區(qū)分。這些因素導(dǎo)致常用的圖像識別算法很難在隧道交通場景下獲得良好的表現(xiàn),不能滿足實際工程要求。因此,如何通過圖像增強算法改善隧道場景下物理設(shè)備獲取的原始圖像畫質(zhì),凸顯更多的行人特征信息,對于提高隧道行人目標(biāo)檢測準(zhǔn)確性,是一個亟待解決的問題。
目前,國內(nèi)外學(xué)者提出各種理論和算法來解決圖像增強問題,原理上可將其分為5種類型:分布映射類[1]、色調(diào)映射類[2]、背景融合類[3]、模型優(yōu)化類[4-6]和深度學(xué)習(xí)類。其中,深度學(xué)習(xí)作為近年來發(fā)展最快的方法之一,已經(jīng)被廣泛應(yīng)用于低級視覺任務(wù)中。然而,深度學(xué)習(xí)技術(shù)在解決低光照圖像增強問題上仍然存在許多挑戰(zhàn)[7]。最早基于深度學(xué)習(xí)技術(shù)來解決低光照增強問題的工作從2017年開始,后逐漸發(fā)展成為一種主流方法[7]。從實現(xiàn)目的上,基于深度學(xué)習(xí)技術(shù)來實現(xiàn)的低光照增強方法分兩類:亮度增強類方法和結(jié)合亮度增強與噪聲去除類方法。
亮度增強類的方法的核心是通過提升圖像亮度來突出圖像的更多結(jié)構(gòu)和細(xì)節(jié),由于早期缺乏成對數(shù)據(jù)集的原因,大多采用合成數(shù)據(jù)進(jìn)行訓(xùn)練。Chen等[8]基于U-Net[9]架構(gòu)進(jìn)行全局增強,并采用Wasserstein GAN(generative adversarial network)的訓(xùn)練機制,然后通過自適應(yīng)加權(quán)達(dá)到更快的收斂速度。Yu等[10]使用深度強化對抗學(xué)習(xí),將原始低光照圖像分割為可反映曝光動態(tài)范圍變化的子圖像,并在子圖像上使用策略網(wǎng)絡(luò)的順序自動學(xué)習(xí)每個子圖像的局部曝光,以達(dá)到整體曝光的平衡。
以上方法都致力于對亮度的估計和提升來增強圖像,但是容易忽略一些惡劣條件下圖像的噪聲問題。因此,結(jié)合亮度增強與噪聲去除的神經(jīng)網(wǎng)絡(luò)模型被提出。Wei等[11]提出了RetinexNet,一種基于Retinex理論的低光照圖像增強網(wǎng)絡(luò)。該網(wǎng)絡(luò)由光照估計和反射層估計模塊組成,能夠同時預(yù)測圖像的光照分量和反射分量。為了訓(xùn)練網(wǎng)絡(luò),Wei等[11]還建立了一個基于曝光時間的調(diào)整來獲得有合成噪聲的全新成對數(shù)據(jù)集(即LOL數(shù)據(jù)集)。然而,該方法仍然存在一些未知偽影和過于細(xì)化的細(xì)節(jié),這是因為對中間變量的約束不足。KinD[12-13]是一種低光照圖像增強網(wǎng)絡(luò),它的架構(gòu)類似于RetinexNet。與RetinexNet不同的是,KinD在訓(xùn)練過程中加入了更多的損失函數(shù)來引導(dǎo)網(wǎng)絡(luò)的權(quán)重更新。另外,Wang等[14]將低光照圖像增強的問題看成一個殘差學(xué)習(xí)問題,即對低光照和正常光照之間的殘差進(jìn)行估計。為了準(zhǔn)確地估計出殘差光照,他們在網(wǎng)絡(luò)結(jié)構(gòu)中迭代地執(zhí)行增亮和變暗過程,使用光照反向映射(LBP)來實現(xiàn)。
由于當(dāng)前成對數(shù)據(jù)訓(xùn)練機制泛化性能的不足和現(xiàn)有成對數(shù)據(jù)自身的不精確性,很多旨在減輕對成對數(shù)據(jù)集依賴的工作正在相繼提出。為了使增強圖像更加自然,Guo等[15]提出了Zero-DCE(zero-reference deep curve estimation),這是一種基于圖像處理軟件亮度曲線的像素級別曲線估計卷積神經(jīng)網(wǎng)絡(luò)。他們采用逐步推導(dǎo)的方法,設(shè)計了一系列零參考訓(xùn)練損失函數(shù),解決了光照不足時的圖像增強問題。該網(wǎng)絡(luò)在訓(xùn)練中不需要依賴于成對數(shù)據(jù)集,因此在某些特殊場景下具有較好的實用價值。Li等[16]提供了加速的版本Zero-DCE++,顯著提升運算效率,性能幾乎保持不變。Jiang等[17]提出了一種具有自我注意力機制的生成對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)使用不成對的數(shù)據(jù)集進(jìn)行訓(xùn)練。盡管該方法的性能遠(yuǎn)優(yōu)于現(xiàn)有的一系列基于GAN的低光增強方法,但由于忽略了物理原理的影響,因此效果總是不如預(yù)期,會產(chǎn)生一些未知的偽像。
近年來,計算機視覺技術(shù)飛速發(fā)展,在交通領(lǐng)域中也發(fā)揮極大作用,如車牌識別、行人檢測等。其中,基于深度學(xué)習(xí)的視覺識別技術(shù)用于隧道場景下的行人檢測也逐漸開始應(yīng)用。然而,受光線強度、角度以及物體遮擋影響,導(dǎo)致隧道拍攝圖片成像質(zhì)量較差、局部區(qū)域亮度偏低、噪聲較多,在不升級硬件基礎(chǔ)上,通過軟件優(yōu)化交通隧道場景下行人圖像的相關(guān)研究工作較少。Guo等[15]提出的Zero-DCE算法能有效增強圖片中的弱光部分,但是,其光照特征提取主干網(wǎng)絡(luò)的設(shè)計比較簡單,導(dǎo)致模型在增強弱光時損失了圖片中較多的特征和細(xì)節(jié),且增強效果受原始圖像限制,特別是當(dāng)原圖中含有噪聲時,算法表現(xiàn)更為敏感。因此,該模型雖具有較高的泛化性,但在實際工程應(yīng)用場景中表現(xiàn)不如預(yù)期。
為了更好地對隧道場景中的圖像進(jìn)行優(yōu)化和增強,本文中提出DA-Zero-DCE(denoising-attention based zero-reference deep curve estimation)算法模型,其在Zero-DCE[15]模型基礎(chǔ)上加入了NAF-Net[18]噪聲去除模塊,將原算法低光照增強后的數(shù)據(jù)再進(jìn)行去噪處理,從而進(jìn)一步提升圖像質(zhì)量。此外,該算法還改進(jìn)了低光照增強部分的損失函數(shù),將空間一致性損失從4鄰域計算改為8領(lǐng)域計算,讓光照增強后的圖像與原圖具有更好的結(jié)構(gòu)相似度;將低光照增強的主干網(wǎng)絡(luò)替換為U-Net結(jié)構(gòu)[9],讓輸出特征圖具有更多的語義信息,在適當(dāng)損失泛化性的同時提高了結(jié)果的增強質(zhì)量;加入坐標(biāo)注意力機制Coordinate Attention[19]讓網(wǎng)絡(luò)更加關(guān)注需要低光照增強的區(qū)域,從而緩解增強后圖像整體過曝的情況。
Zero-DCE[15]以一幅原始低光照圖像作為輸入,通過主干網(wǎng)絡(luò)DCE-Net提取圖像特征,訓(xùn)練亮度參考曲線參數(shù)圖,然后利用訓(xùn)練的結(jié)果對圖像亮度進(jìn)行像素級別調(diào)整。經(jīng)過多次迭代得到增強后的圖像,總體處理流程如圖1所示[20],參數(shù)迭代見式(1)。

圖1 Zero-DCE算法總體流程
LEn(x)=LEn-1(x)+Λn(x)LEn-1(x)(1-LEn-1(x))
(1)
本文在Zero-DCE算法的基礎(chǔ)上,對低光照增強的算法處理過程進(jìn)行了改進(jìn)與優(yōu)化,如圖2所示。

圖2 DA-Zero-DCE算法流程
首先,通過5層U-Net網(wǎng)絡(luò)結(jié)構(gòu)作為光照估計的主干網(wǎng)絡(luò)對輸入圖像進(jìn)行特征提取;然后,在特征輸出結(jié)果上加入坐標(biāo)注意力機制,讓網(wǎng)絡(luò)自身更加關(guān)注需要被增強的局部低光照區(qū)域,再通過輸出各像素的光照估計參數(shù),計算出光照增強后的圖像;將弱光增強后的圖像送入去噪模塊NAF-Net,對圖像進(jìn)行噪聲去除,輸出最終結(jié)果。此外,通過對損失函數(shù)的優(yōu)化,本算法可以在訓(xùn)練過程中獲得低光照增強與圖像去噪的雙重能力。與原算法Zero-DCE相比,本文中提出的DA-Zero-DCE隧道低光照增強算法在局部光照優(yōu)化與圖像去噪方面有明顯提升。
由于輕量級網(wǎng)絡(luò)模型的參數(shù)數(shù)量和計算能力限制,目前應(yīng)用在該類模型上的注意力機制以Squeeze-and-Excitation (SE) attention[21]為主,依賴于在2D數(shù)據(jù)上做全局池化操作來計算通道維度的權(quán)重,最后與通道數(shù)據(jù)相乘得到注意力的作用結(jié)果。從過程中可以看出其計算過程比較簡單直接,并且數(shù)據(jù)處理的角度有限,僅僅關(guān)注了通道維度的全局信息而并未考慮局部的特征分布,然而局部特征在視覺類任務(wù)中對圖像結(jié)構(gòu)的學(xué)習(xí)和感知尤為重要。
DA-Zero-DCE將主干網(wǎng)絡(luò)設(shè)計成U-Net結(jié)構(gòu)與坐標(biāo)注意力機制相結(jié)合,使得主干網(wǎng)絡(luò)不僅可以學(xué)習(xí)到圖像的跨通道特征,還可以捕獲對于方向與位置敏感的信息,使主干網(wǎng)絡(luò)在不需要大量增加算力消耗的同時可以學(xué)習(xí)到需要進(jìn)行亮度增強的局部感興趣區(qū)域,坐標(biāo)注意力機制結(jié)構(gòu)如圖3所示,其中,C為特征圖通道維度,H、W分別為特征圖的寬、高維度,r為通道壓縮倍數(shù)。

圖3 坐標(biāo)注意力機制結(jié)構(gòu)
基于精確的位置信息與通道的對應(yīng)關(guān)系和長期依賴性編碼,坐標(biāo)注意力機制實現(xiàn)了注意力作用過程,步驟大致分為坐標(biāo)信息嵌入以及坐標(biāo)注意力生成2步。首先,通過H維度和W維度的平均池化操作得到每行與每列的權(quán)重分布,然后通過數(shù)據(jù)堆疊的方式進(jìn)行合并,合并以后經(jīng)過卷積層與正則化層和激活函數(shù)。然后,將結(jié)果拆分為H維和W維的數(shù)據(jù),拆分的數(shù)據(jù)并行進(jìn)入一個卷積層和Sigmoid激活函數(shù)。最后,生成H維的權(quán)重和W維的權(quán)重,與輸入特征圖進(jìn)行相乘,即可得到坐標(biāo)注意力作用后的結(jié)果。
神經(jīng)網(wǎng)絡(luò)的特征提取性能將極大地影響后續(xù)的預(yù)測結(jié)果,相對使用復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)來提取圖像的特征,輕量級網(wǎng)絡(luò)具有參數(shù)少、計算量小、推理時間短等特點,能極大地提升模型特征提取效率,可以非常好地應(yīng)用于實際的工程場景或移動設(shè)備上。U-Net作為這種輕量級的特征提取網(wǎng)絡(luò)的代表,被廣泛應(yīng)用于實際場景中。
U-Net采用encoder-decoder結(jié)構(gòu),參考圖4(a),分為編碼部分和解碼部分,左側(cè)的編碼部分的實現(xiàn)為典型的VGG網(wǎng)絡(luò)中的下采樣模塊的組合,下采樣模塊由2或3個重復(fù)堆疊的3×3卷積和ReLU層構(gòu)成,而每個模塊間通過最大池化操作對寬高尺寸進(jìn)行縮放。而右側(cè)的解碼部分則是每層通過2×2的卷積核,步長為2的轉(zhuǎn)置卷積來實現(xiàn)上采樣操作,使通道數(shù)減半且寬高加倍。然后,與編碼部分每個模塊的提取結(jié)果進(jìn)行通道維度的拼接,再經(jīng)過2個3×3的卷積和ReLU層。經(jīng)過4次這樣的解碼操作后,通過1×1的卷積層調(diào)節(jié)最后的通道數(shù),再結(jié)合全連接層來調(diào)節(jié)最后的輸出shape。

圖4 特征提取主干網(wǎng)絡(luò)結(jié)構(gòu)
U-Net具有淺層和深層卷積的特征融合操作,一方面,淺層卷積能獲取到更多細(xì)節(jié)特征;另一方面,深層卷積更加關(guān)注高層語義特征,通過連接的方式使得特征圖兼顧了二者。下采樣操作通常容易丟失一些邊緣細(xì)節(jié)信息,而這些信息在上采樣中無法通過學(xué)習(xí)得到,而通過連接的方式則可以彌補這種信息的缺失,使最后的結(jié)果更加具有準(zhǔn)確性。因此,我們將Zero-DCE算法中用于生成光照估計曲線的特征提取主干網(wǎng)絡(luò)DCE-Net替換為U-Net,在輸出結(jié)果前加入坐標(biāo)注意力模塊,作為DA-Zero-DCE的主干網(wǎng)絡(luò)結(jié)構(gòu),如圖4(b)所示。
增強后的圖像雖然暗光區(qū)域的特征得到加強,但仍然存在一些噪聲。為此,引入了NAF-Net去噪模塊來對調(diào)整后的圖像進(jìn)行去噪處理,其結(jié)構(gòu)如圖5所示,其中,⊙為矩陣點乘,*為按通道相乘。(d)為模塊總體架構(gòu),(a)為NAF Block內(nèi)部結(jié)構(gòu),(b)為簡化后的通道注意力機制SCA(simple channel attention),(c)為用于替換GELU激活函數(shù)的結(jié)構(gòu)SimpleGate。

圖5 NAF-Net模塊結(jié)構(gòu)
模塊參考了U-Net結(jié)構(gòu),采用基于塊的跳躍連接堆疊方式,充分減少了內(nèi)部塊之間的復(fù)雜度。此外,還加入LayerNormal層使得訓(xùn)練更加平滑,可以通過放大學(xué)習(xí)率的方式提升性能。GELU激活函數(shù)在保持降噪性能的同時可以大幅提升模型去模糊化的性能,但由于其復(fù)雜性影響模型效率,使用SimpleGate替換原始ReLU激活函數(shù),簡化模型結(jié)構(gòu)。此外,簡化版通道注意力機制(SCA)可以滿足計算效率的同時引入全局信息。
通過DA-Zero-DCE算法,圖像增強功能具有局部暗光區(qū)域提亮的同時,噪聲也得到了消除與緩解。
NAF-Net去噪模塊讓整個算法模型具有了圖像去噪能力, CharbonnierLoss損失引導(dǎo)去噪部分結(jié)構(gòu)的權(quán)重在反向傳播時進(jìn)行學(xué)習(xí)和更新,去噪損失函數(shù)如式(2)。

(2)

Losstotal=WexpLossexp+WtvALosstvA+WcolLosscol+WspaLossspa+Lossdenoise
(3)
Lossexp代表圖像曝光損失,如式(4)。

(4)
式中:E為圖像亮度中間值,一般取0.6[15];Y為大像素區(qū)域中亮度平均值;M為大像素總個數(shù)。
LosstvA代表圖像的光照平滑損失,如式(5)。

(5)
式中:N為迭代次數(shù);▽x和▽y分別表示水平和垂直梯度算子,即當(dāng)前像素與左方像素的差值以及當(dāng)前像素與上方像素的差值。
Losscol表示色彩恒定損失,如式(6)。

(6)
式中:p與q遍歷了RGB顏色通道中的兩兩組合,Jp表示顏色通道p的平均亮度值。
Lossspa代表空間一致性損失,如式(7)。

(7)
從式(7)中可以看出,該損失函數(shù)的思路是通過類似卷積的4個濾波器來刻畫單一像素與4個鄰域之間的空間差異性,再與原圖做最小二乘法。其中,K是圖像的總像素個數(shù),i是像素遍歷索引,Ω(i)是第i個像素的4鄰域,Y與I分別為增強圖像與輸入圖像。在DA-Zero-DCE中,將Ω(i)作用范圍進(jìn)行了擴(kuò)大,即與第i個像素相鄰的8個相鄰像素,提高了增強圖像與原圖的空間一致性。
最后,在總損失Losstotal的計算表達(dá)式中,權(quán)重項Wexp、Wcol、Wspa、WtvA分別為10、5、1、200[15]。
DA-Zero-DCE算法的訓(xùn)練與測試在CPU為i5-10400、顯卡NVIDIA GTX3070 Lap-top(8 GB)、內(nèi)存16 GB平臺上進(jìn)行,深度學(xué)習(xí)程序基礎(chǔ)框架Pytorch。訓(xùn)練參數(shù)包括:輪次為300次、批次大小為5、優(yōu)化器采用Adam、初試學(xué)習(xí)率為0.000 1,學(xué)習(xí)率按余弦函數(shù)衰減。
本文所用的模型訓(xùn)練數(shù)據(jù)集為LOL,其中包含了500個低光照與正常光照圖像的配對,圖像尺寸為600(w)×400(h),通道數(shù)為RGB三通道,其中大多數(shù)圖像通過調(diào)整相機的曝光時間和ISO來得到。雖然Zero-DCE的訓(xùn)練不需要正常光照的圖像來計算損失,但由于引入了圖像噪音去除模塊,所以需要通過最終的正常光照圖像來衡量去噪損失,改進(jìn)的算法訓(xùn)練過程如圖6所示。

圖6 訓(xùn)練過程數(shù)據(jù)變化
本文采用了峰值信噪比(PSNR)和結(jié)構(gòu)相似性 (SSIM)來評價圖像增強的效果。PSNR峰值信噪比使用較為廣泛,是一種誤差敏感的圖像質(zhì)量評價指標(biāo);SSIM結(jié)構(gòu)相似性指標(biāo)考慮到了人眼的視覺感受,分別從對比度、亮度以及結(jié)構(gòu)3個方面去衡量與計算圖像的相似性。PSNR值與SSIM值越高,表明算法增強后的結(jié)果圖像質(zhì)量越優(yōu)。
由于該算法的應(yīng)用場景是在交通隧道對隧道行人進(jìn)行目標(biāo)檢測,因此,對于隧道中圖像的增強能力需要進(jìn)行實驗和證明。
通過收集到的隧道圖像,對本模型進(jìn)行訓(xùn)練和預(yù)測,圖像增強結(jié)果如圖7所示,圖7(a1)—圖7(a3)為原始圖像輸入,圖7(b1)—圖7(b3)為LI提出的隧道圖像增強算法[22]增強后的圖像輸出,圖7(c1)—圖7(c3)為DA-Zero-DCE算法增強后的圖像輸出。

圖7 DA-Zero-DCE算法對隧道場景下的增強圖像
通過圖7可知, DA-Zero-DCE算法對于隧道場景下的圖像,在保證暗區(qū)部分光照的提升的同時也很好地平衡了圖像噪聲。由于LI提出的隧道圖像增強算法處理單張圖片的效率約2 s,對比圖8中的處理效率,本算法對單張圖像的增強所耗的時間約50 ms,當(dāng)前隧道視頻流的處理能力需求在20 fps左右,可以在一定程度上滿足工程要求。

圖8 DA-Zero-DCE算法與Zero-DCE算法效率曲線
為驗證所提模型在增強圖像上的有效性,對比了原始Zero-DCE 算法,LI提出的隧道圖像增強算法[22](P7)以及DA-Zero-DCE算法。
從表1可以看出,U-Net結(jié)構(gòu)的替換(P3—P6)、NAF-Net去噪模塊(P2、P6)、坐標(biāo)注意力的引入(P4-P6)對算法的PSNR和SSIM的提升較為明顯,而損失函數(shù)的改進(jìn)(P1—P2、P5—P6)對于兩大指標(biāo)的提升則較小。以上指標(biāo)對比結(jié)論可證明DA-Zero-DCE模型的相關(guān)改進(jìn)對于增強結(jié)果是有效的。

表1 各項改進(jìn)組合與評價指標(biāo)(基于LOL數(shù)據(jù)集)
此外,為驗證通過DA-Zero-DCE算法增強圖像對行人檢測準(zhǔn)確性的提升,基于經(jīng)典圖像分類模型AlexNet[20],對圖9中采用DA-Zero-DCE算法增強前(a1)—(d1)與增強后(a2)—(d2)的圖片進(jìn)行是否包含行人的分類預(yù)測,預(yù)測結(jié)果如表2所示。

表2 AlexNet模型預(yù)測結(jié)果

圖9 DA-Zero-DCE對真實隧道行人圖像的增強效果
從表2的AlexNet模型預(yù)測結(jié)果可以得出,對比原始圖像,使用DA-Zero-DCE算法增強后的圖像的預(yù)測置信度有了顯著提升,進(jìn)一步驗證了本文算法在圖像質(zhì)量優(yōu)化層面的有效性。
隧道場景下的行人目標(biāo)檢測,圖像質(zhì)量很大程度上決定了目標(biāo)檢測結(jié)果的準(zhǔn)確性。然而,隧道拍攝的圖像受環(huán)境限制,通常存在局部偏暗、噪點較多等問題。為優(yōu)化隧道場景下成像質(zhì)量,本文中提出了一種基于坐標(biāo)注意力機制的隧道行人檢測圖像增強算法DA-Zero-DCE,在Zero-DCE算法基礎(chǔ)上,把主干網(wǎng)絡(luò)改進(jìn)為U-Net結(jié)構(gòu),并結(jié)合了坐標(biāo)注意力機制,將空間一致性損失函數(shù)擴(kuò)展到了8鄰域的損失計算,優(yōu)化結(jié)果的平滑度,緩解輸出失真和局部過曝的現(xiàn)象。為進(jìn)一步減少輸出結(jié)果的噪聲,引入NAF-Net圖像去噪模塊,可有效去除輸出圖像中的大部分噪聲,使最終的增強效果更清晰。通過相關(guān)的消融實驗和效果驗證,對比Zero-DCE算法,在增強結(jié)果上PSNR提升約10 dB、SSIM提升約0.1,證明了相關(guān)改進(jìn)的有效性。此外,基于AlexNet分類模型,對比原始圖片和增強圖片識別結(jié)果的置信度可得出,通過本算法對原始圖像增強后,有利于提升隧道行人識別的準(zhǔn)確性。