











摘 要:低光照等惡劣環(huán)境下的目標(biāo)檢測(cè)一直都是難點(diǎn),低光照和多霧因素往往會(huì)導(dǎo)致圖像出現(xiàn)可視度低、噪聲大等情況,嚴(yán)重干擾目標(biāo)檢測(cè)的檢測(cè)精度。針對(duì)上述問(wèn)題,提出了一個(gè)面向機(jī)器視覺(jué)感知的低光圖像增強(qiáng)網(wǎng)絡(luò)MVP-Net,并與YOLOv3目標(biāo)檢測(cè)網(wǎng)絡(luò)整合,構(gòu)建了端到端的增強(qiáng)檢測(cè)框架MVP-YOLO。MVP-Net采用了逆映射網(wǎng)絡(luò)技術(shù),將常規(guī)RGB圖像轉(zhuǎn)換為偽RAW圖像特征空間,并提出了偽ISP增強(qiáng)網(wǎng)絡(luò)DOISP進(jìn)行圖像增強(qiáng)。MVP-Net旨在發(fā)揮RAW圖像在目標(biāo)檢測(cè)中的潛在優(yōu)勢(shì),同時(shí)克服其在直接應(yīng)用時(shí)所面臨的限制。模型在多個(gè)真實(shí)場(chǎng)景暗光數(shù)據(jù)上取得了優(yōu)于先前工作效果并且能夠適應(yīng)多種不同架構(gòu)的檢測(cè)器。其端到端檢測(cè)框mAP(50%)指標(biāo)達(dá)到了78.3%,比YOLO檢測(cè)器提高了1.85%。
關(guān)鍵詞:低光圖像增強(qiáng); 機(jī)器視覺(jué); RAW圖像; ISP處理
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)06-045-1910-06
doi:10.19734/j.issn.1001-3695.2023.08.0404
Dark light image enhancement network for machine vision perception
Abstract:Target detection in adverse conditions such as low illumination has always been a challenging. The factors of low light and fog can lead to reduced visibility and increased noise in images, significantly disrupting the precision of object detection. To address these issues, this paper proposed and integrated a low-light image enhancement network for machine vision perception, MVP-Net, with the YOLOv3 object detection network to construct an end-to-end enhancement detection framework, MVP-YOLO. MVP-Net employed inverse mapping network technology to transform conventional RGB images into pseudo-RAW image feature space and introduced a pseudo-ISP enhancement network, DOISP, for image enhancement. The objective of MVP-Net is to harness the potential advantages of RAW images in object detection while overcoming the limitations encountered in their direct application. The model has outperformed previous works on multiple real-world low-light datasets and is adaptable to detectors with various architectures. Its end-to-end detection framework achieves a mAP(50%) metric of 78.3%, an improvement of 1.85% over the YOLO detectors.
Key words:low-light image enhancement; machine vision; RAW images; ISP processing
0 引言
暗光目標(biāo)檢測(cè)是目標(biāo)檢測(cè)算法在暗光環(huán)境的具體應(yīng)用。近年來(lái),依靠大規(guī)模高質(zhì)量的數(shù)據(jù)集,目標(biāo)檢測(cè)算法發(fā)展取得了巨大成功,但在實(shí)際應(yīng)用場(chǎng)景中,低光和多霧等因素往往會(huì)導(dǎo)致圖像出現(xiàn)可視度低、噪聲大、偽影等情況,給現(xiàn)有的目標(biāo)檢測(cè)方法帶來(lái)巨大挑戰(zhàn),嚴(yán)重干擾目標(biāo)檢測(cè)方法的檢測(cè)性能,減慢了其在產(chǎn)業(yè)界的落地步伐,如夜間自動(dòng)駕駛、夜間無(wú)人機(jī)搜尋等。
為了提高檢測(cè)算法在暗光場(chǎng)景的檢測(cè)性能,常用的做法是在檢測(cè)算法前面加入圖像增強(qiáng)算法,使暗光圖像恢復(fù)到正常光照效果。傳統(tǒng)的圖像增強(qiáng)算法主要包括基于直方圖均衡化的圖像增強(qiáng)算法[1]和基于Retinex[2]理論的圖像增強(qiáng)算法[3]。傳統(tǒng)的圖像增強(qiáng)算法主要基于固定的圖像調(diào)整規(guī)則實(shí)現(xiàn)增強(qiáng)。雖然在實(shí)驗(yàn)數(shù)據(jù)集上有較好的效果,但是泛化能力較差,針對(duì)不同圖像場(chǎng)景需要手動(dòng)調(diào)整參數(shù),并且需要大量的CPU計(jì)算,特別是對(duì)于高分辨率的圖像,這可能會(huì)導(dǎo)致較高的計(jì)算復(fù)雜性和時(shí)間開(kāi)銷。伴隨深度學(xué)習(xí)在各行業(yè)的蓬勃發(fā)展,Lore等人[4]將自編碼器結(jié)構(gòu)引入到暗光圖像增強(qiáng)網(wǎng)絡(luò)中,為深度學(xué)習(xí)模型應(yīng)用于暗光圖像增強(qiáng)等任務(wù)提供了參考范例。Shen等人[5]根據(jù)Retinex理論設(shè)計(jì)了由光照亮度網(wǎng)絡(luò)和色彩網(wǎng)絡(luò)構(gòu)成的復(fù)合增強(qiáng)網(wǎng)絡(luò),并且提出了結(jié)合感知損失和風(fēng)格損失來(lái)優(yōu)化模型訓(xùn)練,使得增強(qiáng)圖像更自然逼真。Fan等人[6]將傳統(tǒng)圖像增強(qiáng)理論小波變換引入M-Net,利用半小波注意力塊增強(qiáng)網(wǎng)絡(luò)提取特征的能力。
盡管以深度學(xué)習(xí)為基礎(chǔ)的圖像增強(qiáng)方法在諸多方面,如圖像亮度恢復(fù)、模型泛化性等,表現(xiàn)優(yōu)異,然而其訓(xùn)練過(guò)程卻不可避免地依賴于大規(guī)模配對(duì)數(shù)據(jù)集。特別是制作大量配對(duì)的暗光圖像的數(shù)據(jù)成本高昂,構(gòu)成了其應(yīng)用所面臨的重要挑戰(zhàn)。Jiang等人[7]提出了一種無(wú)監(jiān)督對(duì)抗生成網(wǎng)絡(luò)暗光增強(qiáng)模型EnlightenGAN,在一定程度上解決了配對(duì)數(shù)據(jù)集制作成本高昂的問(wèn)題,但是面對(duì)高分辨率的圖像樣本,其容易出現(xiàn)棋盤效應(yīng)。
近年來(lái),基于深度學(xué)習(xí)的低光圖像增強(qiáng)方法取得了巨大的進(jìn)展,但是仍然面臨一些問(wèn)題,如增強(qiáng)后圖像出現(xiàn)色彩飽和度下降,提高亮度的同時(shí)也提升了圖像噪點(diǎn),影響后續(xù)檢測(cè)性能。得益于RAW圖像的成像優(yōu)勢(shì),一些學(xué)者開(kāi)始將RAW圖像引入到低光圖像增強(qiáng)領(lǐng)域。RAW是沒(méi)有經(jīng)過(guò)圖像信號(hào)處理器(image signal processor,ISP)處理的圖像[8],具有更廣闊的色彩空間范圍,能夠捕捉到最原始、最完整的圖像信息。Chen等人[9]建立了第一個(gè)RAW圖像低光圖像數(shù)據(jù)集并且提出了基于RAW的低光圖像增強(qiáng)網(wǎng)絡(luò),在噪聲抑制和改善色彩飽和度方面明顯優(yōu)化基于RGB圖像的低光圖像增強(qiáng)網(wǎng)絡(luò)。但由于RAW圖像的內(nèi)存需求大,邊緣設(shè)備難以訪問(wèn)RAW圖像,且在數(shù)據(jù)存儲(chǔ)和傳輸過(guò)程中可能會(huì)出現(xiàn)RAW圖像的數(shù)據(jù)丟失,所以在實(shí)際工業(yè)場(chǎng)景中難以使用,并且現(xiàn)有主流的低光圖像增強(qiáng)方法[4~7,9~11]是面向人眼視覺(jué)進(jìn)行優(yōu)化設(shè)計(jì)的,恢復(fù)的圖像不一定適用于面向機(jī)器視覺(jué)(目標(biāo)檢測(cè)精度等指標(biāo))設(shè)計(jì)的模型。若直接將暗光恢復(fù)方法拿來(lái)在暗光檢測(cè)場(chǎng)景應(yīng)用,不僅訓(xùn)練煩瑣,還可能會(huì)對(duì)目標(biāo)檢測(cè)等高級(jí)視覺(jué)任務(wù)造成一定程度的誤導(dǎo)。
針對(duì)上述問(wèn)題,本文提出了一種面向機(jī)器視覺(jué)感知的低光圖像增強(qiáng)網(wǎng)絡(luò)(machine vision-based pseudo-RAW enhancement network,MVP-Net)。為了充分利用RAW信息,MVP-Net引入了逆映射網(wǎng)絡(luò)。近年來(lái),一些研究學(xué)者提出了逆映射網(wǎng)絡(luò)F將RGB圖像Ii恢復(fù)到對(duì)應(yīng)的RAW空間It,稱為偽RAW圖像。如Cui等人[10]提出的逆映射網(wǎng)絡(luò),這種逆映射網(wǎng)絡(luò)可以避免直接使用RAW圖像帶來(lái)的內(nèi)存限制問(wèn)題。偽RAW圖像比RGB圖像具有更多的特征信息[8,11],如式(1)所示。
It=F(Ii)(1)
在圖像成像原理中,RAW圖像會(huì)經(jīng)過(guò)ISP處理,包括圖像壓縮、白平衡矯正、黑電平矯正、色彩矯正、銳化等步驟。受圖像成像原理啟發(fā),設(shè)計(jì)了一個(gè)偽ISP增強(qiáng)網(wǎng)絡(luò)稱為DOISP,直接從偽RAW圖像中估計(jì)各類矯正參數(shù),用于增強(qiáng)偽RAW圖像。為了讓MVP-Net能夠面向機(jī)器視覺(jué)優(yōu)化,本文將MVP-Net與經(jīng)典目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv3[12]相結(jié)合,形成端到端的增強(qiáng)檢測(cè)框架MVP-YOLO。MVP-Net依靠檢測(cè)器的函數(shù)進(jìn)行優(yōu)化,使得增強(qiáng)后的圖像能夠適應(yīng)檢測(cè)器。如圖1所示,YOLO在經(jīng)過(guò)基于機(jī)器視覺(jué)優(yōu)化的DOISP圖像上的檢測(cè)效果明顯優(yōu)于RGB圖像,能夠在低光環(huán)境下檢測(cè)到更多的物體和種類。本文的主要貢獻(xiàn)總結(jié)如下:
a)提出了一個(gè)新的面向機(jī)器視覺(jué)感知的暗光圖像目標(biāo)檢測(cè)端到端框架MVP-YOLO。
b)MVP-Net由逆映射網(wǎng)絡(luò)和DOISP網(wǎng)絡(luò)構(gòu)成。本文利用RAW圖像的增強(qiáng)原理,提出了一種基于偽RAW圖像的偽ISP增強(qiáng)網(wǎng)絡(luò)DOISP,用于實(shí)現(xiàn)面向機(jī)器視覺(jué)感知的圖像增強(qiáng)。在這個(gè)網(wǎng)絡(luò)中,偽RAW圖像通過(guò)一個(gè)逆映射網(wǎng)絡(luò)將輸入RGB變換為偽RAW圖像。通過(guò)巧妙地利用RAW圖像增強(qiáng)方法的優(yōu)勢(shì),并在目標(biāo)檢測(cè)損失的約束下,DOISP使得檢測(cè)器能夠?qū)崿F(xiàn)端到端的暗光目標(biāo)檢測(cè)。
c)大量的實(shí)驗(yàn)證明了本文方法在低光環(huán)境下,檢測(cè)性能具有競(jìng)爭(zhēng)力。
1 相關(guān)概念
1.1 目標(biāo)檢測(cè)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的基礎(chǔ)研究問(wèn)題之一。早期的目標(biāo)檢測(cè)方法主要是基于手工設(shè)計(jì)的特征和分類器[13]。近年來(lái),深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)極大地推進(jìn)了這個(gè)領(lǐng)域的發(fā)展。R-CNN[14]是第一個(gè)將深度學(xué)習(xí)引入目標(biāo)檢測(cè)任務(wù)的方法,它基于selective search生成候選區(qū)域,然后輸入卷積網(wǎng)絡(luò)提取特征,最后用SVM分類。盡管效果出眾,但訓(xùn)練和檢測(cè)都非常緩慢。為了提高檢測(cè)速度和訓(xùn)練速度,SPPNet[15]提出了空間特征金字塔池化算法來(lái)避免重復(fù)計(jì)算特征,F(xiàn)ast R-CNN[16]則推進(jìn)了檢測(cè)算法的端到端訓(xùn)練。Faster R-CNN[17]使用了RPN生成候選框,成為第一個(gè)實(shí)時(shí)的深度學(xué)習(xí)目標(biāo)檢測(cè)系統(tǒng)。隨后,單階段檢測(cè)器開(kāi)始大放光彩,如YOLOv3[12]和SSD[18]。它們刪除了候選框生成步驟,直接在密集的取樣點(diǎn)上作分類和回歸,因此速度相比于兩階段算法有明顯提升。最近五年,目標(biāo)檢測(cè)技術(shù)也取得了一些新進(jìn)展。FCOS[19]和FoveaBox[20]設(shè)計(jì)了新的Anchor-free范式。為了增強(qiáng)模型對(duì)全局的建模能力,DETR[21]首次引入了Transformer模塊,將目標(biāo)檢測(cè)轉(zhuǎn)換為一個(gè)集合預(yù)測(cè)問(wèn)題。
1.2 惡劣環(huán)境下的目標(biāo)檢測(cè)
除了引言所提到基于圖像增強(qiáng)[4~7]的方法,近年來(lái),一些多任務(wù)學(xué)習(xí)(MTL-based)方法被提出用于改善惡劣環(huán)境下的目標(biāo)檢測(cè)性能。如Cui等人[22]提出了考慮光照因素和噪聲因素的多任務(wù)自動(dòng)編碼變換模型MAET,探索了因照明變化引發(fā)圖像退化的內(nèi)在表示,可以同時(shí)預(yù)測(cè)圖像的退化參數(shù)和檢測(cè)對(duì)象。一些基于自適應(yīng)域方法也被應(yīng)用在暗光檢測(cè)領(lǐng)域。如Sasagawa等人[23]提出了gule layer提取兩個(gè)不同模型的潛在特征,用自適應(yīng)域方法融合了兩個(gè)模型,該方法可以直接從RAW圖像中檢測(cè)目標(biāo),比直接從RGB圖像檢測(cè)可以獲得更好的性能。Liu等人[24]將檢測(cè)驅(qū)動(dòng)和基于梯度優(yōu)化的DIP模塊用于對(duì)多霧天氣圖像的自適應(yīng)增強(qiáng)。Qin等人[25]將傳統(tǒng)的拉普拉斯金字塔算法引入深度學(xué)習(xí)增強(qiáng)模型,構(gòu)成了由檢測(cè)驅(qū)動(dòng)的端到端檢測(cè)網(wǎng)絡(luò)DE-YOLO。
1.3 偽RAW圖像
RAW圖像實(shí)際是CMOS圖像傳感器將捕捉到的光源信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的原始數(shù)據(jù)。由于RAW格式能夠保留所有信息并具有極高的比特深度,在諸如圖像超分辨率[26]、圖像去噪[27]等領(lǐng)域展現(xiàn)出極高的應(yīng)用潛力。然而,值得注意的是,由于RAW圖像文件巨大,這在實(shí)際應(yīng)用中面臨推廣的挑戰(zhàn)。本文選用了關(guān)于RAW的逆映射網(wǎng)絡(luò)[10]。如圖2所示,逆映射網(wǎng)絡(luò)與常見(jiàn)的U-Net[28]架構(gòu)不同,沒(méi)有采用自編碼器結(jié)構(gòu),而是通過(guò)跳躍連接方式,利用逐位相乘和逐位相加的方式,維持圖像原始分辨率,減少映射過(guò)程中的信息丟失。逆映射網(wǎng)絡(luò)核心是像素增強(qiáng)模塊(pixel-wise enhancement module)。像素增強(qiáng)模塊主要通過(guò)深度可分離卷積對(duì)圖像位置信息進(jìn)行編碼,并且通過(guò)殘差結(jié)構(gòu),增強(qiáng)局部細(xì)節(jié)信息。
2 本文方法
2.1 聯(lián)合暗光增強(qiáng)檢測(cè)框架MVP-YOLO
在低光環(huán)境中,檢測(cè)網(wǎng)絡(luò)的檢測(cè)性能通常會(huì)受到低光、大噪聲等因素影響。為了解決這個(gè)問(wèn)題,并且充分利用RAW信息的優(yōu)勢(shì),本文提出了由暗光增強(qiáng)模型MVP-Net和檢測(cè)模塊YOLOv3構(gòu)成的聯(lián)合增強(qiáng)檢測(cè)框架MVP-YOLO。如圖3所示,MVP-Net負(fù)責(zé)面向機(jī)器視覺(jué)增強(qiáng)暗部細(xì)節(jié)的潛在判別特征,如暗部物體色彩、對(duì)比度等,并且抑制提升亮度帶來(lái)的噪聲信號(hào)。MVP-Net目的是在檢測(cè)網(wǎng)絡(luò)損失函數(shù)的幫助下,對(duì)圖像進(jìn)行面向機(jī)器視覺(jué)的增強(qiáng),所以無(wú)須建立從低光圖像到真實(shí)圖像域的復(fù)雜映射,僅僅一些簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)就能發(fā)揮出令人驚訝的效果。
2.2 暗光增強(qiáng)模塊MVP-Net
如圖3所示,MVP-Net由逆映射網(wǎng)絡(luò)和DOISP構(gòu)成。首先RGB圖像通過(guò)逆映射網(wǎng)絡(luò)轉(zhuǎn)換成對(duì)應(yīng)的偽RAW圖像,然后經(jīng)過(guò)DOISP模塊,對(duì)圖像進(jìn)行機(jī)器視覺(jué)方向的增強(qiáng)。在DOISP中,本文提出了兩個(gè)子模塊DO-AWB(detection-optimized auto white balance)和DO-CCMA(detection-optimized color correction matrix and gamma)來(lái)模擬ISP中的矯正流程。
在ISP處理中,自動(dòng)白平衡處理的目的是通過(guò)改變圖像中
DO-AWB首先經(jīng)過(guò)四個(gè)階段,均使用深度可分離卷積提取圖像基本特征,并且為了捕獲多尺度信息,分別采用5×5、3×3、3×3、1×1的濾波器。DO-AWB網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。前兩個(gè)階段增加了通道注意力CA(channel attention)[29]增強(qiáng)網(wǎng)絡(luò)特征,后面兩個(gè)階段增加了ECA[30]注意力(efficient channel attention)增加網(wǎng)絡(luò)特征。ECA注意力引入了一種1D卷積結(jié)構(gòu),可以高效地學(xué)習(xí)通道之間的交互依賴關(guān)系,并且通過(guò)1×1卷積核對(duì)通道進(jìn)行建模,以生成注意力向量,與直接使用全連接層相比,其計(jì)算量更小,計(jì)算更高效。在四個(gè)下采樣階段中,為了進(jìn)一步減少網(wǎng)絡(luò)參數(shù),在第一個(gè)階段使用的是PixelUnshuffle[31]。PixelUnshuffle僅對(duì)圖像的通道和空間結(jié)構(gòu)進(jìn)行重組,在卷積通道升維的同時(shí)不會(huì)引發(fā)額外的卷積計(jì)算量。為了進(jìn)一步擴(kuò)大感受野,第二個(gè)階段使用的是卷積下采樣。最后兩個(gè)階段下采樣采用最大自適應(yīng)池化。最大自適應(yīng)池化能夠?qū)⒏鞣N尺寸的輸入特征圖標(biāo)轉(zhuǎn)換為特定的維度,同時(shí)在降低計(jì)算成本的過(guò)程中,仍然維持了關(guān)鍵特征的信息。圖像經(jīng)過(guò)四個(gè)階段的特征提取后,通過(guò)到雙層MLP進(jìn)行信息融合,生成顏色平衡矩陣。
經(jīng)過(guò)DO-AWB對(duì)圖像色彩和噪聲進(jìn)行了初步的調(diào)整后,圖像在DO-CCMA網(wǎng)絡(luò)調(diào)整下將會(huì)被進(jìn)一步面向機(jī)器視覺(jué)的色彩調(diào)整,放大暗部物體細(xì)節(jié)特征。DO-CCMA包括色彩矯正矩陣參數(shù)、伽馬矯正系數(shù)。DO-CCMA與DO-AWB結(jié)構(gòu)類似,在經(jīng)過(guò)四個(gè)階段特征提取后送入到雙層MLP中,學(xué)習(xí)色彩矯正矩陣、伽馬矯正系數(shù)。在ISP處理中,色彩矯正矩陣是為了對(duì)光學(xué)器件合成得到的顏色進(jìn)行校正,以滿足人眼視覺(jué)感受。DO-CCMA的色彩矯正矩陣是模仿ISP中色彩矯正主流方案,即使用一個(gè)3×3的矩陣對(duì)圖像通道進(jìn)行色彩矯正。如式(4)所示,W2表示生成的顏色矯正矩陣參數(shù)值,ti,i∈(1,9)表示對(duì)每個(gè)通道的顏色矯正值。在DO-CCMA 中,還有參與亮度調(diào)節(jié)的Gamma系數(shù),負(fù)責(zé)調(diào)節(jié)機(jī)器視覺(jué)下的圖像全局亮度,Gamma系數(shù)如式(5)所示,W3表示DO-CCMA生成的Gamma系數(shù)值。DO-CCMA整個(gè)優(yōu)化處理流程如式(6)所示,Xt代表最終增強(qiáng)后的圖像,Xt將會(huì)被直接傳入檢測(cè)網(wǎng)絡(luò),用于后續(xù)檢測(cè)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
兩個(gè)真實(shí)場(chǎng)景下,弱光圖像檢測(cè)數(shù)據(jù)集將被用于實(shí)驗(yàn)中。本文針對(duì)兩個(gè)數(shù)據(jù)集訓(xùn)練單獨(dú)的模型進(jìn)行公平對(duì)比。
Exdark[31]數(shù)據(jù)集是第一個(gè)針對(duì)低光照度圖像檢測(cè)的大規(guī)模數(shù)據(jù)集,總共包含7 363張低光照的圖片。Exdark數(shù)據(jù)集的光照環(huán)境從極弱光環(huán)境到普通弱光環(huán)境,總計(jì)10種不同的光照條件。Exdark圖像包括多種拍攝場(chǎng)景,如室內(nèi)、室外、人像、建筑物、道路等,一共有12個(gè)類別。本實(shí)驗(yàn)中將每個(gè)類別80%數(shù)據(jù)將用于訓(xùn)練集,剩下20%將用于測(cè)試集。
UG2+DARK FACE[32]暗光人臉檢測(cè)數(shù)據(jù)集一共有6 000張低光照人臉圖像,其中90%圖像將用于訓(xùn)練集,10%圖像用于測(cè)試集。
3.2 實(shí)驗(yàn)細(xì)節(jié)
在本文中,為了保證公平對(duì)比和全面評(píng)估,經(jīng)典的YOLOv3檢測(cè)器將被作為檢測(cè)模塊。所有的檢測(cè)模塊都帶有基于COCO數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重。本文基于開(kāi)源目標(biāo)檢測(cè)工具箱MMDetection實(shí)現(xiàn)了聯(lián)合暗光增強(qiáng)檢測(cè)框架MVP-YOLO。MVP-YOLO在訓(xùn)練過(guò)程中使用了數(shù)據(jù)增強(qiáng)策略。例如隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn),并且將圖像resize到608×608,數(shù)據(jù)批處理大小是8,優(yōu)化器SGD optimizer,初始學(xué)習(xí)率0.001且?guī)tep學(xué)習(xí)率衰減,訓(xùn)練25個(gè)epochs。為了穩(wěn)定訓(xùn)練,早期訓(xùn)練時(shí)加入了學(xué)習(xí)率預(yù)熱策略。所有實(shí)驗(yàn)均基于單張NVIDIA RTX 3090 GB。
3.3 評(píng)估指標(biāo)
mAP(mean average precision)[33]是一種用于評(píng)估目標(biāo)檢測(cè)算法性能的指標(biāo),它是精度(precision)與召回率(recall)之間的綜合度量。mAP在計(jì)算機(jī)視覺(jué)領(lǐng)域被廣泛用于評(píng)估目標(biāo)檢測(cè)器的性能。實(shí)驗(yàn)采用mAP(50%)作為評(píng)估指標(biāo)。
3.4 對(duì)比實(shí)驗(yàn)
將本文方法與幾種最新的方法進(jìn)行了綜合比較,即MBLLEN[34]、KIND[35]、ZeroDCE[36]、MAET[22]、IAT[9]。其中MBLLEN 、KIND、ZeroDCE暗光增強(qiáng)模型屬于低光圖像增強(qiáng)方法,在YOLO檢測(cè)器前的圖像將被預(yù)訓(xùn)練模型先增強(qiáng)。MAET暗光檢測(cè)方法是在合成的暗光COCO數(shù)據(jù)集上預(yù)訓(xùn)練,然后在Exdark數(shù)據(jù)集上微調(diào),屬于多任務(wù)學(xué)習(xí)方法。IAT暗光增強(qiáng)模型在暗光增強(qiáng)數(shù)據(jù)集LOL[37]上進(jìn)行預(yù)訓(xùn)練,然后和YOLO檢測(cè)器構(gòu)成端到端聯(lián)合檢測(cè)網(wǎng)絡(luò)IAT(LOL)-YOLO,屬于聯(lián)合增強(qiáng)方法。IAT(None)-YOLO是指IAT未在暗光增強(qiáng)數(shù)據(jù)集LOL上進(jìn)行預(yù)訓(xùn)練,直接與YOLO檢測(cè)器構(gòu)成端到端聯(lián)合檢測(cè)網(wǎng)絡(luò)。各類網(wǎng)絡(luò)模型在Exdark數(shù)據(jù)集上的檢測(cè)性能如表1所示。由表1可知:a)在基于人眼視覺(jué)恢復(fù)的低光圖像增強(qiáng)模型中簡(jiǎn)單添加YOLO檢測(cè)器并不能顯著提高暗光場(chǎng)景下的檢測(cè)效果,甚至可能導(dǎo)致原方法的檢測(cè)性能下降,如MBLLEN-YOLO、KinD-YOLO;b)在多任務(wù)學(xué)習(xí)和聯(lián)合訓(xùn)練方法,YOLO檢測(cè)器在暗光場(chǎng)景下的檢測(cè)性能有一定程度提升,MVP-YOLO相比YOLO提高了1.85%;c)在聯(lián)合訓(xùn)練范式中,MVP-YOLO也展現(xiàn)出一定的競(jìng)爭(zhēng)力。IAT(LOL)方法性能優(yōu)于IAT(None),而MVP-Net(None)不需要在其他暗光數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,比IAT(LOL)方法獲得了更強(qiáng)大的檢測(cè)性能,提升了0.5%。
為了進(jìn)一步驗(yàn)證MVP-Net模型的有效性,本文在UG2+DARK FACE數(shù)據(jù)集上進(jìn)行了類似的對(duì)比實(shí)驗(yàn)。如表2所示,MVP-YOLO方法取得了最好的檢測(cè)性能結(jié)果,比次優(yōu)的IAT-YOLO方法提升了0.7%,相比于基線模型YOLOv3提高了4%。KinD-YOLO出現(xiàn)了比在表1實(shí)驗(yàn)時(shí)更加明顯的性能下降的情況,在表2中相比于基線下降達(dá)2.4%。實(shí)驗(yàn)結(jié)果表明,MVP-YOLO框架在多個(gè)暗光檢測(cè)數(shù)據(jù)集上都能得到增強(qiáng),驗(yàn)證了模型的有效性。
3.5 可視化分析
為了更好地說(shuō)明基于機(jī)器視覺(jué)增強(qiáng)的檢測(cè)器在低光環(huán)境下的檢測(cè)性能優(yōu)于基于人眼視覺(jué)增強(qiáng)的檢測(cè)器,選取了各模型在Exdark數(shù)據(jù)集中的兩組檢測(cè)圖像可視化,并且結(jié)合表1和2進(jìn)行比較分析。
兩組檢測(cè)圖像可視化如圖5所示。第一組圖像是在夜景街道上,MEBBLN、Kind、ZeroDCE均為基于低光圖像增強(qiáng)的方法,該方法雖然對(duì)圖像亮度有一定程度的提升,使得人眼在感官上有一定程度增強(qiáng),但是也會(huì)放大圖像噪聲,出現(xiàn)色彩過(guò)曝的情況。從檢測(cè)效果看,檢測(cè)器在基于低光增強(qiáng)方法的圖像上都未能完整檢測(cè)出夜景中的人和摩托車。從表1可知,檢測(cè)器在基于低光圖像增強(qiáng)的方法上,出現(xiàn)了一定程度的性能下降情況。這是因?yàn)樵擃惙椒榱擞先搜垡曈X(jué),設(shè)計(jì)了許多增強(qiáng)損失函數(shù),例如VGG16感知損失、結(jié)構(gòu)相似性損失以及L1損失函數(shù)。盡管這些增強(qiáng)損失函數(shù)在減小訓(xùn)練和測(cè)試圖像之間的域間距離方面表現(xiàn)出色,但在此過(guò)程中,它們可能會(huì)忽視甚至干擾那些對(duì)物體檢測(cè)具有關(guān)鍵性意義的結(jié)構(gòu)性特征,從而影響后續(xù)檢測(cè)器的性能。從MVP-YOLO檢測(cè)效果可以看到,MVP-YOLO檢測(cè)出的人和摩托車數(shù)量最多,檢測(cè)效果最接近真實(shí)框效果,并且檢測(cè)框的置信度也明顯高于其他方法。
在第一組圖像中,MVP-YOLO能夠檢測(cè)出左側(cè)夜景街道極暗條件下的人和摩托車。在第二組圖像中,MVP-YOLO能在燈光昏暗的教室檢測(cè)出遠(yuǎn)處和右側(cè)被其他方法漏檢的課桌,而且邊框回歸明顯接近真實(shí)框位置。這一成績(jī)可以歸因于兩個(gè)關(guān)鍵技術(shù)因素。首先,通過(guò)逆映射網(wǎng)絡(luò),低光圖像被映射到偽RAW圖像的特征空間,從而使得檢測(cè)器能在機(jī)器視覺(jué)成像條件下進(jìn)行目標(biāo)檢測(cè)。其次,MVP-Net整合了DOISP增強(qiáng)模塊,該模塊不僅在機(jī)器視覺(jué)方向上增強(qiáng)了圖像的色彩和亮度,而且通過(guò)采用多種注意力與下采樣結(jié)合設(shè)計(jì)模式生成自適應(yīng)參數(shù),并直接在偽RAW圖像上進(jìn)行優(yōu)化。這一設(shè)計(jì)成功地保留了對(duì)目標(biāo)檢測(cè)具有決定性意義的結(jié)構(gòu)性特征,進(jìn)而減小了對(duì)這些特征的干擾,在一定程度上提升了檢測(cè)性能。
3.6 消融實(shí)驗(yàn)
首先,為了評(píng)估MVP-Net模型的泛化性,MVP-Net模型被用于與不同架構(gòu)的檢測(cè)器聯(lián)合增強(qiáng)訓(xùn)練。本文將MVP-Net與基于Transformer架構(gòu)的檢測(cè)器DETR[21]構(gòu)成DREE-DETR聯(lián)合檢測(cè)框架,并且在Exdark數(shù)據(jù)集上評(píng)估其檢測(cè)性能。與前面的實(shí)驗(yàn)類似,在訓(xùn)練過(guò)程中采用了隨機(jī)裁剪、隨機(jī)Resize、隨機(jī)翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)策略,使用Adam優(yōu)化器訓(xùn)練了20輪epochs。表3顯示了各模型在Exdark數(shù)據(jù)集上的檢測(cè)性能結(jié)果,MVP-DETR實(shí)現(xiàn)了最佳的檢測(cè)性能,并且相比DETR檢測(cè)精度提升1.9%,與IAT-DETR相比也有0.4%檢測(cè)精度的提升,說(shuō)明MVP-Net模型可以有效地應(yīng)用在不同架構(gòu)的檢測(cè)器上,提升檢測(cè)模塊的暗光場(chǎng)景檢測(cè)精度,具有一定的泛化性。
MVP-Net的適應(yīng)性來(lái)自MVP和檢測(cè)器之間直接的端到端訓(xùn)練。訓(xùn)練時(shí),逆映射網(wǎng)絡(luò)會(huì)自動(dòng)根據(jù)檢測(cè)器傳來(lái)的梯度優(yōu)化信息進(jìn)行權(quán)重調(diào)整,將RGB圖像映射成偽RAW圖像特征空間。但是由于每類檢測(cè)器架構(gòu)不盡相同,所以傳遞的優(yōu)化信息存在不同,進(jìn)而導(dǎo)致逆映射網(wǎng)絡(luò)自適應(yīng)不同的檢測(cè)器架構(gòu),從而提高了MVP-Net的泛化性。
DOISP網(wǎng)絡(luò)由DO-CCMA和DO-AWB模塊構(gòu)成。為了探究DO-CCMA與DO-AWB模塊對(duì)MVP-Net模型的影響,本文進(jìn)行了DO-CCMA和DO-AWB模塊的消融實(shí)驗(yàn)。DO-CCMA與DO-AWB模塊是對(duì)偽RAW圖像特征進(jìn)行增強(qiáng)。從表4可以看出,如果不添加DOISP網(wǎng)絡(luò),只添加逆映射網(wǎng)絡(luò),相比原有的YOLO檢測(cè)器有小幅提升。逆映射網(wǎng)絡(luò)將RGB轉(zhuǎn)換為偽RAW圖像特征空間,給檢測(cè)器提供了一個(gè)機(jī)器視覺(jué)下的低光圖像,更加符合檢測(cè)器的視角,一定程度上提高了檢測(cè)性能。
DO-AWB模塊的加入使MVP-YOLO相比YOLO檢測(cè)性能有1.05%的上升。DO-AWB模塊中引入了ECA注意力機(jī)制和多尺度下采樣結(jié)構(gòu),引導(dǎo)網(wǎng)絡(luò)在捕捉全局特征時(shí)重點(diǎn)關(guān)注圖像光照分布情況,最后生成自適應(yīng)參數(shù)調(diào)整全局的機(jī)器視覺(jué)下的色彩平衡分布,有效提高了MVP-YOLO對(duì)低光環(huán)境的感知能力。DO-AWB和DO-CCMA模塊聯(lián)合時(shí),MVP-YOLO發(fā)揮出最佳性能,其檢測(cè)精度相比YOLO提高了1.85%。DO-CCMA模塊中不僅引入了能矯正色彩參數(shù)的CCM矩陣,并且設(shè)計(jì)了伽馬參數(shù),通過(guò)伽馬亮度調(diào)節(jié)提升機(jī)器視覺(jué)下的全局圖像亮度。
在DO-CCMA和DO-AWB模塊中,使用了CA通道注意力和ECA注意力機(jī)制提高網(wǎng)絡(luò)提取特征的能力。本文也對(duì)這兩種注意力對(duì)DOISP的貢獻(xiàn)度進(jìn)行了評(píng)估。如表5所示,如果在MVP-YOLO中不添加任何注意力機(jī)制,其檢測(cè)性能mAP50達(dá)77.4%,相比于YOLO提升了0.95%。如果只添加CA注意力在MVP-YOLO中,提升效果不明顯。如果只添加ECA注意力在MVP-YOLO中,相比YOLO提升了1.45%。CA和ECA注意力均添加在MVP-YOLO中將實(shí)現(xiàn)最佳的檢測(cè)精度。從對(duì)比數(shù)據(jù)來(lái)看,得益于ECA注意力的1D卷積層近似通道注意力減少了計(jì)算量,可以建立更深層的注意力模塊,捕捉到更豐富的特征,感知暗部細(xì)節(jié)。ECA注意力比CA注意力對(duì)DOSIP模塊的貢獻(xiàn)度更高。
4 結(jié)束語(yǔ)
在本文中,提出了一種面向機(jī)器視覺(jué)感知的暗光圖像增強(qiáng)網(wǎng)絡(luò)MVP-Net。該模型借助了逆映射網(wǎng)絡(luò)將RGB圖像映射成偽RAW圖像,為了充分發(fā)揮偽RAW圖像的優(yōu)勢(shì),設(shè)計(jì)了用于增強(qiáng)偽RAW圖像的DOISP網(wǎng)絡(luò)。DOISP利用圖像成像原理,設(shè)計(jì)了DO-CCMA和DO-AWB子模塊分別用于增強(qiáng)圖像機(jī)器視覺(jué)下的白平衡、色彩顯示和亮度。在兩個(gè)子模塊中,利用不同尺度的深度可分離卷積提取特征,以增強(qiáng)圖像的全局特征和降低模型參數(shù)量,并且引入了ECA和CA注意力,促使多通道信息融合,引導(dǎo)模型關(guān)注局部暗光場(chǎng)景。大量充分實(shí)驗(yàn)證明,MVP-Net與檢測(cè)器形成的端到端檢測(cè)網(wǎng)絡(luò)較原有的檢測(cè)器,不僅在多個(gè)真實(shí)場(chǎng)景的低光檢測(cè)數(shù)據(jù)集上有明顯的檢測(cè)性能提升,而且能適配多種架構(gòu)的檢測(cè)器,如YOLO、基于Transformer架構(gòu)的檢測(cè)器。MVP-YOLO與現(xiàn)有其他的低光增強(qiáng)檢測(cè)方法相比,可以識(shí)別出更多在低光環(huán)境下的類別和物體。后續(xù)工作將繼續(xù)探索MVP-Net如何在維持檢測(cè)性能和低參數(shù)量的同時(shí),進(jìn)一步提高模型推理速度。
參考文獻(xiàn):
[1]Abdullah-Al-Wadud M, Kabir M H, Dewan M A A, et al. A dyna-mic histogram equalization for image contrast enhancement[J]. IEEE Trans on Consumer Electronics, 2007,53(2): 593-600.
[2]Land E H, McCann J J. Lightness and Retinex theory[J]. Journal of The Optical Society of America, 1971,61(1): 1-11.
[3]Jobson D J, Rahman Z, Woodell G A. Properties and performance of a center surround Retinex[J]. IEEE Trans on Image Processing, 1997,6(3): 451-462.
[4]Lore K G, Akintayo A, Sarkar S. LLNet: a deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017,61: 650-662.
[5]ShenWlbDrKuLW04CxKLcihBFT2gQEM2s2A6upbHSprqE6RU= Liang, Yue Zihan, Feng Fan, et al. MSR-Net: low-light image enhancement using deep convolutional network[EB/OL]. (2017-11-07). https://doi.org/10.48550/arXiv.1711.02488.
[6]Fan Chimao, Liu T J, Liu K H. Half wavelet attention on M-Net+ for low-light image enhancement[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2022: 3878-3882.
[7]Jiang Yifan, Gong Xinyu, Liu Ding, et al. EnlightenGAN: deep light enhancement without paired supervision[J]. IEEE Trans on Image Processing, 2021, 30: 2340-2349.
[8]Xing Yazhou, Qian Zian, Chen Qifeng. Invertible image signal processing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2021: 6287-6296.
[9]Chen Chen, Chen Qifeng, Xu Jia, et al. Learning to see in the dark[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press,2018: 3291-3300.
[10]Cui Ziteng, Li Kunchang, Gu Lin, et al. You only need 90K para-meters to adapt light: a light weight transformer for image enhancement and exposure correction[EB/OL]. (2022-10-08). https://arxiv.org/abs/2205.14871.
[11]Zamir S W, Arora A, Khan S, et al. CycleISP: real image restoration via improved data synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2020: 2693-2702.
[12]Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. ( 2018-04-08). https://doi.org/10.48550/arXiv.1804.02767.
[13]Viola P, Jones M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57: 137-154.
[14]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 580-587.
[15]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015,37(9): 1904-1916.
[16]Girshick R. Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press,2015: 1440-1448.
[17]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015:91-99.
[18]Liu Wei, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Proc of the 14th European Conference on Computer Vision. Cham:Springer, 2016: 21-37.
[19]Tian Zhi, Shen Chunhua, Chen Hao, et al. FCOS: fully convolutio-nal one-stage object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 9626-9635.
[20]Kong Tao, Sun Fuchun, Liu Huaping, et al. FoveaBox: beyond anchor-based object detection[J]. IEEE Trans on Image Proces-sing, 2020, 29: 7389-7398.
[21]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//Proc of European Conference on Computer Vision. Cham:Springer, 2020: 213-229.
[22]Cui Ziteng, Qi Guojun, Gu Lin, et al. Multitask AET with orthogonal tangent regularity for dark object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 2533-2542.
[23]Sasagawa Y, Nagahara H. YOLO in the dark-domain adaptation me-thod for merging multiple models[C]//Proc of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 345-359.
[24]Liu Wenyu, Ren Gaofeng, Yu Runsheng, et al. Image-adaptive YOLO for object detection in adverse weather conditions[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 1792-1800.
[25]Qin Qingpao, Chang Kan, Huang Mengyuan, et al. DENet: detection-driven enhancement network for object detection under adverse weather conditions[C]//Proc of the 16th Asian Conference on Computer Vision. Berlin: Springer-Verlag, 2022: 491-507.
[26]Zhang Xuaner, Chen Qifeng, Ng R, et al. Zoom to learn, learn to zoom[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 3762-3770.
[27]Wang Yuzhi, Huang Haibin, Xu Qin, et al. Practical deep raw image denoising on mobile devices[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 1-16.
[28]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[29]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7132-7141.
[30]Wang Qilong, Wu Banggu, Zhu Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2020: 11534-11542.
[31]Loh Y P, Chan C S. Getting to know low-light images with the exclusively dark dataset[J]. Computer Vision and Image Understan-ding, 2019, 178: 30-42.
[32]Yang Wenhan, Yuan Ye, Ren Wenqi, et al. Advancing image understanding in poor visibility environments: a collective benchmark study[J]. IEEE Trans on Image Processing, 2020, 29: 5737-5752.
[33]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer Vision. Cham: Springer,2014: 740-755.
[34]Lyu Feifan, Lu Feng, Wu Jianhua, et al. MBLLEN: low-light image/video enhancement using CNNs[C]//Proc of British Machine Vision Conference. 2018.
[35]Zhang Yonghua, Zhang Jiawan, Guo Xiaojie. Kindling the darkness: a practical low-light image enhancer[C]//Proc of the 27th ACM International Conference on Multimedia. New York: ACM Press, 2019: 1632-1640.
[36]Guo Chunle, Li Chongyi, Guo Jichang, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 1780-1789.
[37]Wei Chen, Wang Wenjing, Yang Wenhan, et al. Deep Retinex decomposition for low-light enhancement[EB/OL]. (2018-08-14). https://doi.org/10.48550/arXiv.1808.04560.