張明臻
(伯明翰大學 電子電氣和系統工程系,英格蘭 伯明翰 B152TT)
由煤礦井下工作人員違規操作和疲勞駕駛所導致的事故時有發生。為了保障井下作業人員安全,支持智慧礦山建設,研究礦用車輛無人駕駛技術迫在眉睫。行人檢測是實現礦用車輛無人化的一項關鍵技術,許多專家學者進行了研究,并取得了一定成果。張小艷等[1]基于混合高斯模型,采用暗通道算法對檢測圖像進行預處理,有效提高了井下目標檢測速度。董昕宇等[2]采用深度可分離卷積和倒置殘差模塊構建輕量級特征提取網絡,實現了特定環境下的實時目標檢測。謝林江等[3]提出在檢測模型中加入選擇性注意力層,極大提高了目標檢測精度。劉備戰等[4]提出一種Dense-ResNet 網絡結構,能夠提取更加深層的圖像特征,提高了小目標檢測精度。但上述方法忽略了井下弱光環境對目標檢測精度的影響。針對該問題,本文提出一種基于Dense-YOLO 網絡的井下行人檢測模型。首先對弱光圖像進行增強和去噪處理,然后將含有殘差塊的Dense模塊添加到YOLOv3 中,構建基于Dense-YOLO 網絡的井下行人檢測模型,最后將增強后的圖像輸入檢測模型進行識別。
根據Retinex 理論[5]將源圖像分解為光照圖和反射圖2 個部分,光照圖主要包含圖像的色彩信息,反射圖主要包含圖像的紋理信息。對于光照圖,采用Gamma 變換提升全局照明度,采用加權對數變換提升局部照明度,采用限制對比度的自適應直方圖均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)提升局部對比度。將增強后的圖像按照自適應權值進行融合。對于反射圖,采用雙邊濾波算法增強圖像紋理。將增強后的光照圖和反射圖融合,并采用ROF 去噪模型對融合后的圖像進行全局去噪,得到最終的增強圖像。弱光圖像增強方法如圖1 所示。

圖1 弱光圖像增強方法Fig.1 Low light image enhancement method
由于處理反射圖的雙邊濾波器和ROF 去噪模型可以在軟件庫OpenCV 中直接調用,本文重點分析光照圖增強方法。
源圖像S的數學模型為

式中:(x,y) 為像素點坐標;R(x,y) 為反射圖;X(x,y)為光照圖;N為噪聲項。
采用暗通道先驗[6]估計光照圖。對于一張給定的弱光圖像,其暗通道先驗計算公式為

式中:Ddark(x)為 以x為中心的一個圖像塊 Ω(x)的暗通道值;Dc為 輸入RGB 圖像中通道c的值,c∈[R,G,B]。
對暗通道先驗執行形態學閉操作,可計算出源圖像的光照圖X[7]。
1.2.1 增強變換
(1)Gamma 變換。Gamma 變換通過指數變換方式對輸入圖像進行增強,其計算公式為

式中:O(x,y)和K(x,y)分別為輸出圖像和輸入圖像;G和 γ分別為Gamma 變換系數和指數系數。
當指數系數小于1 時,圖像的全局亮度會得到提升,反之全局亮度降低。
(2)加權對數變換。普通對數變換在大多數圖像上表現良好,但經過直方圖規范化后會出現圖像增強亮度相似現象[8]。加權對數變換在普通對數變換基礎上增加了一個掩碼因子δ(當x=y時為1,否則為0),解決了增強亮度相似問題。因此,本文采用加權對數變換來增強局部亮度,計算公式為

式中:B為圖像經過加權對數變換后對應像素(x,y)的值;m,n為 光照圖的長和寬;e為加權對數變換系數;ε為修正系數,通常取1;?為三階拉普拉斯算子;τ為亮度等級,τ ∈[1,256]。
通過拉普拉斯算子計算光照圖中給定像素(x,y)與周圍其他8 個像素的卷積,得到局部亮度水平。
(3)CLAHE。自適應直方圖均衡(Adaptive Histogram Equalization,AHE)通過計算每個圖像塊的直方圖來重新均衡圖像的全局亮度分布,但在增強對比度的同時,放大了圖像噪聲。為了抑制噪聲,本文采用CLAHE 提升局部對比度。
1.2.2 加權融合
為了有效融合3 種增強變換的結果(分別記為IG,IL,IC),設計了亮度權值Wk,l和色彩權值Wk,s。亮度權值用于平衡增強圖像的全局亮度,其值越大,表明該像素的曝光效果越好。亮度權值計算公式為

式中:Ik為增強變換后的圖像,Ik∈{IG,IL,IC};μ,σ2分別為變換后光照圖的均值和方差。
色彩權值計算公式為

式中:a和b分別為顏色保存幅值和偏移角度;H(x,y)和T(x,y)分別為源圖像在HSV 色彩空間中的色彩和透度分量。
結合式(5)和式(6)可得最后的融合圖像Zf:

將增強后的光照圖Zf和經過雙邊濾波處理的反射圖逐點相乘,重構出RGB 圖。由于增強后的圖像包含全局高斯噪聲,所以采用ROF 去噪模型對圖像進行全局去噪,圖像增強效果如圖2 所示。可以看出,圖像增強后能夠清晰地顯示出圖像中的工人。

圖2 弱光圖像和增強圖像Fig.2 Low light image and enhanced image
與YOLO 網絡[9]相比,YOLOv3 采用了多尺度檢測的網絡結構DarkNet-53,可輸出3 種不同尺度的特征,分別為13×13×1 024,26×26×512,52×52×256。小尺寸的特征感受視野大,有利于大目標檢測,大尺寸的特征有利于小目標檢測[10]。
為了提高網絡的特征提取能力,本文將含有殘差塊的Dense 模塊[11]添加到YOLOv3 中,構建基于Dense-YOLO 網絡的井下行人檢測模型,如圖3 所示。殘差塊的加入有利于避免在網絡訓練過程中出現梯度消失和梯度爆炸等問題。Dense-YOLO 網絡主要包含Dense 模塊、特征金字塔和分類定位模塊3 個部分。Dense 模塊用于提取圖像中的深度信息,將特征大小重塑為13×13×1 024,26×26×512 和52×52×256,然后在3 種尺度特征上進行分類和定位檢測。

圖3 基于Dense-YOLO 網絡的井下行人檢測模型Fig.3 Underground pedestrian detection model based on Dense-YOLO network
Dense-YOLO 網絡訓練時的損失函數采用多任務損失函數L:

式中:αcoord和 αobj分別為定位和分類平衡因子,分別取5 和0.5;Lsize,Lpos,Lcof和Lc分別為定位框的大小損失、定位框的位置損失、預測置信度損失和分類損失。

式中:M為網格數量;A為定位框數量;為目標落入第i個網格第j個預測框的系數;(xi,yi)和分 別為預測框和真 實框的中心點坐標;wi,hi和,分別為預測框和真實框的寬和高;Ci,分別為第i個網格中檢測到目標的置信度和人工標注真實目標的置信度;l為真實樣本數據,l=±1;p為l=1 的概率,p∈[0,1]。
選用邊緣計算機NVIDIA AGX Xavier 作為Dense-YOLO 網絡的搭載平臺。YOLOv3 網絡使用之前在COCO 數據集[12]上進行預訓練。調參時采用Adam 優化器,設置動量參數為0.9,學習率為0.001,批處理大小為16,迭代次數為1 000。預訓練參數凍結,即保持不變。
RetinaNet 是一種單階段的目標檢測模型,因兼具速度與精度兩方面的優勢而備受關注。為了驗證弱光環境下基于Dense-YOLO 網絡的井下行人檢測模型的效果,選用RetinaNet 網絡進行對比,結果如圖4 所示。可以看出,Dense-YOLO 網絡能夠檢測出所有目標,有效抑制了漏檢現象,而RetinaNet 網絡的檢測結果中存在漏檢現象。

圖4 弱光環境下行人檢測結果對比Fig.4 Comparison of pedestrian detection results in low light environments
RetinaNet 網絡和Dense-YOLO 網絡的具體檢測數據見表1。可以看出,對于增強圖像,Dense-YOLO網絡的漏檢率為4.55%,相較于RetinaNet 網絡減小了14.91%,但是平均精度均值(mean Average Precision,mAP)稍低于RetinaNet 網絡,比其減小了4.84%;在運行時間上,2 種網絡差別不大。

表1 RetinaNet 網絡和Dense-YOLO 網絡檢測結果Table 1 Detection results of RetinaNet network and Dense-YOLO network
(1)將弱光圖像分解為光照圖和反射圖。對于光照圖,采用Gamma 變換、加權對數變換、CLAHE進行增強處理,對增強后的圖像進行加權融合;對于反射圖,采用雙邊濾波算法增強圖像紋理;將增強后的光照圖和反射圖融合,并采用ROF 去噪模型對融合后的圖像進行全局去噪,得到最終的增強圖像。
(2)將含有殘差塊的Dense 模塊添加到YOLOv3中,構建基于Dense-YOLO 網絡的井下行人檢測模型。
(3)實驗結果表明:對弱光圖像進行增強處理能夠有效提高圖像可見度和行人檢測效果;Dense-YOLO網絡對增強圖像的漏檢率為4.55%,相較于RetinaNet網絡降低了14.91%,基于Dense-YOLO 網絡的井下行人檢測模型有效降低了行人檢測漏檢率。