柳勝超,王夏黎,王麗紅,柳秋萍
(1.長安大學 信息工程學院,陜西 西安 710061;2.陜西航天動力高科技股份有限公司,陜西 西安 710077)
伴隨著計算機視覺的飛速發展,目標檢測算法在自動駕駛和輔助駕駛領域也取得了重大突破,而在交通領域目標檢測算法主要應用于對交通警察、信號燈、行人和道路標線等的檢測。交通警察作為交通網絡的重要一員,能夠有效疏導交通防止交通擁堵,對城市交通網絡更好更快的發展有積極促進作用。因此對交通警察的檢測算法的研究對于保護交通警察人身安全和保障交通網絡健康發展具有重要意義。
傳統的目標檢測算法有很多,包括基于HOG和SVM的跟蹤[1]、學習和檢測的算法,但是該方法容易受到光照、遮擋和尺度變化等因素的影響,并且提取的特征單一,魯棒性不強。如今深度學習的快速發展也極大地推動了目標檢測算法的研究,基于卷積神經網絡的目標檢測算法也成為當前主流的方法,其中主要包括兩種,一種是基于回歸思想的One-stage類別的目標檢測算法,另一種是基于候選框思想的Two-stage類別的目標檢測算法。目前常用的典型的One-stage目標檢測網絡包括YOLOV1、YOLOV2[2]、YOLOV3[3]和SSD[4]等直接回歸目標物體的類別和位置。Two-stage目標檢測網絡包括Faster R-CNN[5]、Fast R-CNN[6]和RCNN[7-8]等,該類型的網絡主要分兩步,一步是由算法生成一系列作為樣本的候選框,另一步是由卷積神經網絡進行樣本分類[9]。兩種類別的方法各有優缺點,該文分別對基于SSD網絡和基于Faster R-CNN網絡的交通警察的檢測進行實驗,實驗結果最終表明基于Faster R-CNN網絡可以有效提高交通警察檢測的精確率和檢測速度。
數字圖像在傳輸和數值化過程中會受到諸多因素的影響造成圖像質量下降,對后續圖像的處理和目標的檢測帶來困難。比如圖像噪聲和成像設備的影響,因此需要對圖像進行去噪處理來提高圖像質量,增加信噪比,更好地突出需要的某些信息和特征。該文將分別采用中值濾波和小波變換去噪[10]的方法對圖像進行去噪,實驗結果表明基于小波變換去噪的方法滿足了后續交通警察的目標檢測要求。
(1)中值濾波。
中值濾波是由Tukey在1977年提出的一種非線性平滑濾波器[11],基本原理是該像素點的灰度值由該像素點鄰域灰度值的中值來取代。令fx,y=Med,(x,y)∈E2表示圖像各個點的灰度值。則濾波窗口為A的二維中值濾波表達式為:

A(i,j)∈E2
(1)
在圖像處理中,中值濾波可以在較完整保留圖像部分邊緣信息的前提下有效去除如椒鹽噪聲、脈沖噪聲的影響[12]。但是當待處理圖像細節部分較多時,中值濾波去噪會使得圖像缺失部分關鍵信息。
(2)小波變換去噪。
基于小波變換(wavelet transform,WT)的圖像去噪方法結合特征提取和低通濾波的綜合作用,小波降噪常根據閾值的選擇來進行降噪處理。一般步驟分為圖像對數變換、小波分解變換和高頻系化數閾值處理。閾值函數一般分為軟閾值函數和硬閾值函數,表達式分別為式(3)和式(4)。小波變換的表達式為:
(2)
其中,只有兩個變量平移a和平移量τ,a控制圖像而ψ(t)是給定的函數。

(3)

(4)
其中,a是變量,b是閾值。對于閾值的選擇應滿足式(5)。

(5)
其中,wn表示噪聲標準方差,N表示信號的長度。
小波變換具有多分辨率、多尺度和穩定的信號的特性,能夠有效獲得待處理圖像細節處的信息和輪廓信息。該文通過對同一包含交通警察目標圖像做小波變換去噪和中值濾波去噪來消除圖像噪聲的預處理,得到的實驗結果如圖1所示。對比實驗結果可以看出,小波變換去噪的方法能有效保留交通警察圖像的細節信息和邊緣特征,符合交通警察目標檢測的需要。所以該文采用基于小波變換去噪的方法對圖像進行去噪處理。

圖1 圖像去噪結果
Gamma[13]曲線是一種特殊的色調曲線,當Gamma值等于1時,如圖2中灰色虛線,輸入和輸出的密度相同;當Gamma值大于1時,如圖2中gamma2曲線,輸出圖像結果出現亮化;當Gamma值小于1時,如圖2中gamma1曲線,輸出圖像結果出現暗化。在計算機系統中,由于硬件設備如顯卡和顯示器的原因會導致最后輸出的圖像存在亮度上的差異,而Gamma曲線校正就是通過一定的方法來校正圖像的這種偏差的方法。實際情況下,當用于Gamma校正的值大于1時,將會使得圖像的高光部分被壓縮而暗調部分被擴展;當Gamma校正的值小于1時,會使得圖像的暗調部分被壓縮而高光部分被擴展,Gamma校正一般用于平滑的擴展暗調的細節。Gamma校正的曲線如圖2所示。當已經知道Gamma值時可以通過式(6)的方法進行Gamma校正。
Ψ=λμγ
(6)
其中,μ為圖像的像素值,λ,γ為常數。當γ>1時圖像的亮度會降低,圖像變暗。當γ<1時,圖像的亮度增加。

圖2 Gamma曲線
通過對小波變換去噪后的圖像進行Gamma校正得到增強后的圖像實驗結果,如圖3所示,可以看出Gamma曲線校正的結果滿足該文待檢測圖像的需要,在圖像未失真的前提下有效增強了圖像的細節信息。

圖3 圖像增強
Faster R-CNN可以看成基于“區域生成網絡RPN+Fast R-CNN”的系統,而Fast R-CNN中的Search方法是由區域生成網絡代替的。通過區域生成網絡(RPN)來提取候選區域,有效地將RPN網絡和Fast R-CNN網絡統一到一個網絡共享卷積層,并且解決了R-CNN和Fast R-CNN特征提取中存在的冗余問題。
由Girshick等人提出的區域卷積神經網絡(region-based convolutional neural network,R-CNN)[14]根據傳統的目標檢測思路,R-CNN算法將目標檢測分為提取框內圖像特征提取、對圖像進行特征分類、非極大值抑制的步驟實現目標檢測,在特征提取階段利用深度學習的方法提取特征[15]。采用Selective Search方法得到2 000個左右的候選區域,在固定大小后輸入到卷積神經網絡進行特征提取,利用多個SVM對特征進行分類,最后校準候選區域的位置。
Fast R-CNN模型[16]通過整張圖像歸一化后直接送入深度網絡,隨后送入提取的候選區域,避免了前幾層特征不必要的重復計算,優化了R-CNN模型訓練、測試速度慢和訓練空間大的問題。具體的實現過程如圖4所示。相較于R-CNN模型,一方面Fast R-CNN模型增加了池化層(region of interest,ROI),可以把任意大小的輸入降維成設定固定尺度特征向量,另一方面,邊框回歸和分類可以同時進行,共享卷積層并相互促進。

圖4 Fast R-CNN網絡結構
Faster R-CNN網絡模型將候選區域獲取、深度信息提取與目標檢測識別融入到同一卷積神經網絡模型中,實現了端到端的目標檢測與訓練[17-20]。主要步驟為:
(1)卷積層特征提取:通過一系列的激化、卷積和池化層的組合,對輸入圖像進行特征的提取。
(2)RPN獲取候選區域:通過RPN的滑動窗口生成候選框,設置候選框的尺寸和比例可以看作一個尺度51*39的256通道圖像,對于該圖像的每一個位置,共組合為9個可能的候選窗口:三種面積三種比例,這些候選窗口稱為錨框(anchors boxes)。通過利用邊框回歸修正anchors boxes獲得更加準確的候選框,根據非極大值抑制算法(NMS)進行輸出區域篩選,得到M個不同大小和比例的目標候選框輸入到ROI池化層。
(3)ROI池化層獲取區域建議特征:利用RPN得到M個不同比例的候選框和卷積層提取到的特征得到固定大小的特征向量[21]。
(4)分類和回歸:利用Softmax和Proposals判斷目標候選區域的具體類別,利用Bounding-box回歸的思想預測目標物體的準確位置[22]。
Faster R-CNN損失主要包括兩部分,分別為RPN損失和Fast RCNN損失,計算公式如式(7)所示,并且兩者都包括分類損失和回歸損失。
(7)

分類損失表達式為:
(8)
其中,t表示Faster R-CNN階段的預測偏移量;t*表示Faster R-CNN階段前景實際偏移量。
回歸損失表達式為:
(9)

交通警察在指揮交通時一般身體在局部運動狀態,因此利用幀間差分法進一步對視頻幀中的目標進行檢測,對于提高目標檢測的精確率有較為理想的幫助。對運動目標具體檢測的方法是:幀間差分法通過差分運算對時間上相鄰2-3幀圖像中的像素點做減法運算,當灰度差的絕對值超過一定閾值時,判斷為所檢測的運動目標[23-24]。通過統計各個交通警察局部運動非黑像素閾值范圍,以此來進一步實現對目標區域中指揮交通警察的定位。圖5(a)是對交通警察變道信號非黑像素占比的統計,圖5(b)是對左轉待轉非黑像素占比。

(a)變道非黑像素占比 (b)左轉非黑像素占比
仿真實驗環境:處理器AMD Ryzen 5 3600 6-Core Processor 3.59 Hz;GPU為NVIDIA GeForce RTX2060 SUPER,編程語言為python;操作系統為Ubuntu16.04;深度學習框架采用Tensorflow[25]。
對整個網絡訓練的參數設置如表1所示。

表1 實驗參數
分別使用Faster R-CNN網絡和SSD網絡對測試集中的11 228張圖片進行實驗測試,得到的部分檢測效果圖如圖6所示。
圖6中,(a)、(c)表示Faster R-CNN網絡檢測的效果圖,(b)、(d)表示SSD網絡檢測的效果圖。通過對比可以發現,SSD網絡對交通警察的檢測率均低于Faster R-CNN網絡的檢測率,并且對比圖(c)和(d)可以發現SSD網絡存在漏檢的問題,而Faster R-CNN網絡則成功地檢測出了圖像中存在的第三位交通警察。

圖6 檢測效果
通過網絡對比實驗,分別對兩種基于深度學習的方法和傳統的基于HOG和SVM的方法進行檢測,實驗結果如表2所示。通過表2可以直觀地看出,Faster R-CNN網絡的檢測速度為61.523 ms,準確率為98.75%,相較于SSD網絡和傳統的方法都具有明顯優勢。

表2 實驗結果對比
通過實驗同時得出了兩種方法的損失值曲線,從圖7中可以看出損失值呈下降的趨勢,Faster R-CNN網絡的損失值在20 000次左右已經下降到0.3以下,最終在30 000次迭代停止時損失值為0.112 5,表明Faster R-CNN模型訓練效果較好。SSD模型最終在30 000次迭代時停止學習,損失值在0.204 5左右,從曲線中可以看出SSD模型的波動較大,訓練效果無法滿足檢測的要求。

圖7 損失曲線
綜上,對于交通警察的檢測Faster R-CNN模型檢測的成功率和速度均高于SSD模型,Faster R-CNN模型能夠精確地定位到復雜背景下的交通警察。
該文提出一種基于Faster R-CNN模型與幀間差分法結合的方法來實現交通警察的檢測,通過對比SSD模型和Faster R-CNN模型的實驗數據結果可以看到,雖然兩種方法均能檢測出目標,但Faster R-CNN模型的檢測準確率達到98.5%,檢測速度僅為50 ms,檢測的召回率達到98.2%,均比SSD模型有較高的提升。該方法能夠有效解決目前交通警察存在的漏檢、誤檢和檢測效果不佳的問題,并且能夠有效排除光照和遮擋物的影響,提高對交通視頻幀中交通警察檢測的精確性和魯棒性。