劉正全,鄧亮,吳杰
(常州星宇車燈股份有限公司,江蘇常州 213000)
基于機器視覺的行人檢測對于高級輔助駕駛系統至關重要。目前主要的研究內容都集中在可見光譜圖像中的行人檢測上,包含有多個數據集,并對行人進行了樣本標注[1]。隨著卷積神經網絡(Convolutional Neural Network, CNN)的發展,越來越多的高性能識別器都開始使用CNN技術。可見光圖像的行人識別器的一個主要缺點是在夜間表現較差以及對光照變化比較敏感。所以將可見攝像儀的信息與紅外攝像儀提供的信息融合起來有助于克服上述缺點[3]。
作者利用基于YOLO深度卷積神經網絡的檢測方法,該方法在可見光環境下是確實可行的,并將其擴展到寬光譜情況。作者評估引入的模型和深度學習的數據集都是基于KAIST寬光譜行人檢測的標注樣本,同時與其他的方法展開性能比較。
KAIST寬光譜行人樣本數據集[4]由時間和空間對應的可見和紅外圖像組成。數據集包含了可見和紅外圖像一共95 300組:訓練集圖像數據為50 200組,其中行人的標注數據41 500組;測試集圖像數據為45 100組,其中行人的標注數據44 700組。
目前,KAIST標準測試中性能最好的是增強性聚合信道特征(Aggregate Channel Feature,ACF)識別器[5]。原始ACF檢測器以滑動窗口方式操作,并使用二次采樣和濾波通道作為特征。這些通道是CIELUV色彩空間的組成部分,歸一化的梯度幅值和定向梯度的直方圖。ACF識別器(ACF+T+THOG)的寬光譜擴展不僅包含了紅外圖像的對比增強版本,還有紅外圖像的HOG特征作為輔助通道。作者在實驗中使用ACF+T+THOG作為標準與YOLO深度卷積神經網絡的檢測方法進行性能比較。
文中的模型是建立在YOLO識別架構的基礎上,將行人檢測作為一個回歸問題進行求解。輸入圖像經過一次推斷,即可得到圖像中所有行人的位置和相應的置信概率,同時融合可見光和紅外兩種不同模式的信息來執行二元分類。
融合架構(如圖1所示)分別在兩個子網絡中處理可見光與紅外光兩種模式的圖像數據,并將所得特征表示融合在全連接的層中。這兩個子網都是基于YOLO深度卷積神經網絡的,該網絡中有24個卷積層和2個全連接層。在紅外圖像的子網絡中,每個卷積層的濾波器數量和可見光圖像的子網絡是一致的。最后的全連接層將兩個子網絡所產生的結果與具有8 192個神經元進行完全相融合。融合層后面是一個ReLU非線性層、一個Dropout掉線機制層以及一個二元分類層。YOLO融合網絡的所有參數是以不斷迭代方式展開學習的。
訓練深度卷積網絡時,提供足夠數量的標注數據往往是提高性能的關鍵。由于數據采集和樣本標注的成本較高,在大多數應用中可用的訓練數據是有限的。克服這個問題的一種常用方法是在大型輔助數據集上對所要使用的神經網絡進行預訓練。
文中的預訓練過程包括以下兩個步驟:在第一步中, YOLO-RGB和YOLO-IR的網絡卷積圖層使用ImageNet數據集進行圖像分類任務的訓練;在第二步中,使用CALTECH標準的所有圖像對網絡進行微調[2]。
YOLO融合模型對KAIST數據的訓練也分兩步進行:首先根據預先訓練的結果,融合架構的兩個子網絡用預先訓練的權重或隨機值進行初始化。 從這些參數開始,分別對兩個子網絡進行優化。 之后,包括對整個YOLO融合架構進行聯合微調。當子網的權重固定并且只有融合層被訓練時,可以達到最好的融合結果。
YOLO識別器的評估是在KAIST測試數據子集上進行的,分別包含了白天和夜間拍攝的圖像。圖2顯示了YOLO識別器的ROC曲線以及對數平均缺失率。基于YOLO融合的預訓練深層架構明顯優于目前的ACF+T+THOG識別器。YOLO融合的預訓練深層架構性能與標準相比:在白天條件下,提高了6.95%;在夜間環境下,提高了12.24%。大多數情況下,YOLO融合架構可以達到目前ACF+T+THOG的性能。作者認為至少有3個原因:首先,YOLO融合構架中的子網絡YOLO-IR專門使用KAIST數據集進行了訓練;其次,YOLO融合網絡在預訓練過程中學習到了更多有意義的行人多模態特征,這是因為在紅外圖像通道中得到了有效的補充信息;最后,YOLO融合網絡在空間信息不太相關的階段展開了信息融合。 正如所預料的那樣,紅外模式在夜間所具備的優勢顯而易見。
作者在寬光譜圖像數據的基礎上引入了深度卷積神經網絡用于行人檢測。KAIST寬光譜標準數據集的分析表明:基于YOLO融合的預訓練深層架構與目前的ACF+T+THOG解決方案相比更有優勢。這是由于YOLO融合的預訓練網絡在給定環境中,學習到了更多有意義的行人多模態抽象特征。