鄒 偉 殷國棟 劉昊吉 耿可可 黃文涵 吳 愿 薛宏偉
東南大學機械工程學院,南京,211189
實時有效的環境感知是自主駕駛車輛安全行駛的前提和基礎。目前,國內外研究者應用深度學習技術在車道、車輛、 行人、標識感知識別方面做了大量工作,識別率和實時性也獲得了極大的提高,尤其很多針對理想環境下的行人和車輛的目標檢測算法[1-6]受到廣泛關注。但大量的研究工作以理想環境為背景,缺乏針對復雜環境下特征不明顯的低辨識目標檢測算法研究。自主駕駛車輛在真實場景下行駛的過程中不可避免地會遇到各種復雜環境,尤其是雨雪天、夜間等環境下目標特征不明顯,各種傳感器會受到很大的影響,此時由具有特定特征的圖像訓練得到的模型將不能很好地識別出低辨識目標。
近年來,計算機視覺領域的學者也初步開展了復雜環境下目標智能識別方法的研究,尤其在多模態圖像的融合和辨識方面提出了很多富有創新性的想法。SIMON等[7]使用卷積神經網絡( convolutional neural network, CNN)融合彩色圖像、深度圖、紅外圖像實現對人臉的檢測,實驗結果表明,相比單模態檢測方法,多模態的融合方法極大地提高了識別的準確率。ZHOU等[8]提出了一種新穎的夜間視覺增強算法,通過導引濾波器來實現紅外圖像和彩色圖像的融合。另外,許多研究人員試圖解決在不利照明條件下行人和車輛檢測的問題。GONZALEZ等[9]比較了由彩色圖像、紅外圖像、彩色圖像和紅外圖像組合訓練的深度神經網絡的性能,結果表明,兩種模態的圖像結合的方式可以提高行人檢測的識別率,尤其是在夜晚的環境條件下,這種提高特別明顯,即紅外圖像可以提高夜間行人的辨識。CAI等[10]提出了一種基于視覺顯著性的夜間行人檢測算法,該算法使用遠紅外圖像,首先使用基于融合顯著性的方法檢測包含可疑行人的區域;然后使用支持向量機分類器對行人進行最終分類,與某些現有的行人檢測算法相比,該算法在真實的遠紅外圖像數據集上具有更好的檢測率和處理速度性能。KONIG等[11]提出了一種基于預先訓練的非常深的卷積網絡VGG-16的新型多光譜區域建議網絡,進一步使用增強決策樹分類器來減少該網絡的潛在假陽性檢測,在KAIST多光譜行人檢測基準測試的測試集上,對數平均漏檢率為29.83%。XU 等[12]使用一種新穎的交叉模式學習框架來檢測不利照明條件下的行人,首先采用深度卷積網絡來學習非線性映射,從而對RGB與紅外數據之間的關系進行建模,然后將學習得到的特征表示轉移到第二深度網絡,該第二深度網絡接收RGB圖像作為輸入并輸出檢測結果,該方法在KAIST多光譜行人數據集和Caltech數據集上表現出色。SAVASTURK等[13]用紅外圖像中的單眼視覺分析了立體視覺在可見域中的優勢,提出了可見光圖像和紅外圖像的組合算法并用于車輛檢測,結果表明,在紅外圖像中對車輛進行額外的檢測可以顯著提高車輛的檢測率。
目前,針對多模態輸入的目標檢測任務,研究者設計的網絡大部分針對不同的模態數據(如RGB-D數據)分別建立了獨立的網絡來提取不同模態數據的特征[14-15],然后以一定的方式將兩個網絡得到的結果融合得到最終的輸出。上述方法思路很直接,既然有多個模態的數據,則為每個模態的數據構建一個網絡,這些網絡往往也是利用預訓練網絡做微調,但是這種方法也面臨一些現實的難題,目前很多的多模態數據集(如RGBN-D,RGB-thermal)規模都比較小,而且缺乏大量的人工標注,若要獲得與Imagenet一樣規模的數據集,則需要耗費大量的時間和人力。
本文構建了用于深度卷積神經訓練和測試的多模態數據集MMPVD(multi-modal pedestrain and vehicle dataset),該數據集包含三個模態(彩色、紅外、經過偏振片濾鏡的彩色)圖像對,目標包括行人、轎車、越野車、運輸車輛。建立的多模態數據集在模態數量、規模、數據質量(圖像配準精度、圖像清晰度)、目標類型及環境復雜度上均超過當前公開的雙模態數據集KAIST[16]。基于Faster R-CNN算法[17]設計了雙模態及三模態目標檢測融合算法,融合CNN網絡提取彩色圖像、偏振圖像、紅外圖像特征,搭建多模態傳感器視覺感知平臺,實現對復雜環境下特征不明顯的低辨識目標的實時且有效的檢測,提高多模態目標檢測算法在自主駕駛車輛行駛過程中面臨不同環境時的魯棒性和泛化性能。
事實證明,相對于傳統的檢測算法,基于深度CNN網絡的目標檢測方法無論在檢測精度還是在泛化性能等方面都具有無可比擬的優勢并且取得了巨大的成功。目前基于CNN網絡的目標檢測算法主要分為兩階段的目標檢測(two-stage detection)和單階段的目標檢測(one-stage detection)。兩階段的目標檢測算法以R-CNN系列為代表,發展出Fast R-CNN[18]、Faster R-CNN等性能優越的算法。經典的單階段的目標檢測算法有YOLO[19]系列、SSD[20]、FPN[21]等。單階段的目標檢測算法的優勢在于運算速度快,滿足實時性要求,但存在正負樣本比例失衡問題,檢測精度上稍遜于兩階段網絡。兩階段網絡存在候選框提取操作,檢測精度較高,但相對于單階段網絡,兩階段網絡檢測的速度較慢。本文選取VGG-16深度卷積神經網絡作為骨干網絡(backbone),對不同模態圖像的特性進行提取,將得到的特征圖進行卷積融合,基于兩階段的Faster R-CNN算法設計多模態目標檢測算法。
深度學習采用的典型網絡結構是卷積神經網絡CNN。CNN 在圖像目標檢測中具有位移不變性、 縮放不變性及其他形式的扭曲不變性[22]。由CNN 的卷積核通過訓練數據進行學習,所以在使用 CNN時,避免了人工的特征設計和抽取,隱式地從訓練數據中進行特征學習。
圖1為CNN的一般架構圖,CNN采用卷積層與池化層交替設置,卷積層用于學習輸入數據中的特征,池化層用于降低卷積層所學到的特征的維度,用以提高網絡的魯棒性,這樣卷積層提取出圖像特征,再進行組合形成對圖片對象描述的更抽象特征,最后將所有參數歸一化到一維數組中形成全連接層,進行目標特征訓練或檢測。相對于全連接網絡,CNN網絡最大的特點在于局部連接性和權值共享性。局部連接的方式有效地減少了權值參數的個數;權值共享是指同一個卷積核所連接的權值相同,大大減少了連接權值的個數。卷積層的計算公式為
C=σ(M?W+b)
(1)
式中,C為卷積后的矩陣;σ為激活函數;M為圖像對應的矩陣;W為卷積核權重;b為偏置項。

圖1 CNN網絡結構Fig.1 Network of CNN
VGG-16的網絡結構[23]如圖2a所示,進行特征提取時,其輸入是一個224×224×3的三維矩陣(表示一個大小為224×224的三通道RGB圖像),對輸入圖像的預處理是從每個像素中減去在訓練集上的RGB均值,輸出是圖像分類的結果(1000種)。VGG-16共有5個卷積塊,每個卷積塊都包含數次卷積操作,卷積核的大小均為3×3,在卷積之前都進行了填充處理,使得卷積操作不會改變輸入輸出矩陣大小;而在每個卷積塊的最后添加最大池化層,在2×2的像素窗口上進行最大池化,步長為2,每次池化輸出特征的長和寬變為輸入的1/2。在一維卷積池化操作后是3個全連接層,前2層都是4096維,第3層為1000維的ILSVRC分類,包含1000個輸出,每個輸出對應一個類別,最后一層為soft-max分類層。
在Faster R-CNN目標檢測算法中,使用VGG-16卷積網絡的中間層輸出,去掉了最后一個池化層,選取第5個卷積塊的第3個卷積網絡(Conv5/Conv5_3)的輸出作為最后得到的特征圖。具體的網絡結構參數見表1。

表1 VGG-16網絡結構參數
1.3.1網絡結構
Faster R-CNN包括CNN特征提取層、區域建議網絡(region proposal network, RPN)、感興趣區池化層(region of interest pooling, ROI pooling)、決策層(fast R-CNN)四個部分。CNN特征提取層對輸入的圖像數據經過多次卷積和池化操作進行特征的提取和降維,得到特征圖。RPN層提取候選框并對候選框進行初步的回歸,將候選框映射到特征圖上,由于候選框的尺度不同,對應的候選框的特征的尺度不同,故通過ROI pooling層將每個候選框的特征歸化到同樣的尺度,方便輸送到后面的全連接層,對目標進行分類和邊界框的回歸。Faster R-CNN網絡結構如圖2b所示。RPN網絡在最后一層卷積特征圖上進行候選框的提取,具體方法如圖3所示。

(a)VGG-16網絡結構[23]

(b)Faster R-CNN網絡結構圖2 模型網絡結構Fig.2 Network structure of models
RPN的核心在于采用錨(anchor)機制,可以理解為將卷積特征圖上的每一個點(或對應原圖上的某些點)作為錨點,以這些錨點為中心,在每一個錨點上選取m種縱橫比、n種尺度、共k個初始的anchor作為候選框,文中m=3,n=3,k=9。對所有的候選框做二分類,判斷其為前景或背景的概率,并對這些候選框做簡單的邊界框初次回歸。如此多的候選框中,根據二分類的結果從中選取部分較好的候選框,用以進行后續的運算。

圖3 RPN提取候選框示意圖Fig.3 RPN making proposal boxes
1.3.2損失函數
Faster R-CNN 包括兩部分損失:RPN網絡的損失和 Fast R-CNN 網絡的損失,其中每個損失又包括分類損失和回歸損失[17]。分類損失使用的是交叉熵函數,回歸損失使用的是smooth L1 函數。訓練RPN網絡,給每個anchor分配一個二進制的標簽(是否包含前景),正標簽的anchor是與任意真實包圍盒(ground truth,GT)的交并比(intersection over union, IoU)大于0.7的anchor,負標簽的 anchor 是與所有GT的IoU均小于0.3的anchor,剩下的anchor(即與GT的IoU介于0.3~0.7的anchor)不參與RPN網絡的訓練。本文采用 Fast R-CNN 中的多任務損失最小化目標函數。損失函數定義如下:
(2)

(3)
回歸損失計算公式為
(4)
其中,R是Faster R-CNN中定義的魯棒損失函數,其計算公式為
(5)
本文沿用Faster R-CNN中上述損失函數。
1.4.1雙模態目標檢測算法
基于Faster R-CNN目標檢測算法框架,設計了雙通道的深度卷積特征提取網絡分別提取紅外圖像和彩色圖像特征,選取VGG-16作為骨干(backbone)特征提取網絡,雙模態目標檢測網絡結構[24]如圖4a所示,網絡的輸入分別為彩色圖像和紅外圖像,圖中虛線框為兩個模態的 VGG-16 特征提取網絡,分別提取彩色圖像特征和紅外圖像特征。實驗證明,相對于傳統的單模態目標檢測算法,基于雙模態特征融合的深度卷積神經網絡對復雜環境下的低辨識目標具有更好的檢測和識別性能,且在VGG-16的中間階段將紅外圖像特征和彩色圖像特征融合為最優的方式。
1.4.2多模態目標檢測算法
本文基于Faster R-CNN目標檢測算法,設計3個通道的深度卷積特征提取網絡來融合紅外圖像、偏振圖像和彩色圖像特征,選取VGG-16作為骨干(backbone)特征提取網絡,三模態目標檢測網絡結構如圖4b所示。
網絡的輸入分別為彩色圖像、偏振圖像和紅外圖像,圖4b中虛線框為3個通道的VGG-16特征提取網絡,分別提取彩色圖像特征、偏振圖像和紅外圖像特征。數據集中存在很多遠距離拍攝分辨率較低的目標,像素信息較少,為了提高此類目標的檢測性能,去除了VGG-16的最后一個池化層,提高高層特征的分辨率,保留更多圖片的細節,防止下采樣過度造成小目標丟失。對于多模態目標檢測任務,需要解決的最基本問題是如何將多個模態的信息加以融合,以便更好地完成目標檢測任務。在深度學習目標檢測中,該問題意味著選擇合適的層來將多個模態的信息(特征)加以融合。LIU等[15]設計了4種卷積網絡融合架構,這些架構在不同的深度神經網絡階段將兩分支卷積網絡融合在一起,他們在KAIST數據集行人基準測試中的實驗結果表明,基于中段卷積特征的中間融合(halfway fusion)模型具有最佳性能,因此,本文采取中間融合方式。
左右模塊分別是在VGG-16的第4和第5個卷積塊之后將來自不同模態的特征圖進行融合的網絡示意圖見圖5。綠色塊、淺綠色和橘色塊分別表示不同模態的卷積層,得到不同模態圖像的卷積特征,黃色表示融合后的網絡層,紅色虛線框表示融合層。

(a)雙模態目標檢測網絡結構[24]

(b)三模態目標檢測網絡結構圖4 多模態目標檢測網絡結構Fig.4 Structure of multi-modal object detection network

圖5 兩種融合方式Fig.5 Two fusion methods
融合層的詳細結構如圖6所示。將來自3個模態的特征圖在最后一個維度(通道)進行串接,則原來均為512層的彩色圖像特征圖、偏振圖像特征圖和紅外圖像特征圖變為1536層(通道數變為3倍)的堆疊特征圖,再通過1×1的卷積核將特征圖進行融合并將1536維度降低到原來的512,最后得到512維的融合特征圖。本文沿用Faster R-CNN中各部分損失函數,融合層的1×1的卷積核的參數參與模型的訓練,融合后的特征圖將繼續經過后面的RPN層以及ROI池化層,最終到達全連接層,將3個模態的信息逐層傳遞進行最后的分類和邊界框回歸。網絡訓練同樣采用反向傳播算法,整個網絡可以看作由節點構成的計算圖,從后向前逐層更新參數。

圖6 融合層網絡結構Fig.6 Structure fusion layer network
多模態目標檢測網絡配置文件的超參數設置如下:網絡訓練的學習率為0.001,并在第50 000步迭代之后學習率設置為0.0001;RPN網絡部分的錨點橫縱比為[1,2,0.5],尺度為[8,16,32];模型訓練需要對輸入的圖像進行標準化,求得RGB圖像的像素均值為[85.38,107.37,103.21],紅外圖像的像素均值為[99.82,53.63,164.85],偏振圖像的像素均值為[79.68,88.75,94.55];模型訓練采用的優化器為Momentum優化器,動量超參數設置為0.9;模型訓練迭代105步。
本文構建了彩色圖像、偏振圖像和紅外圖像三模態數據集MMPVD(multi-modal pedestrain and vehicle dataset)。多模態圖像數據集的圖像分辨率為640 pixel×480 pixel,場景包含城市道路、鄉村道路和校園場景,目標包括行人、轎車、越野車、運輸車輛,環境覆蓋晴天、黃昏、夜間、雨天、霧天等不同能見度和照度的天氣。
低辨識目標包含被遮擋超過50%以上的目標或在非良好行駛環境條件下的目標。良好行駛環境條件是指良好的照度(大于500lx)和良好的能見度(大于2000 m)。低辨識度數據子集是指在非良好行駛環境條件(如夜間、雨天等)下拍攝的圖像數據集。在測試數據集中,目標遮擋率主要為50%~60%,而沒有遮擋的遮擋率則為0~10%。
目前已經完成各種環境條件下大約6萬對多模態圖像的采集,使用公開的標注工具LabelImg完成了其中46 065對熱成像-可見光-偏振光圖像對的人工標注,共計產生大約134 000個標注結果(圖像中可能包含多個行人和不同車輛種類目標)。其中,70%的數據作為訓練集,30%的數據作為測試集。圖像數據分布統計見表2。MMPVD的幾種典型低辨識目標數據集示例見圖7。

表2 圖像數據統計

圖7 MMPVD典型低辨識目標圖像數據Fig.7 Typical low observable target image dataof MMPVD

圖8 多模態傳感器視覺感知平臺及圖像采集系統Fig.8 Multi-modal sensor visual perception platformand image acquisition system
為了獲得成對的彩色圖像、紅外圖像、偏振圖像數據,搭建多模態傳感器視覺感知平臺,如圖8所示。RGB彩色相機選用CGimagetech單目攝像頭,搭配4~12 mm工業鏡頭,分辨率為640 pixel×480 pixel,幀率為30幀/秒,USB串口傳輸;紅外相機選用大力DM66紅外熱成像儀,分辨率為640 pixel×480 pixel,幀率為50幀/秒,視場角為15°×11°,網絡傳輸;偏振相機選用CGimagetech單目攝像頭,搭配4~12 mm工業鏡頭,加裝工業鏡頭偏振鏡,偏振鏡由兩片偏振片組成。試驗系統使用自制的鋁合金架搭載RGB相機、紅外相機和偏振相機,以3臺設備的拍攝軸線定位,保證其拍攝軸線在同一垂直平面內。針對可見光相機和紅外相機的傳感器曝光方式、觸發機制和幀率均不相同的問題,使用ROS(robot operating system)系統中的時間同步器(time synchronizer)模塊接收來自3個相機的圖像消息實現多模態相機的同步采集。同時,對彩色圖像、紅外圖像和偏振圖像進行同步后的配準操作,使得多模態圖像采集系統可以實時獲取同一時間具有相同視角和重疊區域的目標圖像對。多模態圖像數據采集計算平臺使用Nvidia Xavier處理器。
因兩個可見光相機和紅外相機不在同一空間位置且視野范圍也有較大差別,故需要對獲取的原始三模態圖像進行配準處理。對圖像對進行配準,需要提取與匹配圖像對當中的對應特征點,通過特征點求取圖像之間的變換矩陣。
單應性(homography)定義了兩幅圖像之間的變換關系,一張圖像上的點在另一個圖像上有且只有一個對應點,它在計算機視覺領域是一個非常重要的概念,在圖像校正、圖像拼接、相機位姿估計、視覺SLAM等領域有非常重要的作用[25]。單應性矩陣就是描述從一張圖像到另一張圖像的映射關系的3×3變換矩陣:
(6)
單應性變換矩陣為
(7)
其中,(x1,y1)與(x2,y2)為圖像對上對應的一組特征點坐標。為了求得兩幅圖像之間的單應性矩陣,至少需要一組圖形對上的4組對應特征點[25]。以紅外相機為基準,分別求取RGB相機、偏振相機相對紅外相機的單應性矩陣H1、H2,實現3個模態圖像的像素級配準。對于紅外相機的成像方式,通過特征點自動提取算法在紅外圖上提取準確度不高,導致多個模態圖像匹配點求取有誤,進而影響后續圖像對校準的效果,因此采用手動選取圖像對上對應的特征點來求取兩個圖像對之間的單應性矩陣,可實現多模態圖像對的配準。通過穩定平臺固定3個相機的相對位置,并保持各自的鏡頭焦距不變,因此只需要求取一次單應性矩陣。具體的多模態圖像的配準算法步驟如下:
(1)固定RGB相機、紅外相機以及有偏振相機鏡頭焦距,加熱自制鐵標定板,移動標定板,拍攝20對三模態圖像。
(2)取20組RGB相機和紅外相機圖片對,每組先在RGB圖像上選取4個特征點,再在紅外圖像上選擇相同位置的特征點,得到4對特征點,計算RGB相機平面到紅外相機的矩陣H,對得到的20組H矩陣取均值,并保存為H1。
(3)取20組有偏振相機和紅外相機拍攝的圖片對,每組先在有偏振圖像上選取4個特征點,再在紅外圖像上選擇相同位置的特征點,計算偏振相機平面到紅外相機的矩陣H,對得到的20組H矩陣取均值,并保存為H2。
圖9所示為配準前的三模態圖像對示例,可以看到RGB相機及偏振相機的視野范圍更大,需要進行單應性變換,對圖像進行配準。變換位置,拍攝這樣的圖像對20組,求得標定結果如下:
(8)
(9)

圖9 未配準前的多模態圖像對Fig.9 Multi-modal image pairs before registration
得到H1、H2矩陣后,即可將RGB相機、偏振相機平面映射到紅外相機平面,對變換后的圖像對進行剪裁操作,保留3個模態圖像最大相同區域,得到以紅外圖像為基準的配準后的多模態圖像對。配準結果如圖10所示。通過求得的單應性矩陣H1、H2對多模態傳感器視覺感知平臺得到的圖像對進行實時同步和配準,得到配準過后的三模態圖像對對齊結果,如圖11所示,彩色圖像、偏振圖像均與紅外圖像對齊。

圖10 配準結果Fig.10 Registration results

(a)RGB圖像和紅外圖像(b)偏振圖像和紅外圖像圖11 配準后的多模態圖像對齊Fig.11 Multi-modal image alignment after registration
深度學習模型的權重訓練在實驗室的高性能圖像處理工作站上完成,工作站配置見表3,主要包括Intel i9-7980XE(CPU),32GB內存,雙GTX 1080Ti GPU,22GB顯存,1TB 固態硬盤+12TB混合硬盤(RAID 1冗余備份陣列)。

表3 工作站配置
針對多模態目標檢測網絡的訓練,本文沿用前文的Faster R-CNN各部分損失函數。由于所設計的多通道的目標識別網絡采用3個VGG-16網絡作為骨干特征提取網絡,網絡層數較深,結構復雜,參數較多,因此,為了防止模型在自建的MMPVD數據集上出現過擬合的現象以及縮短模型收斂的時間,需要選擇合適的初始值初始化網絡模型中3個不同模態的VGG-16。紅外熱像儀和可見光相機的成像原理不同導致紅外圖像和可見光圖像差異較大,所以在MMPVD訓練集上分別訓練單模態的紅外圖像目標檢測網絡和單模態的可見光圖像目標檢測網絡,分別得到適合紅外圖像和可見光圖像(包括彩色圖像、偏振圖像)的特征提取網絡VGG-16,以此作為三模態目標檢測網絡中不同模態VGG-16的初始化,模型初始化示意圖見圖12。

圖12 VGG-16模型初始化Fig.12 Initialization of VGG-16
在該配置環境下,多模態深度學習網絡在整個MMPVD訓練集上完成105次迭代需要約15 h,網絡模型訓練的損失(loss)函數變化過程如圖13所示。其中,綠色和紅色虛線分別代表訓練單模態的紅外圖像目標檢測網絡損失和單模態的可見光圖像目標檢測網絡損失,藍色實線為多模態目標檢測網絡損失。由圖13可知,在經過105次迭代后,模型均達到很好的收斂效果。還可從圖13的局部放大圖中看到,相對于單模態網絡的訓練,多模態目標識別網絡訓練的損失變化得更加平穩,模型收斂得更快。

圖13 損失曲線Fig.13 Loss curve
平均精度(average precision, AP)是查準率(precision)和查全率(recall)綜合計算的結果,是機器學習中檢測算法性能的重要評價方法之一。以查準率為縱軸、查全率為橫軸作圖,就得到查準率-查全率曲線,簡稱“P-R曲線”。平均精度為P-R曲線在橫坐標[0,1]區間上的定積分,反映了模型的性能,面積越大,平均精度越大,性能越好。“平衡點”(break-even point,BEP)是查準率等于查全率的取值。BEP越大,性能越好[26]。mAP是子類中平均精度的平均值。測試集為MMPVD測試集中低辨識目標測試子集,用于驗證多模態目標檢測算法在復雜環境下對低辨識目標的檢測性能。
在VGG-16的第4和第5個卷積塊之后,不同融合方式在MMPVD測試集上的測試結果性能對比如圖14所示,其中Conv4和Conv5分別表示在VGG-16的第4和第5個卷積塊后進行多模態特征的融合,以單模態的Faster R-CNN作為算法性能對比基準。測試集為MMPVD三模態數據集中的全部測試子集,涵蓋全部采集場景和環境條件,包括良好駕駛環境條件和非良好駕駛環境下的目標。
圖14a、圖14b分別為本算法在測試集上人員、車輛目標的P-R曲線與平衡點,圖14c為所有識別目標的AP值統計直方圖。由圖14可以發現:基于多模態特征融合的深度卷積神經網絡能夠獲得更高的AP值,P-R曲線完全覆蓋單模態目標檢測網絡,平衡點處的取值也大于單模態目標檢測網絡。因此,相對于傳統的單模態目標檢測算法,多模態目標檢測算法對復雜環境下的低辨識目標具有更好的檢測和識別性能。而且實驗發現,在VGG-16的第5個卷積塊后將來自不同模態的特征進行融合的效果稍優于在第4個卷積塊后融合的效果。

(a)人員P-R曲線與平衡點

(b)車輛P-R曲線與平衡點

(c)AP值直方圖圖14 不同融合方式對比結果Fig.14 Comparison results of different fusion methods
縱向對比單模態、雙模態和三模態目標識別算法性能,同時以MMPVD三模態數據集中的低辨識目標為測試數據子集(涵蓋了不同駕駛場景中低照度、低能見度下的低辨識目標,且多包含RGB圖像受到光斑、耀斑嚴重影響的多模態圖像對),驗證多模態目標檢測算法在自動駕駛真實駕駛復雜環境下針對低辨識目標的檢測性能,以單模態的Faster R-CNN作為算法性能對比基準,測試結果如圖15所示。由圖15可以發現:在MMPVD低辨識目標測試數據集上,相對于單模態目標檢測算法,基于雙模態及三模態特征融合的深度卷積神經網絡目標檢測算法取得了更好的AP值,其P-R曲線完全覆蓋單模態目標檢測網絡Faster R-CNN的P-R曲線,平衡點處的取值也大于單模態目標檢測網絡的取值,而且融合了偏振圖像特征的多模態目標檢測算法的檢測性能優于雙模態目標檢測算法的性能。

(a)人員P-R曲線與平衡點

(b)車輛P-R曲線與平衡點

(c)AP值直方圖圖15 不同模態對比結果Fig.15 Comparison results of different modalities
針對低能見度、低照度環境條件下受到嚴重的光斑、耀斑影響的低辨識目標,融合紅外圖像特征、RGB圖像特征及偏振圖像特征的多模態目標檢測算法的檢測性能優勢更加明顯,當RGB圖像上的目標特征不明顯時,單模態目標檢測算法檢測性能急劇下降,而紅外圖像特征由于成像方式的特殊性可以很好地進行特征信息補充,且偏振圖像能夠有效濾除偏振光在影像上所形成的亮斑、耀斑,改善圖像清晰度的光學特性的同時也從另一個方面補充了特征信息,從而提高了自動駕駛在真實駕駛環境下的視覺感知能力。
相對于傳統的單模態目標檢測算法,雙模態和三模態目標檢測算法對復雜環境下的低辨識目標均具有更好的檢測和識別性能,而且三模態目標檢測算法檢測性能在某些特殊場景下優于雙模態的目標檢測算法,尤其是針對低能見度、低照度環境條件下受到嚴重的光斑、耀斑影響的低辨識目標具有更明顯的優勢。
考慮到自主駕駛車輛對環境感知實時性的要求,對比分析多模態目標檢測算法在圖像處理工作站上的處理速度,算法幀率實驗對比結果如下:單模態、雙模態、三模態的幀率分別為23幀/秒、18幀/秒、14幀/秒。相對于單模態的目標檢測算法,多模態目標檢測算法的卷積層的參數數量更大,網絡結構更加復雜,所以幀率有所下降。三模態目標檢測算法前向處理一幀圖像對約需要0.07 s,雙模態目標識別網絡需要0.05 s,滿足實時檢測的要求。

圖16 實時檢測系統框架圖Fig.16 Framework of real-time detection system
設計基于ROS系統的多模態目標實時檢測系統,系統框架如圖16所示。在自主駕駛車輛上搭載Nvidia Xavier嵌入式處理器,實現多模態圖像數據的實時采集,然后基于ROS系統實現多模態圖像的同步和配準,獲取配準過后的多模態圖像對,將得到的多模態圖像對通過基于TCP協議的網絡傳輸算法傳輸到遠程的阿里云服務器,本地的圖像處理工作站作為客戶端實時獲取遠程服務器上的多模態圖像對視頻流,將得到的視頻流輸入多模態目標檢測算法實現對自主駕駛車輛周圍環境的實時感知。多模態目標檢測系統檢測結果可視化如圖17所示。

圖17 多模態實時目標檢測系統可視化Fig.17 Visualization of multi-modal and real-timeobject detection system
圖18、圖19分別為多模態目標檢測算法和單模態目標檢測算法在MMPVD測試集上的部分檢測結果。可以看到,針對復雜環境下的低辨識目標,本文所設計的多模態目標檢測算法具有更高的分類置信度(confidence)和較好的檢測結果,而單模態目標檢測算法存在嚴重的漏檢現象。

(a)雙模態1 (b)單模態1

(c)雙模態2 (d)單模態2

(e)雙模態3 (f)單模態3

(g)雙模態4 (h)單模態4圖18 MMPVD雙模態測試結果對比Fig.18 Comparison testing results of dual-modal MMPVD

(a)三模態(RGB+紅外+偏振,置信度:0.918)

(b)雙模態(RGB+紅外,置信度:0.768)(c)單模態(RGB,置信度:0)

(d)三模態(RGB+紅外+偏振,置信度:0.753,0.961)

(e)雙模態(RGB+紅外,置信度:0.603,0.682)(f)單模態(RGB,置信度:0,0.560)

(g)三模態(RGB+紅外+偏振,置信度:0.933)

(h)雙模態(RGB+紅外,置信度:0.833)(i)單模態(RGB,置信度:0.719)

(j)三模態(RGB+紅外+偏振,置信度:0.760)

(k)雙模態(RGB+紅外,置信度:0.639)(l)單模態(RGB,置信度:0)圖19 MMPVD三模態測試結果對比Fig.19 Comparison testing results of 3-modal MMPVD
(1)本文針對自主駕駛車輛復雜環境下的低辨識目標識別問題,設計基于多模態特征融合的目標檢測算法。融合彩色圖像、偏振圖像、紅外圖像特征,實現對低辨識目標的有效檢測。實驗結果表明,在MMPVD多模態低辨識目標測試集上,相對于傳統的單模態目標檢測算法,基于多模態特征融合的深度卷積神經網絡對復雜環境下的低辨識目標具有更好的檢測和識別性能,而且三模態目標檢測算法檢測性能在某些特殊場景下優于雙模態的目標檢測算法,尤其是針對低能見度、低照度環境條件下受到嚴重的光斑、耀斑影響的低辨識目標,融合了偏振圖像特征的多模態目標檢測算法的檢測性能具有更明顯的優勢。
(2)構建了彩色圖像、偏振圖像和紅外圖像三模態數據集MMPVD,該數據集在模態數量、規模、數據質量(圖像配準精度、圖像清晰度)、目標類型及環境復雜度上均超過當前公開的雙模態數據集KAIST。
(3)針對自主駕駛車輛對環境感知實時性要求,搭建多模態傳感器視覺感知平臺,基于ROS系統構建多模態目標實時檢測系統,探索多模態圖像特征融合在自動駕駛視覺感知系統中的應用。實驗結果表明,本算法滿足目標檢測實時性要求。
下一步研究可以考慮通過優化多模態目標檢測網絡結構、擴充低辨識度目標數據集及模型壓縮,從而提高自主駕駛車輛視覺感知的準確性和實時性。