程 騰,侯登超,張 強,石 琴,郭利港
(1.合肥工業大學汽車與交通工程學院,合肥 230000;2.安徽省智慧交通車路協同工程研究中心,合肥 250000;3.自動駕駛汽車安全技術安徽省重點實驗室,合肥 230009;4.奇瑞汽車股份有限公司,蕪湖 241000)
隨著交通環境日益復雜,在高級輔助駕駛系統和自動駕駛中,單一傳感器在復雜交通場景下對目標車輛識別準確率較低,不能滿足交通安全要求,所以目前大多數自動駕駛汽車都安裝了多種傳感器,它們可以提供車輛自身和周邊環境的多模態信息。這些信息通常具有一定的互補性和一致性,可以彌補彼此間的缺陷與不足,比如在黑夜、曝光等光照異常場景下,激光雷達檢測準確率優于對光照強度敏感的相機,而在雨雪惡劣天氣中,相機檢測準確率優于受反射影響的激光雷達。因此多模態融合逐漸成為自動駕駛汽車不斷提升環境感知能力的重要手段。
多模態融合方法按融合層次可劃分為數據融合、特征融合與結果融合[1]。其中,數據融合指輸出數據作為后續模型輸入的融合操作。Zhou 等[2]將激光點云投影至RGB 圖像上生成RGB-D 圖像,點云信息被擴展為圖像的第四通道。Vora 等[3]提出PointPainting 方法,為激光點云賦予了圖像生成的語義信息。相較于數據融合,特征融合所融合的信息為具備更深層次信息的特征數據。Chen 等[4]提出MV3D 融合算法,將激光點云投影為鳥瞰圖與前視圖,提取相應特征并融合RGB 圖像特征用于回歸檢測任務。Qi 等[5]提出以2D 檢測驅動3D 檢測的融合方法F-PointNet,基于圖像檢測生成建議區域,算法對該區域內的點云進行實例分割與邊框精修。結果融合指輸入數據本身是目標輸出且融合的結果用于結果修正的融合操作。雖然數據融合與特征融合在多模態信息融合中表現出巨大潛力,但它們對數據對齊較為敏感,且通常涉及復雜的架構,進一步引入了額外的計算開銷。而結果融合包含了預訓練的、固定的單模態檢測器,僅需要在檢測級別進行關聯[6],并且結果融合模型相對簡單,具備更高的實時性潛力。
紀嘉樹[7]設計了基于相機和激光雷達的決策級融合系統,根據兩種傳感器輸出的檢測框重合度判斷是否融合成功,融合結果較單一感知網絡有較大提升,但是該系統沒有考慮多傳感器識別結果出現分類沖突時應如何處理。甘耀東等[8]設計了一種融合策略,考慮到相機具備更好的分類特性,雷達具備更好的位置捕捉特性,在融合時取相機識別的類別、雷達識別的位置作為融合結果,但是該方法沒有考慮異常天氣或復雜交通場景下對傳感器的影響。李哲等[9]基于投票法融合了多特征下的多分類器,車標識別準確率得到進一步提升,但是投票法依賴基礎模型間的檢測效果不能差別過大。
考慮分類沖突的多模態融合方法有投票法[10-11]、貝葉斯計算法[12-14]、D-S 理論[15-16]等等。D-S證據理論[17]具有表達不確定性和融合不完善信息的能力,且能夠適應不同基礎模型的檢測效果。周文文[18]利用先驗知識設計概率密度函數,基于D-S 證據理論融合了多分類器的識別結果。類似基于專家經驗構建概率密度函數的思想在文獻[19]中亦有體現。然而,專家經驗往往具有主觀性,在復雜多變場景下決策可信度較低。Chavez-Garcia 等[20-21]提出了一種基于證據框架的感知融合架構,使用正弦變換將單分類器分類結果轉換為質量函數形式,結合不確定性與復合表示,解決運動目標的檢測與跟蹤問題。Zhu 等[22]將多分類問題基于成對學習方法表示為二值分類,并在此基礎上基于核密度估計構造概率密度函數,用于D-S 證據理論合成。以上方法避免了先驗知識的局限性,卻由于復雜數據模型的引入而帶來了額外的計算開銷。
Driss等[23]基于D-S 證據理論融合了5 種相機卷積神經網絡用于X-ray 圖像識別,將神經網絡的置信度作為D-S 證據理論的概率密度值,該方法簡單有效且具備較強魯棒性,但沒有考慮單一模態識別的局限性。針對上述問題,本文中提出一種基于DS 證據理論的多模態結果級融合框架,考慮不同模態的互補性,融合多種模態信息用于目標識別;考慮先驗知識的局限性,利用深度神經網絡的泛化能力與自學習能力,將神經網絡輸出的置信度作為概率密度函數,目標融合時通過D-S 證據理論組合多傳感器多分類的置信度,根據組合后的結果確定最終分類信息。通過實驗驗證,本文所提出的框架具備普適性、精確性與解決分類沖突的能力。
本文技術路線如圖1 所示,在多模態融合領域,考慮分類沖突問題,提出一種基于D-S 證據理論的決策級融合框架,下文簡稱決策級融合框架,并設計了3 組實驗,通過對比單一感知網絡、投票法融合與本文所提出的融合方法的識別精確性,驗證所提出方法的有效性。

圖1 技術路線
本文提出的多模態結果級融合框架由3 部分組成,分別是數據輸入、感知網絡和結果級融合,框架整體結構如圖2 所示。首先,從多傳感器中接收多源模態數據,將多模態數據輸入至感知神經網絡得到各自的檢測結果,將檢測結果的位置坐標信息轉化,使多傳感器檢測到的目標映射至同一坐標系下,在該坐標系下完成感知結果的關聯匹配,然后對關聯結果進行融合,若融合過程中產生分類沖突,則判斷沖突分類間的沖突因子是否大于高沖突閾值,若大于閾值,認為以上兩個證據屬于高沖突合成,則應用改進D-S 證據理論合成分類置信度,反之使用經典D-S證據理論合成,其中高沖突閾值為超參數,將在實驗部分進一步論證如何確定。對融合后的置信度分數進行排序,將最高分數對應的類別作為沖突分類的修正結果。最后基于均值法融合其他信息,包括邊界框、中心點位置等。

圖2 基于D-S證據理論的多模態結果級融合框架
深度神經網絡具有強大的自學習和非線性映射能力,且經過訓練后具有良好的泛化能力。相比于傳統目標識別的機器學習方法等,深度學習具備更高的識別準確率與檢測魯棒性。因此本文將深度神經網絡作為融合框架的基礎感知模塊。
目前主流深度神經網絡主要分為兩大類,分別是一階段網絡與二階段網絡。二階段網絡的核心思想是在第一階段劃分出感興趣區域,得到建議框,即完成前景點和背景點的區分,第二階段對建議框進行識別、精修等處理。常見的二階段網絡有RCNN系列的Faster-RCNN[24]、PV-RCNN[25]等;一階段網絡會把整個生成邊界框的過程一體化實現,比如YOLO 系列[26-28]的網絡通過將前景背景作為類別之一,取代了二階段網絡獲取建議框的步驟,而CenterNet[29]系列的網絡是基于anchor-free 的一階段網絡,通過預測中心點及回歸偏移量計算出邊界框,相較傳統方式省去了對邊界框的復雜操作。
結果級融合包含坐標轉化、目標匹配與D-S 融合,其中坐標轉換旨在將多傳感器數據映射至同一坐標系下,目標匹配即在同一坐標系下完成多傳感器識別結果集合間的關聯,D-S 融合即將感知網絡輸出的目標置信度作為概率密度分配值,通過證據組合,將匹配的結果信息進行融合。
Driss等[23]基于D-S 證據理論融合了5種相機卷積神經網絡用于X-ray 圖像識別,將神經網絡的置信度作為D-S 證據理論的概率密度值,識別準確率得到較大提升。借鑒Driss 等提出的思想,本文利用多種模態的互補性與一致性,融合多模態信息用于目標識別,同時將神經網絡預測的類別置信度得分歸一化后作為D-S 理論的基本概率分配值,通過證據組合,得到融合多模態后的類別置信度得分,根據置信度得分最大值,確定融合后的最終分類結果。
1.2.1 坐標轉換
將笛卡爾坐標系下的三維檢測點坐標經過外參矩陣Kext投影至相機坐標系下,再經過相機內參矩陣Kint投影至像素坐標系下,得到圖像上的像素點位置(u,v),從而完成三維檢測結果與二維檢測結果的空間配準對齊。
1.2.2 目標匹配
感知神經網絡模塊對于目標檢測的結果中包含目標的坐標信息即邊界框和中心點,然而由于感知設備的不同和聯合標定的精度限制,中心位置往往無法完全匹配,并且由于目標可能在某一坐標方向上位置相同。這都會產生模態數據中某一目標可能對應另一模態數據中多個目標的問題。
每一時刻的兩種感知結果是天然的二分圖數據結構,因此決策級融合可以應用二分圖匹配算法將兩種模態識別目標進行關聯匹配。KM 算法是最優匹配算法,即保證二分圖內的匹配目標的邊權值最大。基于多模態融合場景,本文以待匹配目標間的邊界框交并比作為二分圖的邊權值,算法流程如表1所示。

表1 KM 算法流程
1.2.3 D-S融合
在復雜交通環境下由于天氣、光照等外部因素干擾,多種模態識別的分類結果可能出現不一致,融合時便會不可避免地出現分類沖突問題。
D-S 證據理論首先定義一個由所有假設結果組成的窮舉集合及假設空間,其中所有假設都是兩兩互斥的。即設集合Ω 包含n個元素,Ω 可以表示如下:
Ω 的子集A 稱為命題,Ω 的冪集2Ω是由Ω 的所有子集組成,包含2N個元素,冪集可以表示為
再定義函數m:2Ω→[0,1]即基本概率分配函數的映射,且他滿足下列兩個條件:
式中m(A)的數值表示結果A成立的確信程度。且如下是信任函數和似然函數:
根據上述公式就能得到融合多模態的多種分類置信度的公式:
式中k值為沖突因子,反映了證據沖突的程度,其計算方法如下:
當出現分類沖突時,如圖3 所示,基于D-S 證據理論融合沖突分類對應的置信度分布,得到修正后置信度分布,并對其排序,取置信度分數最大值對應的類別作為分類沖突修正結果。

圖3 分類沖突修正過程
然而,經典D-S證據理論存在一定局限性,在高沖突證據源合成時,會產生Zadeh 悖論。因此,本文在修正分類沖突前,首先計算沖突因子,判斷其是否大于設定閾值,即是否出現高沖突證據合成現象,若證據間存在高沖突則使用Murphy[30]所提出的改進的D-S 證據理論方法融合分類置信度,即對初始證據集進行算數平均,再利用D-S 證據理論對n條證據迭代組合n-1次作為最終合成結果。
為評估本文提出的融合框架的普適性、識別準確性和解決分類沖突的能力,本文設計了3 組對比實驗:單一感知網絡實驗、基于投票法融合策略實驗和本文融合方法實驗。通過隨機選擇6 個經典單一感知網絡,用于驗證框架的普適性,將框架融合結果同單一感知網絡與投票法融合結果進行對比,驗證框架的識別準確性與解決分類沖突的能力。
本文使用KITTI 數據集評估了所提出的融合框架。KITTI 數據集是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。數據采集車配備2個彩色相機和一個64線激光雷達。本文所采用測試服務器配置為NVIDIA GeForce GTX 3090 GPU。
KITTI目標檢測數據集包含7 481幀訓練數據和7 518幀測試數據,每一幀包含一個同步的彩色圖像與激光點云數據。文中以行人、機動車、非機動車3種分類作為檢測目標,其中訓練數據集為7 481 幀,測試數據集為隨機選取的3 769幀。
為了驗證框架的通用性與普適性,本文隨機挑選了相機與激光雷達模態對應的7 種常用神經網絡,其中包括了一階段網絡與二階段網絡。并且本文使用AP(average precision)、mAP(mean average precision)和IOU 作為指標評測目標檢測性能,當檢測目標與真值目標交并比超過0.5 時,認為該目標被正確識別。7 種深度神經網絡的檢測結果如表2 所示。

表2 單一感知網絡檢測結果
通過調整感知神經網絡輸出,使其在輸出結果時攜帶對目標分類預測的置信度,在多種模態的檢測目標融合時,若出現分類沖突則通過D-S 理論融合多傳感器預測的分類置信度,得到融合后的重新分配的類別置信度得分,選取得分最高的分類作為融合結果的類別。
當交通參與者被遮擋或因距離過遠而變成難以檢測的小目標時,基于視覺的檢測結果會不可避免地出現誤分類、錯檢漏檢等情況。針對該問題,通過本文融合方法融合激光雷達檢測結果,得益于融合框架的融合不完善信息能力,如圖4 所示,融合結果在分類沖突場景下可以有效識別出正確分類。同時,表3 列舉了在分類沖突場景下本文融合方法重分配分類信息的計算結果,進一步論證了本文融合方法融合多模態互補性解決分類沖突的能力。

表3 分類沖突場景下本文融合方法的置信度重分配

圖4 多模態融合前后的分類沖突表現
然而,當沖突因子大于設定閾值,即證據源間存在高沖突時,經典D-S 證據理論會產生有悖常理的合成結果。針對該問題,本文在證據源存在高沖突時使用Murphy 所提出的方法改進D-S 證據理論。如圖5 所示,在高沖突場景,改進的D-S 證據理論有效地解決了經典D-S證據理論合成錯誤的問題。表4列舉了高沖突場景下經典D-S證據理論與改進DS 證據理論的計算結果,進一步論證了改進D-S 證據理論的有效性。

表4 證據源高沖突場景下本文融合方法的置信度重分配

圖5 證據高沖突場景下改進D-S融合前后的分類沖突表現
同時,為衡量高沖突因子選取對融合結果的影響,本文以FasterRCNN 融合Second 網絡為例,分析了不同高沖突閾值對融合結果均值平均精度(mean average precision,mAP)的影響。如圖6 所示,閾值在0.95時融合結果mAP值達到最高,因此本文高沖突閾值設為0.95。

圖6 不同高沖突閾值與融合結果mAP表現
為驗證本文融合方法的解決分類沖突能力,本節實驗了投票法融合策略用于對比本文融合方法效果。投票法融合策略即將神經網絡的置信度輸出作為該網絡對每種檢測目標類別的票數,取所有票數中數值最大的數據作為融合后的目標分類結果。
通過實驗數據(表5)和實驗結果柱狀圖(圖7)驗證了本文所提出的融合框架以任意神經網絡作為基礎感知網絡均能提高識別準確性,本文融合方法識別結果相比于單一感知網絡mAP值普遍提升8%左右,其中YOLOv3 與PointPillar 的組合相較于PointPillar單網絡感知結果提升32%;相比于投票法融合,mAP值普遍提升1%左右。

表5 融合實驗結果數據對比

圖7 融合實驗結果對比
本文提出的基于D-S證據理論的多模態結果級融合框架能夠有效地利用多模態間的互補性與一致性,使得融合結果精確度相較單一感知網絡有較大提升,且通過實驗驗證了該框架具備普適性,不依賴基模型間的效果,即使模型間精度差距過大,融合結果也均能有進一步提升。實驗測試的結果表明,框架輸出的融合結果較單一感知網絡mAP 值均能提高8%左右,其中Yolov3 與Pointpillar 的融合結果相較于Pointpillar 單一感知結果mAP值提高32%,同時,通過D-S 證據理論組合多模態神經網絡分類置信度,有效減少了分類沖突情況,具有較好的應用前景。
由于文中所使用的數據集惡劣天氣場景較少,因此實驗測試結果中基于D-S證據理論的分類沖突修正相較投票法提升不多,但均能有所提升,可以證明本文所提出的基于D-S證據理論的多模態結果級融合框架相較于投票法具有一定的優勢。后續研究可以采集惡劣天氣下的交通場景數據,進一步論證本文所提出的框架的修正分類沖突能力。
同時,在證據源高沖突場景下,基于Murphy 所提出的方法改進D-S證據理論可以有效降低證據間的沖突現象,但是該方法僅通過取均值方法對證據源修正,沒有考慮到不同模態在不同場景下對融合結果的影響程度。因此如何在復雜交通場景下,在Murphy 方法基礎上為證據源賦予根據感知環境自適應調整的權重信息是本文下一個研究方向。