祖國強 何俏君 張志德 徐偉
(1.廣東省智能網聯汽車創新中心有限公司,廣州 511400;2.廣州汽車集團股份有限公司汽車工程研究院,廣州 511400)
主題詞:多源數據融合 感知 卡爾曼 深度學習
DS Dempster Shafer
ROI Region of Interest
RoarNet Region Approximation Refinement Network
AVOD Aggregate View Object Detection
MV3D Multi-View 3D Object Detection
MCU Microcontroller Unit
SoC System on a Chip
隨著汽車保有量的持續增加,交通事故日益高發,這給人們出行甚至城市發展都帶來了嚴峻的挑戰,而以無人駕駛為核心的新型智能交通系統在一定程度上改善了交通運輸的效率,提高了行車的安全性。通常,依據無人駕駛系統的功能定義,可將無人駕駛系統分為4大主要功能模塊:感知融合、融合定位、路徑規劃和決策控制。其中,感知融合模塊以攝像頭、激光雷達、毫米波雷達傳感器的原始數據為輸入,并根據各傳感器的感知特性對信息進行融合,以獲得更準確的自車位姿信息、狀態信息以及道路、障礙物、行駛區域周邊環境信息。感知融合模塊是無人駕駛系統中其它模塊的源頭,整個無人駕駛系統的性能很大程度上有感知融合模塊的性能決定。在感知融合模塊,常用的傳感器有攝像頭、毫米波雷達、激光雷達。不同的傳感器有不同的優缺點及特定用途,通過對目前國內外感知領域研究現狀調查發現以下結論。
攝像頭在無人駕駛系統中是必不可少的。其優點主要有2方面:(1)攝像頭成本低,且是最接近于人類感知環境的傳感器;(2)攝像頭輸出具有豐富的語義信息,同時基于深度學習的目標檢測算法已趨于成熟,可以最大程度的挖掘其中信息,獲取盡可能準確的感知信息,比如物體的類別、交通牌信息、車道線信息等。但是攝像頭還存在一些缺點:實時性差、易受環境(光線、天氣)影響、不能準確地檢測前車速度和車距,以獲得精確的環境細節信息、縱向方向上的分辨率較低。
毫米波雷達是無人駕駛系統中最成熟的傳感器,其優勢在于環境適應性強,可直接獲取目標準確的速度、距離、角度信息,可以彌補攝像頭的不足,但是雷達輸出的障礙物列表噪聲較大、漏檢率與誤檢率較高、同時存在無法給出跟蹤目標的類別信息、尺寸信息。
激光雷達與毫米波雷達不同,使用工作頻率更高的激光束,因此具有分辨率高、隱蔽性強的優點。然而,其工作時受天氣的影響較大,相較于在晴天的感知效果,激光雷達在雨、濃煙、濃霧的異常天氣里感知距離大幅縮短,對異常天氣的魯棒性較差。
對于單一類型的傳感器來說,某一采樣時刻只能獲取環境的1個片面數據,數據量少,其信息只能描述環境的局部特征。同時,單一類型的傳感器有自己的局限性,雖然可以通過改進系統硬件性能或優化算法,來提升單一傳感器的性能,但是仍不能滿足在復雜交通工況中的對感知性能的要求。而多源傳感器系統通過多類型、多視角傳感器獲得更多種類和數量的數據,因此能夠更加全面的描述環境,這是因為多源傳感器之間的互補數據不僅擴展了單源傳感器的性能(圖1)及空間上的觀測范圍,還提高了系統的感知維度與感知準確度,增強了環境適應能力與分辨能力,更重要的是增強了系統應對不同天氣情況、光照情況的魯棒性。

圖1 多源數據融合示意
多源數據融合的具體過程如下:
(1)多源傳感器獨立工作獲得觀測數據;
(2)對各傳感器數據進行預處理;
(3)對預處理之后的數據進行信息提取,獲取觀測對象的特征信息;
(4)在數據融合中心使用特定算法對觀測對象的多源信息進行融合,獲得對環境的一致性描述。
多源數據融合算法是感知融合領域的核心內容。通過對多源數據在數據級、特征級、目標級不同層次進行融合處理,可以獲得目標的高精度描述。目前主流的融合算法有加權平均法、貝葉斯方法、卡爾曼濾波原理、DS證據理論推理和深度學習,不同的算法有不同的適用環境及各自的優缺點。
加權平均法比較簡單、直觀,多個傳感器獨立探測的數據,乘上相應的權值,然后累加求和并取平均值,將其結果作為融合結果。該方法較容易實現,實時性好。但是,其權值的分配和取值有一定的主觀性,且方法過于簡單,融合效果不夠穩定,實用性較差。
貝葉斯方法基于先驗概率,并不斷結合新的數據信息得到新的概率,其公式如式(1)。


貝葉斯方法的主要局限性在于其工作基于先驗概率,而先驗概率往往需要通過大量的數據統計來實現。
卡爾曼濾波理論是1 種利用線性狀態方程,通過系統輸入的觀測數據,對系統狀態進行最優估計的算法,卡爾曼濾波法能合理并充分的處理多種差異很大的傳感器信息,并能適應復雜多樣的環境?;诳柭鼮V波的遞推特性,不僅可以對當前狀態進行狀態估計,而且可以對未來狀態進行預測,通過狀態估計、狀態預測的不斷迭代實現對被測狀態的最優估計??柭鼮V波算法常用的公式如下。

式中,是狀態矩陣,是狀態協方差矩陣,是卡爾曼增益矩陣,其中下標11為上一時刻數值,1為當前時刻數值;F是前后時刻的狀態轉移矩陣;Q是當前時刻的預測噪聲協方差;H是觀測矩陣到狀態的轉移矩陣;R是傳感器的噪聲協方差矩陣;z是傳感器測量向量。
DS證據理論是基于貝葉斯估計方法,Dempster首先通過構造1個不確定性推理模型,將命題的不確定性轉化為集合的不確定性,Shafer在此基礎上對其進行了完善。其最大特點是將“區間”轉化為“點”,用“點估計”的方法描述不確定信息,算法的靈活度高是該方法最大的特點。而DS證據理論的缺點主要有3點:(1)算法的時間復雜度與樣本量的平方成正比,這意味著運算量會隨樣本數量的增加而指數增長;(2)證據理論的判決規則常常有很大的主觀性;(3)證據理論在多源輸入存在沖突時效果不好,因此在無人駕駛多源數據融合系統構建時需要著重考慮如何解決證據沖突問題。
深度學習模型的底層原理是基于現代神經科學,由大量模擬人類神經的基本處理單元組成,因此又稱為深度學習網絡。在訓練階段,網絡的輸入參數是傳感器的原始數據,網絡輸出與人為標注的真值之間的誤差以方向梯度傳遞的方式更新網絡參數,通過大量數據、多次迭代訓練以優化網絡參數,進而消除非目標參量的干擾,完成相應的智能任務。模型具有較強的容錯能力與自適應能力,且能夠模擬復雜的非線性映射,例如深度學習中的卷積神經網絡可基于攝像頭圖形進行目標檢測,進而得到目標的運動、位姿特征信息。在無人駕駛過程中存在著大量不確定信息,比如多傳感器數據及其噪聲、行人車輛等目標的突發狀況,對這些不確定信息的融合過程等同于不確定性的推理過程。而深度學習網絡可以通過獲取的傳感器信息,迭代優化網絡權值,獲得不確定推理機制,因此無人駕駛感知融合領域常使用深度學習方法進行信息融合。
根據多源數據融合的輸入數據的抽象程度可將多源數據融合技術劃分為目標級融合(后融合)、特征級融合和數據級融合(前融合)3個層次(圖2)。

圖2 多源數據融合的3個層次
目標級融合先提取原始數據中的目標信息,并產生目標的跟蹤列表,然后融合模型將來自不同傳感器的跟蹤列表進行關聯匹配,最終得到完整的多源跟蹤列表。該方法只對目標信息進行融合,不受傳感器類別的限制,能夠保證實時性。其主要優勢在于模塊化,所有與傳感器相關的細節都在傳感器后處理模塊進行處理,而融合模塊只需抽象地處理數據。但是該方法在融合之前已進行特征提取,信息存在一定程度上的損失,因此其準確度最差。
目標級融合最常用的算法就是卡爾曼濾波算法,融合框架一般有2種形式。
(1)該框架在收到任意一個傳感器信號的時候就進行1次更新,該方法對不同傳感器等同看待,對不同傳感器數據用同樣的方法進行處理,不同傳感器之間的區分僅在于初始化參數以及噪聲矩陣,這會導致誤差延續的問題,比如視覺傳感器的錯誤估計會向下傳遞影響后續的處理結果(圖3)。

圖3 貫序更新卡爾曼濾波融合框架
(2)另一種框架為同步更新(圖4),主要有2個特點:(1)允許時延,等待多傳感器數據,進行同步;(2)根據不同傳感器的特性,融合不同傳感器精度更高的數據(毫米波雷達的速度信息或視覺結果的分類信息),相當于進行濾波處理。

圖4 同步更新卡爾曼濾波融合框架
特征級融合接收的是原始數據提取后的特征信息,根據目標已有特征對融合特征進行匹配,獲得目標的信息。信息丟失相對于目標級融合有所減少,其準確性有所提升。在特征提取方面主要基于深度學習,主流的方法有RoarNet、AVOD、MV3D、FPointNet。陳毅等首先將點云數據前向投影形成二維深度圖,并將深度圖的分辨率提高至與圖像分辨率一致,然后使用深度學習目標檢測算法分別對相機圖像和深度圖進行目標檢測,最后根據改進的DS 證據理論對檢測結果進行特征級融合。
數據級融合接對多源原始數據進行融合,然后從融合后的數據中進行特征提取,因此該方法又稱像素級融合(前融合),數據級融合充分利用了多源傳感器的原始數據,不存在信息丟失的問題,理論上可以獲得對目標最準確的描述,但是正因為該融合模型接收的是原始數據,所以對系統通信帶寬的要求很高。
表1 為上述3 種融合層次的優缺點,數據融合的層次越高,用于融合的信息抽象性越強,模塊化越好;融合層次越低,融合的信息越全面,但數據量大,對各信息間的配準性(時間同步、空間同步)要求高。融合層次的選擇主要在于融合精度和融合速度的取舍。廖岳鵬分別建立3 種層次數據融合算法,通過對比發現對多傳感器進行數據上的融合能夠更加有效地提升融合模型性能。

表1 3種融合層次的性能比較
在無人駕駛感知領域,融合系統可根據模型的數據處理結構分為3類:分布式、集中式和混合式。從融合信息的損失程度來看,分布式結構的損失最高;而在融合處理的復雜度方面,混合式結構最復雜。無論是哪種融合數據處理結構,都提升了傳感器的環境感知能力。
分布式融合的本質是基于分布式結構的融合算法,主要利用了假設生成和假設驗證的思想。分布式融合結構中的處理單元分布在各獨立節點,在對傳感器的原始數據進行初步處理之后再送入統一的信息融合中心,通過對融合數據進行多維優化、組合、推理,以獲取最終結果。
分布式融合結構的一般做法是將其中1個傳感器檢測的目標生成可供其它傳感器識別的感興趣區域(ROI)。然后,用另一個傳感器來驗證ROI 內是否包含目標。在包含毫米波雷達和攝像頭的融合系統中,毫米波雷達掃描速度快,適用于對目標的狀態進行初步估計,基于毫米波雷達生成的目標列表可供其它傳感器驗證ROI。該結構不僅可以通過雷達目標信息使感興趣區域縮小了目標檢測范圍、縮短視覺處理時間。同時,基于計算機視覺的目標識別算法可以對雷達檢測的目標進行雜波剔除,從而減小雷達的誤報,提高目標識別精度。但是,該方案僅對目標存在的概率進行融合,對信息存在一定程度的浪費。
集中式融合的核心思想是不確定推理,首先對每個傳感器設置各自的置信度,然后匯總多源信息,最后基于一定的融合規則輸出融合結果。在集中式融合結構中,多源傳感器的原始數據不進行任何處理直接送入信息融合中心。該結構充分利用多源信息具有較高的融合精度,同時可以將融合步驟模塊化。
陳云坤等通過對毫米波雷達與雙目視覺的誤差分配不同的權重,通過加權平均計算出最后的融合結果。Sang等為提高多目標識別的精度,將圖像數據和點云數據作為卷積神經網絡的輸入,使用DS證據理論算法對目標的候選框進行融合。胡遠志等首先在圖像上采用深度學習框架識別車輛目標,然后將點云投影至圖像,將目標與點云進行關聯,從而確定目標的深度信息,并利用點云信息提高目標的置信概率,提高識別精度。
混合式同時具有分布式和集中式2 種結構,兼顧2 者的優點,能夠根據不同需要靈活且合理地完成信息處理工作。算法的可靠性與融合的精度雖然有所提升,但隨著傳感器數量的增多,信息的冗余程度與系統的復雜程度也會隨之增加。
Chavez-Garcia 等使用混合式融合結構對毫米波雷達、攝像頭、激光雷達3 種傳感器的信息進行融合,首先以激光雷達檢測的目標生成感興趣區域,然后對毫米波雷達和攝像頭數據中的感興趣區域進行目標檢測,最后用DS 證據理論算法對感興趣區域檢測的目標信息進行融合。
隨著自動駕駛的逐漸落地,為逐步提升自動駕駛的自動化程度,主要的途徑就是增加感知傳感器的數量與種類,從而獲得車輛對環境更加準確的信息。而不同數據源對環境的描述有其自身的空間坐標系與時間坐標系,隨著數據源的增加,為了滿足自動駕駛在多種復雜環境下的正常使用,如何將多源數據融合在同一個時間系統和同一個空間系統,實現真正意義上的同步是多源數據融合的關鍵問題。
空間同步是對多傳感器的自身坐標系進行聯合標定,建立坐標轉換關系,從而保證不同傳感器在同一坐標系下對同一目標進行識別。陳云坤等在空間維度上介紹了毫米波雷達與攝像頭相對位置關系,然后在此基礎上介紹了理想條件、非理想條件下坐標系之間的轉換關系以及攝像頭的畸變矯正方法。
時間同步是指1個系統的各個模塊都要同步到系統的主時鐘源,整個系統的運行基于同1個時間基點。在自動駕駛環境感知系統中,正確運行的1個重要問題就是要保證獲取的數據精確、時間同步,算法的基準是所有的數據都是在同一時間點獲取,否則應用功能無法保證做出正確的預判,可能造成自動駕駛的嚴重事故。
文獻[12]采用基于時間戳的同步方式,在接收點云信息和圖像信息時會附加系統當前時刻的時間戳,緩存攝像頭采集的圖像信息,當獲取激光雷達的點云信息之后,根據點云信息的時間戳從緩存中找最鄰近的圖像信息,然后將點云信息和圖像信息同時送入處理函數進行信息融合,完成2種傳感器信息的時間同步。文獻[37]在分析自動駕駛域控制器復雜架構的基礎上,結合應用算法對獲取數據時間同步的要求,以包含1 個MCU 和2 個SoC 的域控制器為研究對象,詳細介紹了域控制器和外部主時鐘源控制器的時間同步方法、域控制器片內異構的時間同步方法、域控制器和外部傳感器控制器的時間同步方法,保證整個域控系統的運行基于同1個時間基點。
考慮到無人駕駛在復雜交通工況中對感知性能的高要求,以及深度學習的快速發展,相信基于深度學習的集中式、數據級、端到端融合框架將成為后續的主流方式。該融合框架可以最大程度的保留原始數據的信息,最大可能的提升感知的性能。但是,該框架要想達到理想的性能也在兩方面存在挑戰。其一是不同傳感器數據類型不同,難以做到數據空間內的理想化同步;其二是不同品牌的傳感器產生的數據特性不盡相同,難以獲得深度學習訓練所需的大量數據集,導致框架的魯棒性較差。