摘 要:自動駕駛車輛廣泛依賴感知系統來進行城市導航和環境理解,然而現有研究大多局限于良好的城市駕駛環境,在惡劣天氣以及外部干擾下導致的傳感器故障和感知失靈等嚴重影響現有自動駕駛系統的實際落地。為此提出了一種基于神經先驗的自動駕駛信息重建算法,通過對大范圍自動駕駛場景的隱式建模密集地存儲場景幾何先驗,并基于注意力機制結合隱式神經先驗進行自動駕駛感知信息的魯棒重建,最終提出一個通用的自動駕駛導航魯棒性增強框架。在CARLA自動駕駛模擬器仿真實驗中,該算法顯著提升了多個現有自動駕駛模型在外部干擾下的導航性能,使自動駕駛模型在攻擊和干擾下的性能衰減率從82.74%下降到了8.84%,證明了所提方法的通用性和有效性。
關鍵詞:自動駕駛;魯棒性;神經輻射場
中圖分類號:TP183"" 文獻標志碼:A
文章編號:1001-3695(2025)01-016-0111-06
doi: 10.19734/j.issn.1001-3695.2024.06.0185
Neural prior based reconstruction for robust autonomous navigation against various disturbances
Abstract:Autonomous vehicles heavily rely on perception systems for urban navigation and environmental understanding. Despite extensive researches about driving in favorable urban conditions, sensor failures and perception impairments under adverse weather and external interferences significantly impact the practical deployment of current autonomous driving systems. This paper proposed a neural prior-based autonomous driving information reconstruction algorithm for robust end-to-end navigation. This algorithm densely stored scene geometry priors through implicit representation of driving scenarios and designed a reconstruction algorithm for perception based on the attention mechanism. In addition, it proposed a general framework to enhance the robustness of self-driving performance. Extensive experiments in the CARLA simulator demonstrate the generality and effectiveness of the proposed method, and the performance degradation rate of current self-driving models under external disturbances is reduced from 82.74% to 8.84%, which largely improves the driving performance of multiple existing self-driving models under external interferences.
Key words:autonomous driving; robustness; neural radiance field
0 引言
自動駕駛是指通過車輛內部的計算機系統和傳感器,以及先進的控制系統,使汽車能夠在無須人類駕駛員操控的情況下,實現自主地感知、分析環境、作出決策,并執行相應操作的技術。通常可以分為模塊化方法以及端到端方法兩類[1]。模塊化方法將自動駕駛功能拆解為傳感器、感知、決策和控制等多個相對獨立的模塊;而端到端方法更類似于人類駕駛過程,直接利用感知信息進行導航決策,避免了模塊化導致的無效冗余[2]。然而,要將自動駕駛技術成功地應用到現實世界的駕駛場景仍然面臨著許多挑戰,駕駛環境中揚沙揚塵、雨雪霧等多變天氣和不同路況要求自動駕駛系統在傳感器故障、失靈等各種攻擊和干擾下穩定運行。針對自動駕駛過程中的魯棒性挑戰,一種顯而易見的做法是通過在深度學習訓練數據集中引入模擬惡劣天氣數據或直接在異常天氣下采集數據來訓練模型[3],然而這種數據增強方法產生的數據缺乏真實性,且在實際惡劣天氣等場景下的真實數據難以采集。更具有普適性的做法則是類似文獻[4,5]等利用相機、激光雷達以及毫米波雷達等多模態傳感器的不同特性,通過Transformer或注意力機制等進行多模態融合,從而基于冗余信息提升自動駕駛系統對應環境的適應能力。這類方法具有較好的泛化性,但是將面臨高昂的多模態傳感器價格以及異構傳感器間的模態不平衡問題。此外,還有部分研究利用計算機視覺中諸如擴散模型或者對抗網絡等方式先對輸入到自動駕駛導航模型中的圖像等數據進行重建[6,7],以提升在感知受到干擾時車輛的導航性能,但是這種方法難以處理多視角多類型的干擾。實際上,人類駕駛者在遇到困難的駕駛環境時往往能依據自己的駕駛經驗進行應對,特別是在較為熟悉的地區或城市中進行駕駛時,人們能憑借對城市環境的記憶提升駕駛表現。基于這種思想,文獻[8]利用高精度地圖作為場景先驗以提升駕駛性能表現,地圖中的拓撲信息能顯著提高模型在一般場景下的最終性能,但由于缺乏場景幾何先驗,難以應對更復雜的駕駛場景。
近年來,神經輻射場(neural radiance field, NeRF)技術因其強大的照片級圖像渲染以及隱式表征能力在自動駕駛領域受到了廣泛關注[9]。利用神經輻射場對自動駕駛場景紋理以及幾何等信息的緊湊隱式表達,可以在不大幅增加環境信息存儲壓力的前提下,有效改善高精度地圖中場景幾何信息不足的難題,進一步加強自動駕駛系統對歷史經驗以及城市環境的記憶能力。然而,自動駕駛場景具有變化光照、存在動態物體以及無邊界場景特性,傳統的NeRF無法滿足室外場景的需求。針對戶外光照變化的問題,Martin-Brualla等人[10]提出的NeRF-W為神經輻射場引入額外的光照編碼以學習場景亮點光照。文獻[11]則是在其基礎上進行大場景分塊來對城市級別的大范圍場景進行建模。這些方法都需要人工在整個場景的大規模數據采集基礎上進行手動分塊,大大提高了人工成本,并且預先確定的環境邊界導致這些方法的拓展性較弱。針對自動駕駛過程中存在的感知失靈以及環境干擾等問題,現有工作不能很好地學習和利用駕駛場景中豐富的幾何與紋理等的環境先驗信息,難以在外部干擾的情況下具有穩定的駕駛表現。本文充分利用NeRF的隱式場景表征優勢,利用通過先前收集的歷史遍歷數據自動生成靜態先驗,無須手動注釋工作,最終利用無監督且幾何豐富的先驗顯著提升自動駕駛模型在干擾和攻擊下的性能表現。具體地,本文貢獻如下:
a)提出自適應的神經輻射場構建方法,實現對自動駕駛場景的靜態先驗提取;
b)設計基于神經先驗的自動駕駛感知信息重建框架,能夠在線地重建異常感知信息;
c)通過仿真實驗驗證本文算法的信息重建效果,實驗結果表明,本文方法可以提升自動駕駛導航的魯棒性。
1 大范圍自動駕駛神經輻射場構建
1.1 神經輻射場
NeRF的核心思想是通過一個多層感知機(multi layer perception network, MLP)網絡來建立包含相機位姿的5D信息與場景中顏色c以及空間體積密度σ的可微映射關系,這個過程對應的公式如下:
c,σ=Φr(x(x,y,z),d(θ,φ))(1)
其中:x(x,y,z)為空間中點的坐標;d(θ,φ)代表視線方向。通過從相機中心o向圖像中像素點沿d方向發射一條射線r(t)=o+td(t為點到相機的距離),可以在NeRF中沿光線采樣一系列點,并利用如下的經典體積渲染方法[11]來獲得該像素點的預估顏色C(r):
其中:δi為第i個采樣點與第i+1個采樣點間的距離;N代表采樣點個數。一般地,可以通過在物體表面附近進行密集采樣的方式提升渲染精度[12],最終,整個神經輻射場在訓練的過程中最小化預估顏色與真實顏色間的差距,進行梯度回傳:
從而實現對場景的照片級渲染。
1.2 大范圍自動駕駛場景先驗構建
受限于單MLP容量以及體渲染過程本身的密集采樣方式,傳統的NeRF場景重建方法無法處理室外無邊界場景以及變化的環境光照條件,難以直接應用于大范圍的自動駕駛場景中。同時,現有的大范圍自動駕駛場景神經輻射場構建方法需要預先對整個自動駕駛場景進行手動分割處理,不能自動根據采集的數據進行劃分。針對實際自動駕駛室外環境中的這些問題,本文設計了自動分塊的大范圍場景先驗構建方法以應對大范圍自動駕駛場景,引入圖像光照編碼來平衡不同時刻、不同視角的光照差異。受Tancik等人[11]提出的分塊輻射場以及Meuleman等人[13]的漸進式優化輻射場的啟發,本文在此基礎上提出自適應的分塊神經輻射場構筑方法,針對自動駕駛場景的實際需求,利用數據軌跡構建自適應的分塊神經輻射場。
1.2.1 自適應的神經輻射場構建
給定自動駕駛場景采集的視頻數據集、對應的相機位姿P以及采集車輛的自車軌跡信息Tego,如圖1所示。首先根據自車軌跡和相機位姿對整個場景自動劃分為M個神經輻射場,記為{Fi},在車輛當前位置超出閾值或相機位姿超出前一個輻射場的bounding box時添加新輻射場。首先選取前q幀的相機位姿{P1:q}以及車輛軌跡{Tego1:q},計算能容納對應軌跡的最小bounding box大小,并利用{P1:q}訓練該子輻射場F0。隨后逐幀處理新相機位姿及圖像幀,并判斷當前位姿Pi及軌跡Tegoi是否在當前輻射場中,若當前幀的位置超出了現有子輻射場Fj的邊界,則增加新的子輻射場Fj+1,并利用之前幀對輻射場Fj進行訓練。重復上述步驟直到最終所有的相機位姿以及車輛軌跡被所有子輻射場bounding box的并集覆蓋。其對應偽代碼如下。
算法1 自適應自動駕駛神經輻射場構建方法
對于每個子輻射場Fi,在Instance-NGP的基礎上[14]構建天空遠景與近景分離的靜態場景表示,以提升每段場景的渲染精細度。該方法通過多分辨率的哈希網格Euclid Math OneHAp和對應的輕量級MLP g對隱式空間特征進行編碼,其核心思路為將式(1)中的輸入坐標x映射到可訓練的多維特征向量中。為了解決戶外環境光照條件變化的難題,本文進一步對每幀輸入引入了光照編碼la以及方向編碼如下:
(c,σ)=Fi(Euclid Math OneHAp(x),γ(d),la)(5)
其中:γ(d)表示對方向d通過式(6)進行位置編碼,通過不同頻率的正弦函數幫助模型捕獲方向間的高維位置關系。
此外,由于室外場景中天空背景難以定義其深度,本文采用獨立的預測網絡通過編碼后的視圖方向γ(d),得到全局天空背景顏色csky,使其獨立于子輻射場集合之外,從而進一步平衡不同Fi間的背景光照,避免亮度差異過大導致的渲染失真問題。具體地,類似于Mip-NeRF 360對無邊界場景進行逆球體投影的方法[15],本文針對自動駕駛場景采用逆立方體投影,通過自動設定的bounding box對外界點進行逆投影處理,設一界外點坐標為x(x,y,z),首先計算點與原點O的距離r=x∞,則其經過投影公式后的坐標如下:
其中:x′=x/r,y′=y/r,z′=z/r。其具體網絡結構如圖2所示,對于每個子輻射場Fi,其輸入由經過哈希編碼的3D坐標、位置編碼以及光照編碼組成。
1.2.2 自動駕駛車輛位姿獲取與場景渲染
與上文提到的傳統神經渲染方式相比,本文提出的分層輻射場還需要考慮多個子輻射場以及天空場的相互關系,同時需要解決車輛行駛過程中的位姿獲取問題。具體地,對自動駕駛車輛上的相機傳感器而言,想要得到當前位置的圖片渲染結果,首先要獲取當前的準確位姿pt=(xt,dt)。本文通過車輛位置twv=(xv,yv,zv)以及對應的當前旋轉矩陣Rwv來得到相應坐標,并進一步得到車輛坐標系到世界坐標系的變換矩陣Twv和相機坐標系到車輛坐標系的變換矩陣Tvc,如下式所示。
其中:Rvc和tvc分別代表相機在車輛安裝位置的旋轉矩陣以及相對于車輛的平移向量。最終便可以通過兩者乘積得到當前的相機位姿矩陣Twc=Twv·Tvc,該矩陣展開表示為
從而得到相對應的位姿pt=(xt,dt)。從輻射場Fi中獲取對應5D位姿的顏色c以及透過率σ后,在對應射線r(t)路徑中采樣K個樣本點,引入天空背景顏色csky后,為了便于描述,這里將式(2)進一步改寫如下:
其中:μi=1-exp(-σiδi);δi為第i個采樣點與第i+1個采樣點間的距離。
2 基于神經先驗的信息重建
實現自動駕駛魯棒性的一種想法便是通過重建異常信息來提升自動駕駛導航的魯棒性,由第1章得到自動駕駛場景的神經先驗后,本章提出了一種基于神經先驗和注意力機制的自動駕駛感知信息重建方法。該方法以可能受到干擾的多視角圖像數據作為輸入,目標為生成對應的恢復數據,主要的流程包括從自動駕駛場景的神經先驗中提取場景先驗信息,通過構建變分自編碼器(variational auto encoder,VAE)提取當前觀測的空間特征,并通過注意力機制將場景先驗與當前觀測進行深度融合,最后通過預訓練的VAE解碼器得到恢復后的圖像。本過程的完整流程如圖3所示。
2.1 先驗信息提取
利用自動駕駛場景采集的數據對第1章中提出的大范圍場景NeRF進行訓練后,參數迭代完成的神經輻射場集合{Fi}以及對應的哈希網格集合{Euclid Math OneHApi}中封裝了豐富的非結構化場景信息。然而,NeRF中固有的稠密非結構化信息難以直接用于在線感知模型,因此本節利用光線步進算法(ray matching)識別并存儲體素化hash網格中的占用信息和特征信息。與原始NeRF訓練中數據處理過程類似,首先從相機中心向圖像發射多條射線,在每條射線上步進地采樣N個點{xi},將定位累積透射率和不透明度超過閾值的第一個點作為體素的關鍵點如式(11)所示。
其中:Ti、μi分別為式(3)(9)定義的參數。聚合得到所有視圖的關鍵點xu以及其在hash網格中對應的特征Euclid Math OneHAp(xu)后,通過均值化每個體素網格中的關鍵點來進行基于體素的下采樣,最終得到結構化的體素網格用于后續的先驗特征提取。
2.2 多視角圖像特征提取
對于自動駕駛過程中的車輛感知數據,本文選取了左前-前-右前三個通用視角的車載相機圖像集合作為感知輸入,為了后續討論方便,記為{ofli},{ofi},{ofri},其中i代表整個駕駛過程中某個幀的時間戳。本文使用卷積神經網絡(convolutio-nal neural network, CNN)預訓練多視圖VAE模型,從輸入的干凈圖像中提取緊湊的隱空間特征,學習和生成與輸入數據相似的新數據點[15]。作為一種生成模型,VAE結合了自編碼器(autoencoder)和變分推斷(variational inference),在深度學習和概率圖模型領域中得到了廣泛的應用,關鍵思想是學習輸入數據的低維潛在編碼,學習到的模型將用于初始化后續特征重建模塊中的編碼。其核心結構如圖4所示。其中,自編碼器是一種無監督學習模型,由編碼器和解碼器兩部分組成,目標是學習數據的緊湊表示,前者將輸入數據映射到低維隱空間,從而得到服從多維高斯分布的均值編碼m以及方差編碼σ,并為標準分布生成的噪聲編碼分配權重,構建變量的近似分布以模擬概率模型,通過變分推斷得到未觀測變量特征,記為ffl:f:fri,最終形成低維空間中的隱編碼并通過解碼器恢復為近似圖像。對于多視角圖像,本文將每張圖像都通過CNN卷積后生成不同的隱編碼,第t幀多個視角觀測的高維特征分別記為ffli、ffi、ffri,分別參與變分推斷過程。
2.3 基于注意力的特征融合
得到連續時刻的隱空間觀測特征ffl:f:frt以及對應位置的場景神經先驗特征fpt后,本文提出了基于注意力機制的特征融合模塊用于進一步聚合先驗和當前觀測信息,從而得到重建后的融合特征。在Vaswani等人[16]提出Transformer后,因其允許模型動態調整對于不同輸入的權重,注意力機制在深度學習領域得到了更廣泛的關注。本文在該方法的基礎上進一步改進,使其能夠隱式地分辨出異常數據,并在特征融合過程中動態地降低對于異常數據的注意力。如圖5所示,將2.1和2.2節中獲得的維度相同的觀測特征fvi與先驗特征fpi一同輸入到特征融合模塊中,通過N層自注意力層(self-attention layer,SAL)進行深度融合,并最終通過MLP網絡生成聚合后的重建特征freci。通常來說,注意力機制可以被描述為查詢query與一組鍵值對(key,value)以及輸出之間的映射。設輸入特征序列為Fin,通過一系列權重矩陣的線性變換即可獲得當前輸入的query、key和value,簡記為K、Q、V,即
K=FinMK,Q=FinMQ,V=FinMV(12)
其中:MK、MQ、MV為對應的權重矩陣。在這個過程中,它們與輸出間的關系可由式(13)表示。
其中:dk為鍵K的維度;Q的維度也為dk。隨后通過一個非線性變換得到最終的輸出結果如下:
Fout=MLP(Attention)+Fin(14)
在基于注意力的特征融合模型訓練過程中,查詢Q和鍵K可以隱式地區分異常信息,并對異常數據給予更低的注意力權重,從而在特征融合過程中保留更多的先驗信息。與傳統的語言處理任務不同,本文直接在特征層對先驗特征fpt以及當前觀測特征fvt,這些特征同時輸入到SAL層中,利用先驗知識彌補當前觀測中的受損信息,并利用注意力機制對當前觀測中的靜態信息進行補全,如此反復迭代N次后,可以使網絡充分學習到所需信息,最終得到相同維度的輸出,記為fout_vt和fout_pt。在最終融合兩部分信息之前,為了防止未處理前的重要信息在多層注意力層傳遞過程中被損耗,本文額外將原始特征與最終結果進行拼接,最后一起輸入到MLP中進行融合,對應公式如下:
最終,得到重建特征后的frec,通過2.2節中的VAE 解碼器將特征向量恢復為對應的RGB圖像,得到恢復后的感知圖像oreci。
3 基于信息重建的端到端導航魯棒性增強算法
在第2章提出的信息重建算法的基礎上,本章進一步提出了基于該算法的導航魯棒性增強框架,可直接用于現有基于視覺的自動駕駛導航模型中以提升其在干擾和攻擊下的導航魯棒性。具體地,對于一個基于視覺的端到端自動駕駛導航模型Mnav,其連續的感知輸入為{oi},則t時刻對應導航指令的推理過程如下式所示。
ct=Mnav(ot)(16)
為了提升導航模型Mnav的魯棒性,本文利用第2章提出的信息重建模型R對可能受到干擾的感知信息進行恢復,從而利用歷史先驗濾除不良信息的干擾,使自動駕駛模型在攻擊和干擾下仍具有穩定的駕駛表現,因此式(16)可以重寫為
O(WH)的線性復雜度效率很快地得到編碼結果;在特征融合部分,注意力融合機制的時間復雜度主要由查詢(queries)、鍵(keys)和值(values)的數量以及嵌入維度(embedding dimension)決定,為O(n2d)。其中n為序列長度,d為嵌入維度,在本算法中為一定值。可以看出,最終算法的計算效率主要取決于序列長度,而對于自動駕駛導航系統,每次僅輸入當前觀測,因此序列長度為1,所以本算法計算效率高,可以在有限的計算資源下快速運行。
4 實驗結果與分析
本文選擇CARLA模擬器進行訓練數據集采集以及仿真實驗[17],該模擬器基于虛幻4引擎,采用OpengDRIVE1.4標準定義道路和城市環境,并通過Server-Client架構使車輛與虛擬世界進行交互[18]。對于神經先驗模型,本文在CARLA模擬器的Town05下進行數據采集,并利用模擬器自帶的專家模型以4 fps的頻率采集訓練數據,這些數據包括左前、前、右前視角的400×400圖像以及對應位姿信息。對于信息重建模型,首先利用Town01和Town02中采集的數據訓練VAE模型,隨后在采集自Town05的數據集下和訓練好的神經先驗模型結合進行信息重建模型的訓練。需要注意的是,NeRF的訓練數據集中僅含有靜態場景,VAE和信息重建模型的訓練數據集則包含其他車輛等動態成分。最終,本文還利用訓練好的信息重建模型測試了其在Town05環境中對自動駕駛導航魯棒性的性能提升表現。
4.1 自動駕駛場景重建性能
其中:Imax代表原圖中的最大像素值。SSIM則用于評判兩圖像間的結構相似性,用于在圖像重建時評判兩圖像的相似度,其對應公式如下:
在硬件方面,本次訓練采用了2塊RTX 3080用于神經網絡的訓練,顯存總容量為24 GB,訓練時的光線batch size設置為4 096。同時,在訓練過程中設置學習率按照迭代次數進行衰減,對應情況如圖6所示。在訓練初始階段逐步增大學習率,到達設定的最大值0.01后開始根據不同的時間步衰減,在模型收斂的最后階段降低到0.000 1。
其訓練曲線如圖7所示。可以看出,本文模型在5 000次迭代時已接近收斂,loss和PSNR曲線都達到較好的程度。為了進一步比較本文提出的自動駕駛場景下的NeRF模型的性能表現,本文還將現有模型的效果與經典NeRF[9]以及針對戶外無邊界場景的Mip-NeRF 360[19]進行對比,其重建可視化結果以及對應量化結果如圖8、表1所示。
從場景重建結果可以看出,由于原版NeRF僅針對室內小場景物體,同時也沒有考慮到室外場景不同位置光照變化對神經輻射場的影響,所以對于戶外大范圍自動駕駛場景重建性能極差,并且對路徑無限遠的天空區域沒有相應的解決方法,難以捕捉到正常顏色變化,基本無法成功重建。從表1中也可看出,其PSNR低于15。而Mip-NeRF 360則是在場景光照編碼的基礎上針對戶外無邊界場景進一步優化,利用逆球體建模將范圍外的點投影到球體表面,從而實現對無邊界場景的建模,然而該方法的設計初衷仍以小型物體為中心,沒有考慮模型容量對大場景的影響,因此其重建結果仍較為模糊。本文方法在PSNR以及SSIM兩個指標上都顯著優于這些算法,表明該方法對于自動駕駛場景的良好適應性。
4.2 信息重建模型性能測試
為了展示第2章提出的基于神經先驗的信息重建模塊的有效性,本文首先預訓練VAE編碼器和解碼器,以在后續模塊中進行特征提取和重構。如上文所提,在CARLA模擬器中采集Town01和Town02的共計38 000張圖像作為訓練集,8 400張不同路徑下采集的圖像作為測試集,以此訓練基于CNN的VAE模型。對于信息重建模型,為了模擬實際自動駕駛過程中存在的干擾,本文選擇了傳感器遮擋、噪聲攻擊、亮度干擾以及感知丟失來作為自動駕駛中常見的干擾類型。其中傳感器遮擋通過在輸入圖像進行遮蔽來模仿真實駕駛環境中可能存在的樹葉等遮蔽傳感器情況;噪聲攻擊則是增加隨機噪聲以模擬駕駛過程中因電磁干擾等原因導致的感知數據噪點;亮度干擾通過增強圖像的亮度以及對比度,以此來模擬真實駕駛過程中車輛駛離隧道或迎著太陽開車時圖像亮度過強的問題;感知丟失則代表了自動駕駛過程中因傳感器損壞或顛簸,導致當前時刻丟失感知信息的情況。在模型訓練過程中以3/5的概率在左前、前、右前三個視角中隨機攻擊。
圖9中展示了在干擾條件下與標準VAE編碼結果相比的干凈和異常數據的重構圖像,該圖共分為4列,每一列的意義如小標題所示,并且每一行從上到下分別為噪聲干擾、遮擋攻擊、亮度干擾以及感知丟失。結果表明VAE將異常視為正常數據并平等地對待所有數據,在缺失先驗信息的前提下VAE重構的信息大量丟失,輸入的異常信息直接影響其最終的重構性能,對于噪聲、遮擋、亮度干擾以及感知丟失均沒有有效的抵抗能力。相反,通過注意力機制融合先驗,本文的信息重建模塊能從先驗中學習到缺失的幾何信息,從而實現異常信息的恢復。此外,對于感知丟失導致當前某個視角整體信息缺失的情況,本文提出的注意力融合模塊能隱含地從當前其他未受影響的視角中學習到受干擾的視角信息,重建出較好的結果。
4.3 導航魯棒性提升對比
為了測試第3章中所提的自動駕駛駕魯棒性增強框架的性能,本文在CARLA模擬器中測試典型的端到端自動駕駛導航模型在正常情況以及外部干擾下的導航表現。這里選擇Cilrs[20]、LateFusion[21]以及NEAT[22]作為測試的三個導航網絡,其中Cilrs為基于模仿學習的單視角輸入端到端導航模型;LateFusion則為單視角的相機雷達多模態輸入模型;NEAT是基于神經注意場的完全端到端導航方法,將左前、前、右前三個視角的圖像作為輸入。最終在CARLA的Town05下測試其在未受到干擾、受到干擾以及干擾下信息重建框架的導航性能表現,其結果如表2所示,這里采用自動駕駛領域常見的性能指標RC和DS來進行量化評估。其中RC(route completion)表示路線完成率,可以表示為
其中:Ri代表第i條路線的完成率,共有N條路線。DS(driving score)則是結合了碰撞率以及違規率等的綜合駕駛性能分數。
其中:Pi用于評估第i條路徑的整體駕駛表現,包括碰撞、違規以及駕駛時間等信息。RC與DS兩個值越高則代表性能越好。
由表2的實驗結果可知,盡管在現有導航模型在未受攻擊的情況下具有較好的性能表現,在真實駕駛中常見的影響因素下其性能都產生了明顯的衰減。其中原始模型NEAT在外部干擾下性能衰減最為嚴重,表明如果在真實駕駛場景中遇到干擾,可能具有較差的表現,甚至可能在短距離駕駛中遇到困難,在實際應用過程中將造成災難性后果,說明自動駕駛導航模型的魯棒性對實際駕駛的重要意義。相反,LateFusion模型的性能下降幅度明顯小于其他僅采用相機輸入的模型,證明了多模態融合對于提升自動駕駛導航魯棒性的積極影響。此外,相比未受攻擊時的導航性能,基于信息重建模塊的模型性能同樣出現了部分衰減,可能的原因是圖9中表明的當前基于CNN的VAE解碼器在生成的重建圖像存在模糊和部分信息丟失,從而影響導航模型對圖像細節的學習,后續使用ResNet 等更有效的VAE骨干網絡可能會進一步提高當前模型的駕駛性能和魯棒性。
5 結束語
本文提出了一種基于神經先驗的自動駕駛感知信息重建算法。首先設計自適應的大范圍自動駕駛場景隱式表征方法,對自動駕駛導航場景進行先驗信息采集與提取,從而緊湊地保存整個場景的幾何先驗信息。其次,本文在神經先驗的基礎上設計了對應的先驗提取、先驗信息融合與異常信息重建方法,將非結構化隱式表征轉變為易于快速訪問的體素化表達,并利用注意力機制對自動駕駛感知數據進行當前觀測與歷史先驗的特征融合,實現對異常數據的重建。最后,本文在信息重建模型的基礎上針對現有導航模型對外界攻擊與干擾魯棒性不足的問題進一步提出了基于信息重建的自動駕駛導航魯棒性增強框架,實驗結果表明該算法顯著提升了現有模型在干擾環境下的駕駛表現。
參考文獻:
[1]Tampuu A, Matiisen T, Semikin M, et al. A survey of end-to-end driving: architectures and training methods [J]. IEEE Trans on Neural Networks and Learning Systems, 2020, 33 (4): 1364-1384.
[2]劉旖菲, 胡學敏, 陳國文, 等. 視覺感知的端到端自動駕駛運動規劃綜述 [J]. 中國圖象圖形學報, 2021, 26 (1): 49-66. (Liu Yifei, Hu Xuemin, Chen Guowen, et al. Review of end-to-end motion planning for autonomous driving with visual perception[J]. Journal of Image and Graphics, 2021, 26 (1): 49-66.)
[3]Lee Y, Kim Y, Yu J, et al. Learning to remove bad weather: towards robust visual perception for self-driving [J/OL]. IEEE Robotics and Automation Letters.(2022-02-28). https://doi.org/ 10.1109/LRA.2022.3154830.
[4]Liu Ze, Cai Yingfeng, Wang Hai, et al. Robust target recognition and tracking of self-driving cars with radar and camera information fusion under severe weather conditions [J]. IEEE Trans on Intelligent Transportation Systems, 2021, 23 (7): 6640-6653.
[5]Maanp"J, Taher J, Manninen P, et al. Multimodal end-to-end learning for autonomous steering in adverse road and weather conditions [C]// Proc of the 25th International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 699-706.
[6]Valanarasu J M J,Yasarla R, Patel V M. TransWeather: Transformer-based restoration of images degraded by adverse weather conditions [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 2353-2363.
[7]Zamir S W, Arora A, Khan S,et al. Multi-stage progressive image restoration [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14821-14831.
[8]Xiong Xuan, Liu Yicheng, Yuan Tianyuan, et al. Neural map prior for autonomous driving [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 17535-17544.
[9]Mildenhall B, Srinivasan P, Tancik M,et al. NeRF: representing scenes as neural radiance fields for view synthesis [C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer, 2020: 405-421.
[10]Martin-Brualla R, Radwan N, Sajjadi M S M,et al. NeRF in the wild: neural radiance fields for unconstrained photo collections [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7210-7219.
[11]Tancik M, Casser V, Yan Xinchen, et al. Block-NeRF: scalable large scene neural view synthesis [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 8248-8258.
[12]Kajiya J T, Von Herzen B P. Ray tracing volume densities [J]. ACM SIGGRAPH Computer Graphics, 1984, 18 (3): 165-174.
[13]Meuleman A, Liu Yulun, Gao Chen, et al. Progressively optimized local radiance fields for robust view synthesis [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 16539-16548.
[14]Müller T, Evans A, Schied C,et al. Instant neural graphics primitives with a multiresolution hash encoding [J]. ACM Trans on Graphics, 2022, 41 (4): 1-15.
[15]Kingma D P, Welling M. An introduction to variational autoencoders [J]. Foundations and Trends in Machine Learning, 2019, 12(4): 307-392.
[16]Vaswani A,Shazeer N, Parmar N, et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Proces-sing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000- 6010.
[17]Dosovitskiy A, Ros G, Codevilla F, et al. CARLA: an open urban dri-ving simulator [EB/OL].(2017-11-10). https://arxiv.org/abs/1711.03938.
[18]戴力源, 楊達, 李凱, 等. 基于圖像與高精定位融合數據的封閉場地自動駕駛汽車駕駛測試方法 [J]. 計算機應用研究, 2023, 40 (11): 3333-3340, 3347. (Dai Liyuan, Yang Da, Li Kai, et al. Driving test methods of autonomous vehicles in closed field based on image and high precision positioning fusion data [J]. Application Research of Computers, 2023, 40 (11): 3333-3340, 3347.)
[19]Barron J T, Mildenhall B,Verbin D, et al. Mip-NeRF 360: unbounded anti-aliased neural radiance fields [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5470-5479.
[20]Codevilla F, Santana E, López A M, et al. Exploring the limitations of behavior cloning for autonomous driving [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 9329-9338.
[21]Sobh I, Amin L, Abdelkarim S,et al. End-to-end multi-modal sensors fusion system for urban automated driving [EB/OL]. (2018-10-10). https://api.semanticscholar.org/CorpusID:53350266.
[22]Chitta K, Prakash A, Geiger A.NEAT: neural attention fields for end-to-end autonomous driving [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 15793-15803.
[23] Li Ruilong, Gao Hang, Tancik M, et al. NeRFAcc: efficient sampling accelerates NeRFs [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 18537-18546.