
近日,清華大學研究生徐冬陽和所在團隊,為了助力自動駕駛技術的進一步發展而提出一款名為LVAFusion的模塊,旨在更高效、更準確地融合多模態信息。
自動駕駛在路上應該具備學習優秀人類駕駛員的能力,因為人類在面對多數場景的時候,可以迅速地定位在關鍵區域。
為了提高端到端自動駕駛模型的可解釋性,該團隊首次引入人類駕駛員的注意力機制。

通過預測當前交通環境前后的駕駛員注意區域,他們將其作為一個掩碼來調整原始圖像的權重,從而使自動駕駛車輛能夠像經驗豐富的人類駕駛員一樣,具備有效定位和預測潛在風險因素的能力。
預測駕駛員視覺注視區域的引入,不僅為下游決策任務提供更具細粒度的感知特征,從而可以更大程度地保證安全。而且,也讓場景理解過程更加接近人類認知,從而能夠提高可解釋性。
就潛在應用來說:
其一,本次開發的LVAfusion模塊能被用于配有激光雷達的車上,有望提高多模態大模型的感知融合能力。

其二,本次模型可以和現有多模態大模型結合。
比如,駕駛員注意力機制可以實時輸出,讓乘客實時觀察當前大模型所認為權重較大的板塊。
如果乘客認為不合理,可以語音告訴端到端模型,從而實現自動調節,進而實現持續學習和不斷優化。
據介紹, 自動駕駛包括環境感知、定位、預測、決策、規劃及車輛控制等關鍵環節,通過協調這些模塊可以對周圍環境進行實時感知和安全導航。
然而,這種系統架構不但代碼量巨大、后處理邏輯復雜、后期維護成本高,而且在實際應用過程中容易出現誤差累積的現象,比如前方突然出現行人,由于感知模塊的漏檢,下游的預測決策模塊沒有行人的信息輸入,可能導致危險的發生。
而端到端自動駕駛則有望解決這個問題。端到端自動駕駛,是指使用深度學習模型直接從原始輸入數據(如攝像頭圖像,激光雷達點云),到控制命令(如方向盤轉角、油門和剎車)的轉換過程。
該方法試圖簡化傳統的多模塊自動駕駛系統,將整個駕駛任務看作是一個從感知到行為的映射問題。
端到端學習的關鍵優勢在于它可以降低系統的復雜性,并有潛力提高泛化能力,因為模型可以被訓練來直接處理多種不同的駕駛情況。
并且,多模態端到端自動駕駛通過整合來自攝像頭、激光雷達和雷達等多種傳感器的數據,有望提高系統對復雜環境的理解和反應能力,增強決策的準確性和魯棒性(系統在一定參數攝動下維持某些性能的特性),從而提升自動駕駛車輛的安全性和可靠性。
然而,端到端自動駕駛基于黑盒化的深度學習模型,因此如何提高模型的駕駛性能以及提高模型的可解釋性,是一個急需解決的問題和痛點。
現有的多數方法都是端到端自動駕駛,徐冬陽和所在團隊詳細分析模型結構之后發現,此前人們并沒有很好地利用多模態信息。
攝像頭具有豐富的語義信息,但是缺乏深度信息。激光雷達可以提供很好的距離信息。因此,二者具有很好的互補特性。
但是,現有端到端學習方法大部分采用骨干網絡分別提取模態信息之后,在高維空間里面進行拼接,或采用“變形”針對多模態信息進行融合。
其中, 查詢過程是隨機初始化的,這個過程可能導致在采用注意力機制進行融合的過程中,無法利用埋藏在多模態特征中的先驗知識,進而可能會導致跨多種模態的同一個關鍵對象的錯位,最終導致模型學習的收斂速度變慢和次優。

在徐冬陽的研究中,隨著專業技能的積累以及端到端自動駕駛的發展,在閱讀文獻時他發現了端到端領域仍然存在一些不足。
比如,沒有充分探究是否融合了多模態信息,如何在保證精度的前提下提高模型的可解釋性。一番研究之后,徐冬陽選擇了端到端自動駕駛作為研究課題。
端到端自動駕駛是一個很大的系統,包括感知、跟蹤、預測、決策、規劃、控制等多個模塊。因此,要設計一個可以有效串通上述模塊的方法。
確定好方法之后,則需要采集大量的數據。因為端到端模型都是基于深度學習,因此需要大量數據進行訓練。
還得確定模型需要什么輸入和輸出,以及在自動駕駛仿真平臺Carla采集多種天氣、多種工況之下的數據,同時還要檢查數據的完整性。
完成數據采集之后,則要分析模型在結構設計上,能否對本次任務起到幫助。
實驗中,在導入預訓練權重的時候,徐冬陽把權重導錯了一個。但是,由于經過了權重匹配,因此系統并沒有報錯,然而跑出來的實驗結果總是不盡人意。

進行大量的模型調試之后,也依舊沒有找到問題所在。一天晚上徐冬陽在中關村散步的時候,天上飄著大雪,他忽然想到自己還沒有查看訓練代碼,會不會是訓練過程的問題呢?
于是,他立馬跑回電腦旁,看了一下訓練過程,最終確定問題出在預訓練權重導入上。
調整之后,實驗結果非常符合預期。“這種發現帶來的不僅是對于問題的理解,更有一種深刻的滿足感和成就感。”徐冬陽說。
而由于訓練時間比較長,徐冬陽每天晚上都會將多個任務提交到訓練集群上。有一天晚上由于交的實驗較多,有些任務由于優先級的原因被停了。
第二天來看的時候,他發現少了一些實驗結果,于是只得再次仔細分析結果,并將缺失的實驗重新提交。
就在這樣繁復的過程之中,他終于完成了研究。最終,相關論文以《M2DA:融合駕駛員注意力的多模式融合傳感器》為題發在雜志上。
后續,課題組會圍繞進一步優化模型、拓展應用場景、提高系統魯棒性和安全性開展。
具體來說:
首先,要深化多模態融合技術。繼續探索和開發更加高效的算法,借此改進不同傳感器數據之間的融合方式。比如, 采用圖網絡針對不同模態進行匹配, 而且尤其要關注在處理高動態和復雜環境下的交通場景。
其次, 要增強駕駛員的注意力模型。即進一步地研究駕駛員注意力的模擬機制, 探索如何更加精確地預測和模擬人類駕駛員的注意焦點, 以及探究這些焦點對于駕駛決策的影響。
再次,要開展安全性和魯棒性的驗證。即將現有模型部署到現實世界的小車中,通過更多的物理實驗,驗證模型在真實世界條件下的性能,從而將研究擴展到惡劣天氣、夜間駕駛等更廣泛、更多樣的駕駛場景和環境條件之中,借此驗證和提高系統的通用性和適應性。
最后,要開展人機交互的研究。即探索如何將這一技術與人機交互更緊密地結合,例如通過提供給駕駛員更直觀的風險警告和輔助決策支持,增強自動駕駛車輛與人類駕駛員之間的互動。
通過這些后續研究計劃, 徐冬陽希望不僅可以提升自動駕駛技術的性能, 也能確保其更加貼近人類駕駛行為的理解, 為實現更安全、更智能的自動駕駛技術打下基礎。