999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊更新與多頭交互融合Transformer的車輛軌跡預(yù)測方法

2025-09-02 00:00:00孫穎吳延勇丁德銳張建坤
計算機應(yīng)用研究 2025年8期

關(guān)鍵詞:車輛軌跡預(yù)測;深度學(xué)習(xí);Transformer;多頭注意力機制;時空特征融合;智能駕駛中圖分類號:TP13 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)08-014-2348-07doi:10.19734/j. issn. 1001-3695.2025.01.0017

Vehicles trajectory prediction approach based on Transformer with edge update and multi-head attention interactive fusion

Sun Yinga?,Wu Yanyong?,Ding Deruib,Zhang Jiankunb (a.BusinessSolholfpticalElecricalamp;ompuerEgineig,Uiesitfgifoiceamp;echolog ,China)

Abstract:Thetaskofvehicletrajectorypredictionforautonomous driving needs tofullyconsider therelationship betweenthe traficagentsandtheenvironment.Addresingthelimitationsofexistingapproachesatthelevelofheterogeneousfeaturenteractionand improving prediction accuracy,the paper proposedavehicle trajectoryprediction approach named EMATNet with edgeupdatingandmulti-headattention interactivefusionTransformer.Firstly,theapproach encodedand embeddedthe historicalspatio-temporal informationof theagentsandthetransportationenvironment.Then,theapproachusedtheproposedtwostageinteractionnetworkofedgeupdatingandmulti-atentioninteraction fusion Transformerforfeature interaction.The introducedsymmetricpositionalembeddingandvehicle-roadrelationshipinteractioncouldefectivelyenhancetheglobalinformation perceptionandspatio-temporalrelationshipcapturingcapability.Finalythisapproachusedtwostageoptimizationdecoding to ensurethe acuracyand reasonablenessofthe predictionresults.The proposedappoachvalidatedonArgoverseland Argoverse2 motion prediction datasets,and visualizedandanalyzed the predictionresults.Theresults show that EMATNetoutperforms similarapproaches inthethre performance metricsofminFDE,minADEandMR,andiscapableforthe taskof vehicle trajectory prediction in complex traffic environments.

Keywords:vehicletrajectoryprediction;deeplearning;Transformer;multi-headatentionmechanism;spatio-temporalfeature integration; intelligent driving

0 引言

近年來,智能駕駛技術(shù)正吸引著學(xué)術(shù)界和工業(yè)界越來越多的關(guān)注,其在交通領(lǐng)域中有著越來越廣泛的應(yīng)用。然而,由于交通參與者的多樣機動性、交通參與者與環(huán)境之間的復(fù)雜交互、感知信息的不確定性、自動駕駛汽車的計算負(fù)擔(dān)和計算時間要求等問題,如何準(zhǔn)確預(yù)測交通參與者的未來軌跡備受關(guān)注,并成為提高自動駕駛安全性的關(guān)鍵點之一[1]。

智能駕駛軌跡預(yù)測技術(shù)是根據(jù)目標(biāo)智能體的歷史信息與當(dāng)前的交通環(huán)境信息推理出目標(biāo)智能體未來的意圖和行動軌跡的。近年來許多研究者對軌跡預(yù)測技術(shù)進行深入研究,并取得一定的進展。例如基于人工規(guī)則約束的方法,如使用動態(tài)貝葉斯[2]或者MonteCarlo算法[3]預(yù)測軌跡,但人為設(shè)計的規(guī)則約束大多比較簡單,僅適用于單一場景的短時段軌跡預(yù)測,難以處理復(fù)雜的運動交互行為。于是研究者開始引入經(jīng)典機器學(xué)習(xí)方法,提高模型的學(xué)習(xí)與泛化能力,如借助隱馬爾可夫模型[4]或無監(jiān)督聚類的高斯混合模型[5]實現(xiàn)軌跡預(yù)測,但基于經(jīng)典機器學(xué)習(xí)的方法通過挖掘數(shù)據(jù)特征,駕駛數(shù)據(jù)量不斷增加,而模型的表征能力不足,距離高實時性和準(zhǔn)確性有待進一步完善。VectorNet方法矢量化場景表征顯著減少了傳統(tǒng)柵格化方法的信息損失與計算冗余,為后續(xù)研究提供了思路。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,為解決序列預(yù)測問題,研究者也推出一系列的方法,如Scene Transformer[7]PAGA[8]HiVT[9]等,通過Transformer或者圖注意力機制來捕捉時空關(guān)系。Wang等人[10]通過錨點信息與智能體中心化設(shè)計,實現(xiàn)了預(yù)測效率與精度的平衡。Liao等人[]通過模擬人類駕駛決策的視覺注意力和空間感知力,提升復(fù)雜交通場景中的預(yù)測魯棒性。Lan等人[12]基于預(yù)訓(xùn)練大預(yù)言模型提出Traj-LLM方法,增強了模型的泛化能力。

然而,現(xiàn)有基于Transformer或圖注意力的軌跡預(yù)測模型在異構(gòu)交互特征(包括智能體間動態(tài)耦合關(guān)系、智能體-環(huán)境靜態(tài)約束關(guān)系)的表征層面仍存在兩方面局限性:a)傳統(tǒng)圖注意力機制對交互對象的幾何屬性建模不足,導(dǎo)致時空特征的空間一致性受損;b)單一注意力層難以解耦多源異構(gòu)交互模式,造成動態(tài)場景下的特征混淆。因此,本文基于S2S(sequence-to-sequence)編解碼框架,在特征交互階段設(shè)計了兩階段式交互網(wǎng)絡(luò),加入對稱位姿約束與層級多頭注意力機制的異構(gòu)交互特征建模方法,以優(yōu)化軌跡預(yù)測任務(wù)中的多模態(tài)關(guān)系表征問題,在獲得視角不變所帶來的魯棒性下,提高模型感知能力,從而實現(xiàn)多智能體未來軌跡的高效預(yù)測。本文主要工作如下:

a)在軌跡預(yù)測交互階段進行兩階段式交互,提出邊更新與多頭注意力交互融合的Transformer網(wǎng)絡(luò),以解決智能體與交通環(huán)境間多模態(tài)關(guān)系表征不足的問題。

b)通過兩階段式終點解碼策略,根據(jù)生成的可靠終點進一步細(xì)化中間軌跡,解碼出預(yù)測結(jié)果,以解決單解碼機制存在的軌跡可行性與準(zhǔn)確性不足的問題。

c)提出一種名為EMATNet的軌跡預(yù)測模型,在Argoverse1與Argoverse2自動駕駛運動預(yù)測公開數(shù)據(jù)集上驗證方法的有效性。結(jié)果表明,與其他先進方法相比,EMATNet在各項指標(biāo)上均取得了良好效果。

1相關(guān)工作

1.1傳統(tǒng)的軌跡預(yù)測方法

早期軌跡預(yù)測方法多依賴物理規(guī)則與運動學(xué)假設(shè)。Xie等人[2]結(jié)合無特征卡爾曼濾波與動態(tài)貝葉斯網(wǎng)絡(luò)預(yù)測軌跡,而Wang等人[3]通過MonteCarlo算法結(jié)合MPC優(yōu)化結(jié)果預(yù)測短期運動。此類方法依賴人工設(shè)計的約束條件,僅適用于路況簡單的短期預(yù)測。隨著數(shù)據(jù)量增長,經(jīng)典機器學(xué)習(xí)方法通過特征工程挖掘數(shù)據(jù)規(guī)律,如 Deo 等人[4]與喬少杰等人[13]采用高斯混合回歸GMM或者GMM-HMM混合模型用于建模交通參與者的運動模式,MultiPath方法[5]在此基礎(chǔ)上引入無監(jiān)督聚類生成候選軌跡錨點。盡管這些方法通過特征工程提升了模型的實時性,但由于其表征能力受限于淺層模型,難以適配高維動態(tài)場景下的長時軌跡預(yù)測。

1.2數(shù)據(jù)驅(qū)動的軌跡預(yù)測方法

深度學(xué)習(xí)技術(shù)在圖像處理與序列預(yù)測領(lǐng)域均取得良好效果,能夠有效提升預(yù)測模型對復(fù)雜特征的提取,更好捕捉非線性關(guān)系與長時序的依賴,符合軌跡預(yù)測任務(wù)要求,如李文禮等人[14]在Social-GAN框架中引入車輛空間影響場與五次多項式軌跡約束,提升物理可行性;楊榮淼[15]提出車路協(xié)同的時空GAN模型,通過細(xì)粒度車道語義增強軌跡合理性;Song等人[16]的PRIME算法在基于深度學(xué)習(xí)的運動規(guī)劃器中嵌入物理約束,輔以強化學(xué)習(xí)方法,確保預(yù)測軌跡的動力學(xué)可行;Gao等人[]的 VectorNet 通過分層圖網(wǎng)絡(luò)編碼矢量化高精地圖,減少柵格化信息損失;Liang等人[17]構(gòu)建的LaneGCN模型保留車道拓?fù)浣Y(jié)構(gòu),避免了幾何失真問題;顧一凡等人[18]在Dense TNT[19]基礎(chǔ)上引入LSTM時序建模與注意力融合機制,增強了軌跡特征提取能力;Ye等人[20]的TPCN模型通過時空點云學(xué)習(xí)框架實現(xiàn)動態(tài)交互建模。然而,由于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)記憶有限,早期生成模型的物理約束不足,導(dǎo)致軌跡預(yù)測方法在跨模態(tài)特征交互與長時序依賴建模上仍存在瓶頸。

1.3基于Transformer與注意力機制的方法

近年來,基于Transformer與注意力機制的方法被證實在交互建模與多模態(tài)預(yù)測中展現(xiàn)出顯著優(yōu)勢。Ye等人[將圖神經(jīng)網(wǎng)絡(luò)與自注意力相結(jié)合,提出GSAN顯式捕捉車輛交互影響;Da等人[8提出的PAGA模型則通過圖注意力機制融合道路感知特征;Ngiam等人[7]的SceneTransformer采用聯(lián)合掩碼策略預(yù)測多智能體一致性軌跡; Zhou 等人的HiVT模型通過局部-全局分層建模平衡計算效率與精度;Wang等人[22]的GANet將目標(biāo)區(qū)域作為預(yù)測條件,從而為潛在未來軌跡設(shè)置軟約束,提升復(fù)雜場景的魯棒性;Cui等人[23]的GoRela方法引人對稱位姿嵌人,通過對視角不變坐標(biāo)建模以消除視角偏差;Nayakanti等人[24]在Wayformer方法中先以自注意力進行特征提取,再采用交叉注意力交互,利用注意力分解降低模型數(shù)據(jù)量;Wang等人[25]采取線性注意力預(yù)測架構(gòu);Ge等人[26]的HTTNet方法將Transformer與高清地圖編碼融合,從而增強場景理解;Liu等人[27]的LAformer引入稠密車道約束,適用于結(jié)構(gòu)化道路長時預(yù)測。然而,單一的Transformer預(yù)測模型主要依賴序列化注意力,圖注意力網(wǎng)絡(luò)雖能建模空間鄰域關(guān)系,但對全局長程依賴和非歐氏空間關(guān)系的捕捉能力有限。

2 EMATNet軌跡預(yù)測模型

本文所提出的EMATNet模型采用了S2S編解碼框架,包括特征編碼器、邊更新與多頭交互融合Transformer網(wǎng)絡(luò)、終點預(yù)測修正模塊和預(yù)測軌跡解碼器四個部分,整體結(jié)構(gòu)如圖1所示。

首先,EMATNet模型采用了矢量化的場景表示,通過特征編碼器對交通環(huán)境與智能體歷史軌跡信息進行編碼。隨后,將編碼后的信息通過SPE對稱位姿編碼后進行連接,利用具有邊更新機制的Transformer網(wǎng)絡(luò)進行初次特征交互。接著通過所設(shè)計的分層多頭注意力對智能體與交通環(huán)境之間的全局特征關(guān)系進行二次交互,有效增強了模型對多樣性特征的捕捉能力。解碼階段,區(qū)別于傳統(tǒng)軌跡預(yù)測方法,EMATNet由終點預(yù)測修正模塊獲取可靠終點,并將其作為建議偏移量從而優(yōu)化未來軌跡輸出,提高了預(yù)測結(jié)果可行性。最后結(jié)合終點信息與智能體未來運動特征解碼出軌跡預(yù)測結(jié)果。下面將給出EMAT-Net 模型的詳細(xì)分析與設(shè)計。

2.1軌跡預(yù)測問題建模

多智能體軌跡預(yù)測任務(wù)即根據(jù)所觀察的智能體運動歷史和周圍的交通環(huán)境信息,為目標(biāo)智能體生成可能的未來軌跡。具體來說,在包含AV(autonomousvehicle)在內(nèi)共 Na 個交通參與者的交通環(huán)境中,采用 M 來表示地圖信息,同時給定一個歷史狀態(tài)集合 來表示所有智能體的歷史狀態(tài)。這里的 Xi={xi,-H+1,…,xi,0} , i∈[0,Na] ,表示第 i 個智能體在過去 H 個時間步長中的歷史軌跡。

不失一般性,軌跡預(yù)測模型將為交通環(huán)境中所有 Na 個智能體生成可能的未來軌跡,記為 。對于每個智能體 i ,分別預(yù)測 K 條可能的未來軌跡及每條軌跡的相應(yīng)概率,從而獲取多模態(tài)預(yù)測分布。多模態(tài)軌跡表示為 Yi= {yi1,…,yiK},i∈[0,Na] ,其中的每個 yiK={yi,1K,…,yi,TK} ,即智能體 i 在預(yù)測時間范圍 T 上的第 k 個預(yù)測軌跡,所有軌跡的概率分布表示為 αi={αi1,…,αiK} 。最終,智能體 i 的多模態(tài)軌跡預(yù)測可以表示為混合估計分布,如式(1)所示。

圖1EMATNet模型結(jié)構(gòu)框架

2.2智能體歷史軌跡與交通場景上下文編碼

如圖1左下所示,軌跡預(yù)測第一階段是編碼上下文,分別提取交通環(huán)境信息特征和智能體的歷史軌跡特征,目的是保證交通環(huán)境信息的完整性,并且更好地保留車輛局部運動特征。

智能體編碼器采用與 LaneGCN[17] 相同的智能體軌跡編碼主干網(wǎng)絡(luò)來獲取智能體的運動特征,如圖2所示。

圖3Map編碼器網(wǎng)絡(luò)框架 Fig.3Framework of map encoder network

特征提取過程描述如式(2)~(4)所示,即應(yīng)用一維CNN來提取軌跡信息,并且使用FPN特征金字塔網(wǎng)絡(luò)來融合多尺度特征。

其中: Xi 為輸入的智能體歷史狀態(tài);FPN特征金字塔網(wǎng)絡(luò)的層數(shù) nfpn 設(shè)置為4;上采樣尺度scale_factor設(shè)置為2;卷積提取特征采用 z 表示,采樣融合后的特征采用 表示。具體來說, Xi 通過卷積核為3、輸出通道數(shù)為128的Conv1d卷積塊,然后進行LayerNorm層歸一化和ReLU激活,通過側(cè)向鏈接與上采樣輸出特征 ,最后應(yīng)用另一個Red1d殘差塊輸出末時刻特征,保留運動趨勢信息,即形狀為 [Na,D] 的張量嵌入 Eagent ,這里的 Na 為智能體數(shù)量, D 為通道數(shù)。

對于交通場景的上下文信息編碼方法采用基于Point-Net[28] 和 VectorNet[6] 的編碼器,如圖3所示,其過程可表示為式(5)~(7)。

其中: Wp 和 bp 為投影層的權(quán)重和偏置。首先,進行線性變換并激活映射輸入特征 X 到隱藏空間。其次,進行LayerNorm層歸一化并ReLU激活得到 H0 。接著使用 PFA(point feature ag-gregator)點特征聚合模塊進行局部特征聚合,提取環(huán)境中車道的交互信息。最后,通過帶有MaxPooling最大池化的PFA模塊再次特征聚合并池化,得到車道整體特征表示張量 Emap ,形狀為 [Nmap,D] ,其中 Nmap 為交通環(huán)境中的車道元素數(shù)量, D 為通道數(shù)。

2.3邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)

傳統(tǒng)基于Transformer或圖注意力機制的軌跡預(yù)測方法常通過每個TA(targetagent)角度處理推理場景,在異構(gòu)交互特征時單一的交互感知能力有限,交互對象的幾何屬性建模不足,容易丟失重要特征信息,這將直接影響模型的預(yù)測能力。因此,本文提出了一個新穎的邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)模塊,實現(xiàn)兩階段式交互,在保持視角不變的魯棒性下有效提升了模型的對復(fù)雜交通場景下交通參與者與交通環(huán)境間的特征關(guān)系捕捉能力,具體結(jié)構(gòu)如圖4所示。

首先,采用MLP網(wǎng)絡(luò)編碼獲取的特征的token。MLP由線性層、LayerNorm層歸一化和ReLU激活組成。基于Transfor-mer的全局交互機制的編碼方式與VectorNet[6]、Prophnet[10]類似,采用TV(targetvehicle)最后一幀坐標(biāo)為中心,為場景中所有環(huán)境和參與者建立坐標(biāo)系,并通過旋轉(zhuǎn)矩陣與全局坐標(biāo)系對齊。不同于標(biāo)準(zhǔn)的Transformer網(wǎng)絡(luò),本文設(shè)計的網(wǎng)絡(luò)加入對稱位姿信息作為邊特征,并輸入到Transformer網(wǎng)絡(luò)中進行更新。這里對稱位姿信息采用類似GoRela方法[23]中的相對幾何關(guān)系對進行場景編碼,這種架構(gòu)遵循視點不變原則,實現(xiàn)場景視角不變的魯棒性,同時有效減少預(yù)測任務(wù)中多坐標(biāo)系轉(zhuǎn)換所造成的計算開銷。記 p 為原始坐標(biāo), v 為速度及方向,相對歐氏距離為 di,j ,角度差為 αi,jsi,j 。為了描述方便,這里省略了相對距離 di,j 的位置編碼,采用一個五元數(shù)組表示對稱相對位置嵌入 EspE ,即形狀如式(8)所示。

圖4邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)

Fig.4Transformerbased onedgeupdate and multi-head attention interactive fusion

將得到的相對位置嵌入 EspE 與前述的智能體編碼特征Eagent 、地圖的編碼特征 Emap 一同連接后輸人到多層邊更新Transformer網(wǎng)絡(luò)中進行更新。具體來說,連接后的token在交叉注意力交互后進行FFN逐點前饋更新;與此同時,在每層中并行一個新的MLP模塊重新編碼上下文,通過殘差連接來更新輸入的ESPE。

隨后,采用層級關(guān)系感知多頭注意力機制進行二階段深人交互,提取交通參與元素之間的特征關(guān)系。值得一提的是,此處的層級多頭注意力交互模塊并非簡單堆疊注意力層,與LaneGCN[17]類似,首先對四種不同類型的關(guān)系進行建模,有序進行交互,實現(xiàn)更細(xì)粒度的動態(tài)性捕捉,即智能體到車道(AL)、車道到車道(LL)、車道到智能體(AL)、智能體到智能體(AA)。多頭注意力機制[29相對于簡單的注意力具有更強的表達能力,可以捕捉更復(fù)雜的依賴關(guān)系,可對邊更新Trans-former網(wǎng)絡(luò)進行拓展,從而增強模型的感知能力,如式(9)所示。

其中:MHA表示多頭注意力操作;參數(shù) Wkfkv Wvfkv} ;權(quán)重矩陣 Wq,Wk,Wv 都是訓(xùn)練得到的。具體來說,首先使用自注意力和前饋網(wǎng)絡(luò)更新智能體到智能體(AA)和車道到車道(LL)的自關(guān)系;其次使用交叉注意力和前饋網(wǎng)絡(luò)更新智能體到車道(AL)與車道到智能體的交叉關(guān)系。這里按順序?qū)γ總€交互進行建模并重復(fù)三次,這樣就可以在每次迭代中更新中間特征,并使用更新后的特征來計算下次迭代注意力權(quán)重,這里注意力頭數(shù)與dropout率分別設(shè)置為8和0.1。綜上,邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)流程如算法1所示。

算法1邊更新與多頭注意力交互融合Transformer

輸入:agent歷史信息嵌人 ?Eagent? ;交通環(huán)境信息嵌人 ?Emap, ;對稱位姿信息嵌人 ?EsPE, )。

輸出:兩階段交互后agent特征 #

將agent、環(huán)境與對稱位姿信息投影到(channel)維度

for每個場景下的智能體與環(huán)境索引

將 agent 與map信息連接作為 token ,形狀為[ N ,channel]將該場景下的對稱位姿信息投影為edge邊特征用于多頭注意力計算,形狀從 N,N,5] 更新為 N,N ,channel]for每個Transformer層//層數(shù)設(shè)置為6,注意力頭數(shù)為8基于 token與edge 信息計算 memory根據(jù)式(9)計算多頭注意力 (Q,K,V) 通過FFN前饋網(wǎng)絡(luò)殘差連接與歸一化更新tokenfor車路多頭注意力交互//交互深度設(shè)置為3,注意力頭數(shù)為8計算lane-to-agent交叉注意力,lane特征作為 作為 K 與V,F(xiàn)FN前饋網(wǎng)絡(luò)更新map特征計算lane-to-lane自注意力,F(xiàn)FN前饋網(wǎng)絡(luò)更新map特征計算agent-to-lane交叉注意力,agent特征作為 ,lane特征作為K 與 u ,F(xiàn)FN前饋網(wǎng)絡(luò)更新agent特征計算agent-to-agent自注意力,F(xiàn)FN前饋網(wǎng)絡(luò)更新agent特征return交互后的agent特征X

輸出的智能體軌跡特征將應(yīng)用于終點預(yù)測修正模塊與未來軌跡最終解碼。

2.4終點預(yù)測修正模塊與最終預(yù)測軌跡解碼

先前研究表明,直接根據(jù)智能體最后的未來特征嵌入解碼出的未來軌跡容易產(chǎn)生較大誤差或者軌跡不合理。針對上述不足,設(shè)計的EMATNet模型采用兩階段式預(yù)測策略,確保預(yù)測結(jié)果的合理性與魯棒性。第一階段為預(yù)測出可靠終點,第二階段為利用可靠終點生成建議的偏移量對結(jié)果進行優(yōu)化,其中終點預(yù)測修正模塊如圖1下方所示。與SceneTransformer[7]方法不同,這里選擇單層的MLP模塊進行可靠終點預(yù)測,分階段誤差修正,使得能夠在較少的參數(shù)量下取得較高的效果。MLP模塊包括線性層、LayerNorm層歸一化與ReLU激活函數(shù)。在終點預(yù)測修正模塊中,本文使用查詢的方法對預(yù)測出的可靠終點進行梯度分離,生成建議偏移量 ε ,接著對中間軌跡細(xì)化,最后輸出預(yù)測結(jié)果。

分段預(yù)測方法的解碼過程如式(10)~(12)所示。

其中:智能體經(jīng)兩階段特征交互后的輸出定義為 ;預(yù)測的可靠端點定義為 Epoint ;輸出預(yù)測軌跡采用 P 表示;其相對應(yīng)概率矩陣定義為 K 具體來說,將智能體特征 輸入到 MLPend 模塊中,輸出預(yù)測的可靠端點 Epoint ,然后將 與 Epoint 連接,再次輸入到新的 MLPoptimize 模塊中進行偏移修正,接著輸出優(yōu)化后的 K 條預(yù)測軌跡 P ,最終通過softmax層輸出每條軌跡對應(yīng)的概率矩陣 K 。

3 實驗與驗證分析

為了驗證EMATNet軌跡預(yù)測模型的有效性,實驗將在Argoverse1amp;2兩個廣泛使用的運動預(yù)測數(shù)據(jù)集上進行,選取三種通用指標(biāo)進行模型性能評估,結(jié)果將與近年來的多種baseline基線模型進行對比,最后對模型輸出的預(yù)測軌跡進行可視化分析。

3.1 數(shù)據(jù)集介紹

上述模型測試將在兩個具有挑戰(zhàn)性且被廣泛使用的自動駕駛運動預(yù)測數(shù)據(jù)集上進行驗證與評估,即Argoverse 1[30] 與Argoverse 2[31] 。這兩個運動預(yù)測數(shù)據(jù)集都在指定時間內(nèi)以10Hz 的頻率提供智能體跟蹤軌跡以及豐富的語義地圖信息。其中Argoverse1數(shù)據(jù)集于2019年發(fā)布,共計收集了 320h 的交通場景內(nèi)容,且劃分為323557個5s的交通場景片段,預(yù)測任務(wù)是根據(jù)過去2s的歷史軌跡來預(yù)測未來3s的運動軌跡。Argoverse2數(shù)據(jù)集于2021年發(fā)布,共收集了 763h 內(nèi)容,最終劃分為250000個11s的交通場景片段,其預(yù)測任務(wù)是根據(jù)過去5s的歷史軌跡預(yù)測未來6s的運動軌跡。

3.2評價指標(biāo)與損失函數(shù)

與其他軌跡預(yù)測評價方法類似,本文實驗借鑒了最為廣泛使用的平均位移誤差(ADE)和最終位移誤差(FDE)作為性能評價指標(biāo),如式(13)(14)所示。

ADE指標(biāo)指整個預(yù)測時間步長上,預(yù)測結(jié)果與真實值間歐氏距離的平均值;FDE則指預(yù)測結(jié)果的終點與真實軌跡終點間的位移差。考慮到研究任務(wù)為多模態(tài)預(yù)測,本文實驗最終選擇最小平均位移誤差(minADE)、最小最終位移誤差(min-FDE)和失誤率(MR)作為評價指標(biāo)。失誤率定義為在真實終點的 2m 范圍外的軌跡占比,如式(15)所示。

EMATNet模型訓(xùn)練為端到端方式,任務(wù)是預(yù)測智能體未來軌跡,所以將訓(xùn)練損失函數(shù)設(shè)置為式(16),即整體損失 L 是回歸損失 Lreg 與分類損失 Lcls 的加權(quán)和,其中 ω∈[0,1] ,是用于平衡回歸和分類任務(wù)的權(quán)重。

L=ωLreg+(1-ω)Lcls

根據(jù)文獻17,實驗采用WTA贏家通吃策略進行多模態(tài)訓(xùn)練。即對于每個智能體,模型都會預(yù)測出 K 條可能的軌跡,通過最小最終位移誤差minFDA來找到 K 條預(yù)測中的最佳預(yù)測軌跡 k*

3.3訓(xùn)練細(xì)節(jié)與超參數(shù)

本實驗基于Ubuntu20.04系統(tǒng),開發(fā)語言為Python3.10.15,處理器為Intel Gold 6230,顯卡為 NVIDIA RTX 2080Ti,RAM為 128GB 。

實驗中設(shè)置參數(shù) K 為6,即EMATNet模型為所有有效智能體生成6條可能軌跡。基于Argoverse1數(shù)據(jù)集20個時間步的歷史軌跡,為有效智能體生成6條30個時間步的未來軌跡;基于Argoverse2數(shù)據(jù)集50個時間步的歷史軌跡,為有效智能體生成6條50個時間步的未來軌跡。邊更新的Transformer交互層數(shù) L 設(shè)置為6,注意力頭數(shù)設(shè)置為8。后續(xù)智能體與車道關(guān)系的多頭注意力交互深度與輪次設(shè)置為3,注意力頭數(shù)設(shè)置為8。除最終的軌跡解碼器之外,所有層都擁有128個特征通道。損失函數(shù)中的權(quán)重參數(shù) ω 設(shè)置為0.9,Argoverse1和Argo-verse2數(shù)據(jù)集都訓(xùn)練50個epoch,batchsize設(shè)置為4。訓(xùn)練任務(wù)中,實驗采用分段恒定學(xué)習(xí)率,前5個epoch學(xué)習(xí)率設(shè)置為5×10-5 ,6~40個epoch學(xué)習(xí)率設(shè)置為 3×10-4 ,最后使用 5× 10-5 的學(xué)習(xí)率直到訓(xùn)練結(jié)束。

3.4 性能對比分析

本文在Argoverse1和Argoverse2兩個運動預(yù)測數(shù)據(jù)集上進行了對比實驗,表1為Argovers1數(shù)據(jù)集測試集上的對比實驗結(jié)果,表2為Argoverse2數(shù)據(jù)集驗證集上的對比實驗結(jié)果。

表1Argoverse1運動預(yù)測數(shù)據(jù)集實驗結(jié)果Tab.1Results on Argoverse1 motion forecastingdatasel

表2Argoverse2運動預(yù)測數(shù)據(jù)集實驗結(jié)果

Tab.2Results on Argoverse2 motion forecasting dataset

由表1可知,相較于強化學(xué)習(xí)為基礎(chǔ)的物理約束模型PRIME方法,EMATNet的學(xué)習(xí)與泛化能力有明顯增強,更適合復(fù)雜交通環(huán)境的運動預(yù)測任務(wù),在minADE、minFDE和MR三個指標(biāo)上分別提升了 37.7% (20 .26.9% 和 8.3% 。基于圖卷積網(wǎng)絡(luò)與空間聚合特征的LaneGCN、基于圖注意力的PAGA與GANet方法相比,由于圖網(wǎng)絡(luò)局部信息依賴于鄰節(jié)點聚合,多層堆疊后易產(chǎn)生過平滑問題且長距離節(jié)點依賴捕捉能力有限,EMANet基于邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò),有效提高了模型遠距離依賴捕捉能力,在三個指標(biāo)上分別優(yōu)化了 5.0%~12.6% ) .1.7%~16.2% 和 8.3%~31.3% 。HiVT方法在SceneTransformer基礎(chǔ)上對Transformer框架實施分層建模,提高特征交互效率,但其采取MLP直接解碼,EMATNet通過兩階段式解碼,在保證準(zhǔn)確性的基礎(chǔ)上也兼顧了預(yù)測結(jié)果的合理性,在MR指標(biāo)上降低了 15.4% ,且因其更強的特征感知能力,minFDE與minADE性能也均有提升。DenseTNT方法將傳統(tǒng)基于規(guī)則錨點轉(zhuǎn)換為密度概率學(xué)習(xí),而LAformer方法則利用一階段預(yù)測為錨定軌跡,有效處理動態(tài)與場景約束持續(xù)對齊問題,EMATNet引人對稱位姿邊更新,保留視角不變下的魯棒性并提升感知能力,在minFDE與minADE指標(biāo)上均獲得提升。Attention-Linear方法采用線性注意力預(yù)測框架,Wayformer方法基于注意力與分層融合策略,而ProphNet方法在注意力的基礎(chǔ)上引人場景感知錨點信息,EMATNet方法兩階段式交互策略有效提升了異構(gòu)特征顯性表征能力,在三個指標(biāo)上均取得良好成績,表現(xiàn)出極強的競爭力。

如表2所示,本文在Argoverse2運動預(yù)測數(shù)據(jù)集驗證集上進一步驗證EMATNet模型的有效性,并與MultiPath、DenseTNT、HiVT和Movement-DenseTNT方法進行性能對比。Argo-verse2運動預(yù)測數(shù)據(jù)集的任務(wù)是基于智能體5s歷史狀態(tài)預(yù)測未來6s的運動軌跡,即相較于Argoverse1具有距離更長的依賴關(guān)系與更復(fù)雜的交通環(huán)境。由表2可知,EMATNet方法相較基于概率密度的DenseTNT與Movement-DenseTNT在更長的預(yù)測距離上,三項性能指標(biāo)上分別優(yōu)化了 12.2%~15.1% 17.5%~10.8% 和 13.7%~20.8% 。相較基于Transformer的HiVT方法在三項指標(biāo)上分別提升了 18.6%.25.6% 與 34.5% 。

綜上,EMATNet在兩階段式特征交互中引入邊更新與多頭注意力交互融合Transformer,有效提升模型多源異構(gòu)交互能力與全局長依賴捕捉能力,兩段式解碼保證預(yù)測軌跡的合理性,從而增強模型預(yù)測結(jié)果的準(zhǔn)確性與泛化性。

3.5 可視化結(jié)果分析

車輛在城市交通環(huán)境下的行駛經(jīng)常處于復(fù)雜車況中,如十字路口、輔路匝道等,圖5展示了EMATNet模型在Argoverse1和Argoverse2運動預(yù)測數(shù)據(jù)集中幾種不同車況下的可視化預(yù)測結(jié)果。

在預(yù)測結(jié)果可視化分析中,智能體位置與歷史軌跡用藍色表示,綠色表示真實未來軌跡且真實終點通過星形標(biāo)記,預(yù)測的智能體未來可能軌跡采用帶箭頭的紅色曲線表示,無效智能體機器軌跡采用灰色表示(見電子版)。

如圖5(a)(d)(f)所示,EMATNet通過智能體與周圍交通環(huán)境的兩階段式特征交互與兩階段式解碼,結(jié)合智能體歷史狀態(tài),在具有復(fù)雜路況的十字路口,EMATNet模型可以正確預(yù)測車輛的轉(zhuǎn)彎或者直行行為,同時可以預(yù)測如無障礙直行加速、轉(zhuǎn)彎時減速等駕駛行為,符合真實交通車況,在圖5(b)(e)中的輔路入出的交通情景下的表現(xiàn)也較為良好。

圖5EMATNet模型預(yù)測結(jié)果可視化

Fig.5Visualization of EMATNet model predictionresults

4結(jié)束語

本文針對目前主流的基于Transformer或圖注意力的軌跡預(yù)測模型,在異構(gòu)交互特征的表征層面仍存在的局限性,智能體與交通環(huán)境信息間特征交互不完全、不充分的問題,提出了邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)的EMATNet軌跡預(yù)測模型。首先,將智能體的歷史狀態(tài)與交通環(huán)境信息通過編碼網(wǎng)絡(luò)進行嵌入;其次,送入提出的邊更新與多頭注意力交互融合Transformer網(wǎng)絡(luò)進行兩階段式深度交互,充分獲取智能體與交通環(huán)境間的關(guān)系信息,有效強化模型感知能力;接著,通過終點預(yù)測模塊預(yù)測可靠端點來細(xì)化未來軌跡,有效提高輸出軌跡的準(zhǔn)確性與合理性;最后,通過軌跡解碼器解碼出最終預(yù)測結(jié)果。本文在Argoverse1和Argoverse2兩個主流的運動軌跡預(yù)測數(shù)據(jù)集上對EMATNet模型進行實驗驗證,并與近年來的多種基線算法進行性能比較,且對預(yù)測結(jié)果進行可視化分析。結(jié)果表明,EMATNet模型能夠有效應(yīng)用于多智能體軌跡預(yù)測任務(wù)。本模型在實驗中將所有交通參與者都作為智能體引入,未探究其類型如行人、非機動車的具體影響;同時,軌跡在物理條件下的合理性還有提高空間,這些內(nèi)容將作為未來工作的研究重點。

參考文獻:

[1]HuangYanjun,Du Jiatong,Yang Zewei,et al.Asurvey on trajectorypredictionmethods for autonomous driving[J]. IEEE Trans on IntelligentVehicles,2022,7(3):652-674.

[2]Xie Guotao,Gao Hongbo,Qian Lijun,et al.Vehicle trajectory prediction by integrating physics-and maneuver-based approaches using interactivemultiplemodels[J].IEEETrans on Industrial Electronics,2017,65(7):5999-6008.

[3]WangYijing,Liu Zhengxuan,Zuo Zhiqiang,et al.Trajectoryplanningand safety assessment of autonomousvehicles based on motion predictionand modelpredictivecontrol[J].IEEETranson VehicularTechnology,2019,68(9):8546-8556.

[4]Deo N,Rangesh A,Trivedi MM. How would surround vehicles move?A unified framework for maneuverclassification and motion prediction[J].IEEETranson InteligentVehicles,2018,3(2): 129-140.

[5]Chai Yuning,SappB,Bansal M,et al.MultiPath:multiple probabilistic anchor trajectory hypotheses for behavior prediction[EB/OL]. (2019-10-12).https://doi.org/10.48550/arXiv.1910.05449.

[6]Gao Jiyang,Sun Chen,Zhao Hang,et al.VectorNet:encoding HD maps and agent dynamics from vectorized representation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020:11522-11530.

[7]NgiamJ,CaineB,VasudevanV,etal.Scene Transformer:a unified architecture for predicting multiple agent trajectories [EB/OL]. (2021-06-15) . https://doi.org/10. 48550/arXiv. 2106.08417.

[8]Da Fang, Zhang Yu. Path-aware graph attention for HD maps in motion prediction[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2022:6430-6436.

[9]Zhou Zikang,Ye Luyao,Wang Jianping,et al. HiVT: hierarchical vector transformer for multi-agent motion prediction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022:8823-8833.

[10]Wang Xishun,Su Tong,Da Fang,etal.Prophnet:eficient agentcentric motion forecasting with anchor-informed proposals[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:21995-22003.

[11]Liao Haicheng,Li Yongkang,Li Zhenning,et al. A cognitive-based trajectory prediction approach for autonomous driving[J].IEEE Transon IntelligentVehicles,2024,9(4):4632-4643.

[12]Lan Zhengxing,Liu Lingshan,F(xiàn)an Bo,et al.Traj-LLM: a new exploration for empowering trajectory prediction with pre-trained large language models[J/OL]. IEEE Trans on Intelligent Vehicles. (2024-06-27) .https://doi.org/10.1109/TIV.2024.3418522.

[13]喬少杰,韓楠,丁治明,等.多模式移動對象不確定性軌跡預(yù)測 模型[J].自動化學(xué)報,2018,44(4):608-618.(Qiao Shaojie, Han Nan,Ding Zhiming,et al.Amultiple-motion-patern trajectory prediction model for uncertain moving objects[J].Acta Automatica Sinica,2018,44(4):608-618.)

[14]李文禮,韓迪,任勇鵬,等.基于交互車輛軌跡預(yù)測的自動駕駛 車輛軌跡規(guī)劃[J].計算機應(yīng)用研究,2023,40(2):519-525, 538.(Li Wenli, Han Di,Ren Yongpeng,et al. Trajectory planning ofautonomousvehicle based on interactive vehicle trajectory prediction[J].Application Research of Computers,2023,40(2): 519-525,538.)

[15]楊榮淼.基于時空特征融合的車輛行為識別與軌跡預(yù)測[D]. 重慶:重慶交通大學(xué),2024.(Yang Rongmiao.Vehicle behavior recognition and trajectory prediction based on spatio-temporal feature fusion[D].Chongqing:Chongqing Jiaotong University,2024.)

[16] Song Haoran,Luan Di,Ding Wenchao,et al.Learning to predict vehicle trajectories with model-based planning[C]//Proc of Conference on Robot Learning.[S.1.]:PMLR,2022:1035-1045.

[17]Liang Ming,Yang Bin,Hu Rui,et al.Learning lane graph representations for motion forecasting[C]//Proc of the16th European Conference on Computer Vision.Berlin:Springer International Publishing,2020:541-556.

[18]顧一凡,莫磊.一種基于運動狀態(tài)的軌跡預(yù)測方法[J].計算機 應(yīng)用研究,2025,42(4):1080-1084.(GuYifan,MoLei.Trajectory prediction method based on motion state [J]. Application ResUaIuI UIOuIpuIcio,zU∠J, ∠:100U-1004.)

[19]Gu Junru,Sun Chen,Zhao Hang.DenseTNT:end-to-end trajectory prediction from dense goal sets [C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2021:15283-15292.

[20]Ye Maosheng,Cao Tongyi,Chen Qifeng.TPCN:temporal point cloud networks for motion forecasting[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2021:11313-11322.

[21]Ye Luyao,Wang Zezhong,Chen Xinhong,et al. GSAN:graph selfatention network for interaction measurement in autonomous driving [C]//Proc of the 17th IEEE International Conference on Mobile Ad hoc and Sensor Systems.Piscataway,NJ: IEEE Press,202O: 274-282.

[22]Wang Mingkun, Zhu Xinge,Yu Changqian,et al.GANet: goal area network for motion forecasting[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press, 2023:1609-1615.

[23] Cui A, Casas S,Wong K,et al. GoRela: go relative for viewpointinvariant motion forecasting[C]//Proc of IEEE International Conference on Roboticsand Automation.Piscataway,NJ:IEEE Press, 2023: 7801-7807.

[24]Nayakanti N,Al-Rfou R, Zhou A,et al.Wayformer:motion forecastingvia simpleamp; efficient attention networks[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press,2023: 2980-2987.

[25]Wang Baoyun,He Lei, Song Linwei,et al. Attention-linear trajectory prediction[J].Sensors,2024,24(20):6636.

[26]Ge Xianlei,Sen Xiaobo,Zhou Xuanxin,et al.HTTNet:hybrid Transformer-based approaches for trajectoryprediction[J].Bulletin of the Polish Academy of Sciences Technical Sciences,2024, 72(5):150811.

[27]Liu Mengmeng,Cheng Hao,Chen Lin,et al.LAformer:trajectory prediction for autonomous driving with lane-aware scene constraints [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,,2024: 2039-2049.

[28]Charles RQ,Hao Su,Mo Kaichun,et al.PointNet:deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2017:77-85.

[29]Vaswani A,Shazeer N,Parmar N. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017: 6000-6010.

[30]Chang Mingfang,Lambert J,SangkloyP,et al. Argoverse:3Dtracking and forecasting with rich maps [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 8740-8749.

[31]WilsonB,QiW,Agarwal T,et al.Argoverse 2:next generation datasets for self-driving perception and forecasting[EB/OL]. (023- 01-02).htps://doi.org/10. 48550/arXiv.2301.00493.

主站蜘蛛池模板: 日本高清成本人视频一区| 免费在线国产一区二区三区精品 | 国内精品免费| 在线看免费无码av天堂的| 久久久久免费看成人影片| 91美女视频在线| 国产一级精品毛片基地| 最新亚洲人成无码网站欣赏网 | 久久综合丝袜日本网| 亚洲美女视频一区| 久久久久久国产精品mv| 国产精品私拍在线爆乳| 高清免费毛片| 日韩精品成人网页视频在线| 国产传媒一区二区三区四区五区| 日本欧美视频在线观看| 亚洲V日韩V无码一区二区| 在线无码九区| 伊人色天堂| 国产爽妇精品| 18禁不卡免费网站| 亚洲欧州色色免费AV| 久久精品91麻豆| 5555国产在线观看| 91人人妻人人做人人爽男同| 亚洲精品爱草草视频在线| 91无码视频在线观看| 亚洲色偷偷偷鲁综合| 久精品色妇丰满人妻| 91久久青青草原精品国产| 免费视频在线2021入口| 天天色天天综合网| 久久久久人妻一区精品色奶水 | 欧美a级在线| 国产95在线 | 91麻豆精品国产91久久久久| 98精品全国免费观看视频| 国产精品亚洲专区一区| 亚洲高清资源| 99视频在线免费| 欧美午夜久久| 日韩123欧美字幕| 999福利激情视频| 婷婷成人综合| 国产www网站| 狠狠色噜噜狠狠狠狠色综合久| 中国国产高清免费AV片| 亚洲人成影院午夜网站| 欧美高清视频一区二区三区| 国产丰满大乳无码免费播放| 黄色三级网站免费| 人人澡人人爽欧美一区| 婷婷99视频精品全部在线观看| 国产乱码精品一区二区三区中文| 日韩最新中文字幕| 伊人久久大线影院首页| 国产va在线| 亚洲欧州色色免费AV| 国产区91| 久久香蕉国产线看观看精品蕉| 国产精品久久久久久久伊一| 午夜日b视频| 久草性视频| 成人在线天堂| 青青草原偷拍视频| 九九热免费在线视频| 精品人妻一区二区三区蜜桃AⅤ | 欧美中文字幕第一页线路一| 久久综合丝袜长腿丝袜| 久久亚洲美女精品国产精品| 亚洲无码精彩视频在线观看| 呦女亚洲一区精品| 欧美成人亚洲综合精品欧美激情| 毛片一区二区在线看| 国产网站免费观看| 中美日韩在线网免费毛片视频| 在线免费观看AV| 免费看的一级毛片| 伊人色婷婷| 国产成人一级| 国产精品午夜电影| 成人午夜视频在线|