999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于物理信息強化學習的無人駕駛車輛跟馳控制模型

2025-08-03 00:00:00周瑞祥楊達祝儷菱
計算機應用研究 2025年6期
關鍵詞:加速度車輛物理

中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2025)06-012-1691-07

doi:10.19734/j. issn.1001-3695.2024.11.0473

Physics-informed reinforcement learning-based car-following control model for autonomous vehicles

Zhou Ruixiangla,Yang Dalb,Zhu Liling2+ (1.a.ScholeicoptiouUit China;2.School ofBusiness,SichuanNormal University,Chengdu 61o1oo,China)

Abstract:Car-folowing controlisafundamental technique forautonomous driving.Inrecentyears,einforcementlearning hasbeenwidelyadopted incar-folowing tasks,enabling models toexhibit strong learning andimitationcapabilities.However, reinforcement learning-based modelsface chalenges such aspoor interpretabilityandunstableoutputs,which pose potential safetyrisks.Toaddresstheseissues,thispaper proposedaphysics-informedreinforcementlearningcar-following model.The model incorporatedvehicledynamics,defined continuous stateandaction spaces,andintegrated threeclasicalcar-following models withreinforcementlearning to enhancestabilityand interpretability.Itconstructedasimulationenvironmentbyusing PythonadtheSUMOtraficsimulatortotrainthePIRL-CFmodel.Comparativeexperiments wereconductedagainsttraditional car-folowing modelsandmainstreamdeepreinforcementlearning models(DDPGandTD3).Experimentalresultsshowthat the PIRL-CF model improves the proportion of comfort zones by 8% compared to deep reinforcement learning models. Additionaly,itincreasestheminimumtime-to-colisionbyO.3sandtheaverageheadwaydistancebyO.21scomparedtotraditional models.Theseresultsdemonstratethat thePIRL-CFmodelachieves abalanceofsafety,comfort,anddri-ving effciency in car-following tasks,providing an efective solution for autonomous driving decision-making.

Key Words:vehicle folowing;reinforcement learning;depth deterministic strategy gradient;physical information

0 引言

近年來無人駕駛技術受到了世界范圍內的廣泛關注,其中車輛跟馳控制是無人駕駛的基礎控制技術之一。車輛跟馳控制能夠確保車輛在不同交通條件下的安全行駛,有效提高了道路交通安全性和行駛效率。同時,它也是實現高級別自動駕駛的關鍵技術支撐,為未來的智能交通系統奠定了重要基礎。

隨著人工智能技術的發展,通過人工智能的方法進行無人車的跟馳控制成為了無人車控制的一個前沿發展方向。Panwai等人[利用BP神經網絡建立的跟馳模型展現出優于Gipps模型的預測精度。Zhang等人[2基于LSTM神經網絡對NGSIM數據集進行訓練,建立了跟馳和換道模型。Ma等人[3]提出的seq2seq跟馳模型,不僅能重現真實跟馳軌跡,還能模擬異質性駕駛行為,其性能優于傳統IDM模型。相較于傳統的基于固定規則的車輛控制算法,基于深度強化學習的模型可以更好地應對復雜多變的實際交通場景。文獻[4]提出了一種基于雙前車跟馳結構的縱向控制算法,該算法通過人類駕駛員試驗收集數據,建立前車加速度變化的隨機模型,并將其引入深度強化學習訓練中,從而有效考慮前車運動的隨機性。Shi等人[5]基于深度強化學習提出了一種協同縱向控制策略,適用于混合交通流環境。實驗結果顯示,該模型能夠在不同滲透率的混合交通流環境下有效完成安全、節能的跟馳任務。He等人[探討了不同風險水平下的自適應車輛軌跡控制問題,設計了一種深度自適應控制算法,根據實時交通風險調整車輛行駛軌跡。Peng等人[7]提出了一種雙層決策模型,重點考慮車道變換和跟車決策的優先級和邏輯,上層模型使用D3QN算法,下層模型使用DDPG算法,并進行了兩者的耦合訓練以提高協調性,實驗結果表明雙層模型在SUMO中將駕駛速度提高了 23.99% ,表現出比其他模型更高的有效性。近年來,TD3算法因其改進的穩定性和性能,逐漸成為車輛跟馳領域的領先方法。例如,文獻[8]提出基于TD3的寬窄路段高精度、高效率跟車策略,與傳統方法相比,TD3顯著提高了交通效率和舒適性,同時減少了跟車誤差,驗證了TD3在動態環境中的適用性和優勢。Zheng等人[9]提出了一種結合軟碰撞避免策略的TD3模型,通過引入多步預測和衰減系數調整減速度值,顯著提升了駕駛舒適性和能耗表現,同時保持較高的安全性。這些研究進一步驗證了TD3在車輛跟馳控制領域的先進性和應用潛力。然而,在復雜的交通場景中,傳統車輛跟馳模型和現有的強化學習模型均存在明顯不足:前者雖有較好的物理理論穩固性和行為穩定性,但難以適應動態多變的實際交通環境,后者雖具備較強的學習能力,但其輸出不穩定性和可解釋性差增加了實際應用的風險。此外,跟馳控制模型對道路利用率、乘車舒適性和安全性的綜合平衡要求較高,這進一步提升了控制任務的復雜性。因此,開發一種能兼顧安全性、舒適性和效率的車輛跟馳控制模型成為亟待解決的問題。針對上述問題,近年來一些研究嘗試將強化學習與其他方法相結合,以彌補傳統強化學習模型的不足。例如,文獻[10]提出的DDPGoF模型結合深光流估計技術感知周圍動態環境,在復雜場景下顯著提升了安全性和穩定性。文獻[11]提出的RL-SL混合模型結合了DDPG 算法和監督學習,并通過引入人類駕駛參考模型(PCRM)和前車運動不確定性模型(MUMPV),在提高跟馳控制性能的同時增強了模型的擬人化特性。文獻[12]提出了基于TD3和CACC的自適應卡爾曼混合策略,通過動態調整混合系數,顯著提升了混合交通流中的跟車安全性。文獻[13]提出了結合LSTM和TD3的個性化車輛跟馳模型(LSTM-TD3),通過捕捉駕駛員的歷史行為特征,并設計個性化獎勵函數,有效提高了模型的收斂速度和累積獎勵值。這些研究在個性化控制、多模態感知和動態環境適應性方面取得了重要進展,但仍存在輸出不穩定、策略可解釋性不足等問題。

近年來,物理信息強化學習(physics-informedreinforcementlearning,PIRL)在自動駕駛車輛運動規劃[14]、飛機沖突解決[15]、機器人控制[16]、氣候預測[17]等諸多領域取得了矚目進展,展現出廣闊的應用前景。EISamadisy等人[18]提出的SE-CRM模型,成功地利用物理信息強化學習解決了傳統強化學習跟馳模型面臨的安全性問題。然而,該模型僅將物理信息用于安全約束,尚未充分發揮物理知識對探索過程的指導作用。

本文提出了一種基于物理信息強化學習的車輛跟馳控制方法(physics-informed reinforcement learning car-following mod-el,PIRL-CF)。PIRL-CF通過借鑒物理信息神經網絡(PINN)[19\~21]的思想,引人車輛動力學特性等物理信息,為強化學習的策略優化提供明確的理論約束,減少不合理的策略探索,提升了模型決策過程的可解釋性。通過縮小策略搜索范圍,顯著提升了模型的學習效率和穩定性,并為動作輸出提供了指導,緩解了輸出不穩定帶來的安全隱患。相比于DDPGoF模型主要依賴感知層的多模態優化,PIRL-CF模型無須復雜的多模態感知系統,而是通過直接引人物理信息對強化學習策略進行約束,從而顯著提升了模型的魯棒性和穩定性。相較于RL-SL混合模型,PIRL-CF采用更簡潔的結構,實現了策略輸出的物理可解釋性,同時避免了復雜模型在訓練和部署過程中高成本的負擔。本研究通過Python與交通仿真軟件SUMO搭建仿真測試平臺,與傳統車輛跟馳模型及深度強化學習模型(包括DDPG和TD3)進行對比實驗,旨在驗證PIRL-CF模型在提升車輛跟馳安全性、舒適性及跟車效率方面的有效性。

1模型建立

1.1模型框架

本文建立了一個基于物理信息強化學習通用的無人車跟馳控制框架,適用于已完成物理跟馳模型標定的跟馳場景。該模型在傳統的深度確定性策略梯度(DDPG)算法的基礎上,引人了物理跟馳模型,包括了IDM模型[22]、Gipps 模型[23]和OV模型[24],并對強化學習過程進行了改進和優化。PIRL-CF模型通過結合物理信息和獎勵函數,改進了策略迭代的過程,并形成一個綜合性的動作模塊。該模塊同時利用物理信息和Actor網絡輸出相應的期望動作,確保決策過程在符合物理定律的基礎上得以優化。不同于基于傳統DDPG算法的模型,PIRL-CF模型中的Actor網絡更新不再僅僅取決于由Critic網絡產生的策略梯度,還與動作模塊中的物理信息相關。這種結構確保模型在符合物理定律的前提下優化決策過程。這種融合方式給出明確的約束邊界,使學習過程更高效且符合物理定律,從而提升模型的可解釋性和魯棒性,并且獎勵函數定義了期望的最優目標,為物理信息引導下的策略優化注人價值偏好,促使模型在滿足客觀物理規律約束的前提下,進一步朝著最優化方向收斂。該模型框架如圖1所示。

圖1PIRL-CF模型結構Fig.1PIRL-CFmodel structure

1.2基于DDPG算法的車輛跟馳模型

1.2.1狀態空間和動作空間設計

在本文建立的物理信息強化學習車輛跟馳(PIRL-CF)模型中,狀態空間的選取基于車輛跟馳控制的核心需求,以及現有基于運動學的物理跟馳模型的理論基礎。車輛在跟馳過程中,需要通過傳感器獲取與領航車輛的間距、速度差以及自身的動態狀態,以實現安全性、舒適性和效率的綜合優化。因此,狀態空間的設計應能全面反映這些關鍵信息。首先,無人車與領航車輛的間距 di 是描述車輛間相對位置關系的重要變量,也是判斷安全性的重要依據。安全車距的維持直接關系到跟馳車輛是否能夠在緊急情況下避免碰撞。其次,無人車與領航車輛的速度差 Δvi 用于衡量兩車速度的相對變化趨勢,是調整加速度以實現穩定跟馳的重要依據。無人車當前車速 vi 反映了車輛的動態性能,并直接影響行車效率。此外無人車當前加速度 ai 是影響舒適度的重要因素,將當前加速度作為狀態變量能夠幫助模型優化舒適性目標。綜合上述考慮,本文的狀態空間被設定為四維,具體包括無人車與領航車輛的間距 di 無人車與領航車輛的速度差 Δvi 、無人車當前車速 vi 以及無人車當前加速度 ai 。與狀態空間相比,動作空間則較為簡單,即無人車的期望加速度 a 。模型的狀態集和動作集設置如表1所示。表1中 dmax 為傳感器進行有效探測的最遠距離,當車間距超過該值時視為跟車失敗; vmax 為道路最高限速, vmin=-vmax :amin 為無人車的最大減速度, amax 為無人車的最大加速度。

表1狀態集及動作集Tab.1 State setand action set

1.2.2 獎勵函數設計

在無人車跟馳場景中,模型需要綜合權衡多個關鍵因素以實現最佳性能。本文提出的車輛跟馳模型采用模塊化設計方法,分別構建了安全獎勵函數、效率獎勵函數和舒適獎勵函數,這三者共同組成了復合獎勵函數。

通常安全距離的計算是由領航車輛最短制動距離、跟馳車輛最短制動距離和預留的安全距離相加得到。然而,考慮到領航車輛可能發生事故而導致其制動距離過短,本文的安全距離不考慮領航車輛的制動距離。安全距離 Dsafe 是無人車最短制動距離和預留的安全距離之和。設置距離安全獎勵目的是避免無人車進入危險區間,由此可得到距離安全獎勵函數 Rd

跟車安全除了要考慮安全距離,還應滿足道路的限速條件,避免無人車超速行駛。速度獎勵函數 Rv

另外,當兩車發生碰撞,需要給一個負反饋來避免這種情況發生。碰撞獎勵函數 Rc

距離安全獎勵函數 Rd 、速度獎勵函數 Rv 和碰撞獎勵函數Rc 按照不同權重組成安全性獎勵函數 R1

R1=kdistanceRd+kspeedRv+kcollideRc

其中: kdistance 為安全獎勵系數; kspeed 為速度獎勵系數; kcollide 為碰撞獎勵系數。在保障安全的前提下,兩車距離同樣可以用于衡量行車效率。當兩車距離過長,道路的利用率就會下降,本文通過實踐發現,采用0.2倍左右的 Dsafe 作為高效行車區間時模型訓練效果較好,故高效行車獎勵函數 Re

另外,當無人車采取的跟馳策略過于保守時,兩車間距會不斷拉大,直到超出傳感器的有效探測距離 dmax ,導致跟車失敗。由此,當距離大于 dmax 時應給出一個較大的負反饋,有效探測距離獎勵 Rf

跟馳效率獎勵函數 R2 由高效行車獎勵 Re 、有效探測距離獎勵 Rf 按照不同權重組成。

R2=kefficiencyRe+kdetectionRf

其中: kefficiency 為高效行車獎勵系數; kdetection 為有效探測距離獎勵系數。另外,舒適性與車輛加速度絕對值大小和加速度的變化率相關,兩者數值越接近0則舒適性越好。由此可得到舒適性獎勵函數 R3

其中: a 為無人車當前加速度; a 為無人車期望加速度; as 為動作空間最大絕對值; amax 和 amin 分別對應最大加速度和最小減速度; kcomfort 為行車舒適獎勵系數。

最終,綜合以上三個因素的獎勵函數為

1.3基于物理規則的車輛跟馳模型

本文選取了三個物理跟馳模型作為PIRL-CF模型的物理信息,分別為IDM模型[22]、Gipps模型[23]和OV模型[24]

IDM模型是當前被公認的較為完整且簡潔的跟馳模型,屬于期望度量類模型。IDM模型立足于這樣一個基本假設:駕駛員在跟馳過程中會竭力維持諸如行駛速度、車頭間距等期望量度值于某一穩定水平。IDM模型的一大優勢在于,模型中各參數皆有明晰的物理含義,使其能直觀地刻畫駕駛行為的動態演變特征。IDM模型的基本表達式為

其中: σv 代表跟馳車輛在 χt 時刻的車速; Δv 代表跟馳車輛在 χt 時刻與領航車輛的速度差; Δs 代表在 χt 時刻的車輛間距; 代表跟馳車輛期望車速; σ 為加速度指數; Φa 代表跟馳車輛期望最大加速度; b 代表跟馳車輛最大減速度, 代表最小安全間距; τ 代表期望的安全時距。Gipps模型是由英國學者Gipps在1981年提出的一種車輛跟馳模型,該模型綜合考慮了駕駛員的期望行為和防撞原則,屬于基于安全距離的模型類型。與追求最小跟馳距離的純安全距離模型不同,Gipps模型的目標是在滿足一定安全距離約束的前提下,確定后車期望達到的理想速度。

Gipps模型的基本表達式為

其中: τ 為駕駛員的反應時間; vn(t) 為 χt 時刻跟馳車輛的速度;an 為跟馳車輛能夠采取的最大加速度; 為跟馳車輛在當前交通環境中的期望車速; bn 為跟馳車能夠采取的最大減速度;bn-1 為領航車輛能夠采取的最大減速度; xn-1(t) 為 χt 時刻領航車所在位置; xn(t) 為 Ψt 時刻跟馳車所在位置; ln-1 為領航車輛的車身長度。OV模型主要利用車間距優化速度函數描述駕駛員確定車輛最優行駛速度的動態過程,其數學表達式為

其中: α 表示駕駛員敏感系數; vmax 為跟馳車輛期望達到的最高車速; hc 為期望車輛間距。

1.4強化學習與物理信息融合車輛跟馳模型

在傳統的深度確定性策略梯度(DDPG)算法框架中,獎勵函數僅通過評估Critic網絡間接引導Actor網絡的參數迭代,這一過程存在一定的不確定性和潛在風險。尤其是在面臨復雜多目標優化問題時,如車輛自動跟馳場景,單一獎勵函數設計往往難以準確刻畫綜合期望,導致模型的整體表現效果不佳,并且缺乏可解釋性和魯棒性。

針對上述問題,本文提出的物理信息強化學習車輛跟馳(PIRL-CF)模型創新性地融合了物理規律信息,將其與獎勵函數協同作用于Actor網絡的策略迭代過程。具體而言,物理信息與Actor網絡共同構成了PIRL-CF模型的動作模塊。該模塊中的物理信息包含了環境運動變化的客觀規律,能夠為Actor網絡提供明確的約束邊界,引導其高效學習符合物理定律的跟馳策略,提升模型的可解釋性和魯棒性。同時,獎勵函數則定義了期望的最優目標,為物理信息引導下的策略優化注入價值偏好。這種設計促使模型在滿足客觀物理規律約束的前提下,進一步朝著最優解收斂。如圖2所示,PIRL-CF模型的動作模塊上半部分是基于運動學原理的物理信息,與下方的Actor網絡共享相同的輸入 Si ,輸出為物理信息所對應的期望動作 aiphy 。在物理信息部分,每個圓形節點代表一個物理變量,節點之間的連接邊與相關的超參數關聯,這些超參數需要在訓練前確定。下半部分為Actor網絡,網絡中的每個節點表示一個帶有激活函數的神經元,節點之間的連接邊關聯著待訓練的權重參數。Actor網絡的輸出為下一時間步的期望動作a。

圖2PIRL-CF的動作模塊Fig.2Action module ofPIRL-CF

在PIRL-CF模型的初始階段,向經驗池存入經驗的過程與傳統DDPG算法相似。如圖1所示,無人車不斷地將其獲取的經驗數據傳輸至經驗池中進行累積。待經驗池中的數據量達到一定數量后,采用隨機抽樣的方法從池中選取 N 個經驗樣本對PIRL-CF模型展開進一步的優化訓練。優化過程首先由目標Critic網絡(記為 Q )接收目標Actor網絡(記為 μ )輸出的動作 ,并計算該樣本的目標 Q 值 yyi 的計算為

其中: γ 為強化學習中的衰減系數,該值是一個用于衡量未來獎勵的折扣因素,取值在 0~1;Q 代表目標Critic網絡; θQ′ 代表目標Critic網絡的訓練參數 代表目標Actor網絡, θμ′ 代表目標Actor網絡的訓練參數。

隨后,將 yi 傳遞至損失函數(記為 L )。Critic網絡(記為Q )利用梯度下降算法對其參數 θQ 進行迭代優化,不斷縮小估計值與真實值之間的差距。為了提升算法的穩定性,模型采用了軟更新策略,每隔一定的訓練步數后,將當前網絡的參數以一個較小的比例替換目標Critic網絡的參數 θQ′ 。損失函數 L 計算為

Critic網絡更新完成后,接下來更新動作模塊。與傳統DDPG算法不同,PIRL-CF模型中的物理信息通過目標函數的梯度也參與到策略網絡的更新過程中。圖3展示了PIRL-CF模型中動作模塊的更新流程。

圖3PIRL-CF模型中動作模塊更新流程Fig.3ActionmoduleupdateflowchartinPIRL-CFmodel

圖3中, Si 表示 N 個抽樣樣本中的第 i 個經驗樣本的跟車狀態,由兩車間距 hi 、兩車速度差 Δvi 、跟馳車輛當前車速 vi 和跟馳車輛當前加速度 ai 構成。該樣本進人PIRL-CF的動作模塊后,分別經由物理信息和Actor網絡處理,生成期望加速度aiphy 和 ainn ,并通過Critic 網絡計算該樣本的 Q 值。

接下來,動作模塊依次處理其余樣本,分別計算輸出期望加速度的均方誤差(記作MSE)和樣本平均 Q 值(記作 ),得出目標函數(記作 J) 。其中,加速度的均方誤差MSE的計算為

樣本平均 Q 值 的計算為

目標函數 J 的計算為

其中: α 為物理信息參與指導Actor網絡的重要性系數,取值大于等于0,當 α=0 時,PIRL-CF模型即為采用傳統DDPG算法訓練的模型。

最后,通過采用梯度上升法,計算目標函數梯度 ablaθμJ, 更新Actor網絡參數 θμ 。至此,完成PIRL-CF模型的一輪迭代。目標函數梯度 ablaθμJ 計算為

算法1PIRL-CF模型的訓練算法

根據仿真場景設置并結合實驗標定物理信息中的超參數 θλ

隨機初始化Critic網絡和Actor網絡c

θQ′θQ θμ′θμ 初始化目標網絡 Q 和 μ

初始化經驗池 P (202

for episode =1 M do重置仿真環境,獲取初始狀態 s1 for t=1 T and未出現跟車失敗do根據當前狀態 st 給出下一步跟馳車的加速度 at=μ(stu) (2號跟馳車輛執行動作 at ,記錄新狀態 st+1 并計算出獎勵值 rt 將經驗樣本 (st,at,rt,st+1) 存入經驗池 P (2號從經驗池 P 中隨機抽取 N 條經驗樣本 (si,ai,ri,si+1) 計算Critic網絡目標值 yi ,見式(13)通過最小化損失函數更新Critic網絡,見式(14)由動作模塊得到 aiphy=λ(siλ) , ainn=μ(siμ) 計算目標函數,見式(15) ~ (17)通過目標函數梯度上升更新 Actor網絡,梯度計算見式(18)軟更新目標網絡: θμ′τθμ+(1- (204號 τ)θμ′ end for

end for

2 實驗與結果分析

本文通過交通仿真軟件SUMO和編程語言Python對傳統的DDPG-CF模型及本文提出的PIRL-CF模型進行訓練和測試,并將相關的物理跟馳模型加人測試對照組,對測試結果進行全面分析。本文使用的編程語言Python版本為3.11.4,Py-Torch版本為2.0.1,仿真軟件SUMO版本為1.16.0。用于實驗的硬件平臺配置如下:CPU為IntelCorei9,GPU為GeForceRTX2080,內存為 3\" 2 .

2.1 實驗場景設計

在訓練階段,為了使模型具備更好的適應性,對領航車輛的加速度設置了較大的隨機性來模擬多變的道路車況。具體表現為,領航車輛會在每 50~100 個仿真步(每個仿真步設置為0.1s)間的某個時刻,在一定范圍內隨機調整自身加速度。在訓練的每個回合開始前,都會重置訓練環境,重置后的領航車在道路縱向坐標 100m 處,訓練車在 80m 處,初始速度同為10m/s 。在測試過程中,領航車輛的加速度受嚴格控制。

物理跟馳模型的標定使用了由美國NGSIM(nextgenera-tion simulation)研究計劃提供的高精度車輛軌跡數據集[25]該數據集提取出包括車輛類型、位置、速度、加速度、車頭間距等多樣化信息,形成完整的車輛軌跡數據,完全滿足車輛跟馳建模研究中開發、校正和檢驗的基本需求。需要標定的物理模型參數均為各物理模型中難以由環境信息給出,需要通過大量跟馳經驗進行標定的部分參數。基于確定性物理信息的PIRL-CF模型超參數說明如表2、3所示。

2.2 實驗結果分析

2.2.1模型訓練結果分析

為更精確評估模型訓練效果,本文設計了周期性仿真測試機制。每當模型完成5個訓練回合后,便會自動進行仿真測試。每次測試會執行10次連續跟車任務,并取其平均值作為評估指標,以提高結果的可靠性。

圖4展示了各模型在仿真測試中的平均 Q 值變化趨勢。圖(a)\~(e)分別為DDPG-CF、TD3-CF、PIRL-CF(IDM)、PIRL-CF(Gipps)和PIRL-CF(OV)模型在訓練過程中每回合Critic網絡對動作的平均 Q 值。從圖4可以看出,前200回合各模型的Q 值均穩步快速提升,在300回合之后, Q 值基本保持在高位并出現小幅振蕩,表明價值網絡已趨于穩定。值得注意的是,圖(c)\~(e)的振蕩幅度略大于其他模型,這是由于在訓練過程中,PIRL模型的物理信息引導Actor網絡在追求獎勵最優和兼顧物理信息約束之間不斷平衡。

Tab.2Parametersrelated tophysical informationinPIRL-CF表3PIRL-CF訓練相關超參數
表2 PIRL-CF中物理信息相關參數Tab.3PIRL-CF training related hyperparameters

圖5展示了各模型在訓練過程中,每回合智能體的動作回報總獎勵,反映了Actor網絡的學習情況。

從圖中可以看出,前200個回合內各模型快速積累總獎勵,并在500回合后達到一個高位振蕩的狀態,且振蕩幅度相比之前明顯收窄。結合圖5中各模型Critic網絡給出的數據,可以判斷Actor網絡均已完成訓練。圖6展示了各模型訓練過程中無人車的跟車失敗次數。

可以明顯看出,圖(a)中的碰撞次數遠高于其他模型。這表明DDPG-CF模型的碰撞次數遠高于其他模型。在迭代過程中,DDPG-CF模型總是難以避免地在某些場景下采取危險行為。即使在某些回合內獲取了安全策略,也會因為過于追求高額獎勵而快速轉為高危策略。相比之下,TD3-CF模型在400回合后,跟車失敗次數明顯減少。這得益于TD3算法采用了雙評價網絡和延遲更新方法,使得動作網絡的更新更加安全和穩定。PIRL-CF模型通過將強調安全的物理信息有效引入訓練過程,使得跟馳小車更多地在安全范圍內進行探索,碰撞次數大幅減少,安全策略的持續時間更長。這表明PIRL-CF模型很好地實現了安全策略與追求高額獎勵的有機結合。

2.2.2模型測試結果分析

根據上述測試場景設計,本文分別對IDM、Gipps、OV、DDPG-CF、TD3-CF、PIRL-CF(IDM)、PIRL-CF(Gipps)和 PIRL-CF(OV)模型進行了測試。各模型在測試過程中的車輛間距與跟馳車速如圖7所示。

(a)測試組1車間距趨勢 (b)測試組2車間距趨勢 (c)測試組3車間距趨勢(d)1號車跟車速度趨勢 (e)2號車跟車速度趨勢 (f)3號車跟車速度趨勢

圖7(a)\~(c)展示了在跟馳過程中,1號車與領航車、2號車與1號車、3號車與2號車之間的車間距離變化情況;圖(d) ~ (f)則分別展示了在同一過程中1號車、2號車、3號車的速度變化情況。觀察圖(a)\~(c)可知,OV模型在該場景下的表現明顯異常,控制下的車輛未能保持安全距離,導致該模型控制的2號跟馳車在60s處與1號跟馳車發生了碰撞。而其他種模型的跟馳距離變化則較為平緩,均未發生碰撞。觀察圖(d)\~(f可以發現,同樣除OV模型外,其余模型的跟馳車輛速度變化趨勢較為接近,車輛速度變化更為平穩,沒有出現突變的情況。相較之下,0V模型分別在1號跟馳車15s和27s左右出現了速度突變,OV模型控制的其他跟馳車也存在類似情況。這意味著在這些區域,OV模型輸出的加速度出現了很大的轉變,這將非常影響乘車舒適性。為進一步分析各模型的輸出情況,并驗證PIRL-CF模型的安全性和魯棒性,記錄了跟車過程中,各跟馳車輛的加速度變化情況,在跟車過程中,跟馳車輛的加速度及加速度變化率jerk對跟車舒適度有著決定性影響,加速度和jerk越小,則舒適度越高 ,jerk 的定義為

其中: Δt 為本文的仿真步長,取值為 0.1s

本文參考ISO2631-1標準[26]提出的舒適加速度閾值0.80m/s2 ,以及Hoberock[27]給出的舒適jerk閾值 2.94m/s3 ,低于加速度閾值的區間為加速度舒適區,低于jerk閾值的區間為jerk舒適區,同時低于這兩個閾值的區間定義為乘車舒適區。表4展示了不同模型控制下,跟馳車輛在整個跟車過程中,各舒適區的時間占比。如表4所示,相較于傳統強化學習算法訓練的DDPG-CF和TD3-CF模型,引入物理信息的PIRL-CF系列模型由于模型魯棒性的改善,在乘車舒適度方面有了較大提升。值得注意的是,PIRL-CF(OV)模型的舒適度要大于OV模型,這是因為OV模型在設計上并未考量車輛的性能上限。這導致在此次跟車場景下,OV模型給出了大量超過跟馳車性能上限的加速度,最終發生了碰撞,在舒適性上與IDM和Gipps差距較大。PIRL-CF(OV)則在與環境交互的探索過程中,克服了這一缺陷。

表4各模型舒適區占比Tab.4Comfort zone ratio ofeach model

在交通領域中,碰撞時間(time-to-collision,TTC)衡量了跟馳車輛與前車發生碰撞的時間間隔,最低碰撞時間越大,表明整個跟馳過程的安全裕度越高。車頭時距(time headway,THW)則表示跟馳車輛達到前車位置的時間間隔,在跟馳過程中,車流的平均車頭時距越小,說明車流的行車效率越高。

圖8展示了跟車過程中,不同時刻的車流最低碰撞時間和平均車頭時距。

圖8(a)(b)分別展示了不同跟馳模型在測試過程中,車流的最小碰撞時間和平均車頭時距變化情況。為方便觀察,圖中選取了重點考察區間。觀察圖(a)可以發現,DDPG-CF模型在前車急剎車的場景下,車流中出現了較低的碰撞時間,而加入物理信息引導的PIRL-CF系列模型則顯著改善了這一問題。與發生了碰撞的OV模型相比,PIRL-CF(OV)模型在安全性上提升明顯,總體而言,PIRL-CF系列模型在安全性表現上優于其他模型。觀察圖(b)可以發現,DDPG-CF模型控制的車流在跟馳過程中,平均車頭時距幾乎始終保持最低,展現出最高的行車效率。相比之下,PIRL-CF系列模型的表現則介于DDPG-CF模型和物理模型之間。表5記錄了各模型控制的車流在跟馳過程中的最低碰撞時間和車流的平均車頭時距。

(a)各模型最小碰撞時間變化趨勢 (b)各模型平均車頭時距變化趨勢

表5各模型最低碰撞時間和平均車頭時距Tab.5Minimum collision time and average headway of each model /:

如表5所示,相對于傳統強化學習算法訓練的DDPG-CF和 TD3-CF 模型,本文提出的PIRL-CF(IDM)、PIRL-CF(Gipps)和PIRL-CF(OV)模型在相同獎勵函數的引導下,通過引入物理模型作為策略更新的安全性約束,雖然在行車效率上略有犧牲,但顯著提升了無人車跟馳過程中的安全性,充分體現了物理信息引導下的策略優化優勢

3結束語

本文提出了一種創新的PIRL-CF無人駕駛車輛跟馳模型框架,結合物理信息與強化學習,解決了傳統車輛跟馳模型和深度強化學習算法在車輛跟馳任務中適應性差、安全性低、舒適性不足的問題。該模型在傳統的深度確定性策略梯度(DDPG)算法的基礎上,引入了先驗物理知識,對強化學習過程進行了改進和優化,通過引入物理知識賦予模型更好的可解釋性和魯棒性,減少了決策邏輯不透明帶來的安全隱患和輸出不穩定的問題。通過構建仿真測試環境,本文對建立的PIRL-CF模型進行了對比實驗,與傳統車輛跟馳模型相比,PIRL-CF模型在保證安全性的前提下,提升了無人車跟馳控制的行車效率,將平均車頭時距最多提升了 0.21s 。與深度強化學習模型(DDPG和TD3)進行對比,PIRL-CF模型的乘車舒適區占比提升了 8% ,并且PIRL-CF模型在不影響行車效率的情況下,將無人車跟馳控制中的最低碰撞時間提升了 0.3s? 。在相同環境下,基于PIRL-CF模型框架訓練的模型在乘車舒適性和安全性上要優于基于傳統深度強化學習算法的跟馳模型。實驗表明,本文的PIRL-CF模型是兼顧了舒適性、安全性和行車效率的無人車跟馳模型。但本文提出的PIRL-CF模型還存在不足,例如,過度依賴傳感器數據可能導致在傳感器故障情況下模型魯棒性的下降,以及缺少在具有動態干擾和高密度交通流場景中對模型性能的驗證。未來可嘗試將物理信息與更先進的強化學習算法結合,并探索視覺與激光雷達等多模態數據的融合,以進一步提升模型性能和適用范圍。

參考文獻:

[1]Panwai S,Dia H.A reactive agent-based neural network car following model[C]//Proc of IEEE Intelligent Transportation Systems.Piscataway,NJ:IEEEPress,2005:375-380.

[2]ZhangXiaohui,Sun Jie,QiXiao,et al.Simultaneousmodeling of car-following and lane-changing behaviors using deep learning[J]. Transportation Research Part C:Emerging Technologies, 2019,104:287-304.

[3]Ma Lijing,Qu Shiru.A sequence to sequence learning based car-following model for multi-step predictions considering reaction delay [J].Transportation Research Part C:Emerging Technologies, 2020,120:102785.

[4]朱冰,蔣淵德,趙健,等.基于深度強化學習的車輛跟馳控制 [J].中國公路學報,2019,32(6):53-60.(ZhuBing,Jiang Yuande,ZhaoJian,etal.Acar-followingcontrol algorithmbasedon deepreinforcement learning[J].China Journal of Highwayand Transport,2019,32(6):53-60.)

[5]Shi Haotian,Zhou Yang,Wu Keshu,et al.Connected automated vehiclecooperativecontrol withadeepreinforcement learningapproach inamixed traffic environment[J].TransportationResearchPart C:EmergingTechnologies,2021,133:103421.

[6]He Yixu,Liu Yang,YangLan,et al.Deep adaptive control:deep reinforcementlearning-basedadaptivevehicletrajectorycontrol algorithmsfordifferentrisk levels[J]. IEEETranson IntelligentVehicles,2024,9(1):1654-1666.

[7]Peng Jiankun, Zhang Siyu, Zhou Yang,et al. An integrated model for autonomous speed and lane change decision-making based on deep reinforcement learning[J].IEEE Trans on Intelligent Transportation Systems,2022,23(11): 21848-21860.

[8]Qin Pinpin,Wu Fumao,Bin Shenglin,et al. High-accuracy,highefficiency,and comfortable car-following strategy basedon TD3 for wide-to-narrow road sections[J].World Electric Vehicle Journal, 2023,14(9):244.

[9]ZhengYuqi,YanRuidong,Jia Bin,etal.Soft collisionavoidance based car following algorithm forautonomous driving with reinforcementlearning[J].Physica A:Statistical Mechanicsand Its Applications,2024,654:130137.

[10]Zhou Jianhao,Chang Jiaqing,Guo Aijun,et al.A cooperative carfollowing control model combining deep optical flow estimation and deep reinforcement learning for hybrid electricvehicles_[J].Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering,2024,238(10-11):3121-3139.

[11]Song Dongjian,Zhu Bing,Zhao Jian,et al.Personalized car-following control based on a_hybrid ofreinforcement learningand supervised leaming[J]. IEEE Trans_on Intelligent Transportation Systems,2023,24(6):6014-6029.

[12] Zheng Yuqi,Yan Ruidong,JiaBinjiang,etal.Adaptive Kamanbased hybrid car-following strategy using TD3 and CACC [EB/OL]. (2023-12-26). https://arxiv.org/abs/2312.15993.

[13]Liao Yaping,Yu Guizhen,Chen Peng,et al.Modelling personalised car-folowingbhaviour:amemobseddeeeiforcementleaing approach[J].Transportmetrica A:Transport Science,2024, 20(1) : 36.

[14]Wang Xiao.Ensuring safety of leaing-based motion planers using control barrier functions_[J].IEEE Robotics and Automation Letters,2022,7(2): 4773-4780.

[15]Zhao Peng,LiuYongming.Physics_informed dee reinforcement learning for aircraft conflict resolution[J]. IEEE Trans on Inteligent Transportation Systems,2022,23(7) : 8288-8301.

[16]Johannink T,Bahl S,Nair A,et al.Residual reinforcement learning for robot control[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ: IEEE Press,2019: 6023-6029.

[17]Kashinath K, Mustafa M,Albert A, et al. Physics-informed machine learning:case studies for weather and climate modelling [J]. Philosophical Transactions Series A,Mathematical,Physical,and Engineering Sciences,2021,379(2194):20200093.

[18]ElSamadisy O,Shi Tianyu,Smirnov I,et al.Safe,efficient,and comfortable reinforcement-learning-based car-following forAVswith ananalytic safety guarantee and dynamic target speed[J].Journal of the Transportation Research Board, 2024,2678(1) : 643-661.

[19]Raisi M,Perdikaris P,Karniadakis GE.Physics informed deep learning (partI):data-drivensolutionsof nonlinear partial diffrential quations[EB/OL]. (2017-11-28). https://arxiv.org/abs/1711.10561.

[20]Raisi M,PerdikarisP,Karniadakis G E. Physics informed deep learning(part II):data-driven discoveryofnonlinear partial differential equations [EB/OL]. (2017-11-28). https://arxiv.org/abs/ 1711. 10566.

[21]RaissiM,PerdikarisP,KarniadakisGE.Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial diffrential equations[J].Journal of Computational Physics, 2019, 378: 686-707.

[22]Treiber M, Hennecke A,Helbing D. Congested traffc_states in empirical_observations and microscopic simulations_[J]. Physical Review E, Statistical Physics, Plasmas, Fluids,and Related Interdisciplinary Topics,2000,62(2A): 1805-1824.

[23]Gipps PG.Abehavioural car-following model for computer simulation [J].Transportation Research Part B:Methodological,1981, 15(2): 105-111.

[24]Tang T Q,Huang HJ, Zhao S G,et al. An extended OV model with consideration of driver’s memory[J]. International Journal of Modern Physics B,2009,23(5): 743-752.

[25]CoifmanB,Li Lizhe.A critical evaluationof the next generation simulation(NGSIM)vehicle trajectory dataset[J].TransportationResearchPartB:Methodological,2017,105:362-377.

[26]Mechanical vibration and shock-evaluation of human exposureto whole-body vibration-part1:general requirements:ISO 2631-1:1997 [S].[S.l.]:International Organization for Standardization,1997.

[27]Hoberock LL.A survey of longitudinal acceleration comfort studies in ground transportationvehicles[J].Journal of Dynamic Systems, Measurement and Control,1977,99(2):76-84.

猜你喜歡
加速度車輛物理
“加速度”概念進階理解與突破
農用車輛ABS制動特性及轉鼓試驗研究
考慮換道壓力增益的高速公路分流區跟馳模型
考慮換道壓力增益的高速公路分流區跟馳模型
例談運用現代技術測量加速度
車輛質量自適應估計方法研究
汽車電器(2025年7期)2025-08-10 00:00:00
安徽岳西:訂單無人機“飛”出加速度
科學導報(2025年47期)2025-08-05 00:00:00
高樓一有風就會晃,為何我們感覺不到
只因是物理
井岡教育(2022年2期)2022-10-14 03:11:44
處處留心皆物理
主站蜘蛛池模板: 国产精品综合久久久| 漂亮人妻被中出中文字幕久久| 亚洲高清在线播放| 成人在线观看一区| 亚洲天堂成人在线观看| 国产成人艳妇AA视频在线| 看av免费毛片手机播放| 亚洲精品国产精品乱码不卞| 亚洲免费三区| 亚洲综合第一页| 白丝美女办公室高潮喷水视频| 成人在线不卡视频| 538国产视频| 国产亚洲现在一区二区中文| 国产成人一区二区| 中文字幕不卡免费高清视频| 在线观看视频99| 色呦呦手机在线精品| 色国产视频| 欧美激情伊人| 精品午夜国产福利观看| 免费在线观看av| 青青国产成人免费精品视频| 一区二区无码在线视频| 成人综合在线观看| 久久黄色小视频| 久久精品无码一区二区国产区| 视频在线观看一区二区| 天天综合网色| 曰韩人妻一区二区三区| 国产男人天堂| 91成人在线免费视频| 国产婬乱a一级毛片多女| 午夜啪啪福利| 毛片免费视频| 波多野结衣无码AV在线| 亚洲精品少妇熟女| 国产免费自拍视频| 亚洲AⅤ无码国产精品| 国产一区二区三区精品欧美日韩| 中国国产高清免费AV片| 婷婷色中文网| 国产原创自拍不卡第一页| 亚洲国产日韩欧美在线| 国产美女叼嘿视频免费看| 亚洲欧洲自拍拍偷午夜色| 91日本在线观看亚洲精品| 久久精品视频一| 国产精品久久国产精麻豆99网站| 114级毛片免费观看| 九九九精品成人免费视频7| 久久中文字幕2021精品| 欧美亚洲欧美区| 丝袜亚洲综合| 日韩AV无码免费一二三区| 国产欧美日韩视频怡春院| 国产福利不卡视频| 亚洲第一视频网| 国产91视频免费| 久久国语对白| 国产玖玖视频| 亚洲乱亚洲乱妇24p| 亚洲狼网站狼狼鲁亚洲下载| 欧美一级在线播放| 国产美女主播一级成人毛片| 2022精品国偷自产免费观看| 亚洲香蕉在线| 久久久久国产精品免费免费不卡| 久久中文无码精品| 国产麻豆精品久久一二三| 久久精品aⅴ无码中文字幕| 亚洲中文字幕av无码区| 亚洲一区二区成人| 视频在线观看一区二区| 久久香蕉欧美精品| 亚洲水蜜桃久久综合网站| 91亚洲视频下载| 激情综合网激情综合| AV不卡在线永久免费观看| 伊人蕉久影院| 亚洲欧美日韩动漫| 欧美区国产区|