基于MADDPG 算法的匝道合流區多車協同控制

2024-12-15 00:00:00蔡田茂孔偉偉羅禹貢石佳姬鵬霄李聰民

汽車安全與節能學報 2024年6期

摘要：為了保障匝道合流區的安全高效通行，提出了一種基于多智能體強化學習算法的多車協同控制方法。以提升系統計算效率為目標，設計了基于多智能體確定性策略梯度算法（MADDPG）的分布式訓練框架；針對智能體模型難以應對連續車流場景的問題，通過構建相對靜止環境，改進策略更新梯度，保障智能體面向連續車流環境的平穩性；拆分匝道合流區場景為準備區和匯入區，分別依據兩區域控制目標設計了狀態、動作空間及獎勵函數。結果表明：在不同交通流量下，與基于規則的方法相比，該方法通行合流區的總延誤時間平均縮短25.46%；與全局優化方法相比，延誤時間相差8.47%，但控制時長上不會隨車輛數量增加而增長。該文所提出匝道合流區多車協同控制方法能夠更好地兼顧通行效率提升與系統實時性。

關鍵詞：多智能體確定性策略梯度算法（MADDPG）；多智能體強化學習；多車協同控制；匝道合流

中圖分類號： U 491.1 文獻標識碼： A DOI： 10.3969/j.issn.1674-8484.2024.06.014

匝道合流區域作為高速公路與其他道路交匯的關鍵部分，常常成為交通擁堵和事故高發區域[1]。而隨著智能網聯汽車（intelligent connected vehicles，ICV）技術的進步，車與車之間得以信息共享[2] ，在匝道合流場景下，主線車輛和匝道車輛之間可以通過綜合協調控制避免軌跡沖突，開展智能網聯環境下的匝道合流區多車協同控制方法研究，對于提升匝道合流區車輛行駛安全性與道路整體通行效率有著重要意義[3]。

目前，針對匝道合流問題的多車協同控制方法研究以優化方法為主流[4]。東南大學劉暢[5] 采用混合整數線性規劃和動態規劃實現合流次序優化，并構建了考慮車輛動力學的多車安全合流軌跡規劃方法。XULinghui 等[6] 將以主道車輛行駛時間最小和合流車輛數量最大為優化目標，采用遺傳算法求解最優合并順序。HUANG Tianyu 等[7] 則設計了一種雙層動態規劃的求解方法以縮短計算時長，上層尋找最優合并次序，下層在給定的合并策略中優化車輛軌跡。XUE Yongjie 等[8]側重降低匝道車流匯入對主道交通的干擾，應用灰色預測模型與模型預測控制分別完成多車的規劃與控制。

然而，基于優化的方法計算復雜度往往會隨車輛增加急劇增長，實際應用中計算資源需求較大[9]。在此背景下，基于深度強化學習的方法因其能夠實現離線訓練的特性，因而具有較好的實時性[10]，在匝道合流區多車協同控制問題上具有獨特優勢。

基于強化學習的匝道合流研究方法中，單智能體強化學習相關研究主要以匝道車輛為研究對象，探究單車匯入場景為主[11]，較少考慮多車交互，而多智能體強化學習則在多車協同方面有獨特優勢，目前多數研究集中應用在非信控交叉路口，少數學者開始探索將其應用于匝道場景。ZHOU Shanxing 等[12] 采用多智能體確定性策略梯度（multi-agent deep deterministic policygradient，MADDPG）算法解決了混合交通下的匝道匯入問題，著重降低匝道匯入過程中的能耗，其協同車輛數目局限在3 輛車。ZHUANG Huanbiao 等[13] 使用集中式訓練、分布式執行架構的多智能體近端策略優化（multi-agent proximal policy optimization，MAPPO）算法研究無信控交叉路口下的車輛協同問題，協同車輛數目最多為4 輛ICV 與5 輛重型車輛（heavy-dutyvehicles，HDV）。CHENG Dong 等[14] 面向含有HDV的混合交通匝道合流場景提出了具有動作掩蔽、局部獎勵、課程學習與參數共享等特點的分布式架構多智能體強化學習算法，最多實現6 輛ICV與5 輛HDV 的匯入場景。

綜上，多智能體強化學習方法在解決匝道合流區多車協同控制問題上，相較優化方法與單智能體強化學習方法兼顧了實時性與通行效率[15]，但是在當前研究中，普遍存在協同車輛數量少的問題，訓練場景多側重應對固定數量智能體場景[16]，較少探究連續車流解決方案。

因此，本文提出了一種基于多智能體深度確定性策略梯度算法的匝道合流區多車協同控制方法。基于匝道合流場景建立分布式MADDPG 算法訓練架構；針對連續車流訓練場景中智能體環境動態變化的問題，通過構建相對靜止環境，改進策略更新梯度，拓展協同車輛數目；在此基礎上，為準備區與匯入區分別設計狀態、動作空間及獎勵函數，構建匝道合流區訓練環境進行模型訓練并提出模型合并應用方法；最后，本文選取現有典型的全局優化方法與基于規則的方法作為對比算法，對所提出匝道合流控制方法的高效性與實時性進行驗證。

1 問題描述

本文的研究場景為圖 1 所示在理想通信條件下的高速公路匝道合流區，區域內車輛均為智能網聯車輛，通過車端無線通信設備與路側單元交換信息。合流區道路分為主道與匝道，加速車道區域位于匝道末端，在該區域內車輛可以換道并入主道中。為了優化強化學習訓練效果，減小單個回合內智能體任務量，本文將如圖1 所示的匝道合流區劃分為加速車道前800 m 的準備區與200 m 長含加速車道區域的匯入區，并根據匝道合流區不同區域，拆解匝道合流的任務，制定不同控制目標與訓練方案。