






摘 要:當前在交通信號控制系統中引入智能化檢測和控制已是大勢所趨,特別是強化學習和深度強化學習方法在可擴展性、穩定性和可推廣性等方面展現出巨大的技術優勢,已成為該領域的研究熱點。針對基于強化學習的交通信號控制任務進行了研究,在廣泛調研交通信號控制方法研究成果的基礎上,系統地梳理了強化學習和深度強化學習在智慧交通信號控制領域的分類及應用;并歸納了使用多智能體合作的方法解決大規模交通信號控制問題的可行方案,對大規模交通信號控制的交通場景影響因素進行了分類概述;從提高交通信號控制器性能的角度提出了本領域當前所面臨的挑戰和未來可能極具潛力的研究方向。
關鍵詞:智能交通;交通信號控制;強化學習;交通信號燈;多智能體;大規模交通網絡
中圖分類號:TP18 文獻標志碼:A文章編號:1001-3695(2024)06-003-1618-10
doi: 10.19734/j.issn.1001-3695.2023.08.0419
Review of reinforcement learning and deep reinforcement learning methods in large-scale intelligent traffic signal control
Abstract:At present, it is a general trend to introduce intelligent detection and control into traffic signal control system, especially reinforcement learning and deep reinforcement learning methods show great technical advantages in scalability, stability and extensibility, and have become a research hotspot in this field. This paper studied traffic signal control tasks based on reinforcement learning, systematically sorted out the classification and application of reinforcement learning and deep reinforcement learning in the field of intelligent traffic signal control on the basis of extensive research results on traffic signal control methods, and summarized feasible solutions to large-scale traffic signal control problems by using multi-agent cooperation. This paper classified and summarized the factors affecting the traffic scene of large-scale traffic signal control, put forward the current challenges and potential research directions in this field from the perspective of improving the performance of traffic signal controllers.
Key words:intelligent transportation; traffic signal control; reinforcement learning; traffic light; multiple agents; large-scale traffic network
0 引言
隨著智能網聯道路系統等級的不斷提高,交通控制體系正在向著信息化、智能化和自動化的方向發展。在此大背景下形成的智能交通信號控制系統能夠以海量的交通數據為基礎,利用人工智能的方法,對區域協調控制方案進行優化,從而有效提高道路交叉口的交通效率,減緩道路壓力,降低車輛延誤和排隊長度[1]。
智能交通信號控制系統一般由數據采集與處理、協調控制方案生成和實時態勢評價三部分組成,如圖1所示。其中,數據采集與處理模塊旨在對視頻、地磁等交通檢測器檢測數據和GPS、車聯網等互聯網大數據進行獲取與解析,并轉換為符合協調控制模型要求的數據格式。協調控制方案生成模塊優化交叉口通行決策,對交通信號進行協調控制,提高交叉口通行效率等指標。實時態勢評價模塊旨在使用排隊長度等評價指標對協調控制方案的控制效果進行衡量,該模塊的實時反饋可以促進控制方案的改善。
已有的智能交通信號控制系統充分體現了人工智能技術的影響,例如英國的SCOOT系統[2]、美國的ACTRA和OPAC系統[3]、法國的CRONOS系統[4]、澳大利亞的SCATS系統[5]等。國內也出現了一批優秀的智能交通信號控制系統,包括HT-UTCS、南京NATS城市交通信號控制系統、海信HiCon交通信號控制系統、深圳SMOOTH智能交通信號控制系統等。此外,代表我國研究最新進展的新一代系統也不斷涌現,如天津大學賀國光教授團隊的TICS系統、同濟大學楊曉光教授團隊的TJATCMS系統以及吉林大學楊兆生教授團隊的NITCS系統等,這些系統能夠在不同的道路網絡條件和交通流特性下提供實時性和適應性的協同優化。
由于交通系統具有復雜性、時變性等特征,智能交通信號控制系統在實時性與魯棒性的提升方面面臨著巨大的挑戰。為解決這一問題,智能交通信號控制領域出現了不同的方法,包括基于交通理論的方法[6]、基于啟發式的方法[7]、數據驅動的方法等。近年來,數據驅動方法下的強化學習(reinforcement learning,RL)和深度強化學習(deep reinforcement learning,DRL)[8]被越來越多地應用于智能交通信號控制系統中。RL屬于自適應信號控制范疇,該方法能夠根據實時交通狀態自動生成信號控制方案。RL方法的優勢在于擯棄了復雜嚴苛的預定義數據模型,使智能體能夠在與環境的交互中學習,并不斷優化動作策略,更適合于復雜且動態的交通環境[9]。但是,由于RL所涉及的狀態空間可能會隨著研究問題規模的增大呈指數級增長,導致其需要更多的時間和計算資源。而深度學習(deep learning,DL)與RL方法的成功結合解決了這個問題,DRL能夠在有限的資源下有效減少探索到最優決策的學習時間。
隨著智能交通信號控制系統的規模不斷擴大,傳統的集中式單智能體控制策略已無法滿足區域整體的需求。因此,RL正在向著多智能體強化學習(multi-agent reinforcement learning,MARL)的方向發展。MARL是單智能體強化學習在復雜博弈環境中的擴展,它通過多個交叉口的RL智能體協同控制,不斷逼近交通網絡環境中的最優決策。然而,在解決網絡級交通信號控制(network traffic signal control,NTSC)問題時,可觀測的交通數據信息量與單點控制相比呈指數級增長,交通狀態空間的巨大導致大量的時間和計算資源消耗,同時也對信息存儲容量提出了更高的要求。因此,為了應對大規模交通信號控制問題,出現了多智能體深度強化學習(multi-agent deep reinforcement learning,MADRL)。MADRL將神經網絡與原始數據的抽象表示相結合,以處理與流量相關的復雜數據流,并能夠與多種方法和框架相結合,體現出其優異的性能。
在大規模交通網絡中由信號協同控制的研究中,一些文章對RL[10]、DRL[11]、多智能體系統[12]和其他模糊系統[13]等人工智能方法進行了綜述。然而,目前缺乏系統且全面的總結和分析。針對上述問題,本文收集了大規模智能交通信號控制領域的相關文獻,并總結了現有文獻的研究重點。同時,對從文獻中提取的數據進行了分析和描述,探索了該領域中的先進解決方HhQu7epvu2/BCce8RufzfuhqVtk+uYKvHkoc2U72g4o=案,并歸納了最近研究中面臨的挑戰。本文還提出了未來潛在的研究方向,特別關注了在大規模智能交通信號控制中應用的RL和DRL兩種方法,并探討了它們提供的創新思想和框架,這將有助于探索現有研究方案之間存在的差距。
1 強化學習在交通信號控制領域的應用
本章將聚焦于交通信號控制領域的典型方法,主要關注RL和DRL方法。首先,簡要概述了RL方法的組成要素,并分析了它們在交通信號控制領域中的含義。同時,探討了現有研究中表示交通狀態信息、決策內容和評價指標的方法。此外,將現有的RL方案按照智能體決策框架的不同進行了分類。接下來,詳細闡述了DRL在交通信號控制領域的應用方法,并分析了引入DRL的必要性和優越性。對現有的典型DRL框架進行了分類和闡述。
1.1 RL方法的應用
RL方法源于馬爾可夫決策過程(Markov decision process,MDP),它是一種用于在非確定性情況下進行決策優化的數學框架。MDP的組成部分包括狀態空間(state space,S)、動作空間(action space,A)、轉換函數(transition function,T)和獎勵函數(reward function,R)。MDP的優化目標是找到一個策略,使得智能體在任意狀態S下都能夠采取最佳動作A,從而最大化全局累積獎勵R。
在交通信號控制領域,RL智能體的狀態是指從環境中獲取的交通現狀,它需要在有限空間內充分體現整個區域全面的交通現狀。智能體的動作是對環境作出的反應,通常表現為對交通信號燈的相位進行切換,以改變交叉口環境中的交通流狀態,這些動作是智能體所要優化的對象。而獎勵是對智能體執行的動作“好”“壞”的反饋,智能體只有找到最大化獎勵的方法才能作出最優的決策。針對不同的應用場景,需要選擇不同的要素空間。在交通信號控制中,通常涉及以下要素表示方法。
最常用的狀態表示方法包括隊列長度、等待時間、相位狀態、車輛數量[14]、車輛位置和速度、RGB圖像[15]等。導航信息[16]也可以用于交通信號控制,通過挖掘多條導航路線的時空關系可以提取動態、實時的交通特征。對于具有多個交叉口的交通信號控制模型,狀態定義還涵蓋相鄰交通燈信息等[17]。
圖像是最能直觀和全面地表現交叉口交通狀態的方式之一。然而,原始RGB圖像反映的要素過多,難以提取有效信息。為了解決這一問題,在交通信號控制領域出現了一種稱為離散狀態編碼(discrete traffic state encoding,DTSE)的類圖像表示格式,它是最受關注的狀態表示方法之一。DTSE將每個交叉口的進口道劃分為均勻長度的單元,或者根據距離交叉口的遠近劃分為不同長度的單元,然后將車輛的速度、位置和加速度等信息以獨立的陣列形式顯示。圖2為DTSE的示意圖。
控制交通信號燈的動作主要可以分為基于相位和基于周期兩組。在這兩組動作中,周期長度、相位持續時間和相位順序是關鍵要素,它們可以是固定的或可變的。在基于周期的方法[18]中,決策點是周期的結束,決策內容包括周期長度、相位持續時間或相位順序。而在基于相位的方法[19]中,決策點是相位的結束,決策內容包括相位持續時間[20]和相位選擇[14]。在基于相位的方法中,可以將整個相位的持續時間設置為固定值,或者允許在相位結束時延長當前相位的綠燈時長。此外,從動作的連續性和離散性角度考慮,大多數研究使用一組離散動作進行決策,但也有少數研究考慮連續動作輸出[21]。連續動作空間的定義可以基于預定義的最小和最大相位持續時間,以預測當前相位的持續時間。在使用混合動作空間的研究中,離散動作表示相位選擇,連續動作對應相位持續時間[22]。
最常用的獎勵表示方法包括隊列長度、延誤時間、等待時間[18]、車輛數量[19,23]和燃料消耗等。通常情況下,為特定的交通場景定義單一的獎勵函數,然而一些研究提出了使用多個獎勵的方法[24],包括團隊獎勵。在多交叉口場景下,差異獎勵[25,26]可以解決合作智能體之間的信用分配問題,同時空間加權獎勵可以讓智能體差異化地考慮道路網絡中的相鄰智能體,以評估更優的協同策略。
RL智能體的行為表現為以下兩種形式:
a)學習狀態轉換函數T的基于模型的RL方法[27],如表1所示。在交通信號控制領域,文獻[28]引入了一種新的基于模型的方法,稱為MuJAM,該方法在實現大規模顯式協調的基礎上進一步提高了泛化能力。
b)無模型的RL方法,即不學習轉換函數。無模型的RL可以細分為基于價值的RL和基于策略的RL。在基于價值的RL中,智能體更新價值函數,該價值函數能夠反映狀態與動作之間的映射關系。而在基于策略的RL中,智能體使用策略梯度來更新策略。
在基于價值的RL方法中,價值函數Vπ(s)可以估計給定策略下某一狀態的價值,即獎勵的期望,從而反映該狀態對智能體的影響。通過對所有狀態的價值函數值進行累加,可以得到最優狀態值函數V*(s)。狀態-動作價值函數被稱為Q函數Qπ(s,a),用于反映狀態-動作對的期望獎勵。將狀態-動作對的Q值累加,得到最優Q函數Qπ(s,a)。
Q值使用貝爾曼方程的遞歸性質來計算:
Qπ(st,at)=Eπ[rt+γQπ(st+1,π(st+1))](1)
Q值的更新如下:
Qπ(st,at)←Qπ(st,at)+α(yt-Qπ(st,at))(2)
其中:yt是Qπ(st,at)的時間差分目標(temporal difference,TD)。
由于基于價值的RL方法需要存儲大量狀態-動作對的Q值,基于策略的RL方法在處理高維和連續空間問題時性能更優。基于策略的RL方法可以分為梯度和非梯度方法[29],其中基于策略梯度的RL方法展現出更優的性能,它利用目標函數J(θ)關于θ的梯度來選擇動作。
在著名的策略梯度算法REINFORCE[30]中,將期望獎勵作為目標函數,策略梯度計算為
θJ(θ)=Eπθ[Qπθ(s,a)θlog πθ](3)
參數θ的更新使用隨機梯度下降,在更新過程中,時間t處的獎勵Rt作為Qπθ(st,at)的估計值。
θ←θ+αθlog πθRt(4)
根據不同的模型框架,RL可以分為多種方法,包括Q-學習、SARSA、策略梯度下降(policy gradient,PG)、actor-critic等,如表1所示。使用不同的RL方法可以在一定程度上提高算法的魯棒性、速度和效率等性能。在選擇模型時,應考慮每種方法的優劣,以最大化模型的效能,并滿足不同應用場景的需求。
在基于模型的方法中,反向強化學習(inverse reinforcement learning,IRL)方法考慮到手動為任務設計獎勵函數的困難性,其通過觀察個體的行為來學習其目標、價值或獎勵,并通過觀察智能體隨時間的行為變化來確定獎勵函數。這種方法類似于向專家學習,有助于在不容易獲得獎勵的場景中進行應用,在交通信號控制領域可以充分體現其優勢。
學習分類器系統(learning classifier system,LCS)是一種基于規則的RL系統,每個規則由條件、動作和獎勵組成,構造為{if “條件” then “動作”}的形式。通過與遺傳算法的結合,LCS可以改善規則空間,從當前的強分類器中生成新的分類器并去除弱分類器,因此,RL智能體能夠選擇具有最佳獎勵響應的動作。
Q-學習和SARSA[31]是基于價值的RL算法中的兩個主要分支。Q-學習和SARSA之間的差異主要體現在值函數的更新過程。在Q-學習中,智能體的更新基于最大化值函數,而在SARSA中,智能體的更新基于從策略函數中導出的值。
W-學習是一種基于Q-學習的多策略自組織動作選擇技術。在W-學習中,智能體之間存在競爭關系,每個智能體學習狀態-動作對的Q值,并為每個策略和狀態計算W值,以便探索未執行指定動作的后果和影響。在將W-學習方法應用于大規模多智能體協同優化的過程中,與分布式算法相結合可以獲得良好的效果。
不同于基于價值的方法,PG方法無須對狀態或動作值函數進行估計。它通過搜索策略空間直接學習參數化的策略函數,并使用最大化累積獎勵來進行度量。通過這種方式,PG方法避免了值函數估計的收斂問題[32]。
actor-critic方法將基于值的critic算法和基于策略的actor算法相結合,其包含actor和critic兩個估計器。actor使用Q值函數的估計結果,而critic使用狀態價值函數的估計結果。基于策略的actor負責選擇動作,而基于價值的critic則用于評估actor所采取動作的好壞程度[33]。
1.2 DRL方法的應用
DRL是一種將兩種人工智能方法(即DL和RL)相結合的技術。DL[34]是一種相對較新的學習范式,它將由大量神經元層組成的多層感知器集成到RL方法中,這種整合已被證明可以解決原有方法的缺點[35]。對于RL來說,查找表來映射狀態空間會大大降低效率,已成為阻礙其在真實世界中應用的原因之一。盡管一些研究提出使用線性函數逼近方法來解決高維空間問題,但改進的程度非常有限。因此,采用DL進行函數逼近的優勢日益凸顯。在DRL中,神經網絡被用于訓練和學習策略函數和值函數[9]。下面是DRL方法的典型框架:
1)深度Q網絡(deep Q-network,DQN)
DQN是第一種DRL方法,在交通信號控制中已被廣泛應用。將人工神經網絡(artificial neural network,ANN)集成到Q-學習過程中的方法被稱為深度Q學習,使用ANN來近似Q函數的網絡被稱為深度Q網絡,因此DQN是一種Q-學習。如果用θ表示神經網絡中的參數,Q函數的近似可以表示為Q(s,a;θ)。與1.1節中介紹的Q-學習相比,深度Q學習算法使用深度神經網絡作為函數逼近器,取代了Q表來近似Q函數,從而使更大或連續的狀態空間的參數化表示成為可能[21]。DQN框架如圖3所示。
針對DQN的改進方法,文獻[36]提出了目標網絡和經驗回放這兩種新技術來穩定DQN的學習過程。目標網絡技術是指DQN模型由兩個相同結構的主網絡和目標網絡組成。主網絡用于控制Q函數的近似過程,而目標網絡則在模型訓練階段更新主網絡的參數。通過使用兩個獨立網絡進行更新,DQN能夠保證Q值估計的穩定性。經驗回放是指將狀態、動作和獎勵等經驗信息進行存儲。在網絡訓練過程中,存儲的經驗會被批次采樣以更新網絡參數。DQN通過經驗回放規避了數據的時間粘連性問題。此外,智能體每次只從經驗池中抽取較少的經驗用于訓練,無須使用所有的經驗數據,從而提高了訓練的效率。
然而,經驗回放技術雖然保證了隨機性,但忽略了經驗對訓練的差異性影響。為了解決這個問題,文獻[37]提出了優先經驗回放一種新的經驗數據采樣方法,即基于優先級的隨機抽樣。根據經驗的TD誤差,相應調整采樣的概率。TD誤差越大的經驗被采樣的概率越大,反之則越小。
2)雙決斗深度Q網絡(dueling double DQN,D3QN)
針對深度Q學習不收斂的問題,double和dueling兩種網絡架構的應用能夠充分提高DQN的穩定性。在DQN的基礎上同時使用以上兩種架構被稱為D3QN網絡,其在交通信號控制領域的應用中已經取得了良好的效果[38]。
針對double網絡架構,文獻[39]提出,在對損失進行最小化的過程中,令主網絡選取最優動作、目標網絡計算目標值,將主網絡動作選擇和目標網絡動作評估的估計量加倍。因此,double DQN不再使用目標網絡選擇期望獎勵最大化的Q值,而是將其與動作選擇部分取消關聯,能夠充分解決過估計的問題。
針對dueling網絡架構[40],分別為每個動作估計狀態價值函數和優勢函數。狀態價值函數可以計算當前狀態下所有動作值的平均期望,而優勢函數可以計算在選擇某一動作時,其值超出期望值的程度,從而體現出不同動作的差異。如果一個動作的優勢函數計算為正值,那么這個動作的性能超出平均水平,反之則低于平均水平。因此,dueling網絡架構能夠大幅提升學習效果,并加速收斂。
3)actor-critic方法
正如1.1節所述,actor-critic方法結合了基于價值和基于策略的算法的優勢,通過將actor-critic方法中的兩個函數逼近器用神經網絡代替,形成了一些深度方法。此外,并行計算與異步計算為加快算法的學習與訓練速度創造了條件,使智能體能夠在更短的時間內達到更優的收斂效果,從而有效提高智能體的性能。文獻[41]提出的異步多因子學習器模型證明了異步學習的優勢。另外,智能體的并行與異步能夠在短時間內提供更多的訓練數據,因此,智能體的異步更新不需要經驗重放機制,而是在預定義的周期內完成經驗的累積。基于此,異步優勢actor-critic算法(asynchronous advantage actor-critic,A3C)被廣泛應用,其使用并行處理器對策略和價值網絡進行單獨更新。
在actor-critic方法的基礎上,衍生出了一種稱為深度確定性策略梯度(deep deterministic policy gradients,DDPG)的算法。DDPG在狀態空間上估計確定性策略梯度方法,而不是同時在狀態和動作空間上估計隨機策略梯度。DDPG采用了雙網絡結構,結合函數近似和策略函數,同時使用經驗重放技術,使得神經網絡在概率算法中能夠以最高效率進行學習[42]。在MADRL領域,DDPG方法也得到了廣泛應用,例如文獻[43]研究了一種名為雙延遲深度確定性策略梯度算法,通過優化相位分割來控制交通信號。
2 多智能體合作方法在交通信號控制領域的應用
NTSC問題具有規模大、視界遠的特點,同時狀態和動作空間的連續性使問題的復雜度急劇增加。因此,建立NTSC模型是一項極具挑戰性的任務。在相關論文中,研究人員嘗試采用各種方法來改善NTSC的性能,例如使用函數逼近方法來處理維度變化,使用規模有限的智能體集合來降低問題復雜度,提高可擴展性、穩定性和優化速度,以及探索管理和推廣狀態或動作空間的可行性等。在MARL的研究中,涉及到智能體對環境的穩定性和適應性問題,使用分布式學習、合作學習和競爭學習等方法來解決。
本章從MARL和MADRL兩種合作框架的角度對大規模交通信號控制領域的問題進行了分析。首先,對MARL的三種子框架進行了闡述,并總結了每種子框架在現有研究中的應用成果;其次,討論了MARL與其他領域方法相結合的控制方法;然后,通過分析MADRL在解決非平穩性問題和結合分布式框架時的性能表現,展示了其在交通信號控制領域應用中的優勢;最后,總結了在現有研究中考慮交通場景等影響因素的解決方案。
2.1 MARL方法解決大規模交通信號控制問題
2.1.1 以RL方法為核心的MARL控制
根據大規模交通環境中智能體通信的方法和水平,道路網絡中的MARL控制模式可以分為完全獨立、部分合作和動作聯動。三種模式的算法示例如表2所示。
1)完全獨立的MARL控制
在完全獨立的MARL控制中,每個交叉口的智能體僅基于本交叉口區域內的環境狀態和獎勵信息來作出最優決策,與其他交叉口的環境狀態無關,即智能體之間缺乏協調機制。這種缺乏關聯的獨立控制使得單個智能體只能獲得有限范圍的環境數據,無法掌握全局環境狀況。因此,從大規模交通環境的整體控制效能來看,這種控制方法存在很大的局限性。以表1中的minimax-Q算法為例,它以minimax為基礎,使用Q-學習中的TD進行迭代更新。其優勢在于能夠在多智能體環境下保持相對穩定的性能,并避免采用過于貪婪的策略。但其收斂和學習速度慢,且不利于解決智能體合作問題。
2)部分合作的MARL控制
在部分合作的MARL控制中,每個交叉口的智能體能夠獲取附近上下游交叉口的環境數據。因此,這種控制方式擴展了完全獨立控制方式中的交通數據范圍,使得智能體能夠對其他交叉口的環境狀態作出反應,增強了智能體之間的交互能力。然而,該控制方式的缺點是沒有在全局范圍內系統地反映交通流的復雜動態信息。在這種控制方式中,多個智能體在相互通信的同時處理給定的任務,從其鄰居和自身學習,通常可以獲得更好的優化效果。例如表2中的MADDPG[44],其為中心式訓練,分散式執行(centealized training and decentralized execution,CTDE)的典型代表,critic采用全局信息進行訓練,actor采用局部信息進行動作獲取。該算法支持多智能體之間的協同決策,以保證最優化整個路網系統的性能。
為了實現多智能體之間的環境信息共享,分層和分布式協作框架在交通信號燈智能體之間的信息傳遞中起著關鍵作用。文獻[45]首次提出了分布式MARL方法,該方法可以存儲多個智能體周圍的信息,允許每個智能體在與鄰居通信的同時作出自己的決策[46]。文獻[47]在NTSC中的分布式計算機中使用了Q-學習算法。文獻[48]將LCS和基于TCP/IP的通信服務器結合到分布式學習控制策略中,以提高控制速度。
而分層控制既包含集中式控制智能體,又包含分布式控制智能體,可以通過多個區域智能體和一個集中的全局智能體來實現[49]。其中,每個區域智能體在有限范圍的區域內進行決策,而集中式全局智能體分層聚合其他區域智能體的數據,提高了結果的準確性,使系統達到最佳功能和效率。文獻[50]按照這種分層控制的思想,提出了一個具有一個“經理”和幾個“工人”的分層結構,以解決大規模交通信號控制的問題。文獻[27]將獎勵函數拆分為每個智能體的貢獻,并使用變量消除算法找到聯合動作,以確保在多智能體環境中實現協調控制。
3)動作聯動的MARL控制
在動作聯動的MARL控制中,聯合狀態取代了單個智能體的獨立狀態,聯合動作取代了單個智能體的獨立動作,通過多個智能體之間的聯合決策來逐步逼近最優決策。然而,這種控制方式導致了狀態和動作空間的維度大幅增加,從而對存儲功能和控制效率產生了較大影響。因此,在設計動作聯動方法時,需要充分考慮狀態和動作的數據結構、協調機制和值函數等因素。例如表2中的MAPPO、COMA[51]和VDN等算法,它們通過智能體之間共享參數和傳遞參數以進行集中式訓練,這表明智能體之間協作關系緊密,共同維護統一的獎勵。
在這種控制方式中,多個智能體收集的數據可以集中存儲在一個位置,所有智能體都可以訪問該位置。在這樣的設置中,通常由全局智能體來為系統作出所有決策,這會在參與協調的同時減緩學習過程。文獻[52, 53]提出了一種新的集中式控制方法,通過引入分解機制來處理高維狀態和動作空間,采用動作反饋技術改進決策,并應用圖注意力網絡模型(graph attention network,GAT)來學習周圍交叉口的空間特征,以有效地估計未來的獎勵。
為了解決動作聯動導致的維度空間過大的問題,在NTSC中,數據通信過程的計算范式成為一個新的研究領域,特別是邊緣計算和霧計算在NTSC中的應用成為熱門話題。圖4展示了一個通用的邊緣計算框架,由設備層和邊緣層組成。在大規模交通信號控制的應用中,設備層包括與車聯網相關的車輛、交通信號燈、路側單元等設備,而邊緣層則由每個運行MARL算法的終端和上層的控制端構成。智能體終端可以直接參與交通信號燈的切換,而控制端通過調整終端的RL學習率等參數來優化交通網絡。將邊緣計算框架應用于大規模交通信號控制中,能夠實現快速響應,并有效降低網絡負載。
文獻[54,55]設計了適用于NTSC場景的邊緣計算框架,并提出了一種基于MARL的合作NTSC算法,旨在解決維度災難問題,提供最小的響應時間,并減少網絡負載。此外,文獻[56]提出了一種針對大規模交通場景中擁堵問題的邊緣增強學習(edge-based RL,ERL)解決方案,以緩解復雜交通場景中的擁堵情況。另外,文獻[57]提出了一種基于霧計算范式的交通控制架構,通過為每個交叉口生成交通信號控制流和通信流,降低城市中交通擁堵的概率。文獻[58]利用霧節點來分解大規模網絡,并提出了基于霧計算的圖形增強學習(fog-based graphics RL,FG-RL)模型,可擴展到更大規模的交通網絡中。
2.1.2 RL與其他領域方法相結合的MARL控制
隨著RL方法的不斷發展和應用,出現了許多將RL方法與其他領域的研究方法相結合的混合方法,這些方法能夠在兩種或多種方法的基礎上互相補充,從而達到更優的控制效果。例如,RL與偏置壓力(bias pressure,BP)方法結合[59]、使用模仿學習來進行預訓練[60]、從博弈論角度充分考慮智能體之間的溝通和協調[61]、結合上下文檢測技術[62]等。
在分布式控制場景下,受生物免疫系統的啟發,文獻[63]使用基于人工免疫的網絡來實現智能體對干擾的捕獲、適應和處理,并結合基于案例的推理(case-based reasoning,CBR)方法來處理可能中斷的交通流。類似地,文獻[64]也采用CBR來處理事件的檢測和預測。針對大規模NTSC問題,文獻[38]采用圖分解方法,通過連接水平(level of connection,LOC)對交叉點進行聚類,能夠以同步的方式訓練網絡子圖。在考慮連續動作與狀態空間問題時,文獻[65]提出了一種集成模糊邏輯的方法,通過結合Q-學習和模糊邏輯來實現控制。此外,還可以考慮使用模糊規則控制分類器系統[66],以實現比分層控制更快的效果。
RL與群智能優化算法的結合在控制領域展現出了良好的效果。使用遺傳算法改變RL的要素參數,可以將局部智能體的優化與全局優化相結合[67]。群智能算法與Q-學習的結合能夠展現出比標準Q-學習更好的性能[68]。如果將神經模糊系統與群智能算法同時結合于RL算法中,可以充分發揮兩者的優點和性能。另外,在單目標控制器向多目標控制器的轉換過程中,可以結合貝葉斯解釋,設計新的獎勵條件[69],從而實現多目標優化。
2.2 MADRL方法解決大規模交通信號控制問題
MADRL方法中存在與2.1節MARL類似的通信水平分類。相較于MARL控制方法,在處理大規模交通信號控制問題時,MADRL引入了神經網絡并將其結合到原始數據的抽象表示中。MADRL采用了不同的方法來處理與流量相關的復雜數據流,并能夠與多種方法或框架充分結合,在處理以下問題時展現出優異的性能。
2.2.1 MADRL能夠有效解決學習非平穩性問題
針對交通網絡的復雜性和學習平穩性問題,由于交通網絡的高度動態性導致了非平穩性,在訓練過程中需要不斷地重新開始學習以調整策略。MADRL提出了一種解決方法,即使用交叉口智能體的空間折扣因子,減弱對距離較遠的交叉口數據的關注程度,更加注重本地環境信息的重要性[70]。
2.2.2 MADRL能夠有效結合分布式與分層框架
正如2.1節所述,分層和分布式協作框架能夠在智能體共享環境信息的機制中起到關鍵作用,相較于MARL,MADRL能夠更加有效地與此類框架相結合,從而充分發揮智能體間的協作作用。在交通信號的分布式控制機制中,文獻[71,72]嵌入了帶有actor-critic算法的MADRL于分布式智能體中。在利用鄰居智能體數據方面,文獻[73]提出了通過在協作的智能體之間傳遞值來進行協同優化,每個智能體利用本地和其他智能體的Q值學習最優決策。在交通信號控制的分層控制機制中,文獻[56]提出了一種策略,即本地的交叉口智能體控制局部區域的交通,而全局智能體的上層決策受到局部區域優化級別的影響,從而形成協調控制機制。
2.2.3 MADRL能夠有效結合圖形化處理方法
由于圖神經網絡(graph neural network,GNN)是專門設計用于捕捉拓撲關系的模型,所以它能夠在捕捉多智能體和多任務關系時展現出強大的功能特性。GNN模型采用消息傳遞方案,通過將節點的特征信息傳遞給其鄰居節點,并不斷迭代傳播,直到達到平衡狀態。由于MADRL涉及多個智能體,所以將這些智能體之間的關系信息結合到具有GNN架構的模型中可以提高其性能[74]。文獻[75]提出了一種基于深度時空注意力神經網絡的MADRL方法,用于解決大規模道路網絡中的交通信號控制問題。文獻[58]采用了GAT作為DRL模型中的神經網絡。文獻[76]引入了歸納異構圖注意力算法(inductive heterogeneous graph attention,IHA)進行特征融合,并通過多智能體深度圖信息最大化(multi-agent deep graph infomax,MDGI)框架進行訓練。此外,圖卷積網絡(graph convolutional network,GCN)可以將多個交叉口表示為網絡圖形,例如文獻[77]提出了基于GCN的RL智能體神經網絡結構,能夠自動提取具有多個交叉口的路網中道路的交通特征。
2.2.4 MADRL能夠有效結合其他領域方法
MADRL與其他領域的研究方法結合來解決交通信號控制問題的方向主要包括:首先,結合人工免疫系統可以解決應急車輛引導問題[78];其次,利用納什均衡和博弈論可以輔助actor-critic模型[79];此外,通過最大熵的正則化方法可以減少排隊長度[80];還可以使用行為克隆方法來解決獎勵設計問題[81];另外,生成對抗網絡(generative adversarial network,GAN)可以用于交通數據的恢復[82]。在交通信號控制中,也有研究考慮元學習的應用,例如將交通信號控制視為一組相關任務上的元學習問題[83],或引入基于梯度的元學習算法。盡管已經出現了一些使用元學習或模仿學習的研究,但在交通信號控制問題上,通過有限的數據樣本進行有效的學習和探索仍然面臨較大的挑戰。
2.3 大規模交通信號控制的交通場景影響因素
交通場景是各種信號控制方法的承接和載體,而不同的交通場景設置會在很大程度上影響信號控制方法的性能。因此,在信號控制方法的設計中充分考慮交通場景等因素的影響是非常必要的。本節從交通網絡規模、交通需求、交通方式和交通數據源四個角度入手,對大規模交通信號控制中交通場景的影響因素進行了分析,并總結了現有研究中針對這些影響因素的解決方案。
2.3.1 交通網絡規模
道路網絡的規模能夠在一定程度上檢驗算法的性能,一些研究在較大規模的交通網絡中進行了模擬。例如,文獻[28]在紐約曼哈頓地區的3 791個交通信號燈的真實場景進行了實驗。另外,文獻[84]將模型遷移到了擁有2 510個信號燈的場景,還有其他研究分別使用了196個和127個交叉口進行了實驗[85,56]。
2.3.2 交通需求
通常情況下,交通信號控制模型在交通流量較低時能夠發揮出較好的性能。然而,在現實世界中,交通流量飽和等情況經常出現,這就對模型的魯棒性提出了更高的要求。一些研究模擬了高需求、接近飽和、飽和或過飽和等交通狀況,以測試所提方法在處理交通擁堵情況中的效果。例如,文獻[86~89]分析或提到了所提方法能夠有效防止交通溢出。
2.3.3 交通方式
無論是私家車、出租車、公共交通等機動交通,還是行人和自行車等非機動交通,在交通信號控制方案的設計過程中都是十分重要的對象,控制器應根據不同的控制對象調整控制方法和模式。此外,將公共交通引入模擬環境會對學習和訓練過程產生很大影響。所以,除了在研究中普遍涉及的私家車輛外,有些研究考慮將中轉優先級下的公共交通的優化用于大規模交通網絡信號控制。另外,文獻[90]提出了一種基于多模態DRL的交通信號控制方法,同時結合了常規交通和公共交通,并最大限度地減少了交叉口的整體延誤。相較于機動交通,非機動交通在現有研究中考慮較少。一些研究已將行人納入優化范圍[45]。由于非機動交通的動態變化可能對整個交通系統的效率產生較大影響,所以,機動和非機動交通的協調十分重要,應充分考慮兩者之間的動態協調。
另外,在某些情境下,不同交通方式下的控制對象之間存在競爭關系。模型中可以整合并有效利用緊急車輛的位置、速度等高分辨率數據和高清晰度視頻數據[91],以確定車輛的優先級。為了滿足優先車輛的需求并實現交通流之間的公平性,通常采用改變獎勵函數的方式。文獻[92]提出了一種強化的交通控制策略,該策略利用多智能體系統開發框架(Java agent development framework,JADE)減少了應急車輛在交叉口等待的時間,同時減少了其他車輛的行駛時間。文獻[93]對應急車輛的交通信號進行了早期控制,確保控制器能夠在各種情況下快速作出應急響應,并減輕了在沖突方向上對交通效率的負面影響。
2.3.4 交通數據源
智慧交通系統中的數據源主要來自通用檢測設備、環路檢測器、車輛對車輛(vehicle-to-vehicle,V2V)設備和車輛對基礎設施(vehicle-to-infrastructure,V2I)設備以及基礎設施對基礎設施(infrastructure-to-infrastructure,I2I)設備。聯網車輛是交通信號控制中的一個特定類別,它可以與其他車輛或基礎設施交換數據,為交通信號控制模型采集和獲取環境數據。例如,聯網車輛能夠向交通信號控制器提供實時的交通狀態信息,包括車牌號、車輛位置、速度和時間戳等,以滿足交通信號控制器對實時性和適應性的要求。據此,文獻[23,94,95]可以在全局范圍中控制交通燈和車輛,以提高城市交通控制的性能。另外,考慮交通異質性對交通控制的安全性和穩定性非常重要[96],常規車輛和智能網聯車所組成的異質交通流特征對交通控制起著關鍵影響。
3 討論與發現
本文在分析了RL與DRL在交通信號控制領域的重要性和廣泛實用性后,在本章提出了本領域所面臨的挑戰和未來可能極具潛力的研究方向。從提高交通信號控制器性能的角度,總結了以下幾個方面:
1)提高狀態和動作以及獎勵的有效性、可管理性
針對狀態和動作空間的優化,可以考慮采用離散化編碼技術,例如DTSE方法,將復雜的交通狀態進行抽象表示,以便在高維和低維狀態之間進行轉換。某些研究認為基于圖像的強化學習方法在現實世界中應用廣泛,尤其是在交通信號控制領域。可以考慮使用真實交通場景中的視頻圖像等作為數據源,具體細節可參考第1.1節。此外,如果僅以固定流量作為定時方案的基礎,容易受到流量波動的影響,從而導致控制的可靠性較差。因此,在訓練過程中應考慮使用動態交通條件[23],以獲得盡可能豐富的狀態空間。這將使訓練的交通信號控制器能夠適應不同流量條件下的交通情況,提高其魯棒性和適應性。
2)研究在線學習方法以提高控制器的適應性
在線學習在交通信號控制領域的RL方法中的研究始于本世紀初[97]。此后,文獻[98]對在線學習過程進行了研究。然而,在交通信號控制問題中,RL方法的在線學習研究仍然面臨一些阻力。其中之一是學習最優策略和優化網絡結構中的權重值需要大量的探索時間。此外,由于交通信號控制問題具有復雜且高維的狀態數據,缺乏隨機探索可能導致陷入局部最優解的問題。為了應對這些問題,可以考慮采用多階段的在線學習過程,涉及到RL方法、權重調整和模糊關系調整等技術。然而,總體而言,目前關于在線學習的研究仍面臨著較大的挑戰和困難。
3)提高學習效率
RL的學習過程中存在大量的試錯環節,從而導致較高的學習成本。為了提高學習效率,可以考慮采取以下幾種方法:
a)多個控制器之間的信息交換:信息交換有助于協調不同控制器的決策,并提高整個交通網絡中的全局獎勵。
b)增強的探索方法:例如,基于模型的探索方法可以創建外部環境的模型,并選擇動作以增加對未知狀態的探索,以提高學習過程的效率。
c)基于模型的RL方法:盡管無模型的RL方法已有了許多成功案例,但這些算法的一個典型限制是樣本效率,即需要大量樣本才能達到良好的性能。基于模型的RL方法已在廣泛的應用中取得成功,但對于基于模型的MARL方法尚未得到廣泛研究。因此,研究基于模型的MARL是一個值得探索的方向。
d)遷移學習方法:重新訓練模型以校準參數需要大量時間[79],而基于遷移的訓練模型將在模擬交通中訓練的RL算法遷移到現實交通中,以提高訓練效率,減少在現實世界中出現的錯誤行為。文獻[99]提出了一種多智能體遷移RL方法來增強交通信號控制的MARL性能,并通過遷移學習提高其泛化能力。
4)提高系統安全性能
針對交通安全問題,現實世界中交通信號的故障可能導致大規模交通事故,因此RL和DRL的學習成本可能具有致命性。為了規避DRL智能體學習過程中的不必要行為,可以采用風險管理方法。這包括設計一系列規則,將高風險動作排除在可行動作的集合之外。通過初步驗證不同動作的風險因素,并隨著時間的推移在操作過程中進行保守改進,以最小化學習成本。在交通信號配時中,一些研究提出了一種時差懲罰交通信號配時方法,以保證在系統安全性和效率之間取得平衡[100~102]。
4 結束語
本文對RL和DRL在NTSC中的應用進行了全面、系統的文獻綜述。研究的主要目標是廣泛調研交通信號控制方法的研究成果,確定交通信號控制領域中所有有價值的文章,并分析這些文章中的數據。基于定性和描述性數據,對現有應用方法的創新性、多樣性和挑戰性進行了分析。本文闡述了如何將交通信號控制問題適當地表示為RL和DRL問題,并涵蓋了各種典型方法和框架;系統地梳理了RL和DRL在智能交通信號控制領域的分類和應用,并強調了它們在應對大規模智能交通信號控制挑戰時的優勢;重點分析了MARL和MADRL這兩種合作框架在大規模交通信號控制領域的實現和應用。最后,本文提出了本領域未來可能面臨的挑戰和極具潛力的研究方向等一些開放性問題。
參考文獻:
[1]趙祥模,馬萬經,俞春輝,等. 道路交通控制系統發展與趨勢展望[J]. 前瞻科技,2023,2(3): 58-66. (Zhao Xiangmo,Ma Wanjing,Yu Chunhui,et al. Development and trend of road traffic control system[J]. Science and Technology Foresight,2023,2(3): 58-66.)
[2]Hunt P B,Robertson D I,Bretherton R D,et al. SCOOT-a traffic responsive method of coordinating signals,LR 1014 Monograph[R]. Crowthorne: Transport and Road Research Laboratory,1981.
[3]Gartner N. OPAC: a demand responsive strategy for traffic signal control[J]. Transportation Research Record Journal of the Transportation Research Board,1983,906: 75-81.
[4]Boillot F,Midenet S,Pierrelee J C. The real-time urban traffic control system CRONOS: algorithm and experiments[J]. Transportation Research Part C: Emerging Technologies,2006,14(1): 18-38.
[5]Sims A G,Dobinson K W. The Sydney coordinated adaptive traffic (SCAT) system philosophy and benefits[J]. American Society of Civil Engineers,1980,29(2): 130-137.
[6]Lu Kai,Lin Guanrong,Xu Jianmin,et al. Simultaneous optimization model of signal phase design and timing at intersection[C]// Proc of International Conference on Transportation and Development 2018. Pittsburgh,Pennsylvania: American Society of Civil Engineers,2018: 65-74.
[7]徐明杰,韓印. 基于粒子群算法下的交叉口信號配時優化[J]. 物流科技,2020,43(1): 106-110. (Xu Mingjie,Han Yin. Intersection signal timing optimization based on particle swarm optimization[J]. Logistics Sci-Tech,2020,43(1): 106-110.)
[8]徐東偉,周磊,王達,等. 基于深度強化學習的城市交通信號控制綜述[J]. 交通運輸工程與信息學報,2022,20(1): 15-30. (Xu Dongwei,Zhou Lei,Wang Da,et al. A review of urban traffic signal control based on deep reinforcement learning[J]. Journal of Transportation Engineering and Information,2022,20(1): 15-30.)
[9]華贇,王祥豐,金博. 面向城市交通信號優化的多智能體強化學習綜述[J]. 運籌學學報,2023,27(2): 49-62. (Hua Yun,Wang Xiangfeng,Jin Bo. A review of multi-agent reinforcement learning for urban traffic signal optimization[J]. Operations Research Trans,2023,27(2): 49-62.)
[10]Noaeen M. Reinforcement learning in urban network traffic signal control: a systematic literature review[J]. Expert Systems with Applications: An International Journal,2022,199: 116830.
[11]于澤,寧念文,鄭燕柳,等. 深度強化學習驅動的智能交通信號控制策略綜述[J]. 計算機科學,2023,50(4): 159-171. (Yu Ze,Ning Nianwen,Zheng Yanliu,et al. A review of intelligent traffic signal control strategies driven by deep reinforcement learning[J]. Computer Science,2023,50(4): 159-171.)
[12]Bazzan A L C. Opportunities for multiagent systems and multiagent reinforcement learning in traffic control[J]. Autonomous Agents and Multi-Agent Systems,2009,18(3): 342-375.
[13]Zhao Dongbin,Zhang Zhen,Dai Yujie. Computational intelligence in urban traffic signal control: a survey[J]. IEEE Trans on Systems Man and Cybernetics,2012,42(4): 485-494.
[14]Kumar N,Mittal S,Garg V,et al. Deep reinforcement learning-based traffic light scheduling framework for SDN-enabled smart transportation system[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(3): 2411-2421.
[15]Garg D,Chli M,Vogiatzis G. Deep reinforcement learning for autonomous traffic light control[C]// Proc of the 3rd IEEE International Conference on Intelligent Transportation Engineering. Piscataway,NJ: IEEE Press,2018: 214-218.
[16]Cao Miaomiao,Li V O K,Shuai Qiqi. Book your green wave: exploiting navigation information for intelligent traffic signal control[J]. IEEE Trans on Vehicular Technology,2022,71(8): 8225-8236.
[17]朱爐龍. 基于深度強化學習的生態城市交通信號控制研究 [D]. 南昌: 華東交通大學,2023. (Zhu Lulong. Research on deep reinforcement learning for ecological urban traffic signal control[D]. Nanchang: East China Jiaotong University,2023.)
[18]Joo H,Lim Y. Traffic signal time optimization based on deep Q-network [J]. Applied Sciences,2021,11(21): 9850.
[19]Nan Xiao,Liang Yu,Jin Qiangyu,et al. A cold-start-free reinforcement learning approach for traffic signal control[J]. Journal of Intelligent Transportation Systems,2022,26(4): 476-485.
[20]Yang Shantian,Bo Yang. A semi-decentralized feudal multi-agent learned-goal algorithm for multi-intersection traffic signal control[J]. Knowledge-Based Systems,2021,213: 106708.
[21]Lillicrap T P,Hunt J J,Pritzel A,et al. Continuous control with deep reinforcement learning[EB/OL] (2015-09-09). https://arxiv.org/abs/ 1509.02971.
[22]Bouktif S,Cheniki A,Ouni A. Traffic signal control using hybrid action space deep reinforcement learning[J]. Sensors,2021,21(7): 2302.
[23]Mo Zhaobin,Li Wangzhi,Fu Yongjie,et al. CVLight: decentralized learning for adaptive traffic signal control with connected vehicles[J]. Transportation Research Part C: Emerging Technologies,2022,141: 103728.
[24]Jamil A R M,Ganguly K K,Nower N. Adaptive traffic signal control system using composite reward architecture based deep reinforcement learning[J]. IET Intelligent Transport Systems,2020,14(14): 2030-2041.
[25]Wang Shuo,Yue Wenwei,Chen Yue,et al. Cooperative learning with difference reward in large-scale traffic signal control[C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press,2022: 2307-2312.
[26]Aziz H M A,Zhu Feng,Ukkusuri S V. Learning-based traffic signal control algorithms with neighborhood information sharing: an application for sustainable mobility[J]. Journal of Intelligent Transportation Systems,2018,22(1): 40-52.
[27]Higuera C,Lozano F,Camacho E C,et al. Multiagent reinforcement learning applied to traffic light signal control[M]// Demazeau Y,Matson E,Corchado J M,et al. Advances in Practical Applications of Survivable Agents and Multi-Agent Systems. Cham: Springer,2019: 115-126.
[28]Devailly F X,Larocque D,Charlin L. Model-based graph reinforcement learning for inductive traffic signal control[EB/OL]. (2022-08-01) [2023-02-23]. http://arxiv.org/abs/2208.00659.
[29]Rios L M,Sahinidis N V. Derivative-free optimization: a review of algorithms and comparison of software implementations[J]. Journal of Global Optimization,2013,56(3): 1247-1293.
[30]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning,1992,8: 229-256.
[31]吳少波,楊薛鈺. 基于Sarsa算法的交通信號燈控制方法[J]. 信息與電腦:理論版,2021,33(6): 49-51. (Wu Shaobo,Yang Xue-yu. Traffic signal control method based on Sarsa algorithm[J]. China Computer & Communication,2021,33(6): 49-51.)
[32]Richter S. Traffic light scheduling using policy-gradient reinforcement learning[J]. IET Intelligent Transport Systems,2017,11(7): 417-423.
[33]楊康康. 基于多智能體深度強化學習的交通信號優先控制研究[D]. 蘭州: 蘭州理工大學,2023. (Yang Kangkang. Traffic signal priority control based on multi-agent deep reinforcement learning[D]. Lanzhou: Lanzhou University of Technology,2023.)
[34]Lecun Y,Bengio Y,Hinton G. Deep learning[J]. Nature,2015,521(7553): 436-444.
[35]Park S,Han E,Park S,et al. Deep Q-network-based traffic signal control models[J]. PLoS One,2021,16(9): e0256405.
[36]Mnih V,Kavukcuoglu K,Silver D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540): 529-533.
[37]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay[EB/OL]. (2016-02-25) [2023-02-23]. http://arxiv. org/abs/1511. 05952.
[38]Jiang Shan,Huang Yufei,Jafari M,et al. A distributed multi-agent reinforcement learning with graph decomposition approach for large-scale adaptive traffic signal control[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(9): 14689-14701.
[39]Hasselt H. Double Q-learning[C]// Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2010.
[40]Wang Ziyu,Schaul T,Hessel M,et al. Dueling network architectures for deep reinforcement learning[C]// Proc of the 33rd International Conference on Machine Learning. New York: PMLR.org,2016: 1995-2003.
[41]Mnih V,Badia A P,Mirza M,et al. Asynchronous methods for deep reinforcement learning[C]// Proc of the 33rd International Confe-rence on Machine Learning. New York: PMLR.org,2016: 1928-1937.
[42]黃浩,胡智群,王魯晗,等. 基于Sumtree DDPG的智能交通信號控制算法[J]. 北京郵電大學學報,2021,44(1): 97-103. (Huang Hao,Hu Zhiqun,Wang Luhan,et al. Intelligent traffic signal control algorithm based on Sumtree DDPG[J]. Journal of Beijing University of Posts and Telecommunications,2021,44(1): 97-103.)
[43]Shanmugasundaram P,Bhatnagar S. Robust traffic signal timing control using multiagent twin delayed deep deterministic policy gradients[C]// Proc of the 14th International Conference on Agents and Artificial Intelligence. Portugal: SciTePress,2022: 477-485.
[44]Lowe R,Wu Yi,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]// Proc of the 31st Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6382-6393.
[45]Liu Ying,Liu Lei,Chen Weipeng. Intelligent traffic light control using distributed multi-agent Q learning[C]// Proc of the 20th Internatio-nal Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press,2017: 1-8.
[46]Hyuttenrauch M,oic' A,Neumann G. Deep reinforcement learning for swarm systems[J]. The Journal of Machine Learning Research,2019,20(1): 1966.
[47]Devailly F X,Larocque D,Charlin L. IG-RL: inductive graph reinforcement learning for massive-scale traffic signal control[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(7): 7496-7507.
[48]Cao Y J,Ireson N,Bull L,et al. Distributed learning control of traffic signals[M]// Cagnoni S. Real-World Applications of Evolutionary Computing. Berlin: Springer,2000: 117-126.
[49]Tan Tian,Bao Feng,Deng Yue,et al. Cooperative deep reinforcement learning for large-scale traffic grid signal control[J]. IEEE Trans on Cybernetics,2020,50(6): 2687-2700.
[50]Zeng Jing,Xin Jie,Cong Ya,et al. HALight: hierarchical deep reinforcement learning for cooperative arterial traffic signal control with cycle strategy[C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press,2022: 479-485.
[51]Yu Chao,Velu A,Vinitsky E,et al. The surprising effectiveness of PPO in cooperative multi-agent games[C]// Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2022: 24611-24624.
[52]Yi Chenglin,Wu Jia,Ren Yanyu,et al. A spatial-temporal deep reinforcement learning model for large-scale centralized traffic signal control[C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press,2022: 275-280.
[53]Oroojlooyjadid A,Hajinezhad D. A review of cooperative multi-agent deep reinforcement learning[J]. Applied Intelligence,2021,53(11): 13677-13722.
[54]Gao Ruowen,Liu Zhihan,Li Jinglin,et al. Cooperative traffic signal control based on multi-agent reinforcement learning[M]// Zheng Zi-bin,Dai Hongning,Tang Mingdong,et al. Blockchain and Trustworthy Systems. Singapore: Springer,2020: 787-793.
[55]Paul A,Mitra S. Exploring reward efficacy in traffic management using deep reinforcement learning in intelligent transportation system[J]. ETRI Journal,2022,44(2): 194-207.
[56]Zhou Pengyuan,Braud T,Alhilal A,et al. ERL: edge based reinforcement learning for optimized urban traffic light control[C]// Proc of IEEE International Conference on Pervasive Computing and Communications Workshops. Piscataway,NJ: IEEE Press,2019: 849-854.
[57]Wu Qiang,Shen Jun,Yong Binbin,et al. Smart fog based workflow for traffic control networks[J]. Future Generation Computer Systems,2019,97: 825-835.
[58]Ha P,Chen Sikai,Du Runjia,et al. Scalable traffic signal controls using fog-cloud based multiagent reinforcement learning[J]. Compu-ters,2022,11(3): 38.
[59]Ibrokhimov B,Kim Y J,Kang S. Biased pressure: cyclic reinforcement learning model for intelligent traffic signal control[J]. Sensors,2022,22(7): 2818.
[60]Huo Yusen,Tao Qinghua,Hu Jianming. Cooperative control for multi-intersection traffic signal based on deep reinforcement learning and imitation learning[J]. IEEE Access,2020,8: 199573-199585.
[61]潘昭天. 基于博弈論和多智能體強化學習的城市道路網絡交通控制方法研究[D]. 長春: 吉林大學,2022. (Pan Zhaotian. Urban road network traffic control method based on game theory and multi-agent reinforcement learning[D].Changchun:Jilin University,2022.)
[62]曹立春,智敏. 基于上下文注意的強化學習目標檢測[J]. 計算機應用與軟件,2023,40(5): 221-226. (Cao Lichun,Zhi Min. Reinforcement learning object detection based on contextual attention[J]. Computer Applications and Software,2023,40(5): 221-226.)
[63]Darmoul S,Elkosantini S,Louati A,et al. Multi-agent immune networks to control interrupted flow at signalized intersections[J]. Transportation Research Part C: Emerging Technologies,2017,82: 290-313.
[64]Louati A,Louati H,Li Zhaojian. Deep learning and case-based reasoning for predictive and adaptive traffic emergency management[J]. The Journal of Supercomputing,2021,77(5): 4389-4418.
[65]Iyer V,Jadhav R,Mavchi U,et al. Intelligent traffic signal synchronization using fuzzy logic and Q-learning[C]// Proc of International Conference on Computing,Analytics and Security Trends. Piscataway,NJ: IEEE Press,2016: 156-161.
[66]Cao Y J,Ireson N,Bull L,et al. Design of a traffic junction controller using classifier system and fuzzy logic[C]// Proc of International Conference on Computational Intelligence. Berlin: Springer,1999: 342-353.
[67]Mikami S,Kakazu Y. Genetic reinforcement learning for cooperative traffic signal control[C]// Proc of the 1st IEEE Conference on Evolutionary Computation. Piscataway,NJ: IEEE Press,1994: 223-228.
[68]Tahifa M,Boumhidi J,Yahyaouy A. Swarm reinforcement learning for traffic signal control based on cooperative multi-agent framework[C]// Proc of Intelligent Systems and Computer Vision. Piscataway,NJ: IEEE Press,2015: 1-6.
[69]陶玉飛. 基于深度強化學習的交叉口交通信號控制研究[D]. 蘭州: 蘭州理工大學,2023. (Tao Yufei. Research on intersection traffic signal control based on deep reinforcement learning[D]. Lanzhou: Lanzhou University of Technology,2023.)
[70]Chu Tianshu,Wang Jie,Codecà L,et al. Multi-agent deep reinforcement learning for large-scale traffic signal control[J]. IEEE Trans on Intelligent Transportation Systems,2019,21(3): 1086-1095.
[71]Li Zhenning,Yu Hao,Zhang Guohui,et al. Network-wide traffic signal control optimization using a multi-agent deep reinforcement lear-ning[J]. Transportation Research Part C: Emerging Technologies,2021,125: 103059.
[72]Baldazo D,Parras J,Zazo S. Decentralized multi-agent deep reinforcement learning in swarms of drones for flood monitoring[C]// Proc of the 27th European Signal Processing Conference. Piscataway,NJ: IEEE Press,2019: 1-5.
[73]Ge Hongwei,Song Yumei,Wu Chunguo,et al. Cooperative deep Q-learning with Q-value transfer for multi-intersection signal control[J]. IEEE Access,2019,7: 40797-40809.
[74]徐哲揚. 概率圖神經網絡在交通信號控制中的應用[D]. 成都: 電子科技大學,2023. (Xu Zheyang. Application of probabilistic graph neural network in traffic signal control[D]. Chengdu: University of Electronic Science and Technology of China,2023.)
[75]Huang Hao,Hu Zhiqun,Lu Zhaoming,et al. Network-scale traffic signal control via multiagent reinforcement learning with deep spatiotemporal attentive network[J]. IEEE Trans on Cybernetics,2023,53(1): 262-274.
[76]Yang Shantian,Yang Bo. An inductive heterogeneous graph attention-based multi-agent deep graph infomax algorithm for adaptive traffic signal control[J]. Information Fusion,2022,88: 249-262.
[77]Nishi T,Otaki K,Hayakawa K,et al. Traffic signal control based on reinforcement learning with graph convolutional neural nets[C]// Proc of the 21st International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press,2018: 877-883.
[78]Louati A. A hybridization of deep learning techniques to predict and control traffic disturbances[J]. Artificial Intelligence Review,2020,53(8): 5675-5704.
[79]Wu Qiang,Wu Jianqing,Shen Jun,et al. Distributed agent-based deep reinforcement learning for large scale traffic signal control[J]. Knowledge-Based Systems,2022,241: 108304.
[80]Wang Pengyong,Mao Feng,Li Zhiheng. SoftLight: a maximum entropy deep reinforcement learning approach for intelligent traffic signal control[C]// Proc of the 14th International Conference on Advanced Computational Intelligence. Piscataway,NJ: IEEE Press,2022: 166-175.
[81]Zhang Huichu,Kafouros M,Yu Yong. PlanLight: learning to optimize traffic signal control with planning and iterative policy improvement[J]. IEEE Access,2020,8: 219244-219255.
[82]Wang Zixin,Zhu Hanyu,He Mingcheng,et al. GAN and multi-agent DRL based decentralized traffic light signal control[J]. IEEE Trans on Vehicular Technology,2022,71(2): 1333-1348.
[83]Zhu Liwen,Peng Peixi,Lu Zongqing,et al. Variationally and intrinsically motivated reinforcement learning for decentralized traffic signal control[EB/OL]. (2021-01-04) [2023-02-24]. http://arxiv. org/abs/2101. 00746.
[84]Chen Chacha,Wei Hua,Xu Nan,et al. Toward a thousand lights: decentralized deep reinforcement learning for large-scale traffic signal control[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2020: 3414-3421.
[85]Wei Hua,Xu Nan,Zhang Huichu,et al. CoLight: learning network-level cooperation for traffic signal control[C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press,2019: 1913-1922.
[86]Wei Hua,Chen Chacha,Zheng Gaunjie,et al. PressLight: learning max pressure control to coordinate traffic signals in arterial network[C]// Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press,2019: 1290-1298.
[87]Horsuwan T,Aswakul C. Reinforcement learning agent under partial observability for traffic light control in presence of gridlocks[C]// Proc of SUMO User Conference 2019. [S.l.]: EasyChair,2019: 29-47.
[88]Kim D,Jeong O. Cooperative traffic signal control with traffic flow prediction in multi-intersection[J]. Sensors,2019,20(1): 137.
[89]Zhao Yi,Ma Jianxiao,Shen Linghong,et al. Optimizing the junction-tree-based reinforcement learning algorithm for network-wide signal coordination[J]. Journal of Advanced Transportation,2020,2020: article ID 6489027.
[90]Alizadeh S S M,Abdulhai B. Multimodal intelligent deep (MiND) traffic signal controller[C]// Proc of IEEE Intelligent Transportation Systems Conference. Piscataway,NJ: IEEE Press,2019: 4532-4539.
[91]Wang Song,Xie Xu,Huang Kedi,et al. Deep reinforcement learning-based traffic signal control using high-resolution event-based data[J]. Entropy,2019,21(8): 744.
[92]Kristensen T,Ezeora N J. Simulation of intelligent traffic control for autonomous vGaiiiIXzwmmV+7RDzGUlww==ehicles[C]// Proc of IEEE International Conference on Information and Automation. Piscataway,NJ: IEEE Press,2017: 459-465.
[93]Cao Miaomiao,Li V O K,Shuai Qiqi. A gain with no pain: exploring intelligent traffic signal control for emergency vehicles[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(10): 17899-17909.
[94]Yang Jiachen,Zhang Jipeng,Wang Huihui. Urban traffic control in software defined Internet of Things via a multi-agent deep reinforcement learning approach[J]. IEEE Trans on Intelligent Transportation Systems,2022,22(6): 3742-3754.
[95]Wang Tong,Cao Jiahua,Hussain A. Adaptive traffic signal control for large-scale scenario with cooperative group-based multi-agent reinforcement learning[J]. Transportation Research Part C: Emerging Technologies,2021,125: 103046.
[96]Nuli S,Mathew T V. Online coordination of signals for heterogeneous traffic using stop line detection[J]. Procedia-Social and Behavioral Sciences,2013,104: 765-774.
[97]Min C C,Srinivasan D,Ruey L C. Cooperative,hybrid agent architecture for real-time traffic signal control[J]. IEEE Trans on Systems,Man,and Cybernetics-Part A: Systems and Humans,2003,33(5): 597-607.
[98]Yin Biao,Dridi M,El M A. Adaptive traffic signal control for multi-intersection based on microscopic model[C]// Proc of the 27th International Conference on Tools with Artificial Intelligence. Piscataway,NJ: IEEE Press,2015: 49-55.
[99]Ge Hongwei,Gao Dognwan,Sun Liang,et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(8): 12572-12587.
[100]Liang Xiaoyuan,Yan Tan,Lee J,et al. A distributed intersection management protocol for safety,efficiency,and driver’s comfort[J]. IEEE Internet of Things Journal,2018,5(3): 1924-1935.
[101]Liao Lyuchao,Liu Jieru,Wu Xinke,et al. Time difference penalized traffic signal timing by LSTM Q-network to balance safety and capacity at intersections[J]. IEEE Access,2020,8: 80086-80096.
[102]Guo Jin. Decentralized deep reinforcement learning for network level traffic signal control[D]. California: University of California,Davis,2020.