結合狀態預測的深度強化學習交通信號控制

2022-12-31 00:00:00唐慕堯周大可李濤

計算機應用研究 2022年8期

摘要：深度強化學習（deep reinforcement learning，DRL）可廣泛應用于城市交通信號控制領域，但在現有研究中，絕大多數的DRL智能體僅使用當前的交通狀態進行決策，在交通流變化較大的情況下控制效果有限。提出一種結合狀態預測的DRL信號控制算法。首先，利用獨熱編碼設計簡潔且高效的交通狀態；然后，使用長短期記憶網絡（long short-term memory，LSTM）預測未來的交通狀態；最后，智能體根據當前狀態和預測狀態進行最優決策。在SUMO（simulation of urban mobility）仿真平臺上的實驗結果表明，在單交叉口、多交叉口的多種交通流量條件下，與三種典型的信號控制算法相比，所提算法在平均等待時間、行駛時間、燃油消耗、CO2排放等指標上都具有最好的性能。

關鍵詞：交通信號控制；狀態預測；深度強化學習；深度Q網絡；長短期記憶網絡

中圖分類號：TP181文獻標志碼：A

文章編號：1001-3695（2022）08-012-2311-05

doi：10.19734/j.issn.1001-3695.2021.12.0704

State prediction based deep reinforcement learning for traffic signal control

Tang Muyao，Zhou Dake，Li Tao

（School of Automation Engineering，Nanjing University of Aeronautics amp; Astronautics，Nanjing 211100，China）

Abstract：Urban traffic signal control can widely use deep reinforcement learning technique.However，in existing researches，most DRL agents only use the current traffic state to make decisions and have limited control effects when the traffic flow changes greatly.Aiming at the problem，this paper proposed a state prediction based deep reinforcement learning algorithm for traffic signal control.The algorithm used one-hot coding to design a concise and efficient traffic state，and then used a long short-term memory to predict the future state.The agent made optimal decisions based on the current state and the predicted state.The experimental results on the simulation platform SUMO show that compared with three typical signal control algorithms，the proposed algorithm has the best performance in terms of average waiting time，travel time，fuel consumption，CO2 emissions and cumulative reward both in a single intersection and multiple intersections under different flow conditions.

Key words：traffic signal control；state prediction；deep reinforcement learning；deep Q network；long short-term memory

0引言

隨著人們生活水平的提高，汽車保有量持續增長，城市的交通擁堵問題也日趨嚴重。交通信號控制是提高道路通行效率、緩解交通擁堵最直接、成本最低的途徑。SCATS[1]和SCOOT[2]是目前廣泛使用的自適應交通信號控制系統，前者選擇信號配時方案，后者利用簡化的交通模型求解最優的信控策略。但是，簡化模型的建立依賴于大量的假設和經驗方程，因此，對于復雜多變的真實交通場景，這類系統的效果欠佳。近年來，隨著人工智能技術的發展，強化學習（reinforcement learning，RL）[3]尤其是數據驅動的深度強化學習，在交通信號控制方面展現出卓越的應用前景。

強化學習是一種試錯的學習方法，通過與環境交互來學習最優策略。應用在交通信號控制中，可以把一個或幾個交叉口看成一個智能體（agent），智能體觀測路網狀態后作出決策，通過最大化環境反饋的獎勵以學習最優的信號配時方案。受到人腦工作模式的啟發，深度學習（deep learning，DL）[4]能夠把底層特征組合形成更加抽象的高層特征，可以有效處理高維數據。深度強化學習（DRL）結合了DL的強感知能力與RL的強決策能力，非常適用于交通信號控制的任務。

2010年，Arel等人[5]首次將DRL引入交通信號控制領域，使用神經網絡擬合Q值，但是缺少經驗回放、目標網絡部分。劉志等人[6]提出3DQN_PSER算法，使用優先級序列經驗回放（priority sequence experience replay，PSER）更新經驗池中序列樣本的優先級，使智能體獲取與交通狀態相似的前序樣本，提高訓練效率。Wei等人[7]提出模型IntelliLight，使用相位門結構設置獨立的學習通道，根據相位、動作對經驗池進行劃分，并用真實的交通數據做實驗。Zheng等人[8]提出FRAP模型，利用不同信號相位間的競爭關系，實現了在交通流中翻轉和旋轉等對稱情況下的普適性。Jin等人[9]使用動作策略閾值詞典排序法（threshold lexicographic ordering，TLO）自適應地選擇優化目標，基于SARSA算法對比多種函數逼近方法的改善效果。Tan等人[10]將大規模路網分為若干個子區域，對每個區域使用Peraction DQN或Wolpertinger DDPG進行控制，將所有智能體的學習策略傳遞給全局智能體實現全局學習。這些DRL信控方法本質上是一階馬爾可夫決策過程，智能體僅根據當前的狀態進行決策，在復雜多變的實際交通場景下難以實現最優的控制效果。如果能合理預測未來狀態，智能體將提前考慮可能出現的交通情況，學習更好的信控策略。Xu等人[11]提出了DRQN模型，跨八個時間步長集成隱藏狀態輸入DRL智能體，但這樣顯著地增加了狀態的維數，容易導致神經網絡過擬合。循環神經網絡具有短時記憶能力，Chu等人[12]在DRL智能體中采用LSTM網絡來提取動態的交通信息，但該網絡并沒有直接預測未來的交通狀態。

本文提出了一種結合狀態預測的深度強化學習信號控制算法DQN_SP，主要特點有：a）通過引入顯式的交通狀態預測，DRL智能體利用當前和未來狀態進行最優決策；b）精心設計智能體的狀態，該狀態包含最重要的交通信息且數據量小易于預測。本文在單交叉口、多交叉口的多種流量條件下驗證了所提算法的有效性與可行性，車流數據模擬了現實中高低峰的情形，具有工程應用價值。

1研究背景

1.1強化學習

強化學習是和有監督學習、無監督學習并列的第三類機器學習方法，智能體通過與環境不斷交互來學習為了達成某個目標所需的最佳策略。馬爾可夫決策過程是一種通過交互式學習來達到目標的理論框架，其靈活抽象，可以很好地解釋強化學習的基本流程。智能體根據當前策略，以一定概率執行最優動作并與環境交互，用動作價值函數qπ（s，a）來表示智能體在狀態s下采取動作a的期望回報，表示為

qπ（s，a）Eπ[Gt|St=s，At=a]=Eπ[∑∞k=0γkRt+k+1|St=s，At=a]（1）

智能體在與環境交互后學習到最優策略，最優動作價值函數為在狀態s下采取動作a獲得的最高回報值，根據貝爾曼最優方程，可得

q（s，a）=E[Rt+1+γmaxa′q（st+1，a′）|St=s，At=a]=∑s′，rp（s′，r|s，a）[r+γmaxa′q（s′，a′）]（2）

不斷迭代最優動作價值函數q（s，a）后，得到最優策略：

π=argmaxa∈Aq（s，a）（3）

1.2深度強化學習

DRL是RL與DL的結合，是目前控制系統中先進的學習框架之一。2013年DeepMind[13]提出了DQN，不同于Q-Learning使用一張表來保存所有的Q值，DQN使用經驗回放來更新目標價值。將智能體與環境交互獲得的樣本（s，a，r，s′）存入經驗池中，從經驗池均勻采樣小批量樣本，使用隨機梯度下降方法訓練深度神經網絡使其逼近Q值，隨機采樣能夠打破樣本間的強相關性，使訓練收斂穩定。DQN使用同一個網絡來選擇動作和計算目標Q值，兩者在迭代的過程中相互依賴，不利于算法的收斂。為了解決此問題，DeepMind提出了Nature DQN[14]，使用兩個網絡，當前網絡Q用來選擇動作、更新參數，目標網絡Q-用來計算目標Q值，Q-網絡的參數不需要實時迭代更新，而是每隔一段時間從當前網絡Q復制過來。當前最優動作價值函數的優化目標表示為

y（s，a）=r+γmaxa′q（s′，a′；w-）（4）

其中：w-表示目標值網絡的參數。

上述算法計算目標Q值時都是通過貪婪法直接得到，雖然可以快速讓Q值向優化目標靠近，但是很容易導致過度估計。為了緩解模型的過擬合問題，Van Hasselt等人[15]提出了Double DQN，先在當前網絡Q中尋找最大Q值對應的動作，再將此動作代入目標網絡Q-計算目標Q值，優化目標表示為

y（s，a）=r+γq（s′，argmaxa′q（s′，a′；w）；w-）（5）

上述算法通過經驗回放來訓練深度Q網絡，在經驗池中對樣本均勻采樣，然而不同樣本TD誤差不同，對反向傳播的影響也不一樣。為了解決此問題，Schaul等人[16]基于DDQN提出了優先經驗回放算法，給定正比于樣本TD誤差絕對值|δ（t）|的優先級，并將優先級存入經驗池，訓練時使優先級高的樣本更容易被采樣，避免沒有價值的迭代，提高算法收斂速度。Wang等人[17]對神經網絡結構進行優化，提出Dueling DQN，將Q網絡分為價值函數與優勢函數兩部分。

1.3基于DRL的交通信號控制

基于DRL的信控方法不需要場景先驗知識，而是通過與交通環境不斷交互來學習最優策略。在此過程中，交叉口或路網看成一個智能體，狀態是對交通環境的描述，動作是交通信號的變化，獎勵衡量了動作后交通通行的效率變化。

現有的DRL信控算法在狀態、動作、獎勵定義方面有很大不同。狀態定義分為基于車輛的表示（如實時圖像[7，18]，包括車輛位置或速度信息的DTSE形式[6，19，20]）和基于特征的值向量表示（如排隊長度[7，19，21]、累計延誤[19，20]、等待時間[7，19]）兩類。動作定義分為選擇一個可能的綠燈相位[6，20，21]、保持當前相位或切換至下一相位[7，11，19]，或改變相位持續時間[9，22]。狀態是環境的特征矩陣或向量，動作是離散的選擇向量，獎勵是與交通數據有關的標量值。獎勵的定義主要考慮隊列長度[6，7，19，20]、延誤[7，19，20，22]等。DRL算法主要分為基于值函數的DQN[6，7，11，19，20]、基于策略的DDPG[10，23]、基于AC框架的A2C[12，18]、A3C[24]等。

一些研究考慮了交通流的時序相關性。Yu等人[23]把車輛的速度加入到狀態表示中，Wei等人[7]把表示車輛位置的實時圖像喂入CNN，這兩種方法通過合理設計狀態體現交通流的動態特性。Chu等人[12]使用LSTM網絡擬合Q值，利用網絡的記憶能力學習交通信息的變化趨勢，但是沒有直接預測未來的交通狀態。為了克服DQN無法記住當前輸入之前的歷史信息這一缺點，Xu等人[11]提出了DRQN模型，將當前的狀態和幾個歷史狀態輸入智能體，可以看成n階馬爾可夫決策過程。劉志等人[6]使用PSER更新經驗池中序列樣本的優先級，使當前時刻之前的樣本數據更容易被采樣。上述方法或多或少考慮了交通流的時序特性，但是沒有對交通狀態進行直接預測，因為微觀狀態維數大，容易引發維數災難的問題，且和DRL結合時難以訓練出令人滿意的結果。

2結合狀態預測的深度強化學習交通信號控制算法

本文將狀態預測與DRL中的DQN算法相結合，采用獨熱編碼的形式精心設計微觀狀態，并用LSTM預測未來的狀態，智能體根據當前狀態和預測狀態進行決策。本章將對狀態、動作、獎勵進行定義，并介紹所提算法DQN_SP的網絡模型。

2.1狀態定義

本文需要利用當前和預測的交通狀態進行決策，狀態設計尤為關鍵，因此基于DTSE方法采用非均勻量化和獨熱編碼來設計狀態向量。本文用于仿真的交叉口為雙向6車道，長500 m，沿著車輛的行駛方向，左邊的車道為左轉車道，中間車道為直行車道，右邊的車道為直行加右轉車道。本文按照一定長度比例將車道劃分為元胞，圖1所示的是以交叉口西進口道為例的元胞設計圖。其中，右邊的兩條車道看做一個整體進行劃分，左邊的左轉車道單獨進行劃分，這樣一個交叉口四個方向的車道將被劃分為80個元胞。狀態由每個元胞中是否有車輛來表示，如有車輛，狀態取值為1，否則為0。

由圖1西進口道的元胞設計圖可以看出，交叉口附近以7 m為單位劃分出10個元胞，其中每個元胞都只能容納1輛車，可以精確地反映車輛分布情況，離交叉口最遠的元胞長230 m。與用實時圖像[18]或對車道均勻劃分[19]表示狀態的方法相比，該方法使智能體更關注靠近路口的交通狀況，降低了數據維度，縮短了計算時間。以每個元胞中是否有車輛作為狀態，簡化交通信息，能夠反映環境的主要特征，即交叉口附近的車輛分布情況。另外，對這種獨熱編碼形式的狀態進行預測，可以看成二分類問題，相比于傳統的回歸預測能夠提高預測準確率。

2.2動作定義

智能體需要根據交通狀態選擇合適的動作來疏導交通，本文的動作定義為選擇一個可能的信號相位。動作集合A={NSG，NSLG，EWG，EWLG}，分別表示南北方向直行和右轉綠燈、南北方向左轉綠燈、東西方向直行和右轉綠燈、東西方向左轉綠燈。每個相位的最短持續時間設為10 s，同時為了安全起見，綠燈和紅燈切換期間會有時長3 s的黃燈。

2.3獎勵定義

智能體在t時刻觀測環境狀態為st，執行動作at后得到環境對該動作的反饋rt，用來衡量該動作的質量，是DRL能否收斂以及能否取得良好效果的關鍵。本文獎勵rt定義為相鄰時間步的所有車道車輛排隊長度之差：

rt=αqt-qt+1（6）

其中：qt表示t時刻路網中所有車道的排隊長度之和；qt+1表示下一時間步所有車道的排隊長度之和，α為系數，通過多次實驗后設為0.9。

2.4結合狀態預測的DRL信控算法（DQN_SP）

本文所提算法DQN_SP采用LSTM預測未來微觀狀態sp，并將其與當前狀態s串聯，作為增廣狀態輸入DRL智能體，DRL算法使用傳統的DQN[13]，旨在驗證結合狀態預測后算法的有效性與可行性。DQN_SP的網絡結構如圖2所示，最優動作價值函數的優化目標表示為

y（s，sp，a）=r+γmaxa′q（s′，sp′，a′）（7）

算法1DQN_SP算法

1初始化深度Q網絡、LSTM網絡、經驗池

2for episode=1 to M do

3初始化路網環境，導入車流數據

4for t=1 to T do

5智能體觀測當前環境狀態s

6LSTM預測n個時間步后的微觀狀態sp

7當前狀態與預測狀態串聯后輸入DQN智能體，智能體基于ε貪婪策略執行動作a

8智能體進入新的狀態s′，根據式（6）計算獎勵r

9LSTM預測n個時間步后的微觀狀態sp′

10將樣本（s，sp，a，r，s′，sp′）存入經驗池中

11end for

12從經驗池中抽取樣本訓練網絡

13根據式（7）計算優化目標，使用均方誤差損失函數更新深度Q網絡參數w

14使用二值交叉熵損失函數更新LSTM網絡參數θ

15end for

3實驗結果與分析

3.1仿真環境與超參數設置

SUMO是免費開源的交通系統仿真軟件，其中的Traci（traffic control interface）接口可以與多種開發環境在線交互，實現對交通信號的控制。本文以Ubuntu GeForce RTX 2080 GPU作為硬件環境，算法通過深度學習框架Keras實現，在SUMO v1.6.0下進行仿真實驗。

1）交叉口設置本文在單交叉口和多交叉口兩種場景下分別進行仿真；交叉口由4條垂直的道路組成，每條道路長500 m，為雙向六車道，沿著車輛的行駛方向左邊為左轉車道，中間為直行車道，右邊為直行加右轉車道；多交叉口為4個相同的交叉口組成的2×2井字形路網，路口配置同單交叉口。

2）交通流設置車輛生成的方式對交通信號控制有著重要的影響，本文中車輛的生成服從韋伯分布，其概率密度函數為

f（x；λ，a）=aλ（xλ）a-1e-（xλ）ax≥0

0xlt;0（8）

其中：λ是比例參數，設為1；a是形狀參數設為2，絕大多數車輛集中在某一段時間內進入路網，可以模擬現實生活中高峰低峰的情形。車輛從任意入口進入路網，以75%的概率直行，12.5%的概率左轉，12.5%的概率右轉。車輛長5 m，加速度為1 m/s2，以36 km/h的速度進入路網，最大速度為50 km/h，車輛之間最小間距為2.5 m。

3）超參數設置參照文獻[7，9，19]并結合實驗，超參數設置如下：訓練回合數設為100，算法使用DNN評估Q值，隱藏層數為5，寬度為400，采用Adam優化器，學習率為0.001，批處理大小為80，每回合訓練迭代800次，采用均方誤差作為損失函數。預測網絡使用6個LSTM單元，每個單元有3個LSTM層，神經元個數為80，采用Adam優化器，批處理大小為128，每回合訓練迭代1次，采用二值交叉熵作為損失函數。RL經驗池尺寸最小為600，最大為50 000，折扣因子為0.75，使用ε貪婪算法輸出動作。

3.2實驗評估與結果分析

本文在單交叉口和多交叉口兩種場景下分別進行實驗。對于單交叉口，仿真時長為5 400 s，進入路網的車輛數目為500、1 000、1 500，分別對應低、中、高三種流量條件。對于多交叉口，仿真時長也為5 400 s，進入路網的車輛數目設為2 000、3 000，分別對應低、高兩種流量條件。對于每種流量條件，用隨機種子seed生成20組車流數據，20組數據下車輛的平均等待時間、平均行駛時間、平均燃油消耗、平均CO2排放、平均累計獎勵作為算法的性能指標。其中，平均等待時間主要來自于車輛排隊時消耗的時間，與定義的獎勵相關性最強，為主要指標，平均行駛時間、燃油消耗、CO2排放為次要指標。本文算法對1、5、10個時間步后的狀態進行預測，分別記為DQN_SP_1、DQN_SP_5、DQN_SP_10。為了驗證預測的有效性，將DQN_SP與下列基準算法進行比較：

a）固定配時控制（fixed-time control，FTC），它根據經典的韋伯斯特配時法[25]預先定義一套配時方案，廣泛應用于現實交通場景中；

b）自組織交通燈（self-organizing traffic lights，SOTL）[26]，當紅燈方向的排隊長度達到閾值時，該方向的信號燈就變成綠燈，若綠燈方向一定距離內車輛數過多，則延長綠燈時長；

c）基于DQN的交通信號控制，使用與所提算法DQN_SP相同的DQN算法[13]，唯一區別在于其不對未來狀態進行預測，所以網絡輸入維度減半，其余超參數設置以及狀態、動作、獎勵定義與DQN_SP相同。

圖3是在單交叉口中流量條件下，訓練與測試過程中各算法的累計獎勵對比和車輛平均等待時間對比。圖3（a）給出了在單交叉口中流量條件下，DQN_SP與DQN在訓練過程中的累計獎勵對比，兩者區別不大。可見，增加了狀態預測，不會降低算法的收斂速度，也不會削弱算法穩定性。圖3（b）表示DQN_SP與三種基準算法的車輛平均等待時間對比。在訓練的初始階段，由于經驗池中的樣本太少，智能體還沒有學到正確的控制策略，所以平均等待時間會大幅上升，隨著訓練的進行，交叉口通行狀況逐漸好轉，最終趨于平穩。

訓練好的模型在隨機生成的20組車流數據下進行測試，平均性能如表1所示。可以看出，無論是預測1步、5步還是10步后的狀態，DQN_SP的性能都比FTC、SOTL、DQN更加優越，且在主要指標上，DQN_SP_5改善最多，相比于DQN，車輛平均等待時間減少了6.06%，累計獎勵提高了5.61%。然而在行駛時間、燃油消耗、CO2排放這三個次要指標上，DQN_SP_1改善效果最明顯。圖3（c）表示DQN_SP_5與DQN在20次測試中的累計獎勵對比，圖3（d）表示DQN_SP_5與三種基準算法的車輛平均等待時間對比。結果顯示，相較于傳統的FTC、SOTL信號控制，基于DRL的方法在縮短車輛的等待時間上效果顯著，且在18次測試中，DQN_SP_5的控制效果均優于DQN。

在單交叉口低流量、高流量條件下，算法的性能如表2、3所示。可以看出，當交通流較大時，SOTL的控制效果甚至不如FTC。在低流量條件下，DQN_SP_5改善效果最佳，相比于DQN，平均等待時間減少了7.14%，累計獎勵提高了6.79%。在高流量條件下，DQN_SP_10控制效果最好，平均等待時間減少9.16%，累計獎勵提高8.68%，且其他三項指標均有明顯的改善。另外可以注意到，當車流量變大時，預測更多時間步后狀態的DQN_SP算法信控效果更好，因為大量車輛進入路網導致交通擁堵，環境狀態變化緩慢，需要對長時間后的狀態進行預測才能學習交通狀態變化的趨勢。

本文還在多交叉口場景下進行實驗，每個交叉口信號都用一個智能體控制。本文旨在驗證結合狀態預測的DRL的有效性，因此，使用簡單的多智能體協作策略：采用空間折扣因子削弱來自其他交叉口的獎勵，當前交叉口獎勵權重為0.5，鄰居交叉口為0.2，對角交叉口為0.1。仿真時長5 400 s，進入路網的車輛數目設為2 000、3 000輛，分別對應低流量和高流量，表4、5列出了算法在20次測試中的平均性能。在高流量情況下，SOTL控制效果糟糕，因為當交通流高度隨機的時候，車輛驅動的控制方法很難奏效。在低流量條件下，DQN_SP_5的改善效果最好，相比于DQN，平均等待時間減少8.82%，累計獎勵提高8.11%，然而在高流量條件下，DQN_SP_10的改善效果最好，平均等待時間減少4.92%，累計獎勵提高4.59%。由此可見，隨著車流量變大，需要對更多時間步后的狀態進行預測，以更有效地學習交通變化趨勢，提高通行能力。

綜上所述，相較于基準算法，DQN_SP在單交叉口和多交叉口的場景下都能學習更好的信號控制策略，有效緩解了交通擁堵，減少燃油消耗與污染排放。隨著車流量的增多，需要預測更多時間步后的狀態以獲得更好的控制效果。

4結束語

本文利用了交通數據的時序相關性，提出結合狀態預測的深度強化學習交通信號控制算法DQN_SP，通過提取高維交通特征，并對未來微觀狀態進行預測，在單交叉口、多交叉口以及多種流量條件下都取得了更好的信控效果。與FTC、SOTL、DQN算法相比，DQN_SP在平均等待時間、行駛時間、燃油消耗、CO2排放方面具有提升。未來本文將進一步研究將狀態預測與更先進的DRL算法（如TD3、SAC等）相結合，并使用真實的交通數據進行驗證。

參考文獻：

［1］Sims A G，Finlay A B.SCATS，splits and offsets simplified（SOS）[J].Australian Road Research，1984，12（4）：17-33.

[2]Hunt P B，Robertson D I，Bretherton R D，et al.The SCOOT on-line traffic signal optimisation technique[J].Traffic Engineering amp; Control，1982，23（4）：190-192.

[3]Sutton R S，Barto A G.Reinforcement learning：an introduction[M].Cambridge，MA：MIT Press，2018.

[4]LeCun Y，Bengio Y，Hinton G.Deep learning[J].Nature，2015，521（7553）：436-444.

[5]Arel I，Liu C，Urbanik T，et al.Reinforcement learning-based multi-agent system for network traffic signal control[J].IET Intelligent Transport Systems，2010，4（2）：128-135.

[6]劉志，曹詩鵬，沈陽，等.基于改進深度強化學習方法的單交叉口信號控制[J].計算機科學，2020，47（12）：226-232.（Liu Zhi，Cao Shipeng，Shen Yang，et al.Signal control of single intersection based on improved deep reinforcement learning method[J].Compu-ter Science，2020，47（12）：226-232.）

[7]Wei Hua，Zheng Guanjie，Yao Huaxiu，et al.IntelliLight：a reinforcement learning approach for intelligent traffic light control[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York：ACM Press，2018：2496-2505.

[8]Zheng Guanjie，Xiong Yuanhao，Zang Xinshi，et al.Learning phase competition for traffic signal control[C]//Proc of the 28th ACM International Conference on Information and Knowledge Management.New York：ACM Press，2019：1963-1972.

[9]Jin Junchen，Ma Xiaoliang.A multi-objective agent-based control approach with application in intelligent traffic signal system[J].IEEE Trans on Intelligent Transportation Systems，2019，20（10）：3900-3912.

[10]Tan Tian，Bao Feng，Deng Yue，et al.Cooperative deep reinforcement learning for large-scale traffic grid signal control[J].IEEE Trans on Cybernetics，2019，50（6）：2687-2700.

[11]Xu Ming，Wu Jianping，Huang Ling，et al.Network-wide traffic signal control based on the discovery of critical nodes and deep reinforcement learning[J].Journal of Intelligent Transportation Systems，2020，24（1）：1-10.

[12]Chu Tianshu，Wang Jie，Codecà L，et al.Multi-agent deep reinforcement learning for large-scale traffic signal control[J].IEEE Trans on Intelligent Transportation Systems，2019，21（3）：1086-1095.

[13]Mnih V，Kavukcuoglu K，Silver D，et al.Playing Atari with deep reinforcement learning[EB/OL].（2013-12-19）.http：//doi.org/10.48550/arxiv.1312.5602.

[14]Mnih V，Kavukcuoglu K，Silver D，et al.Human-level control through deep reinforcement learning[J].Nature，2015，518（7540）：529-533.

[15]Van Hasselt H，Guez A，Silver D.Deep reinforcement learning with double Q-learning[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2016：2094-2100.

[16]Schaul T，Quan J，Antonoglou I，et al.Prioritized experience replay[C]//Proc of the 4th International Conference on Learning Representations.2016：322-355.

[17]Wang Ziyu，Schaul T，Hessel M，et al.Dueling network architectures for deep reinforcement learning[C]//Proc of the 33rd International Conference on Machine Learning.New York：ACM Press，2016：1995-2003.

[18]Mousavi S S，Schukat M，Howley E.Traffic light control using deep policy-gradient and value-function-based reinforcement learning[J].IET Intelligent Transport Systems，2017，11（7）：417-423.

[19]孫浩，陳春林，劉瓊，等.基于深度強化學習的交通信號控制方法[J].計算機科學，2020，47（2）：169-174.（Sun Hao，Chen Chunlin，Liu Qiong，et al.Traffic signal control method based on deep reinforcement learning[J].Computer Science，2020，47（2）：169-174.）

[20]Van der Pol E，Oliehoek F A.Coordinated deep reinforcement learners for traffic light control[C]//Proc of the 30th Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2016：1-9.

[21]Wang Xiaoqiang，Ke Liangjun，Qiao Zhimin，et al.Large-scale traffic signal control using a novel multiagent reinforcement learning[J].IEEE Trans on Cybernetics，2020，51（1）：174-187.

[22]Touhbi S，Babram M A，Nguyen-Huu T，et al.Adaptive traffic signal control：exploring reward definition for reinforcement learning[J].Procedia Computer Science，2017，109：513-520.

[23]Yu Bingquan，Guo Jinqiu，Zhao Qinpei，et al.Smarter and safer traffic signal controlling via deep reinforcement learning[C]//Proc of the 29th ACM International Conference on Information amp; Knowledge Ma-nagement.New York：ACM Press，2020：3345-3348.

[24]Genders W，Razavi S.Evaluating reinforcement learning state representations for adaptive traffic signal control[J].Procedia Computer Science，2018，130：26-33.

[25]Webster F V.Traffic signal settings，road research technical[R].[S.l.]：Road Research Laboratory，1958.

[26]Cools S B，Gershenson C，D’Hooghe B.Self-organizing traffic lights：a realistic simulation[M]//Advances in Applied Self-organizing Systems.London：Springer，2013：45-55.

收稿日期：2021-12-26；修回日期：2022-02-21基金項目：國家自然科學基金資助項目（62073164）；南京航空航天大學研究生創新基地（實驗室）開放基金資助項目（kfjj20200313）

作者簡介：唐慕堯（1997-），男，江蘇泰州人，碩士，主要研究方向為智能控制；周大可（1974-），男（通信作者），江蘇淮安人，副教授，碩導，博士，主要研究方向為機器學習、計算機視覺與智能控制等（dkzhou@nuaa.edu.cn）；李濤（1979-），男，安徽淮南人，副教授，碩導，博士，主要研究方向為網絡化多智能體系統、網絡控制系統與飛行器控制．

計算機應用研究2022年8期

計算機應用研究的其它文章: 基于多尺度聚合神經網絡的雙目視覺立體匹配方法; 融合遷移學習和數據增強的SC-Net模型在皮膚癌識別中的應用; 基于MobileVit輕量化網絡的車輛檢測方法; 基于條件對抗域泛化的人臉活體檢測方法; 注意力機制結合殘差收縮網絡對遙感圖像分類; 基于布局圖的多物體場景新視角圖像生成網絡