舒凌洲 吳佳 王晨



摘 要:針對城市交通信號控制中如何有效利用相關信息優化交通控制并保證控制算法的適應性和魯棒性的問題,提出一種基于深度強化學習的交通信號控制算法,利用深度學習網絡構造一個智能體來控制整個區域交通。首先通過連續感知交通環境的狀態來選擇當前狀態下可能的最優控制策略,環境的狀態由位置矩陣和速度矩陣抽象表示,矩陣表示法有效地抽象出環境中的主要信息并減少了冗余信息;然后智能體以在有限時間內最大化車輛通行全局速度為目標,根據所選策略對交通環境的影響,利用強化學習算法不斷修正其內部參數;最后,通過多次迭代,智能體學會如何有效地控制交通。在微觀交通仿真軟件Vissim中進行的實驗表明,對比其他基于深度強化學習的算法,所提算法在全局平均速度、平均等待隊長以及算法穩定性方面展現出更好的結果。其中,與基線相比,平均速度提高9%,平均等待隊長降低約13.4%。實驗結果證明該方法能夠適應動態變化的復雜的交通環境。
關鍵詞:深度學習;卷積神經網絡;強化學習;交通信號控制
中圖分類號:TP311.1
文獻標志碼:A
Abstract: To meet the requirements for adaptivity, and robustness of the algorithm to optimize urban traffic signal control, a traffic signal control algorithm based on Deep Reinforcement Learning (DRL) was proposed to control the whole regional traffic with a control Agent contructed by a deep learning network. Firstly, the Agent predicted the best possible traffic control strategy for the current state by observing continously the state of the traffic environment with an abstract representation of a location matrix and a speed matrix, because the matrix representation method can effectively abstract vital information and reduce redundant information about the traffic environment. Then, based on the impact of the strategy selected on the traffic environment, a reinforcement learning algorithm was employed to correct the intrinsic parameters of the Agent constantly in order to maximize the global speed in a period of time. Finally, after several iterations, the Agent learned how to effectively control the traffic.The experiments in the traffic simulation software Vissim show that compared with other algorithms based on DRL, the proposed algorithm is superior in average global speed, average queue length and stability; the average global speed increases 9% and the average queue length decreases 13.4% compared to the baseline. The experimental results verify that the proposed algorithm can adapt to complex and dynamically changing traffic environment.
英文關鍵詞Key words: deep learning; Convolutional Neural Network (CNN); reinforcement learning; traffic signal control
0 引言
城市交通信號控制一直以來是一個具有挑戰性的研究課題。由于交通系統的復雜性和動態性,隨著控制范圍的擴大,交通狀態信息數據量急劇增加,控制的復雜度呈指數級增長[1]。除此以外,交通信號控制面臨著魯棒性、適應性等問題同樣增加了控制的難度。對此,部分研究者提出了分布式控制方案,基于多智能體的方法被廣泛用于解決城市交通分布式控制問題[2-6],如文獻[4]利用了遺傳算法和強化學習算法來訓練多智能體,文獻[6]采用基于模糊控制的多智能體算法。然而,由于以下原因,交通網絡信號控制問題依舊沒有得到有效地解決:1)多智能體之間的協作通信基于預定義的規則,導致智能體無法快速適應不斷變化的交通狀況, 因此,智能體性能缺乏穩定性; 2)隨著控制區域范圍增大,交通狀態信息和交通控制方式復雜度陡增,傳統的交通控制方式很難發現交通數據中隱藏的模式,因此,優化控制目標難度增加。
為了解決上述問題,本文提出一種基于深度強化學習的城市交通信號控制算法。強化學習[7]是一類重要的機器學習技術,它通過與環境的交互來學習最優的控制決策。交通信號控制領域很早開始運用強化學習方法來解決交通控制問題。智能體以提升車輛平均速度、最小化車輛平均通行時間、減少車輛平均等待隊長為目標,通過觀察當前交通狀態,選擇最優的交通控制策略[4,8-11]。這些方法采用人工提取的特征表示交通狀態,極大地降低了交通狀態表示的復雜度。例如,文獻[9]選擇每個車道等待車輛隊長和信號燈時間作為交通信息狀態,通過將數據離散化為不同級別,達到壓縮數據的目的。該方法雖然降低了信息的復雜度,但丟失了交通狀態潛在的重要信息。因此,單純基于強化學習的交通控制策略只能應對低維度數據,一旦交通數據量和復雜度增加,該方法無法滿足城市區域交通信號的精確控制需求。
深度學習可以很好地解決高維度數據抽象表征問題。受到人腦工作模式的啟發, 深度學習將底層特征組合形成更加抽象的高層特征[12]。通過與強化學習結合, 即深度強化學習 (Deep Reinforcement Learning, DRL), DRL能夠發掘交通狀態信息中隱藏模式,直接從高維數據中學習到有效的控制策略。近年來部分研究者開始在交通信號控制領域采用深度強化學習技術[13-15],但大多數研究僅考慮單個交叉路口的交通控制[13-14]。文獻[15]雖能夠實現小型交通網絡的控制,但文中仍是單個智能體控制單個路口交通,然后利用傳統多智能體協調機制來控制交通網絡。由于 DRL 算法的訓練非常耗時,因此每個交叉路口由單個DRL智能體控制的交通網絡的訓練將消耗較長的時間;另外,作者在文中指出了其智能體在訓練過程中穩定性較差, 因此,對于大型路網來說, 此方法可行性較差。
本文旨在利用深度強化學習的優勢高效地控制城市交通。智能體通過不斷地與交通環境進行交互以最大限度提高交通通行效率。在此框架下智能體無需預知交通系統控制的內在規則,而是通過不斷探索新的策略,根據該策略對環境的影響來學習到最優的控制策略。本文方法主要優點在于:
1)單個智能體對交通路網進行全局控制。
2)交通網絡的狀態由位置矩陣和速度矩陣聯合表示,這樣能有效抽象出交通路網中的主要信息。與文獻[13-14]相比,矩陣表示法壓縮了數據的維度并且縮短了計算時間。
3)通過對智能體超參數的調整,信號控制的穩定性顯著提高,訓練時間顯著減少。
4)所有仿真實驗均在著名的微觀交通仿真軟件Vissim上運行,實驗結果可信度高。
3.3 性能提升
在本節中將在Agent4的基礎上通過改變車流量范圍進一步提升Agent性能。經過多次實驗發現,Agent5在訓練時縮小車流量范圍至550~650veh/h,其在測試階段性能優于Agent4。實驗結果表明(表2),Agent5平均速度增長約2%。究其原因在于更大的車流量范圍增加了交通狀態的復雜度,使得Agent訓練難度增加,最終導致了Agent性能不穩定,增加神經網絡的深度和每層節點數可解決該問題。在原有測試之上本文為Agent5增加了低車流量場景(300veh/h)測試任務(如圖4所示),實驗表明在高流量環境中訓練仍能夠在低流量環境中取得良好表現。
4 結語
隨著城市交通狀況的復雜性增長,交通狀態中的隱藏模式難以發現。深度學習提供了從高維數據中挖掘隱藏模式的有效方法。通過與強化學習算法結合,為城市交通控制提供了解決方案。本文提出了一種基于深度強化學習的交通網絡交通控制方法,該方法通過與交通環境交互,連續地感知交通環境的狀態并挖掘其中隱藏模式,進而找到當前狀態下可能的最優控制策略。實驗結果表明,該方法能有效控制城市交通,提升交通通行效率,但是此方法依然存在一定的局限性,如隨著控制范圍的擴大、交叉口數量的增加帶來動作空間的陡增;由于深度學習與強化學習結合帶來的訓練困難等問題。在今后研究中,將考慮從以下方面進一步優化算法:
1)利用文獻[19]提出的Wolpertinger 框架解決隨著控制范圍擴大出現的動作空間指數增長的問題;
2)隨著城市交通狀況的復雜性增加,訓練時間將大幅增加。為了減少訓練時間,提升訓練效果,擬考慮更先進的深度強化學習技術,如Asynchronous Advantage ActorCritic A3C[20]或DuelingDQN算法[21]。
參考文獻 (References)
[1] 李穎宏,王力,尹怡欣. 區域交通信號系統節點分析及優化策略研究[J]. 計算機應用,2010, 30(4): 1107-1109. (LI Y H, WANG L, YIN Y X. Node analysis and optimization strategy for regional traffic network system [J]. Journal of Computer Applications, 2010, 30(4): 1107-1109.)
[2] CHIU S, CHAND S. Selforganizing traffic control via fuzzy logic[C]// Proceedings of the 32nd IEEE Conference on Decision and Control. Piscataway, NJ: IEEE, 1994:1897-1902.
[3] NAKAMITI G, GOMIDE F. Fuzzy sets in distributed traffic control[C]// Proceedings of IEEE 5th International Fuzzy Systems. Piscataway, NJ: IEEE, 1996: 1617-1623.
[4] MIKAMI S, KAKAZU Y. Genetic reinforcement learning for cooperative traffic signal control[C]// Proceedings of the 1st IEEE Conference on Evolutionary Computation. Piscataway, NJ: IEEE, 1994: 223-228.
[5] MANIKONDA V, LEVY R, SATAPATHY G, et al. Autonomous Agents for traffic simulation and control[J]. Transportation Research Record Journal of the Transportation Research Board, 2001, 1774(1):1-10.
[6] LEE J H, LEEKWANG H. Distributed and cooperative fuzzy controllers for traffic intersections group[J]. IEEE Transactions on Systems, Man & Cybernetics Part C: Applications & Reviews, 1999, 29(2):263-271.
[7] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5):1054-1054.
[8] MEDINA J C, HAJBABAIE A, BENEKOHAL R F. Arterial traffic control using reinforcement learning Agents and information from adjacent intersections in the state and reward structure[C]// Proceedings of the 13th International IEEE Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2010: 525-530.
[9] PRASHANTH L A, BHATNAGAR S. Reinforcement learning with function approximation for traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(2): 412-421.
[10] ABDULHAI B, PRINGLE R, KARAKOULAS G J. Reinforcement learning for true adaptive traffic signal control[J]. Journal of Transportation Engineering, 2003, 129(3):278-285.
[11] BINGHAM E. Reinforcement learning in neurofuzzy traffic signal control[J]. European Journal of Operational Research, 2001, 131(2):232-241.
[12] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436.
[13] LI L, LYU Y S, WANG F Y. Traffic signal timing via deep reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3):247-254.
[14] MOUSAVI S S, SCHUKAT M, HOWLEY E. Traffic light control using deep policygradient and valuefunctionbased reinforcement learning[J]. IET Intelligent Transport Systems, 2017, 11(7):417-423.
[15] van der POL E. Deep reinforcement learning for coordination in traffic light control[D]. Amsterdam: University of Amsterdam, 2016: 1-56.
[16] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[J/OL]. arXiv Preprint, 2013, 2013: arXiv:1312.5602 [2013-12-09]. https://arxiv.org/abs/1312.5602.
[17] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Humanlevel control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.
[18] LI Y X. Deep reinforcement learning: an overview[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1701.07274 [2017-01-25]. https://arxiv.org/abs/1701.07274.
[19] DULACARNOLD G, EVANS R, SUNEHAG P, et al. Reinforcement learning in large discrete action spaces[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1603.06861 [2016-03-22]. https://arxiv.org/abs/1603.06861.
[20] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1603.01783 [2016-02-04]. https://arxiv.org/abs/1602.01783.
[21] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C]// Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York: JMLR.org, 2016: 1995-2003.
[22] DULACARNOLD G, EVANS R, HASSELT H V. Deep reinforcement learning in large discrete action spaces[J/OL]. arXiv Preprint, 2015, 2015: arXiv:1512.07679 [2015-12-24]. https://arxiv.org/abs/1512.07679.