結合模糊控制的深度強化學習交通燈控制策略

2024-02-18 04:59:09秦僑楊超楊海濤黃旭民張斌楊海森

計算機應用研究 2024年1期

秦僑楊超楊海濤黃旭民張斌楊海森

摘要：現有交通信號燈控制策略大多針對單一交叉口展開分析，該策略僅考慮車流量的單一因素，難以適應動態的路網狀態。對此，提出了一種結合模糊控制的深度強化學習交通燈控制策略，利用SAC（soft actor critic）深度強化學習對兩交叉口的交通信號燈相位選擇及配時進行聯合優化，同時考慮車輛速度、路段車輛排隊長度等因素，利用模糊控制對SAC的懲罰函數進行處理。實驗結果表明，與固定循環周期策略、SAC控制策略和DDPG（deep deterministic policy gradient）控制策略相比，提出的交通信號燈控制策略能獲得更快的車輛通行速度，車輛的油耗和尾氣排放情況也得到了改善。

關鍵詞：智能交通；交通信號燈控制；深度強化學習；模糊控制；VISSIM

中圖分類號：TP273.1?? 文獻標志碼：A?? 文章編號：1001-3695（2024）01-024-0165-05

doi：10.19734/j.issn.1001-3695.2023.04.0187

Deep reinforcement learning traffic light control strategy combined with fuzzy control

Abstract：Most of the existing traffic light control strategies consider a single factor such as traffic flow，which is difficult to adapt to the dynamic states of the road networks.In order to solve this problem，this paper proposed a deep reinforcement lear-ning traffic light control strategy combined with fuzzy control，used SAC deep reinforcement learning to jointly optimize the phase selection and timing of traffic lights at two intersections，while considering multiple influencing factors，used fuzzy control to process the penalty function of SAC.The experimental results demonstrate that compared with the fixed cycle strategy，SAC control strategy and DDPG control strategy，the proposed traffic signal control strategy can obtain faster vehicle speed，and the fuel consumption and exhaust emissions of the vehicle are also improved.

Key words：intelligent transportation；traffic signal control；deep reinforcement learning；fuzzy control；VISSIM

0 引言

高效的交通系統是提升社會經濟競爭力和環境可持續發展的關鍵基礎設施。對城市道路交叉路口的交通燈進行有效的控制，可以提升路段的通行效率，減少道路交通擁堵。在交叉口，路面交通流實時變化，路面車輛的到達具備不確定性。當前，大部分交叉路口的交通信號燈仍然采用傳統的單段或多段定時固定循環周期控制，導致延誤和高昂的通勤成本［1，2］。同時，交通燈設置不當導致的交通擁堵會增加碳排放，對環境和社會造成不良影響［3］。

隨著5G通信網絡技術的快速發展，車與車（vehicle-to-vehicle，V2V）、車與路側設施（vehicle-to-infrastructure，V2I）之間的數據傳輸速率加快［4，5］。依托交通物聯網技術，智能交通系統可以設計一類交通信號燈自適應控制策略，其能夠及時感知復雜路網的交通狀態變化，選擇最優相位動作和配時。然而，已有的部分交通燈自適應控制策略對動態變化的路網狀況難以在線進行調整，特別是面對多交叉路口的交通信號燈聯合控制場景效果不佳。基于強化學習（reinforcement learning，RL）的交通信號控制策略根據長期觀察的離線數據對交叉路口進行建模［6］，同時根據策略的實測效果和路面的交通流在線調整交叉路口信號燈的控制策略，取得了較好的效果。文獻［3］提出基于深度Q-learning的單路口交通燈配時控制策略。文獻［4］設計了一類利用深度增強學習的交通信號燈配時和相位優化策略，然而其懲罰函數只考慮了車流量這一單一因素。文獻［7］利用Q-learning同時對路口的交通燈相位和配時進行優化。文獻［8］通過LSTM循環神經網絡預測未來的交通信息，并使用DDPG深度強化學習模型進行決策。文獻［9］構建了新的基于相鄰采樣時間步實時車輛數變化量的獎勵函數，明顯提高了交叉口通行效率。文獻［10］基于改進Webster方法，設計一類高效的單交叉路口交通信號燈配時策略。文獻［11］將霧計算和強化學習理論相結合，提出了一種FRTL交通燈控制模型，有效地調控了紅綠燈時間，達到了緩解交通擁堵的目的。文獻［12］設計了一種基于模糊控制的交通信號燈控制策略。然而，上述工作是針對局部區域單個交叉口路網系統展開研究，沒有對大范圍內多交叉路口聯合交通燈控制進行分析。文獻［13］針對多交叉口的紅綠燈相位控制，提出了一種基于多智能體的TR-light模型，有效地改善了多交叉口的交通狀況。文獻［14］在基于多智能體強化學習的基礎上，利用圖卷積網絡構建了一個參數共享的NCCLight模型，實現了交叉口之間的信息交換，有效地提高了模型的性能。然而，上述方法沒有全面考慮影響控制決策的多方面因素，缺乏針對懲罰函數的優化設計。

強化學習中，懲罰函數的設計決定著系統的學習性能，而交通信號燈控制決策受到多方面因素的影響，具體包括車流量、行車時間、碳排放等，因此如何在懲罰函數中平衡各個因素動態變化情況，是提升控制策略效率的關鍵。為了更精確地描述各個因素對控制決策的影響，提高系統的魯棒性，本文基于SAC（soft actor critic）［15］深度強化學習方法，將模糊控制引入構建懲罰函數。針對兩交叉口路網場景交通信號燈管理需求，提出了一種基于改進SAC深度強化學習的交通信號燈控制策略。具體地，利用模糊函數對各個路口的車輛速度、排隊車輛數量等因素進行處理，改寫SAC的懲罰函數，并基于此重點對兩交叉路口交通信號燈8相位選擇及配時進行聯合優化。除去傳統的路口通行時間和交通流量外，通過車輛的碳排放和油耗，本文對信號燈交叉口進行建模仿真分析，以驗證本文所提優化策略的有效性。

1 系統模型

1.1 交通信號燈控制模型

基于SAC的兩交叉路口交通信號燈控制模型如圖1所示。智能交通系統決策中心使用結合模糊邏輯的SAC深度RL方法對agent進行訓練，環境為兩交叉口道路，狀態表示為所有車輛的位置和速度。動作狀態空間包括兩個交叉路口交通燈8個相位及配時量。在固定周期T內，對于每一個交叉口信號燈，agent能夠根據環境狀態，自適應地從動作空間中選擇一個最優動作作為決策，從而提高所有車輛的整體行駛速度，減少行程時間及碳排放量。

本文使用VISSIM對兩交叉路口的路網狀況進行建模。在優化目標函數方面，除了傳統的車流量和車速外，本文還采用了車輛的碳排放和油耗進行建模，具體模型如下所述。

1.2 尾氣排放與油耗模型

車輛的尾氣排放與車瞬時速度、加減速度密切相關［16］。常規地，可以使用比功率法確定車輛的尾氣排放量。本文的研究對象為城市路網交叉路口，VSP（vehicle specific power）［16，17］計算如式（1）所示。

VSP=v（1.1a+0.132）+0.000302v3（1）

其中：v、a分別為車輛的速度、加/減速度。在獲得車輛的VSP后，可以采用碳平衡法確定車輛的油耗和各類排放的平均值［18］，包括CO2、CO、HC、NOx。具體地，可以對車輛的VSP劃分區間，然后確定不同區間內的油耗。采用碳平衡法計算車輛在不同VSP區間下的油耗率，如式（2）［19］所示。

其中：ERFC表示油耗率；ERCO2、ERCO、ERHC分別表示CO2、CO、HC的排放率；C%=86.6%，表示燃油的碳含量比重。

下面給出一個簡單案例，車輛的發動機排量小于3.5 L、行駛里程大于50 km，計算此類車輛在不同

VSP區間的油耗率平均值和CO2、CO、HC、NOx的排放率平均值（g·s-1）如表1所示，其中，ERNOx表示NOx的排放率平均值。

2 基于改進SAC的控制策略

強化學習主要由智能體（agent）、環境（environment）、狀態（state）、動作（action）、獎勵（reward）組成。環境定義為馬爾可夫決策過程（MDPs），智能體與環境進行交互，通過獎勵值rt評估判斷作出的動作，使得獎勵的加權和最大化。目前主流的RL算法分為基于價值的方法（value-based）和基于策略的方法（policy-based）兩大類。

2.1 SAC算法

SAC算法由四個critic網絡與一個actor網絡組成，前者用于預測狀態-動作元組的Q值，后者用于預測動作概率分布參數。相較傳統的Actor-Critic算法，SAC算法的特點是引入了最大熵模型（maximum entropy model），能在獲得足夠多收益的同時，對未知狀態空間進行合理探索，學到更多近優策略，同時加快訓練速度。在SAC中，目標函數同時包含了reward和策略熵，如下：

其中：π*表示最優策略；α為溫度系數，用于控制目標函數關注最大熵的程度；r（st，at）表示狀態st下執行動作at獲得的收益；E（st，at）～ρπ表示服從策略π時，未來總收益的期望。

圖2表示兩交叉口的智能體-環境交互圖，通過對環境的狀態進行采樣，獲得t時刻的狀態值st，作為策略網絡的輸入，同時得到該時刻動作的概率分布π（st）。為保證在離散動作空間下進行梯度下降，SAC算法經過重參數化（reparameterization）對動作的概率分布進行采樣，得到具體動作at。將得到的狀態-動作元組（st，at）作為Q網絡的輸入，得到狀態-動作價值Q（st，at），同時為了降低Q值的過度估計，使用了兩個Q網絡進行預測，選擇其較小的值執行優化策略。

2.2 狀態空間

本文定義的狀態空間包括當前所有車輛的位置及速度。在傳統的RL訓練過程中，對于一個狀態可視化環境，由于當前幀畫面包含所需的各種狀態元素，通常將經過壓縮后的當前幀畫面圖像用于狀態輸入［20］。本文使用VISSIM構建的路網畫面圖像中，車輛所占像素點較小，很難表現車輛的位置變化，這會使得狀態描述不精確。因此，本文將VISSIM路網的整體畫面圖像離散化為一個84×84的二維向量，即在交叉口的每一條道路上，進入的車輛在這7 056個單元中被離散化，以識別其中是否有車輛，最終得到一個84×84的二維向量，使得agent能夠獲得車輛的位置信息［21］。車輛的速度可通過VISSIM接口獲取，狀態的速度定義為路網中所有車輛的平均速度。

2.3 動作空間

為保證仿真符合真實交通狀況，所有可用的相位選擇僅由兼容的車流組成。本文研究的仿真環境為兩交叉口，對于任意一個交叉口，動作空間由相位選擇和相位配時兩部分組成，相位選擇為離散空間{0，1，2，3}，如圖3所示，相位配時為連續空間，為［3 s～10 s］中的連續值。如果任意一個交叉口信號燈的相位發生改變，則交通燈必須經過一個固定時間3 s的全紅燈相位，以符合交通法規。

2.4 結合模糊邏輯的獎勵函數改進

環境提供的獎懲值是對控制決策效果的評價，通過環境的獎懲反饋指導agent的學習過程，獎懲值定義了agent努力實現的目標，會對下一次控制決策的選擇產生影響。傳統的RL方法建立單一的顯式數學模型來描述獎勵函數。文獻［3］將當前時間步驟與前一步驟中所有車輛等待時間作為獎勵函數；文獻［4］考慮了平均速度、平均流量（即移動的車輛總數的百分比）、二氧化碳排放量等參數，并進行權重相加形成獎勵函數。在交通信號燈控制中，影響控制效果的優劣因素是多方面的，此外，各類因素之間關系較為復雜，一般屬于非線性關系。為了更好地建立準確的非線性系統模型，同時最大化多影響因素下所選動作的效果，本文通過專家知識建立模糊規則，并利用模糊邏輯構建獎懲反饋信號。獎勵值reward產生器共有兩個輸入，為路網當前所有車輛的平均速度Av和路網當前車輛排隊長度Lq。輸入與輸出的論域根據具體仿真環境確定，在本文中，Av的取值為17～35，Lq的取值為0～60，reward取值為0～30。模糊集根據輸入值由小至大分成NB、NM、NS、Z、PS、PM、PB七部分，三種變量的隸屬度函數均采用三角形隸屬度函數，如式（4）所示。以Av為例，最終得到輸入與輸出的隸屬度函數曲線，如圖4所示，模糊規則一共49條，反模糊化方法為質心法（centroid）。

其中：x表示輸入值；a、c分別表示該部分模糊集有效輸入的最大值與最小值；b表示函數輸出峰值時的輸入。

3 仿真分析

3.1 交通仿真環境

本文使用VISSIM軟件進行仿真平臺搭建，并利用該軟件交通控制COM接口，通過Python實時獲取交通流數據及修改交通控制狀態。本文使用的VISSIM跟馳模型為改進版Wiedemann 74模型，主要適用于城市內部道路交通。所用參數如表2所示。在VISSIM中建立的兩交叉口運行路網界面如圖5所示，仿真環境參數配置如表3所示。

3.2 結合模糊邏輯的SAC算法收斂分析

3.2.1 訓練網絡參數設置

結合模糊邏輯SAC算法的兩交叉口信號優化控制模型的訓練參數配置如表4所示。所有的網絡都使用Adam優化器進行訓練。critic網絡使用固定的學習速率，actor網絡學習速率隨著epoch的增加而變化，以加快收斂速度。為了得到更好的梯度參數并使模型學習穩定，本文使用n步Bootstrapping方法（n=5）來訓練critic網絡。

3.2.2 訓練結果

圖6表示結合模糊邏輯的SAC算法的收斂效果圖。由圖6可以看出，在訓練前期，由于神經網絡的初始參數為隨機化參數，得到的reward較小。隨著episode的增加，agent通過與環境進行交互獲得經驗，即由當前狀態、當前動作、reward、動作后的下一狀態組成的（st，at，rt，st-1）四元組，最后通過經驗回放機制（experience replay）更新網絡參數，以時序差分值（TD-error）由大到小排名的倒數作為優先級指標。為了減小引入優先級后產生的采用數據的分布偏差，采取了重要性采樣方法（importance sampling）進行糾錯。訓練中期，由于SAC算法加入了最大化熵以鼓勵agent探索，所以reward偶爾會下降，最終趨于穩定。

3.3 交通信號燈控制策略性能比較

為了驗證結合模糊控制的SAC深度強化學習（SAC-FL）交通燈控制策略的合理性和有效性，以及在惡劣交通環境下的適應能力，本文設計了不同車流量和車流突然涌入兩種不同的仿真場景對所提方法進行測試。設置了三個對照實驗策略：

a）固定循環策略（FIX）：交通燈的相位和配時是固定周期的，本文中設置周期為120 s。

b）傳統DDPG深度強化學習控制策略（DDPG）［8］：未使用結合模糊邏輯的獎勵函數，采用傳統的多元素線性加權獎勵函數。交通燈配時控制采用DDPG算法，交通燈相位控制是離散動作空間，因此采用DQN算法。

c）傳統SAC深度強化學習控制策略（SAC）：未使用結合模糊邏輯的獎勵函數，采用傳統的多元素線性加權獎勵函數。

3.3.1 不同車流量下

圖7～9表示各個交叉路口進口車道的車流量在200～600 veh/h時，四種控制策略的效果，進行比較的性能指標分別為車輛平均速度、平均排隊車輛數、車輛平均行程時間。如圖所示，在車流量較低時，四種策略效果并沒有太大差距。但在中高車流量時，本文提出的改進SAC強化學習策略相較于另外三種策略，均有較好的效果，性能提升結果如表5所示。其主要原因是改進的RL控制策略通過對經驗的學習后，能夠利用模糊控制對獎勵函數值進行改進，有助于作出增加reward的下一決策動作，從而提高整體系統內車輛的速度和減少排隊車輛數。

基于第1章對車輛的排放和油耗的建模，結合仿真所獲取的數據，本文研究分析四種控制策略對兩交叉路口通行車輛節能減排效果的影響［22］。由于控制效果更好，可能會導致車輛的到達率增加，進而使得油耗和尾氣排放量增加，會造成得到的總油耗和排放量不準確。所以本文采用車輛油耗比RC和車輛尾氣排放比RE作為比較依據。

ERFC表示油耗率，ERCO2、ERCO、ERHC分別CO2、CO、HC的排放率。

3.3.2 車流突然涌入

為了測試交通燈控制策略（SAC-FL）的魯棒性，本文對四種控制策略在車流突然涌入的情況下，車流平均速度恢復到穩定狀態的效果進行了比較。圖10所示為四種控制策略下應對車流突然涌入時的車輛平均速度比較結果。在第1 100仿真秒時各進車道車流量增加為500 veh/h，第1 700仿真秒時恢復車流量至300 veh/h，即圖中紅色區域（參見電子版）所示。由圖可以看出，在應對車流突然涌入的狀況時，基于RL的三種控制策略相較于固定配時策略，都能夠較快地恢復到穩定的車輛平均速度。

4 結束語

在城市路網中，對交叉路口的交通燈進行有效管理，可以有效地提升交叉路口的車輛通行效率。本文提出了一種結合模糊邏輯的SAC深度強化學習兩交叉口交通燈控制策略，對交通燈的相位和配時進行聯合優化，并利用模糊函數對SAC的獎勵函數進行處理。最后，在VISSIM仿真平臺上對不同交通需求的狀況進行了仿真分析。實驗結果表明，SAC-FL與FIX、DDPG及傳統SAC相比，能夠顯著地減少交叉口的擁堵狀況，同時減少油耗及廢氣的排放量，并且在應對突然涌入的車流時也具備良好的魯棒性。今后的研究工作擬從以下兩方面展開：考慮更復雜的交通路網，將模糊控制引入多智能體RL方法以更好地解決復雜路網問題；為更符合現實的交通車流組成，考慮對電動汽車展開研究，將電動汽車加入車流組成，并建立數學模型等。

參考文獻：

［1］張立立，王力，張玲玉.城市道路交通控制概述與展望［J］.科學技術與工程，2020，20（16）：6322-6329.（Zhang Lili，Wang Li，Zhang Lingyu.Urban road traffic control overview and prospect［J］.Science Technology and Engineering，2020，20（16）：6322-6329.）

［2］Liu Hao，Carlos E F，John S，et al.Field assessment of intersection performance enhanced by traffic signal optimization and vehicle trajectory planning［J］.IEEE Trans on Intelligent Transportation Systems，2022，23（8）：11549-11561.

［3］趙純，董小明.基于深度Q-Learning的信號燈配時優化研究［J］.計算機技術與發展，2021，31（8）：198-203.（Zhao Chun，Dong Xiaoming.Research on signal timing optimization based on deep Q-learning［J］.Computer Technology and Development，2021，31（8）：198-203.）

［4］Busch J V S，Latzko V，Reisslein M，et al.Optimised traffic light ma-nagement through reinforcement learning：traffic state agnostic agent vs.holistic agent with current V2I traffic state knowledge［J］.IEEE Open Journal of Intelligent Transportation Systems，2020，1：201-216.

［5］余辰，張麗娟，金海.大數據驅動的智能交通系統研究進展與趨勢［J］.物聯網學報，2018，2（1）：56-63.（Yu Chen，Zhang Lijuan，Jin Hai.Research progress and trend of big data-driven intelligent transportation system［J］.Chinese Journal on Internet of Things，2018，2（1）：56-63.）

［6］徐東偉，周磊，王達，等.基于深度強化學習的城市交通信號控制綜述［J］.交通運輸工程與信息學報，2022，20（1）：15-30.（Xu Dongwei，Zhou Lei，Wang Da，et al.Overview of reinforcement lear-ning-based urban traffic signal control［J］.Journal of Transportation Engineering and Information，2022，20（1）：15-30.）

［7］Liu Junxiu，Qin Sheng，Luo Yuling，et al.Intelligent traffic light control by exploring strategies in an optimised space of deep Q-learning［J］.IEEE Trans on Vehicular Technology，2022，71（6）：5960-5970.

［8］陳樹德，彭佳漢，高旭，等.基于深度強化學習的交通信號燈控制［J］.現代計算機，2020（3）：34-38.（Chen Shude，Peng Jiahan，Gao Xu，et al.Traffic signal control based on deep reinforcement learning［J］.Modern Computer，2020（3）：34-38.）

［9］劉智敏，葉寶林，朱耀東，等.基于深度強化學習的交通信號控制方法［J］.浙江大學學報：工學版，2022，56（6）：1249-1256.（Liu Zhimin，Ye Baolin，Zhu Yaodong，et al.Traffic signal control method based on deep reinforcement learning［J］.Journal of Zhejiang University ：Engineering Science，2022，56（6）：1249-1256.）

［10］馬琳，陳復揚，姜斌.交通物聯網中基于改進Webster方法的單點信號配時研究［J］.物聯網學報，2018，2（4）：49-55.（Ma Lin，Chen Fuyang，Jiang Bin.Research on timing method for single intersection in transportation Internet of Things based on improved Webster algorithm［J］.Chinese Journal on Internet of Things，2018，2（4）：49-55.）

［11］安萌萌，樊秀梅，蔡含宇.基于霧計算和強化學習的交通燈智能協同控制研究［J］.計算機應用研究，2020，37（2）：465-469.（An Mengmeng，Fan Xiumei，Cai Hanyu.Research on intelligent coordinated control of traffic light based on fog computing and reinforcement learning［J］.Application Research of Computers，2020，37（2）：465-469.）

［12］劉佳佳，左興權.交叉口交通信號燈的模糊控制及優化研究［J］.系統仿真學報，2020，32（12）：2401-2408.（Liu Jiajia，Zuo Xingquan.Research on fuzzy control and optimization of traffic lights at single intersection［J］.Journal of System Simulation，2020，32（12）：2401-2408.）

［13］吳昊昇，鄭皎凌，王茂帆.TR-light：基于多信號燈強化學習的交通組織方案優化算法［J］.計算機應用研究，2022，39（2）：504-509，514.（Wu Haosheng，Zhen Jiaoling，Wang Maofan.TR-light traffic organization plan optimization algorithm based on multiple traffic signal lights reinforcement learning［J］.Application Research of Computers，2022，39（2）：504-509，514.）

［14］Kong Yang，Cong Shan.NCCLight：neighborhood cognitive consistency for traffic signal control［J］.Sensors and Materials，2022，34（2）：545-562.

［15］Haarnoja T，Zhou A，Abbeel P，et al.Soft actor-critic：off-policy maximum entropy deep reinforcement learning with a stochastic actor［C］//Proc of International Conference on Machine Learning.New York：PMLR Press，2018：1861-1870.

［16］Tang Tieqiao，Zhi Yanyi，Qing Fenglin.Effects of signal light on the fuel consumption and emissions under car-following model［J］.Physica A：Statistical Mechanics and Its Applications，2017，469：200-205.

［17］Abou-Senna H，Radwan E，Westerlund K，et al.Using a traffic simulation model（VISSIM） with an emissions model（moves） to predict emissions from vehicles on a limited-access highway［J］.Journal of the Air & Waste Management Association，2013，63（7）：819-831.

［18］Song Guohua，Yu Lei，Wang Ziqianli.Aggregate fuel consumption model of light-duty vehicles for evaluating effectiveness of traffic management strategies on fuel［J］.Journal of Transportation Engineering，2009，135（9）：611-618.

［19］Frey H C，Unal A，Chen J，et al.Methodology for developing modal emission rates for EPAs multi-scale motor vehicle & equipment emission system［R］.Ann Arbor，Michigan：US Environmental Protection Agency，2002：13.

［20］Wan C H，Hang M C.Value-based deep reinforcement learning for adaptive isolated intersection signal control［J］.IET Intelligent Transport Systems，2018，12（9）：1005-1010.

［21］Mousavi S S，Schukat M，Howley E.Traffic light control using deep policy-gradient and value function based reinforcement learning［J］.IET Intelligent Transport Systems，2017，11（7）：417-423.

［22］劉皓冰，熊英格，高銳，等.基于微觀仿真的交叉口車輛能耗與排放研究［J］.城市交通，2010，8（2）：75-79，24.（Liu Haobing，Xiong Yingge，Gao Rui，et al.Investigating vehicular energy consumption and emissions at intersections with micro-simulation models［J］.Urban Transport of China，2010，8（2）：75-79，24.）

計算機應用研究2024年1期

計算機應用研究的其它文章: 多策略融合的蛇優化算法及其應用; 基于Spark和NRSCA策略的并行深度森林算法; 基于子空間學習的快速自適應局部比值和判別分析; 基于相似圖投影學習的多視圖聚類; HHUIM：一種新的啟發式高效用項集挖掘方法; 基于專家反饋的廣義孤立森林異常檢測算法