基于強化學習的交通燈控制與車輛誘導算法

2017-05-11 17:33:18趙佳文喬春凱

科技創新與應用 2017年1期

趙佳文++喬春凱

摘要：城市交通控制的核心是由交通燈控制系統和車輛誘導系統兩部分組成，實現在空間上對交通流進行分流和在時間上對交通燈進行動態配時。文章設計基于Q學習的交通燈控制算法和基于Sarsa學習的車輛誘導算法，從對系統整體性能的角度出發利用協同控制策略，更好地解決城市道路交通擁堵問題。

關鍵詞：交通燈控制；車輛誘導；Q學習；Sarsa學習

引言

針對我國城市道路交通的現狀，在交通燈控制系統和車輛誘導系統獨立實施的基礎上，以交通道路信息的協同為基礎，從協同模式著手。

越來越多的學者致力于智能交通系統的研究，提出很多交通控制策略。Bell等人提出的交通燈控制與車輛誘導協同模型有低水平的數據共享方式、高層次的策略交互方式，主要考慮了數據信息的共享[1]。孫建平等人在基于Agent的理論上提出交通燈控制與車輛誘導協同模型，并對基于知識模型的多智能體交通控制進行研究[2]；龔等人在對交通燈控制和車輛誘導分別進行研究的基礎上，提出了融合算法來提高兩系統之間的協同效果，從而提高了交通系統的性能[3]。Mirchandani等人設計研究了交通燈控制與車輛誘導偏重式控制系統，兩個系統在數據和策略實施上都進行協同控制，更好的利用交通信息[4]。

在實際的交通控制策略中，交通燈控制策略和車輛誘導策略在信息產生、數據處理和策略實施等多個方面應相互協同。交通控制系統主要采用的基于Q學習的交通燈控制算法和基于Sarsa學習的車輛誘導算法來提升整體的交通控制系統的性能。

1 問題分析

1.1 多智能體

多智能體系統（MAS，Multi-Agent-System）是多個智能體組成的集合，它的目標是將大而復雜的系統建設成小的、彼此互相通信和協調的，易于管理的系統。

1.2 強化學習

強化學習過程中Agent判斷當前狀態，選擇一個動作作用于環境，環境在動作的影響下發生變化，并反饋給Agent一個獎懲值，Agent根據獎懲值進行下一個動作的選擇，即Agent通過不斷試錯與環境進行交互獲得信息。

2 基于Q學習的交通燈控制策略

本文設計一種基于Q學習的自適應交通燈控制策略。每個交通燈作為Q學習的Agent，Agent根據交叉口車道上車輛飽和度選擇交通燈綠燈時間作為Agent的動作，車輛在交叉口處車道上的平均行駛時間作為Q學習的回報函數值。學習系統與環境不斷的交互，獲得反饋值并調整狀態到動作的映射策略。

Q學習更新公式如下所示：

式中，參數？琢是學習率，參數？酌是折扣率，R（s，a）即為動作a作用于環境的反饋值。Q（s，a）為R（s，a）的累積值。Agent將根據系統的反饋值來進行Q（s，a）的更新。

2.1 狀態描述

交通環境中的狀態一般是連續的，但強化學習卻是應用在離散空間下的求解，所以需要把交叉口狀態進行離散化。本文在離散化過程中，把0到1的之間的車輛飽和度合理的離散化為四個等級。

根據交叉口各方向車道的車輛飽和度進行描述，對于有n個方向交叉口，其狀態描述為s（d1，d2，kdn），其狀態空間即為4n。其中，di表示第i個入口車道的車輛飽和度。

2.2 動作選擇

本文使用Boltzmann策略進行動作選擇，公式如下所示：

式中，A為交通燈的動作集合，p[a|s]為交通燈在狀態s選擇動作a的概率。？子為溫控參數，溫控參數越大，不同Q值對應的動作選擇概率就越相近；溫控參數越小，Boltzman策略與貪婪策略越相似。

3 基于Sarsa學習的車輛誘導策略

本文設計基于Sarsa學習的車輛誘導策略。交通路網中的車輛是Sarsa學習的Agent，Agent利用Sarsa學習過程指導車輛進行動作選擇，即選擇下一條車道，Sarsa學習算法與環境交互的回報函數值為車輛在車道上的行駛時間。自學習系統不斷的與環境進行交互，獲得反饋信息，從而修改狀態動作之間的映射。

Sarsa算法的更新公式如下所示：

式中，參數？琢是學習率，參數？酌是折扣率，Qd（s，k）是車輛從節點s出發經過節點k到達終節點d的期望行駛時間。tsk即為Agent的動作作用于環境的反饋值。Qd（s，k）的環境反饋值的累積值，Agent將根據環境實時的反饋值和歷史的數據信息來進行Qd（s，k）的更新。

3.1 狀態描述

在對車輛進行誘導時，首選確定Agent的狀態，才能獲得更好的誘導模式。決定車輛Agent狀態的參數主要有車輛所在的車道和車輛所在的交叉口。因為本文中車輛的終點是某個信息節點，所以把車輛所在的交叉口定義為車輛Agent的狀態。如果把車輛所在的車道定義為車輛Agent的狀態，這么多狀態如果都進行考慮，那么狀態空間會十分巨大，將會增大Sarsa學習算法的收斂難度。

3.2 動作選擇

本文使用Boltzmann策略進行動作選擇，公式如下：

式中，A為車輛的動作集合，p[a|s]為車輛在狀態s選擇動作a的

概率，？子為溫控參數。

4 基于強化學習的交通燈控制與車輛誘導協同策略

交通燈控制與車輛誘導協同問題實際上就是控制與交通流分配的協同問題，因此系統模型實際上就是交通燈控制模型與車輛誘導模型的協同模型。本文采用偏重交通燈控制方式的協同模型。

4.1 偏重交通燈控制方式

在偏重式協同下，交通燈控制系統和車輛誘導系統不是平等的關系，而是主從關系。以交通燈控制系統為主導系統的協同控制方式，就是偏重交通燈控制方式。

假設交通燈控制系統的優化函數為C，保證交叉口處車輛延誤時間最小；車輛誘導系統的優化函數為U，保證車道上車輛的行駛時間最小。

偏重交通燈控制方式：

R=arg（P）交通燈控制目標函數最優；

s.t f（x）∈U車輛誘導目標函數最優。

在偏重交通燈控制方式中，交通燈控制系統是保證交叉口的延誤時間最小，緩解交叉口的擁堵現象。車輛誘導系統是保證車道上車輛的行駛時間最小，進行動態的交通流分配。從整體系統性能的角度出發，協同控制下可以更好的確保行程時間的最小。

4.2 交通燈控制與車輛誘導協同模型

本文主要是以交通燈控制系統為主導系統的協同控制，車輛誘導系統每次更新過程后產生新的車輛控制方案時都會實時的報告給交通燈控制系統，從而減少車輛到達目標地點的行程時間。

車輛的行程時間包括車輛在車道上行駛時間和交叉口處的延誤時間，行駛時間是由基于Sarsa學習的車輛誘導策略中所決定，而延誤時間主要取決于基于Q學習的交通燈控制策略。交通燈控制與車輛誘導的協同公式：

式中，C（x，t）為車輛到達終節點的行程時間。T（r）為車輛誘導系統決定的車輛行駛時間，T（q）為由交通燈控制系統決定的車輛延遲時間。車輛誘導系統和交通燈控制系統的偏重式協同過程，如圖1所示。

在交通燈控制系統中每個交通燈agent之間協同，優化交通燈的配時。在車輛誘導系統中，車輛agent相互協同，優化車輛路徑選擇。車輛的行駛時間和通過交通燈是的延誤時間分別受兩個系統影響。交通燈控制系統所決定的策略依賴于車輛誘導系統更新過程后產生新的車輛控制方案進行制定，從而提高了整個交通系統的性能。

5 仿真實驗及結果分析

5.1 實驗環境

為了驗證本文提出的交通控制策略的有效性和正確性，通過開源軟件SUMO仿真器[5]在如圖2所示路網上進行仿真和實驗，通過java語言實現，路網是美國佛蒙特州的部分路段。

5.2 仿真設置

仿真中設置的參數均為在進行多次試驗后所得到的經驗值，其中，交通燈控制策略中的Q學習的學習率？琢為0.7，折扣率？茁為0.9，交通燈Agent動作選擇策略中？子設為0.2。車輛誘導策略中的Sarsa學習的學習率？琢為0.7，折扣率？茁為0.8。在仿真實驗中，仿真器的時間步與現實生活中的時間秒數相對應，總的仿真器時間設為15000。

5.3 基于強化學習的交通燈控制與車輛誘導算法

從系統整體性能的角度出發，利用基于Sarsa學習的車輛誘導策略（SVIS）對基于最短路徑的車輛誘導系統的性能進行提升，利用常見的Dijkstra算法的作為最短路徑算法（DVIS）。

本實驗中，交通燈控制系統采用基于Q學習的交通燈控制策略（QTGCS）通燈進行動態配時。而交通燈控制系統的附屬系統車輛誘導系統由基于最短路徑的車輛誘導策略轉變為基于Sarsa學習的車輛誘導策略，并對性能進行比較。

圖3和圖4分別顯示了DVIS與QTGCS協同系統、SVIS與QTGCS協同系統所統計的評價數據。

交通系統中交叉口處車輛數量如圖3所示。

實驗結果表明，以基于Sarsa學習的車輛誘導策略為基礎的基于Q學習的交通燈控制策略與以基于Dijkstra算法的車輛誘導策略為基礎的基于Q學習的交通燈控制策略相比提高了交通系統的控制效果、減少系統中車輛到達終節點的行駛時間，可以很好的利用路網中的實時信息，達到縮減交通系統中車輛行駛時間和車輛延遲時間的目的。

6 結束語

城市交通系統影響因素復雜，本文提出基于強化學習的交通燈控制與車輛誘導算法。實驗結果表明，通過該協同策略減少了路網中的車輛數量和車輛在交叉口的行駛時間，提升了交通系統的通行能力。

參考文獻

[1]Sheffi Y， Powell W B. Optimal Signal Settings over Transportation Networks[J].Journal of Transportation Engineering，1983，109（6）：824-839.

[2]徐麗鮮.城市交通流誘導與控制一體化理論和模型研究[D].吉林工業大學，吉林大學，1999.

[3]龔 .城市交通誘導與控制的融合研究[D].北京科技大學，2015.

[4]Li P， Mirchandani P， Zhou X. Solving simultaneous route guidance and traffic signal optimization problem using space-phase-time hypernetwork[J]. Transportation Research Part B Methodological， 2015， 81（1）：103-130.

[5]Krajzewicz D， Erdmann J， Behrisch M， et al. Recent Development and Applications of SUMO - Simulation of Urban MObility[J]. International Journal on Advances in Systems & Measurements，2012， 3&4（3and4）：128-138.

作者簡介：趙佳文（1991-），男，滿族，吉林省蛟河市，碩士，單位：沈陽理工大學信息科學與工程學院，研究方向：數據庫理論與信息系統。

喬春凱（1992-），男，漢族，遼寧省瓦房店市，碩士，單位：沈陽理工大學信息科學與工程學院，研究方向：數據庫理論與信息系統。

科技創新與應用2017年1期

科技創新與應用的其它文章: 實驗樓部分給排水及動力管道變更設計; 水生態文明建設體系及在云南省試點建設的實踐分析; 淺析環境工程建設在生態城市中的應用; 鄂爾多斯盆地環江地區長6油層組沉積特征研究; 準噶爾盆地阜康凹陷北部頭屯河組儲層特征; 火力發電鍋爐安裝技術要點及注意事項分析