基于改進多智能體Nash Q Learning的交通信號協調控制

2024-10-10 00:00:00蘇港葉寶林姚青陳濱張一嘉

軟件工程 2024年10期

關鍵詞：區域交通信號協調控制;馬爾科夫決策;多智能體Nash Q Learning;LSTM;SUMO

中圖分類號：TP181 文獻標志碼：A

0 引言（Introduction）

隨著城市汽車數量的急劇增加，城市交通系統面臨巨大的壓力，因此迫切需要更有效的交通信號控制方法提升路網通行效率[1-2]。然而，傳統的交通信號控制方法在面對復雜多變的交通流時，很難精準描述交通實時動態變化過程[3]。為了克服這一難題，近年來多智能體強化學習模型被引入相關研究，以優化城市區域交通信號的控制過程[4-6]。宋太龍等[7]通過修正強化學習模型中獎勵函數計算方法，對交通信號配時進行優化。WU等[8]利用監控攝像頭和車聯網技術收集各個交叉口的狀態信息。田超等[9]提出構建擁堵鏈和擁堵環，以期綜合分析路網擁堵狀況。

上述方法雖然在城市交通信號控制方面取得了一定的進展，但是缺乏對采集狀態數據進行預處理的過程。同時，強化學習算法遵循馬爾科夫決策過程（Markov Decision Process，MDP）僅能獲取部分可觀測狀態信息，降低了狀態數據集豐富度[10]。

針對以上問題，本文提出一種改進的多智能體Nash QLearning交通信號協調控制方法。首先，該方法采用狀態離散編碼方法，對輸入模型的數據進行預處理，以提高數據質量。其次，在算法框架中融入長短時記憶網絡LSTM模塊，旨在從輸入數據中挖掘更多的可觀測狀態信息，提升模型的決策能力。

1 基于強化學習的區域交通信號控制（Regionaltraffic signal control based on reinforcementlearning）

城市交通擁堵問題日漸突出，給人們的日常出行帶來了一系列的問題。有效的交通信號控制方法對于緩解交通擁堵、減少車輛等待時間等問題具有重要的作用。城市交通路網中交叉口之間的關聯性越來越強，特別是相鄰交叉口之間的交通流相互關聯、相互影響。當其中一個交叉口發生交通擁堵情況時，很可能導致關聯交叉口的交通延誤明顯增大。因此，設計有效的區域交通信號協調控制方法，提升整個區域的通行效率，具有重要的工程實際研究價值。

不失一般性，考慮如圖1所示的由三岔路口與“十”字路口構成的區域路網。兩種不同類型的路口交通信號控制有不同的相位設置。在路口①，有3種不同的相位。首先，當1車道綠燈亮起，車輛可以從1車道通行至4、6和11車道;其次，當2車道綠燈亮起，車輛可以從2車道通行至4、6和11車道;最后，當3車道綠燈亮起，車輛可以從3車道通行至4、6和11車道。此外，有一種傳統的“十”字路口，路口②③④⑤只有2種相位：東西直行和南北直行。這些相位設置是為了確保路口交通流暢，提高交通效率。

在本研究中，基于強化學習的區域交通信號控制過程可近似為區域路網中每個路口在進行信號控制時的一個典型的馬爾科夫決策動態過程，通過五元組表示，其中S 為環境狀態集合，A 為智能體的動作空間集合，R 為在狀態S 中執行A 中動作獲得的獎勵值，P：P（S_t+1=s'|S_t=s，A_t=a）為狀態轉移概率，γ∈[0，1]表示折扣因子。對整個區域路網進行狀態空間、動作空間、獎勵函數定義，并建立狀態之間的轉移概率模型，然后計算每個狀態的價值函數，并在此基礎上確定最優策略，即在每個狀態下應該采取的最佳動作，以最大化累計獎勵。利用馬爾科夫決策過程，確定區域路網中各個路口的最優交通信號控制策略，進而提升區域路網的通行效率。

2 強化學習基礎（The basics of reinforcementlearning）

強化學習是智能體通過與外部環境交互學習建立狀態與動作之間的映射關系，其學習的目標就是能夠達到最大的獎勵回報函數值。在這個過程中，與外部環境交互并且能對環境做出反應的體系稱為智能體。智能體獲取當前的環境狀態和上一步的瞬時獎勵，并利用所學到的策略確定最佳執行動作。將動作作用于環境時，環境發生變化，進入一個新的狀態，環境產生帶評價性的瞬時獎勵并反饋給智能體。強化學習的本質是智能體通過不斷與環境進行交互，學習并優化策略，從而最大化其能獲得的累計獎勵。

如圖2所示，智能體與環境的交互通常通過馬爾科夫決策過程進行建模。馬爾科夫決策過程為所有強化學習算法的基礎，完整的馬爾科夫決策過程用一個由每時刻的狀態S_t、動作A_t及獎勵值R（S_t，A_t）組成的序列表示，這一序列的核心特點是，環境下一時刻的狀態與獎勵只取決于當前時刻的狀態與智能體的動作，并且環境的狀態轉移概率是不變的，這一特性也被稱為馬爾科夫特性。強化學習的目的是學到一個可以盡可能提高累計獎勵的策略，在任務中累計獲得的獎勵也稱為回報。一般將回報定義為

3.2.2 動作空間

本研究構建了一個包括“Y”字形路網在內的六路口區域路網模型。如圖5所示，該路網主要由兩種類型的路口構成：編號為①②③④⑤的路口屬于第一類，為傳統“十”字形路口，設置了東西直行和右轉、南北直行和右轉2個相位;編號為⑥的路口屬于第二類，設置了3個相位（車輛從三岔路口的一條進車道進入可放行至對面任意一條三岔路口出車道，3條進車道的放行方式相同）。圖6展示了上述6個路口對應的兩類不同交通信號相位設置。在兩類路口中，第一類路口有2個相位，第二類路口有3個相位，這些相位被定義為智能體的動作空間。在每個控制步中，每個智能體只能執行如圖7所示的某個相位。當一個控制步結束時，智能體執行的動作可以保持當前相位，或者按照圖7中的運行邏輯執行下一個相位。通過執行一系列的動作，智能體實現了路口交通信號控制方案的動態更新。

3.2.3 獎勵函數

獎勵函數可選取等待時間、停車次數、排隊長度等來反映獎勵值的大小。在本文中，獎勵函數定義為在相鄰兩個時間步中，區域路網路口所有車道上車輛總的等待時間之差，所有車輛既包括正在行駛的車輛，又包括等待通行的車輛，則獎勵函數公式定義為

R=W_t-W_t+1 （13）

其中：W_t 表示在第t個采樣時間步，區域路網路口各條車道上車輛的等待時間之和;W_t+1 表示第t+1個采樣時間步，區域路網路口各條車道上車輛的等待時間之和。

設計上述獎勵函數的目的是使智能體更有效地管理車流，減少車輛的等待時間，并提高整體交通效率。隨著車輛等待時間的減少，獎勵值將相應增加，從而鼓勵智能體選擇能夠最大化獎勵的交通信號控制策略。

3.2.4 Nash Q Learning-LSTM算法

本研究提出一種改進的多智能體Nash Q Learning算法，旨在提升區域內多個交叉口的車輛通行效率，減少車輛排隊長度和等待時間。在該算法中，每個控制交通信號燈的交叉口都被看作一個獨立的智能體，采用Q Learning算法進行決策，其核心目標是通過選擇具有最大Q值的動作，利用貪婪算法選擇最優策略，旨在最大限度地緩解交通擁堵問題。當所有智能體一同訓練時，系統將達到納什均衡狀態。本文將LSTM 網絡引入Nash Q Learning算法中，提出了一種新的多智能體Nash Q Learning 算法，即Nash Q Learning-LSTM 算法。LSTM 網絡用于捕獲潛在的狀態信息，豐富輸入Nash QLearning模型的狀態數據集，從而提高模型的決策能力。NashQ Learning-LSTM交通信號控制框架如圖8所示。

在如圖8所示的框架中，算法網絡從每個路口環境中接收由離散化編碼法和單元格劃分法得到的狀態數據集。這些數據經過算法中的兩層全連接層進行狀態特征提取，隨后輸入LSTM網絡。LSTM網絡的作用是發掘隱藏的狀態信息，以提升狀態數據集的完整性。在算法訓練過程中，新的狀態數據集與動作集構成了Q值表。在每一回合中，算法會遍歷Q值表，選取其中最大的Q值對應的動作，作為最優動作來改變信號燈的相位。改變信號燈相位后，系統將反饋獎勵值給智能體。融入了LSTM 網絡的Nash Q Learning-LSTM 算法在所有智能體一同訓練后，系統將達到納什均衡狀態，使每個路口都能得到當前狀態下的最優動作。

Nash Q Learning-LSTM算法流程如算法1所示。

首先，在網絡算法中對狀態、動作和Q值表進行初始化。通過全連接層，將來自環境的初步狀態信息合并以提取網絡所需的狀態特征，這些特征包括車輛的位置信息、車輛排隊長度信息和車輛數量信息。其次，將狀態特征輸入LSTM 網絡中，在經過一系列內部結構的更新后獲取隱藏狀態信息，形成增強狀態。在由增強狀態和動作組成的Q值表中，Nash Q Learning 算法會選擇具有最大Q值的最優動作。當交通信號燈執行了最優動作選擇的相位，環境將發生改變，進入下一個狀態，并同時產生獎勵值反饋給智能體。其中，Q值的更新遵循納什Q值方程，詳見公式（9）。

4 仿真與結果分析（Simulation and result analysis）

4.1 仿真環境與參數設置

了驗證本文所提方法的有效性，以如圖5所示的路網為例，基于微觀交通仿真平臺SUMO（Simulation of UrbanMobility）搭建仿真環境。為便于實驗，各進口方向均設置為單向行駛的單車道。為了展示本文所提方法在不同交通流量狀態下的控制效果，設置了3種不同交通流量模式，其中低流量（3500輛/回合），即在本文的區域路網中生成3 500輛車，并通過隨機方式設置每輛車的出發地和目的地，待車輛全部通過路網后回合結束。中流量、高流量同理，中流量為每回合生成7000輛車，高流量為每回合生成10000輛車。參數設置如表1所示。

4.2 實驗結果與分析

為了驗證改進后的Nash Q Learning-LSTM 算法相較于原始Nash Q Learning算法的優越性，本文進行了對比分析。同時，為了更全面地評估改進算法的性能，本文還選擇了傳統的固定配時交通信號控制方法和自適應交通信號控制方法作為對照組并進行了仿真實驗測試。在傳統交通信號控制方法中，固定配時控制方法中各交叉口的相序和各相位綠燈時長始終保持不變。自適應交通信號控制算法可以根據交叉口的實時交通狀態，動態調整交叉口的信號配時方案，以適應交通狀態的變化。這些對照組的使用有助于驗證改進后多智能體強化學習方法的有效性。

針對低流量、中流量、高流量3種交通流量條件，對上述不同的交通信號控制方法進行了比較分析。考慮以下3個評價指標：車輛平均等待時間、平均排隊長度和平均停車次數。在每個回合中，當交通信號控制方法獲得更高的獎勵時，車輛的等待時間會更短，同時車輛的排隊長度和停車次數也會減少（圖9）。這一系列實驗旨在驗證本文提出的Nash Q Learning-LSTM算法應用在多智能體交通信號控制任務中的有效性，并與傳統方法進行比較，以便更好地理解其性能和潛在優勢。不同交通信號控制方法的測試結果如表2所示。其中，自適應交通信號控制算法能夠根據實時交通情況和道路條件進行動態調整，而不是依賴于預設的定時計劃，能夠更快速地適應交通變化、提高區域交通流量和減少交通延誤。與固定配時控制方法相比，如圖10至圖12所示，在低流量、中流量、高流量3種車流量下，自適應交通信號控制算法在車輛平均等待時間、平均排隊長度、平均停車次數評價指標上都優于固定配時控制方法。其中，車輛的平均等待時間分別減少了18.1%、18.2%、13.4%，平均排隊長度分別減少了17.5%、11.1%、17.2%，平均停車次數分別減少了20.5%、17.2%、13.5%。基于多智能體強化學習的交通信號控制方法具有更好的自適應性，可以通過明確的獎勵機制指導交通控制的決策，從而使得優化目標更明確和可調控，還能通過探索新的策略尋找更優動作，也能夠利用已有的經驗提高算法訓練效率。與自適應交通信號控制算法相比，基于多智能體強化學習Nash Q Learning算法，在低流量、中流量、高流量下車輛的平均等待時間分別減少了9%、6.4%和3.1%，平均排隊長度分別減少了3.8%、1.2%和0.6%，平均停車次數分別減少了3.9%、7.6%和3%。進一步在Nash Q Learning算法結構中加入LSTM 網絡，改進后的Nash Q Learning-LSTM算法在低流量、中流量、高流量下車輛的平均等待時間分別減少了11.5%、16.2%和10.0%，平均排隊長度分別減少了9.1%、8.2%和7.6%，平均停車次數分別減少了18.3%、16.1%和10.0%。改進的Nash Q Learning-LSTM的累計獎勵、車輛平均等待時間、車輛平均排隊長度、車輛平均停車次數都優于Nash Q Learning算法的相應指標。

實驗結果表明，與傳統交通信號控制方法和原始Nash QLearning算法相比，加入LSTM 網絡的Nash Q Learning-LSTM算法展現出更好的控制效果。

5 結論（Conclusion）

本文提出一種基于改進的多智能體Nash Q Learning的區域交通信號協調控制方法，用于實現對區域多交叉口的交通信號控制。所提算法的一個特色之處是引入了LSTM 模塊，用于更全面地捕獲可觀測狀態信息，豐富輸入Nash Q Learning模型的狀態數據集，從而提高模型的決策能力。此外，采用離散編碼方法將區域路口的進出口路段劃分為不同長度的單元格，以便獲取狀態數據，并依據不同車流量大小選擇狀態影響向量以準確描述各車道上的交通狀態。通過一系列仿真實驗，將改進后的Nash Q Learning-LSTM 算法與原始Nash QLearning算法、固定配時控制方法和自適應控制算法進行比較，實驗結果表明，在不同交通流量大小的情況下，改進后的Nash Q Learning-LSTM算法在累計獎勵、車輛平均等待時間、平均排隊長度及平均停車次數等關鍵性能指標上均展現出了顯著的優勢，相較于其他對照組算法，其性能表現更為出色。

作者簡介：

蘇港（1997-），女，碩士生。研究領域：強化學習及其在交通信號控制中的應用。

葉寶林（1984-），男，博士，副教授。研究領域：深度強化學習及其在智能交通系統中的應用。

姚青（1974-），女，博士，教授。研究領域：機器視覺，視頻圖像，GIS的信息技術應用研究。

陳濱（1987-），男，博士，副教授。研究領域：智慧交通，圖像處理，深度學習，區塊鏈技術。

張一嘉（1981-），男，博士，高級工程師。研究領域：通信對抗，軟件無線電，復雜網絡。

軟件工程2024年10期

軟件工程的其它文章: 基于指令流水線的CUDA核函數時間預測模型; 一種基于多模態特征增強網絡的抑郁癥檢測方法; 基于機器學習的房產估價模型研究; 基于覆蓋準則的多輪測試用例優先排序方法何展翔; 基于TextCNN與多頭注意力機制增強xDeepFM的互聯網營銷活動參與預測研究; 基于UNet的圖像分割研究郁華鑫