












摘 要:針對當(dāng)前交通阻塞狀況日益增加,傳統(tǒng)的交通燈固定時長控制方法靈活性較差,無法根據(jù)環(huán)境自適應(yīng)配時的問題,本文提出一種基于混合局部隨機探索的Double DQN算法的智能交通信號燈控制方法MP-DDQN.本方法首先在Double DQN方法的基礎(chǔ)上引入MLCA注意力機制,增強交通信號燈控制模型對于不同情景和特征的學(xué)習(xí)能力,優(yōu)化交通流量的效率.其次,結(jié)合偏好引導(dǎo)隨機探索的方法,根據(jù)當(dāng)前狀態(tài)的特征,有針對性地選擇探索動作,減少了隨機探索的開銷,高效的學(xué)習(xí)到最優(yōu)的交通信號燈控制策略.實驗結(jié)果表明,本文提出的方法在交通流量優(yōu)化方面表現(xiàn)較好,1000車流量中車輛的平均排隊長度為2.32輛,車輛平均行駛速度為3.97m/s,相比于主流的控制方法更加高效,可以為城市交通系統(tǒng)的優(yōu)化與改進提供有力的支持.
關(guān)鍵詞:
交通信號燈控制; 混合局部通道注意力; 偏好引導(dǎo); 強化學(xué)習(xí)
中圖分類號:TP18; U491.5+4
文獻標志碼: A
Intelligent traffic signal control algorithm based on MP-DDQN
WANG Ding-sheng, DING Lei*
(School of Electronic Information and Artificial Intelligence, Future Research Insititute of Integrated Circuits and Applications, Shaanxi University of Science amp; Technology, Xi′an 710021, China)
Abstract:
In response to the increasing traffic congestion situation and the lack of flexibility in traditional fixed duration control methods for traffic lights, which cannot adaptively schedule according to the environment, this paper proposes an intelligent traffic signal control method MP-DDQN based on a mixed local random exploration Double DQN algorithm. This method first introduces the MLCA attention mechanism on the basis of the Double DQN method, enhancing the learning ability of the traffic signal control model for different scenarios and features, and optimizing the efficiency of traffic flow. Secondly, by combining the method of preference guided random exploration, targeted exploration actions are selected based on the characteristics of the current state, reducing the cost of random exploration and efficiently learning the optimal traffic signal control strategy. The experimental results show that the method proposed in this article performs well in traffic flow optimization, with an average queue length of 2.32 vehicles and an average driving speed of 3.97m/s in a flow of 1000 vehicles. Compared with mainstream control methods, it is more efficient and can provide strong support for the optimization and improvement of urban transportation systems.
Key words:
traffic signal control; MLCA; preference guidance; reinforcement learning
0 引言
交通堵塞給經(jīng)濟和社會帶來了嚴重問題,包括旅行時間長、燃油消耗增加和空氣污染嚴重等.低效的交通信號燈被認為是問題的重要根源之一,目前交通信號燈控制方案大多仍采用固定時間控制方法,如韋伯斯特配時法[1,2],這種方案在應(yīng)對不斷變化的交通需求時顯得不夠靈活.隨著城市規(guī)模和車輛數(shù)量的增加,實時響應(yīng)交通流量的自適應(yīng)交通信號控制成為城市管理的重要目標.
在人工智能和機器學(xué)習(xí)領(lǐng)域,強化學(xué)習(xí)(Reinforcement Learning,RL)[3]是一個有潛力的方法.首先,強化學(xué)習(xí)不需要事先了解待解決問題的完整模型,因此它適用于各種復(fù)雜任務(wù).其次,強化學(xué)習(xí)支持在線學(xué)習(xí)方法,在智能體運行時實時收集知識,使其適應(yīng)在初始訓(xùn)練階段未曾遇到的情況[4].
近年來,強化學(xué)習(xí)已經(jīng)被用于交通燈控制領(lǐng)域的研究[5-7].Wang等[8]提出了一種基于流量推理模型的DRL(Deep Reinforcement Learning)方法,基于上游交叉口給出的未來信息和來自環(huán)境的數(shù)據(jù),不斷學(xué)習(xí)交通環(huán)境的變化模式,從而對交通環(huán)境的變化進行推斷.Yang等[9]提出了一種雙重經(jīng)驗回放的深度強化學(xué)習(xí)交通燈控制算法DERLight,該算法基于經(jīng)典的深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)框架,并考慮了動態(tài)紀元函數(shù),實現(xiàn)了一種高效的雙經(jīng)驗重放訓(xùn)練機制,但存在大規(guī)模環(huán)境中訓(xùn)練時間過長以及Q值過高的問題,隨著車流增加難以表現(xiàn)出良好的性能.Yan等[10]提出了圖協(xié)作Q學(xué)習(xí)網(wǎng)絡(luò)交通信號控制模型,該模型是一種具有嵌入式自注意力機制的圖協(xié)作網(wǎng)絡(luò)(Graph Collaborative Network,GCN),使智能體能夠根據(jù)動態(tài)交通流信息實時調(diào)整注意力,在更大范圍內(nèi)快速有效地感知交通環(huán)境.Wang等[11]提出了一種基于圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAN)的區(qū)域感知合作策略,該策略可以整合周圍智能體的空間信息.盡管以上兩種方法強調(diào)了智能體感知環(huán)境的能力,但在大規(guī)模交通網(wǎng)絡(luò)中會帶來較高的計算成本,難以達到良好的性能.Shashi等[12]將DQN與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用經(jīng)驗回放對模型進行訓(xùn)練,生成交通燈配時方案.Kamal等[13]提出了一種基于數(shù)字孿生的自適應(yīng)交通信號控制方法,該方法依賴于城市交通網(wǎng)絡(luò)的數(shù)字孿生,并使用DRL多智能體深度確定性策略梯度進行優(yōu)化,以降低燃料消耗和二氧化碳排放.
當(dāng)前這些方法來自于獨立Q-learning和Deep Q-learning方法.Q-learning使用表格來存儲動作值函數(shù)(Q值),在解決小規(guī)模交通狀態(tài)時表現(xiàn)出色,但對于交通狀態(tài)動作空間較大的情況,這種存儲方式會變得非常低效.而Deep Q-learning通過神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù),雖然在處理更大規(guī)模的交通狀態(tài)時表現(xiàn)更優(yōu)秀,但也存在Q值過高的問題,影響算法的收斂性和性能.這些研究都面臨著在大規(guī)模環(huán)境下智能體策略不平穩(wěn)的問題,無法在復(fù)雜的道路網(wǎng)絡(luò)環(huán)境中學(xué)習(xí)到良好的合作策略,缺乏必要的穩(wěn)定性,算法的性能仍有提升空間.
針對上述問題,本文提出了一種基于混合局部隨機探索的Double DQN算法的智能交通信號燈控制方法(Mixed local channel attention-Perference guided stochastic exploration-Double DQN,MP-DDQN),該方法基于Double DQN算法[14],結(jié)合偏好引導(dǎo)的隨機探索策略[15],同時使用MLCA注意力機制[16]提升模型的感知能力和決策準確性.與固定時間模型和其他強化學(xué)習(xí)模型相比,所提出的模型使用智能代理從歷史數(shù)據(jù)和環(huán)境中獲取知識,能夠識別交通路口的模式,并根據(jù)具體場景做出相應(yīng)調(diào)整,以最大限度地減少車輛排隊等待時間.
1 問題描述
通過將交通信號燈控制系統(tǒng)建模為強化學(xué)習(xí)問題,系統(tǒng)可以根據(jù)交通流量、車輛密度等實時信息調(diào)整信號燈的時序和時長,以實現(xiàn)最佳的交通流控制[17].
設(shè)十字路口的交通信號控制器為一個代理(agent),在時間t,代理i觀察到車道的隊列大小sit∈Si,并決定分割當(dāng)前的交通階段ait∈Ai.在下一個時間點t+1,觀察車輛的等待時間(reward,即行為ait的后果),使用獎勵來計算狀態(tài)和動作的新值.隨著時間的推移,代理探索所有狀態(tài)-動作對(sit,ait),并根據(jù)Q值對它們進行排名.Qit(sit,ait)表示在狀態(tài)sit下采取動作ait的預(yù)期回報.Q值通過Q-表(Q-table)進行維護和更新,其大小為Si×Ai.在t+1時刻代理i的Q值如式(1)所示:
Qit+1(sit,ait)=αrit+1(Sit+1)+γmaxa∈AQit(sit+1,a)+(1-α)Qit(sit,ait)(1)
式(1)中:Qit+1由當(dāng)前值Qit的一部分和在迭代中得到的新值的一部分相加得到,后者表示為所采取行動返回的獎勵rit+1加上貪婪策略選擇的最優(yōu)值maxQit.因此,該算法始終向著最優(yōu)值進行,受到0lt;α≤1的限制,觀察可能的未來狀態(tài)和獎勵,通過0lt;γlt;1限制其進一步搜索的范圍.每個代理i經(jīng)過以下步驟,首先觀察當(dāng)前狀態(tài);其次通過查看Q表,貪婪地選擇一個動作,獲得獎勵;最終使用式(1)更新Q值.
根據(jù)以上問題描述,強化學(xué)習(xí)模型的狀態(tài)定義為單交叉路口,雙向直行6車道,長為500米,如圖1所示,道路被分割為大小相同的長方形網(wǎng)絡(luò),每個網(wǎng)絡(luò)為50米.其中左轉(zhuǎn)兩個車道作為整體單獨劃分,最終一個單交叉路口的四個方向車道被劃分為80個網(wǎng)絡(luò).
模型的動作定義為信號燈采取配時操作,針對單交叉路口設(shè)置四種信號燈相位,動作空間分別為南北方向直行及右轉(zhuǎn)、南北方向左轉(zhuǎn)、東西方向直行及右轉(zhuǎn)和東西方向左轉(zhuǎn).信號燈相位的最短持續(xù)時間設(shè)置為10秒,同時紅綠燈切換會有3秒的黃燈.
模型的獎勵定義為以下參數(shù)的差值:
rt=αqt-qt+1(2)
式(2)中:rt為表示時刻t下的獎勵值,α為折扣系數(shù),qt表示路網(wǎng)中所有車道的排隊長度.
2 本文方法
本文在RL對信號燈控制的研究基礎(chǔ)上,利用一種雙重深度Q網(wǎng)絡(luò),并綜合偏好引導(dǎo)的探索機制,提出了MP-DDQN算法.由Double DQN、偏好引導(dǎo)的隨機探索策略(Preference-Guided Stochastic Exploration,PGSE)和混合局部通道注意力(Mixed Local Channel Attention,MLCA)三個部分組成,總體架構(gòu)如圖2所示.首先,嵌入層根據(jù)環(huán)境提取狀態(tài)特征,接著傳輸至MLCA模塊,提取出更加精準的特征信息,傳遞給Q分支和偏好分支分別輸出Q值和動作偏好,其中Q分支將狀態(tài)特征等參數(shù)傳入DDQN模型中,經(jīng)過損失函數(shù)計算,通過梯度下降法進行反向傳播估計Q值至PGSE,偏好引導(dǎo)的貪婪策略以1-的概率根據(jù)Q值對貪婪行為進行抽樣,或者以的概率對成比例的行為偏好進行抽樣.最后,在環(huán)境中執(zhí)行選定的操作,以觸發(fā)下一輪交互的狀態(tài)轉(zhuǎn)換.這種結(jié)構(gòu)設(shè)計能夠更精確的捕捉環(huán)境特征,提高算法性能.
2.1 交通路口中雙重Q學(xué)習(xí)網(wǎng)絡(luò)
在Q-Learning算法中,使用同一個神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)和估計當(dāng)前狀態(tài)下的動作值函數(shù)(Q值),可能會高估動作值函數(shù),影響學(xué)習(xí)的效果.這往往會導(dǎo)致交通信號燈控制算法基于高估的價值函數(shù)進行決策,使得交通信號燈的調(diào)控不夠及時或不準確,進而導(dǎo)致交通擁堵問題加劇.為了解決這一問題,本文框架采用雙重深度Q網(wǎng)絡(luò)算法(Double Deep Q-Network,DDQN).它是基于DQN的一種改進方法,DDQN通過使用兩個Q網(wǎng)絡(luò)(估計網(wǎng)絡(luò)和目標網(wǎng)絡(luò)),有效地減輕傳統(tǒng)Q-learning算法中的高估值問題.其中估計網(wǎng)絡(luò)選擇最優(yōu)的交通信號控制動作,目標網(wǎng)絡(luò)估計每個動作的Q值,提高了Q值的估計準確性,使得智能交通信號燈控制算法在學(xué)習(xí)控制策略時更加穩(wěn)定和可靠.
DDQN算法中目標Q值的表示形式如式(3)所示:
yt=rt+γQ(st+1,argmaxaQ(st+1,a;θ);θ′)(3)
式(3)中:yt為執(zhí)行交通燈配時動作之后的目標Q值,即預(yù)期的交通系統(tǒng)整體效率.rt是執(zhí)行交通燈配時方案在當(dāng)前時刻所帶來的交通流量控制效果,比如減少了車輛的等待時間或是降低了交通擁堵.θ為估計網(wǎng)絡(luò)的參數(shù).θ′為目標網(wǎng)絡(luò)的參數(shù).γ是折扣因子用來平衡即時獎勵和未來獎勵的重要性,可以體現(xiàn)為對于未來交通流控制效果的考慮,以及對于遠期交通效率的影響.Q(st+1,a;θ)表示在交通狀態(tài)s下采取配時動作a的預(yù)期未來獎勵.
通過比較估計Q值和目標Q值之間的差值來更新Q函數(shù)的參數(shù),從而使Q值逼近最優(yōu)Q值如式(4)所示:
δ=Q(st,at)-yt(4)
式(4)中:st為當(dāng)前交通流量狀態(tài),at為信號燈配時動作,rt為當(dāng)前狀態(tài)下采取動作后的獎勵,δ=Q(st,at)-yt表示估計Q值Q(st,at)與目標Q值yt之間的絕對誤差.在交通信號燈控制系統(tǒng)中,表示為在當(dāng)前狀態(tài)下采取動作at后的Q值與目標Q值之間的差異,指示了當(dāng)前策略執(zhí)行的好壞程度.
結(jié)合目標函數(shù),損失函數(shù)定義如式(5)所示:
loss=12δ2,當(dāng)|δ|≤1|δ|-12,當(dāng)|δ|gt;1(5)
式(5)中:δ是預(yù)測值與真實值之間的差異,確保損失函數(shù)的平滑性和可導(dǎo)性,且具有較小的復(fù)雜度,如圖3所示.
在訓(xùn)練信號燈控制系統(tǒng)的強化學(xué)習(xí)模型時,式(5)用于衡量預(yù)測的Q值與目標Q值之間的誤差,并且對誤差進行合適的懲罰.通過最小化這個損失函數(shù),智能信號燈系統(tǒng)可以不斷優(yōu)化自身的決策策略,以最大化交通系統(tǒng)整體效率,改善城市交通的整體運行狀況.
2.2 MLCA交通特征提取模塊
由于交通路口復(fù)雜多變,信號燈狀態(tài)空間往往是龐大且高維的,傳統(tǒng)的強化學(xué)習(xí)算法可能會導(dǎo)致算法難以收斂或者需要耗費較長的訓(xùn)練時間.MLCA將局部特征(如特定路口車流密度、等待時間)和全局特征(整個交通網(wǎng)絡(luò)流量狀況、擁堵情況)有效結(jié)合,在交通信號燈控制中平衡局部和全局信息,提升系統(tǒng)對復(fù)雜交通環(huán)境的適應(yīng)性和決策準確性,同時簡化特征空間,加速算法收斂過程,最終優(yōu)化信號燈控制策略,改善交通流控制效果,提高整體交通系統(tǒng)運行效率.MLCA網(wǎng)絡(luò)模型圖如圖4所示,將交通信號燈控制中的各種輸入特征作為輸入特征圖(C,W,H).其中通道數(shù)C表示不同類型的交通信息如車輛、行人、道路標識、交通燈狀態(tài)等不同的信息.寬度W表示交通圖像的水平方向信息,如不同車道或交通流信息,高度H表示交通圖像的垂直方向信息,如交通燈狀態(tài)信息.
MLCA通過局部平均池化(Local Average pooling,LAP)和全局平均池化(Global Average pooling,GAP),將輸入特征向量轉(zhuǎn)換為1×C×ks×ks的向量,ks為卷積核大小,其中LAP通過計算每個局部區(qū)域內(nèi)特征的平均值來減少特征圖的空間尺寸,從而使模型能夠更關(guān)注局部區(qū)域的特征.GAP通過計算整個特征圖內(nèi)特征的平均值來捕捉整個特征圖的統(tǒng)計信息,幫助模型獲取全局上下文信息.這兩個分支分別關(guān)注局部區(qū)域的特征和捕捉整個特征圖的統(tǒng)計信息,從而全面理解交通狀態(tài).
在MLCA內(nèi)部,兩個分支將輸入轉(zhuǎn)化為一維向量,一個包含全局信息,如整個路口的車流密度和行人情況.另一個包含局部空間信息,如等待車輛的排隊情況和路口特定區(qū)域的擁堵情況.全局池化后的特征經(jīng)過1×1卷積和重新排列,通過與局部池化特征進行相加操作,這個操作是逐元素相加,即將兩個特征圖中對應(yīng)位置的元素相加,從而在特征圖中融合全局上下文信息.
最后經(jīng)過局部和全局注意力處理的特征圖通過反池化(Un Average Pooling,UNAP)操作恢復(fù)到原始的空間維度,通過與原始輸入進行相乘操作,即將兩個特征圖中對應(yīng)位置的元素相乘,得到一個新的特征圖,從而實現(xiàn)特征選擇,強化對有用特征的關(guān)注,完成整個處理流程.經(jīng)過MLCA處理后的特征圖,代表了對交通狀態(tài)的深入理解和全局上下文信息的綜合利用.此特征圖作為智能交通信號燈控制系統(tǒng)決策過程中的輸入,幫助系統(tǒng)更智能地根據(jù)綜合情況調(diào)整交通信號燈的控制策略.
2.3 偏好引導(dǎo)的信號燈配時策略
固定的探索率存在已知高Q值的動作和未知動作之間分配探索資源不均勻的問題,可能導(dǎo)致交通信號控制在學(xué)習(xí)過程中無法有效地對不同交通情況做出適應(yīng)性調(diào)整.偏好引導(dǎo)策略通過學(xué)習(xí)動作偏好來增加高Q值動作的采樣概率,從而提高對高Q值動作的選擇概率.這種動作偏好會明確地根據(jù)相應(yīng)的Q值來調(diào)整動作的選擇概率分布,有助于增加對高價值動作的采樣頻率,從而使交通信號控制器更加智能化和適應(yīng)性更強.有針對性的探索將使得交通信號控制器更有效地利用已知信息并快速學(xué)習(xí)未知路況的最佳控制策略.同時,通過增加高Q值動作的采樣概率,交通燈控制器可以更快地收斂到最優(yōu)策略,提高交通效率和減少擁堵情況.
動作偏好定義為η,如式(6)所示.通過最小化損失函數(shù)(φ)來優(yōu)化算法中的參數(shù)φ,以獲取動作偏好η,從而在環(huán)境中學(xué)到更好的決策策略.
(φ)=Euclid Math TwoEA@s~P,a~ηAη(s,a)ηφ(a|s)+αη(s)(6)
式(6)中:φ是動作偏好的參數(shù),Euclid Math TwoEA@s~P,a~η表示在狀態(tài)s按照分布P選擇動作a的期望值.Aη(s,a)是優(yōu)勢函數(shù),用于評估采取動作a相對于平均水平的優(yōu)勢,定義為Aη(s,a)=(Qη(s,a)-Vη(s)).Qη(s,a)是關(guān)于狀態(tài)s和動作a的行動值函數(shù),表示在偏好η下采取動作a后在狀態(tài)s下的預(yù)期回報.Vη(s)是在偏好η下狀態(tài)s的價值函數(shù),表示狀態(tài)s下按照偏好η行動的預(yù)期回報.ηφ(a|s)表示根據(jù)狀態(tài)s預(yù)測動作a的策略,是一個關(guān)于參數(shù)φ的函數(shù).η(s)代表動作偏好ηφ(a|s)在狀態(tài)s下的熵,定義為η(s)=-∑aηφ(a|s)log ηφ(a|s),用于計算交通路口在特定狀態(tài)下(如車輛密度、擁堵程度等)的熵,以幫助智能體制定合適的交通信號控制策略.
基于式(6)優(yōu)化后的動作偏好,與貪婪相結(jié)合,構(gòu)成了偏好引導(dǎo)的貪婪策略,記為πPG(a|s),任何動作a的采樣概率按照其偏好值進行加權(quán),即具有概率的情況下選擇最大偏好值的動作a=argmaxQ(a,s),其中s表示當(dāng)前狀態(tài).
πPG(a|s)=1-+η(a|s),當(dāng)a=aη(a|s)"" ,當(dāng)a≠a(7)
式(7)表示在狀態(tài)s下,根據(jù)策略函數(shù)π選擇動作a的概率.其中,a~η(·|s)是一個動作分布,表示動作偏好,偏好越高的動作,被選擇的概率越高.當(dāng)選擇的動作等于最優(yōu)動作a時,概率為1-+η(a|s),當(dāng)選擇的動作不等于最優(yōu)動作時,概率為η(a|s).這種構(gòu)造的目的在于當(dāng)使用統(tǒng)一的操作偏好對策略進行一次更新后,策略會具有一個顯著的特性,更新后的策略優(yōu)于或持平之前的策略,保證了策略改進效果.
3 實驗結(jié)果與分析
3.1 SUMO城市模擬器
本文的實驗部署在城市模擬器(Simulation of Urban Mobility,SUMO)[18]上,SUMO是一個開源、高度可移植、微觀和連續(xù)的流量模擬器,旨在處理大型網(wǎng)絡(luò),為路網(wǎng)設(shè)計、交通量仿真和交通信號燈控制提供了靈活的API與Pyhton進行交互.算法通過仿真平臺獲取當(dāng)前階段的交通流量狀態(tài),將當(dāng)前的流量狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,根據(jù)模型進行動作選擇控制信號燈配時,從而模擬大規(guī)模連續(xù)的城市交通,允許包含不同類型的車輛、行人、交通燈、車輛探測器等.
仿真環(huán)境如圖5所示,分別設(shè)置車道寬3.2米,長500米,最大速度50公里/小時.車輛均為長5米、間距2.5米、最高時速14米/秒的乘用車.實驗中使用的所有場景都使用了確定性生成器,確保了N次執(zhí)行之間生成的車輛數(shù)量和時間完全相等.
本文分別考察了WDDQN、MA2C、FP-WDDQN以及本文方法MP-DDQN的仿真實驗.其中,WDDQN[19]利用加權(quán)二重估計器和深度神經(jīng)網(wǎng)絡(luò),不僅可以有效地降低偏差,而且可以擴展到具有原始輸出的場景.為了實現(xiàn)多代理領(lǐng)域的高效合作,引入了寬松的獎勵網(wǎng)絡(luò)和定時重放策略.MA2C[20]通過構(gòu)建一個基于策略的神經(jīng)網(wǎng)絡(luò),智能體可以在與硬件的交互中直接輸出策略,MA2C將獨立深度Q學(xué)習(xí)擴展為多智能體信號燈控制器的獨立A2C.FP-WDDQN[21]基于遺忘經(jīng)驗機制(FEM)和優(yōu)先經(jīng)驗重放機制(PERM),使算法在基于FEM和時間差誤差的網(wǎng)絡(luò)采樣和訓(xùn)練過程中優(yōu)先選擇時間差誤差高的經(jīng)驗.
本文實驗中設(shè)置的代理參數(shù)如表1所示.在1000車流情況下,對算法代理進行了50個episodes訓(xùn)練,狀態(tài)空間大小為80,動作空間大小為4.
3.2 實驗結(jié)果
本文對算法進行了超過10episodes的評估,并得出最終的平均值.該模型可根據(jù)以下指標進行綜合評價.平均排隊長度即一段時間內(nèi)的平均排隊長度,其中排隊長度是靠近車道上所有車輛的總和,較短的隊列意味著所有車道上都有較少的汽車在等待.平均行駛速度即車輛通過十字路口的平均速度,平均速度越高表示道路越開闊,而平均速度越低表示道路越擁堵.
實驗結(jié)果如表2所示.相比于DDQN和WDDQN模型,本文方法在車輛平均排隊長度上顯著減少,分別為4.22輛和0.42 m/s,車輛平均行駛速度分別提高了2.3輛和0.93 m/s.這表明在處理大規(guī)模狀態(tài)空間時,DDQN和WDDQN存在探索與利用平衡不足的問題,導(dǎo)致它們傾向于過度探索或過度利用.可能影響算法陷入局部最優(yōu)解或無法有效地探索環(huán)境.本文通過引入偏好引導(dǎo)的隨機探索方法解決了這個問題,提高了算法性能.
相比于MA2C模型,本方法減少了0.79輛的車輛平均排隊長度,車輛平均行駛速度提高0.37 m/s.MA2C需要進行協(xié)同訓(xùn)練以實現(xiàn)合作達到全局最優(yōu),智能體之間的相互作用會增加訓(xùn)練的復(fù)雜性和計算成本,在復(fù)雜交通場景下可能面臨收斂困難.
另外,相比于FP-WDDQN模型,本方法減少了0.38輛的車輛平均排隊長度,車輛平均行駛速度提高0.13 m/s.FP-WDDQN引入了遺忘經(jīng)驗機制和優(yōu)先經(jīng)驗重放機制,但在大規(guī)模多智能體系統(tǒng)中,處理大量的經(jīng)驗和計算大量的優(yōu)先級可能會增加算法的計算復(fù)雜度,影響算法的實時性和效率.
綜上,從這些對比結(jié)果可以看出,MP-DDQN表現(xiàn)出了較好的性能優(yōu)勢,具有較好的魯棒性、優(yōu)越性和高效性.
3.3 消融實驗
為了驗證各模塊在交通燈控制的有效性,消融實驗結(jié)果如表3所示.加入MLCA注意力模塊后,相比較DDQN平均排隊長度減少1.71輛,車輛平均行駛速度提高1.2 m/s.這說明MLCA有助于模型更好地理解交通流量數(shù)據(jù)的關(guān)鍵特征,使模型在決策過程中更加關(guān)注重要的信息,有助于更有效地進行交通信號燈控制.
加入PGSE模塊后,相比較DDQN和DDQN+MLCA分別減少2.97輛和1.26 m/s.車輛平均行駛速度分別提高1.87輛和0.67 m/s.通過偏好引導(dǎo)的方法,使得模型在探索中更加有針對性,更傾向于選擇先前表現(xiàn)良好的動作,從而更好地探索狀態(tài)空間.
加入MLCA和PGSE兩個模塊后,相比單獨加入MLCA和PGSE模塊分別減少2.51輛和1.25 m/s.車輛平均行駛速度分別提高1.1輛和0.43 m/s.將這兩個模塊結(jié)合起來,使得模型能夠在更全面和準確的信息基礎(chǔ)上進行決策.
綜上,MLCA提供了對數(shù)據(jù)的更深入理解,而PGSE則幫助模型更有效地利用這些理解進行探索和決策.實驗結(jié)果表明了MLCA和PGSE的有效性.
4 結(jié)論
本文提出了一種基于DDQN的改進算法MP-DDQN.首先通過引入Double DQN算法,可以減輕原始DQN算法中存在的Q值高估值問題,提高算法的學(xué)習(xí)穩(wěn)定性,幫助算法更準確地評估每種交通信號燈控制方案的價值,從而使得控制決策更為精確和有效.其次MLCA混合局部通道注意力機制可以增強算法對交通環(huán)境的感知能力,有助于提高決策的準確性,算法更關(guān)注與當(dāng)前交通狀態(tài)相關(guān)的局部信息,避免無關(guān)信息對決策的干擾,從而提高交通信號燈控制的效果.最后結(jié)合偏好引導(dǎo)的隨機探索策略可以在探索未知領(lǐng)域時更加高效,避免陷入局部最優(yōu)解,提高探索性能,幫助算法在探索不同的交通信號燈控制方案時更加靈活,有助于找到更優(yōu)的控制策略.
結(jié)合這些改進,MP-DDQN算法在決策過程中更好地理解交通環(huán)境、采取更優(yōu)的行動,并在探索未知領(lǐng)域時保持高效性和穩(wěn)定性,能夠幫助優(yōu)化交通信號燈控制策略,減少車輛的平均等待時間,緩解交通擁堵,提高交通效率,為智能交通管理領(lǐng)域帶來更大的價值和實用性.
參考文獻
[1] Li Y,Qin Z,Zhu C M.Optimal design of transportation signal control at the intersection based on Webster signal timing method[C]//Journal of Physics:Conference Series.Kunming,China:IOP Publishing,2021,1972(1):012 130.
[2]Zakariya A Y,Rabia S I.Estimating the minimum delay optimal cycle length based on a time-dependent delay formula[J].Alexandria Engineering Journal,2016,55(3):2 509-2 514.
[3]Arulkumaran K,Deisenroth M P,Brundage M,et al.Deep reinforcement learning:A brief survey[J].IEEE Signal Processing Magazine,2017,34(6):26-38.
[4]Rasheed F,Yau K L A,Noor R M,et al.Deep reinforcement learning for traffic signal control:A review[J].IEEE Access,2020,8:208 016-208 044.
[5]Borges D F,Leite J P R R,Moreira E M,et al.Traffic light control using hierarchical reinforcement learning and options framework[J].IEEE Access,2021,9:99 155-99 165.
[6]Zhu L,Peng P,Lu Z,et al.Metavim:Meta variationally intrinsic motivated reinforcement learning for decentralized traffic signal control[J].IEEE Transactions on Knowledge and Data Engineering,2023 ,35(11):11 570-11 584.
[7]Hassan M A,Elhadef M,Khan M U G.Collaborative Traffic signal automation using deep Q-Learning[J].IEEE Access,2023,11:136 015-136 032.
[8]Wang H,Zhu J,Gu B.Model-based deep reinforcement learning with traffic inference for traffic signal control[J].Applied Sciences,2023,13(6):4 010.
[9]Yang Z,Kong Y,Hsia C H.DERLight:A Deep reinforcement learning traffic light control algorithm with dual experience replay[J].Journal of Internet Technology,2024,25(1):79-86.
[10] Yan L,Zhu L,Song K,et al.Graph cooperation deep reinforcement learning for ecological urban traffic signal control[J].Applied Intelligence,2023,53(6):6 248-6 265.
[11]Wang M,Wu L,Li J,et al.Traffic signal control with reinforcement learning based on region-aware cooperative strategy[J].IEEE Transactions on Intelligent Transportation Systems,2021,23(7):6 774-6 785.
[12]Shashi F I,Sultan S M,Khatun A,et al.A study on deep reinforcement learning based traffic signal control for mitigating traffic congestion[C]//2021 ieee 3rd Eurasia Conference On Biomedical Engineering,Healthcare and Sustainability (ecbios).Tainan,Taiwan:IEEE,2021:288-291.
[13]Kamal H,Yánez W,Hassan S,et al.Digital-Twin-Based deep reinforcement learning approach for adaptive traffic signal Control[J].IEEE Internet of Things Journal,2024,11(12):21 946-21 953.
[14]Van Hasselt H,Guez A,Silver D.Deep reinforcement learning with double q-learning[C]//Proceedings of the AAAI conference on artificial intelligence.Phoenix,Arizona,USA:AAAI,2016:2 094-2 100.
[15]Huang W,Zhang C,Wu J,et al.Sampling efficient deep reinforcement learning through preference-guided stochastic exploration[J].IEEE Transactions on Neural Networks and Learning Systems,2023,35(12):2 162-2 388.
[16]Wan D,Lu R,Shen S,et al.Mixed local channel attention for object detection[J].Engineering Applications of Artificial Intelligence,2023,123:106 442.
[17]Yau K L A,Qadir J,Khoo H L,et al.A survey on reinforcement learning models and algorithms for traffic signal control[J].ACM Computing Surveys (CSUR),2017,50(3):1-38.
[18]Lopez P A,Behrisch M,Bieker Walz L,et al.Microscopic traffic simulation using sumo[C]//2018 21st International Conference On Intelligent Transportation Systems (ITSC).Maui,HI,USA:IEEE,2018:2 575-2 582.
[19]Zheng Y,Hao J Y,Zhang Z Z,et al.Efficient multiagent policy optimization based on weighted estimators in stochastic cooperative environments[J].Journal of Computer Science and Technology,2020,35:268-280.
[20]Chu T,Wang J,Codecà L,et al.Multi-agent deep reinforcement learning for large-scale traffic signal control[J].IEEE Transactions on Intelligent Transportation Systems,2019,21(3):1 086-1 095.
[21]Zhang X,Xu X.FP-WDDQN:An improved deep reinforcement learning algorithm for adaptive traffic signal control[C]//2023 IEEE International Conference on Data Mining Workshops (ICDMW).Shanghai,China:IEEE,2023:44-51.
【責(zé)任編輯:蔣亞儒】