999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

TR-Light:基于多信號(hào)燈強(qiáng)化學(xué)習(xí)的 交通組織方案優(yōu)化算法

2022-01-01 00:00:00吳昊昇鄭皎凌王茂帆

摘 要: "針對(duì)多變環(huán)境條件下的交通堵塞問(wèn)題,將強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、多智能體和交通仿真技術(shù)結(jié)合起來(lái),提出了用于優(yōu)化多路口條件下交通狀況的trajectory reward light(TR-Light)模型。該方法具有幾個(gè)顯著特點(diǎn):基于紅綠燈擬定交通組織方案;將多智能體強(qiáng)化學(xué)習(xí)用于紅綠燈控制;通過(guò)紅綠燈的協(xié)同達(dá)到區(qū)域級(jí)的交通組織優(yōu)化;在智能體每次行為執(zhí)行結(jié)束后實(shí)施軌跡重構(gòu),在OD對(duì)不改變的情況下改變車輛行駛路徑,根據(jù)方案和重構(gòu)軌跡來(lái)計(jì)算智能體的最終回報(bào)。最后,通過(guò)SUMO進(jìn)行交通仿真實(shí)驗(yàn)和交通指標(biāo)對(duì)比,驗(yàn)證了該模型在多交叉口中提高了路網(wǎng)暢通率,改善了交通狀態(tài)。實(shí)驗(yàn)表明該模型可行,可有效緩解交通擁堵。

關(guān)鍵詞: "多智能體; 強(qiáng)化學(xué)習(xí); SUMO; 紅綠燈

中圖分類號(hào): "TP399 """文獻(xiàn)標(biāo)志碼: A

文章編號(hào): "1001-3695(2022)02-027-0001-00

doi:10.19734/j.issn.1001-3695.2021.06.0283

Tr-light:traffic organization plan optimization algorithm based on

multiple traffic signal lights reinforcement learning

Wu Haosheng, Zheng Jiaoling, Wang Maofan

(Software College, Chengdu University of Information Technology, Chengdu 610225, China)

Abstract: "Focusing on the problem with traffic congestion under changing environmental conditions,the paper proposed a trajectory reward light(TR-Light) model by combining reinforcement learning,neural network,multi-agent and traffic simulation technology to optimize the traffic at multi-intersections.This method had considerable merits in the following aspects.The traffic organization plan was formulated based on traffic lights;Multi-agent reinforcement learning was used on traffic light control; Regional traffic organization was optimized through the coordination of traffic lights.The agent implemented trajectory reconstruction after the execution of each behavior so as to change the vehicle travel path without changing the OD pair,and to calculate the final reward of the agent according to the plan and reconstructed trajectory.Finally,it conducted a traffic simulation experiment through SUMO,and the comparison of traffic indicators verified that the proposed model improved the smoothness of the road network and the traffic state at the multi-intersections.Experiments show that the model is feasible and effectively mitigates the traffic congestion.

Key words: "multi-agent; reinforcement learning; SUMO; traffic lights

0 引言

在科技信息化的時(shí)代,人類的生活越來(lái)越豐富,現(xiàn)在大多數(shù)家庭都擁有私家車,這就出現(xiàn)了在城市里各種各樣的交通問(wèn)題比如等待時(shí)間過(guò)長(zhǎng)、車道占有率過(guò)高等。隨著人工智能的發(fā)展出現(xiàn)了許多交通智能化技術(shù),開(kāi)始有效地控制交通行為。多智能體強(qiáng)化學(xué)習(xí)是當(dāng)下人工智能發(fā)展的技術(shù)之一。多智能體通過(guò)自主學(xué)習(xí)、分步協(xié)調(diào)和組織的能力,根據(jù)自身當(dāng)前的狀態(tài)與其他智能體進(jìn)行學(xué)習(xí),在這一過(guò)程中有效地配合其他智能體完成自己的學(xué)習(xí)并改變自身的狀態(tài)完成最終自己高效的目標(biāo)。相比較單智能體而言多智能體更加注重群體學(xué)習(xí),多智能體的學(xué)習(xí)效率往往都是高于單智能體,能夠在短時(shí)間內(nèi)有效地完成目標(biāo)效益最大化。

在交通方面交叉路口的交通運(yùn)動(dòng)最關(guān)鍵的一種行為,大部分的城市擁堵現(xiàn)象都與交叉口相關(guān),所以有效地控制交叉路口往往能夠提高路網(wǎng)的運(yùn)行效率,在現(xiàn)在的技術(shù)中可以控制交通信號(hào)燈來(lái)協(xié)調(diào)交叉路口,也可以通過(guò)交通組織方案進(jìn)行封路來(lái)優(yōu)化路網(wǎng)的暢通率。最近,許多人嘗試著使用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)優(yōu)化交通狀況。通過(guò)多項(xiàng)研究表明,多智能體強(qiáng)化學(xué)習(xí)技術(shù)要遠(yuǎn)遠(yuǎn)優(yōu)于其他傳統(tǒng)交通方式。最大優(yōu)勢(shì)在于智能體能夠通過(guò)觀察當(dāng)下自己的交通狀態(tài)根據(jù)當(dāng)時(shí)環(huán)境的反饋來(lái)學(xué)習(xí)采取下一步的相關(guān)操作,強(qiáng)化學(xué)習(xí)顯著兩大特征就是試錯(cuò)和延遲匯報(bào)。agent接受環(huán)境狀態(tài),根據(jù)內(nèi)部推理機(jī)制,agent選擇相應(yīng)行為動(dòng)作作用于環(huán)境,環(huán)境接受該動(dòng)作后轉(zhuǎn)移到新的狀態(tài),同時(shí)產(chǎn)生一個(gè)獎(jiǎng)勵(lì)反饋給agent,agent再根據(jù)獎(jiǎng)勵(lì)和當(dāng)前環(huán)境狀態(tài)再選擇下一個(gè)動(dòng)作,選擇原則是使受到正獎(jiǎng)賞值的動(dòng)作概率增大[1]。

本文通過(guò)強(qiáng)化學(xué)習(xí)的兩大要素獎(jiǎng)勵(lì)和狀態(tài)以及多智能體之間的集中式學(xué)習(xí)分散式執(zhí)行以及軌跡重構(gòu)的思想提出trajectory reward light(TR-Light)的算法來(lái)提高路網(wǎng)的暢通率。

雖然在2013年就有人提出了關(guān)于多智能體之間行動(dòng)的方式來(lái)改善交通狀況,但在交通的實(shí)際應(yīng)用中卻發(fā)揮的不是很理想并且難以實(shí)施。本文算法就是在當(dāng)下復(fù)雜動(dòng)態(tài)的交通環(huán)境下能夠快速給出最好的交通方案來(lái)改善交通狀況,這是一項(xiàng)非常有意義并且極具挑戰(zhàn)性的課題研究,主要存在以下兩個(gè)難點(diǎn):

如何讓智能體在交通環(huán)境中能夠高效地學(xué)習(xí)這一直是近幾年以來(lái)強(qiáng)化學(xué)習(xí)中的挑戰(zhàn)。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中訓(xùn)練智能體的方法都是不斷地迭代策略進(jìn)行重復(fù)訓(xùn)練,但是如此長(zhǎng)此以往的訓(xùn)練只適用于單智能體上,對(duì)于多智能體來(lái)說(shuō)并不合適[2]。

考慮到對(duì)城市中的交通進(jìn)行智能管理的問(wèn)題,當(dāng)智能體開(kāi)始因策略執(zhí)行行為時(shí),如何在眾多策略中選出一個(gè)優(yōu)秀的策略并執(zhí)行,成為近幾年來(lái)的一個(gè)難點(diǎn)。

為了能夠解決該上述的問(wèn)題,本文提出TR-light網(wǎng)絡(luò)交通模型,將交通信號(hào)燈的控制作為動(dòng)作的選擇,將路口中的車輛等待時(shí)間和車輛與道路的占有率作為環(huán)境的觀察值,通過(guò)集中式學(xué)習(xí)分布式執(zhí)行的方法,將多路口的智能體進(jìn)行訓(xùn)練學(xué)習(xí),有效提高了路網(wǎng)的暢通率,同時(shí)在進(jìn)行管控后對(duì)行駛該路段的車輛進(jìn)行軌跡重構(gòu),將重構(gòu)后的軌跡與強(qiáng)化學(xué)習(xí)相結(jié)合達(dá)到最佳效果。

通過(guò)設(shè)置交通信號(hào)燈中的program來(lái)改變道路的狀態(tài),實(shí)現(xiàn)某種意義上的短暫封路,來(lái)進(jìn)行交通管控如圖1所示。

如圖1所示,對(duì)圖中的某一出車口進(jìn)行行為設(shè)定,在交叉口道路中會(huì)針對(duì)所有道路的進(jìn)車口進(jìn)行這四種方案的交通管控。

1 相關(guān)工作

1.1 交通組織方案優(yōu)化

交通組織方案參考以往的研究成果來(lái)看,與國(guó)外發(fā)達(dá)國(guó)家相比較,我國(guó)的交通行業(yè)發(fā)展相對(duì)而言比較晚,不管是在技術(shù)層面還是在管理層面有著一定的差距。相對(duì)于國(guó)外發(fā)達(dá)國(guó)家中交通組織系統(tǒng)中對(duì)于交通組織的管理和運(yùn)行都有比較大的提高。同時(shí)近幾年隨著交通行業(yè)和計(jì)算機(jī)行業(yè)的發(fā)展,再加上國(guó)內(nèi)外相關(guān)學(xué)者的研究,將計(jì)算機(jī)和交通相結(jié)合的技術(shù)發(fā)展,使得交通組織方案技術(shù)不斷地得到優(yōu)化。我國(guó)現(xiàn)階段以及未來(lái)都將會(huì)長(zhǎng)時(shí)間處于交通組織的研究領(lǐng)域。在我國(guó)實(shí)施的交通管控方案中,大部分都是依靠以往的經(jīng)驗(yàn)來(lái)進(jìn)行決策,并沒(méi)有成為相對(duì)科學(xué)的管理體系,對(duì)于以后的發(fā)展是充滿著隱患的。為了能夠最大程度上保障道路的暢通,國(guó)內(nèi)大量高校對(duì)交通組織方案進(jìn)行研究和規(guī)劃,將多種人工智能技術(shù)和交通領(lǐng)域相互結(jié)合形成較為完善的體系,并隨著社會(huì)的發(fā)展?fàn)顩r交通組織方案的優(yōu)化也不斷進(jìn)行著調(diào)整,要通過(guò)現(xiàn)有的技術(shù)來(lái)構(gòu)造適合我國(guó)交通發(fā)展體系的研究。

1.2 單路口交通信號(hào)優(yōu)化

自從2015年日期強(qiáng)化學(xué)習(xí)以來(lái),Q-learning,Sarsa和TD lambda等算法成為強(qiáng)化學(xué)習(xí)的主流。與蒙特卡羅方法改變時(shí)間差分法TD會(huì)進(jìn)行極大似然估計(jì),從而估計(jì)的結(jié)果更符合未來(lái)數(shù)據(jù)的趨勢(shì)[3]。在交通領(lǐng)域中,諸多研究對(duì)單個(gè)路口使用交通信號(hào)燈控制進(jìn)行了廣泛的研究,它們?cè)O(shè)定好了車輛以特定的方式到達(dá)目的地,研究大多數(shù)試圖從車輛的行駛時(shí)間和路口的排隊(duì)長(zhǎng)度這兩個(gè)方面進(jìn)行優(yōu)化。近幾年來(lái)許多基于強(qiáng)化學(xué)習(xí)的方法試圖從數(shù)據(jù)中通過(guò)學(xué)習(xí)來(lái)解決這個(gè)問(wèn)題,例如通過(guò)建立Q表使用Q-learning的早期實(shí)驗(yàn),但是Q學(xué)習(xí)的學(xué)習(xí)適合處理離散的狀態(tài),并且使用Q學(xué)習(xí)部署到現(xiàn)在的交通環(huán)境中,面對(duì)單路口環(huán)境下,路口的情況有成千上萬(wàn)種,Q表的容量有限的,無(wú)法統(tǒng)計(jì)數(shù)以萬(wàn)計(jì)的狀態(tài),并不適合交通環(huán)境。隨后深度強(qiáng)化學(xué)習(xí)技術(shù)得以推廣(deep reinforcement learning,DRL),該技術(shù)將具有感知的深度學(xué)習(xí)和具有決策的強(qiáng)化學(xué)習(xí)互相結(jié)合,解決了諸多問(wèn)題[3]。DQN算法就是根據(jù)Q-learning算法進(jìn)行改進(jìn)出來(lái)的,該方法解決Q-learning“緯度災(zāi)難”的問(wèn)題[4]。Hasselt等人[5]在DQN的基礎(chǔ)上提出double DQN算法。2019年Hernandez等人[6]將LSTM和DQN相結(jié)合構(gòu)造出來(lái)單路口環(huán)境下紅綠燈的優(yōu)化,融入了神經(jīng)網(wǎng)絡(luò)技術(shù)快速提高了實(shí)驗(yàn)的收斂性。

1.3 基于多路口強(qiáng)化學(xué)習(xí)交通信號(hào)優(yōu)化

在常規(guī)的多路口路網(wǎng)中,可以通過(guò)路口中的紅綠燈進(jìn)行時(shí)間間隔的設(shè)置來(lái)實(shí)現(xiàn)協(xié)調(diào),但實(shí)際上調(diào)節(jié)紅綠燈并不是一件容易的事情,紅綠燈之間的相位變換通常是復(fù)雜多變的,因?yàn)闊o(wú)法同時(shí)促進(jìn)相反方向的交通。為了解決這個(gè)問(wèn)題,開(kāi)發(fā)了一些優(yōu)化的方法,以最大程度地減少車輛行駛時(shí)間或多個(gè)交叉路口的站點(diǎn)數(shù)量例如文獻(xiàn)[7,8]。在常規(guī)的多路口環(huán)境中可以實(shí)現(xiàn)協(xié)調(diào)通過(guò)設(shè)置路網(wǎng)的所有交叉點(diǎn)之間的綠燈開(kāi)始之間的時(shí)間間隔[9]。還有些優(yōu)化的方法例如文獻(xiàn)[10,11]以最小化車輛的行駛時(shí)間和/或多個(gè)交叉路口的站點(diǎn)數(shù)量,代替優(yōu)化偏移量或最大壓力;文獻(xiàn)[12]旨在最大化網(wǎng)絡(luò)的吞吐量,從而最小化行程時(shí)間。但是很多這樣的方法依舊是根據(jù)靜態(tài)環(huán)境或者假設(shè)來(lái)構(gòu)建的簡(jiǎn)化交通狀況,并不保證實(shí)際的運(yùn)營(yíng)會(huì)有所改善。

最早解決交通管理的問(wèn)題是Miller等人[13]通過(guò)固定時(shí)間的控制,使用預(yù)定義的紅綠燈周期進(jìn)行規(guī)劃。現(xiàn)有研究文獻(xiàn)[14~16]傾向于從相鄰的交叉路口選擇交通條件,并將其與目標(biāo)交叉路口的交通條件直接連接起來(lái),而忽略了交通在時(shí)間和空間上都在變化的事實(shí)。Zhang等人[17]在2018年使用了固定的通信協(xié)議進(jìn)行智能體間的交互。文獻(xiàn)[18]使用了持續(xù)交流以及一些離散交互的方法使得智能體之間進(jìn)行通信。在控制多個(gè)交叉路口的策略中,有一種方法是通過(guò)集中式訓(xùn)練智能體的學(xué)習(xí)進(jìn)行聯(lián)合建模并集體進(jìn)行執(zhí)行行為,但是這種方法有兩個(gè)相關(guān)的常見(jiàn)問(wèn)題:a)隨著智能體數(shù)量的增長(zhǎng),集中式訓(xùn)練的計(jì)算工作量太大;b)在測(cè)試期間,每個(gè)智能體都是獨(dú)立行動(dòng)的,在動(dòng)態(tài)的環(huán)境下智能體的變動(dòng)需要結(jié)合周圍其他智能體進(jìn)行上下協(xié)調(diào)。

所以上述的集中式訓(xùn)練并不是最佳的選擇,另一種方法是使用分散式的強(qiáng)化學(xué)習(xí)智能體來(lái)控制多路口進(jìn)行交互,該方法就是將每個(gè)智能體基于自身周圍相鄰路口的信息進(jìn)行交互作出自己的決策。分散式的通信更加的實(shí)用,并不需要集中決策具有良好的伸縮性,但在模型的收斂和速度上往往是很不穩(wěn)定的。Jang等人[19]在離散通信的基礎(chǔ)上加入了注意力機(jī)制來(lái)對(duì)傳入的通信信息進(jìn)行優(yōu)先級(jí)排序,在訓(xùn)練過(guò)程中會(huì)有更好的質(zhì)量梯度。

多智能體和深度強(qiáng)化學(xué)習(xí)的結(jié)合近期一直是熱門的研究方向,Mao等人[20]結(jié)合AC算法和 DL提出了ACCNET算法,通過(guò)多智能體之間的交互來(lái)提高環(huán)境的穩(wěn)定性從而提高最后的結(jié)果精準(zhǔn)度。Littman[21]提出了馬爾可夫決策過(guò)程作為MARL的環(huán)境框架,解決了大多數(shù)強(qiáng)化學(xué)習(xí)的問(wèn)題提供了一種簡(jiǎn)單明了的數(shù)學(xué)框架。Lowe等人[22]把強(qiáng)化學(xué)習(xí)中的DDPG算法和多智能體結(jié)合到一起,在不需要完整的環(huán)境模型下,能在即時(shí)獎(jiǎng)勵(lì)和延遲獎(jiǎng)勵(lì)之間作出選擇,每次做決策的時(shí)候,智能體會(huì)觀察當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作并轉(zhuǎn)移到下一個(gè)狀態(tài)。文獻(xiàn)[23]讓智能體在環(huán)境中學(xué)習(xí)通信協(xié)議,互相共享信息、交流信息來(lái)完成當(dāng)前任務(wù),提高共享效用。

2 算法框架

2.1 actor-critic算法概述

actor-critic網(wǎng)絡(luò)分為actor和critic網(wǎng)絡(luò)兩個(gè)部分。其中:actor網(wǎng)絡(luò)根據(jù)策略函數(shù),負(fù)責(zé)完成動(dòng)作并和周圍的環(huán)境完成交互;critic網(wǎng)絡(luò)使用了價(jià)值函數(shù),負(fù)責(zé)評(píng)估actor進(jìn)行動(dòng)作完成后的表現(xiàn),并且指導(dǎo)下一步行動(dòng)的完成。actor網(wǎng)絡(luò)使用了策略函數(shù),該函數(shù)的近似公式如下:

π θ(s,a)=P(a|s,θ)≈π(a|s) ""(1)

critic網(wǎng)絡(luò)使用的價(jià)值函數(shù)的近似,對(duì)于狀態(tài)價(jià)值和動(dòng)作價(jià)值函數(shù)分別是

(s,w)≈v π(s) ""(2)

(s,a,w)≈q π(s,a) ""(3)

在critic網(wǎng)絡(luò)中還需要計(jì)算選出動(dòng)作和后的TD-error值所用公式為

TD=r+Vπ(S′)-Vπ(S) ""(4)

對(duì)于AC算法中更新策略的參數(shù)使用的公式為

θ=θ+α ""θ log π θ(s,a)v ""(5)

2.2 交通評(píng)價(jià)指標(biāo)

在使用該模型方法中,需要一定的交通指標(biāo)來(lái)鑒定該模型是否能夠充分的得到有效提高,將使用以下指標(biāo)來(lái)評(píng)定交通狀況。

1)路網(wǎng)暢通率

路網(wǎng)暢通率定義為路網(wǎng)在某一時(shí)間段 T 內(nèi),交通狀態(tài)較好的路段里程與路網(wǎng)中所有路段里程的比值,描述了路網(wǎng)總體暢通程度,是路網(wǎng)交通總體運(yùn)行質(zhì)量的一個(gè)度量,可以用于評(píng)價(jià)交通管理效果。

RNCR(t) = "∑ n i,j=1 k il ij ∑ n i,j=1 l ij """(6)

其中: RNCR(t)表示T時(shí)間段內(nèi)的路網(wǎng)暢通率(T 可取5 min或者3 min); N 為路網(wǎng)中所包含路段數(shù); l ij為第i條路段的長(zhǎng)度;k i 為二值函數(shù)。當(dāng)路段 i 的交通狀態(tài)等級(jí)屬于可接受交通狀態(tài)時(shí), k i =1,否則 k i =0。路段平均速度 meanspeed ≥20 km/h時(shí),為可接受交通狀態(tài)。 meanspeed <20 km/h時(shí),為不可接受狀態(tài)。 RNCR(t) 的取值范圍為[0,1],值越大,表示路網(wǎng)狀態(tài)越好,反之,路網(wǎng)狀態(tài)越差。

2)出行時(shí)間指數(shù)

出行時(shí)間指數(shù)定義實(shí)際出行時(shí)間與期望出行時(shí)間的比值,使用 meanTimeLoss 表示,在一段時(shí)間內(nèi)的平均時(shí)間損失。故出行時(shí)間指數(shù)可表示為

TTI= T T-meanTimeLoss """(7)

其中: TTI 表示出行時(shí)間指數(shù),其值越大,交通狀態(tài)越差; T 表示所取時(shí)間間隔。

3 基于TR-light網(wǎng)絡(luò)的模型設(shè)定

3.1 紅綠燈智能體狀態(tài)設(shè)定

AC算法在交通中的實(shí)質(zhì)運(yùn)用就是先將狀態(tài)空間集與動(dòng)作空間集設(shè)定好,同時(shí)在AC算法的過(guò)程中將多智能體進(jìn)行集中式的交互學(xué)習(xí),智能體將自己執(zhí)行的行為方式同一回饋到一個(gè)critic網(wǎng)絡(luò)中,由同一個(gè)critic網(wǎng)絡(luò)進(jìn)行對(duì)其他智能體中的actor網(wǎng)絡(luò)進(jìn)行反向傳遞,這樣的學(xué)習(xí)方式使得智能體之間能夠更加穩(wěn)定快速的收斂。

agent通過(guò)觀察路口的環(huán)境獲得實(shí)時(shí)交通狀態(tài),將這些狀態(tài)傳遞給本文設(shè)定actor網(wǎng)絡(luò)進(jìn)行后續(xù)的執(zhí)行。當(dāng)前道路的狀態(tài)將使用路口處的車輛等待時(shí)間和車道占有率進(jìn)行表示,如圖2所示。

將道路的進(jìn)口車道離散化為10段,道路離散化的目的是為了模型在訓(xùn)練時(shí)更加容易,每一段都含有每個(gè)車的車道占有率,把每一段設(shè)成一個(gè)place,整條道路的狀態(tài)就是10個(gè)place組成的一個(gè)向量,每個(gè)place中會(huì)有相應(yīng)的車輛含在各個(gè)路段中,將車輛和路段的比值作為車道占有率加入到觀察值中,不同路口有不同的車道數(shù)量,將道路離散化后,該狀態(tài)就含有11種信息作為輸入(包含1種路口車輛等待時(shí)間),同理在不同的路段中,每條路段含有的車道數(shù)量也不同,在傳入觀察狀態(tài)時(shí)需要將所有車道的每段車道占有率進(jìn)行匯總傳人到狀態(tài)矩陣中。如圖3所示,對(duì)于車輛的出行道路中,在智能體的狀態(tài)中設(shè)定 S={s 1,s 2,……,s 10,s 11},其中s 1,……,s 11代表著車道占有率rate,s 11 代表著車輛排隊(duì)的總時(shí)間:

rate= VehLength i RoadLength "i ""(8)

分別取每段的路中的車輛長(zhǎng)度和該段路段中的長(zhǎng)度取值比對(duì)算出車道占有率,最后一位的觀察值為當(dāng)前路段的所有車輛等待時(shí)間,圖4中該道路的傳入的觀察值 O (0.67,…,12 s),傳入觀察值中對(duì)于回合制更新將對(duì)觀察值傳入的車道占有率取均值作為傳入,上述 O 中傳入的車道占有率的觀察值均為該回合內(nèi)傳入的均值。

3.2 紅綠燈智能體動(dòng)作設(shè)定

控制路口最有效的方法就是使用紅綠燈來(lái)控制,通常情況下控制信號(hào)燈的方法有延長(zhǎng)綠燈時(shí)長(zhǎng),減少綠燈時(shí)長(zhǎng),增加信號(hào)燈周期和減少信號(hào)燈周期等。本文從實(shí)際出發(fā)將動(dòng)作設(shè)定為將左轉(zhuǎn)信號(hào)燈設(shè)置紅燈(禁左)、將右轉(zhuǎn)信號(hào)燈設(shè)置紅燈(禁右)、將直行信號(hào)燈設(shè)置紅燈(禁直)和禁止掉頭的四種方案。當(dāng)車流量需要涌入另一個(gè)交通流量較大的路段時(shí),可通過(guò)禁左、禁右、禁直和禁止掉頭進(jìn)行調(diào)整。在動(dòng)作設(shè)定中,先設(shè)置動(dòng)作空間,將設(shè)定好的行為方案依次傳入動(dòng)作空間中,因?yàn)閯?dòng)作的設(shè)定是通過(guò)信號(hào)燈來(lái)設(shè)計(jì),如動(dòng)作集 A={program 1,program 2,…,program n},其中n代表能進(jìn)行選擇行為的總數(shù),將圖1中的案例代入動(dòng)作集當(dāng)中,其中program 1就代表著禁止左轉(zhuǎn)的行為例A={禁左,禁右,禁直,禁掉頭,…,program n} ,圖一中因?yàn)橐还灿兴臈l路可進(jìn)行設(shè)定的program,所以共有4×4=16種可行行為方案進(jìn)行設(shè)定。

3.3 基于軌跡重構(gòu)的智能體獎(jiǎng)勵(lì)設(shè)定(trajectory reward)

當(dāng)紅綠燈進(jìn)行行為的選擇后會(huì)對(duì)地圖上的某些道路進(jìn)行封禁,就會(huì)導(dǎo)致地圖上某些車輛無(wú)法通過(guò)該路段形成車輛死鎖,這就需要對(duì)車輛進(jìn)行軌跡重構(gòu),將封禁路段從車輛的軌跡中刪除進(jìn)行重新的路徑規(guī)劃。

軌跡重構(gòu)的構(gòu)想在對(duì)道路實(shí)施封禁后,需要對(duì)車輛進(jìn)行軌跡重構(gòu)。其主要思想是將補(bǔ)全好的路徑文件按照起點(diǎn),終點(diǎn)搭配起來(lái)的OD對(duì)進(jìn)行歸類。并將存在封禁路段的路線剔除。然后將OD對(duì)設(shè)為Q表的state,該OD對(duì)的相關(guān)路線設(shè)為Q表的action來(lái)進(jìn)行馬爾可夫決策訓(xùn)練找到最好的路線搭配方式來(lái)運(yùn)行同時(shí)也實(shí)現(xiàn)了路段封禁的效果,軌跡重構(gòu)的設(shè)計(jì)思想不是本文智能體交互的重點(diǎn),重構(gòu)的目的僅僅只是將在不改變起點(diǎn)和終點(diǎn)的情況下,將封禁的路段改變路線,能夠使得車輛正常行駛,避免出現(xiàn)道路車輛死鎖現(xiàn)象。

根據(jù)上述來(lái)指定智能體所獲取的reward,針對(duì)每回合下對(duì)車輛重構(gòu)軌跡來(lái)計(jì)算整個(gè)路網(wǎng)的車輛總等待時(shí)間。

reward=-(wt-selfwt) ""(9)

在模型中設(shè)定原環(huán)境下道路中車輛的總等待時(shí)間為 selfwt,通過(guò)強(qiáng)化學(xué)習(xí)每回合學(xué)習(xí)后車輛進(jìn)行軌跡重構(gòu)后的總等待時(shí)間為wt,在模型中wt 初始化為0,通過(guò)重構(gòu)后軌跡行駛車輛的排隊(duì)時(shí)間與原有的排隊(duì)時(shí)間進(jìn)行比對(duì)來(lái)做為該回合內(nèi)的獎(jiǎng)勵(lì)。

3.4 智能體協(xié)作

智能體通過(guò)采用集中培訓(xùn)和分散執(zhí)行的框架來(lái)實(shí)現(xiàn)目標(biāo),使用集中的critic網(wǎng)絡(luò)的優(yōu)勢(shì)在于,在交通環(huán)境下多智能體之間需要通過(guò)相互配合達(dá)到路網(wǎng)暢通率最大,各個(gè)智能體是需要相互配合的,所有智能體都是要使得共同回報(bào)最大化,并且是critic網(wǎng)絡(luò)可以收集到環(huán)境中的全局結(jié)果,使得最后計(jì)算出的聯(lián)合行動(dòng)的Q值更加準(zhǔn)確,同時(shí)actor網(wǎng)絡(luò)只針對(duì)各自的Agent負(fù)責(zé)而不是全部或者多個(gè)智能體,這樣會(huì)使得智能體在學(xué)習(xí)過(guò)程中的行動(dòng)延遲降低。因?yàn)橹悄荏w擁有相同的目標(biāo)并且是同質(zhì)的 ,所以為了加快訓(xùn)練速度,通過(guò)參數(shù)共享的方式來(lái)加快訓(xùn)練速度,智能體的actor網(wǎng)絡(luò)參數(shù)是相同的并不代表著這些智能體會(huì)采取相同的行為,每個(gè)智能體根據(jù)自身周圍觀察環(huán)境不同來(lái)采取不同的行為。并且,當(dāng)策略在執(zhí)行的過(guò)程中允許使用額外的信息來(lái)簡(jiǎn)化訓(xùn)練,在智能體協(xié)作的過(guò)程中,提出一個(gè)簡(jiǎn)易的actor-critic算法,讓critic網(wǎng)絡(luò)在學(xué)習(xí)的過(guò)程中加入其他智能體的信息進(jìn)行學(xué)習(xí),所以根據(jù)參數(shù)共享的結(jié)果,可以每個(gè)智能體得到的TD遵循為

g= ""θπ log π(a i|o i)(r+Vπ(S t+1)-V(S t)) ""(10)

3.5 SubNet網(wǎng)絡(luò)構(gòu)造

同時(shí)通信對(duì)于智能體之間的協(xié)作也是非常重要的,critic是匯集了整個(gè)環(huán)境中的所有信息,通常在多智能體的環(huán)境下會(huì)有大量高維度的信息匯總,所以可以在actor網(wǎng)絡(luò)在傳送到critic網(wǎng)絡(luò)之前加入一個(gè)SubNet網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)獲取了智能體傳入的高緯度信息,經(jīng)過(guò)該網(wǎng)絡(luò)處理后將每個(gè)高緯度信息壓縮成低緯度信息進(jìn)行傳入到critic網(wǎng)絡(luò)。因?yàn)樵谒幍膶?shí)驗(yàn)環(huán)驗(yàn)環(huán)境下,智能體是同質(zhì)的所以該神經(jīng)網(wǎng)絡(luò)也是和actor網(wǎng)絡(luò)一樣是共享參數(shù)的。由圖4所示,網(wǎng)絡(luò)輸入的是三個(gè)路口的狀態(tài)( I,I 1,I 2 ),可以看到圖中采用卷積網(wǎng)絡(luò)的第一層采用的是16個(gè)4×4的濾波器,步長(zhǎng)為2,并且使用ReLU作為激活函數(shù),第二層有32個(gè)2×2的濾波器,步長(zhǎng)為1,繼續(xù)使用了ReLU作為激活函數(shù)。

3.6 基于TR-Light控制信號(hào)燈的模型設(shè)計(jì)

對(duì)于傳入SubNet的網(wǎng)絡(luò)中觀察值為一個(gè)矩陣,該矩陣中插入了之前規(guī)劃的狀態(tài)設(shè)定也就是之前將道路離散化后的車道占有率以及路口等待時(shí)間。因?yàn)閷⒌缆冯x散化后分為10段,將每段的數(shù)據(jù)以及兩端路中每段路的車輛等待時(shí)間傳入到SubNet當(dāng)中,同時(shí)還傳入了其他智能體的相關(guān)信息,SubNet網(wǎng)絡(luò)由神經(jīng)網(wǎng)絡(luò)構(gòu)成,在傳入高維數(shù)據(jù)后通過(guò)神經(jīng)網(wǎng)絡(luò)將這些數(shù)據(jù)進(jìn)行壓縮降維產(chǎn)生出新的信息,通過(guò)SubNet網(wǎng)絡(luò)傳入到critic網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),能夠提升critic的學(xué)習(xí)效率TR-light模型是基于actor-critic基本算法框架,在多智能體環(huán)境下加入了CTDE的方法進(jìn)行構(gòu)建的。基于軌跡重構(gòu)模型(trajectory)和信號(hào)燈program的控制交通組織方案優(yōu)化算法TR-light,算法詳情如算法1所示。

算法1 TR-light:Trajectory Reward-Light

構(gòu)造SubNet網(wǎng)絡(luò)

輸入: s 。

輸出: s 。

a) 傳入輸入觀察矩陣 o "i ,其中 o "i∈(o 1,…,o n),n為聯(lián)動(dòng)智能體的個(gè)數(shù)(agent i(sepsiode t 1,…,sepsiode t 11),agent i+1(sepsiode t 1,…,sepsiode t 11 )根據(jù)聯(lián)動(dòng)智能體來(lái)設(shè)定)。

b)神經(jīng)網(wǎng)絡(luò)第一層,構(gòu)造二維卷積定義維度空間并且定義卷積沿寬度和高度方向的步長(zhǎng)。

c)定義激活函數(shù)ReLU。

d)神經(jīng)網(wǎng)絡(luò)第二層,構(gòu)造二維卷積定義維度空間并且定義卷積沿寬度和高度方向的步長(zhǎng)。

e)定義激活函數(shù) ReLU。

f)定義第三層全連接網(wǎng)絡(luò)。

g)輸出新構(gòu)造的狀態(tài)一維數(shù)組。

在構(gòu)造SubNet網(wǎng)絡(luò)中完成智能體之間的交互,首先步驟a)將目標(biāo)智能體和交互智能體進(jìn)行獲取,通過(guò)步驟b)~f)搭建起神經(jīng)網(wǎng)絡(luò),并將目標(biāo)智能體獲取的觀察值以及跟目標(biāo)智能體進(jìn)行交互智能體的觀察值作為輸入,通過(guò)卷積進(jìn)行特征提取,通過(guò)全連接層卷積輸出的特征轉(zhuǎn)換成一維的一個(gè)向量,該向量為目標(biāo)智能體與鄰居智能體交互產(chǎn)生最終的觀察值結(jié)果。

構(gòu)造actor網(wǎng)絡(luò)(對(duì)于多個(gè)agent需要構(gòu)造多個(gè)actor網(wǎng)絡(luò))

輸入: s(SubNet output),a,td_error 。

輸出: act_prob,train_op 。

a)構(gòu)造狀態(tài)空間 N_S(N_S 的大小取決于鄰居路口的數(shù)量)和動(dòng)作空間 N_A(N_A 的大小取決于智能體的行為,如圖5所示對(duì)應(yīng)的狀態(tài)空間應(yīng)為16)。

b)構(gòu)造 s,a,td_error 變量。

c)建立actor網(wǎng)絡(luò)

d)輸出為 act_prob進(jìn)行轉(zhuǎn)換log_prob=log(act_prob) 。

e) exp_v =reduce_mean( log_prob*td_error) 計(jì)算利益導(dǎo)向損失。

f)計(jì)算預(yù)計(jì)最大化價(jià)值 train_op使用minimize(-exp_v )。

g)agent進(jìn)行l(wèi)earn的訓(xùn)練(傳入 s,a,td_error) 。

h)執(zhí)行choose_action(傳入 s),輸出為act_prob 。

構(gòu)建actor網(wǎng)絡(luò),構(gòu)造出網(wǎng)絡(luò)中需要獲取的狀態(tài)空間和動(dòng)作空間,計(jì)算每個(gè)行為后的偏轉(zhuǎn)概率。

構(gòu)造critic網(wǎng)絡(luò)

輸入: s,a,s_ 。

輸出: td_error 。

a)構(gòu)造 s,r,s_變量 。

b)構(gòu)構(gòu)造critic網(wǎng)絡(luò)。

c)critic進(jìn)行學(xué)習(xí)inputs( s,r,s_)計(jì)算出當(dāng)前價(jià)值v和下一個(gè)狀態(tài)的價(jià)值v_。

d)計(jì)算 td_error 的并進(jìn)行反向傳遞修改。

構(gòu)造critic網(wǎng)絡(luò),構(gòu)造上述所需變量,將變量進(jìn)行傳遞計(jì)算出選取行為后的 td_error,計(jì)算完畢后將td_error 進(jìn)行反向傳遞給actor網(wǎng)絡(luò)。

模型設(shè)計(jì)

輸入: s,a 。

輸出: :r,td_error 。

a)構(gòu)建衰敗值GAMMA。

b)構(gòu)造actor網(wǎng)絡(luò)。

c)構(gòu)造critic網(wǎng)絡(luò)。

d)構(gòu)造SubNet網(wǎng)絡(luò)。

e)構(gòu)造狀態(tài)空間 N_S 。

f)構(gòu)造動(dòng)作空間 N_A 。

g)在動(dòng)作空間中隨機(jī)選出一種行為。

h)forench "epsiode "in range(1000000):

i)初始化 s 為當(dāng)前第一狀態(tài),并得到該狀態(tài)的觀察值 o ,并構(gòu)造出SubNet網(wǎng)絡(luò),進(jìn)行傳入得到新的觀察值。

j)在actor網(wǎng)絡(luò)中將觀察值作為輸入,輸出行為 a,基于該行為會(huì)得到新的狀態(tài)s_,反饋R 。

k)在critic網(wǎng)絡(luò)中輸入當(dāng)前 s,s_,r,得到計(jì)算出當(dāng)前價(jià)值Q和下一狀態(tài)價(jià)值Q_ 。

l)計(jì)算 td_error的誤差:td_error=r+GAMMA*v-v_

m)更新AC網(wǎng)絡(luò)中的網(wǎng)絡(luò)參數(shù):

θ ""θ+α θQ(s,a) ""θ log π θ(a|s)

n)print(當(dāng)前輸出策略 td,r) 。

o)對(duì)車輛進(jìn)行軌跡重構(gòu)。

p)end for

q)return最終輸出的策略, e,td

步驟a)~f)構(gòu)造出所需要的變量,在模型開(kāi)始運(yùn)作時(shí),首先隨機(jī)選取一組行為進(jìn)行實(shí)驗(yàn),將目標(biāo)智能體和交互智能體獲得的觀察值傳入到SubNet網(wǎng)絡(luò)中,生成出新的一維觀察值,將新的觀察值傳入到actor網(wǎng)絡(luò)獲取到該智能體的行為偏轉(zhuǎn)概率。如果在多智能體的環(huán)境下,需要建立起多個(gè)智能體的actor網(wǎng)絡(luò),算出每個(gè)智能體的行為偏轉(zhuǎn)概率,將多個(gè)actor的計(jì)算結(jié)果傳入到集中式critic網(wǎng)絡(luò),因?yàn)闀r(shí)集中式訓(xùn)練分布式執(zhí)行的思想,critic網(wǎng)絡(luò)會(huì)和其他actor網(wǎng)絡(luò)公用同一個(gè)參數(shù)進(jìn)行反向傳遞。

4 實(shí)驗(yàn)

本實(shí)驗(yàn)分別針對(duì)單路口和多路口進(jìn)行基于TR-light交通信號(hào)控制模型的實(shí)驗(yàn)評(píng)估,本實(shí)驗(yàn)采用的仿真平臺(tái)為SUMO,SUMO是一種開(kāi)源的道路模擬器,可以滿足模擬實(shí)驗(yàn)中所需要相關(guān)數(shù)據(jù)的收集還有交通行為的模擬以及需要的路網(wǎng)建設(shè),關(guān)鍵的是還能收集到交通信號(hào)燈的配時(shí)數(shù)據(jù)。編寫代碼的開(kāi)發(fā)IDE工具使用的是PyCharm,在完成相關(guān)的強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的構(gòu)建使用的是TensorFlow-GUP-1.4.0版本和NumPY,需要完善上述擴(kuò)展,其次最重要的是要實(shí)施SUMO Traci的交通控制接口,Traci可以幫助擴(kuò)展在動(dòng)態(tài)時(shí)控制交通信號(hào)燈,可以調(diào)用SUMO仿真工具、獲取單個(gè)的車輛信息以及獲取每條道路的詳細(xì)數(shù)據(jù)和實(shí)時(shí)路況。

為了實(shí)驗(yàn)的真實(shí)性,本文所設(shè)置的實(shí)驗(yàn)環(huán)境選取為四川省綿陽(yáng)市內(nèi)兩個(gè)交通高峰地區(qū)進(jìn)行交通信號(hào)燈的方案實(shí)施。實(shí)驗(yàn)(實(shí)驗(yàn)1)環(huán)境為2020年9月份綿陽(yáng)市科博會(huì)區(qū)域的道路管控,在該仿真系統(tǒng)中的數(shù)據(jù)選取為當(dāng)日早上07:00~10:00時(shí)間內(nèi)共有101 226輛汽車部署到該環(huán)境中,模式初始設(shè)置為67輛汽車,隨機(jī)種子參數(shù)設(shè)為4, 在該環(huán)境中車輛的OD對(duì)共有276種,在原始環(huán)境下在該區(qū)域內(nèi)的車輛總等待時(shí)長(zhǎng)493 161 s,同時(shí)在實(shí)驗(yàn)開(kāi)始之初, 將對(duì)實(shí)施管控的路口進(jìn)行建立線圈處理,線圈是SUMO仿真系統(tǒng)種特有獲取道路實(shí)施狀態(tài)的方法,該實(shí)驗(yàn)環(huán)境效果如圖5所示。

如圖6所示,該區(qū)域?yàn)榭撇?huì)的重要路段,其中交叉口E與D為區(qū)域內(nèi)的主要交叉口,通過(guò)SUMO中線圈功能每10 min獲取各個(gè)汽車信息得知,該路口的每小時(shí)通車量在該時(shí)間段內(nèi)分別為845次和642次,將這兩個(gè)路口與其相鄰路口進(jìn)行協(xié)調(diào)來(lái)達(dá)到該區(qū)域內(nèi)的優(yōu)化,在引入強(qiáng)化學(xué)習(xí)方法后對(duì)部分路口作出封禁措施如圖7所示。

因?yàn)镈和E是該區(qū)內(nèi)的主要交叉口,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,給出的優(yōu)化方案方法中,最合理的結(jié)果如圖7所示,在C路口涌入D路口的直行路段實(shí)施道路封禁,同時(shí)對(duì)G路口涌入C路口的直行路段實(shí)施封禁,E路口向I路口禁止左轉(zhuǎn),I路口向E路口禁止直行,圖7為宏觀展示,具體封禁方法如圖8微觀展示。

從微觀的角度可以更加詳細(xì)地看出每條道路實(shí)施的封禁,道路實(shí)施封禁后車輛無(wú)法從該路駛出需要對(duì)車輛進(jìn)行軌跡重構(gòu),其中模型進(jìn)行迭代訓(xùn)練后分別與其他強(qiáng)化學(xué)習(xí)算法的實(shí)驗(yàn)對(duì)比結(jié)果如圖9所示。

根據(jù)上述算法比對(duì)在上述環(huán)境中共有九個(gè)信號(hào)燈加入到算法其中,可以明顯的看出TR-Light的算法能夠比傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法更加穩(wěn)定快速的收斂,同時(shí)根據(jù)方案實(shí)施封禁后對(duì)車輛的軌跡進(jìn)行重構(gòu)后通過(guò)線圈獲得的實(shí)時(shí)數(shù)據(jù)E和D兩路口的每小時(shí)通車量為1 291次和967次,有效地減少了兩路口的通車量數(shù)量。

本文的第二個(gè)對(duì)比實(shí)驗(yàn)(實(shí)驗(yàn)2)將綿陽(yáng)園藝山區(qū)域的地圖使用SUMO軟件進(jìn)行仿真出來(lái),如圖10~13所示。

在SUMO種構(gòu)建好仿真區(qū)域,并將紅綠燈的原始配時(shí)時(shí)間設(shè)定好,在紅綠燈的設(shè)置中,選取了幾個(gè)交通流量比較大的路口,并設(shè)置好紅綠燈。針對(duì)該路網(wǎng)車輛總等待時(shí)間進(jìn)行對(duì)比實(shí)驗(yàn),在此環(huán)境中加入了真實(shí)的車輛數(shù)據(jù),在晚高峰17:00~19:00時(shí)間內(nèi),該區(qū)域一共有51 320輛汽車,同時(shí)該路網(wǎng)中車輛的OD共有137對(duì),模型初始車輛46輛,將上述的重要路口進(jìn)行線圈安裝,與實(shí)驗(yàn)1相同每10 min獲取各個(gè)路段和路口的車輛信息,在歷史軌跡數(shù)據(jù)中晚高峰時(shí)間段,A、B兩個(gè)路口的車流量最大,由此A、B兩路口為該區(qū)域內(nèi)的主要路口,該路口的每小時(shí)通車量在在該時(shí)間段內(nèi)分別為467次和322次,該環(huán)境下共有7個(gè)紅綠燈加入到該模型的訓(xùn)練中。在不使用任何強(qiáng)化學(xué)習(xí)方法的情況下,按交通信燈的原配時(shí)間內(nèi),該環(huán)境中的車輛總等待時(shí)長(zhǎng)338 798 s,使用強(qiáng)化學(xué)習(xí)方法模型后迭代最終方案的結(jié)果如圖12~13所示,同時(shí)不同算法對(duì)該環(huán)境的總體優(yōu)化結(jié)果如圖14所示。

根據(jù)圖14反映的結(jié)果來(lái)看在迭代的前50回合內(nèi)DQN和TR-light算法的效果翻譯差別還不是特別的明顯,在迭代的次數(shù)變多后,TR-light模型中的critic網(wǎng)絡(luò)開(kāi)始逐漸地發(fā)生作用TD-error開(kāi)始自我學(xué)習(xí)更新,逐漸地往較好的行為模式去行動(dòng),開(kāi)始更改自己的相應(yīng)策略,來(lái)保持策略的最新模式,由于Q-learing的強(qiáng)化學(xué)習(xí)方法并不含有神經(jīng)網(wǎng)絡(luò),無(wú)法根據(jù)狀態(tài)進(jìn)行預(yù)測(cè),只是每次逐步地去選擇最優(yōu)的方式,所以優(yōu)化效果并不明顯,最后結(jié)果也無(wú)法得到收斂,TR-light模型的收斂速度隨著迭代的增加開(kāi)始提速,是最優(yōu)先達(dá)到收斂結(jié)果的。在迭代訓(xùn)練結(jié)束后,通過(guò)線圈獲得A、B兩個(gè)路口的每小時(shí)通車量為711次和532次,有效地提高了路網(wǎng)的暢通率。

針對(duì)上述兩個(gè)實(shí)驗(yàn),分別將本文中制定的交通指標(biāo)進(jìn)行統(tǒng)計(jì),針對(duì)最終結(jié)果方案數(shù)據(jù)的對(duì)比結(jié)果如圖15~18所示。

首先根據(jù)實(shí)驗(yàn)一綿陽(yáng)科博會(huì)展示各項(xiàng)數(shù)據(jù)對(duì)比如圖15~16所示。實(shí)驗(yàn)2園藝山展示各項(xiàng)交通指標(biāo)數(shù)據(jù)對(duì)比如圖17、18所示。

5 結(jié)束語(yǔ)

在多交叉口環(huán)境下,通過(guò)控制交通信號(hào)燈設(shè)計(jì)一種TR-light的模型,借助了actor-critic的算法框架,同時(shí)使用了智能體之間集中式學(xué)習(xí)分散式執(zhí)行的方法,結(jié)合了集中式學(xué)習(xí)和分散式學(xué)習(xí)的優(yōu)點(diǎn),使得算法在收斂速度上得到了較大的提升。通過(guò)多路口實(shí)驗(yàn)數(shù)據(jù)的比對(duì),傳統(tǒng)算法上的Q-learning算法在處理交通環(huán)境種中由于智能體的狀態(tài)是百變多樣的,Q學(xué)習(xí)沒(méi)有神經(jīng)網(wǎng)絡(luò)無(wú)法對(duì)狀態(tài)進(jìn)行預(yù)測(cè)所以導(dǎo)致了該算法的難以得到收斂。對(duì)于DQN算法來(lái)講雖然有了神經(jīng)網(wǎng)絡(luò)的輔助但在多智能體的交互方法上沒(méi)有得到實(shí)施,TR-light模型的設(shè)計(jì)使得交通狀態(tài)得到改善,為后期多智能體強(qiáng)化學(xué)習(xí)的交通信號(hào)控制的應(yīng)用奠定了基礎(chǔ)。

參考文獻(xiàn):

[1] "曹潔,張玲.自適應(yīng)遺傳算法的multi-agent交通信號(hào)優(yōu)化控制[J].計(jì)算機(jī)工程與應(yīng)用,2016, 52 (13):265-270. (Cao Jie,Zhang Ling.Optimal control of multi-agent traffic signal based on adaptive genetic algorithm[J]. Computer Engineering and Applications ,2016, 52 (13):265-270.)

[2] Wei Hua,Chen Chacha,Zheng Guanjie, et al. "PressLight:learning max pressure control to coordinate traffic signals in arterial network[C]//Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2019:1290-1298.

[3] 鄒長(zhǎng)杰,鄭皎凌,張中雷.基于GAED-MADDPG多智能體強(qiáng)化學(xué)習(xí)的協(xié)作策略研究[J].計(jì)算機(jī)應(yīng)用研究,2020, 37 (12):3656-3661. (Zou Changjie,Zheng Jiaoling,Zhang Zhonglei.Research on cooperative strategy based on GAED-MADDPG multi-agent reinforcement learning[J]. Application Research of Computers ,2020, 37 (12):3656-3661.)

[4] Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/abs/ 1312.5602.

[5] Van Hasselt H,Guez A,Silver D.Deep reinforcement learning with double q-learning[EB/OL].(2015-12-08).https://arxiv.org/abs/ 1509.06461.

[6] Hernandez-Leal P,Kartal B,Taylor M E.A survey and critique of multiagent deep reinforcement learning[J]. Autonomous Agents and Multi-Agent Systems ,2019, 33 (6):750-797.

[7] Schulman J,Wolski F,Dhariwal P,et al.Proximal policy optimization algorithms[EB/OL].(2017-08-28).https://arxiv.org/abs/1707.06347.

[8] Wei Hua,Xu Nan,Zhang Huichu, et al. "CoLight:learning network-level cooperation for traffic signal control[C]//Proc of the 28th ACM International Conference on Information and Knowledge Management.2019:1913-1922.

[9] Urbanik T,Tanaka A,Lozner B, et al. "Signal timing manual[M].Washington,DC:Transportation Research Board,2015.

[10] Little John D C,Kelson Mark D,Gartner,Nathan H.MAXBAND :a versatile program for setting signals on arteries and triangular networks,1185-81[R].[S.l.]:Sloan School of Management,Massachusetts Institute of Technology,1981.

[11] Robertson D I.TRANSYT:a traffic network study tool[EB/OL].(1969).https://trid.trb.org/view/115048.

[12] Varaiya P.Max pressure control of a network of signalized intersections[J]. Transportation Research Part C:Emerging Technologies ,2013, 36 (11):177-195.

[13] Miller A J.Settings for fixed-cycle traffic signals[J]. Journal of the Operational Research Society ,1963, 14 (4):373-386.

[14] Arel I,Liu C,Urbanik T, et al. "Reinforcement learning-based multi-agent system for network traffic signal control[J]. IET Intelligent Transport Systems ,2010, 4 (2):128-135.

[15] Dresner K,Stone P.Multiagent traffic management:opportunities for multiagent learning[C]//Proc of International Workshop on Learning and Adaption in Multi-Agent Systems.Berlin,Heidelberg:Springer,2005:129-138.

[16] El-Tantawy S,Abdulhai B,Abdelgawad H.Multiagent reinforcement learning for integrated network of adaptive traffic signal controllers(MARLIN-ATSC):methodology and large-scale application on downtown Toronto[J]. IEEE Transactions on Intelligent Transportation Systems ,2013, 14 (3):1140-1150.

[17] Zhang Kaiqing,Yang Zhuoran,BaAr T.Decentralized multi-agent reinforcement learning with networked agents:recent advances[J]. Frontiers of Information Technology amp; Electronic Engineering ,2021, 22 (6):802-814.

[18] Sukhbaatar S,Szlam A,F(xiàn)ergus R.Learning multiagent communication with backpropagation[EB/OL].(2016-10-31).https://arxiv.org/abs/ 1605.07736.

[19] Jang E,Gu Shixiang,Poole B.Categorical reparameterization with gumbel-softmax[EB/OL].(2017-08-05).https://arxiv.org/abs/1611.01144.

[20] Mao Hangyu,Gong Zhibo,Ni Yan, et al. ACCNet:actor-coordinator-critic net for \"learning-to-communicate\" with deep multi-agent reinforcement learning[EB/OL].(2017-10-29).https://arxiv.org/abs/ 1706.03235.

[21] Littman M L.Markov games as a framework for multi-agent reinforcement learning[M]//Cohen W W,Hirsh H.Machine learning proceedings 1994.[S.l.]:Morgan Kaufmann,1994:157-163.

[22] Lowe R,Wu Yi Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[EB/OL].(2017-07-07).https://arxiv.org/abs/1706.02275.

[23] Gupta S,Hazra R,Dukkipati A.Networked multi-agent reinforcement learning with emergent communication[EB/OL].(2020-04-09).https://arxiv.org/abs/2004.02780.

主站蜘蛛池模板: 国产精品自拍合集| 国产精品亚欧美一区二区三区| 国产视频一二三区| 久久这里只有精品2| 国产v精品成人免费视频71pao| 22sihu国产精品视频影视资讯| 久久国产精品麻豆系列| 一级看片免费视频| 久草国产在线观看| 久久人午夜亚洲精品无码区| 欧美区一区| 丰满人妻久久中文字幕| 久久综合亚洲鲁鲁九月天| 国产福利在线免费| 亚洲国产成人无码AV在线影院L| 2021精品国产自在现线看| 国产a v无码专区亚洲av| av手机版在线播放| 久久毛片网| 亚洲第一区精品日韩在线播放| 免费播放毛片| 青青操视频在线| 毛片在线看网站| 日本不卡免费高清视频| 久久国产精品麻豆系列| 1024你懂的国产精品| 五月天综合网亚洲综合天堂网| 国产精品美女在线| 青草娱乐极品免费视频| 91精品国产91久久久久久三级| 亚洲黄色视频在线观看一区| 国产成人艳妇AA视频在线| 无码AV高清毛片中国一级毛片| 国产福利拍拍拍| 日本高清有码人妻| 欧美专区日韩专区| 成人在线观看一区| 国产99视频免费精品是看6| 夜夜操国产| 黄色网页在线观看| 九九九久久国产精品| 色偷偷一区二区三区| 久久99国产乱子伦精品免| 国产亚洲欧美在线专区| 一本大道东京热无码av| 亚洲精品在线91| a毛片在线免费观看| 精品无码国产一区二区三区AV| 午夜福利无码一区二区| 国产在线高清一级毛片| 欧美综合一区二区三区| 亚洲乱伦视频| 欧美精品成人一区二区视频一| 欧亚日韩Av| 99热这里只有免费国产精品 | 日韩在线视频网站| 自拍偷拍欧美日韩| 亚洲国产成人精品无码区性色| 国产人人射| lhav亚洲精品| 这里只有精品在线| 亚洲av片在线免费观看| 国产国产人免费视频成18| 性色在线视频精品| 久久综合九色综合97网| 国产天天射| 亚洲无码精彩视频在线观看| 日韩精品高清自在线| 午夜久久影院| 亚洲福利视频一区二区| 国产成人a在线观看视频| 黄色在线不卡| 伊人久久大香线蕉综合影视| 日本久久免费| 久久国产V一级毛多内射| 99re这里只有国产中文精品国产精品| 青青草国产免费国产| 日本成人在线不卡视频| 亚洲综合狠狠| 国产美女在线免费观看| 亚洲永久精品ww47国产| 日韩在线播放中文字幕|