999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

安全驅(qū)動(dòng)的城市交叉口自適應(yīng)信號(hào)控制方法*

2023-11-07 13:43:34張功權(quán)常方蓉金杰靈黃合來(lái)
關(guān)鍵詞:動(dòng)作優(yōu)化

張功權(quán),常方蓉,金杰靈,黃合來(lái)

(1.中南大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長(zhǎng)沙 410075;2.哈佛大學(xué) 哈佛醫(yī)學(xué)院,馬薩諸塞州 波士頓 02115;3.中南大學(xué) 資源與安全工程學(xué)院,湖南 長(zhǎng)沙 410012)

0 引言

城市汽車保有量的增加造成嚴(yán)重的交通事故、擁堵和環(huán)境污染等問(wèn)題,這類問(wèn)題在城市交叉口區(qū)域尤為明顯。為提高道路通行效率,scats和scoot等自適應(yīng)交通信號(hào)控制(adaptive traffic signal control,ATSC)系統(tǒng)已被廣泛應(yīng)用于城市交叉口交通組織管理[1]。ATSC系統(tǒng)能夠根據(jù)檢測(cè)器獲取的交通流信息動(dòng)態(tài)地調(diào)整信號(hào)相位或時(shí)長(zhǎng)。然而,該系統(tǒng)依賴于系統(tǒng)中人工預(yù)設(shè)的信號(hào)方案或簡(jiǎn)化的交通模型,在面對(duì)時(shí)空維度復(fù)雜多變的城市交通流時(shí),其控制效果欠佳[2]。此外,ATSC系統(tǒng)對(duì)交叉口的安全影響并未得到統(tǒng)一驗(yàn)證。研究表明:ATSC系統(tǒng)的應(yīng)用減少了交通事故次數(shù)[3-4],而有些研究發(fā)現(xiàn)ATSC系統(tǒng)的應(yīng)用未改變交通事故的發(fā)生頻率,卻增加了交通沖突的頻率和嚴(yán)重程度[5-6]。為提升ATSC系統(tǒng)的控制效果,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)在交通信號(hào)控制應(yīng)用中取得顯著進(jìn)展[7]。

基于RL的交通信號(hào)控制系統(tǒng)在控制效果上優(yōu)于傳統(tǒng)的交通信號(hào)控制方法,其優(yōu)點(diǎn)在于可以定義1個(gè)或多個(gè)智能體,通過(guò)與交通環(huán)境的實(shí)時(shí)交互反饋,學(xué)習(xí)和調(diào)整控制策略,對(duì)交通信號(hào)進(jìn)行長(zhǎng)期的自適應(yīng)控制。然而,現(xiàn)實(shí)世界中交通流具有動(dòng)態(tài)性和高維性,RL無(wú)法運(yùn)用表格形式存儲(chǔ)所有的交通狀態(tài)。因此,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)被用以簡(jiǎn)化和概括交通流特征,使智能體能夠發(fā)現(xiàn)新交通狀態(tài)與已有交通狀態(tài)的相似性,從而減少計(jì)算維度和存儲(chǔ)空間。基于DRL的交通信號(hào)控制系統(tǒng)在動(dòng)態(tài)交通流和交叉口信號(hào)控制應(yīng)用中具有優(yōu)越的性能[8-9],其優(yōu)勢(shì)在于能夠讓智能體通過(guò)與復(fù)雜交互環(huán)境的實(shí)時(shí)交互學(xué)習(xí)最優(yōu)策略,無(wú)需精確標(biāo)簽數(shù)據(jù),更好地適應(yīng)復(fù)雜性、缺乏標(biāo)簽數(shù)據(jù)、多目標(biāo)優(yōu)化和實(shí)時(shí)決策的信號(hào)控制問(wèn)題。

DRL是深度學(xué)習(xí)(deep learning,DL)和RL的結(jié)合體,它使用DL將狀態(tài)泛化至多維空間,通過(guò)神經(jīng)網(wǎng)絡(luò)將狀態(tài)映射至動(dòng)作值(action-value)。基于值和基于策略方法是DRL的2個(gè)主要類別。經(jīng)典基于值的DRL使用深度Q網(wǎng)絡(luò)(deep Q network,DQN)作為動(dòng)作價(jià)值函數(shù)的逼近器,將交通狀態(tài)映射到動(dòng)作Q值。Hua等[10]提出1種相位門控模型,采用DQN學(xué)習(xí)不同交通信號(hào)相位的Q值。Nishi等[11]提出決斗DQN來(lái)提高智能體的學(xué)習(xí)效率和穩(wěn)定性。在此基礎(chǔ)上,Liang等[12]利用雙重決斗D3QN(dueling double deep Q network,D3QN)學(xué)習(xí)動(dòng)作價(jià)值函數(shù),解決深度Q網(wǎng)絡(luò)的高估問(wèn)題。行動(dòng)者-批判者(actor-critic,AC)算法是經(jīng)典基于策略的DRL,通過(guò)批判者給行動(dòng)者當(dāng)前動(dòng)作打分的方式,更新動(dòng)作選取的概率。Chu等[8]采用優(yōu)勢(shì)AC算法,將“批判者”價(jià)值函數(shù)分為狀態(tài)值和動(dòng)作優(yōu)勢(shì),提高智能體對(duì)最優(yōu)交通信號(hào)控制策略的學(xué)習(xí)速率。Pang等[13]使用深度確定性策略梯度算法改變綠燈相位的持續(xù)時(shí)長(zhǎng)。基于值的DRL適用于離散控制問(wèn)題求解。在交通信號(hào)控制應(yīng)用中優(yōu)于基于策略的DRL。然而,大部分基于DRL的交通信號(hào)控制研究聚焦于如何提高算法的學(xué)習(xí)速率和穩(wěn)定性,并且優(yōu)化目標(biāo)專注于考慮通行效率,對(duì)交通安全的影響缺乏評(píng)估。

鑒于此,本文提出1種安全驅(qū)動(dòng)的自適應(yīng)交通信號(hào)控制算法。基于多目標(biāo)強(qiáng)化學(xué)習(xí),構(gòu)建信號(hào)控制算法框架和D3QN模型,更適用于交通信號(hào)控制問(wèn)題求解;使用離散交通狀態(tài)編碼定義智能體獲取的交通狀態(tài)信息,將信號(hào)相位設(shè)計(jì)為動(dòng)作集,并分別選取交通安全、通行效率和尾氣排放的表征指標(biāo),構(gòu)建綜合獎(jiǎng)勵(lì)函數(shù),主動(dòng)提升城市交叉口的安全性。在長(zhǎng)沙市某交叉口的真實(shí)流量和模擬流量條件下,與現(xiàn)有交通信號(hào)控制方法相比,驗(yàn)證所提方法的有效性和可行性。

1 研究背景

1.1 深度強(qiáng)化學(xué)習(xí)

RL是1種面向目標(biāo)的機(jī)器學(xué)習(xí)算法,通過(guò)與環(huán)境在離散的時(shí)間間隔內(nèi)持續(xù)交互,學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最佳策略。在每個(gè)時(shí)間間隔,智能體觀察環(huán)境的狀態(tài)s,根據(jù)當(dāng)前知識(shí)策略π選擇動(dòng)作a,進(jìn)而接收反饋獎(jiǎng)勵(lì)r,并以一定概率pa轉(zhuǎn)移至下一狀態(tài)。在交互學(xué)習(xí)過(guò)程中,智能體通過(guò)最大化長(zhǎng)期獎(jiǎng)勵(lì)的數(shù)學(xué)期望不斷更新知識(shí)策略,直至收斂為最優(yōu)策略。Q值或動(dòng)作值是指基于當(dāng)前狀態(tài)和策略,選擇動(dòng)作獲取的期望回報(bào),如式(1)所示:

Qπ(s,a)?Eπ[Gt|st=s,at=a]

(1)

式中:Eπ為在策略π下采取動(dòng)作的期望值;Gt為累積的未來(lái)獎(jiǎng)勵(lì);st,at為在時(shí)間步t的交通狀態(tài)和動(dòng)作選取。

將式(1)分解為Bellman方程,如式(2)所示:

(2)

式中:s′,a′分別為在時(shí)間步t+1的交通狀態(tài)和動(dòng)作選取;r為在狀態(tài)s選取動(dòng)作a得到的獎(jiǎng)勵(lì);p為狀態(tài)轉(zhuǎn)移概率;γ為折現(xiàn)因子,表示未來(lái)獎(jiǎng)勵(lì)的重要性。γ越高,意味著未來(lái)的獎(jiǎng)勵(lì)更重要。

最優(yōu)Q值函數(shù)定義如式(3)所示:

(3)

最優(yōu)策略求解如式(4)所示:

(4)

式中:A為智能體動(dòng)作的合集。

不同于RL使用表格的方式存儲(chǔ)所有樣本,DRL使用經(jīng)驗(yàn)回放來(lái)更新計(jì)算Q值的神經(jīng)網(wǎng)絡(luò),將來(lái)自交互的樣本(s,a,r,s′)存儲(chǔ)在經(jīng)驗(yàn)記憶中。從記憶池中隨機(jī)地抽取小批量樣本,通過(guò)隨機(jī)梯度下降法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以逼近Q值。隨機(jī)抽樣的方式可以中斷記憶池中樣本的強(qiáng)相關(guān)性,從而穩(wěn)定收斂。

DRL的最優(yōu)策略如式(5)所示:

(5)

式中:wθ為神經(jīng)網(wǎng)絡(luò)權(quán)重;θ為神經(jīng)網(wǎng)絡(luò)參數(shù)。

1.2 多目標(biāo)深度強(qiáng)化學(xué)習(xí)

RL的優(yōu)化目標(biāo)通常都是單一的。對(duì)于多目標(biāo)優(yōu)化問(wèn)題,RL需要表示和計(jì)算目標(biāo)之間的關(guān)系,也需要權(quán)衡和協(xié)調(diào)目標(biāo)收益的差別,這使問(wèn)題變得復(fù)雜。在一些基于RL的ATSC系統(tǒng)的研究中,提出多目標(biāo)優(yōu)化問(wèn)題的求解方法,主要分為3類:1)動(dòng)態(tài)切換優(yōu)化目標(biāo),Houli等[14]開(kāi)發(fā)3種不同優(yōu)化目標(biāo)的RL算法,并植入ATSC系統(tǒng),但根據(jù)交通狀況,只能有1種算法被激活,無(wú)法實(shí)現(xiàn)全局最優(yōu);2)為每個(gè)優(yōu)化目標(biāo)分別設(shè)置動(dòng)作價(jià)值函數(shù),取權(quán)重求和[15]。當(dāng)優(yōu)化目標(biāo)不相關(guān)時(shí),此方法有利于算法收斂,但會(huì)加大計(jì)算維度和成本;3)將每個(gè)優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù)求和或加權(quán)平均,創(chuàng)建綜合獎(jiǎng)勵(lì)函數(shù),Khamis等[16]提出1種具有7個(gè)優(yōu)化目標(biāo)的ATSC系統(tǒng),但優(yōu)化目標(biāo)皆與效率有關(guān)。此方法通過(guò)RL獎(jiǎng)勵(lì)函數(shù)機(jī)制融合多個(gè)優(yōu)化目標(biāo),有助于問(wèn)題求解,但各個(gè)優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù)處理方式有所欠缺,特別是當(dāng)優(yōu)化目標(biāo)的關(guān)系和量綱無(wú)法統(tǒng)一時(shí),求和或加權(quán)平均的方式無(wú)法構(gòu)建有效的獎(jiǎng)勵(lì)函數(shù)。

因此,本文采用第3類方法求解城市交叉口安全、效率、環(huán)保三目標(biāo)優(yōu)化問(wèn)題,針對(duì)優(yōu)化目標(biāo)量綱無(wú)法統(tǒng)一的問(wèn)題,使用歸一化模型和熵權(quán)法構(gòu)建綜合獎(jiǎng)勵(lì)函數(shù),穩(wěn)定算法收斂過(guò)程。

2 安全驅(qū)動(dòng)的自適應(yīng)信號(hào)控制算法

2.1 算法框架

安全驅(qū)動(dòng)的自適應(yīng)信號(hào)控制算法(D3QN_SD)框架由城市交叉口環(huán)境、智能體和信控單元組成,如圖1所示。智能體在觀察當(dāng)前交通狀態(tài)后,應(yīng)用D3QN模型計(jì)算Q值并選擇動(dòng)作,以期獲取與優(yōu)化目標(biāo)相關(guān)的最大獎(jiǎng)勵(lì)。信控單元執(zhí)行智能體選擇的動(dòng)作,調(diào)整交通信號(hào)相位,改變交通狀態(tài)。

圖1 算法框架Fig.1 Algorithm framework

具體而言,在時(shí)刻t,收集交叉口的交通信息,定義其為狀態(tài)st,并輸入至智能體。遵循貪婪策略,智能體選擇1個(gè)動(dòng)作at。根據(jù)動(dòng)作信息,信控單元保持當(dāng)前交通信號(hào)相位或切換至另一個(gè)交通信號(hào)相位。在采取動(dòng)作at之后,交叉口的交通狀態(tài)在下一時(shí)刻t+1變?yōu)閟t+1。基于交通狀態(tài)變化和獎(jiǎng)勵(lì)函數(shù)定義,計(jì)算狀態(tài)-動(dòng)作(st,at)的獎(jiǎng)勵(lì)值rt,并將(st,at,rt,st+1)作為經(jīng)驗(yàn)存儲(chǔ)于記憶池中。最后,智能體通過(guò)經(jīng)驗(yàn)回放方法從記憶池中抽取樣本,更新D3QN模型,并學(xué)習(xí)最佳控制策略。

2.2 狀態(tài)設(shè)計(jì)

在交通狀態(tài)的傳統(tǒng)定義中,通常選擇車輛隊(duì)列長(zhǎng)度或進(jìn)道口交通流信息。然而,車輛隊(duì)列長(zhǎng)度無(wú)法區(qū)分移動(dòng)車輛的信息和靜止車輛的位置信息,交通流信息只描述了過(guò)去一段時(shí)間內(nèi)車輛的交通信息,而忽略了當(dāng)前車輛的信息。為解決這些局限性,一些研究提出了通過(guò)實(shí)時(shí)圖像、均勻車道劃分和離散交通狀態(tài)編碼(discrete traffic state encoding,DTSE)來(lái)表示交通狀態(tài)的方法[17]。因此,本文使用非均勻量化和DTSE方法設(shè)計(jì)交通狀態(tài),將交叉口的實(shí)時(shí)交通狀態(tài)轉(zhuǎn)換為元胞,以矩陣的形式輸入至智能體。

以雙向6車道的交叉口為例,進(jìn)道口長(zhǎng)500 m。沿著車輛的行駛方向,最左側(cè)、中間和最右側(cè)車道分別用于車輛左轉(zhuǎn)、直行、右轉(zhuǎn)或直行。圖2顯示了交叉口西進(jìn)道口的狀態(tài)設(shè)計(jì)圖。最左邊的車道被劃分為1行元胞,最中間和最右邊的車道被分割為1行元胞。在每一行元胞中,從交叉口附近以7 m為增量劃分10列元胞。交叉口附近的每個(gè)元胞只能容納1輛車,可以準(zhǔn)確反映車輛的位置和運(yùn)動(dòng)信息。距離交叉口最遠(yuǎn)的單元格長(zhǎng)度為180 m。因此,交通狀態(tài)設(shè)計(jì)為8行10列的元胞狀態(tài)矩陣。如果元胞內(nèi)有車輛,則其值為1,否則為0。

圖2 交通狀態(tài)設(shè)計(jì)Fig.2 Schematic diagram of traffic state design

2.3 動(dòng)作設(shè)計(jì)

智能體通過(guò)動(dòng)作選擇決定延長(zhǎng)當(dāng)前信號(hào)相位或切換至另一相位。動(dòng)作集定義為A={EWG,EWLG,SNG,SNLG},分別代表東西直行或右轉(zhuǎn)綠燈,東西左轉(zhuǎn)綠燈,南北直行或右轉(zhuǎn)綠燈,南北左轉(zhuǎn)綠燈。4個(gè)綠燈信號(hào)相位持續(xù)時(shí)間為10 s,如圖3所示。相位不切換時(shí),延長(zhǎng)當(dāng)前信號(hào)相位10 s;相位切換時(shí),系統(tǒng)將執(zhí)行4 s的黃燈。

圖3 綠燈信號(hào)相位Fig.3 Green light signal phase

2.4 獎(jiǎng)勵(lì)設(shè)計(jì)

獎(jiǎng)勵(lì)作為DRL技術(shù)的關(guān)鍵部分,是優(yōu)化目標(biāo)的直觀體現(xiàn),用于衡量執(zhí)行動(dòng)作的質(zhì)量。本文分別設(shè)計(jì)3個(gè)獎(jiǎng)勵(lì)函數(shù)模型對(duì)應(yīng)安全、效率、環(huán)保3個(gè)優(yōu)化目標(biāo),并基于歸一化模型和熵權(quán)法,構(gòu)建綜合獎(jiǎng)勵(lì)函數(shù)。

交通沖突是道路交通安全的主要評(píng)價(jià)指標(biāo),本文以TTC(time-to-collision)小于3作為交通沖突是否發(fā)生的判斷標(biāo)準(zhǔn)[18-19],以相鄰時(shí)間步交通沖突次數(shù)的差值作為表征安全的獎(jiǎng)勵(lì),如式(6)所示:

(6)

式中:CTC(t+1),CTC(t)分別表示在時(shí)間步t+1和t的累積交通沖突次數(shù)。

在交叉口場(chǎng)景,交通延誤主要來(lái)源于車輛等待紅燈所損失的時(shí)間,故以相鄰時(shí)間步車輛等待時(shí)間的差值作為表征效率的獎(jiǎng)勵(lì),如式(7)所示:

(7)

式中:CWT(t+1),CWT(t)分別表示在時(shí)間步t+1和t的累積車輛等待時(shí)間。

車輛尾氣排放的主要成分是CO2,根據(jù)SUMO的污染排放模型(PE)獲取CO2排放量,以相鄰時(shí)間步車輛CO2排放量的差值作為表征環(huán)保的獎(jiǎng)勵(lì),如式(8)所示:

(8)

式中:PE(t+1),PE(t)分別表示在時(shí)間步t+1和t的累積車輛CO2排放量。

鑒于3個(gè)獎(jiǎng)勵(lì)函數(shù)模型的量綱不同,構(gòu)建歸一化模型如式(9)~(10)所示:

(9)

式(9)中:x為獎(jiǎng)勵(lì)函數(shù)計(jì)算值;xmax,xmin分別表示大于0的數(shù)中最大和最小值。

(10)

根據(jù)歸一化模型,綜合獎(jiǎng)勵(lì)模型如式(11)所示:

(11)

式中:wTS,wTE,wCE分別表示安全、效率、環(huán)保3個(gè)獎(jiǎng)勵(lì)函數(shù)模型的權(quán)重值。權(quán)重值的大小說(shuō)明優(yōu)化目標(biāo)的重要程度,本文以安全作為主要優(yōu)化目標(biāo),效率和環(huán)保作為次要優(yōu)化目標(biāo),故wTS,wTE,wCE初始取值0.5,0.25,0.25。

為保證模型穩(wěn)定收斂,獲取最優(yōu)控制策略,基于每次動(dòng)作獲取的獎(jiǎng)勵(lì)值,使用熵權(quán)法實(shí)時(shí)調(diào)整獎(jiǎng)勵(lì)函數(shù)模型的權(quán)重值,min-max標(biāo)準(zhǔn)化函數(shù),將3個(gè)獎(jiǎng)勵(lì)函數(shù)的量綱統(tǒng)一,標(biāo)準(zhǔn)化后取值位于[0,1]之間,如式(12)所示:

(12)

式中:min {xi},max {xi}表示i項(xiàng)獎(jiǎng)勵(lì)值的最小和最大值。

計(jì)算各個(gè)獎(jiǎng)勵(lì)函數(shù)的歸一化值如式(13)所示:

(13)

式中:xij表示第j項(xiàng)獎(jiǎng)勵(lì)函數(shù)在第i次動(dòng)作時(shí)計(jì)算的獎(jiǎng)勵(lì)值。

各個(gè)獎(jiǎng)勵(lì)函數(shù)在每次動(dòng)作時(shí)計(jì)算的獎(jiǎng)勵(lì)值所組成的標(biāo)準(zhǔn)化矩陣如式(14)所示:

Y={Pij}m×n

(14)

式中:m為累計(jì)動(dòng)作次數(shù);n為獎(jiǎng)勵(lì)函數(shù)數(shù)量。

計(jì)算第j項(xiàng)獎(jiǎng)勵(lì)函數(shù)的熵值如式(15)所示:

(15)

計(jì)算第j項(xiàng)獎(jiǎng)勵(lì)函數(shù)的差異系數(shù)如式(16)所示:

gj=1-Hj

(16)

計(jì)算第j項(xiàng)獎(jiǎng)勵(lì)函數(shù)的權(quán)重值,即wTS,wTE,wCE的取值,如式(17)所示:

(17)

每次智能體決策時(shí),即更換或延長(zhǎng)信號(hào)相位時(shí),每項(xiàng)獎(jiǎng)勵(lì)函數(shù)的權(quán)重值都會(huì)重新計(jì)算,以尋求全局最優(yōu)解。

2.5 算法流程

圖4所示的是D3QN模型結(jié)構(gòu),由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和全連接神經(jīng)網(wǎng)絡(luò)(fully connected network,DNN)組成。元胞狀態(tài)矩陣通過(guò)卷積層和全連接層映射到動(dòng)作的Q值。由于矩陣的每一行表示車道的交通流信息,卷積層的濾波器大小設(shè)為1×3,步長(zhǎng)為2,用于提取每個(gè)車道的特征。卷積層的輸出經(jīng)過(guò)池化層抽象為1個(gè)狀態(tài)向量,并輸入至全連接層。Q值量化了智能體在未來(lái)能獲得的獎(jiǎng)勵(lì),所以最優(yōu)動(dòng)作選擇具有最高的Q值。

圖4 雙重決斗Q網(wǎng)絡(luò)模型Fig.4 Double dueling deep Q network model

算法偽代碼如表1所示。

表1 算法偽代碼及流程Table 1 Algorithm pseudo code and flow

3 實(shí)驗(yàn)與驗(yàn)證

3.1 仿真場(chǎng)景與參數(shù)設(shè)置

本文基于湖南省長(zhǎng)沙市時(shí)中路和涼塘路交叉口的真實(shí)場(chǎng)景,在微觀交通仿真軟件SUMO中搭建實(shí)驗(yàn)環(huán)境,如圖5所示。交叉口道路為雙向6車道,道路長(zhǎng)度約500 m,寬度約20 m。沿車輛行駛方向,最左側(cè)車道允許左轉(zhuǎn),中間車道允許直行,最右側(cè)車道允許直行和右轉(zhuǎn)。在未發(fā)生交通沖突的情況下,位于最右側(cè)車道的車輛在紅燈時(shí)允許右轉(zhuǎn)。算法模型通過(guò)使用Python編程語(yǔ)言和深度學(xué)習(xí)框架TensorFlow(Keras)實(shí)現(xiàn),以Nvidia GeForce RTX 3060Ti作為硬件環(huán)境。

圖5 實(shí)驗(yàn)場(chǎng)景Fig.5 Experimental scene

考慮城市交通流的隨機(jī)多樣性,為全面訓(xùn)練D3QN_SD模型,采用WeiBull分布模擬城市現(xiàn)實(shí)高峰和低峰的交通流特征,其概率密度函數(shù)如式(18)所示:

(18)

式中:λ是尺度參數(shù)、a是形狀參數(shù),設(shè)為1,2。車輛從任意方向進(jìn)入交叉口,左轉(zhuǎn)、直行、右轉(zhuǎn)的比例為1∶6∶1。

算法使用CNN和DNN計(jì)算Q值。CNN共3層,內(nèi)核尺寸3×3;DNN共5層,寬度為400。模型采用Adam優(yōu)化器,均方誤差作為損失函數(shù)。仿真和算法參數(shù)具體設(shè)置如表2所示。

表2 仿真和算法參數(shù)設(shè)置Table 2 Setting of simulation and algorithm parameters

3.2 實(shí)驗(yàn)評(píng)估與結(jié)果分析

為驗(yàn)證算法的優(yōu)化效果和魯棒性,實(shí)驗(yàn)分為2部分:1)模擬車流場(chǎng)景下控制效果對(duì)比,采用隨機(jī)種子seed分別生成500,1 500車輛,模擬低流量和高流量場(chǎng)景進(jìn)行測(cè)試;2)真實(shí)車流場(chǎng)景下控制效果對(duì)比,采用時(shí)中路和涼塘路交叉口早高峰車流數(shù)據(jù)進(jìn)行測(cè)試,共991輛車。

對(duì)于所有測(cè)試場(chǎng)景,選取平均交通沖突次數(shù)、平均行車延誤、平均CO2排放作為算法性能的評(píng)價(jià)指標(biāo)。鑒于DRL無(wú)需數(shù)據(jù)標(biāo)簽,在信號(hào)控制問(wèn)題上優(yōu)于有監(jiān)督學(xué)習(xí)方法,為驗(yàn)證所提方法的實(shí)用性和創(chuàng)新性,將本文提出的D3QN_SD算法與現(xiàn)有交通信號(hào)控制方式和其他DRL模型進(jìn)行比較:1)定時(shí)信號(hào)控制(fixed-time signal control,FTSC),根據(jù)Webster法計(jì)算各個(gè)綠燈相位的時(shí)長(zhǎng),采用實(shí)驗(yàn)交叉口的實(shí)際紅綠燈時(shí)長(zhǎng);2)感應(yīng)信號(hào)控制(actuated signal control,ASC),根據(jù)感應(yīng)線圈獲取的車流量數(shù)據(jù)自動(dòng)調(diào)整綠燈時(shí)長(zhǎng),實(shí)驗(yàn)設(shè)置綠燈最小時(shí)長(zhǎng)為15 s,最大時(shí)長(zhǎng)為60 s;3)強(qiáng)化學(xué)習(xí)信號(hào)控制(D3QN),使用與D3QN_SD一樣的算法框架和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),區(qū)別在于優(yōu)化目標(biāo)僅考慮通行效率,即獎(jiǎng)勵(lì)函數(shù)模型使用車輛等待時(shí)間。

圖6是在隨機(jī)交通流條件下算法訓(xùn)練過(guò)程的累積獎(jiǎng)勵(lì)值對(duì)比,D3QN_SD比D3QN的收斂速率更快,表明提獎(jiǎng)勵(lì)函數(shù)模型歸一化的方式統(tǒng)一優(yōu)化目標(biāo)的量綱,使強(qiáng)化學(xué)習(xí)智能體的策略學(xué)習(xí)方向更加明確,加快了學(xué)習(xí)速度,減少計(jì)算成本。圖7~8表示在采用WeiBull分布模擬500,1 500車輛的城市高峰期場(chǎng)景下,各個(gè)信控方法在實(shí)時(shí)交通沖突上的控制效果。可見(jiàn),在D3QN_SD的控制下,交通沖突數(shù)量始終低于另外3種方法,特別是在流量峰值(第6時(shí)間步)和高流量場(chǎng)景,說(shuō)明D3QN_SD能有效減少交通沖突次數(shù),提升道路安全水平。根據(jù)表3,在低流量和高流量場(chǎng)景下,相比于D3QN,D3QN_SD平均沖突次數(shù)減少20.13個(gè)百分點(diǎn)和28.45個(gè)百分點(diǎn)。此外,在效率和環(huán)保的評(píng)估上,D3QN_SD的平均行車延誤減少7.18個(gè)百分點(diǎn)和8.96個(gè)百分點(diǎn),CO2排放量減少3.66個(gè)百分點(diǎn)和3.51個(gè)百分點(diǎn),表明D3QN_SD的控制效果均優(yōu)于D3QN。

表3 交叉口不同流量條件下算法的性能Table 3 Performance of algorithm under different traffic flow conditions at intersection

圖6 收斂速率Fig.6 Convergence rate

圖7 低流量場(chǎng)景下實(shí)時(shí)交通沖突Fig.7 Real-time traffic conflict in low traffic flow scene

圖8 高流量場(chǎng)景下實(shí)時(shí)交通沖突Fig.8 Real-time traffic conflict in high traffic flow scene

圖9 真實(shí)流量場(chǎng)景下實(shí)時(shí)交通沖突Fig.9 Real-time traffic conflict in real traffic flow scene

本文還在真實(shí)車流場(chǎng)景下進(jìn)行實(shí)驗(yàn),車流數(shù)據(jù)如圖5(a)所示,D3QN和D3QN_SD提前在模擬車流中訓(xùn)練200回合。由表3可知,基于DRL的信控方法在平均沖突次數(shù)、行車延誤、CO2排放上效果顯著,均優(yōu)于FTSC和ASC方法,因?yàn)楫?dāng)交通流量增加時(shí),交通流分布具有高度隨機(jī)性,傳統(tǒng)的控制方法難以見(jiàn)效。在真實(shí)車流場(chǎng)景下,相較于D3QN,D3QN_SD的平均沖突次數(shù)減少11.17個(gè)百分點(diǎn),CO2排放減少4.13個(gè)百分點(diǎn),但行車延誤增加了2.99個(gè)百分點(diǎn)。由于真實(shí)早高峰交通流特征和模擬交通流之間存在差別,D3QN_SD在提升效率上無(wú)法始終優(yōu)于D3QN,但能穩(wěn)定改善交通狀況,減少交通沖突次數(shù)。

綜上所述,相較于FTSC、ASC、D3QN算法,D3QN_SD在單交叉口場(chǎng)景下能夠更快的學(xué)習(xí)最優(yōu)信號(hào)控制策略,有效減少交通沖突、行車延誤和CO2排放,提升交叉口交通安全、通行效率與環(huán)境保護(hù)。隨著車流量的增多,D3QN_SD算法的控制效果越好,特別是在高流量條件下。

4 結(jié)論

1)基于多目標(biāo)強(qiáng)化學(xué)習(xí)框架,設(shè)計(jì)以安全為主導(dǎo)的綜合獎(jiǎng)勵(lì)函數(shù),構(gòu)建自適應(yīng)交通信號(hào)控制方法(D3QN_SD);D3QN_SD可基于實(shí)時(shí)交通狀態(tài),選擇最佳交通信號(hào)控制策略,從而減少交通沖突。

2)應(yīng)用定時(shí)信號(hào)控制、感應(yīng)信號(hào)控制、強(qiáng)化學(xué)習(xí)信號(hào)控制方法,與D3QN_SD進(jìn)行比較,結(jié)果顯示D3QN_SD在減少交通沖突、交通擁堵與尾氣排放方面均表現(xiàn)較優(yōu)。

3)D3QN_SD在不同流量場(chǎng)景下可穩(wěn)定學(xué)習(xí)最優(yōu)信號(hào)控制策略,交通沖突的優(yōu)化效果隨著交通流量的增加而提升,適用于城市關(guān)鍵交叉口節(jié)點(diǎn),有助于改善道路安全。

猜你喜歡
動(dòng)作優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
下一個(gè)動(dòng)作
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
動(dòng)作描寫要具體
畫動(dòng)作
讓動(dòng)作“活”起來(lái)
動(dòng)作描寫不可少
主站蜘蛛池模板: 91在线播放免费不卡无毒| 久久不卡国产精品无码| 国产无码在线调教| 久久黄色毛片| 亚洲成网777777国产精品| 少妇极品熟妇人妻专区视频| 亚洲第一国产综合| 日韩欧美高清视频| 98超碰在线观看| 久久久久国产一级毛片高清板| 91视频精品| 丁香六月综合网| 国产噜噜噜视频在线观看| 亚洲经典在线中文字幕| 国产主播福利在线观看| 91av成人日本不卡三区| 黄色网在线| 国产美女在线观看| 国产美女丝袜高潮| 永久毛片在线播| 中文字幕在线永久在线视频2020| 亚洲日韩国产精品无码专区| 亚洲成人黄色网址| 波多野结衣在线一区二区| 97一区二区在线播放| 国产欧美日韩在线在线不卡视频| 一级毛片高清| 日韩精品成人在线| 色噜噜狠狠狠综合曰曰曰| 美美女高清毛片视频免费观看| 激情无码视频在线看| 中文字幕av无码不卡免费| 亚洲嫩模喷白浆| 国产又黄又硬又粗| 亚洲天堂网2014| 亚洲国产中文精品va在线播放| 色哟哟国产成人精品| 亚洲国产精品一区二区高清无码久久| 欧美怡红院视频一区二区三区| 亚洲成a人片7777| 国产又大又粗又猛又爽的视频| 波多野结衣一区二区三区四区视频| 国产激情无码一区二区三区免费| 亚洲天堂视频网站| 国产精品男人的天堂| 五月婷婷导航| www.youjizz.com久久| 久久久久亚洲精品成人网| 国产av色站网站| 久久综合成人| 久久视精品| 亚洲swag精品自拍一区| 九九热这里只有国产精品| 免费看a毛片| 58av国产精品| 国产拍揄自揄精品视频网站| 亚洲日韩久久综合中文字幕| 台湾AV国片精品女同性| 视频二区亚洲精品| 色九九视频| 精品色综合| 久久永久精品免费视频| 亚洲香蕉在线| 日本妇乱子伦视频| 国产成人精品日本亚洲| 99re这里只有国产中文精品国产精品 | 日本成人福利视频| 久久国产高清视频| 亚洲欧美在线综合一区二区三区| 99久久亚洲精品影院| 国产成人凹凸视频在线| 欧美另类视频一区二区三区| 99视频在线看| 国产一级毛片yw| 午夜精品久久久久久久无码软件| 国产伦精品一区二区三区视频优播| 国模极品一区二区三区| 亚洲日韩精品无码专区97| 久久精品一品道久久精品| 欧美色视频在线| 亚洲无码熟妇人妻AV在线| 亚洲一区二区视频在线观看|