沈國(guó)慶
沈陽(yáng)理工大學(xué) 遼寧 沈陽(yáng) 110000
(1)交叉口和路網(wǎng)模型。我們考慮使用的由兩車道組成的交叉口模型,交叉口的車輛在交通信號(hào)的控制下行駛:綠燈表示車輛可以穿過(guò)交叉口;紅燈表示車輛必須停車。
路網(wǎng)主要由多個(gè)交叉口和連接交叉口的道路組成,路網(wǎng)中所有的道路方向都不是規(guī)則的正北正南,道路也不規(guī)定為固定的長(zhǎng)短,這樣的設(shè)定更貼合實(shí)際的路網(wǎng)。在當(dāng)前的信號(hào)時(shí)長(zhǎng)結(jié)束后,通過(guò)調(diào)整路網(wǎng)中所有交叉口下一信號(hào)時(shí)長(zhǎng)的相位,處理不同的交通狀況。
(2)將路網(wǎng)狀態(tài)數(shù)據(jù)規(guī)范化。一般的CNN(卷積神經(jīng)網(wǎng)絡(luò))應(yīng)用于圖像處理中[1],圖像是二維的空間結(jié)構(gòu),感受也可以在空間維度上進(jìn)行卷積來(lái)獲取特征。而本文提出的3D CNN在對(duì)路網(wǎng)中的車輛數(shù)據(jù)進(jìn)行預(yù)處理時(shí)需要提取出路網(wǎng)狀態(tài)的時(shí)間和空間特征的能力,由于路網(wǎng)中的車輛數(shù)據(jù)不同于圖像這種本身就自帶自然的時(shí)間和空間結(jié)構(gòu),因此需要將路網(wǎng)狀態(tài)數(shù)據(jù)規(guī)范化,使得不同拓?fù)浣Y(jié)構(gòu)的節(jié)點(diǎn)可以獲取相同大小的感受野,為之后輸入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算提供了保障。我們?cè)诼肪W(wǎng)中建立的感受野相互之間都有重疊的部分,這樣既能保證了相鄰道路之間數(shù)據(jù)的相關(guān)性,又保證了整體道路感知的全局性。
(3)構(gòu)建3DCNN模型。本課題雖采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)路網(wǎng)進(jìn)行特征提取,但基本CNN網(wǎng)絡(luò)的輸出無(wú)法滿足本課題路網(wǎng)中多個(gè)交叉點(diǎn)同時(shí)決策和提取時(shí)間特征的要求,所以通過(guò)閱讀文獻(xiàn)與學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域的新技術(shù),3DCNN模型[2]的初步設(shè)計(jì)如下:已知路網(wǎng)中有80個(gè)交叉口,有51個(gè)交通燈。輸入路網(wǎng)的三維車輛密度矩陣,先經(jīng)過(guò)三層卷積層后將第三層平均分成51份后進(jìn)行扁平化處理,再經(jīng)過(guò)一層全連接層后輸出102個(gè)Q值,每個(gè)交叉口的交通燈對(duì)應(yīng)兩個(gè)動(dòng)作值0或1,選擇Q值較大的動(dòng)作值,完成對(duì)相應(yīng)交叉口的動(dòng)作決策。
(4)采用深度強(qiáng)化學(xué)習(xí)算法模型。在本課題的算法中,將控制問(wèn)題建模為強(qiáng)化學(xué)習(xí)問(wèn)題,如果把由交通信號(hào)控制系統(tǒng)當(dāng)成一個(gè)智能體(Agent),將與交通信號(hào)所影響的路網(wǎng)和車輛當(dāng)成“環(huán)境”,通過(guò)如下方式就可以構(gòu)造深度強(qiáng)化學(xué)習(xí)交通信號(hào)控制系統(tǒng)進(jìn)行配時(shí)優(yōu)化。首先從環(huán)境里獲取觀測(cè)狀態(tài)(例如:路網(wǎng)中車輛密度),傳遞給智能體,智能體中采用的深度強(qiáng)化學(xué)習(xí)算法選擇動(dòng)作來(lái)執(zhí)行(例如:當(dāng)前相位保持綠燈或者切換成紅燈),并對(duì)執(zhí)行效果進(jìn)行回饋(例如:采用車輛平均行駛時(shí)長(zhǎng)作為回報(bào)函數(shù)),系統(tǒng)根據(jù)回報(bào)結(jié)果,調(diào)整系統(tǒng)的參數(shù)。這樣就形成一個(gè)循環(huán)的過(guò)程,就能實(shí)現(xiàn)不斷地學(xué)習(xí)與改進(jìn)。
通過(guò)對(duì)車輛滯留時(shí)間、路網(wǎng)車輛數(shù)量的仿真,將我們提出的基于3D卷積深度強(qiáng)化學(xué)習(xí)的交通燈配時(shí)優(yōu)化的方法與基于2D卷積的深度強(qiáng)化學(xué)習(xí)的交通燈配時(shí)優(yōu)化的方法進(jìn)行比較,分析本文提出的表現(xiàn)。
首先,我們對(duì)通過(guò)仿真器實(shí)驗(yàn)得出的結(jié)果進(jìn)行了驗(yàn)證,證明我們的智能體確實(shí)學(xué)到了有效地減少車輛滯留時(shí)間、減少路網(wǎng)中車輛數(shù)量并緩解交通壓力的良好行動(dòng)策略(即交通信號(hào)控制策略),并且我們的算法在做出控制決策時(shí)是穩(wěn)定的,即不會(huì)使結(jié)果數(shù)據(jù)在好的和壞的行動(dòng)策略之間搖擺,甚至轉(zhuǎn)向不良行為政策。
本次實(shí)驗(yàn)是在不同流量下進(jìn)行的結(jié)果對(duì)比,在80個(gè)結(jié)點(diǎn)的路網(wǎng)以及表1中的3個(gè)流量等級(jí)下,對(duì)于本文提出方法的結(jié)果進(jìn)行分析,一級(jí)流量下的路網(wǎng)擁擠度較低,發(fā)現(xiàn)在擁擠度較低的路網(wǎng)中本文提出的方法的車輛平均滯留時(shí)間比基于2DCNN減少了0.3%。在路網(wǎng)車輛數(shù)量上比2DCNN減少了11.6%,從中我們發(fā)現(xiàn)在路網(wǎng)車輛用極度較低的情況下,本文提出的方法在路網(wǎng)車輛數(shù)量上前期展現(xiàn)出了巨大的優(yōu)勢(shì)。雖然隨著路網(wǎng)車輛擁擠度逐漸上升,本文提出的方法的效果有所下降,但是,還是保有明顯的優(yōu)勢(shì)。
本文采用深度學(xué)習(xí)提取城市路網(wǎng)空間和時(shí)間上的特征,通過(guò)與強(qiáng)化學(xué)習(xí)相結(jié)合,一同實(shí)現(xiàn)對(duì)城市路網(wǎng)交叉口交通燈的控制決策。通過(guò)引入聚類對(duì)路網(wǎng)進(jìn)行預(yù)處理,既能實(shí)現(xiàn)對(duì)感受野的劃分保證感受野之間存在聯(lián)系,又能實(shí)現(xiàn)在聚類的基礎(chǔ)上對(duì)路網(wǎng)規(guī)范化實(shí)現(xiàn)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的輸入。因?yàn)?D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在空間和時(shí)間上信息提取特征的優(yōu)越性能,我們利用3D卷積神經(jīng)網(wǎng)絡(luò)提取路網(wǎng)擁擠度特征和時(shí)間序列特征并作出動(dòng)作決策。我們通過(guò)實(shí)驗(yàn)結(jié)果可以看到,我們提出的方法對(duì)比前人提出基于2DCNN的控制策略有所提升。