999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制

2020-03-05 04:22:28陳樹德彭佳漢高旭賴曉晨
現(xiàn)代計(jì)算機(jī) 2020年3期
關(guān)鍵詞:環(huán)境方法

陳樹德,彭佳漢,高旭,賴曉晨

(大連理工大學(xué)軟件學(xué)院,大連116000)

0 引言

交通問題,是一個(gè)復(fù)雜時(shí)變且隨機(jī)的動(dòng)力學(xué)問題[1,2]。隨著城市不斷發(fā)展和交通車輛數(shù)目的不斷上升,出現(xiàn)了諸如交通擁堵現(xiàn)象頻繁,交通事故率上升等問題[3]。這直接或間接導(dǎo)致了能源和資源的浪費(fèi);以及諸如空氣污染和長期的噪音問題[4,5]。因此更加有效的通調(diào)系統(tǒng)顯得尤為重要。

目前,這些問題的解決方案一般是通過設(shè)計(jì)自動(dòng)駕駛車輛[6]或者搭建智能交通控制系統(tǒng)[7],其中交通信號(hào)燈控制(TLC[8])就是一個(gè)被廣泛探究的智能交通控制系統(tǒng)方向。在傳統(tǒng)的信號(hào)控制系統(tǒng)中,如SCATS、SCOOT等,它們往往在線下通過算法計(jì)算出固定的信號(hào)燈配比方案,但這顯然無法應(yīng)對交通事件的隨機(jī)性問題。

同時(shí),對比同樣結(jié)合了深度強(qiáng)化學(xué)習(xí)的Schutera Mark等人的方法[9],他們的方法雖然可以有效且實(shí)時(shí)地優(yōu)化單個(gè)路口的信號(hào)燈配比,但卻沒有考慮一個(gè)交通路網(wǎng)中多個(gè)路口間的強(qiáng)耦合性,對于路網(wǎng)交通狀態(tài)整體惡化的情況無法做出有效的應(yīng)對。因此,本文針對多個(gè)路口間的強(qiáng)耦合性,提出了一個(gè)基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈控制系統(tǒng)。我們的方法先是通過長短期記憶模型(LSTM-RNN[10])預(yù)測未來的交通信息,進(jìn)而輔助Deep Deterministic Policy Gradient(DDPG[11])制定合理的信號(hào)燈時(shí)長配比。本文提出的方法,相對于過往方法具有以下的優(yōu)勢:(1)實(shí)時(shí)性與靈活性,相對于線下指定好的信號(hào)燈配比方案,我們的方法具有合理應(yīng)對突發(fā)狀況的能力。(2)充分利用了路口間的強(qiáng)耦合性,而不僅僅局限與單一路口的決策環(huán)境。(3)看得更遠(yuǎn)的決策能力,通過與預(yù)測網(wǎng)絡(luò)的協(xié)同訓(xùn)練,深度強(qiáng)化神經(jīng)網(wǎng)絡(luò)將獲得利用推理結(jié)果解決問題的能力。

1 理論背景

1.1 LSTM-RNN

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型是深度神經(jīng)網(wǎng)絡(luò)中的一個(gè)重要分支,其設(shè)計(jì)來目的主要是用于處理序列信息。針對于我們的問題而言,交通狀況信息是具有明顯時(shí)序關(guān)系的信息,因此使用該種網(wǎng)絡(luò)進(jìn)行處理將更具優(yōu)勢。同時(shí),利用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的預(yù)測已經(jīng)被證明具有有效性。長短期記憶模型,同樣是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它通過長短時(shí)記憶單元替換普通神經(jīng)元,從而解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)無法有效利用及保留歷史信息的問題,適于處理和預(yù)測間隔和延遲相對較長的重要事件。在交通問題中,一次事故往往能影響未來數(shù)小時(shí)的路況。LTM無疑能更加有效地處理這類問題。

1.2 DDPG神經(jīng)網(wǎng)絡(luò)

DDPG是將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與DPG(Determinis?tic Policy Gradient[12])的策略學(xué)習(xí)方法融合。相對于DPG的核心改進(jìn)是:采用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)和Q函數(shù)的模擬,即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò);然后使用深度學(xué)習(xí)的方法來訓(xùn)練上述神經(jīng)網(wǎng)絡(luò)。相對于DQN[13]方法,它擁有連續(xù)的決策空間,這對于我們的問題來說是至關(guān)重要的,信號(hào)燈配比是處于連續(xù)空間的問題。

其中策略函數(shù)定義為At=μ(St),即將狀態(tài)S映射為決策A的函數(shù)。而Q函數(shù)定義為Vt=Q(St,At),則是將狀態(tài)S和對應(yīng)決策A映射為價(jià)值V的函數(shù)。兩者對應(yīng)的神經(jīng)網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò)則是基于深度學(xué)習(xí)對兩函數(shù)進(jìn)行擬合。同時(shí),該方法也吸取了DDQN的優(yōu)越技巧,通過設(shè)定在線網(wǎng)絡(luò)(實(shí)際梯度下降操作作用的網(wǎng)絡(luò))和線下網(wǎng)絡(luò)(實(shí)際做出決策與交互的網(wǎng)絡(luò))來解決學(xué)習(xí)過程不穩(wěn)定的問題。

2 方法設(shè)計(jì)

2.1 低因素微觀層次的交通仿真軟件

我們通過尋找開源的交通數(shù)據(jù)集為仿真環(huán)境提供基礎(chǔ)設(shè)定,由此提升仿真的真實(shí)性與合理性。這些基礎(chǔ)設(shè)計(jì)包括:(1)地圖信息,基于數(shù)據(jù)集所在的具體地理位置,在數(shù)值上1:1還原其道路長度,路口分支,車道數(shù)目等信息。(2)車流信息,根據(jù)數(shù)據(jù)集中每一時(shí)刻的車輛位置信息(經(jīng)緯度),所處道路信息和車速信息,還原這個(gè)區(qū)域在一日之中的車流概況。即根據(jù)每條道路的交通工具數(shù)量計(jì)算每一時(shí)刻每一條道路的交通工具數(shù)量權(quán)重,進(jìn)而將每一輛車進(jìn)入地圖和路線選擇視為一種概率事件,以此控制仿真環(huán)境中的車輛產(chǎn)生和路線規(guī)劃。從而令得仿真環(huán)境更加接近現(xiàn)實(shí)的交通路況。

2.2 基于循環(huán)LSTM神經(jīng)網(wǎng)絡(luò)的路網(wǎng)擁擠度預(yù)測

在實(shí)際交通環(huán)境中,先前發(fā)生的某次突發(fā)事件或某個(gè)交通狀態(tài)可能對一段時(shí)間后的交通狀態(tài)存在影響,然而普通的循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層并不能實(shí)現(xiàn)對某個(gè)狀態(tài)進(jìn)行有選擇的長時(shí)間記憶的功能。因此,我們選用LSTM單元來作為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn),從而克服上述的問題。具體網(wǎng)絡(luò)結(jié)構(gòu)如下:網(wǎng)絡(luò)的輸入為所有道路雙向車道的擁擠度指標(biāo)組成的一維向量。其中,基于道路的車流密度和車輛平均速度信息設(shè)計(jì)交通擁擠度評(píng)價(jià)指標(biāo)(TF):

式中,CVN為道路車流密度,MVN為道路的歷史最大車流密度,CTV為道路車輛平均速度,MTV為道路的歷史最大車輛平均速度,α為權(quán)重參數(shù)。第一項(xiàng)綜合考慮了當(dāng)前道路的飽和度以及占有率,第二項(xiàng)考慮交通流的運(yùn)行速度特征,并借助權(quán)值調(diào)節(jié)它們對指標(biāo)的綜合影響。此指標(biāo)具有較強(qiáng)的描述性和實(shí)用性。

2.3 基于DDPG神經(jīng)網(wǎng)絡(luò)的信號(hào)燈優(yōu)化

本文中,DDPG網(wǎng)絡(luò)分為決策網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)(Q網(wǎng)絡(luò)),這兩個(gè)網(wǎng)絡(luò)每個(gè)又分線上和線下。在線網(wǎng)絡(luò)就是實(shí)際使用數(shù)據(jù)進(jìn)行訓(xùn)練的網(wǎng)絡(luò)。其中,進(jìn)行評(píng)價(jià)網(wǎng)絡(luò)訓(xùn)練的價(jià)值指標(biāo)r的衡量,在本文設(shè)定為車輛平均通過時(shí)間的相反數(shù)。

其中,Tacc為某車從進(jìn)入虛擬仿真環(huán)境開始到離開環(huán)境為止的時(shí)間,Nout為某個(gè)時(shí)段內(nèi)駛出環(huán)境的車輛數(shù)。該式子的意思即,所有輛車從進(jìn)入虛擬仿真環(huán)境開始到離開環(huán)境為止的時(shí)間,在決策間隔(我們設(shè)定DDPG每15秒進(jìn)行一次決策)中的均值。而獎(jiǎng)勵(lì)值則為該衡量的變動(dòng)值,即一旦平均通過時(shí)間能夠減少,那么減少的部分就是獎(jiǎng)勵(lì)值。

而對于線下的網(wǎng)絡(luò)而言,則是每隔若干次線上網(wǎng)絡(luò)訓(xùn)練,都將其全部的參數(shù)在數(shù)值上向在線網(wǎng)絡(luò)進(jìn)行平均滑動(dòng)操作。并且,實(shí)際做出決策和產(chǎn)生訓(xùn)練數(shù)據(jù)都是使用線下網(wǎng)絡(luò)。因而線下網(wǎng)絡(luò)與線上網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)一致。具體網(wǎng)絡(luò)結(jié)構(gòu)如下:

評(píng)價(jià)網(wǎng)絡(luò)輸入是狀態(tài)和動(dòng)作的組合,即全部方向道路當(dāng)前和未來的路況信息組成的一維向量,拼接上信號(hào)燈狀態(tài)數(shù)組成的一維向量。本文中,我們的決策形式是給所有路口的所有信號(hào)燈狀態(tài)分配時(shí)長,而不是決定信號(hào)燈當(dāng)前狀態(tài)的持續(xù)時(shí)長。其中動(dòng)作空間的取值是0-1,映射為20秒至60秒的紅綠燈方案時(shí)長。

2.4 整體架構(gòu)

系統(tǒng)整體架構(gòu)如圖1所示。仿真環(huán)境不斷產(chǎn)生當(dāng)前路況數(shù)據(jù)交付Lstm預(yù)測網(wǎng)絡(luò);后將得到的預(yù)測路況和當(dāng)前路口以及獎(jiǎng)勵(lì)信息傳入目標(biāo)(線下)決策網(wǎng)絡(luò);目標(biāo)決策網(wǎng)絡(luò)立即做出決策并回傳仿真環(huán)境,同時(shí)將本次決策記錄以狀態(tài)轉(zhuǎn)換對(狀態(tài)轉(zhuǎn)換對由前狀態(tài),決策,后狀態(tài),獎(jiǎng)勵(lì)組成)的形式在記憶緩存中;在線網(wǎng)絡(luò)則隨機(jī)地從記憶緩存中抽取數(shù)據(jù)進(jìn)行學(xué)習(xí);目標(biāo)網(wǎng)絡(luò)則在在線網(wǎng)絡(luò)若干次訓(xùn)練后進(jìn)行一次參數(shù)軟更新。

圖1整體系統(tǒng)結(jié)構(gòu)

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文中,我們總共選用了兩個(gè)數(shù)據(jù)為仿真環(huán)境提供基礎(chǔ)設(shè)定,分別是深圳市出租車數(shù)據(jù)集和上海市出租車數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)集都包含了車輛至少一天的GPS定位信息、車速信息。

圖2為深圳市出租車數(shù)據(jù)集在進(jìn)行預(yù)處理后的可視化呈現(xiàn),其中顏色代表著該道路在當(dāng)前時(shí)刻的擁擠度(TF),越紅則擁擠度越高。

圖2深圳出租車數(shù)據(jù)集可視化

3.2 實(shí)驗(yàn)設(shè)計(jì)

以分鐘為尺度計(jì)算出一日之中每條道路的擁擠度指標(biāo)(TF)。并以此作為指導(dǎo)仿真環(huán)境車輛產(chǎn)生和路徑規(guī)劃的依據(jù)。同時(shí),對預(yù)測網(wǎng)絡(luò)效果進(jìn)行驗(yàn)證。

圖3中橙點(diǎn)為其中一條路一天1440分鐘的擁擠度指標(biāo)的實(shí)際數(shù)據(jù),藍(lán)點(diǎn)是該條路預(yù)測出的擁擠度指標(biāo)??梢钥闯觯A(yù)測網(wǎng)絡(luò)能較為準(zhǔn)確的預(yù)測未來的路況信息。圖4中為仿真環(huán)境產(chǎn)生的數(shù)據(jù),是全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值??梢钥闯龇抡娉绦蚓哂信c真實(shí)數(shù)據(jù)類似的車流波動(dòng),且一天的首尾擁擠度值一致,說明其具有較為可靠的仿真性能。

圖3單條路擁擠度的預(yù)測結(jié)果對比圖

圖4仿真環(huán)境全道路擁擠度指標(biāo)均值

3.3 實(shí)驗(yàn)結(jié)果

如圖5所示,藍(lán)色點(diǎn)為原環(huán)境的全部道路擁擠度指標(biāo)在一天之中每隔15秒的均值,而橙色點(diǎn)則是在運(yùn)用我們的系統(tǒng)進(jìn)行優(yōu)化后的對應(yīng)數(shù)據(jù)。與原環(huán)境對比,由DDPG神經(jīng)網(wǎng)絡(luò)調(diào)整后的交通網(wǎng)絡(luò),整體的交通擁擠度有了明顯的下降。可以看到,在一天之中的早高峰被直接削除,同時(shí)推遲了晚高峰出現(xiàn)的時(shí)間點(diǎn)和持續(xù)時(shí)間。同時(shí),所有時(shí)間段上,交通擁擠度(TF)都低于原環(huán)境的交通擁擠度。而對于行車個(gè)體而言,他們的平均通過時(shí)間有了明顯的減少。其中,圖上兩處數(shù)據(jù)斷層是原數(shù)據(jù)集數(shù)據(jù)項(xiàng)缺失導(dǎo)致的。

圖5應(yīng)用優(yōu)化方案前后全道路擁擠度指標(biāo)均值對比圖

3.4 優(yōu)化方法橫向?qū)Ρ?/h3>

SCATS方法:(悉尼自適應(yīng)交通控制系統(tǒng))一種實(shí)時(shí)方案選擇控制系統(tǒng),信號(hào)周期和綠信比的實(shí)時(shí)選擇是以子系統(tǒng)的整體需要為出發(fā)點(diǎn),即根據(jù)子系統(tǒng)內(nèi)的關(guān)鍵交叉口的需要確定共用周期時(shí)長。交叉口的相應(yīng)綠燈時(shí)間,按照各相位飽和度相等或接近的原則,確定每一相位綠燈占信號(hào)周期的百分比。隨著信號(hào)周期的調(diào)整,各相位綠燈時(shí)間也隨之變化。本實(shí)驗(yàn)利用深圳市出租車數(shù)據(jù)集實(shí)現(xiàn)SCATS方法,并將該方法調(diào)整后的數(shù)據(jù)與DDPG神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對比。

TRANSYT方法:該系統(tǒng)是一種脫機(jī)配時(shí)優(yōu)化的定時(shí)控制系統(tǒng),全稱是(Traffic Network Study Tool)“交通網(wǎng)絡(luò)研究工具”,是定時(shí)式脫機(jī)操作交通信號(hào)控制系統(tǒng),本文利用深圳市出租車數(shù)據(jù)集實(shí)現(xiàn)TRANSYT方法,將實(shí)驗(yàn)結(jié)果與DDPG神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果進(jìn)行對比。

如圖6所示,藍(lán)色點(diǎn)為原環(huán)境,青色點(diǎn)為我們的方法,紅色點(diǎn)為SCATS方法,綠色點(diǎn)為TRANSYT方法。在此圖中,SCATS方法的散點(diǎn)圖出現(xiàn)明顯的斷層,且在斷層出擁擠度指標(biāo)明顯下降,這是由于數(shù)據(jù)集在那兩個(gè)斷層處數(shù)據(jù)缺失,又由于該優(yōu)化方法的特性,導(dǎo)致在端點(diǎn)道路(處于仿真環(huán)境外圍的出口入口道路)的擁擠度會(huì)突然下降。但在后續(xù)數(shù)據(jù)的證明中,端點(diǎn)部分的擁擠度并不能給整個(gè)路網(wǎng)狀況帶來改善。可以注意到的是,在數(shù)據(jù)正常的前段中,SCATS在擁擠度指標(biāo)方面是最為差勁的,而TRANSYT方法在全程中都與我們的方法持平。這樣印證了,僅僅考慮單個(gè)路口的信息作出決策,而不去利用路口之間的強(qiáng)耦合性的話,決策效果將會(huì)大打折扣。

圖6各方法全道路擁擠度指標(biāo)均值

4 結(jié)語

深度學(xué)習(xí)技術(shù)是時(shí)下與未來各領(lǐng)域的研究熱點(diǎn)。然而在交通領(lǐng)域中與人工智能結(jié)合的實(shí)踐尚為少數(shù)。本文基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí),構(gòu)建出了一個(gè)行之有效的信號(hào)燈控制系統(tǒng),驗(yàn)證了人工智能與交通領(lǐng)域結(jié)合的有效性,并討論了利用多路口強(qiáng)耦合性的優(yōu)越性。顯而易見的是,我們的工作存在很多可以改善的地方,例如更加全面的交通仿真,例如更加優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和更加全面的實(shí)驗(yàn)等。但是,可以窺見的是,人工智能或深度學(xué)習(xí)與交通領(lǐng)域的結(jié)合是具有巨大潛力的組合。我們應(yīng)當(dāng)進(jìn)一步加強(qiáng)智能交通調(diào)控的研究,令其理論更加地成熟,甚至最終成為現(xiàn)實(shí)中交通管理的一部分。

猜你喜歡
環(huán)境方法
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
不能改變環(huán)境,那就改變心境
學(xué)習(xí)方法
環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲 欧美 偷自乱 图片| 国产综合在线观看视频| 91综合色区亚洲熟妇p| 手机永久AV在线播放| 真实国产乱子伦高清| 99久久国产综合精品2020| 另类重口100页在线播放| 日本一区二区不卡视频| 国产精品美女免费视频大全| 青青极品在线| 国产簧片免费在线播放| 毛片在线看网站| 黄色网在线| 国产乱子伦视频在线播放| 亚洲成AV人手机在线观看网站| 欧美自慰一级看片免费| 红杏AV在线无码| 久久性妇女精品免费| 久久精品只有这里有| 国产午夜不卡| 亚洲男人的天堂久久香蕉网| 亚洲午夜综合网| 99热这里只有精品在线播放| 国产xxxxx免费视频| 国产呦精品一区二区三区网站| 91娇喘视频| 国产最新无码专区在线| 国内毛片视频| 日韩大片免费观看视频播放| 亚洲国产午夜精华无码福利| 国产日本欧美在线观看| 成人国产精品视频频| 福利片91| 欧美yw精品日本国产精品| 日韩高清欧美| 国产毛片网站| 啪啪啪亚洲无码| 国产一级无码不卡视频| 2021国产精品自产拍在线| 国产一区二区人大臿蕉香蕉| 一本一道波多野结衣一区二区 | 亚洲经典在线中文字幕| 色偷偷一区二区三区| 欧美色亚洲| 国产精品无码AV片在线观看播放| 亚洲浓毛av| 久久久受www免费人成| 狼友视频一区二区三区| 国产亚洲精品在天天在线麻豆| 99热这里只有精品免费| h网站在线播放| 国产第二十一页| 亚洲区视频在线观看| 国产美女自慰在线观看| 久久婷婷六月| 97成人在线视频| 72种姿势欧美久久久大黄蕉| 国产精品分类视频分类一区| a级毛片网| 久久国产V一级毛多内射| 伊人无码视屏| 国产午夜精品鲁丝片| 国产色婷婷| 美女一区二区在线观看| 国产91精品最新在线播放| 欧美日韩另类在线| 国产无吗一区二区三区在线欢| 日韩欧美网址| 久久人体视频| 激情無極限的亚洲一区免费| 精品久久人人爽人人玩人人妻| 国产乱子伦一区二区=| 一级片一区| 狠狠色香婷婷久久亚洲精品| 中文字幕色站| 一级毛片在线播放免费观看| 黄色免费在线网址| av手机版在线播放| 国产在线98福利播放视频免费| 精品一区二区三区视频免费观看| 亚洲国产中文综合专区在| 亚洲色偷偷偷鲁综合|