999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)下城市道路交通信號(hào)控制研究

2021-03-05 01:28:44陳圣穎
黑龍江交通科技 2021年2期
關(guān)鍵詞:模型

陳圣穎

(深圳市金溢科技股份有限公司,廣東 深圳 518000)

0 引 言

在城市交通的自動(dòng)管理程序中,交通信號(hào)起著中樞神經(jīng)的作用,可以在時(shí)間上調(diào)度和分配發(fā)生沖突的交通流。但是,往往因?yàn)榻煌ㄐ盘?hào)控制的方案缺乏合理性,經(jīng)常造成交叉路口和多條道路發(fā)生擁堵,所以交通信號(hào)控制方案的科學(xué)合理地制定,是避免交通擁擠、堵塞的關(guān)鍵措施。而基于城市道路交通流的不確定性、時(shí)變性以及非線性,具備一定的建模難度,難以通過數(shù)學(xué)模型的精確性對(duì)交通信號(hào)控制方案進(jìn)行優(yōu)化,從而需要一個(gè)應(yīng)對(duì)以上交通流特點(diǎn)的科學(xué)有效控制措施,而強(qiáng)化學(xué)習(xí)的智能體優(yōu)勢在與環(huán)境的交互中學(xué)習(xí)以及自適應(yīng)構(gòu)成優(yōu)良、有效地控制手段,本文將從以下幾個(gè)方面進(jìn)行研究。

1 強(qiáng)化學(xué)習(xí)

1.1 公式算法

強(qiáng)化學(xué)習(xí)以一類算法的形式存在,借助從起始的完整的隨機(jī)操作,不間斷的探索、嘗試,從每一次的錯(cuò)誤中總結(jié)經(jīng)驗(yàn),找到可以遵循的內(nèi)部規(guī)律,最后找到實(shí)現(xiàn)目標(biāo)地最佳途徑。該學(xué)習(xí)方法的核心蘊(yùn)涵是引導(dǎo)智能體在環(huán)境里不斷學(xué)習(xí)。強(qiáng)化學(xué)習(xí)由以下四個(gè)方面所構(gòu)成:state(環(huán)境變量)、Agent(智能體)、action(策略行為)和reward(獎(jiǎng)懲)。強(qiáng)化學(xué)習(xí)的基本過程是借助每個(gè)時(shí)間步(timestep)把一個(gè)行為(action)生成,然后與環(huán)境發(fā)生作用,達(dá)到最大化預(yù)期積累的目的。見圖1。

圖1 強(qiáng)化學(xué)習(xí)框架

強(qiáng)化學(xué)習(xí)各個(gè)時(shí)間步的累積獎(jiǎng)勵(lì)用下面的公式進(jìn)行表示:

(1)

式中:G表示未來T個(gè)時(shí)間步針對(duì)第t個(gè)時(shí)間步的獎(jiǎng)勵(lì)積累值,各個(gè)時(shí)間步的獎(jiǎng)勵(lì)值設(shè)定為R。從時(shí)間軸的角度,容易獲得的是近處的獎(jiǎng)勵(lì)值,難以獲得的是遠(yuǎn)處的獎(jiǎng)勵(lì)值,由此可以確定模型的訓(xùn)練目的,最大限度地在時(shí)間軸上,確保遠(yuǎn)處的獎(jiǎng)勵(lì)值最大化。毋庸置疑,模型設(shè)計(jì)不能只是短期利益,必須著眼積累長期利益。要想實(shí)現(xiàn)價(jià)值目的或長遠(yuǎn)利益的目標(biāo),給每個(gè)時(shí)間步的獎(jiǎng)勵(lì)增加人權(quán)重是模型公式的變化,以此對(duì)這個(gè)時(shí)間步獎(jiǎng)勵(lì)難度的表示,貌似某種注意力的體系。所以新形成的累積獎(jiǎng)勵(lì)公式為

(2)

式中:r∈(0,1)。不難看出,時(shí)間步越遠(yuǎn),r被乘的就越多,表示獲得該時(shí)間步獎(jiǎng)勵(lì)的難度。

1.2 模型的分類

強(qiáng)化學(xué)習(xí)的模型分為沒有任何的先驗(yàn)的外觀或者形狀的模型(model-free)和人為的外觀模型(model-based)。前者的模型類型是指特定環(huán)境中,模型會(huì)被輸入一定的變量,而模型會(huì)根據(jù)輸入的變量進(jìn)行策略的動(dòng)作反應(yīng);而后者的模型類型則是對(duì)環(huán)境的理解,進(jìn)行有效預(yù)期環(huán)境中特定條件下將來狀態(tài)。上面的model即為借助模型表示環(huán)境以及對(duì)環(huán)境的模擬。

1.3 更新方式

強(qiáng)化學(xué)習(xí)的更新方式分為回合更新和單步更新。例如,針對(duì)計(jì)算機(jī)里的游戲場景,也是開始和結(jié)束構(gòu)成游戲的回合。回合更新的形式是在游戲回合開始后,智能體必須等待回合結(jié)束再對(duì)模型進(jìn)行更新;而單步更新則是體現(xiàn)在模型更新在游戲操作的每一步都可以進(jìn)行。

1.4 Q-learning算法

該算法類屬于價(jià)值的強(qiáng)化學(xué)習(xí)算法,即預(yù)計(jì)采取的行為在某一時(shí)間步的獎(jiǎng)勵(lì)值利用Q-table來記錄和表示。該算法是以確定獎(jiǎng)勵(lì)和懲罰的具體標(biāo)準(zhǔn),例如哪些是該獲得正獎(jiǎng)勵(lì)的正向行為,哪些是該受到懲罰的負(fù)向行為,這些都是通過Q-learning進(jìn)行決策。如表1所示,該系統(tǒng)可以設(shè)定為兩種行為,用a1和a2來表示,S1表示為狀態(tài)1,S2表示狀態(tài)2。在S1狀態(tài)時(shí),在獲得獎(jiǎng)勵(lì)值方面a1比a2要高,由此模型利用a1可以達(dá)到狀態(tài)S2。

表1 Q-table示例

在S2狀態(tài)時(shí),在獎(jiǎng)勵(lì)值獲得方面采取a2比采取al要更高,所以模型要利用a2,然后達(dá)到下一個(gè)狀態(tài)。Q-learning以這樣的行為準(zhǔn)則對(duì)每個(gè)時(shí)間步的行為作出選擇,并對(duì)環(huán)境形成作用力。當(dāng)狀態(tài)達(dá)到S2的時(shí)候,該模式便會(huì)更新,這就是該模式的學(xué)習(xí)程序,基于Q(S2,a1)小于Q(S2,a2),把狀態(tài)2(S2)能得到的最大獎(jiǎng)勵(lì)值Q(S2,a2)與衰減系數(shù)r相乘,另外與S1到S2的獎(jiǎng)勵(lì)值R進(jìn)行相加,同時(shí),學(xué)習(xí)效率a與作為S1到S2的真實(shí)獎(jiǎng)勵(lì)值的差值相乘,最終的步驟是對(duì)以前的Q(S1,a1)值進(jìn)行累加,就可以被視為,就被作為Q-table中的Q(S1,al)的更新值。

2 強(qiáng)化學(xué)習(xí)在交通信號(hào)控制中的應(yīng)用

2.1 交通信號(hào)控制的狀態(tài)描述

對(duì)交通信號(hào)控制進(jìn)行描述,有不同類型的兩種方法。

2)構(gòu)件信息標(biāo)準(zhǔn)化的應(yīng)用,解決了不同專業(yè)之間的溝通問題,建筑、室內(nèi)、結(jié)構(gòu)、城規(guī)等相關(guān)技術(shù)人員可以用同一個(gè)信息化模型進(jìn)行工作,有利于專業(yè)人員相互討論交流合作。

(1)根據(jù)信號(hào)燈狀態(tài)進(jìn)行描述

對(duì)城市交叉路口附近所有可能發(fā)生的狀況進(jìn)行表示,該方式要求各個(gè)路口控制器Agent對(duì)一切可能發(fā)生的狀況進(jìn)行學(xué)習(xí),直至全部車輛總共等待時(shí)間實(shí)施映射。基于交通狀況的不確定性,將造成學(xué)習(xí)空間爆炸的情況。

(2)根據(jù)車輛狀態(tài)進(jìn)行描述

描述交通狀態(tài)嘗試從單個(gè)車輛的視覺去進(jìn)行。在該模式中,對(duì)單個(gè)車輛的等待時(shí)間實(shí)施值函數(shù)的評(píng)估,在對(duì)交叉路口控制器Agent進(jìn)行決策的時(shí)候,必須對(duì)附近范圍內(nèi)所有車輛熟知。但車輛只是以運(yùn)動(dòng)對(duì)象的形式被控制器Agent觀察到,并不能對(duì)值函數(shù)的值進(jìn)行計(jì)算和儲(chǔ)存。交叉口的控制器完成值函數(shù)的計(jì)算和存儲(chǔ)的任務(wù),而Agent只是局限于車輛狀態(tài)的觀察。

2.2 模型化的強(qiáng)化學(xué)習(xí)在交通信號(hào)控制中的應(yīng)用

由于交通信號(hào)控制應(yīng)用了模型的Q學(xué)習(xí)算法,所以采用了以模型為基礎(chǔ)的交通信號(hào)控制方案,即所謂的TCI模式。此方法的基礎(chǔ)是描述車輛狀態(tài)的措施。設(shè)定當(dāng)前信號(hào)燈進(jìn)行反應(yīng)的狀態(tài)下,全部的車輛都知曉目的地的等待時(shí)間。從而各個(gè)車輛都擁有的路口信號(hào)燈轉(zhuǎn)綠的收益值。而此收益值的計(jì)算方式是該車輛紅燈等待時(shí)間減去綠燈等待的時(shí)間。可以利用對(duì)應(yīng)對(duì)信號(hào)燈車道上的車輛收益值總和的計(jì)算,選擇的該交叉口的最優(yōu)動(dòng)作為最大收益值的信號(hào)燈組合。

TC1模式利用采取值函數(shù)Q(s,l)顯現(xiàn)在狀態(tài)s和置身路口信號(hào)燈動(dòng)作為l的背景里車輛目的地到達(dá)整體等待的時(shí)間。到達(dá)目的地的總的等待時(shí)間。狀態(tài)S=[node direction position destination]node,顯現(xiàn)為車輛置身的交叉路口,而在該交叉路口車輛的行駛方位設(shè)定為direction,而車道上車輛的具體位置設(shè)定為position,車輛的終點(diǎn)地設(shè)定為destination,動(dòng)作l∈{red green}。定義值函數(shù)V(s)顯現(xiàn)地是處在S狀態(tài)下車輛預(yù)期到達(dá)終點(diǎn)的平均的時(shí)間等待。更新的Q值函數(shù)的公式如(3)所示。

Q=(s,r)=∑P(s,l,s)(R(s,l,s)+rV(s))

(3)

式中,折扣因子為r(0

更新V值函數(shù)的公式如(4)所示。

(4)

式中:p(s,ls)顯示車輛在S狀態(tài)下以及當(dāng)前信號(hào)燈采取動(dòng)作l的情況下進(jìn)入下一狀態(tài)s的可能性。p(lls)顯示S給定狀態(tài)下信號(hào)燈的反應(yīng)動(dòng)作l的可能性。利用最大貌似概率模型實(shí)施計(jì)算,形成的公式分別如式(5)和式(6)顯示

(5)

(6)

式中:當(dāng)前信號(hào)燈采取動(dòng)作l的情況下到達(dá)下一狀態(tài)以及車輛狀態(tài)S的表示為C(s,l,s),而路口信號(hào)燈動(dòng)作為l的情況發(fā)生的次數(shù)以及車輛在S狀態(tài)下的表示為C(s,l),車輛置身狀態(tài)S發(fā)生的次數(shù)用c(s)表示。

R(s,l,s)顯示車輛在信號(hào)燈實(shí)施行動(dòng)l以后從狀態(tài)S轉(zhuǎn)移到狀態(tài)S的實(shí)時(shí)獎(jiǎng)賞值,其計(jì)算可以利用下面(7)的公式

(7)

當(dāng)狀態(tài)S和狀態(tài)S不相等的時(shí)候,就是車輛能夠繼續(xù)前行的標(biāo)志,得到的獎(jiǎng)勵(lì)為零。當(dāng)狀態(tài)S和狀態(tài)S相等時(shí),顯示車輛因?yàn)榧t燈或者在向下一個(gè)車道進(jìn)入的時(shí)候因?yàn)檐囕v堵塞不得已在原地停留,此刻要求車輛務(wù)必等待一個(gè)時(shí)間步,能獲得1個(gè)獎(jiǎng)勵(lì)值,但這樣的獎(jiǎng)勵(lì)值是變相的懲罰值。

下面的公式(8)顯示TC1模式的最優(yōu)動(dòng)作選擇策略:

(8)

信號(hào)燈l置身的車道上的車輛等待隊(duì)列用queuei來表示。等待投票機(jī)制是TC1利用的模式。該模式只是關(guān)注車輛等待狀態(tài)下的收益值,就是說只是允許置身等待狀態(tài)下的車輛實(shí)施投票,那些還在行駛狀態(tài)下的車輛無法投票,主要因素是那些行駛中的車輛不受信號(hào)燈改變的影響,可以繼續(xù)前行。

交通研究機(jī)構(gòu)將TC1方法進(jìn)行仿真實(shí)驗(yàn),試驗(yàn)的軟件為GLD。試驗(yàn)數(shù)據(jù)表明,TCI方式比定時(shí)信號(hào)控制措施更有優(yōu)勢,比較起來整體性更佳,也更健壯。更可以有的放矢地控制交通信號(hào),大大降低了車輛的行駛的等待時(shí)間,降低了道路擁堵的系數(shù),交通網(wǎng)絡(luò)的通行能力顯著提高。

3 結(jié)束語

隨著大數(shù)據(jù)技術(shù)在道路交通領(lǐng)域的廣泛應(yīng)用,以及逐漸積累完善的城市交通數(shù)據(jù),城市交通信號(hào)控制的發(fā)展會(huì)呈現(xiàn)結(jié)構(gòu)更加復(fù)雜化,主要體現(xiàn)在拓?fù)洹⒅悄芑约皵?shù)據(jù)驅(qū)動(dòng)等技術(shù)層面。而與之相適應(yīng)的是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在道路交通領(lǐng)域的創(chuàng)新和融合。而針對(duì)自動(dòng)駕駛技術(shù)和車聯(lián)網(wǎng)的廣泛實(shí)踐,讓傳統(tǒng)的城市道路交通檢測技術(shù)面臨一定的挑戰(zhàn),相匹配的措施就是不斷擴(kuò)充交通信號(hào)控制的實(shí)時(shí)數(shù)據(jù)。在這樣的背景下,會(huì)帶動(dòng)車輛智能駕駛和交通信號(hào)控制的并駕齊驅(qū),迎來道路交通全新的智能時(shí)代。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美一区精品| 亚洲日韩AV无码一区二区三区人| 久久人体视频| 91探花在线观看国产最新| 国产精品久久自在自线观看| 亚洲最大情网站在线观看| 日韩最新中文字幕| 91久久精品日日躁夜夜躁欧美| 米奇精品一区二区三区| 在线色国产| www亚洲天堂| 亚洲成人一区二区三区| 国产污视频在线观看| 9999在线视频| 精品午夜国产福利观看| 久久精品国产999大香线焦| 福利在线免费视频| 亚洲国产成熟视频在线多多| 久久这里只有精品66| 欧美国产视频| 午夜日本永久乱码免费播放片| 日韩免费毛片视频| 在线永久免费观看的毛片| 国产成人综合网在线观看| 99在线视频免费| 在线观看精品自拍视频| av在线人妻熟妇| 韩国v欧美v亚洲v日本v| 国产性生交xxxxx免费| 婷婷丁香色| 亚洲欧洲自拍拍偷午夜色| 亚洲天堂视频网站| 日韩成人午夜| 国产精品久久精品| 亚洲第一视频网| 波多野结衣一区二区三区四区视频| 亚洲一区网站| 亚洲一级无毛片无码在线免费视频| 三上悠亚精品二区在线观看| 成人午夜免费观看| 日本一本在线视频| 国产精品第页| 精品無碼一區在線觀看 | 欧美一区二区福利视频| 99福利视频导航| 九九香蕉视频| 亚洲成人77777| 久久精品亚洲中文字幕乱码| 亚洲欧美不卡视频| 国产在线精品香蕉麻豆| 搞黄网站免费观看| 欧美 国产 人人视频| 国产精品九九视频| 国产人成在线观看| 免费高清a毛片| 亚洲精品无码在线播放网站| 欧美高清三区| 欧美性色综合网| 国产成人综合久久| 欧美乱妇高清无乱码免费| 在线国产欧美| 伊人久久大线影院首页| 亚洲国产天堂久久九九九| 精品人妻一区二区三区蜜桃AⅤ| 亚洲国产成人自拍| 欧美精品v欧洲精品| 亚洲经典在线中文字幕| 996免费视频国产在线播放| 欧美色视频日本| 日韩一级二级三级| 国产亚洲精品自在久久不卡| a网站在线观看| 在线看免费无码av天堂的| 国产精品美女在线| 亚洲综合一区国产精品| 97一区二区在线播放| 久久不卡国产精品无码| 亚洲视频二| 国产精品30p| 2024av在线无码中文最新| 乱码国产乱码精品精在线播放| 亚洲欧美h|