999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的交通路徑誘導研究

2019-10-14 03:46:52
福建質量管理 2019年18期
關鍵詞:深度策略實驗

(沈陽理工大學信息科學與工程學院 遼寧 沈陽 110159)

引言

科技社會的發展使城市交通擁堵日益嚴重,智能交通系統作為一種解決城市日益擁堵所帶來的問題的有效途徑,特別是交通誘導可以有效的緩解交通擁堵,提高人們的出行效率。

深度強化學習不僅具有深度學習的感知能力,可以有效的提取復雜的特征。還具有強化學習的決策能力,通過不斷與環境進行交互反饋,對決策進行調整改進。因此本研究采用深度強化學習構建交通路徑誘導系統。首先選擇合理有效的路徑誘導特征,通過構建深度強化學習網絡模型,建立雙網(DoubleDQN),采用玻爾茲曼概率行為選擇策略,誘導路網中的車輛行駛。

一、模型介紹

本研究主要使用的是DQN[1]。傳統的DQN通常會高估Action的Q值。如果這種高估是不均勻的,可能會導致本來次優的Action總是被高估而超過了最優的Action,造成過估計。而DoubleDQN[2]不是直接選擇targetDQN上最大的Q值,而是在主DQN上通過其最大Q值選擇Action,再去獲取這個Action在targetDQN上的Q值。主網絡負責選擇Action,而這個被選定的Action的Q值則由targetDQN生成。被選擇的Q值,不一定是最大的Q值,這樣就解決了過估計的問題。DoubleDQN的學習目標可以寫成下面的公式:

Target=rt+1+γ.Qtarget(st+1,argmaxa(Qmain(st+1,a)))

二、路徑誘導系統分析

(一)路徑誘導的特征選擇

路徑誘導的特征選擇十分關鍵,如何選擇合理有效的特征對路徑誘導的效果起到了至關重要的作用。路網中的車輛行駛過程如下圖所示:

圖1 車輛從節點i經5號邊行駛到節點j

假設車輛從節點i經過5號邊行駛到節點j。本研究的目的是對交通路網中的車輛通過算法進行路徑誘導。考慮選取的特征為:當前節點j的坐標和目的節點的k坐標;車輛行駛在當前節點的相鄰節點為i;車輛從節點i到節點j通過 5號邊的所花費的真實行駛時間;以及綜合考慮整個路網的各個節點的車流量密度。

(二)選擇策略

本研究采用玻爾茲曼概率選擇策略[3]。玻爾茲曼概率選擇策略是Softmax選擇策略的一種,根據不同的行為選擇策略把不同的Q值對應不同大小的選擇概率,最優Q值具有最大的選擇概率:

τ是溫度參數,隨著溫度參數的值逐漸變大,不同的Q值對應的行為選擇的概率大小就越近似。隨著溫度參數的值逐漸變小,玻爾茲曼概率分布策略和貪心策略就越來近似。

(三)誘導系統的組成部分

一部分是導航過程,主要負責當車輛運行到交叉口時,下一步應該選擇走哪一條路線,即對車輛進行的誘導。另一部分是訓練過程。

導航過程,通過SUMO仿真器獲得車輛當前路網的狀態:當前節點坐標值,目的節點坐標值,相鄰節點坐標值,整個路網的密度車流量密度。然后通過Socket發送數據。并把接收到的state作為神經網絡的輸入。根據神經網絡得到四個Q值。并通過玻爾茲曼概率選擇策略得到動作,該動作即車輛到達交叉口下一步要選擇的動作。并返回該action。

訓練過程,通過仿真器收集數據state,action,reward。把通過Socket得到的數據組合成強化學習的的四元組(s,a,r,s’)。把強化學習的的四元組(s,a,r,s’),也就是樣本存儲到經驗池中,當滿足批處理的數量時,把該數據作為神經網絡的輸入,對神經網絡進行訓練。

三、實驗分析

(一)仿真器

本研究使用SUMO(SimulationofUrbanMobility)仿真器進行仿真。SUMO仿真器由德國宇航中心研發,把真實的城市作為模擬的依據,實現對現實中的城市的路網、道路、交叉口、車輛、行人,交通設施等的仿真,并可以通過接口與java程序進行交互。本研究課題通過搭建SUMO仿真器,設置SUMO仿真器中的路網結構文件,并寫出SUMO仿真器運行需要的相應程序,采集實驗數據。

(二)實驗結果

通過SUMO仿真器模擬對車輛進行誘導,運行交通路徑誘導系統,并進行實驗。實驗的評價指標為:路網中的實際車輛數量和車輛在路網的平均行駛時間。路網中的車輛的數量越少,車輛的平均行駛時間越短,說明路徑誘導的效率越高。

對已經設置的路網結構,分別使用基于傳統的Sarsa方法和深度強化學習方法對交通路網中的車輛進行誘導實驗。根據實驗的評價指標,通過實驗得出實驗結果。使用Sarsa方法誘導時,路網中的平均車輛數量為155.8788,平均行駛時間為111.9692。使用深度強化學習對路網中的車輛進行進行誘導時,路網中的平均車輛數量為127.5253,平均行駛時間為97.1384。通過與傳統強化學習Sarsa學習算法進行對比實驗,深度強化學習的誘導效果優于傳統的Sarsa學習誘導。

四、結論

實驗結果表明基于深度強化學習的路徑誘導可以有效緩解路徑中交通的擁堵,為交通路徑誘導提供了一種有效的解決方式。

猜你喜歡
深度策略實驗
記一次有趣的實驗
深度理解一元一次方程
例談未知角三角函數值的求解策略
做個怪怪長實驗
我說你做講策略
深度觀察
深度觀察
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 日韩精品毛片| 精品久久久久久久久久久| 久久久久无码精品国产免费| 91久久性奴调教国产免费| 女同国产精品一区二区| 国产成人永久免费视频| 99精品在线看| 国产精品.com| 中文字幕欧美日韩高清| 福利片91| www.狠狠| 午夜高清国产拍精品| 首页亚洲国产丝袜长腿综合| 91免费观看视频| 九九九精品成人免费视频7| 久久精品视频亚洲| 国产爽妇精品| 青青草原偷拍视频| 高清无码不卡视频| 亚洲成A人V欧美综合| 亚洲愉拍一区二区精品| 精品无码一区二区三区在线视频| 国产h视频免费观看| 色婷婷狠狠干| 欧美中文字幕第一页线路一| 一本色道久久88| 国产亚洲男人的天堂在线观看| 国产成人精品2021欧美日韩| 欧洲高清无码在线| 91在线一9|永久视频在线| 美女视频黄频a免费高清不卡| 潮喷在线无码白浆| 毛片网站在线看| 91www在线观看| 精品黑人一区二区三区| 国产人人干| 欧美色伊人| 亚洲欧美成aⅴ人在线观看| 先锋资源久久| 久久精品免费看一| 亚洲h视频在线| 欧美不卡二区| 波多野结衣一级毛片| 国产美女免费| 亚洲午夜久久久精品电影院| 欧美视频二区| 青青青视频91在线 | 午夜激情婷婷| 精品国产网| 99九九成人免费视频精品| 日本一区二区三区精品AⅤ| 日韩专区第一页| 亚洲日本中文字幕天堂网| 亚洲天堂精品在线| 国产AV毛片| 丁香五月激情图片| 香蕉eeww99国产在线观看| 国产乱人伦AV在线A| 成年人福利视频| 国产精品露脸视频| 亚洲成人高清无码| 免费看美女自慰的网站| 夜夜高潮夜夜爽国产伦精品| 爆乳熟妇一区二区三区| 亚洲天堂视频在线观看免费| 五月激激激综合网色播免费| 久久免费视频播放| 欧美性猛交xxxx乱大交极品| 色吊丝av中文字幕| 99久久性生片| 色妺妺在线视频喷水| 99无码中文字幕视频| 日韩二区三区无| a级毛片免费看| 国产精品第一区在线观看| 国产综合另类小说色区色噜噜| 18禁影院亚洲专区| 国产噜噜噜| 狠狠色丁香婷婷| 国产主播在线观看| 91蜜芽尤物福利在线观看| 女人18毛片久久|