(沈陽理工大學信息科學與工程學院 遼寧 沈陽 110159)
科技社會的發展使城市交通擁堵日益嚴重,智能交通系統作為一種解決城市日益擁堵所帶來的問題的有效途徑,特別是交通誘導可以有效的緩解交通擁堵,提高人們的出行效率。
深度強化學習不僅具有深度學習的感知能力,可以有效的提取復雜的特征。還具有強化學習的決策能力,通過不斷與環境進行交互反饋,對決策進行調整改進。因此本研究采用深度強化學習構建交通路徑誘導系統。首先選擇合理有效的路徑誘導特征,通過構建深度強化學習網絡模型,建立雙網(DoubleDQN),采用玻爾茲曼概率行為選擇策略,誘導路網中的車輛行駛。
本研究主要使用的是DQN[1]。傳統的DQN通常會高估Action的Q值。如果這種高估是不均勻的,可能會導致本來次優的Action總是被高估而超過了最優的Action,造成過估計。而DoubleDQN[2]不是直接選擇targetDQN上最大的Q值,而是在主DQN上通過其最大Q值選擇Action,再去獲取這個Action在targetDQN上的Q值。主網絡負責選擇Action,而這個被選定的Action的Q值則由targetDQN生成。被選擇的Q值,不一定是最大的Q值,這樣就解決了過估計的問題。DoubleDQN的學習目標可以寫成下面的公式:
Target=rt+1+γ.Qtarget(st+1,argmaxa(Qmain(st+1,a)))
路徑誘導的特征選擇十分關鍵,如何選擇合理有效的特征對路徑誘導的效果起到了至關重要的作用。路網中的車輛行駛過程如下圖所示:

圖1 車輛從節點i經5號邊行駛到節點j
假設車輛從節點i經過5號邊行駛到節點j。本研究的目的是對交通路網中的車輛通過算法進行路徑誘導。考慮選取的特征為:當前節點j的坐標和目的節點的k坐標;車輛行駛在當前節點的相鄰節點為i;車輛從節點i到節點j通過 5號邊的所花費的真實行駛時間;以及綜合考慮整個路網的各個節點的車流量密度。
本研究采用玻爾茲曼概率選擇策略[3]。玻爾茲曼概率選擇策略是Softmax選擇策略的一種,根據不同的行為選擇策略把不同的Q值對應不同大小的選擇概率,最優Q值具有最大的選擇概率:
τ是溫度參數,隨著溫度參數的值逐漸變大,不同的Q值對應的行為選擇的概率大小就越近似。隨著溫度參數的值逐漸變小,玻爾茲曼概率分布策略和貪心策略就越來近似。
一部分是導航過程,主要負責當車輛運行到交叉口時,下一步應該選擇走哪一條路線,即對車輛進行的誘導。另一部分是訓練過程。
導航過程,通過SUMO仿真器獲得車輛當前路網的狀態:當前節點坐標值,目的節點坐標值,相鄰節點坐標值,整個路網的密度車流量密度。然后通過Socket發送數據。并把接收到的state作為神經網絡的輸入。根據神經網絡得到四個Q值。并通過玻爾茲曼概率選擇策略得到動作,該動作即車輛到達交叉口下一步要選擇的動作。并返回該action。
訓練過程,通過仿真器收集數據state,action,reward。把通過Socket得到的數據組合成強化學習的的四元組(s,a,r,s’)。把強化學習的的四元組(s,a,r,s’),也就是樣本存儲到經驗池中,當滿足批處理的數量時,把該數據作為神經網絡的輸入,對神經網絡進行訓練。
本研究使用SUMO(SimulationofUrbanMobility)仿真器進行仿真。SUMO仿真器由德國宇航中心研發,把真實的城市作為模擬的依據,實現對現實中的城市的路網、道路、交叉口、車輛、行人,交通設施等的仿真,并可以通過接口與java程序進行交互。本研究課題通過搭建SUMO仿真器,設置SUMO仿真器中的路網結構文件,并寫出SUMO仿真器運行需要的相應程序,采集實驗數據。
通過SUMO仿真器模擬對車輛進行誘導,運行交通路徑誘導系統,并進行實驗。實驗的評價指標為:路網中的實際車輛數量和車輛在路網的平均行駛時間。路網中的車輛的數量越少,車輛的平均行駛時間越短,說明路徑誘導的效率越高。
對已經設置的路網結構,分別使用基于傳統的Sarsa方法和深度強化學習方法對交通路網中的車輛進行誘導實驗。根據實驗的評價指標,通過實驗得出實驗結果。使用Sarsa方法誘導時,路網中的平均車輛數量為155.8788,平均行駛時間為111.9692。使用深度強化學習對路網中的車輛進行進行誘導時,路網中的平均車輛數量為127.5253,平均行駛時間為97.1384。通過與傳統強化學習Sarsa學習算法進行對比實驗,深度強化學習的誘導效果優于傳統的Sarsa學習誘導。
實驗結果表明基于深度強化學習的路徑誘導可以有效緩解路徑中交通的擁堵,為交通路徑誘導提供了一種有效的解決方式。