999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

速度協調的Q學習模型研究

2021-07-16 12:03:52劉元元盧守峰劉肖亮朱婷婷
交通科學與工程 2021年2期
關鍵詞:模型

劉元元,盧守峰,劉肖亮,朱婷婷

速度協調的Q學習模型研究

劉元元1,盧守峰1,劉肖亮2,朱婷婷1

(1. 長沙理工大學 交通運輸工程學院,湖南 長沙 410114;2. 湖南聯智科技股份有限公司,湖南 長沙 410219)

為平滑高速公路瓶頸區域上、下游車流速度,基于單位距離速度變化量和多項式SG卷積平滑處理的2個獎勵函數,分別建立了2個速度協調的Q學習模型。利用Excel-VBA、VISSIM和MATLAB的集成仿真平臺,對獎勵函數的性能進行了仿真分析。研究結果表明:基于SG卷積平滑的獎勵函數,可以有效地緩解瓶頸上游“走走停?!钡默F象,減小速度的波動幅度。速度協調的Q學習模型可以根據交通狀態實時選擇最優的運行速度。

速度協調;Q學習算法;SG卷積平滑;集成仿真平臺

小汽車擁有量日益驟增,交通密度增大,交通流處于不穩定狀態,加之車道變窄、合流分流、不良天氣、急剎車等因素,容易導致車輛加減速循環、走走停停,不僅延誤行程,降低通行能力,還增加燃油消耗,產生大量的有害氣體,污染環境。因此,如何有效緩解高速公路交通擁堵現象,已成為許多學者深思的問題。

有學者提出高速公路速度控制方法,即速度協調(基于可變速度限制、車輛信息共享和自動車輛控制等策略,平滑車輛在高速公路運行時的速度變化,使得交通順暢,提高道路通行能力,緩解交通擁堵)。國內外學者對該方向進行了大量研究。Li[1?2]等人提出了基于描述函數的理論特性和強化學習的汽車跟隨模型,與傳統的建模方法相比,構建策略可以有效地抑制振蕩幅度的發展,從而減少油耗和廢氣排放。Ma[3?4]等人提出了時間?距離線性速度協調算法和Bang-bang反饋控制速度協調算法,發現速度協調后的交通流軌跡可降低振蕩行為。Ghiasi[5?6]等人基于智能網聯車輛(connected automated vehicles,簡稱為CAV)的軌跡平滑概念,用CAV實時協調交通,通過CAV和交通傳感器提供的信息,檢測下游速度的下降和振蕩,預測其向上游的傳播。該策略可以獲得更平滑的軌跡,提高交通流的總體平穩性。王正武[7?8]等人構建了基于優化強制換道模型和考慮駕駛風格車輛的換道時間和距離預測模型,可以較準確地預測和解釋換道行為。Malikopoulos[9]等人提出了可以實時實施的車速控制策略,實現交通流中的速度協調,使每輛車實現最佳的加速或減速。Park[10]等人提出了車速控制策略,采用最小化自動駕駛環境中的車禍風險,通過車輛間風險分析,執行車輛速度控制,實現交通流中的速度協調。

1 Q學習模型簡介

強化學習可以分為無模型和模型化[11]。1989年Watkins提出的Q學習算法,是一種基于值函數的典型無模型強化學習算法,可用于解決馬爾可夫決策。其原理是智能體根據當前狀態,選擇某一動作作用于環境,發生狀態改變,同時產生一個強化信號(獎或懲)反饋給智能系統,智能系統再根據強化信號和當前環境狀態,選擇下一個動作,如此迭代循環,直至目標獲得最大獎賞,其框架如圖1 所示。

圖1 強化學習框架

(,)是指某一時刻的狀態(∈),采取動作(∈)能夠獲得回報的期望值。環境會根據智能體的動作反饋相應的回報,可以用矩陣來存儲(,)值。然后根據(,)值選取能夠獲得最大回報的動作。(,)值的更新公式為:

2 速度協調的Q學習模型構建

狀態、行為、獎賞是Q學習模型構建的3個主要元素。為實現速度協調,引入CAV作為控制車輛。通過優化CAV的速度,達到平滑速度波動的效果。針對速度協調的特點,狀態選取每個步長下游檢測器測得的平均車速,行為指CAV的建議運行速度,構建了2個獎賞函數。

2.1 基于單位距離速度變化量的獎勵函數

受線性速度協調算法[3]的啟發,提出了基于單位距離速度變化量的獎勵函數,具體公式為式(2)~(5)。結合Q學習算法,形成了基于單位距離速度變化量獎勵函數的Q學習算法,簡稱為D-Q算法。

由式(3)可知,獎勵函數的含義為智能網聯測試車的建議速度越接近單位距離速度變化量下的建議速度時,越小,懲罰值也越小。

2.2 基于SG卷積平滑算法的獎勵函數

VISSIM仿真分析可知,下游檢測器測得的速度波動幅度大,導致(,)的取值出現大幅的波動。因此,提出基于多項式(savitsky-golay,簡稱為SG)卷積平滑算法的獎勵函數(通過SG卷積平滑算法將下游檢測器測得的速度進行平滑處理),結合Q學習算法,形成基于SG卷積平滑算法的獎勵函數的Q學習算法,簡稱S-G算法。

式中:為坐標軸上的數據點,∈。

由式(6)可得到個方程,組成元線性方程組,≥時(一般選擇>),方程組有解,采用最小二乘法擬合確定參數。

式(7)用矩陣形式表示為:

其中,乘以1之后代表矩陣形式。

則式(8)中的最小二乘解為:

式中:為平滑前的值。

則的濾波值為:

經SG卷積平滑算法分析,結合本試驗實例,取平滑窗口的寬度為=4,=3,則=9,得:

。 (13)

2.3 基于集成仿真平臺的在線仿真

利用集成仿真平臺[12]方法,構建了速度協調在線仿真模型?;赩ISSIM的COM接口與Excel VBA、MATLAB相結合,對速度協調的Q學習模型進行仿真,運算步驟為:

1) 建立VISSIM路網文件(net文件)。包括建立道路網、設置車輛數、檢測器的位置和個數、車輛組成、期望速度等,設置相應的評估參數,以便分析后續所需數據。

2) vba程序中,聲明所使用的VISSIM的相關變量與對象,例如Vehicles(車輛對象),DataCollection(檢測器對象)等;定義相應的初始化函數,例如StartVISSIM (啟動VISSIM軟件)、ReadINPFile(讀入Net文件)、main(主函數)等。

3) 主程序中,通過COM接口的Get Data CollectionByNumber對象,連接VISSIM文件中設置的檢測器,實現數據的實時讀取;通過AddVehicleAtLinkCoordinate對象,將本文定義的自動網聯測試車加入路網中,實現對車輛的控制;通過檢測器的GetResult屬性,實現檢測器數據的采集;通過ActiveWorkbook.Save功能,將VISSIM仿真的實時數據進行輸出。

4) 獲取最優矩陣。采用在線Q學習算法進行VISSIM仿真學習,通過多次運行在線Q學習仿真程序,獲得最優矩陣。首先,在Excel VBA中執行VISSIM仿真程序,以2 s為一個步長,實時獲取路網的交通狀態、評價指標等信息。然后,通過式(1),更新矩陣,當其達到終止條件時,停止運行。單次VISSIM仿真停止運行條件為測試車到達下游檢測器附近停止運行。如果本次運行的最終矩陣未到達收斂條件時,將本次仿真的最終矩陣作為下一次仿真時的初始矩陣,直到達到收斂條件,獲得最優矩陣。

5) 執行最優矩陣方案,獲取最優建議速度。通過Excel-VBA程序,控制VISSIM仿真運行。通過最優矩陣方案,VISSIM仿真的下游檢測器的實時狀態,獲取最優建議速度,并將建議速度應用到VISSIM仿真中,檢驗速度協調效果。獲取最優矩陣后的VISSIM仿真運行流程如圖2所示。

圖2 集成仿真平臺流程

3 算例分析

3.1 實驗環境

以VISSIM為仿真平臺,構建一條三車道的高速公路試驗路段。道路5 km處,由三車道變成兩車道,形成物理瓶頸。其中,仿真路段總長6.68 km,三車道路段為6 km,瓶頸路段長600 m,漸變段長度為40 m。道路1 km處設置上游檢測器u,4.9 km處設置下游檢測器d,用于檢測某一時刻車輛通過該檢測器時的平均速度。設置道路的交通流量為 3 780輛/h,飽和度為0.7,具體道路網的示意如圖3所示。

當仿真初始化10 min后,由于瓶頸的存在,道路上出現明顯擁堵。此時,道路的1 km處(即上游檢測器D),控制三輛CAV車輛(C1、C2和C3)并排進入實驗路段,下游檢測器D測得的平均速度為Q學習算法中的狀態,三輛CAV車輛采取的建議運行速度均為Q學習算法中動作,以Δ=2 s為迭代步長,每隔2 s,由下游檢測器測得的平均車速。根據Q學習算法,計算出此時上游三輛CAV車輛應采取的建議運行速度,使當前時刻的獎勵函數達到最大,如此循環迭代,優化Q值函數,選取最優動作,直到滿足收斂條件,結束實驗。

3.2 狀態劃分

Q學習算法的狀態為下游檢測器的速度值,即下游檢測器D在每個步長所測得的平均速度。通過對VISSIM仿真狀態進行分析,然后初始化,下游檢測器的速度值多分布在20~50 km/h之間,因為狀態數為一個確定的值或區間,所以本研究將下游檢測器的速度進行分段離散劃分,把下游檢測器速度[20,50] km/h劃分為15個區間,劃分區間如圖4所示。

圖3 路段示意圖(單位:m)

圖4 基于D?Q算法的狀態劃分

劃分后,得到狀態集為:

Q學習算法行為是CAV的實時速度,即測試車C1,C2,C3的速度值,速度區間為[40,120]。同時,將測試車的速度進行分段離散劃分,將速度區間[40,120]劃分為40個區間,劃分區間如圖5所示。

劃分后,得到狀態集為:

3.3 試驗結果分析

根據本研究提出的基于單位距離速度變化量的獎勵函數和基于SG卷積平滑算法獎勵函數的Q學習算法,對C1、C2、C3分別進行2種獎勵函數Q學習算法的仿真試驗,并與“無控制情況”的結果做對比。

3.3.1 3種不同情況下C1、C2、C3的速度協調曲線

CAV在無控制時,速度協調曲線如圖6所示。從圖6中可以看出,無控制情況下3輛控制車輛的初始速度較大,經過4.6 km后,控制車輛的速度驟降,速度從90~120 km/h降到0~40 km/h,車輛的速度波動大,在瓶頸處形成“交通震蕩”,符合無控制情況下的實際情況。基于單位距離速度變化量獎勵函數的Q學習算法,對控制車輛進行控制的位置?速度曲線如圖7所示。與圖6相比,雖然速度呈整體下降趨勢,但是波動減小,表明:該算法起到了“速度協調”的作用?;赟G卷積平滑算法,獎勵函數的Q學習算法對控制車輛進行控制的位置?速度曲線如圖8所示。從圖8中可以看出,其速度曲線比圖6、7中的曲線更為平滑,速度波動幅度更小,有較好的速度協調效果。

圖6 無控制時速度協調曲線

3.3.2 三種不同情況下的C2的速度協調曲線

由于C1、C2、C3的速度大致相同,以C2為例,分析無控制、基于單位距離速度變化量獎勵函數的Q學習算法、基于SG卷積平滑算法獎勵函數的Q學習算法3種不同情況下的C2速度變化,如圖9所示。

從圖9中可以看出,C2車輛從起點1 km到5 km處的速度變化很明顯。C2的初始速度很大,達110 km/h。由于處于無控制情況下,C2無法知道路段下游的道路狀況,影響C2車速的主要因素是C2周圍的車輛情況,而不是道路下游的車輛情況,導致C2前期一直處于高速狀態,直到經過4.6 km后接近瓶頸,從110 km/h驟降到20 km/h,速度變化波動大,在此處產生典型的交通震蕩。

圖7 基于D-Q算法的速度協調曲線

圖8 基于SG-Q的速度協調曲線

圖9 C2速度協調效果對比

從圖9中還可以看出,基于單位距離速度變化量獎勵函數的Q學習算法,對C2進行速度控制達到速度協調效果。由于引入了單位距離速度變化量獎勵函數的Q學習算法,系統每間隔2 s,根據道路下游檢測器d測得平均速度。通過Q學習算法計算,此時C2應該采取最優速度。C2根據計算推薦的最優速度,每隔2 s更新速度,使得C2的速度波動減小幅度下降,而不是驟降,減小了“交通震蕩”。與無控制情況相比,基于單位距離速度變化量獎勵函數的Q學習算法,更有效地協調了C2的速度。

由于基于單位距離速度變化量獎勵函數的Q學習算法的速度協調效果曲線中,道路下游檢測器d測得的平均波動較大。為使速度波動更小,速度曲線更平滑,引入基于SG卷積平滑算法獎勵函數的Q學習算法對道路下游檢測器d進行速度控制,在基于單位距離速度變化量獎勵函數基礎上,得到平滑下游檢測器所測得的平均速度。表明:與基于單位距離速度變化量獎勵函數的Q學習算法相比,基于SG卷積平滑算法獎勵函數的Q學習算法的速度協調效果曲線更平滑,C2的速度波動更小,更有效地協調了C2的速度變化。因此,基于SG卷積平滑算法獎勵函數的Q學習算法對C2的速度協調效果最好。

3.4 Q值收斂情況

基于D-Q算法、SG-Q算法的值收斂如圖10、11所示。從圖10中可以看出,基于單位距離速度變化量獎勵函數的Q學習算法,迭代次數在203與903區間中。連續700次,迭代收斂值小于9。從圖11中可以看出,基于SG卷積平滑算法獎勵函數的Q學習算法,迭代次數在98與798區間中。連續700次,迭代收斂值小于9。因此,可以看出前者迭代次數為903次,后者迭代次數為798次,2個獎勵函數均收斂,且后者收斂速度更快。

圖10 基于D-Q算法的Q值收斂

圖11 基于SG-Q算法的Q值收斂

4 結論

基于SG卷積平滑算法獎勵函數的Q學習算法,速度波動最小,速度曲線最平滑。同時,從收斂情況可知,基于單位距離速度變化量獎勵函數收斂的穩定性更好,基于SG卷積平滑算法獎勵函數的收斂速度更快。因此,提出的D?Q算法、SG?Q算法2個獎勵函數均能有效地協調高速公路上車輛的速度變化,減小了“速度震蕩”。當高速公路瓶頸處發生嚴重排隊現象時,上游車輛到達瓶頸處,將減少“走走停停”的現象。

[1] Li X P, Cui J X, An S, et al. Stop-and-go traffic analysis: Theoretical properties, environmental impacts and oscillation mitigation[J]. Transportation Research Part B: Methodological, 2014, 70: 319?339.

[2] Qu X B, Yu Y, Zhou M F, et al. Jointly dampening traffic oscillations and improving energy consumption with electric, connected and automated vehicles: A reinforcement learning based approach[J]. Applied Energy, 2020, 257: 114030.

[3] Ma J Q, Li X P, Shladover S, et al. Freeway speed harmonization[J]. IEEE Transactions on Intelligent Vehicles, 2016, 1(1): 78?89.

[4] Yang H, Rakha H. Feedback control speed harmonization algorithm: Methodology and preliminary testing[J]. Transportation Research Part C: Emerging Technologies, 2017, 81: 209?226.

[5] Ghiasi A , Ma J , Zhou F , et al. Speed harmonization algorithm using connected autonomous vehicles[C]// The 96th Annual Meeting of the Transportation Research Board, transportation Research Board, 2017.

[6] Ghiasi A, Li X P, Ma J Q. A mixed traffic speed harmonization model with connected autonomous vehicles[J]. Transportation Research Part C: Emerging Technologies, 2019, 104: 210-233.

[7] 王正武, 鄒文竹, 郝威. 高速公路交通事故后基于優化的強制換道研究[J]. 交通科學與工程, 2020, 36(1): 87?92.(WANG Zheng-wu, ZOU Wen-zhu, HAO Wei. Research on mandatory lane change based on optimization after traffic accidents on the expressway[J]. Journal of Transport Science and Engineering, 2020, 36(1): 87?92.(in Chinese))

[8] 劉思源, 喻偉, 劉潔瑩, 等. 考慮駕駛風格的車輛換道行為及預測模型[J]. 長沙理工大學學報(自然科學版), 2019, 16(1): 28?35. (LIU Si-yuan, YU Wei, LIU Jie-ying, et al. Characteristics analysis and prediction model of lane changing behavior under different driving styles[J]. Journal of Changsha University of Science & Technology (Natural Science), 2019, 16(1): 28?35.(in Chinese))

[9] Malikopoulos A A, Hong S, Park B B, et al. Optimal control for speed harmonization of automated vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(7): 2405?2417.

[10] Park H, Oh C. A vehicle speed harmonization strategy for minimizing inter-vehicle crash risks[J]. Accident Analysis & Prevention, 2019, 128: 230?239.

[11] 趙婷婷, 孔樂, 韓雅杰, 等. 模型化強化學習研究綜述[J].計算機科學與探索,2020,14(6):918?927.(ZHAO Ting-ting, KONG Le, HAN Ya-jie, et al. Review of model-based reinforcement learning[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(6): 918?927.(in Chinese))

[12] 盧守峰, 韋欽平, 沈文, 等. 集成VISSIM、Excel VBA和MATLAB的仿真平臺研究[J]. 交通運輸系統工程與信息, 2012, 12(4): 43?48, 63. (LU Shou-feng, WEI Qin-ping, SHEN Wen, et al. Integrated simulation platform of VISSIM, excel VBA, MATLAB[J]. Journal of Transportation Systems Engineering and Information Technology, 2012, 12(4): 43?48, 63.(in Chinese))

Research on Q-Learning model of speed harmonization

LIU Yuan-yuan1, LU Shou-feng1, LIU Xiao-liang2, ZHU Ting-ting1

(1.Traffic and Transportation Engineering College, Changsha University of Science & Technology, Changsha 410114, China; 2. Hunan Lianzhi Technology Co., Ltd., Changsha 410219, China)

In order to optimize the speed of upstream and downstream traffic flow in the bottleneck area of expressway, two reward functions based on unit distance velocity variation and SG convolution smoothing were proposed, and two Q-learning models of speed harmonization were established. The integrated simulation platform combining Excel-VBA, VISSIM and MATLAB was used to simulate the reward functions. The results show that, the reward function based on SG convolution smoothing can effectively relieve the stop-and-go traffic on the upstream of the bottleneck. The fluctuation amplitude of speed was reduced. The Q-Learning model of speed-coordinated can suggest the optimal real time speed according to the traffic state.

speed harmonization; Q-Learning model; SG convolution smoothing; integrated simulation platform

U491.4

A

1674 ? 599X(2021)02 ? 0098 ? 07

2020?10?30

劉元元(1995?),女,長沙理工大學碩士生。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 青青热久免费精品视频6| 国产91丝袜在线播放动漫| 精品偷拍一区二区| 国产区免费| 亚洲区视频在线观看| 久久无码av三级| 欧美a级在线| 亚洲色图欧美视频| 凹凸精品免费精品视频| 欧美日本不卡| 久久青草精品一区二区三区| 日韩经典精品无码一区二区| 专干老肥熟女视频网站| 亚洲国产精品人久久电影| 男女性色大片免费网站| 久久精品电影| 亚洲中文制服丝袜欧美精品| 国产精品成人不卡在线观看| 亚洲欧美另类色图| 女同久久精品国产99国| 国产喷水视频| 欧美日韩在线国产| 色哟哟色院91精品网站| 2021最新国产精品网站| 国产成人亚洲精品色欲AV| 国产欧美一区二区三区视频在线观看| 天堂网亚洲综合在线| 91成人精品视频| 日韩A∨精品日韩精品无码| 99久久成人国产精品免费| 国产无码性爱一区二区三区| 亚洲中文字幕国产av| 日韩福利视频导航| 亚洲经典在线中文字幕| 欧美黄色a| 无码精品福利一区二区三区| 色呦呦手机在线精品| 国产第二十一页| 无码AV动漫| 青青久久91| 东京热av无码电影一区二区| 亚洲成人网在线播放| 自拍欧美亚洲| 国产97公开成人免费视频| 亚洲精品大秀视频| 日本久久免费| 成人无码一区二区三区视频在线观看| 国产三级韩国三级理| 日韩精品成人在线| 搞黄网站免费观看| AV不卡国产在线观看| 一级一级一片免费| 亚洲一区二区无码视频| 成人午夜亚洲影视在线观看| 青青国产视频| 欧美五月婷婷| 国产精品3p视频| 91小视频在线| 国产激情第一页| 操操操综合网| 亚洲国产精品一区二区高清无码久久| 日本午夜影院| 99视频在线观看免费| 国产精品无码AⅤ在线观看播放| 国产精品一区二区在线播放| 久久香蕉国产线看观看精品蕉| 极品性荡少妇一区二区色欲| 自拍中文字幕| 亚洲无码37.| 亚洲无码熟妇人妻AV在线| 青青草原国产| 国产精品丝袜视频| 欧美a在线看| 91外围女在线观看| 亚洲无码一区在线观看| 亚洲AV一二三区无码AV蜜桃| 久久中文电影| 久久亚洲美女精品国产精品| 秋霞午夜国产精品成人片| 国产欧美日韩综合在线第一| 亚洲一区毛片| 久久久久免费看成人影片|