999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的平滑車速控制系統(tǒng)

2023-09-02 03:02:26徐延軍陳建雄
關(guān)鍵詞:控制策略

徐延軍, 陳建雄

1.中遠(yuǎn)海運(yùn)科技股份有限公司, 上海 200135;2.上海船舶運(yùn)輸科學(xué)研究所有限公司, 上海 200135)

0 引 言

近年來,隨著汽車保有量的不斷增加,高速公路上的交通擁堵情況越來越多,為提升高速公路的車輛通行效率,通常會(huì)對(duì)其出入口進(jìn)行控制,因此高速公路上的交通擁堵路段比較固定,一般在主線與出入口匝道連接處、道路施工區(qū)域和交通事故發(fā)生處。當(dāng)某路段出現(xiàn)交通擁堵情況時(shí),車輛會(huì)頻繁地進(jìn)行變速、分流、合流和交織等,嚴(yán)重影響著其他車輛的通行。

平滑車速控制主要是對(duì)公路的交通流參數(shù)進(jìn)行動(dòng)態(tài)檢測(cè),將獲取的交通信息輸入控制器中,通過算法計(jì)算得到限速值,并將其反饋到限速板上,從而實(shí)現(xiàn)對(duì)車輛行駛速度的動(dòng)態(tài)控制,在提升車輛通行效率和通行安全性方面有顯著效果。在開展平滑車速控制研究時(shí),需建立交通流仿真模型,其中METANET模型和元胞傳輸模型(Cellular Transmission Model)在平滑車速控制中的應(yīng)用最廣泛。CARLSON等[1]在反饋式控制系統(tǒng)中植入METANET模型,測(cè)試結(jié)果表明該模型能對(duì)系統(tǒng)的交通流參數(shù)變化情況進(jìn)行仿真;HADFI等[2]提出一種改進(jìn)的隨機(jī)元胞模型,該模型充分考慮了車輛路徑選擇行為。此外,需在交通流仿真模型的基礎(chǔ)上設(shè)計(jì)相關(guān)控制算法。ZHU等[3]基于R-馬爾可夫平均獎(jiǎng)勵(lì)技術(shù)(R-Markov Average Reward Technology,R-MART)的強(qiáng)化學(xué)習(xí)算法獲取最優(yōu)限速方案,對(duì)路網(wǎng)中的車流量、時(shí)延時(shí)間和車輛排放等指標(biāo)進(jìn)行優(yōu)化,與非限速控制相比,總行駛時(shí)間和一氧化碳排放量分別減少了約18%和20%;LI等[4]提出了一種基于Q-學(xué)習(xí)算法的限速值控制策略,該策略在穩(wěn)定交通需求的情境中使車輛通行時(shí)間縮短了49.34%,在波動(dòng)交通需求的情境中使車輛通行時(shí)間縮短了21.84%。本文以CTM為基礎(chǔ)進(jìn)行交通流仿真,在平滑車速控制系統(tǒng)中引入DDQN(Double Deep Q-Network)算法,對(duì)路段瓶頸區(qū)域進(jìn)行平滑車速控制,以提升車輛通行效率,改善公路上的車輛運(yùn)行情況。

1 交通瓶頸與控制理論

1.1 高速公路交通瓶頸

1.1.1 交通瓶頸區(qū)域的定義

高速公路瓶頸區(qū)域是指路網(wǎng)中易發(fā)生擁堵的路段,該擁堵問題通常是因突發(fā)交通事故、自然災(zāi)害致使道路損壞、道路施工和車輛在行駛過程中分流與合流等情況導(dǎo)致車輛的通行能力下降引起的。

1.1.2 瓶頸區(qū)域常見類型

交通瓶頸區(qū)域是影響整個(gè)路網(wǎng)車輛通行能力的關(guān)鍵因素,類似于木桶理論中的最低檔板。以交通擁堵問題的發(fā)生頻率為分類依據(jù),可將交通瓶頸分為常發(fā)性交通瓶頸和偶發(fā)性交通瓶頸[1],其中:常發(fā)性交通瓶頸主要集中在主線與匝道銜接處,是因車輛在此處出現(xiàn)合流、分流或加減速行為而引發(fā)的擁堵狀況;偶發(fā)性交通瓶頸主要集中在高速公路施工區(qū)、自然災(zāi)害破壞區(qū)或交通事故發(fā)生處,一般是占用車道引起通行能力下降造成的擁堵狀況。[1,5]高速公路瓶頸區(qū)域主要可分為以下幾種。

1) 主線與入口匝道銜接處(見圖1)。在主線上游的車輛從A行駛至B過程中,支線車輛從入口匝道C經(jīng)過加速區(qū)并入主線行駛,因此在匝道附近會(huì)出現(xiàn)合流現(xiàn)象,當(dāng)主線上的車流量較大時(shí),從入口匝道進(jìn)入主線的車輛會(huì)使主線上的其他車輛頻繁地減速或變換車道,從而導(dǎo)致道路的車輛通行能力下降。

2) 主線與出口匝道銜接處(見圖2)。在主線上游的車輛從A行駛至B過程中,部分車輛會(huì)變道進(jìn)入減速區(qū),最后駛?cè)氤隹谠训繢,離開主線,因此在匝道附近會(huì)出現(xiàn)分流現(xiàn)象,當(dāng)主線上的車流量較大時(shí),想要匯入出口匝道減速區(qū)的車輛的行為會(huì)影響主線上正常行駛的車輛,從而導(dǎo)致道路的車輛通行能力下降。

圖2 出口匝道銜接處示意圖

3) 施工/事故區(qū)(見圖3)。在主線上游的車輛從A行駛至B過程中,當(dāng)存在道路施工或發(fā)生交通事故時(shí),一些車輛會(huì)臨時(shí)占用部分車道,使具備通行能力的車道數(shù)減少,當(dāng)上游的車流量較大時(shí),這些車輛在行駛至此處時(shí)會(huì)來不及行駛到下游,從而導(dǎo)致道路的車輛通行能力下降。

圖3 施工/事故區(qū)示意圖

1.2 高速公路控制策略

為緩解瓶頸區(qū)域的交通擁堵狀況,一般采用匝道控制和平滑車速控制2種方法[6]。

1.2.1 匝道控制

當(dāng)出現(xiàn)惡劣天氣或嚴(yán)重的交通擁堵現(xiàn)象時(shí),外部車輛不再適合進(jìn)入主線行駛,可臨時(shí)關(guān)閉匝道,這種策略能較好地提升主線的通行能力,但會(huì)在很大程度上影響車輛的行駛路線,并使城市路網(wǎng)的交通壓力增大[7]。另一種匝道控制方式是設(shè)置交通信號(hào)燈,周期性地控制匝道出入口的車流量。

1.2.2 平滑車速控制

平滑車速控制是指通過在道路上布設(shè)的傳感器和攝像頭等設(shè)備實(shí)時(shí)檢測(cè)道路的交通運(yùn)行環(huán)境,根據(jù)檢測(cè)到的信息實(shí)時(shí)調(diào)整情報(bào)板上的限速值,從而使車輛能安全平穩(wěn)地通過交通瓶頸區(qū),進(jìn)而減少交通擁堵現(xiàn)象。同時(shí),通過速度控制能減少交通事故的發(fā)生,保障高速公路上車輛通行的安全性[6]。

1.3 平滑車速控制的必要性

平滑車速控制在提升車輛通行效率方面具有良好的效果。高速公路上的車輛在瓶頸區(qū)域會(huì)遇到擁堵現(xiàn)象,甚至是排隊(duì)現(xiàn)象,此時(shí)擁堵狀況會(huì)蔓延至上游路段,從而影響整個(gè)道路的運(yùn)行情況,若不及時(shí)采取控制措施,道路會(huì)進(jìn)入癱瘓狀態(tài)。因此,在道路出現(xiàn)擁堵現(xiàn)象之前,通過平滑車速控制緩解瓶頸區(qū)域的車流量,從而盡可能地避免出現(xiàn)擁堵現(xiàn)象。

此外,平滑車速控制能提升車輛行駛的安全性。若跟車行駛的車輛之間的距離很小,當(dāng)前車的駕駛員因某種突發(fā)狀況而緊急剎車時(shí),后車很容易因操作不及時(shí)而發(fā)生追尾事故,此時(shí)若不能及時(shí)控制,二次事故發(fā)生率會(huì)大大提升。對(duì)車輛進(jìn)行平滑車速控制能有效控制其行駛速度,減小車輛間的速度差,平滑交通流,從而防止追尾事故的發(fā)生[7-8]。

2 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

該系統(tǒng)采用數(shù)學(xué)模型對(duì)交通流演化規(guī)律進(jìn)行精準(zhǔn)表達(dá),將平滑車速控制問題轉(zhuǎn)化為最優(yōu)求解問題,基于DDQN算法對(duì)最優(yōu)限速值進(jìn)行實(shí)時(shí)求解。根據(jù)實(shí)際交通運(yùn)行狀態(tài)與期望運(yùn)行狀態(tài)之間的偏差對(duì)限速值進(jìn)行調(diào)整,以使快速路瓶頸路段內(nèi)的交通流運(yùn)行狀態(tài)維持在其通行能力附近。該基于DDQN算法的平滑車速控制系統(tǒng)流程圖見圖4。

圖4 基于DDQN算法的平滑車速控制系統(tǒng)流程圖

2.1 系統(tǒng)功能模塊

該系統(tǒng)根據(jù)事故風(fēng)險(xiǎn)和擁堵程度確定動(dòng)態(tài)限速啟動(dòng)的閾值,根據(jù)道路上是否有特殊事件發(fā)生將限速值確定方式分為2種:若有特殊事件發(fā)生,則選擇預(yù)設(shè)的限速方案;若無特殊事件發(fā)生,則采用DDQN算法對(duì)最優(yōu)限速值進(jìn)行實(shí)時(shí)求解。該系統(tǒng)主要包含動(dòng)態(tài)限速啟動(dòng)模塊、限速值確定與更新模塊和情報(bào)板動(dòng)態(tài)發(fā)布模塊等3個(gè)模塊,見圖5。

圖5 基于DDQN的平滑車速控制系統(tǒng)功能模塊圖

2.1.1 動(dòng)態(tài)限速啟動(dòng)

根據(jù)當(dāng)前的交通狀態(tài)實(shí)時(shí)預(yù)測(cè)事故風(fēng)險(xiǎn)和道路擁堵程度,由此反映道路的車輛通行能力。當(dāng)通行能力下降到標(biāo)定的閾值時(shí),啟動(dòng)上游的平滑車速控制策略,實(shí)現(xiàn)主動(dòng)進(jìn)行交通控制。

2.1.2 限速值確定與更新

若已發(fā)生特殊事件(包括交通擁堵、事故和惡劣天氣等),則選擇預(yù)設(shè)的限速方案;若尚未發(fā)生特殊事件,為避免事故發(fā)生,當(dāng)預(yù)測(cè)事故風(fēng)險(xiǎn)值大于閾值時(shí),通過預(yù)測(cè)不同限速值下的交通狀態(tài)預(yù)測(cè)事故風(fēng)險(xiǎn),事故風(fēng)險(xiǎn)較小和道路通行能力較強(qiáng)時(shí)的限速值即為最優(yōu)限速值。避免限速時(shí)間過長,以免無法響應(yīng)交通狀況的變化;同時(shí),避免限速時(shí)間過短,以免限速控制效果較差。此外,避免短時(shí)間內(nèi)連續(xù)切換限速值影響駕駛員的安全行駛,限速值更新步長一般取10 min為宜。

2.1.3 情報(bào)板動(dòng)態(tài)發(fā)布

通過可變情報(bào)板及時(shí)發(fā)布更新的各路段、各車道的限速值,及時(shí)影響駕駛員的駕駛行為,保證動(dòng)態(tài)限速措施的實(shí)施效果。

2.2 深度強(qiáng)化學(xué)習(xí)算法

將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來即為深度強(qiáng)化學(xué)習(xí),其中DDQN算法是常見的深度強(qiáng)化學(xué)習(xí)算法之一,由最基礎(chǔ)的Q-學(xué)習(xí)算法改進(jìn)而來。深度強(qiáng)化學(xué)習(xí)算法主要依靠狀態(tài)集、動(dòng)作集、回報(bào)函數(shù)和學(xué)習(xí)參數(shù)實(shí)現(xiàn),目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回顧是其2個(gè)重要特性,能顯著提升算法的性能[9]。經(jīng)驗(yàn)回顧是指將樣本數(shù)據(jù)儲(chǔ)存起來,每次迭代學(xué)習(xí)時(shí),從記憶池中隨機(jī)選取樣本對(duì)實(shí)時(shí)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以更新參數(shù)θ,降低樣本的自相關(guān)性。經(jīng)驗(yàn)回顧能使樣本重復(fù)利用,從而提高學(xué)習(xí)效率。在從記憶池中取樣時(shí),采用優(yōu)先經(jīng)驗(yàn)回顧方法,其核心是在取樣時(shí)優(yōu)先選擇可能取得更好學(xué)習(xí)效果的樣本[10]。TD(Temporal Difference)誤差能用來估計(jì)樣本可能取得的學(xué)習(xí)效果,因此采用TD誤差計(jì)算樣本被選取的概率,各樣本被選取的優(yōu)先級(jí)pi的計(jì)算公式為

pi=|δi|+c

(1)

式(1)中:δi為TD誤差;c為大于0的常數(shù)。為保證δi=0的樣本依然有概率被選取,令δi的計(jì)算公式為

δi=Yi-Q(si,ai;θi)

(2)

式(2)中:Yi為目標(biāo)值;si為狀態(tài);ai為動(dòng)作;Q(si,ai;θi)為通過實(shí)時(shí)神經(jīng)網(wǎng)絡(luò)θi計(jì)算的Q值。Yi的計(jì)算公式為

(3)

樣本i被選取的概率p(i)的計(jì)算公式為

(4)

式(4)中:k為從記憶池中選取的樣本量;α為優(yōu)先程度,α=0表示均勻采樣。

由于采用優(yōu)先經(jīng)驗(yàn)回顧方法會(huì)產(chǎn)生修正誤差,因此在更新神經(jīng)網(wǎng)絡(luò)參數(shù)時(shí),需采用IS權(quán)重(Importance-Sampling Weights)更新方法,其表達(dá)式為

(5)

式(5)中:θt和θt+1分別為神經(jīng)網(wǎng)絡(luò)在t時(shí)刻和t+1時(shí)刻的參數(shù);ωi為經(jīng)驗(yàn)樣本i的IS權(quán)重。ωi的計(jì)算公式為

(6)

式(6)中:N為經(jīng)驗(yàn)池中的經(jīng)驗(yàn)樣本總數(shù);β為優(yōu)先經(jīng)驗(yàn)回顧的優(yōu)先取樣概率。

通過以上訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)逐漸收斂,并計(jì)算出Q值,智能體在每種狀態(tài)下都會(huì)選擇Q值最大的動(dòng)作,即最優(yōu)動(dòng)作,在該環(huán)境中采取最優(yōu)控制策略。

2.3 基于DDQN算法的平滑車速控制策略

相比傳統(tǒng)的Q-學(xué)習(xí)算法,DDQN算法能加入更多的狀態(tài)變量,更準(zhǔn)確地感知交通狀態(tài),并通過神經(jīng)網(wǎng)絡(luò)的方式計(jì)算狀態(tài)-動(dòng)作對(duì)的Q值[11]。此外,交通數(shù)據(jù)中不可避免地會(huì)含有數(shù)據(jù)噪聲,引發(fā)過優(yōu)化問題。DDQN算法通過采用不同的值函數(shù)對(duì)Q值動(dòng)作進(jìn)行選擇和計(jì)算解決過優(yōu)化問題[12]。因此,基于DDQN算法的平滑車速控制策略能取得更佳的控制效果,該控制策略框架圖見圖6。

圖6 基于DDQN算法的平滑車速控制策略框架圖

基于狀態(tài)si使DDQN智能體感知高速公路的運(yùn)行狀態(tài);針對(duì)當(dāng)前的狀態(tài)選擇動(dòng)作ai(限速值),通過該動(dòng)作的變換促使當(dāng)前的交通流運(yùn)行狀態(tài)轉(zhuǎn)移到新狀態(tài),并計(jì)算該動(dòng)作導(dǎo)致的交通流狀態(tài)變化對(duì)應(yīng)的獎(jiǎng)勵(lì)值ri+1;將這一步訓(xùn)練的數(shù)據(jù)作為經(jīng)驗(yàn)樣本存儲(chǔ)到記憶池中,神經(jīng)網(wǎng)絡(luò)不斷利用記憶池中的樣本進(jìn)行訓(xùn)練。[9]針對(duì)每個(gè)狀態(tài)動(dòng)作配對(duì)重復(fù)上述學(xué)習(xí)過程,隨著神經(jīng)網(wǎng)絡(luò)的不斷收斂,智能體會(huì)不斷選擇最優(yōu)動(dòng)作,使累計(jì)獎(jiǎng)勵(lì)值最大,即確定最優(yōu)限速值。

根據(jù)平滑車速控制策略的實(shí)際應(yīng)用場(chǎng)景,需確定深度強(qiáng)化學(xué)習(xí)算法的關(guān)鍵參數(shù),具體如下。

1) 狀態(tài)s。一般通過在路網(wǎng)中布設(shè)的檢測(cè)器采集關(guān)鍵交通數(shù)據(jù),主要包括瓶頸區(qū)的車輛密度、控制區(qū)的車輛密度和上個(gè)控制周期的限速值。瓶頸區(qū)的車輛密度為平滑車速控制中的被控制量;控制區(qū)的密度體現(xiàn)開展平滑車速控制時(shí)的交通運(yùn)行狀況;加入上個(gè)控制周期的限速值防止限速值變化幅度過大影響駕駛員的判斷,從而使道路的事故風(fēng)險(xiǎn)增加。

2) 動(dòng)作a。動(dòng)作a為平滑車速控制區(qū)的限速值,本文的動(dòng)作集為{5,10,15,…,80},共有16個(gè)動(dòng)作,高速公路作業(yè)區(qū)的限速標(biāo)準(zhǔn)以安全通過為標(biāo)準(zhǔn)。

3) 獎(jiǎng)勵(lì)值r。控制策略的目標(biāo)是縮短整個(gè)瓶頸區(qū)內(nèi)車輛的總通行時(shí)間,將時(shí)間分為n個(gè)時(shí)長為μ的區(qū)間,此時(shí)總通行時(shí)間的計(jì)算公式為

(7)

式(7)中:T為總出行時(shí)間;N為瓶頸區(qū)內(nèi)的初始車輛數(shù);q(i)為在時(shí)間i時(shí)進(jìn)入瓶頸區(qū)的車輛數(shù);s(i)為在時(shí)間i時(shí)離開瓶頸區(qū)的車輛數(shù)。由交通流理論中車輛密度與車流量的關(guān)系可知,車輛密度過大或過小都會(huì)使車流量無法達(dá)到最大值,只有當(dāng)車輛密度取某一合適值時(shí),車流量才能達(dá)到最大,將該車輛密度稱為最佳車輛密度。因此,平滑車速控制策略的獎(jiǎng)勵(lì)值根據(jù)瓶頸區(qū)的車輛密度確定,車輛密度越接近最佳車輛密度,獎(jiǎng)勵(lì)值越大。

4) 神經(jīng)網(wǎng)絡(luò)。該策略存在實(shí)時(shí)神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練之后,對(duì)于特定的狀態(tài),利用神經(jīng)網(wǎng)絡(luò)能準(zhǔn)確計(jì)算出限速值對(duì)應(yīng)的Q值,智能體會(huì)直接選取Q值最大的限速值,即最優(yōu)限速值。

5) 動(dòng)作選擇策略。DDQN智能體采用ε-greedy算法選擇限速值,即根據(jù)ε概率隨機(jī)選擇限速值,根據(jù)1-ε概率選擇Q值最大的限速值,因此收斂速度取決于ε的大小。在訓(xùn)練開始時(shí),ε的值會(huì)比較大,以保證能充分搜索,隨著訓(xùn)練的進(jìn)行,ε會(huì)逐漸減小,一旦找到最優(yōu)的限速值,就可一直選擇該限速值。

2.4 仿真試驗(yàn)過程

2.4.1 仿真模型

平滑車速控制策略在實(shí)際應(yīng)用之前需經(jīng)過測(cè)試,由于在實(shí)際場(chǎng)地進(jìn)行測(cè)試的周期較長,費(fèi)用較高,且事故風(fēng)險(xiǎn)較大,一般采用交通流仿真模型對(duì)控制策略進(jìn)行測(cè)試。本文采用最具代表性的元胞傳輸模型[13],由于該模型未考慮基于深度強(qiáng)化學(xué)習(xí)算法的平滑車速控制策略,因此引入新的變量和參數(shù)對(duì)其進(jìn)行修正,建立高度還原實(shí)際交通流,并整合平滑車速控制策略的交通仿真模型。平滑車速控制策略下的交通流基本圖見圖7,假設(shè)交通參與者對(duì)限速值的遵從度為100%,則基本圖左支的斜率即為限速值VSL。當(dāng)左支的斜率發(fā)生變化時(shí),交通流基本圖的頂點(diǎn)位置會(huì)發(fā)生變化,即最大流量變小,密度變大,限速值VSL下的最大流量為QVSL,最大密度為dVSL。因此,根據(jù)平滑車速控制策略下的交通流基本圖可得元胞的發(fā)送能力σ(t)和接受能力δi(t)的計(jì)算公式分別為

圖7 平滑車速控制策略下的交通流基本圖

σ(t)=min{VSL(t)·d(t)·n,QVSL}

(8)

δi(t)=min{w·(dj-d(t))·n,QVSL}

(9)

當(dāng)無平滑車速控制策略時(shí),元胞內(nèi)的車輛平均速度由自由流速度和車輛密度決定。當(dāng)有平滑車速控制策略時(shí),各元胞內(nèi)的車輛平均速度由限速值和車輛密度共同決定,具體計(jì)算公式為

(10)

采用以上計(jì)算方法即可基于元胞傳輸模型仿真平滑車速管控策略下的交通流運(yùn)行情況。

本文選取寧夏高速公路某3 km長的路段作為研究對(duì)象,該路段的主線為4車道,路段內(nèi)含有1個(gè)入口匝道、1個(gè)出口匝道和6臺(tái)線圈檢測(cè)器。線圈檢測(cè)器采集的數(shù)據(jù)主要有速度、流量和占有率。該路段的瓶頸區(qū)域主要位于匝道處,采用CTM仿真從入口匝道匯入主線合流區(qū)域的車流量,仿真數(shù)據(jù)來自于設(shè)置在入口匝道處的線圈檢測(cè)器,截取24 h的交通流數(shù)據(jù)。

2.4.2 DDQN智能體的訓(xùn)練過程

從記憶池中選擇部分訓(xùn)練樣本對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,本文將訓(xùn)練過程劃分為多個(gè)訓(xùn)練小節(jié),在每小節(jié)中都需先將仿真路網(wǎng)初始化,然后仿真24 h的交通運(yùn)行情況,以此循環(huán)。平滑車速控制的周期為10 min,訓(xùn)練過程一直持續(xù)到算法收斂,共經(jīng)歷150個(gè)訓(xùn)練小節(jié),包含21 600個(gè)控制周期。訓(xùn)練場(chǎng)景的交通流量需求由路網(wǎng)實(shí)際需求設(shè)計(jì)得到,路網(wǎng)主線的實(shí)際交通流量需求為3 300~6 800輛/h,路網(wǎng)入口匝道的實(shí)際交通流量需求為280~700輛/h,訓(xùn)練場(chǎng)景中的路網(wǎng)交通流量需求見圖8,波動(dòng)較大,為在訓(xùn)練中能盡可能多地遇到各種交通狀態(tài)。

a) 主線交通流量需求

圖8 訓(xùn)練場(chǎng)景中的路網(wǎng)交通流量需求

本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由1個(gè)輸入層、1個(gè)輸出層和1個(gè)隱藏層組成,其中隱藏層有20個(gè)神經(jīng)元,神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置見表1。優(yōu)先經(jīng)驗(yàn)回顧方法的參數(shù)設(shè)置見表2。β在前500步中從0.4線性遞增至1.0,之后保持不變,β=1.0代表優(yōu)先經(jīng)驗(yàn)回顧的優(yōu)先取樣概率被完全抵消;ε在前500步中從 0.7 線性遞減至0.1,之后保持不變。

表1 神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置

表2 優(yōu)先經(jīng)驗(yàn)回顧方法的參數(shù)設(shè)置

DDQN智能體在每個(gè)訓(xùn)練小節(jié)中取得的平均獎(jiǎng)勵(lì)值直接體現(xiàn)訓(xùn)練效果的好壞,平均獎(jiǎng)勵(lì)值越大,說明訓(xùn)練效果越好,DDQN智能體在訓(xùn)練過程中取得的平均獎(jiǎng)勵(lì)值見圖9。DDQN智能體的平均獎(jiǎng)勵(lì)值在前90個(gè)訓(xùn)練小節(jié)中波動(dòng)較大,在第90個(gè)訓(xùn)練小節(jié)左右達(dá)到最大,并在之后保持穩(wěn)定。

圖9 DDQN智能體在訓(xùn)練過程中取得的平均獎(jiǎng)勵(lì)值

2.5 平滑車速控制策略效果

為驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)算法的平滑車速控制系統(tǒng)對(duì)道路車輛通行效率的影響,在仿真環(huán)境中對(duì)訓(xùn)練好的DDQN智能體進(jìn)行測(cè)試,改變路網(wǎng)的交通流量需求,用車流量反映交通運(yùn)行情況,不限速、固定限速值(60 km/h)和平滑車速控制等策略下的交通運(yùn)行情況見圖10,根據(jù)式(7)計(jì)算得到的瓶頸區(qū)內(nèi)車輛總通行時(shí)間見表3。

圖10 不同控制策略下的交通運(yùn)行情況

表3 不同控制策略下的瓶頸區(qū)內(nèi)車輛總通行時(shí)間計(jì)算結(jié)果

綜上所述:在平滑車速控制策略下,瓶頸區(qū)內(nèi)車輛的總通行時(shí)間明顯減少;不同控制條件下路段內(nèi)的車流量均在某個(gè)區(qū)間內(nèi)上下波動(dòng),但平滑車速控制策略下的區(qū)間明顯大于其他策略,具有較好的控制效果。

3 結(jié) 語

在高速公路車速控制方面,對(duì)平滑車速控制進(jìn)行研究具有重要意義,針對(duì)高速公路交通瓶頸區(qū)合理準(zhǔn)確地確定限速值,能提升道路的車輛通行效率和通行安全性。本文設(shè)計(jì)并實(shí)現(xiàn)了基于深度強(qiáng)化學(xué)習(xí)算法的平滑車速控制系統(tǒng),并在仿真環(huán)境下對(duì)其有效性進(jìn)行了驗(yàn)證,效果良好,能在未來的道路交通瓶頸區(qū)推廣應(yīng)用。

猜你喜歡
控制策略
基于改進(jìn)VSG的船舶岸電并網(wǎng)控制策略
考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
工程造價(jià)控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現(xiàn)代企業(yè)會(huì)計(jì)的內(nèi)部控制策略探討
鋼鐵行業(yè)PM2.5控制策略分析
容錯(cuò)逆變器直接轉(zhuǎn)矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
基于虛擬同步發(fā)電機(jī)原理的逆變器控制策略與仿真
一種改進(jìn)的感應(yīng)電機(jī)查表法弱磁控制策略
基于對(duì)等控制策略的微電網(wǎng)運(yùn)行
主站蜘蛛池模板: 久久久久人妻一区精品| 区国产精品搜索视频| a在线亚洲男人的天堂试看| 日本午夜三级| 毛片免费高清免费| 老汉色老汉首页a亚洲| 91在线中文| 国产中文在线亚洲精品官网| 国内老司机精品视频在线播出| 国产簧片免费在线播放| 草草线在成年免费视频2| 亚洲一区毛片| 欧美精品xx| 成人噜噜噜视频在线观看| 99热最新在线| 国产精品国产三级国产专业不| 欧美日韩va| 99久久99这里只有免费的精品| 国产尤物jk自慰制服喷水| 四虎综合网| 秋霞国产在线| 国产微拍一区二区三区四区| 欧美日韩v| 好吊日免费视频| 亚洲中文字幕无码爆乳| 谁有在线观看日韩亚洲最新视频 | 亚洲婷婷在线视频| 天天做天天爱天天爽综合区| 日韩国产欧美精品在线| 日韩无码视频网站| 丰满人妻一区二区三区视频| 四虎国产在线观看| 伊人久久久久久久| 一区二区欧美日韩高清免费| 2020极品精品国产| 亚洲人成亚洲精品| 欧美国产日韩在线观看| 久精品色妇丰满人妻| 操美女免费网站| 国产白浆视频| 亚洲无码91视频| 国产人成乱码视频免费观看| 亚洲人妖在线| 在线观看精品国产入口| 国产91精品久久| 中文无码精品A∨在线观看不卡| 亚洲熟女偷拍| 国产精品无码翘臀在线看纯欲| 91精品伊人久久大香线蕉| 国产精品刺激对白在线| 精品福利视频导航| 久久亚洲国产最新网站| 国产亚洲精品精品精品| 在线观看亚洲天堂| 日韩在线视频网站| 中文字幕人成乱码熟女免费| 国产一区亚洲一区| 天天躁夜夜躁狠狠躁躁88| 亚洲国产精品一区二区第一页免 | 伊人色综合久久天天| 亚洲天堂视频网站| 97se亚洲综合在线| 成人亚洲视频| 欧美成人区| 精品伊人久久久久7777人| 日本尹人综合香蕉在线观看| 992tv国产人成在线观看| 91精品国产91久无码网站| 丁香五月激情图片| 久久久久久久久18禁秘| 欧美综合成人| 国产第四页| 國產尤物AV尤物在線觀看| 亚洲AV一二三区无码AV蜜桃| 国产成人综合久久精品下载| 99国产精品国产| 又污又黄又无遮挡网站| 手机在线国产精品| 草草影院国产第一页| 色综合成人| 国产原创第一页在线观看| 高清欧美性猛交XXXX黑人猛交|