999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度確定性策略梯度算法耦合模型驅(qū)動(dòng)的行人過街仿真

2023-09-15 02:44:38王彥林魏昕愷韋艷芳
關(guān)鍵詞:策略模型

宋 濤 王彥林 魏昕愷 韋艷芳

(1. 湖州師范學(xué)院理學(xué)院, 浙江 湖州 313000;2. 湖州市數(shù)據(jù)建模與分析重點(diǎn)實(shí)驗(yàn)室, 浙江 湖州 313000;3. 玉林師范學(xué)院物理與電信工程學(xué)院, 廣西 玉林 537000)

行人是城市道路和公共場(chǎng)所中最為普遍的交通參與者之一, 其行為和決策對(duì)于公共安全具有很大的影響[1]. 通過行人建模和仿真技術(shù)可以對(duì)行人在空間設(shè)施下的行為和決策進(jìn)行研究, 如行人過街等城市道路和公共場(chǎng)所中人流密集區(qū)域的安全性問題, 在提高公共安全水平的同時(shí)為公共安全管理提供科學(xué)依據(jù)[2-3].

目前, 行人仿真技術(shù)包括基于動(dòng)力學(xué)模型的方法[4-5]、基于規(guī)則的方法[6-7]、基于數(shù)據(jù)驅(qū)動(dòng)的方法[8-9]、基于機(jī)器學(xué)習(xí)的方法[10-11]等. 2015 年, 受到人工智能技術(shù)在自動(dòng)駕駛領(lǐng)域應(yīng)用的啟發(fā), Mnih 等[12]通過結(jié)合深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策控制能力, 將智能體(如汽車、行人等) 對(duì)周邊場(chǎng)景的理解和決策從傳統(tǒng)建模逐步轉(zhuǎn)化為端到端的決策控制方法. 最近, 研究人員根據(jù)輸入信息嘗試使用深度確定性策略梯度算法直接控制行人的行為, 通過行人與環(huán)境的不斷交互獲取用于控制動(dòng)作輸出的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)[13-15]. 例如: Yao 等[16]提出了一種基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)人群疏散框架, 用于在動(dòng)態(tài)環(huán)境中更真實(shí)地模擬人群疏散現(xiàn)象; Zheng 等[17]提出了一種改進(jìn)的多行人深度確定性策略梯度(deep deterministic policy gradient, DDPG) 算法, 提升了大規(guī)模人群疏散場(chǎng)景中的路徑規(guī)劃任務(wù)性能; Li 等[18]通過區(qū)分人群中的領(lǐng)導(dǎo)者和跟隨者, 提出了一種高效多行人深度確定性策略梯度算法, 提高人群疏散效率; 陳妙云等[19]提出了基于值分布的多行人分布式深度確定性策略梯度算法, 使行人可以適應(yīng)于多種不同場(chǎng)景的仿真, 具有較強(qiáng)的動(dòng)作決策能力. 但是, 單純基于深度確定性策略梯度算法進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的行人不適用于復(fù)雜場(chǎng)景, 并且由于缺少環(huán)境約束條件的輸入, 會(huì)出現(xiàn)行人碰撞的非現(xiàn)實(shí)現(xiàn)象.

為了解決上述問題, 本工作提出了一種深度確定性策略梯度-行人二維優(yōu)化速度模型耦合驅(qū)動(dòng)算法, 并對(duì)無信號(hào)交叉口行人過街行為進(jìn)行仿真研究.

1 算法和仿真

1.1 DDPG 算法

DDPG 算法是針對(duì)連續(xù)行為的策略學(xué)習(xí)方法, 使用確定性策略將價(jià)值函數(shù)與策略函數(shù)結(jié)合, 可用于解決連續(xù)動(dòng)作空間上的強(qiáng)化學(xué)習(xí)問題, 并且取得了優(yōu)異的性能[20]. DDPG 算法基于演員-評(píng)論家(actor-critic, AC) 網(wǎng)絡(luò), 其中演員表示為策略函數(shù), 負(fù)責(zé)生成動(dòng)作并和環(huán)境交互; 而評(píng)論家表示為價(jià)值函數(shù), 負(fù)責(zé)評(píng)估演員的表現(xiàn), 并指導(dǎo)演員下一狀態(tài)的動(dòng)作以得到最大的評(píng)估動(dòng)作價(jià)值(Q值).

基于DDPG 算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括策略網(wǎng)絡(luò)、策略目標(biāo)網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)、價(jià)值目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)池模塊, 具體如圖1 所示. 策略網(wǎng)絡(luò)負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)θQ的迭代更新, 可根據(jù)t時(shí)刻智能體狀態(tài)進(jìn)行動(dòng)作選擇, 并與環(huán)境交互生成下一狀態(tài). 策略目標(biāo)網(wǎng)絡(luò)負(fù)責(zé)從經(jīng)驗(yàn)池中采樣, 選取最優(yōu)動(dòng)作, 并定期更新策略目標(biāo)網(wǎng)絡(luò)參數(shù)θQ′. 價(jià)值網(wǎng)絡(luò)負(fù)責(zé)價(jià)值網(wǎng)絡(luò)參數(shù)θμ的迭代更新, 可計(jì)算t時(shí)刻的即時(shí)報(bào)酬和輸出總和; 價(jià)值目標(biāo)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算價(jià)值目標(biāo)網(wǎng)絡(luò)參數(shù)θμ′中的Q值, 并定期更新θμ′. 經(jīng)驗(yàn)池模塊負(fù)責(zé)存儲(chǔ)各類參數(shù), 為策略目標(biāo)網(wǎng)絡(luò)和價(jià)值目標(biāo)網(wǎng)絡(luò)的動(dòng)作生成提供采樣依據(jù). 當(dāng)經(jīng)驗(yàn)池存滿時(shí), 最新樣本覆蓋最老樣本. 每次訓(xùn)練從緩沖區(qū)中隨機(jī)抽取樣本以更新策略和評(píng)論家網(wǎng)絡(luò).

DDPG 算法步驟如下:

首先, 需要將t時(shí)刻智能體的狀態(tài)st, 包括策略網(wǎng)絡(luò)、策略目標(biāo)網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)、價(jià)值目標(biāo)網(wǎng)絡(luò)參數(shù)θQ、θQ′、θμ、θμ′等輸入演員網(wǎng)絡(luò), 計(jì)算該狀態(tài)下的動(dòng)作at,

式中:μ為行為策略,θ為神經(jīng)網(wǎng)絡(luò)的更新參數(shù),θμ為演員網(wǎng)絡(luò)的權(quán)重;Nt為隨機(jī)噪聲.

假設(shè)訓(xùn)練樣本來自策略β, 則算法的目標(biāo)函數(shù)為

則損失函數(shù)的權(quán)重更新為

式中:yt為下一個(gè)狀態(tài)智能體的策略和評(píng)論家網(wǎng)絡(luò)的即時(shí)報(bào)酬和輸出總和;γ為折扣因子. 通過最小化yt與使用評(píng)論家網(wǎng)絡(luò)計(jì)算的原始Q值的均方差損失函數(shù)來更新評(píng)論家網(wǎng)絡(luò).

確定性策略梯度為

為了提高訓(xùn)練的穩(wěn)定性, DDPG 算法使用雙網(wǎng)絡(luò)結(jié)構(gòu)[21]. 網(wǎng)絡(luò)經(jīng)過隨機(jī)抽樣訓(xùn)練后目標(biāo)網(wǎng)絡(luò)的權(quán)值進(jìn)行一次軟更新. 在狀態(tài)-動(dòng)作序列τ, 即軟更新系數(shù)每次以

進(jìn)行更新, 最終輸出策略網(wǎng)絡(luò)參數(shù)θQ′和評(píng)論家網(wǎng)絡(luò)參數(shù)θμ′, 同時(shí)作為狀態(tài)參量, 參與t+1時(shí)刻的DDPG 算法的神經(jīng)網(wǎng)絡(luò).

1.2 行人仿真

交叉口處的交通流問題一直吸引著研究人員的關(guān)注[22-23], 例如行人過街[2]和智能網(wǎng)聯(lián)汽車協(xié)同控制[24-27]等. 無信號(hào)交叉口行人過街因各方向行人過街意圖不同(直行、左轉(zhuǎn)和右轉(zhuǎn)),就會(huì)形成沖突點(diǎn), 而沖突點(diǎn)之間還會(huì)形成多組交織環(huán), 交織環(huán)中的行人會(huì)阻礙其他方向行人進(jìn)入或走出交織環(huán), 稱為“死鎖” 現(xiàn)象[6-7]. “死鎖” 現(xiàn)象不僅嚴(yán)重阻礙行人交通, 還會(huì)造成非現(xiàn)實(shí)的行人碰撞現(xiàn)象. 在基于規(guī)則的行人仿真技術(shù)中, “死鎖” 現(xiàn)象是必須克服的難點(diǎn)[6-7].

目前, 使用DDPG 算法研究行人過街行為還非常少, 大多研究集中在人群疏散路徑規(guī)劃[13-19]. 研究人員主要考慮基于DDPG 構(gòu)建智能網(wǎng)聯(lián)汽車通過交叉口的協(xié)同控制算法. 例如: Lowe 等[24]提出了考慮混合合作競(jìng)爭(zhēng)環(huán)境的多智能體演員評(píng)論家算法, Wu 等[25]提出了多智能體協(xié)同深度確定性策略梯度算法, 徐澤洲等[26]將其與非支配排序遺傳算法對(duì)比驗(yàn)證了自動(dòng)駕駛汽車的穩(wěn)定性; 蔣明智等[27]提出的漸進(jìn)式價(jià)值期望估計(jì)的多智能體協(xié)同控制算法. 但是上述僅由數(shù)據(jù)驅(qū)動(dòng)的算法并沒有解決智能體在交叉口的“ 死鎖” 現(xiàn)象, 當(dāng)交通流量較大或交叉口復(fù)雜時(shí), 會(huì)產(chǎn)生智能體碰撞現(xiàn)象. 因此, 基于DDPG 算法驅(qū)動(dòng)的行人流仿真與車輛驅(qū)動(dòng)類似, 同樣會(huì)出現(xiàn)行人碰撞的非現(xiàn)實(shí)現(xiàn)象[26-28].

設(shè)置一個(gè)雙向單行道、無信號(hào)交叉口作為仿真實(shí)驗(yàn)場(chǎng)景(見圖2), 行人(紅點(diǎn)) 在交叉路口中可以選擇直行、左轉(zhuǎn)或右轉(zhuǎn). 為了描述行人的動(dòng)力學(xué)特性, 假設(shè)行人通過交叉路口時(shí)隨機(jī)選擇直行、左轉(zhuǎn)或右轉(zhuǎn)行進(jìn). 該場(chǎng)景中, 每個(gè)行人在t時(shí)刻的行動(dòng)控制為

圖2 仿真場(chǎng)景示意圖Fig.2 Schematic diagram of simulation scenario

式中:at表示由DDPG 算法根據(jù)當(dāng)前狀態(tài)產(chǎn)生的動(dòng)作, 即行人的加速度;pt+1是t+1 時(shí)刻行人與交叉路口的距離;vt+1是t+1 時(shí)刻行人的速度;T為程序控制周期.

2 基于環(huán)境約束條件的行人動(dòng)力學(xué)建模和耦合驅(qū)動(dòng)算法

DDPG 算法驅(qū)動(dòng)的智能體發(fā)生碰撞是由于缺少環(huán)境約束條件的輸入[28], 為了解決這一缺陷, 在實(shí)現(xiàn)行人防碰撞功能基礎(chǔ)上提高算法對(duì)復(fù)雜場(chǎng)景的適應(yīng)性. 本工作通過引入行人二維優(yōu)化速度模型實(shí)現(xiàn)環(huán)境約束條件, 進(jìn)而與DDPG 算法比對(duì)完成輸入, 再利用仿真實(shí)現(xiàn)行人防碰撞功能, 來驗(yàn)證耦合模型驅(qū)動(dòng)控制策略的有效性.

2.1 行人二維優(yōu)化速度模型

Nakayama 等[29]提出的行人二維優(yōu)化速度模型為

式中: 二維矢量xj=(xj,yj),xk=(xk,yk)分別表示行人j和k的位置;V0為常矢量,表示行人的期望速度, 即當(dāng)某個(gè)行人周圍沒有其他行人時(shí), 其將會(huì)以期望速度前進(jìn); 函數(shù)F(xk -xj)表示行人之間的相互作用力.

另外, 行人行走還需考慮前方行人的影響. Zhao 等[31]提出了一種帶有速度差項(xiàng)的行人二維優(yōu)化速度模型, 但由于形式復(fù)雜, 使用較少.

基于上述考慮, 同時(shí)結(jié)合優(yōu)化速度模型增加速度差項(xiàng)的改進(jìn)[32-33], 本工作提出了帶有速度差項(xiàng)且使用非對(duì)稱相互作用力函數(shù)的模型,

式中: Δvj表示行人j與前方行人的速度差(當(dāng)行人呈單列單向運(yùn)動(dòng)時(shí)); 常數(shù)k為速度差項(xiàng)系數(shù). 當(dāng)行人之間距離較近時(shí), 速度差項(xiàng)的作用較大; 而距離較遠(yuǎn)時(shí), 作用較小.

2.2 耦合模型驅(qū)動(dòng)算法流程

行人通過無信號(hào)交叉口的算法流程如圖3 所示.

圖3 算法流程示意圖Fig.3 Schematic diagram of algorithm

(1) 算法開始.

(2) 將每個(gè)行人的狀態(tài)作為程序輸入, 其中包括行人的速度、與前方行人的距離、前方行人的速度以及該行人是否已經(jīng)通過交叉路口等信息.

(3) 與行人的周邊環(huán)境進(jìn)行交互, 同時(shí)生成當(dāng)前行人的2 個(gè)加速度. 一個(gè)加速度是由深度確定梯度策略生成, 另一個(gè)是由當(dāng)前行人的速度、與前方行人的距離以及前方行人的速度決定的行人二維優(yōu)化速度模型生成.

(4) 將生成的2 個(gè)行人加速度進(jìn)行比較并決定驅(qū)動(dòng)加速度, 以此更新實(shí)際加速度.

(5) 輸出行人的加速度, 并使用該加速度更新其狀態(tài).

(6) 如果還有未通過交叉路口的行人, 則循環(huán), 直到遍歷完畢.

(7) 算法結(jié)束.

步驟(4) 的驅(qū)動(dòng)加速度通過

進(jìn)行選擇, 其中afact為每個(gè)行人的實(shí)際(驅(qū)動(dòng)) 加速度, 由t時(shí)刻DDPG 算法產(chǎn)生的加速度at與行人二維優(yōu)化速度模型生成的加速度an比較產(chǎn)生. 綜合考慮行人通過交叉口的緊迫性和安全性[2], 本工作選擇2 個(gè)加速度中的更大值作為實(shí)際加速度afact.

3 模型假設(shè)及參數(shù)設(shè)置

3.1 模型假設(shè)

仿真場(chǎng)景是連續(xù)行人通過無信號(hào)交叉口. 為了體現(xiàn)引入帶有速度差項(xiàng)的行人二維優(yōu)化速度模型實(shí)現(xiàn)環(huán)境約束條件下對(duì)深度確定梯度策略驅(qū)動(dòng)智能體運(yùn)動(dòng)算法的改進(jìn), 假設(shè)如下: ①道路是平直的, 行人運(yùn)動(dòng)按照前后順序行動(dòng), 不允許行人突然超越另一個(gè)行人或者改變道路; ②行人的加速或減速僅受到前方最近的行人速度和與本行人的距離的影響, 且沒有延遲或者干擾; ③當(dāng)前方行人與本行人的距離較遠(yuǎn)時(shí), 行人將加速達(dá)到期望速度運(yùn)動(dòng); ④當(dāng)行人之間的距離在一定范圍內(nèi)時(shí), 行人二維優(yōu)化速度模型將會(huì)生效, 其中行人將考慮與前方行人的距離、自身速度、與前方行人速度等條件動(dòng)態(tài)調(diào)整加速度; ⑤當(dāng)這些行人通過交叉口時(shí), 已經(jīng)確定了明確的行走意圖, 例如直行、左轉(zhuǎn)或右轉(zhuǎn); ⑥由于在交叉口處不同行走意圖的行人軌跡將有重合,會(huì)產(chǎn)生行人碰撞現(xiàn)象, 如果檢測(cè)到行人在交叉口處發(fā)生碰撞, 為了不干擾正常行人流的運(yùn)動(dòng),將直接從仿真場(chǎng)景中刪除發(fā)生碰撞的行人, 具體情形如圖4 所示.

圖4 兩個(gè)行人發(fā)生碰撞示意圖Fig.4 Schematic diagram of the collision between two pedestrians

3.2 參數(shù)設(shè)置

3.2.1 獎(jiǎng)勵(lì)函數(shù)

使用強(qiáng)化學(xué)習(xí)算法關(guān)鍵是設(shè)置獎(jiǎng)勵(lì)函數(shù). 由于安全性和緊迫性是行人通過無信號(hào)交叉口最重要的考慮因素, 基于此, 結(jié)合交叉口處避免車輛碰撞的工作[26-27,34], 本工作中的獎(jiǎng)勵(lì)函數(shù)將目標(biāo)行人與最近鄰(nearest neighbor, NN) 行人的預(yù)計(jì)碰撞時(shí)間(time to collision, TTC)和相鄰距離Sd作為構(gòu)建的主要評(píng)估因素, 有

式中: 獎(jiǎng)勵(lì)函數(shù)r(t) 表示當(dāng)目標(biāo)行人發(fā)生碰撞或者行走在道路上不在交叉口范圍內(nèi)時(shí), 采用常數(shù)作為獎(jiǎng)勵(lì)值; 而當(dāng)行人處于交叉口范圍內(nèi)時(shí), 獎(jiǎng)勵(lì)函數(shù)ru(t) 由時(shí)間因素和空間因素兩部分組成.

式中:xj和vj分別是目標(biāo)行人的位置和速度;和分別是其最近鄰行人的位置和速度;rTTC(t) 和rSd(t) 分別是考慮時(shí)間和空間的獎(jiǎng)勵(lì)函數(shù);tcr和dcr分別是考慮行人過街緊迫性和安全性的時(shí)間閾值和空間距離閾值;δ為伸縮因子. 當(dāng)?shù)陀趖cr或dcr時(shí), 認(rèn)為行人此時(shí)的狀態(tài)有碰撞風(fēng)險(xiǎn), 獎(jiǎng)勵(lì)函數(shù)開始生效, 對(duì)行使該策略的決策進(jìn)行懲罰, 否則獎(jiǎng)勵(lì)函數(shù)不生效.

3.2.2 環(huán)境參數(shù)

行人流仿真使用隨機(jī)生成的時(shí)間序列Tseq=[t1,t2,··· ,tn] 構(gòu)建訓(xùn)練集, 以模擬不同道路的行人流量. 每條道路的行人時(shí)間序列根據(jù)泊松分布隨機(jī)生成, 為了避免初始產(chǎn)生的前后行人發(fā)生碰撞, 設(shè)置閾值Δtmin.

式中: Δtmin表示前后行人進(jìn)入仿真場(chǎng)景下道路的時(shí)間間隔閾值;FR表示行人流量, 即每小時(shí)通過該道路的行人數(shù)目除以道路數(shù);R表示服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量.

為了解決樣本的相關(guān)性和非靜態(tài)分布問題, 使用不同密度和流量的時(shí)間序列數(shù)據(jù)構(gòu)建訓(xùn)練集, 并利用生成的時(shí)間序列進(jìn)行不間斷的訓(xùn)練, 直到程序完成所有循環(huán). 而在測(cè)試過程中, 則可以通過調(diào)整行人流量FR來進(jìn)行不同場(chǎng)景下的測(cè)試.

對(duì)于行人二維優(yōu)化速度模型(式(1) 和(2)), 參數(shù)a=2. 因?yàn)榧僭O(shè)行人加速度只會(huì)受其前方行人狀態(tài)的影響, 所以函數(shù)F(xk -xj) 中角度φ= 0. 非對(duì)稱相互作用力函數(shù)f(rkj) 中取α=0.55,δ=-0.9,n=3,d=1.0[35]. 對(duì)于帶有速度差項(xiàng)的模型(式(2)), 速度差項(xiàng)系數(shù)k取0.1.

取初始演員網(wǎng)絡(luò)學(xué)習(xí)率為10-4,評(píng)論家網(wǎng)絡(luò)學(xué)習(xí)率為10-3,每一次優(yōu)化迭代次數(shù)為6 000,優(yōu)化抽樣樣本數(shù)為128, 訓(xùn)練回合數(shù)為60, 測(cè)試回合數(shù)為1 000. 其他相關(guān)參數(shù)的實(shí)際取值如表1 所示.

表1 參數(shù)和取值Table 1 Parameters and values

4 行人流仿真實(shí)驗(yàn)結(jié)果與分析

4.1 訓(xùn)練實(shí)驗(yàn)結(jié)果及分析

因?yàn)閱渭冇蒁DPG 算法驅(qū)動(dòng)的行人仿真在復(fù)雜場(chǎng)景下存在碰撞現(xiàn)象, 所以需要將耦合行人二維優(yōu)化速度模型的改進(jìn)算法進(jìn)行對(duì)比分析. 將耦合無速度差項(xiàng)的行人二維優(yōu)化速度模型(式(1)) 稱為無速度差模型; 耦合速度差項(xiàng)的行人二維優(yōu)化速度模型(式(2)) 稱為有速度差模型. 在下述分析中, “DDPG” “無速度差” 和“有速度差” 分別指代DDPG 算法模型、無速度差模型和有速度差模型.

在模型算法訓(xùn)練方面, 盡管圖5(a)中的平均準(zhǔn)確率曲線似乎表明DDPG 算法和無速度差模型的平均準(zhǔn)確率要高于有速度差模型, 并且在訓(xùn)練步數(shù)達(dá)到100 000 之后, 其保持穩(wěn)定在更高的水平上, 波動(dòng)很小, 而有速度差模型則表現(xiàn)為平均準(zhǔn)確率稍低, 波動(dòng)較大. 但是, 從圖5(b)的平均獎(jiǎng)勵(lì)曲線來看, DDPG 算法和有速度差模型的平均獎(jiǎng)勵(lì)值要高于無速度差模型, 并且相比于無速度差模型, DDPG 算法和有速度差模型的平均獎(jiǎng)勵(lì)值隨著訓(xùn)練步數(shù)的增加而逐漸增加. 因此, 對(duì)比看出, 有速度差模型相比無速度差模型在訓(xùn)練后選擇動(dòng)作的性能相對(duì)更好,最終得到的獎(jiǎng)勵(lì)也更高, 即更趨向于選擇回報(bào)較大的動(dòng)作.

圖5 平均準(zhǔn)確率和平均獎(jiǎng)勵(lì)值隨訓(xùn)練步數(shù)的變化Fig.5 The average accuracy and average reward values changing with the training steps

圖6(a) 的評(píng)論家網(wǎng)絡(luò)損失函數(shù)值在無速度差和有速度差2 個(gè)模型之間沒有明顯的區(qū)別;同時(shí), 隨著訓(xùn)練步數(shù)的增加, DDPG 算法得到的評(píng)論家網(wǎng)絡(luò)損失函數(shù)值也與2 個(gè)耦合模型趨近. 但是圖6(b) 的演員網(wǎng)絡(luò)損失函數(shù)值曲線中, 有速度差模型的損失函數(shù)下降得最快. 由于智能體在強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)中傾向于選擇更優(yōu)的動(dòng)作, 這表明有速度差模型在行人流仿真中相比DDPG 算法和無速度差模型而言是相對(duì)更優(yōu)的.

圖6 評(píng)論家網(wǎng)絡(luò)損失函數(shù)值和演員網(wǎng)絡(luò)損失函數(shù)值隨訓(xùn)練步數(shù)的變化Fig.6 The loss function values of critic network and actor network changing with the training steps

從圖7(a) 可以看出, DDPG 算法始終不收斂, 意味著在仿真時(shí)無法避免行人碰撞. 無速度差模型在開始時(shí)收斂速度更快, 但當(dāng)訓(xùn)練回合數(shù)達(dá)到11 回合時(shí), 碰撞率不再降低, 反而有所反彈, 最終穩(wěn)定在較高水平, 導(dǎo)致在仿真時(shí)不斷有行人發(fā)生碰撞. 相比之下, 有速度差模型雖然收斂速度較慢, 但在20 回合時(shí)已基本收斂到0, 并在之后的訓(xùn)練中保持極低碰撞率, 幾乎不再發(fā)生行人碰撞現(xiàn)象. 從圖7(b) 也可以看出, 當(dāng)訓(xùn)練步數(shù)超過100 000 時(shí), 有速度差模型的碰撞行人累計(jì)數(shù)已經(jīng)不再增加, 而DDPG 算法和無速度差模型始終線性增加, 不過無速度差模型增長(zhǎng)率遠(yuǎn)大于DDPG 算法. 因此, 有速度差模型在碰撞率的收斂性表現(xiàn)上相比DDPG 算法和無速度差模型而言更優(yōu).

圖7 行人碰撞率和碰撞行人累計(jì)數(shù)隨訓(xùn)練步數(shù)的變化Fig.7 Pedestrians collision rate and cumulative number of collision changing with the training steps

對(duì)行人碰撞現(xiàn)象的算法差異也可以從行人運(yùn)動(dòng)指標(biāo)方面進(jìn)行進(jìn)一步解釋. 圖8(a) 顯示了行人平均速度隨訓(xùn)練步數(shù)的變化趨勢(shì), 圖8(b) 顯示了行人加速度變化率隨訓(xùn)練步數(shù)的變化趨勢(shì). 行人加速度變化率是指每個(gè)行人加速度變化率絕對(duì)值之和的計(jì)算結(jié)果. 從圖8(a) 可以看出, 有速度差模型和無速度差模型在曲線趨勢(shì)上并沒有太大的差別, DDPG 算法曲線隨著訓(xùn)練步數(shù)的增加與兩個(gè)模型趨于一致. 這也可以從圖8(b) 中看出, 無速度差模型的加速度變化率曲線呈現(xiàn)先上升后下降的趨勢(shì), DDPG 算法曲線始終較為穩(wěn)定, 兩者最后均保持在較低同值水平. 這表明每個(gè)行人智能體在學(xué)習(xí)初期采用探索性策略, 通過改變加速度來改變速度與環(huán)境進(jìn)行交互, 但是在后期則使用保守策略, 不再大幅改變加速度來避免碰撞. 這也是DDPG 算法和無速度差模型的行人碰撞率極難控制, 碰撞行人累計(jì)數(shù)始終線性增加的原因.

圖8 行人平均速度和加速度變化率隨訓(xùn)練步數(shù)的變化Fig.8 The average speed and acceleration rate of pedestrians changing with the training steps

相比之下, 有速度差模型采用更積極的策略與環(huán)境交互, 不斷改變加速度以改變平均速度, 這表現(xiàn)為圖8(b) 中曲線波動(dòng)較大. 在圖8(b) 中, 當(dāng)DDPG 算法和無速度差模型的加速度穩(wěn)定在低水平時(shí), 有速度差模型仍然會(huì)與環(huán)境交互, 改變加速度以避免碰撞. 最后, 有速度差模型的碰撞率得到有效控制, 仿真效果更加接近現(xiàn)實(shí)且效率更高.

4.2 測(cè)試實(shí)驗(yàn)結(jié)果及分析

采用3 種算法分別對(duì)無信號(hào)交叉口行人流仿真場(chǎng)景測(cè)試1 000 回合, 分別提取仿真場(chǎng)景的101、301、501、701 和999 回合時(shí)行人的碰撞率和行人通過交叉口的平均時(shí)間, 具體結(jié)果見表2.

表2 行人仿真數(shù)據(jù)的比較Table 2 Comparison of pedestrian simulation data

從表2 中可以發(fā)現(xiàn), 在訓(xùn)練相同的回合數(shù)下, 在行人避免碰撞方面, 有速度差模型的表現(xiàn)優(yōu)于DDPG 算法和無速度差模型. DDPG 算法和無速度差模型在實(shí)際場(chǎng)景測(cè)試中仍會(huì)發(fā)生少量行人碰撞現(xiàn)象. 在501 回合時(shí), 57 個(gè)行人中就已有2 人發(fā)生了碰撞, 碰撞率為0.035 1; 此后就沒有產(chǎn)生行人碰撞現(xiàn)象, 直到999 回合測(cè)試終止, 105 個(gè)行人中還是此2 人發(fā)生了碰撞,碰撞率為0.019. 對(duì)比有速度差模型, 在測(cè)試的1 000 回合中, 始終沒有發(fā)生行人碰撞現(xiàn)象, 即碰撞率為0, 有效改善了基于DDPG 算法驅(qū)動(dòng)的智能體仿真時(shí)產(chǎn)生的碰撞效應(yīng), 做到了仿真與現(xiàn)實(shí)相吻合.

此外, 在行人通過交叉口的平均時(shí)間方面, DDPG 算法的行人經(jīng)過交叉口的平均通過時(shí)間從101 回合的7.874 8 s 遞減至999 回合的7.839 8 s, 無速度差模型的行人經(jīng)過交叉口的平均通過時(shí)間從101 回合的7.874 8 s 遞減至999 回合的7.837 6 s, 有速度差模型的行人經(jīng)過交叉口的平均通過時(shí)間從101 回合的7.924 8 s 遞減至999 回合的7.884 2 s. 這說明, 一方面有速度差模型通過增加行人通過交叉口的一點(diǎn)有效時(shí)間來避免行人因軌跡重合而造成的碰撞現(xiàn)象, 體現(xiàn)了行人過街的安全性. 另一方面, 隨著訓(xùn)練回合數(shù)的增加, 由DDPG 算法產(chǎn)生和行人二維優(yōu)化速度模型生成的加速度中兩者的較大者為實(shí)際行人加速度驅(qū)動(dòng)行走策略, 相比單純由DDPG 算法生成的行人行走策略, 有效地造成了行人經(jīng)過交叉口的平均通過時(shí)間的縮減,體現(xiàn)了行人過街的緊迫性.

圖9 為DDPG 算法、無速度差模型和有速度差模型的仿真測(cè)試結(jié)果, 分別顯示了501 和999 回合時(shí)的仿真場(chǎng)景, 展示了碰撞行人累積數(shù)目、行人碰撞率和行人通過交叉口的平均通過時(shí)間等參數(shù).

圖9 DDPG 算法、無速度差模型和有速度差模型的仿真測(cè)試結(jié)果Fig.9 Simulation test results of DDPG algorithm, non-velocity difference model, and velocity difference model

綜合上述訓(xùn)練和測(cè)試仿真實(shí)驗(yàn)可知, 本工作中提出的深度確定性策略梯度-行人二維優(yōu)化速度模型耦合驅(qū)動(dòng)算法具有下述3 個(gè)優(yōu)點(diǎn): ①能夠降低單純由深度確定性策略梯度算法驅(qū)動(dòng)智能體運(yùn)動(dòng)產(chǎn)生的碰撞率, 實(shí)現(xiàn)在仿真測(cè)試中完全無行人碰撞的現(xiàn)實(shí)場(chǎng)景; ②耦合行人二維優(yōu)化速度模型的驅(qū)動(dòng)算法在行人過街場(chǎng)景中體現(xiàn)了安全性和緊迫性; ③帶有速度差項(xiàng)的行人二維優(yōu)化速度模型的耦合驅(qū)動(dòng)算法利用增加行人通過交叉口的平均時(shí)間以達(dá)到完全避免行人碰撞, 確保行人安全的功能.

5 結(jié)束語(yǔ)

本工作對(duì)基于深度確定性策略梯度算法的行人過街行為進(jìn)行仿真研究, 首先構(gòu)建了深度確定性策略梯度-行人二維優(yōu)化速度模型耦合驅(qū)動(dòng)算法, 提出了考慮無速度差項(xiàng)和有速度差項(xiàng)的行人二維優(yōu)化速度模型的策略探索方案; 然后利用訓(xùn)練實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)了耦合驅(qū)動(dòng)算法在平均獎(jiǎng)勵(lì)值、演員網(wǎng)絡(luò)的損失函數(shù)值、行人碰撞率、碰撞行人累計(jì)數(shù)、行人加速度變化率等指標(biāo)上存在較大差異, 有速度差項(xiàng)模型表現(xiàn)明顯優(yōu)于無速度差項(xiàng)模型和DDPG 算法; 最后通過測(cè)試實(shí)驗(yàn)揭示, 耦合速度差項(xiàng)模型算法更傾向于靈活地選擇相對(duì)安全的動(dòng)作從而使得其選擇動(dòng)作的策略也相對(duì)更優(yōu), 可以達(dá)到利用增加行人通過交叉口的平均時(shí)間以實(shí)現(xiàn)完全避免行人碰撞, 確保行人安全的功能.

本研究證明了深度確定性策略梯度-行人二維優(yōu)化速度模型耦合驅(qū)動(dòng)算法可以正確描述行人智能體安全、高效地完成行人過街任務(wù), 并且控制效率較高, 完成行人避免碰撞的能力更強(qiáng).

猜你喜歡
策略模型
一半模型
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: h视频在线播放| 精品综合久久久久久97超人| 色综合a怡红院怡红院首页| 亚洲性影院| 成人伊人色一区二区三区| 日本人又色又爽的视频| a毛片基地免费大全| 日韩无码真实干出血视频| 露脸真实国语乱在线观看| 欧美特黄一级大黄录像| 国产欧美亚洲精品第3页在线| 九九热精品视频在线| 国产成人乱无码视频| 国产日韩欧美在线视频免费观看| 国产毛片高清一级国语| 免费国产无遮挡又黄又爽| 露脸一二三区国语对白| 四虎免费视频网站| 日韩欧美中文在线| 国产福利影院在线观看| 亚洲乱码精品久久久久..| 全裸无码专区| 国产区在线看| 亚洲精品第1页| 五月综合色婷婷| 成人福利视频网| 在线免费亚洲无码视频| 日韩激情成人| 伊人91在线| 中文国产成人久久精品小说| 四虎在线高清无码| 国产欧美日韩综合一区在线播放| 精品国产成人三级在线观看| 久久99热66这里只有精品一| 久久综合亚洲色一区二区三区| 亚洲精品在线观看91| 日韩在线欧美在线| 国产视频一二三区| 日韩精品一区二区三区大桥未久| 91久久国产热精品免费| 色噜噜久久| 成人av手机在线观看| 在线免费观看a视频| 91久久国产成人免费观看| 男女性午夜福利网站| 欧美午夜久久| 美女国内精品自产拍在线播放| 久久美女精品国产精品亚洲| 不卡无码h在线观看| 欧美一级99在线观看国产| 国产精品一区二区国产主播| 欧洲极品无码一区二区三区| 欧洲在线免费视频| 亚洲中文字幕无码爆乳| 亚洲日本韩在线观看| 欧美日韩中文字幕在线| 韩国自拍偷自拍亚洲精品| 免费人成网站在线观看欧美| 亚洲中文字幕手机在线第一页| 人人澡人人爽欧美一区| 久久精品人妻中文视频| 国产精品美女免费视频大全| 99re免费视频| 99热在线只有精品| 九九九精品成人免费视频7| 亚洲码一区二区三区| 97免费在线观看视频| 国产成人精品免费av| 久久免费精品琪琪| 在线欧美a| 人妻一区二区三区无码精品一区| 日韩视频福利| 草草影院国产第一页| 色天堂无毒不卡| 亚洲香蕉在线| 欧美日韩一区二区在线免费观看| 色综合成人| 亚洲一区二区成人| a级毛片毛片免费观看久潮| 综合亚洲色图| 狠狠v日韩v欧美v| 国产亚洲精品精品精品|