999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度時(shí)空Q 網(wǎng)絡(luò)的機(jī)器人疏散人群算法

2021-06-18 07:32:44劉士豪陳國文胡學(xué)敏
計(jì)算機(jī)工程 2021年6期
關(guān)鍵詞:動作模型

譚 嵋,劉士豪,周 婉,陳國文,胡學(xué)敏

(湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062)

0 概述

人員應(yīng)急疏散安全是公共安全的一個(gè)重要環(huán)節(jié),在人群密集的地方,如商場、醫(yī)院大廳、地鐵隧道等公共場所發(fā)生突發(fā)事件時(shí),極易造成嚴(yán)重的擁堵,甚至是踩踏和傷亡事件。因此,高效安全地疏散人群成為保障社會安全問題的關(guān)鍵。

近年來,人群疏散問題得到了科研工作者的關(guān)注和重視。現(xiàn)有的疏散模型主要有兩大類[1],一類是以人群整體為考察對象的宏觀模型,如流體力學(xué)模型[2],另一類是以行人個(gè)體為考察對象的微觀模型,如元胞自動機(jī)模型[3]和社會力模型[4-5]。流體力學(xué)模型將行人視為連續(xù)的流體,不考慮行人之間的作用力,忽視個(gè)體差異,因而該模型不適用于突發(fā)情形下的人群疏散。盡管元胞自動機(jī)因算法難度低而得到廣泛運(yùn)用,但其離散的狀態(tài)和時(shí)空不連續(xù)導(dǎo)致模擬結(jié)果不準(zhǔn)確,難以反映緊急情況下人群逃生時(shí)的真實(shí)狀況。社會力模型考慮了行人的主觀心理、行人之間的安全距離以及行人回避障礙物的行為等真實(shí)現(xiàn)象,有效地體現(xiàn)了行人在緊急情況下的運(yùn)動狀況。

計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展使得研究人員能夠利用智能設(shè)備、計(jì)算機(jī)技術(shù)等研究人群疏散問題。文獻(xiàn)[6]提出利用智能移動終端內(nèi)的傳感器采集行人數(shù)據(jù),能較為準(zhǔn)確地疏散行人并引導(dǎo)至出口。文獻(xiàn)[7]提出了利用機(jī)器人的自身運(yùn)動來影響行人運(yùn)動狀態(tài)的方法,雖然人群疏散的效率得到有效提升,但是機(jī)器人單一的直線運(yùn)動使其無法應(yīng)用于其他復(fù)雜的疏散場景,靈活性較低。因此,更多研究者將機(jī)器學(xué)習(xí)的方法[8]應(yīng)用到機(jī)器人運(yùn)動規(guī)劃領(lǐng)域,其中一種重要的模型就是深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)[9]。DQN 僅通過圖像輸入就能實(shí)現(xiàn)從感知到動作的端到端學(xué)習(xí),并在基于視頻感知的控制任務(wù)領(lǐng)域[10]以及無人機(jī)[11]、多智能體[12]領(lǐng)域取得了較高的成就。而機(jī)器人疏散人群時(shí)需要借助人群疏散場景圖中的人群位置、機(jī)器人位置等空間特征進(jìn)一步分析從而采取相應(yīng)的疏散措施,因而將深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人疏散人群范疇是一個(gè)有效手段。文獻(xiàn)[13]利用DQN 使機(jī)器人根據(jù)特定的場景學(xué)習(xí)獲得疏散人群的運(yùn)動策略,該方法對相似場景的移植性強(qiáng),但網(wǎng)絡(luò)模型較簡單,難以提取復(fù)雜場景的空間特征。

長短期記憶網(wǎng)絡(luò)[14](Long Short-Term Memory,LSTM)的提出較好地解決了時(shí)序數(shù)據(jù)表達(dá)的問題,LSTM吸引了大量研究者的關(guān)注并得到優(yōu)化和發(fā)展,且在文本分類[15]和位置預(yù)測[16]領(lǐng)域也有很好的應(yīng)用。而人群疏散是一個(gè)不間斷的、前后時(shí)間有關(guān)聯(lián)性的過程,如果只考慮每個(gè)獨(dú)立幀的人群狀態(tài)而忽視前后幀之間的時(shí)間特征,則在一定程度上會影響機(jī)器人疏散人群的效率。

針對目前人群疏散方法中存在機(jī)器人單一的運(yùn)動規(guī)則、機(jī)器人靈活性差、場景適用性有限的問題,本文利用人機(jī)社會力模型,通過機(jī)器人的運(yùn)動來“控制”周圍人群的運(yùn)動狀態(tài),設(shè)計(jì)一種基于深度時(shí)空Q網(wǎng)絡(luò)(Deep Spatial-Temporal Q-Network,DSTQN)的機(jī)器人疏散人群的算法,通過加深CNN 的網(wǎng)絡(luò)層數(shù)提取復(fù)雜場景的空間特征,并在深度Q 網(wǎng)絡(luò)的基礎(chǔ)上融入LSTM,研究人群疏散場景的時(shí)間關(guān)聯(lián)性。

1 人機(jī)社會力模型

機(jī)器人疏散人群的前提是機(jī)器人能夠與人群進(jìn)行交互,利用機(jī)器人的運(yùn)動來影響和“控制”人群的運(yùn)動。本文采用的人機(jī)社會力模型是建立在文獻(xiàn)[4]提出的社會力模型基礎(chǔ)上,實(shí)現(xiàn)機(jī)器人與行人的交互。社會力模型的理論基礎(chǔ)是牛頓第二定律,通過將行人看作具有自驅(qū)動力的粒子,并計(jì)算粒子的自驅(qū)動力、粒子間的相互作用力以及粒子與障礙物的相互作用力之和來分析行人運(yùn)動狀態(tài),綜合考慮行人的主觀心理和外界干擾因素而設(shè)計(jì)的行人運(yùn)動力學(xué)模型,達(dá)到真實(shí)模擬行人在緊急情況下逃生狀況的目的。人機(jī)社會力模型利用機(jī)器人和行人的相互作用力,即人機(jī)作用力來影響行人運(yùn)動的方向和速度[7],進(jìn)而達(dá)到人群疏散的目的,基本公式如式(1)所示:

式(1)定量地描述了行人i的受力情況,其中,mi是質(zhì)量,v(it)是當(dāng)前速度,fs是自驅(qū)動力,fij是其與行人j的相互作用力,fiw是障礙物與行人i之間的相互作用力,人機(jī)作用力的計(jì)算如式(2)所示:

其中,Ar和Br分別代表人機(jī)作用力的強(qiáng)度和范圍,rir是機(jī)器人與人的幾何中心距離,Kr、κr是系數(shù),nir是機(jī)器人指向行人i的單位向量,tir是其正交單位向量,Δvi(rt)是機(jī)器人與行人i的速度差。

2 基于深度時(shí)空Q 網(wǎng)絡(luò)的人群疏散算法

本文設(shè)計(jì)的基于深度時(shí)空Q 網(wǎng)絡(luò)的人群疏散算法流程如圖1 所示,將人群疏散的場景圖作為狀態(tài)S輸入DSTQN,通過CNN 提取復(fù)雜的人機(jī)交互場景圖像的空間特征xt,再送入LSTM 提取時(shí)間特征vt,經(jīng)過維度處理后輸出一維的帶有時(shí)空特征的特征序列,最后經(jīng)過Q 網(wǎng)絡(luò)單元計(jì)算Q值得到當(dāng)前疏散人群的動作A,并根據(jù)與環(huán)境交互得到的獎勵r來判斷此時(shí)動作的優(yōu)劣。如此循環(huán)迭代,機(jī)器人再根據(jù)下一個(gè)狀態(tài)和獎勵不斷學(xué)習(xí),優(yōu)化疏散人群的動作并輸出得到更高的獎勵。

圖1 基于深度時(shí)空Q 網(wǎng)絡(luò)的人群疏散算法流程Fig.1 Procedure of crowd evacuation algorithm based on deep spatio-temporal Q-network

2.1 DQN 算法

DQN 是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[17]和強(qiáng)化學(xué)習(xí)的Q 學(xué)習(xí)[18]經(jīng)典強(qiáng)化學(xué)習(xí)算法,用深度神經(jīng)網(wǎng)絡(luò)取代強(qiáng)化學(xué)習(xí)的Q 表,使機(jī)器人在新環(huán)境中探索學(xué)習(xí)。狀態(tài)、動作和獎勵構(gòu)成了DQN 的核心三要素,DQN 模型的建立依據(jù)Q 學(xué)習(xí)和馬爾科夫決策。本文采用的Q 網(wǎng)絡(luò)模型基于文獻(xiàn)[19],由兩層輸出節(jié)點(diǎn)數(shù)量分別為512 和4的全連接層構(gòu)成,模型將機(jī)器人與環(huán)境交互的狀態(tài)輸入到主Q 網(wǎng)絡(luò),機(jī)器人則根據(jù)Q值計(jì)算得到該值最大時(shí)的動作。目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)通過定期復(fù)制主Q 網(wǎng)絡(luò)的參數(shù)得到,并最小化當(dāng)前Q值和目標(biāo)Q值的均方誤差更新網(wǎng)絡(luò)參數(shù)以降低兩者之間的相關(guān)性。DQN 利用經(jīng)驗(yàn)回放機(jī)制將機(jī)器人與環(huán)境交互的轉(zhuǎn)移樣本存儲在記憶池,隨機(jī)抽取小批量的樣本通過隨機(jī)梯度下降算法反向更新網(wǎng)絡(luò)參數(shù)θ,不斷重復(fù)直至損失函數(shù)收斂,使機(jī)器人找到最優(yōu)的策略疏散人群。損失函數(shù)如式(3)所示,當(dāng)前動作的Q值如式(4)所示,目標(biāo)Q值如式(5)所示。

其中,s為是機(jī)器人的當(dāng)前狀態(tài),s′則是下一個(gè)狀態(tài),a是當(dāng)前動作,a′是下一個(gè)動作,r是當(dāng)前動作的獎勵值,α是學(xué)習(xí)率,γ是折扣因子,θ為主網(wǎng)絡(luò)權(quán)值參數(shù),θ′為目標(biāo)網(wǎng)絡(luò)權(quán)值參數(shù)。

2.2 深度時(shí)空Q 網(wǎng)絡(luò)

本文將LSTM 融入到DQN 中來提取人群疏散場景圖像前后幀之間的時(shí)間特征,并將包含時(shí)空特征的序列送入到Q 網(wǎng)絡(luò)中得到機(jī)器人的運(yùn)動指令。因此,本文設(shè)計(jì)的DSTQN 模型由CNN 層網(wǎng)絡(luò)、LSTM 層網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)組成,如圖1 所示。

因?yàn)镈QN 算法的輸入是原始的圖像,所以本文將人群疏散場景的仿真圖作為環(huán)境來提取狀態(tài)信息。與原始DQN 類似,本文DSTQN 算法運(yùn)用CNN擬合Q 函數(shù)以減少算法復(fù)雜度,提取人群疏散場景圖像的特征。在提取環(huán)境信息時(shí),太淺的卷積網(wǎng)絡(luò)只能提取簡單的人群疏散場景的特征[13],無法提取復(fù)雜的人機(jī)交互的狀態(tài)特征;過于深的卷積網(wǎng)絡(luò)雖然能提取復(fù)雜的特征,但需要耗費(fèi)大量的計(jì)算資源,難以收斂且有過擬合的風(fēng)險(xiǎn)。AlexNet 是一種經(jīng)典的CNN 模型[19],在大規(guī)模視覺識別和圖像分類等領(lǐng)域取得了很好的成效。如圖2 所示,本文參照AlexNet,設(shè)計(jì)的CNN 包含5 個(gè)卷積層與1 個(gè)全連接層。5個(gè)卷積層的卷積核大小依次為11×11、5×5、3×3、3×3、3×3,通道數(shù)依次是48、128、192、192、128,最終全連接層輸出帶有1×1×512 個(gè)節(jié)點(diǎn)的映射集合。

圖2 CNN 層網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of CNN layer

原始DQN 只能表達(dá)靜態(tài)人群疏散場景圖像的空間特征,無法表達(dá)視頻前后幀之間的時(shí)間信息。而動態(tài)人群疏散場景圖像既有空間特征,又有前后幀對應(yīng)位置的像素點(diǎn),即時(shí)間特征,因此關(guān)聯(lián)時(shí)間特征有利于機(jī)器人長期疏散人群,從而提高人群疏散的效率。LSTM 是一種經(jīng)典的時(shí)序特征提取模型,可以對視頻進(jìn)行時(shí)序性建模達(dá)到機(jī)器人長期記憶的目的,并在視頻識別動作任務(wù)[20]中取得了較好的成果。因此,本文提出的DSTQN 算法通過將CNN 提取的空間特征送入LSTM 層來實(shí)現(xiàn)時(shí)間關(guān)聯(lián)。

本文LSTM 層結(jié)構(gòu)如圖3 所示,其中,虛線矩形框描述了LSTM 單元內(nèi)部結(jié)構(gòu),σ表示sigmoid 函數(shù),□表示tanh 函數(shù)。

圖3 LSTM 層結(jié)構(gòu)Fig.3 Structure of LSTM layer

LSTM 利用4 個(gè)“門”來決定信息在細(xì)胞狀態(tài)的去留,從細(xì)胞狀態(tài)中丟棄的信息由遺忘門確定,首先讀取上一個(gè)LSTM 單元的輸出ht-1和當(dāng)前LSTM 單元的輸入xt,然后通過sigmoid 激活函數(shù)丟棄的信息輸出到?t。?t取值范圍為[0,1],1 表示“完全保留”,0 表示“完全舍棄”。輸入門決定存放哪些新信息,通過sigmoid 函數(shù)輸出需要更新的信息it;輸出調(diào)制門利用tanh 激活函數(shù)輸出新的候選值向量mt;新信息it×mt加上舊狀態(tài)細(xì)胞ct-1×ft完成細(xì)胞更新。輸出門確定輸出值,利用sigmoid 函數(shù)輸出[0,1]區(qū)間的ot,并與通過tanh 函數(shù)處理的新的細(xì)胞狀態(tài)ct相乘,得到最終輸出ht。LSTM 各單元門的工作原理如式(6)~式(11)所示:

其中,Wx與b分別表示對應(yīng)門控單元的權(quán)值與偏差,“˙”表示點(diǎn)乘。

本文在提取人群疏散場景前后幀的時(shí)間特征時(shí),首先把處理后的人群場景圖像輸入CNN 提取空間特征xt,然后將距離當(dāng)前時(shí)刻最近的N(N=10)幀圖像的空間特征xt送入LSTM 網(wǎng)絡(luò)關(guān)聯(lián)時(shí)間信息,輸出帶有時(shí)間和空間信息的特征vt,最后將vt送入Q 網(wǎng)絡(luò)中學(xué)習(xí)和優(yōu)化機(jī)器人選擇運(yùn)動指令的策略。

2.3 機(jī)器人疏散人群算法

在人群疏散算法中,機(jī)器人依據(jù)當(dāng)前從CNN 和LSTM 提取的人群疏散場景狀態(tài)st中,選擇最好的疏散動作at,利用獎勵函數(shù)得到當(dāng)前獎勵rt,再進(jìn)入下一個(gè)狀態(tài)st+1。機(jī)器人依據(jù)獎勵辯別當(dāng)前獎勵的優(yōu)劣,且更新目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)。不斷重復(fù)以上過程,最終得到優(yōu)化的目標(biāo)Q 網(wǎng)絡(luò)。因此,狀態(tài)、動作和獎勵的設(shè)計(jì)是機(jī)器人疏散人群算法的重要內(nèi)容。

1)狀態(tài)空間S

狀態(tài)集合S是機(jī)器人感知到的環(huán)境信息,也是對環(huán)境信息的數(shù)學(xué)表達(dá)。由于原始圖像尺寸過大且包含了許多無效的信息,為了優(yōu)化計(jì)算,降低網(wǎng)絡(luò)的訓(xùn)練難度,本文設(shè)定輸入DSTQN 的狀態(tài)是機(jī)器人附近的區(qū)域。首先通過縮放和灰度化處理距離當(dāng)前時(shí)刻最近的4(經(jīng)驗(yàn)值)幀場景圖像使其尺寸為84×84×4,然后輸入到CNN 層中,狀態(tài)集合如式(12)所示:

其中,st是輸入的當(dāng)前時(shí)刻狀態(tài)圖像,t為當(dāng)前時(shí)刻。

2)動作空間A

動作空間A集合了機(jī)器人依據(jù)此時(shí)環(huán)境而選擇的動作。機(jī)器人在疏散人群時(shí),如果選取兩個(gè)方向的運(yùn)動,則動作局限性大且難以有效疏散人群;而選取八向運(yùn)動則導(dǎo)致強(qiáng)化學(xué)習(xí)搜索空間過大,模型訓(xùn)練時(shí)難以收斂。為保證在一定的訓(xùn)練難度下有較好的疏散效果,本文設(shè)計(jì)的機(jī)器人可向上、下、左、右運(yùn)動,動作集合如式(13)所示:

其中,A為機(jī)器人動作空間集合,au、ad al、ar分別表示機(jī)器人上、下、左、右4 個(gè)方向運(yùn)動指令。

3)獎勵函數(shù)r

機(jī)器人通過獎勵函數(shù)r判別當(dāng)前動作的優(yōu)劣,同時(shí)獎勵函數(shù)引導(dǎo)機(jī)器人學(xué)習(xí),強(qiáng)化學(xué)習(xí)的每一個(gè)動作都有相應(yīng)的獎勵。本文中機(jī)器人目的是更快地降低疏散場景中人群擁擠度,所以對機(jī)器人而言最直接的獎勵是當(dāng)前時(shí)刻疏散的人數(shù)。如果機(jī)器人當(dāng)前動作使得后續(xù)有較多的人數(shù)逃生而當(dāng)前很少甚至是沒有人逃生,亦不可認(rèn)定本次動作無效。因此,本文將智能體采取一個(gè)動作后的k(k=5 為經(jīng)驗(yàn)值)次迭代的疏散總?cè)藬?shù)作為環(huán)境反饋給機(jī)器人的獎勵,獎勵函數(shù)如式(14)所示:

其中,t表示當(dāng)前時(shí)刻,Mi是時(shí)刻i的疏散人數(shù)值,rt是當(dāng)前時(shí)刻t的獎勵值。

4)其他參數(shù)和模型訓(xùn)練策略

參數(shù)的合理設(shè)計(jì)與適當(dāng)調(diào)整對訓(xùn)練深度強(qiáng)化學(xué)習(xí)算法起著重要的作用。基于DSTQN 的人群疏散算法的參數(shù)設(shè)置如表1 所示。

表1 DSTQN 算法參數(shù)Table 1 Parameters of DSTQN algorithm

在表1 中,學(xué)習(xí)率是更新策略時(shí)更新網(wǎng)絡(luò)權(quán)重的幅度大小,折扣因子體現(xiàn)時(shí)間對獎勵的影響,記憶池用來存儲樣本數(shù)據(jù),訓(xùn)練批次大小等同于每次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),周期性地更新目標(biāo)Q 網(wǎng)絡(luò)可以提高算法穩(wěn)定性。采用貪婪算法[21]訓(xùn)練策略,按照設(shè)定的探索因子的大小來確定動作模式,不同的探索因子對應(yīng)不同階段選取動作的概率。在訓(xùn)練初始階段,機(jī)器人在初始探索因子ε的概率下進(jìn)行探索,隨機(jī)選擇動作,ε隨著訓(xùn)練次數(shù)增加而減小,最終機(jī)器人以穩(wěn)定的終止探索因子,ε′概率選擇當(dāng)前最優(yōu)的動作。

3 實(shí)驗(yàn)結(jié)果與分析

本文使用Python 語言實(shí)現(xiàn)人群疏散仿真環(huán)境和人群疏散算法,DSTQN 算法基于Keras 平臺實(shí)現(xiàn)。硬件平臺CPU 為Intel i7-7700K,GPU 為NVIDIA GTX 1080Ti,內(nèi)存為32 GB。在實(shí)驗(yàn)場景方面,本文設(shè)計(jì)單出口室內(nèi)人群疏散與走廊兩群行人交錯2 種場景進(jìn)行實(shí)驗(yàn)。

3.1 單出口室內(nèi)人群疏散場景

帶有一個(gè)疏散口的室內(nèi)場景是一個(gè)典型的人群疏散場景。圖4 為本文建立的大小為11 m×11 m 并帶有一個(gè)3 m 寬出口的室內(nèi)實(shí)驗(yàn)場景,其中,實(shí)心圓表示行人,空心圓表示新增行人,方形表示機(jī)器人。當(dāng)緊急事件發(fā)生時(shí),行人出于恐慌心理在自驅(qū)動力的作用下快速向出口逃離。不同方向的行人逐漸聚集到出口附近,導(dǎo)致人群疏散效率降低。

圖4 單出口室內(nèi)人群疏散場景和機(jī)器運(yùn)動范圍Fig.4 Single exit indoor crowd evacuation scene and machine movement range

為有效疏散人群,在室內(nèi)場景中加入一個(gè)機(jī)器人進(jìn)行仿真實(shí)驗(yàn)。圖4 左側(cè)6 m×6 m 的外側(cè)虛線框代表室內(nèi)場景中人群主要聚集的區(qū)域,觀察該區(qū)域并通過均勻采樣得到84 像素×84 像素的圖像后送入DSTQN 網(wǎng)絡(luò)來計(jì)算機(jī)器人的環(huán)境狀態(tài)。此外,將機(jī)器人的運(yùn)動范圍劃定在出口附近處行人逃生的矩形區(qū)域,如圖4 左側(cè)3.6 m×5.4 m 內(nèi)側(cè)虛線框所示。綜合考慮噪聲和有限的計(jì)算資源,行人期望速度定為6 m/s[22],每秒迭代10 次;機(jī)器人運(yùn)動速度是0.6 m/s,每秒迭代2 次,每次移動0.3 m。圖4 右側(cè)12 m×18 m的矩形網(wǎng)格是機(jī)器人在場景中的運(yùn)動位置。在每輪實(shí)驗(yàn)中,人群初始人數(shù)是100 人,疏散的時(shí)間是100 s,人群初始位置隨機(jī)分布在場景中。在圖4 中左側(cè)每秒產(chǎn)生3 個(gè)行人(用空心圓表示),他們的水平速度是6 m/s,縱向速度是0,目的是為了讓行人源源不斷地進(jìn)入場景,避免狀態(tài)空間太大。

本文的評判標(biāo)準(zhǔn)是單位時(shí)間(100 s)內(nèi)疏散的人數(shù),從而檢驗(yàn)本文算法的有效性。文獻(xiàn)[7,13]與本文算法都是基于人機(jī)社會力模型研究單出口的室內(nèi)場景的人群疏散工作。為檢驗(yàn)時(shí)空Q 網(wǎng)絡(luò)在人群疏散應(yīng)用的效果,本文將未加入LSTM 的原始DQN 與加入了LSTM 的DSTQN 進(jìn)行對比。

圖5 為不同算法在室內(nèi)場景的訓(xùn)練過程中疏散總?cè)藬?shù)變化曲線。在訓(xùn)練的前200 輪時(shí),DSTQN 處于的觀察前期,機(jī)器人隨機(jī)選擇疏散人群的動作;在200 輪~400 輪時(shí)處于探索中期,機(jī)器人將從經(jīng)驗(yàn)池采集的樣本優(yōu)化機(jī)器人疏散人群的動作序列;在400輪之后訓(xùn)練收斂時(shí),機(jī)器人根據(jù)學(xué)到的人群疏散策略來選擇最合適的疏散人群動作,此時(shí)DSTQN 算法在每輪實(shí)驗(yàn)中疏散人群的數(shù)量最多。

圖5 單出口室內(nèi)場景訓(xùn)練過程中疏散人數(shù)曲線Fig.5 Curves of evacuee number in training process of indoor scene with a single exit

從圖5 可以看出,本文提出的DSTQN 算法疏散人群效果優(yōu)于DQN 和文獻(xiàn)[7]算法。3 種算法都是利用機(jī)器人自身運(yùn)動狀態(tài)來“控制”人群的運(yùn)動狀態(tài),在文獻(xiàn)[7]的算法中,機(jī)器人只是簡單地在出口上下往復(fù)運(yùn)動,盡管一定程度上提高了人群疏散效率,但這種單一的疏散路徑不能根據(jù)場景內(nèi)擁擠程度調(diào)整疏散策略;DSTQN、DQN 算法中機(jī)器人則是在場景內(nèi)學(xué)習(xí)高效的疏散人群策略來引導(dǎo)人群逃生,相比文獻(xiàn)[7]的算法,這兩種算法大幅提升了人群的疏散效率。同DQN 算法相比,本文提出的DSTQN 算法重新設(shè)計(jì)了CNN 的結(jié)構(gòu)來提取人群疏散場景圖像復(fù)雜的空間特征,并且通過引入LSTM構(gòu)成深度時(shí)空Q 網(wǎng)絡(luò),關(guān)聯(lián)人群疏散場景前后幀之間的時(shí)間信息,故機(jī)器人能夠長期記憶之前學(xué)習(xí)到的信息,進(jìn)一步提升了人群疏散的效率。

表2 為室內(nèi)單出口場景不同算法的人群疏散結(jié)果對比,其中DQN 和DSTQN 都是訓(xùn)練800 輪之后的測試結(jié)果。從表2 可知,與無機(jī)器人相比,文獻(xiàn)[7,13]、DQN、DSTQN 等算法在每輪實(shí)驗(yàn)中人群的疏散效率分別增加7.63、13.74、11.83、17.18 個(gè)百分點(diǎn)。本文DQN 與文獻(xiàn)[13]算法主要區(qū)別在于CNN 的網(wǎng)絡(luò)結(jié)構(gòu)。本文重新設(shè)計(jì)了CNN 的網(wǎng)絡(luò)結(jié)構(gòu),目的是提取更復(fù)雜的空間特征。從疏散的效果來看,本文設(shè)計(jì)的CNN 網(wǎng)絡(luò)結(jié)構(gòu)好于文獻(xiàn)[13]算法。若僅使用DQN,機(jī)器人在提取人群圖像的特征上只能獲得每一個(gè)單獨(dú)幀的人群位置、機(jī)器人的位置等空間信息,忽略了前后之間的時(shí)間信息。加入LSTM 的網(wǎng)絡(luò)有利于機(jī)器人根據(jù)前后幀之間的時(shí)間相關(guān)性,更快、更好地學(xué)習(xí)到某一時(shí)刻在何位置疏散人群效率高,同時(shí)機(jī)器人可以根據(jù)之前學(xué)習(xí)到的經(jīng)驗(yàn),如前后時(shí)刻人群場景中擁擠度的對比、前后時(shí)刻疏散人群效率對比等進(jìn)一步提高人群的疏散效率。因此,在現(xiàn)有的算法中,本文DSTQN 算法疏散人群的效果最好,效率最高。

表2 室內(nèi)單出口場景的不同算法人群疏散結(jié)果對比結(jié)果Table 2 Comparative results of different crowd evacuation algorithm in indoor scene with a single exit

3.2 走廊兩群行人交錯場景

走廊通道如地鐵隧道、商場通道等場景也人群疏散研究的典型場所。本文建立的走廊場景長8 m、寬4 m,墻壁用上下實(shí)線代替,行人的進(jìn)出口用左右兩邊虛線表示,如圖6 所示。為到達(dá)各自的期望地點(diǎn),兩群行人對向而行,在走廊相遇的位置發(fā)生嚴(yán)重的擁堵。

圖6 走廊兩群行人交錯場景和機(jī)器運(yùn)動范圍Fig.6 Corridor two groups of pedestrians interlaced scenes and machine motion range

由于文獻(xiàn)[7]的算法沒有涉及該類型場景,因此在實(shí)驗(yàn)過程中只將本文算法與DQN 以及無機(jī)器人疏散的結(jié)果進(jìn)行對比。實(shí)驗(yàn)中走廊左右兩邊的初始人數(shù)各設(shè)置30 人,每輪訓(xùn)練中設(shè)定人群疏散的時(shí)間是100 s,在走廊左右兩側(cè)分別產(chǎn)生1 個(gè)行人,其水平速度是6 m/s,縱向速度為0。本文選擇走廊中部附近人群主要聚集的區(qū)域作為狀態(tài)觀測和機(jī)器人運(yùn)動的范圍,見圖6 中5.1 m×3.3 m 矩形虛線框。

與室內(nèi)單出口人群疏散場景相比,走廊兩群行人交錯的場景更為復(fù)雜。圖7 為走廊場景的訓(xùn)練過程中疏散人數(shù)變化曲線。

圖7 走廊場景訓(xùn)練過程中疏散人數(shù)變化曲線Fig.7 Change curve of the number of people evacuated during the corridor scene training process

從實(shí)驗(yàn)結(jié)果可以看出,DSTQN 的疏散效果優(yōu)于DQN。雖然在50 輪~100 輪時(shí)DQN 疏散的人數(shù)數(shù)量領(lǐng)先于其他算法,但在訓(xùn)練前100 輪訓(xùn)練時(shí),無論是DSTQN 還是DQN 都處于訓(xùn)練前期的觀察狀態(tài),此時(shí)機(jī)器人隨機(jī)選擇疏散人群的動作。在訓(xùn)練中期以及訓(xùn)練后期,DSTQN 算法疏散效果一直處于最優(yōu)的地位,機(jī)器人利用回放池中的樣本學(xué)習(xí)到越來越好的疏散人群的動作。模型收斂后,機(jī)器人依賴學(xué)習(xí)到的策略選擇最優(yōu)的疏散人群的動作,因此,DSTQN 的人群疏散效率最高。

表3 為訓(xùn)練330 輪之后的實(shí)驗(yàn)結(jié)果,從表3 可以看出,相比無機(jī)器人,DQN 在每輪實(shí)驗(yàn)中人群的疏散效率增加了135.71%,而DSTQN 在每輪實(shí)驗(yàn)中人群疏散效率增加了182.14%。DSTQN 算法利用機(jī)器人自身的運(yùn)動來“控制”行人的運(yùn)動,在不同的場景下也能極大程度地提升人群疏散的效率,由此說明本文提出的DSTQN 方法具有良好的場景移植性,能夠遷移至不同的人群疏散場景,并且與現(xiàn)有的算法相比,DSTQN 的疏散效果最優(yōu)。

表3 走廊兩群行人交錯場景的人群疏散結(jié)果統(tǒng)計(jì)Table 3 Statistical results of crowd evacuation experiments in the scene with two groups of crowds crossing a corridor

為觀察機(jī)器人疏散人群的過程,在訓(xùn)練收斂時(shí)(330 輪之后)進(jìn)行實(shí)驗(yàn),保存人群場景圖像,如圖8所示。

圖8 基于DSTQN 的人群疏散過程示意圖Fig.8 Schematic diagram of crowd evacuation process based on DSTQN

從圖8(a)可以看出,在t=2 s 時(shí),人群在走廊中部相遇并形成嚴(yán)重的擁堵,此時(shí)機(jī)器人利用學(xué)習(xí)到的策略做出疏散人群的動作向上方運(yùn)動;在t=8 s時(shí),該位置的人群被“沖散”,如圖8(b)所示。在t=25 s 和t=32 s 時(shí)可看出,機(jī)器人會通過自身運(yùn)動來影響行人運(yùn)動,降低人群的擁堵程度,進(jìn)而疏散行人,如圖8(c)、圖8(d)所示。

4 結(jié)束語

本文提出一種基于深度時(shí)空Q 網(wǎng)絡(luò)的機(jī)器人疏散人群算法,在原始DQN 中引入LSTM 網(wǎng)絡(luò)以關(guān)聯(lián)人機(jī)交互場景圖像的時(shí)間特征,通過改進(jìn)CNN 網(wǎng)絡(luò)提取更復(fù)雜的空間特征,并設(shè)計(jì)一種機(jī)器人疏散人群的學(xué)習(xí)策略。在單出口室內(nèi)場景和走廊兩群行人交錯場景上的實(shí)驗(yàn)結(jié)果表明,該算法與DQN 算法相比,明顯提高了人群疏散效率。下一步將改善機(jī)器人動作設(shè)計(jì),采用360°的連續(xù)動作取代上下左右4 個(gè)離散動作來解決機(jī)器人疏散人群的問題。

猜你喜歡
動作模型
一半模型
下一個(gè)動作
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 成人毛片免费在线观看| 色综合色国产热无码一| 国产一区二区三区日韩精品| 国产精品九九视频| 亚洲AV人人澡人人双人| 亚洲综合第一区| 亚洲精品国产精品乱码不卞| 欧美成人综合在线| 国产一级二级三级毛片| 久久综合AV免费观看| 91精品啪在线观看国产91| 九九久久99精品| 亚洲高清国产拍精品26u| 毛片大全免费观看| 亚洲网综合| 永久免费无码日韩视频| 国产福利不卡视频| 青草精品视频| 久久中文字幕不卡一二区| 无码AV动漫| 国产精品吹潮在线观看中文| 亚洲精品视频免费| 国产精品任我爽爆在线播放6080 | 亚洲色欲色欲www网| 国产区在线看| 国产福利免费视频| 欧美亚洲中文精品三区| 亚洲欧美日韩另类| 九月婷婷亚洲综合在线| 一级毛片视频免费| 国产成年女人特黄特色毛片免| 国产性生交xxxxx免费| 青草免费在线观看| 色哟哟国产成人精品| 少妇精品网站| 国产91麻豆视频| 久久香蕉国产线看精品| 中文字幕 91| 国内精品一区二区在线观看| 欧美亚洲日韩不卡在线在线观看| 亚洲国产无码有码| aaa国产一级毛片| 久久综合国产乱子免费| www.av男人.com| 亚洲成A人V欧美综合| 在线观看的黄网| 成人免费视频一区二区三区| 午夜久久影院| 国产精品永久久久久| 欧美性久久久久| 白浆免费视频国产精品视频 | 99久久精品免费看国产电影| 精品少妇人妻一区二区| 中文字幕在线日本| 国产日本欧美亚洲精品视| 国产农村妇女精品一二区| 四虎永久免费地址| 亚洲中文字幕av无码区| 久久精品无码中文字幕| 亚洲视频在线观看免费视频| 五月天综合婷婷| 91青青草视频在线观看的| 国产精品乱偷免费视频| 国产AV无码专区亚洲精品网站| 在线亚洲天堂| 国产国产人在线成免费视频狼人色| 国产精鲁鲁网在线视频| 国产18在线播放| 色播五月婷婷| 欧洲极品无码一区二区三区| 亚洲Av激情网五月天| 中国国语毛片免费观看视频| 国产精品粉嫩| 亚洲精选高清无码| 国产亚洲精品97在线观看| 国产成人精品三级| 国产剧情伊人| 国内精品视频区在线2021| 国产精品久久国产精麻豆99网站| 四虎永久在线| a级毛片免费播放| 97精品久久久大香线焦|