999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動作預測與環境條件的行人過街意圖識別*

2021-08-12 08:14:00范福成楊吉成蔡英鳳
汽車工程 2021年7期
關鍵詞:動作信息

楊 彪,范福成,楊吉成,蔡英鳳,王 海

(1.常州大學微電子與控制工程學院,常州 213016;2.常州大學計算機與人工智能學院,常州 213016;3.江蘇大學汽車工程研究院,鎮江 212013;4.江蘇大學汽車與交通工程學院,鎮江 212013)

前言

伴隨社會的發展,汽車保有量不斷增加,給人們的生活與出行帶來了極大的便利。其中,無人駕駛因其穩定、高效、可連續工作的優點,在軍事作戰、城市反恐、應急救援、無人清掃、智慧物流等方面呈現出廣闊的應用前景。以本次爆發的新冠疫情為例,利用無人駕駛車輛運輸抗疫物資,可以有效減少人員接觸,降低疫情傳播風險。但是,城市交通環境的復雜性給無人車的可靠運行帶來了挑戰。在有人駕駛情況下,2018年全球有135萬人死于道路交通事故,其中行人與非機動車駕乘者占26%[1];美國高速公路安全管理局發布的統計數據顯示2018年美國的行人死亡數目為6 283人[2];我國2017年道路交通運輸安全發展報告顯示,2016年我國有超過6萬人死于機動車交通事故,其中行人約占2成[3]。可以預見,未來大量運行于城市道路環境的無人車也將面臨如何避免人車沖突這一智能交通領域(ITS)的重要問題。

為了避免人車沖突,研究者提出了基于物理的運動模型[4]、基于機動的運動模型[5]和基于交互感知的運動模型[6]來預測人車沖突風險。其中,準確感知無人車周圍的交通環境[7]是實現準確的人車沖突預測的關鍵。基于此目的,研究者在無人車上加裝了超聲波雷達、激光雷達、攝像頭等傳感器,用于感知車輛周圍環境,尤其是檢測或跟蹤車輛前方的行人。Song等[8]提出一種基于注意力機制的尺度自適應柱網絡,用于從三維點云數據中準確定位無人車前方的行人目標;種衍文等[9]引入四方向特征結合級聯分類器進行粗檢測,然后使用熵梯度直方圖特征結合支持向量機進行細檢測;Tian等[10]使用深度卷積網絡分別檢測行人的不同部分并進行綜合;Mao等[11]將時變通道、深度通道等特征送入Faster?RCNN框架,增強了待檢測行人的區分度;劉國輝等[12]結合VGG模型與在線觀測技術,實現了對車輛前方目標的準確跟蹤。上述方法可以有效防止人車沖突,但是,僅僅以低層面的路側行人檢測或跟蹤結果作為預測人車沖突的基礎,會導致無人車的頻繁制動、降速、甚至停車,影響乘客的駕乘體驗。

近年來,隨著智能網聯汽車的興起,汽車在搭載先進傳感器、控制器、執行器的基礎上,融合現代通信和網絡技術,實現人、車、路、后臺等智能信息的交換共享,有助于實現安全、舒適、節能、高效行駛。對于智能網聯汽車而言,如何利用智能化的感知技術,避免人車沖突是實現其它功能的前提。人車沖突集中發生于車輛與過街行人之間,因此高層面的行人過街意圖引起了研究者的廣泛關注:如果能夠準確識別車輛前方行人有過街意圖,則應該控制車輛減速而防止碰撞事件發生;如果判斷行人無過街意圖,車輛可按照原速通過,既提升了無人車的駕乘體驗,也提高了行車效率。

行人的過街意圖受到多種因素的影響[13],包括交通場景、交通流量、天氣等外部因素,以及行人的性別、年齡、等待時間等內部因素。受益于計算機視覺技術的發展,研究者通過分析路側行人的行為來預測其是否有過街意圖。針對運動的行人,Christoph等[14]結合動態高斯系統與多模態交互卡爾曼濾波實現行人軌跡預測;Gu等[15]引入動態貝葉斯網絡實現行人軌跡預測;Lee等[16]提出一種基于深度統計逆最優控制的遞歸神經網絡自編碼結構學習車輛前方行人和其他車輛的軌跡信息;Shen等[17]提出了一種基于逆強化學習的可遷移行人軌跡預測策略。在準確預測行人軌跡的基礎上,可以有效估計碰撞時間,從而指導無人車做出規避動作。針對非運動的行人,研究者通過識別行人的特定動作,如揮手、邁腿、凝視等,預測行人的過街意圖。為了識別特定動作,研究者往往需要事先檢測人體的骨骼點[18]。譬如,Fang等[19]利用檢測出的骨骼點之間的距離和角度判斷行人是否有過街意圖,Quintero等[20]在三維空間檢測人體骨骼點,并基于骨骼點信息識別行人的靜止站立、起動、行走和停止動作。

相比于運動行人的過街意圖識別,非運動行人由于不存在顯著的運動性,其過街意圖識別較為困難。盡管通過人體骨骼點檢測可以判斷行人過街前的動作,進而預測其過街意圖。但是,受限于復雜環境、人車距離、局部遮擋等因素,較難準確檢測人體骨骼點,進而降低了動作識別的精度。同時,行人過街意圖與其所處交通環境密切相關,僅僅進行行人檢測、跟蹤、軌跡預測與動作識別,缺乏對上下文語義信息的考慮,較難準確識別行人意圖。

針對上述問題,本文中提出了一種融合場景條件因素的端到端深度神經網絡,實現了行人意圖的準確識別。針對復雜情況下難以準確檢測行人骨骼點的問題,設計了一種改進的卷積自編碼網絡,以生成式策略預測視頻中的行人行為,同時利用深度神經網絡強大的表征能力學習行人未來動作編碼。同時,針對影響行人過街意圖的外部因素,如行人周圍的局部交通場景、人車距離和車速等,本文中引入了E?NET網絡進行局部場景理解,引入注意力機制改進的GRU(門限遞歸單元)編碼車速和人車距離信息,并將得到的信息與動作信息進行融合,從而準確預測行人過街意圖。

綜上,本文的主要貢獻可歸納為:(1)針對行人過街意圖受到主客觀因素影響的特點,提出了一種融合場景因素的端到端深度神經網絡,實現行人意圖的準確識別;(2)針對復雜環境下較難準確提取行人骨骼點、導致難以識別其動作的問題,提出了一種基于先驗可學習視頻預測的動作信息編碼網絡,在預測行人未來動作的同時實現未來動作編碼;(3)針對交通場景對行人過街意圖的影響,引入輕量級E?NET網絡實現行人周圍局部交通場景的實時語義理解;(4)針對車速、人車距離對行人過街意圖的影響,使用GRU進行信息編碼,并引入注意力機制使GRU更加關注車速的突然改變。最后,在JAAD與PIE兩個公共數據集上進行算法評價,結果表明本文算法具有較高的準確性,同時,實車測試也展示了算法在變化光照條件下的魯棒性。

1 算法理論基礎

1.1 變分自編碼器

Kingma等提出的變分自編碼器(variational auto?encoder,VAE)[21]是一種無監督學習模型。VAE結構框圖如圖1所示,VAE由編碼器和解碼器組成,其基本思想是:假設輸入數據集X中的樣本相互獨立,通過編碼器生成服從正態分布的隱變量Z,然后通過解碼器重構生成數據集X,并使X盡量接近X。編碼器和解碼器由神經網絡組成,同時,引入兩個神經網絡生成隱變量Z的均值μ=f1(x)和對數方差logσ2=f2(x),由于方差是非負的,而使用對數方差后可正可負,運算更加方便。編碼器得到的后驗分布函數為qΨ(z|x);解碼器得到的真實后驗分布函數為Pθ(z|x),并使用KL散度度量兩者之間的距離,通過損失函數來優化VAE模型參數,損失函數如下:

圖1 VAE結構框圖

1.2 E?NET網絡

語義分割是計算機視覺領域的關鍵問題之一。對于運行中的無人車,語義分割可以幫助其理解復雜的交通場景,并從場景中推測出軌跡規劃、避障等任務所需的知識。隨著深度學習的發展,研究者提出了諸如FCN[22]、UNET[23]和SegNet[24]等模型,取得了遠超傳統分割算法的優異表現。但是,上述模型的計算量較大,較難實時運行。本文中引入一種輕量級卷積神經網絡E?Net[25],對行人周圍的局部場景進行語義分割,從而編碼局部交通場景信息,如圖2所示。

如圖2(a)所示,E?Net網絡包括6種模塊,分別是初始化模塊和5種瓶頸模塊。初始化模塊的網絡結構如圖2(b)所示,圖2(c)所示為常規、下采樣、上采樣、膨脹、非對稱5種瓶頸模塊的網絡結構。通過不同種類瓶頸模塊的配合,實現了對圖像全局信息的編解碼,進而實現對交通場景的語義理解。

圖2 E?Net結構框圖

1.3 門限循環單元

門限循環單元(gated recurrent unit,GRU)[26](見圖3)是循環神經網絡(recurrent neural network,RNN)[27]的一種變體,相比于長短時記憶網絡(long?short term memory,LSTM)[28],GRU可以在更少計算量的前提下獲得更好的表現。

圖3 GRU單元結構

如圖3所示,每個GRU由控制信息傳輸的更新門和重置門組成。其中,t為時間步長,t時刻下更新門接收當前輸入向量和前一時間步的單元狀態,通過激活函數處理,幫助GRU控制當前狀態需要從前一時間步狀態中保留的信息量以及從候選狀態中接受的信息量。重置門和更新門的處理類似,用于控制候選狀態對前一時間步狀態的依賴,使GRU能夠自適應地忘記或重置當前的信息。因此,GRU能夠有效地捕捉輸入序列的長期和短期的依賴關系,更適用于解決動態識別任務。假設GRU網絡的輸入量為X=(x1,x2,...,xn),其中各變量的關系如下:

式中:x t表示當前時刻的輸入;W rx、W zx、W hx、W rh、W zh和W hh為可學習權重矩陣;r t和z t分別表示重置門和更新門權重;h t-1和h t分別表示前一時刻和當前時刻的隱藏層狀態;ht表示當前時刻新的記憶;σ為sigmoid(·)函數,tanh(·)為雙曲正切激活函數;b r、b z和b h分別表示重置門、更新門和新記憶中的偏差項。

1.4 注意力機制

注意力機制(attention mechanism)借鑒了人類視覺方面的選擇性注意特點,即人類快速地掃描全局圖像,可以獲得需要重點關注的目標區域,進而從該區域獲得目標細節信息,抑制無用信息。針對序列數據,注意力機制可以為序列特征分配不同的權重,并通過概率分配的方式自動提高模型對重要特征的關注程度,從而在不增加計算與儲存成本的前提下,增加對序列數據處理的準確性。

本文中需要處理車輛速度與人車距離,將注意力機制引入GRU模塊構成AGRU(attention?GRU),可以突出車輛加減速以及人車距離突然變短等關鍵信息,改善行人過街意圖識別結果。圖4為AGRU的結構,其中,t表示從1到n的時刻信息,x t表示GRU模塊的輸入,h t對應t時刻AGRU模塊的隱藏層輸出,αt表示通過注意力機制計算得到的關于時序特征的注意力概率分布,y表示AGRU的輸出,由各時刻特征加權得到。

圖4 AGRU結構圖

αt與y的計算公式如下:

式中:W w和b w為tanh(·)的可學習參數與偏置;W A為AGRU的可學習參數。

2 行人過街意圖識別算法

2.1 算法概述

本文中致力于識別行人過街意圖,即判斷在路側等待的行人是否有穿越馬路的意圖,進而幫助車輛更好地理解交通場景。圖5為本文中提出的多源信息融合識別網絡(multi?source information fu?sion based recognition network,MIFRN)。MIFRN通過綜合考慮行人動作、周圍局部交通場景、車輛速度和人車距離,來解決行人穿越/不穿越這個分類問題。首先,引入YOLOv4[29]進行行人檢測,并通過Yamaguchi[30]等提出的單目相機自運動估計算法進行自運動補償,并將20幀內沒有發生明顯位移的行人目標作為感興趣目標,即路側等待的行人。然后,將感興趣目標送入MIFRN,并擴展其最小外接矩形(如圖5紅色矩形框所示),得到周圍局部交通場景(如圖5黃色矩形框所示),同時將車速和人車距離(車輛近似位于圖像底部中點)送入MIFRN。具體擴展方法是保證紅、黃矩形框中心對齊的前提下,將紅色矩形框的寬度和高度分別按照經驗值擴大5倍和2倍。MIFRN包含3個主要模塊:①基于E?NET的輕量級場景語義理解網絡,用于編碼局部交通場景;②基于先驗可學習視頻預測的動作信息編碼網絡,用于編碼行人未來動作信息;③基于注意力機制加權的GRU時序數據處理網絡,用于編碼車輛速度和人車距離。最后,引入雙向GRU進行信息的深度融合,并將融合結果送入多層感知機以獲取行人穿越/非穿越概率。下面將分別介紹MIFRN的主要模塊。

圖5 多源信息融合識別網絡MIFRN整體框圖

2.2 行人未來動作信息編碼

行人穿越馬路前,往往伴隨邁步、揮手、注視來車等動作。當車輛駕駛員捕捉到這些行為,就可以提前減速讓行,避免人車碰撞。因此,準確理解路側行人的動作,對于識別其過街意圖至關重要。前期研究集中于檢測行人的骨骼點,進而設計不同的動作模式。但是,拍攝距離、角度與光照、環境等因素可能導致無法準確檢測行人骨骼點,進而較難準確理解其行為。

本文中引入深度神經網絡編碼行人動作信息,基于多任務學習范式,提出了一種基于先驗可學習視頻預測的動作信息編碼網絡,即通過訓練生成式模型預測行人未來動作,并從中編碼未來動作信息。為了更好地生成行人未來動作,會迫使網絡更加關注行人動作線索,從而提高了未來動作編碼的準確性。

圖6所示為動作信息編碼網絡結構。在獲得視頻當前幀Xt的前提下,網絡可預測視頻下一幀Xt+1。本文中采用3個相互獨立的VGG16網絡作為編碼器,為了加速收斂,利用ImageNet對網絡進行了預訓練。考慮到動作的時序性,引入GRU模塊挖掘動作編碼的時域關聯。在訓練階段,引入視頻下一幀的真實值Xt+1作為監督信息。圖中,GRU2從Xt中預測隱變量Z,GRU1從Xt+1中預測隱變量中包含真實值Xt+1的信息。通過最小化Z和之間的KL損失,可以迫使GRU2學習如何從Xt中預測包含真實值Xt+1信息的隱變量Z。在解碼階段,將Z與編碼器3的輸出拼接后,送入GRU3進行時序處理,并將處理后的結果送入解碼器,解碼器輸出t時刻的預測值,Xt+1與之間的重構誤差可用于評價網絡預測的準確性。解碼器由編碼器中VGG16網絡的鏡像翻轉構成,并將下采樣池化模塊替換為上采樣膨脹卷積模塊。所有的GRU采用單層結構,隱含層神經元個數為64。本文將GRU3的輸出結果作為t時刻的行人未來動作編碼Ψt,相比于對當前動作編碼,對未來動作的編碼能夠更好地反映行人意圖。

圖6 基于先驗可學習視頻預測的動作信息編碼網絡結構

2.3 局部交通場景理解編碼

行人穿越行為通常發生在有交通信號燈、斑馬線和行人指示標志的路口,準確理解行人周圍的局部交通場景,對于判斷其是否會穿越有較大幫助。基于深度學習在語義分割領域的成功,本文中引入輕量級的E?NET網絡實現場景理解。為了加速擬合,在KITTI語義分割數據集上對E?NET網絡進行了預訓練。訓練后的E?NET網絡在下采樣過程中可以獲取局部交通場景的深度編碼,這種編碼盡管丟失了部分場景細節信息,但是能夠保留局部交通場景的道路、建筑物、樹木等主要語義信息,從而保證MIFRN能夠更好地理解行人所處的局部交通環境。E?NET網絡結構如圖2所示,由于本文中只需要編碼局部交通場景,因此僅保留E?NET網絡的前4個模塊,刪除了上采樣模塊。假設t時刻輸入的局部交通場景為St,則對St的編碼如下:

式中:f(·)表示預訓練后的部分E?NET網絡;Ws表示網絡的可學習參數。

2.4 車速、人車距離編碼

當來車速度過高、或者人車距離過近時,行人往往會放棄穿越,轉而等待車輛通過。因此,準確編碼車速和人車距離可以提高行人過街意圖識別的準確性。本文中引入GRU模塊高效地編碼車速與人車距離。同時,考慮到極端情況(如車輛突然加速、人車距離突然縮短等)對行人過街意圖的影響較大,本文中引入注意力機制,設計了基于注意力機制加權的AGRU,分別對車速和人車距離進行編碼。假設車 速 和 人 車 距 離 序 列 分 別 是V t={v1,v2,...,vt}和D t={d1,d2,...,d t},則車速和人車距離在t時刻的編碼結果分別為

式中:AGRUV(·)和AGRUD(·)表示兩個獨立的GRU時序數據處理網絡;W V和W D分別是AGRUV(·)和AGRUD(·)的可學習參數。

2.5 多源信息融合和行人過街意圖識別

對于t時刻行人運動信息編碼Ψt、場景語義編碼φt、車速與人車距離編碼ΦVt與ΦDt,常用融合方法是直接拼接。但是,直接拼接較難獲取不同編碼信息之間的深層關聯。本文中引入基于雙向GRU的信息融合模塊,將4種編碼組合成序列I t=[Ψt,φt,ΦVt,ΦDt],并將I t送入雙向GRU,雙向GRU的輸出作為融合結果:

式中:BiGRU(·)表示雙向GRU網絡;W Bi表示網絡的可學習參數;O t表示t時刻的融合編碼向量,維度為64。這種融合方式有利于挖掘不同編碼信息的深度關聯,從而提高行人意圖識別的準確性。

為了從O t中推測行人過街意圖,本文中引入了多層感知機,感知機中每層的神經元個數分別為64、32、16和2。最后,將輸出通過Softmax函數歸一化,得到行人穿越/非穿越的概率。

2.6 損失函數設計

本文中采用多任務學習范式,網絡在識別行人意圖同時,可以預測行人的未來動作。總的損失函數包括:(1)分類損失Lc;(2)重構損失LG;(3)KL損失LKL。

(1)分類損失Lc:本文中將行人過街意圖識別當做分類問題處理,考慮到行人個體的差異,識別有難有易。因此,引入了焦點損失函數(focal loss)代替二值交叉熵損失函數,Lc定義如下:

式中:Yi表示樣本i的真實標簽,0表示負樣本,1表示正樣本;Pi表示網絡輸出的行人過街意圖的預測概率。超參數α用于控制正負樣本的比例,按經驗值設為0.5;超參數γ用于緩解難易樣本問題,按文獻[21]設為2。

(2)重構損失LG:該損失用于衡量動作預測與真實結果的差異,本文中采用L2損失作為重構損失LG,定義如下:

式中:Xt為t時刻的真實值為t時刻網絡的輸出值。

(3)KL損失LKL:該損失用于衡量動作信息編碼網絡訓練階段中潛變量Z與Z之間的分布差異,通過降低該損失,可以使分布Z與Z接近。本文中引入KL散度來計算LKL,定義如下:

在得到上述3個損失函數的前提下,總的損失函數如下:

式中權衡參數κ與β通過交叉驗證分別設置為0.1與0.5。

3 實驗結果與分析

3.1 數據集與衡量指標

(1)JAAD[31]。JAAD數據集常用于研究交通參與者的行為。該數據集包括346段5-15 s的高分辨率視頻片段,每個片段中都包含城市環境下的不同駕駛場景。數據集中提供了行人的標注信息,標注的行人類型包括:沿路側行走的行人、路側等待的行人、正在穿越馬路的行人等。考慮到識別行人過街意圖的目的,從JAAD數據集中選取了158個穿越行人樣本和79個非穿越行人樣本。

(2)PIE[32]。PIE數據集常用于研究行人意圖,其規模大于JAAD數據集。PIE使用車輛在不同街道結構、不同群體密度地區采集了1 842段位于路側的行人數據。所有數據都采于白天、能見度高的場合,因此可以較好地分析行人行為。考慮到識別行人過街意圖的目的,從PIE數據集中選取了516個穿越行人樣本和852個非穿越行人樣本。

3.2 時域數據增益

JAAD和PIE數據集提供了分析行人過街意圖的樣本,但是,仍然存在兩個問題:(1)樣本量偏少,盡管PIE數據集的1 368個樣本遠大于JAAD數據集的237個樣本,但仍然無法滿足深度神經網絡訓練的需要;(2)正負樣本不均衡,JAAD數據集中穿越行人與非穿越行人樣本的比例約為2∶1,PIE數據集中這個比例約為1∶1.6。

為了緩減這兩個問題,本文中引入了時域數據增益,步驟如下。

(1)對于穿越行人樣本,以其開始穿越時刻(開始邁腿或擺手的瞬間)為界,向前、后各取12、11幀,總計獲得24幀數據。

(2)對任意24幀數據進行時域增益,即以2幀為間隔在時域上連續采樣長度為16幀的序列,最后可獲得1-16、3-18、5-20、7-22、9-24共5個序列,且每個序列中都包含開始穿越時刻(即第13幀)。數據增益后,可分別從JAAD和PIE數據集中提取出790和2 580個穿越行人樣本。

(3)對于非穿越行人樣本,考慮正負樣本間的均衡,以行人可以清晰觀測為準,從JAAD數據集中的每個非穿越行人序列中連續采集34幀數據,從PIE數據集中連續采集20幀數據,并分別以2幀為間隔在時域上進行增益。最后,可分別從JAAD和PIE數據集中提取出790和2 556個非穿越行人樣本。

(4)對于增益后的JAAD與PIE數據集中的穿越/非穿越行人樣本,以5-折交叉驗證的方式確定訓練集與測試集,并采用正確率Acc(Accuracy)指標進行評價,Acc計算公式如下:

式中:P和N分別表示總的穿越樣本與非穿越樣本數目;TP和TN分別表示正確識別的穿越樣本與非穿越樣本數目。

3.3 實驗細節設置

本文中所采用的實驗平臺搭載了兩塊英偉達1080ti顯卡和一塊英特爾I9 CPU,實驗環境為Ubuntu系統、Pytorch框架。行人動作序列的尺寸為128×128像素,局部交通場景的尺寸為320×320像素。本文中使用Adam優化器訓練網絡,總的訓練批次數目為300,初始學習率設置為0.01,并每隔100批次將學習率除以10。

3.4 銷蝕實驗

本文工作的貢獻之一是提出一種多源信息融合識別網絡MIFRN識別行人過街意圖,除了從行人動作中識別其穿越意圖,MIFRN還能夠融合行人周圍的局部交通場景、車速、人車距離等線索,做出綜合決策。為了評價網絡中不同信息的作用,本文中分別在JAAD與PIE數據集上進行了銷蝕實驗,結果如表1所示。從表中不難看出,行人動作中包含其是否準備穿越的主要信息,局部交通場景信息可以作為行人動作的重要補充,車速、人車距離也能夠在一定程度上提高行人過街意圖識別的準確性。

表1 MIFRN網絡銷蝕實驗

3.5 行人過街意圖定量分析

行人過街意圖識別是智能交通系統與無人駕駛領域的熱點話題之一。但是,大量研究通過分析行人的歷史軌跡判斷其是否有過街意圖,忽略了行人的外表與動作。本文中著眼于識別行人開始穿越的動作,結合交通場景、車速、人車距離,準確識別行人過街意圖。為了展示本文方法的有效性,選取了如下方法進行對比:

(1)文獻[33]中提出的一種基于AlexNet網絡的行人過街意圖識別方法;

(2)文獻[34]中提出的一種雙通道卷積神經網絡識別行人過街意圖的方法;

(3)文獻[19]中基于人體骨骼點檢測結果識別行人動作,進而判斷其過街意圖的方法;

(4)文獻[35]中引入圖卷積神經網絡處理人體骨骼點之間的關聯,提高了行人動作識別的準確性,進而能夠更好地識別行人過街意圖的方法;

(5)文獻[36]中提出的一種基于時空關聯推理的方法,通過圖模型建模行人與車輛的關系,從而識別行人過街意圖。

本文中在JAAD和PIE數據集上以相同設置對比了算法性能,用于比較的算法采用了相應工作中的默認設置。表2和表3分別給出了本文算法與主流算法在JAAD和PIE數據集上的比較結果。從表中不難看出,基于骨骼點的行人意圖識別算法性能優于早期的AlexNet網絡和雙通道卷積神經網絡,弱于近期提出的基于時空性關聯推理的方法[36]。本文算法由于引入了行人未來動作信息編碼,同時綜合考慮了局部交通場景、車速和人車距離,在兩個數據集上都取得了最優的效果。

表2 與主流算法在JAAD數據集上算法性能比較

表3 與主流算法在PIE數據集上算法性能比較

3.6 行人過街意圖定性分析

本文中提出了一種基于視頻預測的動作信息編碼網絡,在預測行人未來動作的同時,生成其未來動作編碼,該編碼中包含了行人的過街意圖。因此,行人未來動作生成的優劣決定了編碼是否準確,進而關系到能否準確識別其過街意圖。圖7和圖8展示了JAAD和PIE數據集中一些行人樣本的未來動作生成示例。圖中藍色方框表示觀測的10幀動作序列,紅色方框表示生成的10幀未來動作。由于行人未來動作的不確定性隨著觀測時間的推移而增加,因此紅框中后端圖像的生成質量劣于前端圖像。對于圖7和圖8中,(a)、(b)為未穿越行人樣本,(c)、(d)為穿越行人樣本。不難看出,本文算法能夠描述行人的未來動作,如果行人沒有穿越馬路,則生成數據中不包含明顯的抬腿、揮手等動作;反之,生成數據中通常包含腿部動作,揭示了行人即將穿越。

圖7 JAAD數據集行人未來動作生成示例

圖8 PIE數據集行人未來動作生成示例

利用圖像信息識別行人過街意圖的主流方法是檢測行人骨骼點,在此基礎上識別行人動作,進而判斷其是否準備過街[19]。但是,骨骼點檢測對行人圖像的清晰度有一定要求。在實際交通場景下,人車距離、遮擋、光線、行人穿著等因素都會對骨骼點檢測產生影響,導致誤檢或漏檢。圖9和圖10分別給出了JAAD和PIE數據集中骨骼點檢測失敗的例子。對于任意子圖,上一行表示行人觀測序列,下一行表示骨骼點檢測結果。圖9(a)和圖9(b)中由于行人的姿態、穿著等因素,無法準確檢測其骨骼點,進而無法利用骨骼點信息判斷行人是否準備過街。使用本文方法,在僅使用行人未來動作編碼的前提下,得到圖9(a)和圖9(b)中行人不穿越、穿越的概率分別為0.788和0.836。圖10(a)和圖10(b)中部分幀可以檢測到完整的行人骨骼點,但是其它幀存在誤檢、漏檢,導致較難識別行人過街意圖。僅使用本文中提出的未來動作編碼,得到圖10(a)和圖10(b)中行人不穿越、穿越的概率分別為0.822和0.858。由此可見,本文方法能夠在復雜交通場景下魯棒地識別行人動作信息,進而結合場景條件,更好地識別行人是否具有過街意圖。

圖9 JAAD數據集行人骨骼點檢測失敗案例

圖10 PIE數據集行人骨骼點檢測失敗案例

3.7 實車實驗效果

為了驗證所提算法的有效性,本文中將JAAD與PIE數據集進行了整合,在整合后的數據集上訓練模型,并進行了實車實驗。圖11為實車實驗平臺“江大智能行”號無人駕駛汽車,該平臺集成了智能車感知、地圖、規劃決策、控制等無人駕駛的基本功能,使用了基于CORS差分技術的GPS與IMU結合的定位系統,并具有由一臺velodyne 64線激光雷達、兩臺ibeo4線激光雷達、一臺Delphi毫米波雷達、一臺SICK單線激光雷達和兩臺Gige融合工業相機構成的智能感知系統,其數據處理功能由研華ARK-3 500工控機完成。本次實車實驗主要利用了“江大智能行”號的圖像采集能力與數據計算能力,實驗全程由駕駛員進行操作。圖12為兩臺Gige融合工業相機安裝效果圖。

圖11 “江大智能行”號無人駕駛汽車

圖12 車載工業相機安裝效果圖

圖13為本文算法的實車測試結果,其中,上、下圖分別展示了3個穿越、非穿越行人樣本。MIFRN在輸出行人穿越、非穿越概率前使用了Softmax激活層進行標準化處理,因此對于每個樣本,其穿越概率與不穿越概率之和為1。為了更清晰地展示行人是否穿越,圖13以紅色矩形框標記穿越行人,以綠色矩形框標記非穿越行人,并在矩形框頂端附注可能性較大的行為對應的概率值(與矩形框同色)。

圖13 實車測試結果

從圖中可見,當檢測到行人周圍有紅綠燈、斑馬線等交通標識,且行人未來動作中存在抬腿、揮手等可能時,行人有較大的概率穿越;當行人沒有任何穿越動作的前兆,且場景中無任何交通標識的情況下,行人有較大概率等待車輛通過。從結果中不難看出,本文算法可以在較大范圍光照變化下比較準確地檢測行人是否有穿越意圖,且對行人的模糊外表有一定魯棒性,克服了基于骨骼點的行人穿越意圖判別中較難準確提出骨骼點信息的不足。

4 結論

本文提出了一種多源信息融合識別網絡MIFRN用于識別行人過街意圖。MIFRN包含一種基于先驗可學習視頻預測的動作信息編碼網絡,可以在預測行人未來動作的同時,生成其未來動作信息的編碼,克服了惡劣環境下無法準確檢測行人骨骼點的弊端,更加魯棒地理解行人行為。為了進一步提高行人過街意圖的識別準確率,MIFRN引入輕量級的E?NET網絡編碼行人周圍的局部交通場景,引入注意力加權的GRU模塊編碼車速和人車距離,并引入雙向GRU多源信息的深度融合。相比于其它主流算法,MIFRN在JAAD和PIE數據集上都取得了最佳性能,在實車實驗中也表現出不俗性能。

本文中提出的MIFRN可用于無人駕駛領域的復雜場景感知,通過感知路側行人的過街意圖,可以更好地規劃無人車的未來運行軌跡。同時,MIFRN也可用于有人駕駛車輛的ADAS系統,從而為行人防碰撞提供更好的決策依據。盡管MIFRN在公共數據集上取得了較好表現,但仍存在以下問題:(1)計算開銷大,MIFRN需要利用YoloV4進行目標檢測,然后同時編碼行人未來動作、局部交通場景、車速和人車距離,所需要的計算資源較大,較難應用于智能邊緣設備;(2)MIFRN主要依賴路側行人的動作信息識別其過街意圖,對于無征兆的行人突然穿越,識別表現較差。因此,后續工作將主要集中在:(1)通過壓縮、精簡模型,改善算法的實時性能,從而滿足智能邊緣設備的算力需求;(2)深入研究行人過街意圖和人車沖突決策的內在機理,從而在機理上更好地避免人車沖突。

猜你喜歡
動作信息
下一個動作
動作描寫要具體
畫動作
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 免费看a级毛片| 五月天香蕉视频国产亚| 国内熟女少妇一线天| 韩国福利一区| 色婷婷在线影院| 国产成人高清精品免费软件| 一本大道视频精品人妻| 国产玖玖视频| 国产乱视频网站| 91福利在线观看视频| 欧美三级视频在线播放| 在线一级毛片| 国产91在线|中文| 在线看片中文字幕| 久草国产在线观看| 国产成人精品一区二区三在线观看| 欧美午夜在线播放| 91在线精品麻豆欧美在线| 亚洲福利一区二区三区| 在线播放真实国产乱子伦| 国产成人精品男人的天堂| 国产交换配偶在线视频| 不卡无码h在线观看| 中文字幕欧美日韩高清| 69综合网| 一区二区三区四区精品视频| 国产二级毛片| 99久久国产自偷自偷免费一区| 一本久道久久综合多人 | 欧美国产精品不卡在线观看| 国产精品永久在线| 国内精品91| 一级毛片免费观看久| 亚洲一区二区日韩欧美gif| 亚洲无码电影| 精品乱码久久久久久久| 91外围女在线观看| 国产精品美女自慰喷水| 久久久精品国产亚洲AV日韩| 国产成人高清精品免费软件| 亚洲一区毛片| 国产精品任我爽爆在线播放6080| 免费黄色国产视频| 91小视频在线观看免费版高清| 亚洲成在线观看| 国产精品成人AⅤ在线一二三四| 九色综合视频网| 又爽又大又光又色的午夜视频| 欧美日本在线一区二区三区| 欧美无专区| 国产无吗一区二区三区在线欢| 国产美女久久久久不卡| 亚洲精品少妇熟女| 久久人搡人人玩人妻精品| 国产第三区| 欧美一区福利| 久久婷婷五月综合97色| 亚洲最新网址| 国产精品19p| 国内精品伊人久久久久7777人| 国产丝袜第一页| 一级毛片在线播放免费观看| 国产免费人成视频网| 亚洲欧美精品日韩欧美| 就去吻亚洲精品国产欧美| 乱人伦99久久| 国产麻豆91网在线看| 亚洲国产看片基地久久1024| 国产爽妇精品| 国产精品美乳| jizz国产视频| 色呦呦手机在线精品| 99视频精品全国免费品| 久久久久亚洲精品无码网站| 国产福利微拍精品一区二区| 伊人久综合| 国产玖玖视频| 国产不卡一级毛片视频| 国产va视频| 国产大片喷水在线在线视频| 露脸一二三区国语对白| 欧美性天天|