張本康,胡 濱
貴州大學 計算機科學與技術學院,貴陽 550025
行人目標檢測是從視頻/圖像中判斷行人對象類別、定位目標空間位置信息的計算機視覺研究分支,它是構建自動駕駛、服務機器人、智能視頻監控等未來人工視覺系統的重要基礎[1-2]。傳統的研究主要針對視野域投影呈現大、中尺寸外形特征的行人目標檢測和識別,并能取得不錯的效果[3]。然而,當運動行人遠離視頻/圖像采集設備,其在視野域僅占據2°~5°的視角空間時[4-6],呈現視感尺寸小、圖像分辨率低、紋理特征模糊的運動小目標視覺形態特征,使得傳統的行人檢測方法檢測精度低、誤漏檢率高[1,3],對運動小目標行人的檢測與識別成為當前計算機視覺、模式識別與分類、人工智能等眾多領域共同的挑戰性難題。
動物的視覺系統經歷了億萬年的進化高度成熟可靠,其內部的神經結構特性、視感神經機理等可被用于構建執行視覺感知任務的新型人工視覺系統。例如,Yue和Rind[7-8]受蝗蟲小葉巨型運動檢測器(lobula giant movement detector,LGMD)的神經特性啟發,提出一種適用于汽車碰撞檢測的LGMD神經網絡;Wang等[9-11]借助蜻蜓大腦運動小目標檢測(small target motion detector,STMD)神經元的視感機理,設計了一種感知運動小目標對象的人工視覺系統;Hu等[12-15]基于蝗蟲視覺神經特性及視感認知機理,構建了檢測目標運動模式的人工視覺神經網絡模型。近年來,生物視腦神經學家已初步揭示視覺信息在諸如蝗蟲視覺系統中的神經加工機制[16-19]、人類大腦情景記憶認知機理[20-21]。然而,目前尚未有借助上述生物啟發構建運動小目標行人檢測計算模型的相關文獻報道。因此,基于最新的生物視覺神經學及腦認知科學理論,探究生物啟發的運動小目標行人檢測人工視覺系統是一個值得研究的科學問題[22]。
本文基于蝗蟲視覺系統的神經結構特性、借助人類大腦情景記憶認知機理,研究了視覺場景下的運動小目標行人檢測問題,主要貢獻如下:(1)原創性地提出一種生物啟發的人工視覺神經網絡模型(small target pedestrian detection neural network,STPDNN),用以檢測和識別監控視頻中的運動小目標行人對象;(2)STPDNN從計算機視覺的角度進一步解釋了視覺信息在蝗蟲視覺系統中的神經加工處理機理以及人類大腦情景記憶認知機理,這為構建運動目標檢測與識別的動態視覺信息加工處理系統提供了新思路;(3)基于不同真實視覺場景下的運動小目標行人視頻,開展了系統性的實驗并驗證了STPDNN的性能特性。
近年來,研究人員針對投影圖像空間高度分辨率為20~100像素的小尺寸行人檢測問題,開展了探索性工作并提出相應的計算方法。例如,Pang等[23]基于HOG、LUV和JCS-Net融合分類與超分辨率任務,提出一種適用于投影高度低于100像素的小尺寸行人檢測模型;Li等[24]基于YOLOv3_tiny[25],借助K-means++算法在多尺度預測模塊中增加52×52像素分辨率的目標預測層,以實現對小尺寸行人目標對象的檢測;You等[26]基于YOLOv4[27]設計了一種注意力和加權特征融合的小尺寸行人檢測算法,該算法在骨干網絡CSPdarknet53中引入自適應注意機制,并在特征金字塔中采用信道加權特征融合,以檢測小尺寸行人目標;Han等[28]提出一種深度小尺寸行人感知網絡,該模型采用交叉熵損失函數提高模型的檢測精度,從而識別圖像中那些投影高度為20~70像素的小尺寸行人;此外,Huang等[29]構建了一種用以檢測外型投影形變行人目標的改進型RPNplus模型;Jocher等[30]提出的YOLOv5模型在小尺寸行人檢測上也有一定的檢測準確率,但它們的檢測精度依然無法滿足實際應用場景的需要。
上述模型都在現有的行人檢測框架基礎上,采用深度學習技術改進目標外形紋理特征識別方法,提升模型對小尺寸行人目標的檢測精度。然而,隨著目標對象在視野域中投影占據視角空間的縮小[4-6],運動的小目標行人對象已不再適合像素分辨率的視覺表征,其投影的外形紋理特征越發模糊,使得現有的傳統小尺寸行人檢測方法難以應對運動小目標行人的檢測問題。此外,基于傳統深度學習技術構建的計算模型存在著高昂計算開銷的固有缺陷,模型的性能特性受限于模型內部結構設計與訓練集樣本規模[3],難以適應復雜多變的動態真實視覺場景。
人類在自然界的長期進化中形成了獨特的身體結構與運動行為姿態。目前已有大量科學研究從運動生物力學的角度探討了人類的運動姿態視覺特性,所獲得理論成果表明[31-33]:正常人類依靠下肢實現上身體部支撐,其外部視覺輪廓呈現豎直長方體型的外觀特征;當行人運動行走時,在動、靜力學的相互作用下,由上、下肢體的自然擺動引發的視覺運動時空能量變化表征出具有特定頻率規律的運動姿態特性。圖1給出視覺場景下的行人運動姿態示意圖。圖中,序號1至8的視頻圖像幀序列依次展示了視野域中行人目標對象呈現出具有上述生物運動力學特性的視覺運動行為過程。相關研究已證實,此獨特的運動姿態特性專屬人類所有,目前尚未在自然界的其他物種中發現[34-35]。

圖1 行人運動姿態圖Fig.1 Schematic diagrams of pedestrian movement postures
人類大腦認知機理長期以來是腦認知神經科學的研究熱點之一。在對此問題的探索中,科學家已初步揭示情景記憶是認知形成的核心組成部分,它在目標檢測與分類識別中扮演著至關重要的角色[21,36-38]。人類大腦的內側顳葉(medial temporal lobe,MTL)區存在著兩種不同的情景記憶神經元[21,37]:一類是語義記憶神經元,它具有對信息線索抽象概念高度選擇和不變性表征的編碼功能;另一類是情景記憶神經元,用于檢索信息記憶以選擇性地響應熟悉的情景模式。這兩類神經元聯合不同的時空域信息線索,實現對目標對象的認知與分類[39-42]。具體而言,情景記憶認知機理依賴于過去經歷的再現;大腦皮層的波紋振蕩反映潛在的神經脈沖活動趨勢,被組織為表征記憶信息的特定神經尖峰活動序列;在記憶形成的過程中神經脈沖反復再現,并在認知記憶實現的階段以神經尖峰序列的形式呈現于大腦的MTL區[20]。例如,Rey等[43]發現人類大腦某些MTL神經元呈現出二元編碼的神經脈沖特性,其聯合不同的情景記憶信息線索以識別測試圖片中特定類型的目標對象。
蝗蟲視覺系統的內部結構簡單,但卻能高效可靠地感知運動目標在視野域中引發的視覺運動信息[16-19],此特性吸引了科學家的廣泛關注。英國紐卡斯爾大學的Rind等[16-17,19]深入研究了蝗蟲視覺系統的神經結構特性,揭示視覺信息在其中加工處理的神經通路。具體而言[18-19,44]:(1)蝗蟲復眼表層的感光細胞(Photoreceptor,P)以膜電位的形式表征運動目標在視野域中引發的流明變化;(2)感知到的視覺信息依次傳入隨后視葉中的神經節層(Lamina,L)和髓質層(Medulla,M)加工處理,逐層提取低階視覺運動線索;(3)低階視覺運動線索送入后續的小葉復合體(Lobular Complex,LC)轉化為高階表征的視覺信息,然后被送入前腦神經中樞供決策使用。這種分層的低、高階視覺信息加工處理神經通路為構建解決視覺運動感知問題的人工視覺系統奠定了重要的生物視覺神經學理論基礎。大量的實驗[7-8,12-13,15,45]證實該蝗蟲視覺神經通路在解決計算機視覺運動感知問題上的有效性。
運動小目標行人呈現的運動姿態視覺特性[31-33],即豎直長方形的輪廓粗粒度外形特征以及運動引發的時空視覺能量周期變化特性,可被分別表征為行人目標的語義編碼及情景記憶信息[39-42];兩者之間的相互作用引發的神經脈沖活動序列,可激活屬于運動小目標行人概念認知的目標識別神經元。因此,本文基于蝗蟲視覺系統的神經通路提取運動目標在視野域中引發的視覺運動線索,借助人腦情景記憶認知機理,將運動小目標行人檢測問題轉換為對特定神經脈沖活動序列的識別問題,設計與實現了一種仿生的運動小目標行人檢測神經網絡模型,即STPDNN。
STPDNN將單目攝像機拍攝的視頻序列作為網絡模型的輸入信號,對其加工處理并向外輸出表征運動小目標行人在視野域中時空位置信息的膜電位興奮量。基于蝗蟲視覺系統的神經結構特性與人腦情景記憶認知機理,本文提出的視覺神經網絡模型內部結構如圖2所示。圖中,STPDNN由分別提取低階、高階視覺運動線索的突觸前和突觸后神經網絡組成。模型的設計細節如下所述。

圖2 STPDNN結構示意圖Fig.2 Schematic diagram of STPDNN
STPDNN的突觸前神經網絡包括P、L和M三個神經層,它們模擬了蝗蟲視覺神經通路的結構特性,從輸入的視頻序列中逐層提取出運動目標引發的低階視覺運動線索。各神經層的功能設計如下。
2.1.1 P層
P層由與輸入圖像幀像素點相對應的nc×n r個感光細胞組成。在第f幀時刻,P層細胞接收輸入圖像對應像素點的亮度信息I f,計算與上一幀相比的亮度變化。P層細胞的輸出P f由下式給出[45]:

式中,P f(x,y)是P層細胞(x,y)在第f幀時刻的輸出膜電位;x和y分別是細胞的行、列坐標信息;I f和I f-1分別表征當前時刻幀f和上一時刻幀f-1的像素點灰度值。
2.1.2 L層
L層包括兩個并列的視覺通路,分別是Lon和Loff,它們用于采集視野域中不同類型的亮度變化信息,即亮度增ON和亮度減OFF[46]。這兩個亞層的細胞均以n c×n r的矩陣形式排列,分別接收來自P層對應位置細胞的輸出。在第f幀時刻,Lon、Loff中各自細胞(x,y)的輸出Lonf(x,y)、Lofff(x,y)分別由以下兩式確定[9,47]:

式中,[x]+表示max(0,x)操作,其只接收ON通道內的視覺信號;[x]-表示min(x,0)操作,其只接收OFF通道內的視覺信號;?為興奮殘余系數。
2.1.3 M層
M層的細胞也以矩陣nc×n r排列,每個細胞同時接收來自Lon和Loff的輸出。在第f幀時刻,匯入M層細胞(x,y)的信號M f(x,y)為:

M層細胞(x,y)的輸出興奮由下式計算:

式中,w(i,j)是用于提升視覺信號質量的平滑濾波模板[15],可表示為:

STPDNN的突觸后網絡由兩個部分組成,分別是神經模塊D和神經層G。其中,模塊D接收突觸前網絡傳來的低階視覺運動線索,借助情景記憶認知機理從中響應運動小目標行人對象;神經層G則整合視覺運動信息,向外輸出表征神經網絡偏好響應特性的膜電位量。各模塊的設計細節如下。
2.2.1 模塊D
模塊D加工處理接收的視覺信息,實現如下功能:(1)構建視野域中運動目標的選擇注意區域S;(2)提取位于S區運動目標的情景記憶信息;(3)激勵表征對小目標行人偏好響應的神經元R。
(1)選擇注意區域S
遍歷神經層M中的所有細胞,計算其鄰域(r x,r y)內產生的區域興奮細胞密度量,可表征為候選區K f。K f是一個由若干興奮細胞空間信息構成的二元關系有序對集合,定義為:

K f(m)由下式計算:

式中,T c是密度閾值;D f(x,y)表示M神經層興奮值大于膜電位閾值T e的細胞(x,y),定義為:

在第f幀時刻,模塊D中的S f由運動目標在視野域中的空間信息(u f,v f)生成。令(u f,v f)0=K f(0),由下式遍歷K f并在第i次迭代獲得(u f,v f)i:

式中,i∈[1,k),k為K f中元素個數;(x'i,y'i)∈K f;是K f(i)與(u f,v f)i-1間的歐式距離;T d為距離閾值。遍歷K f結束后,(u f,v f)=(u f,v f)k-1。S f由下式生成:

式中,(x″l,y″l)為S f中的興奮細胞;x∈[u f-ηr,u f+ηr]、y∈[v f-ηr,v f+ηr],其中的ηr是選擇注意區域半徑。
(2)運動目標情景記憶
運動目標的情景記憶信息由兩種不同的神經脈沖活動序列表征,分別是運動小目標輪廓特性?,以及視覺運動能量時空變化特性?。
在第f幀時刻,?由S f中相互關聯的興奮細胞的空間信息確定,即:

式中,n p是興奮持續系數;H f為第f時刻幀的神經脈沖興奮量,由下式計算:

式中,(x″,y″)∈S f;max()、min()分別表示S f中元素“·”的極大、極小值。
通過計算S f中細胞興奮強度變化獲得第f幀時刻的,即:


式中,h為S f中元素個數。
(3)神經元R響應輸出
以E?的脈沖頻率周期為基準,從周期性、對稱性和波峰波谷差異性三方面獲得第f時刻幀?的特征向量,即:

式中,和表征?脈沖周期特性,分別為在?的一個周期,第f幀時刻興奮值大于第f-1幀興奮值的視頻幀數量和第f幀時刻興奮值小于第f-1幀興奮值的視頻數量;和表征?脈沖對稱特性,分別為在的一個周期內,從波谷到波峰興奮變化量和從波峰到波谷興奮變化量;和表征的波峰波谷差異性,分別為在?一個周期內的波峰值和波谷值;表示中的波峰、波谷出現的總量;是視覺運動信息變化狀態,Αf>0表示呈現從波谷到波峰的過程,反之亦然;為波形狀態,Βf<0為波峰/波谷狀態,反之亦然。在f=1時刻,Φ1=(0,0,0,0,0,0,0)。
令U f、V f和W f分別表示?的脈沖周期度、脈沖對稱度和脈沖波峰波谷差異度。其中,U f為?在當前周期占用幀數與歷史所有周期占用的平均幀數的差異值;V f為E?在最近一個周期內波谷到波峰興奮變化量與波峰到波谷興奮變化量之比;W f為?在同一周期內波峰、谷差異值與波峰值之比。在第f幀時刻,令運動目標引發的視覺運動時空能量特征向量其中,表示的記憶周期平均幀數,是前一周期興奮從波谷至波峰的變化量,為與相反的信息變化量。?f由下式確定:

?1=(0,0,0)(f=1)。令υf=(U f,V f,W f,ξ),其由下式確定:

式中,ξ=1表示Φf規整為(0,0,0,0,0,0,Tnum)。
第f幀時刻,神經元R從?中感知到的信息量Ψf為:

式中,α為權值系數;擬合函數T、Γ和Λ分別為:與行人輪廓特性間的相似度由下式確定:


最后,神經元R在第f幀時刻向外輸出的興奮R f為:

2.2.2 G層
G層細胞以矩陣nc×n r的形式排列,分別接收來自模塊D和M層的輸出信息,調諧輸出表征視野域運動小目標行人時空信息的膜電位量。在第f幀時刻,匯入G層細胞(x,y)的興奮量G f(x,y)由下式確定:

式中,(x,y)∈S f;Δf=1表示運動目標是小目標行人,反之亦然。Δf由下式確定:

式中,T p為細胞興奮閾值。為避免輸出的運動小目標行人時空信息存在空洞,借助膨脹操作對G層膜電位量G f(x,y)作處理,并以獲得的作為整個神經網絡的向外輸出。
基于圖2的神經網絡結構以及第2.1~2.2節的設計細節,論文提出的STPDNN算法描述如下:
輸入:視頻幀νf。
輸出:STPDNN的輸出膜電位興奮。
步驟1參數設置:視頻幀νf的分辨率n c×n r,興奮量殘留持久系數?,密度鄰域半徑r x、r y,信號閾值Te,密度閾值Tc,距離閾值T d,選擇性注意區域選取半徑ηr,興奮持續系數n p,調諧系數τ、w s,特征權重系數α,細胞興奮閾值T p。
步驟2依據式(1)計算當前時刻(即第f幀)P層中細胞(x,y)的流明亮度變化P f,x∈[0,n c-1],y∈[0,n r-1]。
步驟3依據式(2)~(3)計算Lon和Loff亞層中細胞(x,y)的視覺興奮Lonf(x,y)和Lofff(x,y)。
步驟4依據式(4)~(6)計算M層中細胞(x,y)的視覺興奮輸出
步驟5依據突觸前神經網絡計算D模塊的輸出量:
步驟5.1依據式(7)~(11)計算選擇性注意區域S f。
步驟5.2依據式(12)~(15)計算S f內代表運動目標的情景記憶的神經活動序列和。
步驟5.3依據式(16)~(24)計算小目標行人識別神經元R的輸出量R f。
步驟6依據式(25)和(26)計算G層中細胞(x,y)的視覺興奮G f(x,y)。
步驟7依據膨脹操作計算STPDNN的輸出膜電位興奮矩陣值。
步驟8返回步驟2,直到遍歷所有視頻幀。
由以上算法描述可知,STPDNN的計算復雜度與各神經層對視覺運動信號加工處理的操作密切相關。令輸入神經網絡的視頻圖像幀共有N個像素,在第f幀時刻加工處理視覺信息的計算量是:P層執行N次加減法運算;L層執行2N次加減法運算、2N次乘除法運算及N次取絕對值運算;M層執行9N次加減法運算及11N次乘除法運算;D模塊執行200N+7m+h+f+26次加減法運算、4m+f+28次乘除法運算、1次取絕對值運算、N+m+6次條件判斷、206N+m+20次邏輯判斷、6次指數運算、1次賦值運算、3m+2次冪運算、2h次取最大值運算及2h次最小值運算;G層執行3N次加減法運算、10N次乘除法運算、2N次條件判斷、5N次邏輯判斷、3N次指數運算、N次賦值運算及3N次冪運算。
由上可知,STPDNN在第f幀時刻共執行了10類不同的操作運算,包括215N+7m+h+f+26次加減運算、23N+4m+f+28次乘除運算、N+1次取絕對值運算、3N+m+6次條件判斷、211N+m+20次邏輯判斷、3N+6次指數運算、N+3m+2次冪運算、2h次取最大值運算、2h次最小值運算及N+1次賦值運算。令這十類運算的時間消耗量分別為t1~t10,則神經網絡處理一幀視頻圖像的計算復雜度為:

由于輸入的視頻圖像幀數有限,并且神經網絡選擇注意區域S f中的細胞數量h、被激活的細胞數量m均是較小的數值,根據式(27)化簡后可知,STPDNN算法的計算復雜度由下式決定:

式(28)表明,輸入神經網絡的視頻圖像幀分辨率N直接影響模型的計算復雜度。因此,在不丟失視頻圖像細節的前提下,將其降維處理可有效降低整個神經網絡的計算復雜度。
實驗在CPU 3.20 GHz、RAM/16 GB、Win 10的計算機上執行;使用C++并基于Visual Studio 2013編寫源代碼。實驗測試數據為在真實視覺場景下使用單目攝像機拍攝的視頻序列(除特別標注外,所有視頻均為自行拍攝)。視頻分辨率為1 280×720像素,小目標行人視頻序列幀率由30 FPS規整為15 FPS。輸入神經網絡的圖像幀為8位灰度圖。根據前期已報道的工作[12-15]及當前的實驗,STPDNN參數設置如表1所示。

表1 STPDNN參數設置Table 1 Parameter settings of STPDNN
STPDNN加工處理視覺信號,逐層提取低階、高階視覺運動線索,以檢測視野域中的運動小目標行人對象。為驗證神經網絡各模塊的有效性,開展神經層增益測試。實驗選取兩種不同類型的運動小目標對象,分別是行人、圓柱體,如圖3所示,圖片下方數字為視頻幀的序號。在圖3(a)中,視頻序列共100幀圖像,顯示了小目標行人在視野域的中心區域自右向左的運動過程;圖3(b)的視頻序列也包含100幀,其中的圓柱體在視野域中心區域豎立著朝右側方向移動。圖中的紅色框體為后期添加的運動小目標局部放大圖,僅用于醒目展示。

圖3 神經層增益測試視頻采樣幀Fig.3 Video sample frames in gain tests of neural layers
為顯示神經網絡不同神經層,即P、Lon、Loff、M和G層的輸出增益特性,選取運動目標中心點所在行的細胞輸出膜電位并繪制其興奮值分布曲線;同時繪制神經元R的膜電位曲線圖以展示神經網絡模塊D的輸出增益特性。圖4、圖5分別給出STPDNN對圖3(a)、(b)視頻的增益測試實驗結果。其中,圖4(a)~(d)、(f)分別對應于神經網絡在第50幀時刻,其P、Lon、Loff、M、G層中行人質心行坐標(即y=436)的細胞膜電位分布圖;圖4(e)表示模塊D在整個測試視頻中的輸出值曲線。類似地,圖5(a)~(d)、(f)分別對應于第50幀時刻,神經網絡P、Lon、Loff、M、G層中豎立圓柱體質心行坐標(即y=421)的細胞膜電位分布圖;圖5(e)表示模塊D在視頻測試中的輸出曲線。

圖4 STPDNN不同神經層的輸出曲線Fig.4 Output curves of different neural layers in STPDNN

圖5 STPDNN不同神經層的輸出曲線Fig.5 Output curves of different neural layers in STPDNN
由圖4(a)~(d)、圖5(a)~(d)所示的實驗結果可知,STPDNN中的P、Lon、Loff和M層對運動小目標行人、豎立圓柱體的輸出響應相似。這是因為,上述四個神經層位于神經網絡突觸前部分,它們僅用于提取運動目標在視野域中引發的低階視覺運動線索,因此表現出相似的信號增益特性。其中,圖4(a)、圖5(a)表明P層提取出運動小目標在視野域中流明變化;圖4(b)、圖5(b)和圖4(c)、圖5(c)分別展示流明亮度改變引發的視覺信息增加、減少的變化線索;圖4(d)和圖5(d)則通過對Lon、Loff層的輸出作非線性整合提升視覺信號的信噪比。類似地,圖4(e)、圖5(e)和圖4(f)、圖5(f)的實驗結果表明,模塊D、神經層G對運動小目標行人、非運動小目標行人的輸出響應各不相同。這是因為D、G構成神經網絡的突觸后部分,它們加工處理突觸前網絡傳來的低階視覺運動線索,從中提取特定的高階信息,因此針對不同類型的目標對象展示出不同的偏好響應特性。具體表現為,在模塊D中,運動小目標行人觸發興奮值大于零的膜電位輸出信號(見圖4(e)),而非運動小目標行人則導致相反的興奮輸出(見圖5(e));神經層G向外輸出表征運動小目標行人在視野域中時空信息的高階膜電位量(見圖4(f)),而對非運動小目標行人則無響應(見圖5(f))。
為測試神經網絡在檢測運動小目標行人對象上的有效性,使用真實視覺場景的視頻序列開展實驗驗證。實驗使用的視頻序列采樣幀如圖6所示。圖6包含有100幀圖片,描述了小目標行人在田徑運動場中從右向左的行進過程。圖中紅色框體為后期添加的小目標局部放大圖,僅用于醒目展示。使用該視頻測試STPDNN,獲得的實驗結果如圖7所示。

圖6 有效性測試視頻采樣幀Fig.6 Video sample frames in validity tests
圖7(a)~(d)分別展示了神經網絡模塊D的神經脈沖活動序列?和?、神經元R的輸出興奮曲線,以及神經網絡向外輸出的膜電位可視化結果。其中,圖7(a)所示的?曲線表明,運動小目標行人引發的視覺運動時空能量變化呈現周期性的頻率變化規律;圖7(b)顯示的?幅值介于1.5~2.5之間波動,反映了小目標行人在視野域投影具有的外型輪廓不變性特征;圖7(c)中的興奮值曲線整體呈梯度上升趨勢,表明神經元R對運動小目標行人的選擇響應特性;圖7(d)展示了神經層G產生興奮向外輸出的膜電位可視化結果,其表明STPDNN能有效感知運動小目標行人在視野域中的時空信息特性。

圖7 有效性測試實驗結果Fig.7 Experimental results in validity tests
本節使用真實視覺場景下的運動小目標行人視頻序列驗證了STPDNN的有效性。實驗結果表明,神經網絡產生的神經脈沖活動序列?、?,其展現出的運動行人姿態特性與運動生物力學的研究成果[31-33]相吻合;神經元R及神經層G輸出的膜電位表明,STPDNN能有效檢測視野域中的運動小目標行人對象。
本節使用不同真實視覺場景下的運動小目標行人視頻序列測試神經網絡的性能特性,包括行進方向、運動姿勢以及外觀紋理敏感性測試。
3.4.1 行進方向
選取四段不同的視頻序列測試不同行進方向對STPDNN的影響,包括朝著上、下、左、右四個基運動方向行進的小目標行人視頻。使用的測試視頻采樣幀如圖8所示。圖中的紅色方向箭頭和紅色框體為后期添加的示意圖,僅用于醒目展示。圖8(a)由100幀圖像組成,顯示了小目標行人朝著“上”方向移動的行進過程;圖8(b)~(d)與圖8(a)類似,不同之處僅在于行進方向的差異,分別為下、左、右方向。
行進方向測試的實驗結果如圖9所示。在圖9(a)中,從左到右的四張子圖分別對應于神經網絡在圖8(a)視頻的測試期間,模塊D的神經脈沖活動序列和?、神經元R的輸出興奮曲線,以及STPDNN產生興奮向外輸出膜電位的可視化結果;與其類似,圖9(b)~(d)展示的實驗結果分別與圖8(b)~(d)所示的視頻序列相對應。由圖9展示的實驗結果可知,雖然上述視頻中的小目標行人行進的方向各不相同,神經網絡仍能夠有效檢測出監控區域中的運動小目標行人對象,并能正確向外輸出表征它們在視野域中空間信息的膜電位興奮。

圖8 行進方向測試視頻采樣幀Fig.8 Video sample frames in motion direction tests

圖9 行進方向測試實驗結果Fig.9 Experimental results in motion direction tests
3.4.2 運動姿勢
為衡量STPDNN對小目標行人運動姿勢的響應特性,使用四段不同的視頻序列測試神經網絡。視頻序列的采樣幀如圖10所示,圖中的紅色框體為后期添加的示意圖,僅用于醒目展示。實驗視頻每段均包含100幀圖像。它們分別記錄了:抱著物品前進的行人,雙手未作擺動(圖10(a));單手撐傘的行人,呈現單臂擺動的運動特征(圖10(b));運球行進的行人,手部出現上下拍動的變化(圖10(c));奔跑的行人,四肢作較大幅度的前后擺動(圖10(d))。這四組視頻序列描繪了四肢運動變化引發的不同運動小目標行人姿勢,可用于測試神經網絡的運動姿勢敏感度。
使用上述視頻序列測試神經網絡,獲得的實驗結果如圖11所示。圖11中,各子圖分別對應于圖10相應序號視頻的測試結果,例如圖11(a)與圖10(a)中的視頻相對應,其它子圖類似;每段子圖從左到右分別展示了實驗過程中模塊D的神經脈沖活動序列?和?、神經元R的輸出興奮曲線、以及STPDNN產生興奮向外輸出的膜電位可視化結果。由圖11(a)~(d)所示的實驗結果可知,圖10的行人運動姿勢的差異會觸發神經網絡模塊D產生不同強度的神經脈沖序列?。?展示出的能量幅度變化與行人運動姿勢不同導致的運動強度直接相關(見圖11左側第一列),例如,圖11(a)手抱著物品前進的行人,由于雙手未作擺動,其引發的?能量幅度遠小于圖11(d)中四肢大幅擺動的奔跑行人。然而,盡管行人的不同運動姿勢影響?的能量幅度變化,但?展示出的神經脈沖特性依然呈現出行人目標特有的周期頻率運動姿態特性。另外,由圖11左數第二列的實驗結果也能發現,不同的行人運動姿勢引發的神經脈沖序列,其能量幅度仍然呈現出小目標行人視野域投影的外型輪廓不變性特征。由圖11右側兩列的實驗結果可知,盡管測試視頻中小目標行人的運動姿勢各不相同,STPDNN仍能正確地檢測出視野域中運動的小目標行人對象。

圖10 運動姿勢測試視頻采樣幀Fig.10 Video sample frames in motion posture tests

圖11 運動姿勢測試實驗結果Fig.11 Experimental results in motion posture tests
3.4.3 外觀紋理
自然環境中的目標行人,其視覺投影的外觀紋理特性伴隨著行人的性別、穿著服飾、附屬物、光照、雜波等因素的不同發生變化[3]。本小節測試行人外觀紋理對STPDNN性能的影響。實驗選取四段不同的視頻序列開展測試。這些視頻序列每段均包含100幀圖像,其采樣幀如圖12所示,圖中的紅色框體為后期添加的目標示意圖,僅用于醒目展示。圖12(a)所示的視頻顯示了身著灰白色上下裝、斜身挎包的年輕女性朝上方向前行的過程;圖12(b)的視頻描述了深色著裝的背包男性自左向右的前進過程;圖12(c)的視頻來自VIRAT數據集[48],展示了上身淺色衣服、下身深色褲子的中年男性在陽光斜照下伴隨影子行走的視覺場景;圖12(d)的視頻顯示了深色著裝的男性在條狀護欄后方行走,并在行進過程中出現前背景對比度突然降低引發的視覺雜波。這些視頻中的運動小目標行人,從性別、著裝、顏色、附屬物、光照對比度、視覺雜波等展示出不同的外觀紋理特征,可用于測試神經網絡。

圖12 外觀紋理測試視頻采樣幀Fig.12 Video sample frames in exterior texture tests
外觀紋理測試的實驗結果如圖13所示。在圖13中,每段子圖分別對應于圖12相應序號的視頻序列;各段子圖從左到右分別展示了實驗過程中模塊D的神經脈沖活動序列?和?、神經元R的輸出興奮曲線,以及STPDNN產生興奮向外輸出的膜電位可視化結果。圖13最左列的實驗結果表明,運動小目標行人的不同外觀紋理特性在一定程度上影響神經脈沖序列?的能量幅度,尤其是視覺雜波的突然出現會影響?的幅值(見圖12(d)、圖13(d))。然而?的神經脈沖頻率特性并未受到嚴重干擾,仍然呈現行人目標固有的周期頻率運動姿態特性;圖13左數第二列的實驗結果也表明,神經脈沖序列?的能量幅度仍具有小目標行人視野域投影的外型輪廓不變性特征。因此,由圖13的實驗結果可知,在未受到嚴重干擾的情況下,運動小目標行人的外觀紋理對STPDNN性能的影響不大,神經網絡仍能正確地檢測出視野域中的運動小目標行人對象。

圖13 外觀紋理測試實驗結果Fig.13 Experimental results in exterior texture tests
本節使用了幾組不同真實視覺場景下的視頻序列測試STPDNN的性能特性。盡管運動小目標行人在視野域中的投影呈現視感尺寸小、外觀紋理特征弱的靜態視覺特征,但依據運動行人特有的動態視覺特性[31-33],提取目標對象的外形豎直長方輪廓粗粒度特征和運動時空能量周期變化的動態視覺線索,并借助人類大腦情景記憶認知機理[20-21,36-38]將運動小目標行人檢測問題轉換為上述視覺運動線索的語義編碼及情景記憶信息的識別。實驗結果表明,上述動態視覺運動線索受目標對象的行進方向、運動姿勢、外形紋理變化的影響程度低。因此,所提出的神經網絡對運動小目標行人在視野域中的行進方向、運動姿勢、外形紋理不敏感。
為驗證STPDNN對運動小目標對象的偏好響應特性,本節使用幾種不同類型的非運動小目標行人視頻,包括交通錐靜物、靜立行人、移動玩具車、空中飛鳥挑戰神經網絡。每組測試視頻均包含100幀圖像,視頻采樣幀如圖14所示,圖中的紅色框體為后期添加的目標示意圖,僅用于醒目展示。在這幾組視頻序列中,圖14(a)顯示了視頻監控中的靜物交通錐;圖14(b)展示的是監控區域中駐足靜立的行人對象;圖14(c)記錄了遙控玩具車在水平方向的運動過程;圖14(d)的視頻來自Videezy視頻素材庫[49]中的遠空飛行海鷗。視頻中的目標對象都因為遠離攝像機而分別呈現出靜態(圖14(a)、(b))或動態(圖14(c)、(d))的小目標視覺形態特征。
使用上述視頻測試神經網絡,獲得的實驗結果如圖15所示。圖15中,每段子圖分別對應于圖14相應序號的視頻序列;各段子圖從左到右分別展示了實驗過程中模塊D的神經脈沖活動序列?和?、神經元R的輸出興奮曲線,以及STPDNN在實驗中向外輸出的膜電位可視化結果。圖15(a)、(b)的實驗結果表明,本文提出的STPDNN對圖14(a)中靜止不動的交通錐,以及圖14(b)中靜立的行人對象無響應輸出。這是因為STPDNN需要提取目標對象在視野域中由于運動引發的視覺線索。然而,靜止不動的目標(包括靜立行人)無運動行為,缺少視覺運動線索產生的必要條件,無法觸發神經網絡產生興奮響應。圖15(c)、(d)左側兩列的實驗結果表明,盡管圖14(c)、(d)中的非運動小目標行人對象能觸發神經網絡模塊D產生波動的神經脈沖活動序列和?,但?和?并不具有運動小目標行人對象的運動姿態特性,因此無法激勵神經元R和神經網絡產生偏好性的響應輸出。

圖14 偏好性測試視頻采樣幀Fig.14 Video sample frames in preference tests

圖15 偏好性測試實驗結果Fig.15 Experimental results in preference tests
STPDNN中的密度閾值T c是影響神經網絡模塊D構建高質量選擇注意區域S的關鍵性參數。為評價不同的Tc取值對S質量的影響,選取圖6、8所示的視頻序列對STPDNN進行密度閾值分析測試。使用選擇注意區質量(selective attention quality,SAQ)作為評價指標,衡量不同密度閾值對S構建質量的影響。SAQ由下式計算:

式中,theory表示視頻序列中選擇注意區的理論數量值;actual為實際構建的選擇注意區的數量;SAQ∈[0,1],其中SAQ=1表示S質量最佳,反之亦然。在不同的T c取值下獲得的實驗結果如圖16所示。

圖16 STPDNN密度閾值實驗結果Fig.16 Experimental results in density thresholds of STPDNN
由圖16中的實驗結果可知,當0≤Tc≤20時,隨著T c取值的增大,STPDNN生成的選擇注意區S,其評價指標SAQ呈現不斷上升的趨勢;當20<Tc<30時,SAQ平穩波動并在此區域達到最優值;當30≤T c≤50時,SAQ呈現不斷的下降變化。由此圖可知,參數T c為25時SAQ達到最優,從而使得神經網絡獲得最高質量的選擇注意區S。
目前尚未有基于動態視覺運動信息加工處理的運動小目標行人檢測計算模型報道。本文只能選取現有的基于單幀圖像靜態檢測方法的小尺度行人檢測模型參與對比實驗分析。選取前文提到的RPNplus[29]、YOLOv4[27]和YOLOv5[30],以及YOLOv3[50]和YOLOv4_tiny[51]模型參與實驗。實驗選取圖6所示的完整視頻序列開展測試,使用誤檢率(FAR)、漏檢率(MAR)、正確率(Accuracy)作為評價指標。實驗結果如表2所示。

表2 對比實驗結果Table 2 Comparative test results
表2中的統計數據表明,本文提出的STPDNN在上述評價指標中達到綜合最佳,其檢測精度優于對比的行人檢測計算模型。這是因為,傳統的行人目標檢測方法基于行人目標的外形紋理特征,結合訓練的樣本集使用深度學習技術來構建計算模型的內部結構,從而識別靜態圖像中的行人目標對象。但是,當行人投影尺寸縮小并呈現運動小目標的形態特征時,傳統的檢測方法由于目標紋理特征缺失、訓練樣本匱乏而導致模型的性能嚴重下降。而本文提出的STPDNN,借助情景記憶認知機理,提取運動小目標行人的外形豎直長方輪廓粗粒度特征和運動時空能量周期變化的動態視覺線索。外觀紋理的變化對上述視覺運動特性的影響程度較低,因此STPDNN在對運動小目標行人的檢測中展示出了獨特的性能特性。
上述比較分析表明:
(1)RPNplus適用于中大型尺寸的目標行人檢測,但難以應對圖像中的小尺寸行人對象。
(2)YOLOv3借助特征金字塔方法提高了常規小尺寸目標的檢測精度,但對運動小目標行人的檢測仍存在困難。
(3)基于YOLOv3改進獲得的YOLOv4,其對運動小目標行人的檢測正確率有所提升,但仍然偏低。
(4)作為YOLOv4輕量版的YOLOv4_tiny,獲得較高的檢測速度,但檢測精度無法滿足運動小目標行人對象的檢測。
(5)在對運動小目標行人的檢測問題上,YOLOv5與YOLOv4的精度相當。
(6)本文提出的STPDNN,可有效感知運動小目標行人在視野域中引發的動態視覺運動線索,并對其產生偏好響應。
本文提出了一種生物啟發式的運動小目標行人檢測人工視覺神經網絡(STPDNN)模型。基于蝗蟲視覺系統的神經結構特性,借助人類大腦情景記憶認知機理,所設計的神經網絡具有對視覺場景中的運動小目標行人的偏好性。在STPDNN中,運動目標視覺姿態特性引發的情景記憶信息可由兩種不同的神經脈沖活動序列表示,其表征為選擇性注意區中被激活細胞的興奮膜電位量和被激活細胞所在神經層的空間信息,以此為基礎計算生成目標對象的行人情景記憶相似度,從而產生對運動小目標行人的興奮響應輸出。系統性的實驗結果分析表明:
(1)本文提出的STPDNN能有效識別視覺場景中的運動小目標行人對象。
(2)STPDNN對小目標行人的行進方向、運動姿勢、外形紋理的變化不敏感。
(3)相比現有的傳統行人檢測計算模型,STPDNN對視覺場景中的運動小目標行人展現出了獨特的偏好響應特性。
盡管本文所設計的神經網絡通過簡單模擬蝗蟲視覺系統的神經結構特性和人類大腦的情景記憶認知機理,實現了對視覺場景中的運動小目標行人對象偏好響應,但仍然存在不足:
(1)基于單目視覺系統構建的STPDNN無法應對目標遮擋引發的視覺信息丟失,在此視覺場景下性能特性會嚴重下降。
(2)STPDNN需要從視野域中提取運動目標的視覺運動線索,因此無法應對那些運動速度過慢或過快的小目標行人對象。
在未來的研究工作中,將繼續深入挖掘人類大腦情景記憶認知機理,并結合生物視覺系統的其它神經響應特性及視覺感知機理,擴展神經網絡對運動目標的行為識別能力。同時將試圖把STPDNN嵌入到SoC片上系統以構建具有自治能力的行人目標檢測新型智能視頻監控系統。