劉艷麗 任芳



摘要:對(duì)于步態(tài)樣本不足而出現(xiàn)的過擬合現(xiàn)象,提出將注意力機(jī)制和AlexNet網(wǎng)絡(luò)相結(jié)合的識(shí)別算法。算法中對(duì)圖像作預(yù)處理后,提取步態(tài)周期的輪廓,計(jì)算步態(tài)能量圖;將注意力機(jī)制和AlexNet網(wǎng)絡(luò)相結(jié)合,有效的提取了圖像的高層信息,降低了神經(jīng)網(wǎng)絡(luò)的參數(shù),實(shí)驗(yàn)結(jié)果顯示提高了測(cè)試樣本的識(shí)別率,對(duì)跨視角有較好的魯棒性,與AlexNet網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果相比較,達(dá)到了理想的效果。
關(guān)鍵詞:步態(tài)能量圖;注意力機(jī)制;AlexNet;深度學(xué)習(xí)
中國(guó)分類號(hào):TP31? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)17-0068-02
1 引言
步態(tài)識(shí)別是一種新興的、非接觸的生物特征識(shí)別技術(shù),旨在通過走路的姿態(tài)進(jìn)行身份識(shí)別,與其他生物識(shí)別如指紋識(shí)別、人臉識(shí)別、虹膜識(shí)別相比,步態(tài)識(shí)別具有非接觸、遠(yuǎn)距離、不容易偽裝和易于獲取等優(yōu)點(diǎn),不需要被測(cè)對(duì)象的配合,唯一的一種可以遠(yuǎn)距離檢測(cè)和識(shí)別的生物特征,因此是智能視頻和信息安全領(lǐng)域研究的重點(diǎn)和熱點(diǎn)[1]。
現(xiàn)有的步態(tài)識(shí)別方法主要有基于模型和基于非模型兩個(gè)類別[2],基于模型的步態(tài)識(shí)別是對(duì)行人的人體結(jié)構(gòu)或者行人運(yùn)動(dòng)進(jìn)行建模,通過數(shù)學(xué)建模的參數(shù)對(duì)行人步態(tài)進(jìn)行識(shí)別,如骨架模型,幾何相似模型等。基于非模型的步態(tài)識(shí)別利用行人運(yùn)動(dòng)的特征和規(guī)律提取周期性輪廓特征,如步態(tài)能量圖GEI、步態(tài)流圖GFI 、幀差能量圖 (FDEI)、計(jì)時(shí)步態(tài)圖CGI、步態(tài)熵圖 (GEnI)等。
基于非模型的步態(tài)識(shí)別,對(duì)行人外在穿戴較為敏感,如果僅僅使用步態(tài)能量圖提取行人的特征,忽略了步態(tài)中時(shí)空的信息,容易產(chǎn)生樣本集偏小的過擬合問題;基于模型的步態(tài)識(shí)別,容易受到行人所處環(huán)境的影響。為了避免因?yàn)闃颖静蛔銓?dǎo)致網(wǎng)絡(luò)模型過擬合的現(xiàn)象,本文將注意力機(jī)制融入AlexNet卷積神經(jīng)網(wǎng)絡(luò)中,在 CASIA-B 數(shù)據(jù)集為訓(xùn)練樣本,提取行人運(yùn)動(dòng)的特征進(jìn)行步態(tài)識(shí)別,步態(tài)識(shí)別流程圖如圖1所示,實(shí)驗(yàn)結(jié)果顯示,該方法提高了步態(tài)識(shí)別的魯棒性和正確率。
2 步態(tài)輪廓分割
把運(yùn)動(dòng)目標(biāo)步態(tài)輪廓從背景中分割出來的方法有幀差法、光流法和背景減除法,本文選取背景減除法,背景減除法提取行人輪廓,具有計(jì)算復(fù)雜度適中,速度快,輪廓邊界較清晰的特點(diǎn)。利用背景的參數(shù)模型來近似背景圖像的像素值,將當(dāng)前幀與背景圖像進(jìn)行差分比較,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)區(qū)域的檢測(cè),其中區(qū)別較大的像素區(qū)域被認(rèn)為是運(yùn)動(dòng)區(qū)域,而區(qū)別較小的像素區(qū)域被認(rèn)為是背景區(qū)域,提取運(yùn)動(dòng)物體的輪廓,然后對(duì)提取的輪廓進(jìn)行形態(tài)學(xué)和二值化處理,最后歸一化輪廓序列[3]。原圖和去除背景的圖像效果如圖2所示:
3 步態(tài)能量圖GEI
GEI是Han等人對(duì)前人做法的基礎(chǔ)上總結(jié)出來的,提出構(gòu)造步態(tài)能量圖(GEI)的設(shè)計(jì)理念,既包含行人行走的靜態(tài)信息,也包含動(dòng)態(tài)信息;它是將行人一個(gè)步態(tài)周期內(nèi)的所有步態(tài)二值化提取輪廓圖像,將其均值化處理后得到行人步態(tài)輪廓圖像的平均值圖像,實(shí)現(xiàn)對(duì)步態(tài)周期進(jìn)行能量累積,步態(tài)能量圖中運(yùn)動(dòng)越頻繁、幅度越大,表示能量越高,則對(duì)應(yīng)的像素值就越大,反正則像素值越小,較好地反映了行人在一個(gè)周期的步態(tài)特征,包含頻率、幅度、節(jié)奏、位置等信息,并減少了視頻中步態(tài)的運(yùn)算量,減低了計(jì)算的復(fù)雜度,并且GEI步態(tài)能量圖與其他的步態(tài)模板,更能準(zhǔn)確地表征行人的外在特征、速度和行走習(xí)慣等特征,對(duì)外部環(huán)境也有較好的魯棒性[4]。
步態(tài)能量圖計(jì)算公式如下:
G(x,y) =[1N t=1NFtx,y]
其中,G(x,y)為步態(tài)能量圖,N為步態(tài)視頻中序列幀數(shù),F(xiàn)t(x,y)為在t個(gè)步態(tài)序列中步態(tài)輪廓圖中坐標(biāo)為(x,y)的像素值。以頭頂為中心的步態(tài)能量圖如圖3所示:
4 基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)
4.1 注意力機(jī)制
注意力機(jī)制[5]來源于對(duì)人類視覺的研究,在復(fù)雜的信息中,注意力會(huì)集中在重要的信息上,而忽略次要信息;在計(jì)算機(jī)圖像處理中注意力機(jī)制是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理和資源分配方法,核心思想是突出圖像中的重要特征,關(guān)注特定的部分,提升系統(tǒng)的效果和效率。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,注意力機(jī)制是根據(jù)數(shù)據(jù)之間的關(guān)聯(lián),賦予重要的信息權(quán)重,以凸顯其重要程度,注意力機(jī)制有通道注意力,像素注意力,多階注意力等。Squeeze-and-Excitation Networks(SENet)是由自動(dòng)駕駛公司Momenta在2017年公布的一種全新的圖像識(shí)別結(jié)構(gòu),它通過對(duì)特征通道間的相關(guān)性進(jìn)行建模,把重要的特征強(qiáng)化,次要特征弱化來提升準(zhǔn)確率。SENet工作原理如圖4所示,主要包含壓縮操作和激勵(lì)操作。
壓縮設(shè)計(jì)( Squeeze)通過卷積獲得和池化后圖像特征維度為H*W*C,H為Height,W為width,C為channel。壓縮操作的過程就是將H*W*C壓縮為1*1*C,把二位的特征通道轉(zhuǎn)換為一個(gè)實(shí)數(shù)列,一維的實(shí)數(shù)獲得了二維參數(shù)的全局感知野,輸出的維度和輸入特征的通道數(shù)一致,表示在輸出特征通道上響應(yīng)全局感知野。
激勵(lì)設(shè)計(jì)(Excitation)將壓縮操作后得到的1*1*C實(shí)數(shù)列,加入一個(gè)全連接層,預(yù)測(cè)每個(gè)通道的重要性,得到特征通道權(quán)重和特征通道之間的相關(guān)性,最后將特征通道權(quán)重添加到圖像特征上,完成對(duì)圖像特征的重標(biāo)定。
4.2 基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)在聲音、圖像、視頻等識(shí)別領(lǐng)域有較好的效果,通過端到端的訓(xùn)練方式,自主學(xué)習(xí)樣本的淺在特征,尋找樣本的內(nèi)在規(guī)律和表示層次,從而獲得樣本深層次的、隱藏的特征。深度學(xué)習(xí)經(jīng)典模型之一的卷積神經(jīng)網(wǎng)絡(luò)受人類視覺神經(jīng)系統(tǒng)啟發(fā),通過卷積層和池化層提取樣本特征,在網(wǎng)絡(luò)訓(xùn)練過程中,前饋機(jī)制不斷更新卷積核的參數(shù)值,最終獲得合適的權(quán)值,卷積和池化簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,有效減少了模型的參數(shù),減低了過擬合的風(fēng)險(xiǎn),得到了廣泛應(yīng)用。
AlexNet是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)模型,由Hinton和學(xué)生Alex Krizhevsky設(shè)計(jì),參加2012年ImageNet競(jìng)賽獲得冠軍,AlexNet網(wǎng)絡(luò)是由5個(gè)卷積層,有些卷積層后是最大池化層,3個(gè)全連接層,原理是基于卷積神經(jīng)網(wǎng)絡(luò),并探究了更深層次的網(wǎng)絡(luò),激活函數(shù)用ReLU代替;使用最大池化代替平均池化,減少模糊化效果。卷積層使用非線性激活函數(shù)RELU,特征映射公式如下:
Ft = ReLU(WtUFt-1+βt)
ReLU(x) = max(0,x)
池化層模仿人類的視覺系統(tǒng)進(jìn)行降維操作,提取圖像更高層次的特征,常用池化操作有平均池化和最大池化,AlexNet網(wǎng)絡(luò)采用最大池化,即選取圖像區(qū)域中的最大值作為池化后的值。基于注意力機(jī)制的AlexNe卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
5 步態(tài)識(shí)別實(shí)驗(yàn)及分析
本實(shí)驗(yàn)使用的步態(tài)數(shù)據(jù)是由中國(guó)科學(xué)院自動(dòng)化研究所提供的專門用于步態(tài)研究的CASIA數(shù)據(jù)庫(kù),CASIA-B是多視角的大規(guī)模步態(tài)庫(kù),共有124位行人步態(tài)數(shù)據(jù),分別從11個(gè)角度(0°、18°、36°、54°…180°)和三種狀態(tài)(正常、穿大衣、背包)步態(tài)采集,其中正常狀態(tài)(NM)每人6組步態(tài)序列,穿大衣狀態(tài)(CL)每人2組步態(tài)序列,背包狀態(tài)(BG)每人2組序列。提取每個(gè)人在每種狀態(tài)每個(gè)角度的步態(tài)能量圖。本實(shí)驗(yàn)在AlexNet卷積神經(jīng)網(wǎng)絡(luò)中加入了注意力機(jī)制,提高對(duì)步態(tài)信息中重要信息的關(guān)注,因?yàn)椴綉B(tài)樣本不足單純的卷積神經(jīng)網(wǎng)絡(luò)在卷積和池化操作中容易丟失步態(tài)圖像的重要信息,在識(shí)別過程中出現(xiàn)過擬合現(xiàn)象;選取CASIA-B步態(tài)數(shù)據(jù)庫(kù)中80位行人步態(tài)數(shù)據(jù)作為訓(xùn)練樣本,44位行人步態(tài)數(shù)據(jù)作為測(cè)試樣本。
對(duì)圖片進(jìn)行預(yù)處理操作,便于提高網(wǎng)絡(luò)的泛化能力和識(shí)別效率,將圖片尺寸規(guī)格調(diào)整為227*227*3。AlexNet網(wǎng)絡(luò)的超參數(shù)的初始值是隨機(jī)生成的,在網(wǎng)絡(luò)的訓(xùn)練過程中,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的反饋機(jī)制不斷更新網(wǎng)絡(luò)模型的超參數(shù),經(jīng)過反復(fù)實(shí)驗(yàn)最終得到最佳超參數(shù)值,本實(shí)驗(yàn)最終的超參數(shù)值為:迭代次數(shù)為48,步長(zhǎng)為96,學(xué)習(xí)率為0.0089。
將80位行人在不同角度的步態(tài)能量圖輸入網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型,網(wǎng)絡(luò)模型訓(xùn)練結(jié)束后,將測(cè)試樣本中44位行人的圖像輸入到網(wǎng)絡(luò)模型中進(jìn)行步態(tài)識(shí)別。本實(shí)驗(yàn)在使用訓(xùn)練樣本進(jìn)行迭代后得到網(wǎng)絡(luò)模型后,將測(cè)試樣本對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證,在各個(gè)視角三種狀態(tài)(正常、穿大衣、背包)情況下的跨視角的平均識(shí)別率如表1所示。
從網(wǎng)絡(luò)模型訓(xùn)練過程中得出,在第8次迭代過程后,訓(xùn)練樣本準(zhǔn)確率明顯上升;第8-32次的迭代過程,訓(xùn)練樣本準(zhǔn)確率呈現(xiàn)急速提高的態(tài)勢(shì),迭代32-48次的迭代過程,訓(xùn)練樣本準(zhǔn)確率上升緩慢,并達(dá)到最大識(shí)別率。
通過CASIA-B數(shù)據(jù)庫(kù)樣本實(shí)驗(yàn),AlexNet卷積神經(jīng)網(wǎng)絡(luò)對(duì)于測(cè)試樣本的識(shí)別正確率在迭代55次就達(dá)到了85.9%,但是驗(yàn)證樣本的正確率只有69%,出現(xiàn)了過擬合的情況,究其原因有兩個(gè),一是數(shù)據(jù)庫(kù)樣本數(shù)量不足,每個(gè)人只有三種狀態(tài)11個(gè)角度步態(tài)信息;二是參數(shù)過多,AlexNet卷積網(wǎng)絡(luò)參數(shù)達(dá)到了6000多萬個(gè),神經(jīng)元達(dá)到了60多萬個(gè);本實(shí)驗(yàn)將注意力機(jī)制加入到了AlexNet卷積網(wǎng)絡(luò)中,注意力機(jī)制增強(qiáng)高層重要的卷積特征圖通道,抑制不重要的卷積特征圖通道,降低卷積參數(shù)的維數(shù),提高識(shí)別速度和正確率,提高步態(tài)識(shí)別的魯棒性。
而本實(shí)驗(yàn)基于注意力機(jī)制的AlexNet卷積網(wǎng)絡(luò)模型,經(jīng)過48次迭代后,平均識(shí)別率達(dá)到了87.7%,其中對(duì)于正常狀態(tài)下的步態(tài)識(shí)別準(zhǔn)確率達(dá)到95.6%,背包準(zhǔn)確率達(dá)到84.4%,穿大衣準(zhǔn)確率達(dá)到83.2%。比AlexNe卷積網(wǎng)絡(luò)模型的平均識(shí)別率高出1.8%,正常狀態(tài)下識(shí)別率高出2.5%,背包狀態(tài)識(shí)別率高出1.6%,大衣識(shí)別率高出1.3%,表明了注意力模型有效的提取了高層的特征,抑制了次要的特征。而正常狀態(tài)識(shí)別率遠(yuǎn)遠(yuǎn)高于其他兩種狀態(tài),是因?yàn)樵贑ASIA-B步態(tài)數(shù)據(jù)庫(kù)中正常狀態(tài)的圖片數(shù)量要遠(yuǎn)遠(yuǎn)高于背包和穿大衣的數(shù)量,所以正常狀態(tài)圖片對(duì)網(wǎng)絡(luò)模型影響較大,對(duì)正常步態(tài)識(shí)別率較高,而對(duì)于背包和穿大衣的識(shí)別率就受到影響。
6結(jié)論
通過步態(tài)識(shí)別行人,不需要刻意地配合,不受距離遠(yuǎn)近等客觀因素的影響,同時(shí)步態(tài)識(shí)別又是復(fù)雜的過程,受到行人穿戴狀態(tài)的影響,所以需要更多的圖像來訓(xùn)練網(wǎng)絡(luò)模型,本文通過提取步態(tài)周期,并生成步態(tài)能量圖,將注意力機(jī)制融入了AlexNet卷積神經(jīng)網(wǎng)絡(luò),有效減少了參數(shù),降低了過擬合現(xiàn)象,在步態(tài)數(shù)據(jù)缺乏的情況下,提高了步態(tài)識(shí)別準(zhǔn)確率。
參考文獻(xiàn):
[1] 王新年,胡丹丹,張濤,等.姿態(tài)特征結(jié)合2維傅里葉變換的步態(tài)識(shí)別[J].中國(guó)圖象圖形學(xué)報(bào),2021,26(4):796-814.
[2] 趙黎明,張榮,張超越.基于深度學(xué)習(xí)的3D時(shí)空特征融合步態(tài)識(shí)別[J].傳感器與微系統(tǒng),2021,40(2):23-25,29.
[3] 閆河,羅成,李煥,等.基于步態(tài)能量圖與VGG結(jié)合的步態(tài)識(shí)別方法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2020,34(5):166-172.
[4] 李凱,曹可凡,沈皓凝.基于步態(tài)序列的跨視角步態(tài)識(shí)別[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,41(3):311-320.
[5] 胡少暉,王修暉.結(jié)合注意力卷積網(wǎng)絡(luò)與分塊特征的步態(tài)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(3):266-273.
收稿日期:2022-01-13
作者簡(jiǎn)介:劉艷麗(1979—),女,河南新野縣人,講師,碩士,研究方向?yàn)槟J阶R(shí)別與人工智能;任芳(1993—),女,甘肅張掖人,講師,碩士,研究方向?yàn)閳D形圖像處理。