基于注意力機制和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的步態(tài)識別研究

2022-08-31 22:04:58劉艷麗任芳

電腦知識與技術(shù) 2022年17期

劉艷麗任芳

摘要：對于步態(tài)樣本不足而出現(xiàn)的過擬合現(xiàn)象，提出將注意力機制和AlexNet網(wǎng)絡(luò)相結(jié)合的識別算法。算法中對圖像作預(yù)處理后，提取步態(tài)周期的輪廓，計算步態(tài)能量圖;將注意力機制和AlexNet網(wǎng)絡(luò)相結(jié)合，有效的提取了圖像的高層信息，降低了神經(jīng)網(wǎng)絡(luò)的參數(shù)，實驗結(jié)果顯示提高了測試樣本的識別率，對跨視角有較好的魯棒性，與AlexNet網(wǎng)絡(luò)實驗結(jié)果相比較，達(dá)到了理想的效果。

關(guān)鍵詞：步態(tài)能量圖;注意力機制;AlexNet;深度學(xué)習(xí)

中國分類號：TP31? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2022）17-0068-02

1 引言

步態(tài)識別是一種新興的、非接觸的生物特征識別技術(shù)，旨在通過走路的姿態(tài)進(jìn)行身份識別，與其他生物識別如指紋識別、人臉識別、虹膜識別相比，步態(tài)識別具有非接觸、遠(yuǎn)距離、不容易偽裝和易于獲取等優(yōu)點，不需要被測對象的配合，唯一的一種可以遠(yuǎn)距離檢測和識別的生物特征，因此是智能視頻和信息安全領(lǐng)域研究的重點和熱點[1]。

現(xiàn)有的步態(tài)識別方法主要有基于模型和基于非模型兩個類別[2]，基于模型的步態(tài)識別是對行人的人體結(jié)構(gòu)或者行人運動進(jìn)行建模，通過數(shù)學(xué)建模的參數(shù)對行人步態(tài)進(jìn)行識別，如骨架模型，幾何相似模型等?；诜悄Ｐ偷牟綉B(tài)識別利用行人運動的特征和規(guī)律提取周期性輪廓特征，如步態(tài)能量圖GEI、步態(tài)流圖GFI 、幀差能量圖（FDEI）、計時步態(tài)圖CGI、步態(tài)熵圖（GEnI）等。

基于非模型的步態(tài)識別，對行人外在穿戴較為敏感，如果僅僅使用步態(tài)能量圖提取行人的特征，忽略了步態(tài)中時空的信息，容易產(chǎn)生樣本集偏小的過擬合問題;基于模型的步態(tài)識別，容易受到行人所處環(huán)境的影響。為了避免因為樣本不足導(dǎo)致網(wǎng)絡(luò)模型過擬合的現(xiàn)象，本文將注意力機制融入AlexNet卷積神經(jīng)網(wǎng)絡(luò)中，在 CASIA-B 數(shù)據(jù)集為訓(xùn)練樣本，提取行人運動的特征進(jìn)行步態(tài)識別，步態(tài)識別流程圖如圖1所示，實驗結(jié)果顯示，該方法提高了步態(tài)識別的魯棒性和正確率。

2 步態(tài)輪廓分割

把運動目標(biāo)步態(tài)輪廓從背景中分割出來的方法有幀差法、光流法和背景減除法，本文選取背景減除法，背景減除法提取行人輪廓，具有計算復(fù)雜度適中，速度快，輪廓邊界較清晰的特點。利用背景的參數(shù)模型來近似背景圖像的像素值，將當(dāng)前幀與背景圖像進(jìn)行差分比較，實現(xiàn)對運動區(qū)域的檢測，其中區(qū)別較大的像素區(qū)域被認(rèn)為是運動區(qū)域，而區(qū)別較小的像素區(qū)域被認(rèn)為是背景區(qū)域，提取運動物體的輪廓，然后對提取的輪廓進(jìn)行形態(tài)學(xué)和二值化處理，最后歸一化輪廓序列[3]。原圖和去除背景的圖像效果如圖2所示：

3 步態(tài)能量圖GEI

GEI是Han等人對前人做法的基礎(chǔ)上總結(jié)出來的，提出構(gòu)造步態(tài)能量圖（GEI）的設(shè)計理念，既包含行人行走的靜態(tài)信息，也包含動態(tài)信息;它是將行人一個步態(tài)周期內(nèi)的所有步態(tài)二值化提取輪廓圖像，將其均值化處理后得到行人步態(tài)輪廓圖像的平均值圖像，實現(xiàn)對步態(tài)周期進(jìn)行能量累積，步態(tài)能量圖中運動越頻繁、幅度越大，表示能量越高，則對應(yīng)的像素值就越大，反正則像素值越小，較好地反映了行人在一個周期的步態(tài)特征，包含頻率、幅度、節(jié)奏、位置等信息，并減少了視頻中步態(tài)的運算量，減低了計算的復(fù)雜度，并且GEI步態(tài)能量圖與其他的步態(tài)模板，更能準(zhǔn)確地表征行人的外在特征、速度和行走習(xí)慣等特征，對外部環(huán)境也有較好的魯棒性[4]。

步態(tài)能量圖計算公式如下：

G（x，y） =[1N t=1NFtx，y]

其中，G（x，y）為步態(tài)能量圖，N為步態(tài)視頻中序列幀數(shù)，F(xiàn)t（x，y）為在t個步態(tài)序列中步態(tài)輪廓圖中坐標(biāo)為（x，y）的像素值。以頭頂為中心的步態(tài)能量圖如圖3所示：

4 基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)

4.1 注意力機制

注意力機制[5]來源于對人類視覺的研究，在復(fù)雜的信息中，注意力會集中在重要的信息上，而忽略次要信息;在計算機圖像處理中注意力機制是機器學(xué)習(xí)中的一種數(shù)據(jù)處理和資源分配方法，核心思想是突出圖像中的重要特征，關(guān)注特定的部分，提升系統(tǒng)的效果和效率。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，注意力機制是根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)，賦予重要的信息權(quán)重，以凸顯其重要程度，注意力機制有通道注意力，像素注意力，多階注意力等。Squeeze-and-Excitation Networks（SENet）是由自動駕駛公司Momenta在2017年公布的一種全新的圖像識別結(jié)構(gòu)，它通過對特征通道間的相關(guān)性進(jìn)行建模，把重要的特征強化，次要特征弱化來提升準(zhǔn)確率。SENet工作原理如圖4所示，主要包含壓縮操作和激勵操作。

壓縮設(shè)計（ Squeeze）通過卷積獲得和池化后圖像特征維度為H*W*C，H為Height，W為width，C為channel。壓縮操作的過程就是將H*W*C壓縮為1*1*C，把二位的特征通道轉(zhuǎn)換為一個實數(shù)列，一維的實數(shù)獲得了二維參數(shù)的全局感知野，輸出的維度和輸入特征的通道數(shù)一致，表示在輸出特征通道上響應(yīng)全局感知野。

激勵設(shè)計（Excitation）將壓縮操作后得到的1*1*C實數(shù)列，加入一個全連接層，預(yù)測每個通道的重要性，得到特征通道權(quán)重和特征通道之間的相關(guān)性，最后將特征通道權(quán)重添加到圖像特征上，完成對圖像特征的重標(biāo)定。

4.2 基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)

深度學(xué)習(xí)在聲音、圖像、視頻等識別領(lǐng)域有較好的效果，通過端到端的訓(xùn)練方式，自主學(xué)習(xí)樣本的淺在特征，尋找樣本的內(nèi)在規(guī)律和表示層次，從而獲得樣本深層次的、隱藏的特征。深度學(xué)習(xí)經(jīng)典模型之一的卷積神經(jīng)網(wǎng)絡(luò)受人類視覺神經(jīng)系統(tǒng)啟發(fā)，通過卷積層和池化層提取樣本特征，在網(wǎng)絡(luò)訓(xùn)練過程中，前饋機制不斷更新卷積核的參數(shù)值，最終獲得合適的權(quán)值，卷積和池化簡化了神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度，有效減少了模型的參數(shù)，減低了過擬合的風(fēng)險，得到了廣泛應(yīng)用。

AlexNet是卷積神經(jīng)網(wǎng)絡(luò)的一個模型，由Hinton和學(xué)生Alex Krizhevsky設(shè)計，參加2012年ImageNet競賽獲得冠軍，AlexNet網(wǎng)絡(luò)是由5個卷積層，有些卷積層后是最大池化層，3個全連接層，原理是基于卷積神經(jīng)網(wǎng)絡(luò)，并探究了更深層次的網(wǎng)絡(luò)，激活函數(shù)用ReLU代替;使用最大池化代替平均池化，減少模糊化效果。卷積層使用非線性激活函數(shù)RELU，特征映射公式如下：

Ft = ReLU（WtUFt-1+βt）

ReLU（x） = max（0，x）

池化層模仿人類的視覺系統(tǒng)進(jìn)行降維操作，提取圖像更高層次的特征，常用池化操作有平均池化和最大池化，AlexNet網(wǎng)絡(luò)采用最大池化，即選取圖像區(qū)域中的最大值作為池化后的值?；谧⒁饬C制的AlexNe卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

5 步態(tài)識別實驗及分析

本實驗使用的步態(tài)數(shù)據(jù)是由中國科學(xué)院自動化研究所提供的專門用于步態(tài)研究的CASIA數(shù)據(jù)庫，CASIA-B是多視角的大規(guī)模步態(tài)庫，共有124位行人步態(tài)數(shù)據(jù)，分別從11個角度（0°、18°、36°、54°…180°）和三種狀態(tài)（正常、穿大衣、背包）步態(tài)采集，其中正常狀態(tài)（NM）每人6組步態(tài)序列，穿大衣狀態(tài)（CL）每人2組步態(tài)序列，背包狀態(tài)（BG）每人2組序列。提取每個人在每種狀態(tài)每個角度的步態(tài)能量圖。本實驗在AlexNet卷積神經(jīng)網(wǎng)絡(luò)中加入了注意力機制，提高對步態(tài)信息中重要信息的關(guān)注，因為步態(tài)樣本不足單純的卷積神經(jīng)網(wǎng)絡(luò)在卷積和池化操作中容易丟失步態(tài)圖像的重要信息，在識別過程中出現(xiàn)過擬合現(xiàn)象;選取CASIA-B步態(tài)數(shù)據(jù)庫中80位行人步態(tài)數(shù)據(jù)作為訓(xùn)練樣本，44位行人步態(tài)數(shù)據(jù)作為測試樣本。

對圖片進(jìn)行預(yù)處理操作，便于提高網(wǎng)絡(luò)的泛化能力和識別效率，將圖片尺寸規(guī)格調(diào)整為227*227*3。AlexNet網(wǎng)絡(luò)的超參數(shù)的初始值是隨機生成的，在網(wǎng)絡(luò)的訓(xùn)練過程中，根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的反饋機制不斷更新網(wǎng)絡(luò)模型的超參數(shù)，經(jīng)過反復(fù)實驗最終得到最佳超參數(shù)值，本實驗最終的超參數(shù)值為：迭代次數(shù)為48，步長為96，學(xué)習(xí)率為0.0089。

將80位行人在不同角度的步態(tài)能量圖輸入網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型，網(wǎng)絡(luò)模型訓(xùn)練結(jié)束后，將測試樣本中44位行人的圖像輸入到網(wǎng)絡(luò)模型中進(jìn)行步態(tài)識別。本實驗在使用訓(xùn)練樣本進(jìn)行迭代后得到網(wǎng)絡(luò)模型后，將測試樣本對訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行驗證，在各個視角三種狀態(tài)（正常、穿大衣、背包）情況下的跨視角的平均識別率如表1所示。

從網(wǎng)絡(luò)模型訓(xùn)練過程中得出，在第8次迭代過程后，訓(xùn)練樣本準(zhǔn)確率明顯上升;第8-32次的迭代過程，訓(xùn)練樣本準(zhǔn)確率呈現(xiàn)急速提高的態(tài)勢，迭代32-48次的迭代過程，訓(xùn)練樣本準(zhǔn)確率上升緩慢，并達(dá)到最大識別率。

通過CASIA-B數(shù)據(jù)庫樣本實驗，AlexNet卷積神經(jīng)網(wǎng)絡(luò)對于測試樣本的識別正確率在迭代55次就達(dá)到了85.9%，但是驗證樣本的正確率只有69%，出現(xiàn)了過擬合的情況，究其原因有兩個，一是數(shù)據(jù)庫樣本數(shù)量不足，每個人只有三種狀態(tài)11個角度步態(tài)信息;二是參數(shù)過多，AlexNet卷積網(wǎng)絡(luò)參數(shù)達(dá)到了6000多萬個，神經(jīng)元達(dá)到了60多萬個;本實驗將注意力機制加入到了AlexNet卷積網(wǎng)絡(luò)中，注意力機制增強高層重要的卷積特征圖通道，抑制不重要的卷積特征圖通道，降低卷積參數(shù)的維數(shù)，提高識別速度和正確率，提高步態(tài)識別的魯棒性。

而本實驗基于注意力機制的AlexNet卷積網(wǎng)絡(luò)模型，經(jīng)過48次迭代后，平均識別率達(dá)到了87.7%，其中對于正常狀態(tài)下的步態(tài)識別準(zhǔn)確率達(dá)到95.6%，背包準(zhǔn)確率達(dá)到84.4%，穿大衣準(zhǔn)確率達(dá)到83.2%。比AlexNe卷積網(wǎng)絡(luò)模型的平均識別率高出1.8%，正常狀態(tài)下識別率高出2.5%，背包狀態(tài)識別率高出1.6%，大衣識別率高出1.3%，表明了注意力模型有效的提取了高層的特征，抑制了次要的特征。而正常狀態(tài)識別率遠(yuǎn)遠(yuǎn)高于其他兩種狀態(tài)，是因為在CASIA-B步態(tài)數(shù)據(jù)庫中正常狀態(tài)的圖片數(shù)量要遠(yuǎn)遠(yuǎn)高于背包和穿大衣的數(shù)量，所以正常狀態(tài)圖片對網(wǎng)絡(luò)模型影響較大，對正常步態(tài)識別率較高，而對于背包和穿大衣的識別率就受到影響。

6結(jié)論

通過步態(tài)識別行人，不需要刻意地配合，不受距離遠(yuǎn)近等客觀因素的影響，同時步態(tài)識別又是復(fù)雜的過程，受到行人穿戴狀態(tài)的影響，所以需要更多的圖像來訓(xùn)練網(wǎng)絡(luò)模型，本文通過提取步態(tài)周期，并生成步態(tài)能量圖，將注意力機制融入了AlexNet卷積神經(jīng)網(wǎng)絡(luò)，有效減少了參數(shù)，降低了過擬合現(xiàn)象，在步態(tài)數(shù)據(jù)缺乏的情況下，提高了步態(tài)識別準(zhǔn)確率。

參考文獻(xiàn)：

[1] 王新年，胡丹丹，張濤，等.姿態(tài)特征結(jié)合2維傅里葉變換的步態(tài)識別[J].中國圖象圖形學(xué)報，2021，26（4）：796-814.

[2] 趙黎明，張榮，張超越.基于深度學(xué)習(xí)的3D時空特征融合步態(tài)識別[J].傳感器與微系統(tǒng)，2021，40（2）：23-25，29.

[3] 閆河，羅成，李煥，等.基于步態(tài)能量圖與VGG結(jié)合的步態(tài)識別方法[J].重慶理工大學(xué)學(xué)報（自然科學(xué)），2020，34（5）：166-172.

[4] 李凱，曹可凡，沈皓凝.基于步態(tài)序列的跨視角步態(tài)識別[J].河北大學(xué)學(xué)報（自然科學(xué)版），2021，41（3）：311-320.

[5] 胡少暉，王修暉.結(jié)合注意力卷積網(wǎng)絡(luò)與分塊特征的步態(tài)識別[J].計算機工程與應(yīng)用，2022，58（3）：266-273.

收稿日期：2022-01-13

作者簡介：劉艷麗（1979—），女，河南新野縣人，講師，碩士，研究方向為模式識別與人工智能;任芳（1993—），女，甘肅張掖人，講師，碩士，研究方向為圖形圖像處理。