視頻監(jiān)控場景下基于單視角步態(tài)的人體身份及屬性識別系統(tǒng)①

2020-03-22 07:41:58廖嘉城王冰冰潘家輝

計算機系統(tǒng)應(yīng)用 2020年8期

廖嘉城,梁艷,王冰冰,潘家輝

(華南師范大學(xué) 軟件學(xué)院,佛山 528225)

1 引言

1.1 研究背景

隨著信息技術(shù)的不斷發(fā)展,人們在日常生活中需要更頻繁地利用特定的身份識別技術(shù)驗證人的身份.近幾年,基于人臉、指紋、虹膜等生物特征的生物識別方法日益成熟,且由于其便捷可靠的特點,越來越多的生活場景也利用此類技術(shù)去完成身份識別的任務(wù).但與此同時,上述幾類技術(shù)都需要被識別者與特定設(shè)備在短距離間實現(xiàn)交互,當(dāng)有人刻意去避免近距離接觸時,以上的方法將無法進(jìn)行識別甚至無法反饋被識別者有價值的信息.面對此類局限,步態(tài)識別 (gait recognition)因具備難隱藏性、非接觸性和可遠(yuǎn)距離使用等的特點,逐漸成為生物識別領(lǐng)域中一項可行的識別方案[1,2].

步態(tài)識別是一項能利用人的身體體型和步行姿態(tài)識別身份和預(yù)測人的性別、年齡等相關(guān)屬性的技術(shù).相關(guān)研究表明,由于人們在各項生理條件存在細(xì)微的差異,每個人走路姿勢及其走路“風(fēng)格”也會截然不同,因此想偽裝他人的走路姿勢并不容易[3].近年來,隨著視頻監(jiān)控設(shè)備的普及,步態(tài)識別在社會安全、市場營銷、生物認(rèn)證、視頻監(jiān)控和法律援助等領(lǐng)域逐漸發(fā)揮更重要的作用.

1.2 國內(nèi)外研究現(xiàn)狀

目前,步態(tài)識別技術(shù)的實現(xiàn)主要分為兩大類.一類是以人工特征建模為基礎(chǔ)的傳統(tǒng)機器學(xué)習(xí)算法,另一類則是基于深度學(xué)習(xí)算法.

在傳統(tǒng)的步態(tài)識別研究中,能否從人的步態(tài)視頻中提取到具有明顯區(qū)分性的步態(tài)特征,將直接影響到最終實驗結(jié)果的好壞.一部分研究者[4,5]重點關(guān)注人行走時人體局部的變化,以更為簡單的軌跡計算代替步態(tài)特征.Han 等[6]和Lu 等[7]則將多個步態(tài)幀轉(zhuǎn)換為類能量圖的方式去描述反映步態(tài)特征.Makihara 等[8]通過構(gòu)建視角轉(zhuǎn)化模型將步態(tài)圖像轉(zhuǎn)化為視角獨立、對象獨立的特征.提取到步態(tài)特征后,研究者會通過支持向量機 (Support Vector Machine,SVM)等分類方法對特征進(jìn)行相應(yīng)的區(qū)分,最終構(gòu)建特征與被識別者身份、性別以及年齡等屬性的映射關(guān)系.由于步態(tài)識別研究早期并沒有較大規(guī)模的開源數(shù)據(jù)集,因此上述的傳統(tǒng)機器學(xué)習(xí)算法都是在不同步態(tài)數(shù)據(jù)集上進(jìn)行的實驗.雖然這些方法在各自的數(shù)據(jù)集中基于步態(tài)的身份識別任務(wù)都能達(dá)到90%上的準(zhǔn)確率,但很難將他們統(tǒng)一進(jìn)行優(yōu)劣的比較.

隨著時間的推移,人們在研究過程中逐漸發(fā)現(xiàn),傳統(tǒng)方法會受到人體外在因素如視角、環(huán)境條件、服裝等干擾,研究者并無法做到對每一種特殊情況進(jìn)行相應(yīng)的建模.與此同時,隨著大數(shù)據(jù)技術(shù)的興起以及硬件條件的不斷升級,一方面,許多步態(tài)識別研究隊伍開源了相關(guān)的數(shù)據(jù)集(例如中科院的CASIA-B 大規(guī)模多視角步態(tài)數(shù)據(jù)集[9]),算法研究有了統(tǒng)一且權(quán)威的評價指標(biāo);另一方面,深度學(xué)習(xí)在圖像/視頻等領(lǐng)域取得了非凡的突破,越來越多研究者開始利用深度學(xué)習(xí)提升步態(tài)識別算法的效果以及健壯性.Wu 等[10]圍繞步態(tài)能量圖(Gait Energy Image,GEI)[6]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),充分利用CNN強大的自適應(yīng)與自學(xué)習(xí)能力直接訓(xùn)練算法模型,但由于網(wǎng)絡(luò)結(jié)構(gòu)簡單且當(dāng)時缺乏有效訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,該方法整體識別率一般,在CASIA-B 上的90°步態(tài)的識別率為81.5%,效果僅比傳統(tǒng)方法好一些.Battistone等[11]選擇步態(tài)周期內(nèi)連續(xù)的幀作為訓(xùn)練輸入,利用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)挖掘步態(tài)幀之間內(nèi)部聯(lián)系,提出TGLSTM 網(wǎng)絡(luò)結(jié)構(gòu),在CASIA-B 上的平均識別率為86.4%,但該方法以多個幀作為輸入需要較大的計算量,無法滿足工程應(yīng)用實時性需求.Zhang 等[12]利用遷移學(xué)習(xí),在VGG-D[13]模型的基礎(chǔ)上進(jìn)行微調(diào),最后在CASIA-B 上的平均識別率為95.7%.

在應(yīng)用領(lǐng)域方面,美國MiniSun 公司研發(fā)出的IDEEA 生活步態(tài)系統(tǒng)可以在自然工作和生活狀態(tài)下記錄使用者的多種步態(tài)參數(shù)(單腳支撐時間、步長、速度等),通過不同指標(biāo)較高精度地測量出人體健康程度.國內(nèi)的銀河水滴科技可實現(xiàn)遠(yuǎn)距離多角度的步態(tài)識別,還能完成超大范圍人群密度測算與實時計數(shù),廣泛應(yīng)用于安防、公共交通、商業(yè)等場景.但上述系統(tǒng)存在一定的局限性:一方面上述系統(tǒng)開發(fā)成本高,對于相關(guān)需求要求較低的小團(tuán)隊、小企業(yè)來說,難以支付其昂貴的費用;另一方面,上述系統(tǒng)應(yīng)用專注于人體身份的識別,在身份識別失效的情況下無法返回反饋信息提供使用者參考.因此,本文設(shè)計了一款成本較低、支持實時檢測、可通過步態(tài)準(zhǔn)確識別出人物身份以及性別、年齡等相關(guān)屬性的系統(tǒng),它可靈活根據(jù)實際需要進(jìn)行功能調(diào)整與修改,能很好滿足一些小團(tuán)隊、小企業(yè)的實際使用和開發(fā)需要,具有重大的現(xiàn)實意義.

2 系統(tǒng)設(shè)計

2.1 系統(tǒng)結(jié)構(gòu)

本系統(tǒng)可分成4 個模塊(如圖1):預(yù)處理、特征提取、算法模型訓(xùn)練以及系統(tǒng)實現(xiàn).

圖1 系統(tǒng)設(shè)計結(jié)構(gòu)圖

在預(yù)處理環(huán)節(jié)中,我們將從人行走的步態(tài)視頻中分離前景與背景,把提取出來的前景經(jīng)過形態(tài)學(xué)處理后形成完整的步態(tài)周期,并利用Han 等[6]的方法將步態(tài)周期形成步態(tài)能量圖,并以此作為算法模型訓(xùn)練和實際應(yīng)用的特征進(jìn)行身份和屬性的識別;算法模型訓(xùn)練是使用中科院CASIA-B 大規(guī)模多視角步態(tài)數(shù)據(jù)集[9]和大阪大學(xué)OU-ISIR 大型步態(tài)數(shù)據(jù)集[14],利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練相應(yīng)的算法模型,在實際系統(tǒng)中,需要用到基于步態(tài)的身份識別、性別識別、年齡識別3 種算法模型以完成系統(tǒng)所需要實現(xiàn)的功能;在系統(tǒng)實現(xiàn)中,我們提供一個Windows 系統(tǒng)下的客戶端,用戶可以對錄制好的步態(tài)視頻進(jìn)行步態(tài)的分析,也可以連接攝像頭,實時地從監(jiān)控畫面進(jìn)行步態(tài)的分析.

2.2 預(yù)處理

在預(yù)處理過程中,我們需要將連續(xù)的步態(tài)幀轉(zhuǎn)化為單一的步態(tài)能量圖.第1 步是步態(tài)檢測,即是從序列圖像中將人體步行區(qū)域從背景圖像中提取出來.考慮到項目的實際情況,在此系統(tǒng)中,本文采用背景減除法提取人步行前景.背景減除法[15]是一種有效的運動對象檢測算法,基本思想是利用背景的參數(shù)模型來近似背景圖像的像素值,將當(dāng)前幀與背景圖像進(jìn)行差分比較實現(xiàn)對運動區(qū)域的檢測,其中區(qū)別較大的像素區(qū)域被認(rèn)為是運動區(qū)域,而區(qū)別較小的像素區(qū)域被認(rèn)為是背景區(qū)域.

在動態(tài)的視頻中由于受環(huán)境的影響,一般算法檢測到的步態(tài)輪廓大多存在偏差,可能出現(xiàn)噪聲、孔洞等現(xiàn)象.為獲得更清晰、邊緣部分更平滑的步態(tài)輪廓,本文利用形態(tài)學(xué)中的腐蝕和膨脹操作對二值化的輪廓圖像進(jìn)行處理:首先利用腐蝕操作去除圖像中一些較小的噪聲點,然后通過膨脹操作填充圖像的孔洞,從而有效地提高圖像質(zhì)量[16].

雖然此時我們已經(jīng)能夠?qū)⒉綉B(tài)幀轉(zhuǎn)化為清晰的人體步行前景,但行人輪廓僅占整幅圖像很小的一部分,冗余的背景會極大地影響算法模型訓(xùn)練以及系統(tǒng)分析的效率.針對該問題,本文先從整幅圖像中提取出行人輪廓,接著將輪廓放置于圖像的中心位置并充斥圖像的大部分區(qū)域,最后把整幅圖的大小標(biāo)準(zhǔn)化為128×88像素.

2.3 特征提取

在進(jìn)行預(yù)處理后,需要將一個步態(tài)周期內(nèi)的所有幀轉(zhuǎn)換為步態(tài)能量圖.步態(tài)能量圖表示步態(tài)序列在時間與空間標(biāo)準(zhǔn)化形成的二維圖像,與步態(tài)序列相比,步態(tài)能量圖不僅在一定程度上保留了時間信息,大大減少步態(tài)的數(shù)據(jù)量,而且對單個步態(tài)幀中的噪聲也不敏感[6].步態(tài)能量圖G(x,y)可依據(jù)式(1)獲得.

其中,x和y表示二維圖像的坐標(biāo)值,N表示一個步態(tài)周期內(nèi)步態(tài)幀的個數(shù),Bt(x,y)表示單個步態(tài)幀.本文中所有圖像大小都統(tǒng)一標(biāo)準(zhǔn)化為128×88 像素.

用歸一化自相關(guān)(Normalized Auto Correlation,NAC)函數(shù)的方法可以匹配不同步態(tài)幀的相似程度,進(jìn)而確定一個完整的步態(tài)周期[17].但此方法需使用特定的公式,計算量也頗大.考慮人行走的步態(tài)姿勢人手臂與腿的運動具有一定的規(guī)律性,本文采取計算步態(tài)幀中的人體輪廓“寬高比”的方式進(jìn)行步態(tài)周期的估算.某個行人人體輪廓的“寬高比”可依據(jù)式(2)獲得.

其中,k表示該行人步態(tài)序列中步態(tài)周期的個數(shù),i表示第k個步態(tài)周期中的步態(tài)幀數(shù),和表示第k個步態(tài)周期中第i幀人體輪廓的寬和高.若Tk表示第k個步驟周期的所有步態(tài)幀,則

其中,n表示一個步態(tài)周期內(nèi)步態(tài)幀的總數(shù),即便同一個個體,不同的步態(tài)周期中,步態(tài)幀總數(shù)不一定相等.在一個步態(tài)周期中,人體輪廓“寬高比”需要達(dá)到兩次極大值和極小值:

2.4 算法模型訓(xùn)練

本系統(tǒng)的算法訓(xùn)練統(tǒng)一使用CNN 作為核心架構(gòu).CNN是一種適用于大規(guī)模圖像及視頻識別、理解、分類等計算機視覺領(lǐng)域的一種經(jīng)典且高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu).

具體網(wǎng)絡(luò)架構(gòu)方面,本系統(tǒng)參考文獻(xiàn)[18]提出的網(wǎng)絡(luò)結(jié)構(gòu),并在他們的基礎(chǔ)上對網(wǎng)絡(luò)模型進(jìn)行了調(diào)整并修改了相關(guān)參數(shù),提升了身份識別的準(zhǔn)確率,并用相同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行性別/年齡預(yù)測模型的訓(xùn)練.本系統(tǒng)所用于算法訓(xùn)練的基本神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:神經(jīng)網(wǎng)絡(luò)的輸入是標(biāo)準(zhǔn)化后的步態(tài)能量圖(128×88 像素);隨后利用兩組“卷積層+池化層”提取步態(tài)的特征,前一組卷積層使用32 個7×7的卷積核,步長為1,池化層為2×2,步長為2,后一層卷積層使用64 個5×5的卷積核,步長為2,池化層為3×3,步長為2;利用Flatten層轉(zhuǎn)化為一維數(shù)據(jù)后,利用兩層擁有1024 個神經(jīng)元的全連接層進(jìn)行信息的整合與特征區(qū)分,最后進(jìn)行分類與回歸.其中,在身份識別和性別預(yù)測算法模型訓(xùn)練中,我們根據(jù)數(shù)據(jù)集的人數(shù)劃分成相應(yīng)數(shù)目的類,從而將識別人身份的任務(wù)轉(zhuǎn)化為分類的任務(wù);而在年齡預(yù)測算法模型訓(xùn)練中,我們利用此網(wǎng)絡(luò)完成回歸任務(wù).分類任務(wù)使用交叉熵作為損失函數(shù),回歸任務(wù)使用平均絕對誤差作為損失函數(shù),訓(xùn)練使用Adam 優(yōu)化器,batchsize為128,訓(xùn)練輪次以及使用的激活函數(shù)隨著任務(wù)的不同而變化.

圖2 本系統(tǒng)采用的基礎(chǔ)CNN 結(jié)構(gòu)

2.5 系統(tǒng)實現(xiàn)

本系統(tǒng)按照“客戶端+服務(wù)器+數(shù)據(jù)庫”的思路進(jìn)行設(shè)計與構(gòu)建.在Windows 系統(tǒng)上,項目通過PyQt 進(jìn)行客戶端界面的繪制,客戶端上的代碼以Python 實現(xiàn).在客戶端上,系統(tǒng)主要采集已有步態(tài)視頻或者是實時采集到的監(jiān)控視頻中的步態(tài)信息,在轉(zhuǎn)換為步態(tài)能量圖后,傳送給服務(wù)器.在本地環(huán)境中,加載了算法模型的服務(wù)器會掛起等待著客戶端傳送的數(shù)據(jù),待有數(shù)據(jù)從端口傳送進(jìn)來的時候,經(jīng)過運算,返回步態(tài)圖像所對應(yīng)的行人的性別、年齡等信息.客戶端還會將從服務(wù)器端返回的特征信息與私有步態(tài)數(shù)據(jù)庫進(jìn)行相似度比對,進(jìn)一步確認(rèn)行人的身份.最后客戶端上會顯示出行人的身份、性別以及年齡信息.具體實現(xiàn)效果將在下一章詳細(xì)展示.

3 實驗結(jié)果

3.1 運行環(huán)境

本系統(tǒng)在Windows 64 位操作系統(tǒng)上成功運行與測試,算法部分通過Python、C++編譯實現(xiàn),并在Colaboratory 平臺上進(jìn)行訓(xùn)練,系統(tǒng)界面利用Qt Creator完成開發(fā);在硬件層面,本系統(tǒng)運行以及測試的電腦CPU為i5-8300H,內(nèi)存8 GB,顯卡為1050Ti,本系統(tǒng)所用的攝像頭是1080P USB 攝像頭.

3.2 步態(tài)數(shù)據(jù)集

3.2.1 CASIA-B 大規(guī)模多視角步態(tài)數(shù)據(jù)集

本系統(tǒng)使用中科院CASIA-B 大規(guī)模多視角步態(tài)數(shù)據(jù)集訓(xùn)練身份識別算法模型.數(shù)據(jù)集中采集人數(shù)為124 人,93 名男性,31 名女性,每人從0°到180°分11 個視角,每個視角間隔18°的方式采集.每個人行走狀態(tài)又分為3 種:穿大衣、攜帶包裹、正常條件.每個視頻分辨率為320 像素×240 像素,25 幀/s.由于本項目只是對90°下的步態(tài)識別進(jìn)行研究,因此算法模型僅使用數(shù)據(jù)集中90°下的數(shù)據(jù)進(jìn)行訓(xùn)練.

3.2.2 OU-ISIR 大型步態(tài)數(shù)據(jù)集

本系統(tǒng)使用大阪大學(xué)(OU)科學(xué)與工業(yè)研究所(ISIR)的大型步態(tài)數(shù)據(jù)集訓(xùn)練基于步態(tài)的性別與年齡預(yù)測算法模型.該數(shù)據(jù)集的數(shù)據(jù)包含年齡、性別標(biāo)簽,適用于評估與年齡、性別相關(guān)的人體步態(tài)分析算法(例如,以步態(tài)為基礎(chǔ)的年齡預(yù)測的一般領(lǐng)域的研究工作估計).該數(shù)據(jù)集由63846 名受試者組成,他們沿著攝像機拍攝的路線行走,行走視頻30 幀/s,分辨率640 像素×480 像素,受試者年齡范圍為2 至90 歲.在數(shù)據(jù)集中,每個受試者行走序列都轉(zhuǎn)化為一個尺寸標(biāo)準(zhǔn)化的步態(tài)能量圖.

3.3 步態(tài)檢測效果

本文通過背景減除法以及2.3的方法,從既有或者實時的視頻中獲取人體步態(tài)能量圖.但采用不同的背景減除算法去除背景的效果以及效率不同,選用合適的背景減除算法能幫助系統(tǒng)準(zhǔn)確且實時地計算步態(tài)能量圖,提升身份及屬性識別的準(zhǔn)確率.常用的背景減除算法有以下3 種:基于高斯混合模型的背景分割算法(Gaussian mixture-based background segmentation algorithm,MOG)[19]、基于高斯混合模型的背景分割改進(jìn)算法(MOG2)[20]以及基于K 鄰近的背景分割算法(K-Nearest Neigbours-based background segmentation algorithm,KNN)[21].

圖3展示的是3 種不同的算法在參數(shù)相同的情況下對同一段視頻去除背景后使用2.3 節(jié)中的方法計算得到的步態(tài)能量圖,表1展示了3 種算法結(jié)合2.3 節(jié)中的方法獲取同一段視頻中行人步態(tài)能量圖的時間.

進(jìn)行測試的源視頻時長約為5 s,人在行走過程中,視頻背景會產(chǎn)生鏡像進(jìn)行干擾,因此可很好地測試不同背景減除算法的健壯性.結(jié)合圖3和表1可看出,使用KNN 方法最后獲取到的步態(tài)能量圖更為清晰和完整.雖然MOG2 算法最后計算時間更短,但使用該算法最后生成的步態(tài)能量圖效果很糟糕,難以作為后續(xù)識別的輸入.在5 s的視頻中,KNN 結(jié)合2.3 中方法僅用1.66 s 即可生成對應(yīng)的步態(tài)能量圖,意味著在一段正常的行人步行時間內(nèi),系統(tǒng)有足夠的時間實時地捕獲到人的步態(tài)能量圖以進(jìn)行后續(xù)的工作.

圖3 3 種背景減除算法配合2.3 節(jié)中方法得到的步態(tài)能量圖

表1 不同算法結(jié)合2.3 節(jié)中方法計算步態(tài)能量圖表

3.4 算法識別效果

本文將步態(tài)數(shù)據(jù)集中連續(xù)的步態(tài)幀轉(zhuǎn)換為步態(tài)能量圖,并作為CNN的輸入訓(xùn)練算法模型.由于訓(xùn)練的樣本較少,我們將訓(xùn)練集、驗證集、測試集按照8:1:1 進(jìn)行劃分,以盡可能提供較多的數(shù)據(jù)進(jìn)行訓(xùn)練.3 種算法模型在Colaboratory 平臺上進(jìn)行訓(xùn)練的時間均在一個小時之內(nèi),在測試的主機上進(jìn)行訓(xùn)練的時間最長也不超過兩個小時.因此在硬件資源受限的情況下,本文提出的算法依然能夠被快速訓(xùn)練并運用,能夠滿足中小團(tuán)隊的開發(fā)需要.

基于步態(tài)的身份識別算法模型訓(xùn)練過程如圖4所示,圖中“acc”表示算法在訓(xùn)練集上的識別準(zhǔn)確率,“val_acc”表示算法在驗證集上的識別準(zhǔn)確率.由圖可知,經(jīng)過25 輪訓(xùn)練之后,在驗證集的識別準(zhǔn)確率可達(dá)到97.7%,算法識別準(zhǔn)確率高,收斂速度快,且不會出現(xiàn)過擬合現(xiàn)象.由表2可知,本文提出的基于步態(tài)的身份識別方法最終在測試集的識別率達(dá)到98.1%,優(yōu)于Battistone 等[11]和Zhang 等[12]的方法,說明能達(dá)到較好的實際應(yīng)用效果.

圖4 基于步態(tài)的身份識別算法模型訓(xùn)練過程圖

表2 基于步態(tài)的身份識別算法識別率對比

性別預(yù)測算法模型訓(xùn)練過程如圖5所示.由于用于性別識別和年齡預(yù)測的數(shù)據(jù)集比較大,因此一輪的訓(xùn)練后驗證集識別準(zhǔn)確率可達(dá)92.6%,且基于步態(tài)的性別預(yù)測本質(zhì)上是二分類問題,分類任務(wù)較為簡單,最后算法整體識別率高,經(jīng)過25 輪訓(xùn)練之后,識別率可達(dá)到97%左右,輕微過擬合.因為目前尚未有文獻(xiàn)對該任務(wù)進(jìn)行專門的研究,因此該算法并沒有一個可比較參考的基準(zhǔn),但從實驗效果來看,該算法模型最終在測試集的識別率達(dá)到97.1%,說明對于年齡的預(yù)測具有極高的準(zhǔn)確性和魯棒性.

圖5 基于步態(tài)的性別預(yù)測算法模型訓(xùn)練過程圖

年齡預(yù)測算法模型訓(xùn)練過程如圖6所示.圖中“mae”表示算法在訓(xùn)練集上的平均絕對誤差,“val_mae”表示算法在驗證集上的平均絕對誤差.由圖可知,在經(jīng)過18 輪的訓(xùn)練后,訓(xùn)練集上的平均絕對誤差逐漸下降且依然有不斷下降的趨勢,但在驗證集的平均絕對誤差并沒隨著訓(xùn)練輪次的增加有明顯的下降趨勢,說明對于驗證集來說,算法已經(jīng)接近收斂,過擬合現(xiàn)象明顯.我們將本文的方法與傳統(tǒng)的兩種基準(zhǔn)算法進(jìn)行對比,實驗結(jié)果參考表3.其中,“GPR”表示使用高斯過程回歸(Gaussian Process Regression)[22]算法計算的平均絕對誤差,“SVR”表示使用支持向量回歸(Support Vector Regression)[23]算法計算的平均絕對誤差,其中“GPR”和“SVR”是Xu 等[14]提出的兩種基于步態(tài)的年齡預(yù)測基準(zhǔn)算法.由表可知,本文提出的方法,在測試集的平均絕對誤差為6.21 歲,效果較好,明顯優(yōu)于傳統(tǒng)方法.

圖6 基于步態(tài)的年齡預(yù)測算法模型訓(xùn)練過程圖

表3 基于步態(tài)的年齡預(yù)測結(jié)果對比

步態(tài)能量圖最大程度地保留了人體行走的空間和時間信息,而卷積神經(jīng)網(wǎng)絡(luò)可通過卷積以及非線性運算挖掘步態(tài)能量圖中深層特征,最終顯著地區(qū)分出不同步態(tài)的屬性信息.在本節(jié)實驗中,利用步態(tài)能量圖與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行身份、性別以及年齡的識別/預(yù)測算法模型的訓(xùn)練.算法經(jīng)過測試集的測試,身份識別的準(zhǔn)確率達(dá)98.1%,性別預(yù)測準(zhǔn)確率達(dá)97.1%,年齡預(yù)測平均絕對誤差在6.21 歲,說明本文提出的方法對于單視角行人身份及屬性的分析具備較強的魯棒性和容錯能力.

3.5 在線系統(tǒng)測試

本系統(tǒng)將在4 種不同的場景中進(jìn)行相對應(yīng)的測試,圖7～圖9這3 幅圖是系統(tǒng)對已經(jīng)錄制好的步態(tài)視頻進(jìn)行測試的效果,其中,圖7中的測試背景與另外兩種情景不同.圖10是本系統(tǒng)通過外置攝像頭進(jìn)行實時檢測行人并識別行人身份和屬性信息的測試效果.不同場景都各有一人參與測試,受試者為3 名男性,1 名女性,年齡皆在20～23 歲之間.

圖7 對步態(tài)視頻進(jìn)行識別(身份已知且性別為男)

圖8 對步態(tài)視頻進(jìn)行識別(身份已知且性別為女)

圖9 對步態(tài)視頻進(jìn)行識別(身份未知)

圖10 實時環(huán)境下系統(tǒng)利用外接攝像頭進(jìn)行步態(tài)識別

從測試結(jié)果可以看出,在不同的背景條件下,本系統(tǒng)能夠在上述4 種不同的狀態(tài)下從既有或者實時的視頻中準(zhǔn)確地檢測出行人的位置并進(jìn)行定位與跟蹤,說明系統(tǒng)具備對于背景變化的抗干擾能力.對已在本地數(shù)據(jù)庫中登記的受試者,本系統(tǒng)能正確地識別其身份和性別;對未在本地數(shù)據(jù)庫中登記的受試者,本系統(tǒng)也能反饋其性別和年齡信息.此外,通過外置攝像頭,本系統(tǒng)能實時捕捉行人的步態(tài)信息,并進(jìn)行相應(yīng)識別與預(yù)測.由于算法模型是訓(xùn)練好加載到本地服務(wù)器中,因此當(dāng)客戶端輸入相應(yīng)的步態(tài)能量圖,服務(wù)器端可快速反饋相對應(yīng)的步態(tài)分析.上述所有的測試場景,系統(tǒng)在2～2.5 s 內(nèi)可分析獲得相對應(yīng)人體的步態(tài)信息,因此可以滿足實際場景中實時性檢測的需要.雖然在年齡預(yù)測環(huán)節(jié),本系統(tǒng)在部分場景中預(yù)測行人的年齡與真實年齡的偏差較大,如圖8和圖9所示的場景,預(yù)測的年齡誤差約有5 歲左右.但總體上看,本系統(tǒng)開發(fā)成本較低,可支持人體步態(tài)的實時檢測,算法具備較好的魯棒性,能準(zhǔn)確反饋行人信息,可滿足部分場景的使用需求,具有實際開發(fā)意義.

4 討論與總結(jié)

本文構(gòu)建和開發(fā)了一款可在視頻監(jiān)控場景下通過步態(tài)準(zhǔn)確識別出人物身份以及反饋相關(guān)特征信息的系統(tǒng).該系統(tǒng)運用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在Shiraga[18]的基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化,在測試集上,身份識別的準(zhǔn)確率達(dá)98.1%,性別預(yù)測準(zhǔn)確率達(dá)97.1%,年齡預(yù)測平均絕對誤差在6.21 歲,基本達(dá)到實際場景中對于步態(tài)識別與分析的要求.與此同時,該系統(tǒng)開發(fā)成本較低,支持實時檢測,可根據(jù)實際需要對功能進(jìn)行靈活地調(diào)整與修改,因此能很好滿足一些小團(tuán)隊、小企業(yè)的實際使用和開發(fā)需要,具有重要的現(xiàn)實意義.

雖然本系統(tǒng)已達(dá)到較為理想的效果,但依然有許多地方可以進(jìn)一步改進(jìn)和提升:一方面,在更為復(fù)雜的監(jiān)控環(huán)境中,背景、光線等外部環(huán)境變換難以估計,行人的行走方向也并不會因為固定好攝像機的角度而保持不變,所以步態(tài)識別的前期預(yù)處理本身就是龐大且復(fù)雜的工程,需要更具魯棒性的方法進(jìn)行預(yù)處理并提取到步態(tài)分析所用到的步態(tài)能量圖;其次,更加精準(zhǔn)的步態(tài)識別與分析,也需要更加龐大的數(shù)據(jù)集,以及更好的模型訓(xùn)練方法,令算法可以在精度及實時性等方面滿足更復(fù)雜場景的需要.