基于門控特征融合與中心損失的目標(biāo)識別

2023-10-24 10:08:50莫建文李晉蔡曉東陳錦威

浙江大學(xué)學(xué)報(工學(xué)版) 2023年10期

莫建文，李晉，蔡曉東，陳錦威

(桂林電子科技大學(xué) 信息與通信學(xué)院，廣西桂林 541004)

生物特征識別身份的系統(tǒng)非常有吸引力，它們易于使用且安全系數(shù)高，因此研究者們對這些人體固有的生理或行為特征的研究也日益增多.Wang 等[1]提出動態(tài)類池化方法來存儲和更新身份特征，在不犧牲性能的情況下，節(jié)省時間和成本.Zhu 等[2]提出全局-局部交叉注意和成對交叉注意來實現(xiàn)各類圖像間的信息交互，學(xué)習(xí)到細(xì)微特征可以提高行人識別準(zhǔn)確率.Ye 等[3]提出一種基于二維卷積神經(jīng)網(wǎng)絡(luò)(two dimensional convolutional neural network, 2D-CNN)和門控循環(huán)單元(gated recurrent unit，GRU) 的深度神經(jīng)網(wǎng)絡(luò) (deep neural network，DNN) 模型，實現(xiàn)說話人的身份識別等.當(dāng)特征采集器獲取特征出現(xiàn)誤差時，由于現(xiàn)實場景的復(fù)雜性，僅僅采用單一生物特征很難維持身份識別的穩(wěn)定性；當(dāng)單一生物特征無法滿足現(xiàn)實需求時，研究者們便嘗試以多生物特征的豐富性來應(yīng)對現(xiàn)實情況的復(fù)雜性.Ye 等[4]使用可見圖像生成輔助灰度模態(tài)，挖掘可見圖片特征與對應(yīng)圖片的紅外特征之間的結(jié)構(gòu)關(guān)系，解決白天和夜間因存在光線差異的目標(biāo)身份識別問題.Qian 等[5]有效地結(jié)合人臉信息和語音信息，顯著地提高個人身份驗證系統(tǒng)的性能.Sarangi 等[6]提出一種基于耳朵和人臉輪廓的多模態(tài)生物識別系統(tǒng)，組合2 個有效的局部特征，產(chǎn)生高維特征向量.在頻域和空間域中保留互補(bǔ)信息，彌補(bǔ)了耳朵特征進(jìn)行身份識別時的缺點，也提高了整體的身份識別準(zhǔn)確率.在社區(qū)安全問題中，指紋、語音、人臉、行人等則是需要特定的前端設(shè)備和安裝角度的位置相互配合.現(xiàn)有的監(jiān)控設(shè)備大都不具備這種配合條件，因此在這種場景下動態(tài)的目標(biāo)識別就變得比較困難.目前尚未發(fā)現(xiàn)有研究通過人臉和行人特征的融合來解決類似的問題，如何組合人臉特征與行人特征并產(chǎn)生魯棒性更強(qiáng)的目標(biāo)身份特征是亟待解決的問題.

目前常用的多模態(tài)特征融合方法[7]有聯(lián)合表示和協(xié)調(diào)表示等，聯(lián)合表示常用的是Concat 方法直接拼接產(chǎn)生維數(shù)更高的特征或Add 方法將2 個特征向量組合成復(fù)合向量，而協(xié)調(diào)表示則是學(xué)習(xí)協(xié)調(diào)子空間中的每個模態(tài)的分離但約束表示.Concat 方法是簡單拼接的方法，雖然豐富了目標(biāo)身份特征信息，但是使得冗余信息增加，會對身份判決帶來強(qiáng)干擾.受多生物特征融合[8]的啟發(fā)，本研究設(shè)計出門控特征融合網(wǎng)絡(luò)（gated feature fusion network，GFFN），考慮各部分特征的融合程度，在豐富特征信息的同時，也避免冗余信息帶來的誤判.針對本研究的目標(biāo)多分類問題，交叉熵?fù)p失函數(shù)雖然能實現(xiàn)類間區(qū)分，但是類內(nèi)的距離卻沒有進(jìn)行約束.當(dāng)不同人的穿著或相貌相似時，類間距離減少；當(dāng)同一人受拍攝角度或者光線強(qiáng)度等影響時，類內(nèi)距離增大，則會出現(xiàn)類間距離小于類內(nèi)距離的情況.Dickson 等[9]發(fā)現(xiàn)將平方和誤差損失函數(shù)與交叉熵?fù)p失函數(shù)混合使用可以提高網(wǎng)絡(luò)性能，結(jié)合現(xiàn)實應(yīng)用與Wen 等[10]的損失函數(shù)融合思想，通過加入中心損失對分類網(wǎng)絡(luò)進(jìn)行類內(nèi)距離約束，使得提取的特征判別性更強(qiáng).

1 GFFN 模型

由于攝像頭角度、抓拍距離、目標(biāo)活動及光線明暗程度等現(xiàn)實情況的影響，使得監(jiān)控場景下人臉數(shù)據(jù)的有效性受限，從而導(dǎo)致人臉識別網(wǎng)絡(luò)的準(zhǔn)確率急劇下降.受多模態(tài)特征融合的啟發(fā)，在實際應(yīng)用中考慮到人臉與行人特征各自的價值以及在不同場景下所受到的技術(shù)約束，對兩者各自的優(yōu)勢進(jìn)行融合應(yīng)用，采用的門控融合網(wǎng)絡(luò)可以指導(dǎo)神經(jīng)網(wǎng)絡(luò)去綜合考慮人臉和行人特征的貢獻(xiàn)量，有效地緩解因單生物特征信息模糊而導(dǎo)致識別準(zhǔn)確率低的現(xiàn)象.GFFN 模型的整體框架如圖1 所示.

1.1 模型的輸入模塊

GFFN 模型的輸入模塊如圖2 所示，Qf為人臉特征，Qp為行人特征.輸入待識別的圖片，使用Insightface 人臉識別模型[11]和PCB+RPP 行人識別模型[12]進(jìn)行特征提取.

圖2 GFFN 的輸入模塊Fig.2 Input module for GFFN

1.2 模型的特征融合模塊

將得到的2 個特征送入特征融合模塊進(jìn)行融合，組合出更加豐富且有效的身份特征.

1.2.1 特征相加融合如圖3(a)所示，相加融合是指特征值相加，通道數(shù)不變，將2 個特征向量組合成復(fù)合向量.

圖3 多種特征融合方法圖Fig.3 Map of multiple feature fusion methods

1.2.2 特征拼接融合如圖3(b)所示，拼接融合是指將2 個特征進(jìn)行首尾拼接.當(dāng)通道數(shù)增加時,[·,·]為向量首尾拼接符.

1.2.3 軟注意力融合如圖3(c)所示，Shon 等[13]提出一種基于軟注意力的融合方式，在兩兩輸入特征之間進(jìn)行互補(bǔ)平衡.通過注意力層fatt(·) 得到各生物特征的注意力得分：

式中：ez為加權(quán)融合特征，為Qx經(jīng)過全連接（fully connected，F(xiàn)C）層后的生物特征，Q為最終的組合特征， αf為人臉的加權(quán)融合系數(shù)， αp為行人的加權(quán)融合系數(shù).具體計算過程為

1.2.4 門控特征融合如圖3(d)所示，門控機(jī)制是應(yīng)用在GRU 或長短期記憶（long short term memory，LSTM）網(wǎng)絡(luò)等循環(huán)網(wǎng)絡(luò)中的流量控制部件，使用的門控特征融合結(jié)構(gòu)[5].在結(jié)合特征融合優(yōu)勢的同時，重點在決策層面進(jìn)行優(yōu)化控制.GFFN 設(shè)計的目的是將不同的生物特征數(shù)據(jù)進(jìn)行組合并找到最優(yōu)表示.每個Qx對應(yīng)于與每個生物特征相關(guān)聯(lián)的特征向量，經(jīng)過雙曲正切函數(shù)的激活，該函數(shù)旨在對特定特征的內(nèi)部進(jìn)行映射編碼.對于每個激活后的特征Qx，通過一個門控神經(jīng)元(在圖中由sigmoid 函數(shù)輸出表示)控制輸入.當(dāng)新ID 數(shù)據(jù)被輸入到網(wǎng)絡(luò)時，門控神經(jīng)元接收拼接后的特征向量作為輸入，并使用它們來決定生物特征Qx對整體識別任務(wù)做出的貢獻(xiàn)量，門控學(xué)習(xí)機(jī)制的數(shù)學(xué)原理為

式中： tanh 為雙曲正切函數(shù)，Ws、Wi為網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)重參數(shù)，S為門控網(wǎng)絡(luò)的權(quán)值分配系數(shù)， σ 為sigmoid 函數(shù).

為了不同特征的組合找到最優(yōu)的表示，模型以人臉512 維特征和行人3 072 維特征作為輸入，都經(jīng)過一個FC 層，該層還包括歸一化層（batch normalization，BN）和Drop_out 層.BN 層的加入是為了加快網(wǎng)絡(luò)的訓(xùn)練和收斂、控制梯度爆炸和防止梯度消失；Drop_out 層則可以防止訓(xùn)練過擬合，整體是為了得到更加緊湊和區(qū)分性更強(qiáng)的特征.人臉特征和行人特征的輸出維度均為1 024，再用雙曲正切函數(shù)進(jìn)行激活.最初輸入的人臉特征和行人特征進(jìn)行首尾拼接后，以及經(jīng)過相同的FC 層操作后，得到1 024 維融合特征，使用式（4）得到分配2 個特征的權(quán)值系數(shù).最后用權(quán)值系數(shù)與人臉特征和行人特征分別進(jìn)行對應(yīng)元素相乘并相加，得到最終的特征表示，再通過損失層進(jìn)行ID 預(yù)測分類.

1.3 模型的損失函數(shù)模塊

在一般的識別任務(wù)中，訓(xùn)練集和測試集的所有類別都會有對應(yīng)標(biāo)簽，如著名的Mnist 和ImageNet 數(shù)據(jù)集，里面包含的每個類別是確定的.大多網(wǎng)絡(luò)最終采用Softmax 損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練，得到的深度特征都具有良好的類間區(qū)分性.身份識別任務(wù)存在類間復(fù)雜及類內(nèi)多樣的問題，預(yù)先收集所有測試目標(biāo)的信息是不切實際的，因此需要網(wǎng)絡(luò)學(xué)習(xí)到的特征具有較強(qiáng)的判別性.

中心距離損失的設(shè)計主要是為了緩解類間距離小于類內(nèi)距離導(dǎo)致識別有誤的情況，通過尋找每一類特征的中心，以度量學(xué)習(xí)的形式懲罰所學(xué)特征與它類中心的距離即縮小同類樣本之間的距離.Wen 等[10]通過以手寫數(shù)字分類任務(wù)為例（Mnist數(shù)據(jù)集），展示網(wǎng)絡(luò)最終的輸出特征在二維空間的分布.類間距離雖然被區(qū)分，但是仍存在類內(nèi)距離過大的情況，于是提出Center Loss 來約束類內(nèi)距離.本研究借鑒減少類內(nèi)距離的思想，將門控分類與中心損失結(jié)合產(chǎn)生新的損失函數(shù)為

式中：La為門控分類損失；Lb為中心距離損失；M和N分別為小批次中的圖片數(shù)量和類別數(shù)；xi為屬于類別yi的第i個特征，xi∈Rd；d為特征的維數(shù)；和為網(wǎng)絡(luò)訓(xùn)練的權(quán)重參數(shù)；cy,i為特征的第yi個類中心，cy,i∈Rd； λ 為平衡2 種損失的權(quán)值超參數(shù)，經(jīng)實驗效果對比將其設(shè)置為0.2 最佳.門控分類損失與中心距離損失在深度神經(jīng)網(wǎng)絡(luò)中的融合結(jié)構(gòu)如圖4 所示.

圖4 門控分類損失和中心距離損失的連接圖Fig.4 Connection diagram of gated classification loss and center distance loss

2 實驗處理與結(jié)果分析

2.1 實驗數(shù)據(jù)集的制作

為了抓拍到豐富的行人姿態(tài)，在某高校人口流動穩(wěn)定的路段安裝了12 臺監(jiān)控抓拍設(shè)備.在若干天的固定時間段下，收集到約 4×106張行人流動圖，利用已開源的行人檢測和人臉檢測技術(shù)，裁剪出單個目標(biāo)行人的整體圖片和對應(yīng)的人臉圖片，經(jīng)過人工數(shù)據(jù)處理和篩選，最終得到ID 數(shù)為1 392 的行人和人臉數(shù)據(jù)集（G-campus1392），如圖5 所示.

圖5 G-campus1 392 數(shù)據(jù)集樣例Fig.5 Dataset of sample G-campus1392

為了驗證實驗的有效性和穩(wěn)定性，將數(shù)據(jù)集以隨機(jī)抽取的方式分成3 組（Randomdata1、Randomdata2、Randomdata3），如表1 所示，其中Nu為圖片數(shù)量.類比公開的行人數(shù)據(jù)集Market1501 中訓(xùn)練集和測試集的ID 數(shù)比例，隨機(jī)抽取的各組數(shù)據(jù)集中訓(xùn)練集和測試集ID 數(shù)均為696 個，并且每個ID 都有5 組行人—人臉庫圖片用于測試環(huán)節(jié)的距離度量.由于人臉圖片是從行人圖片中裁剪得到，以表1 中的圖片數(shù)量來表示行人或人臉圖片數(shù)量.

表1 G-campus1392 數(shù)據(jù)集的圖片數(shù)量Tab.1 Number of images in G-campus1392 dataset

2.2 實驗訓(xùn)練與測試說明

本研究以表征學(xué)習(xí)的形式來訓(xùn)練識別模型，最后的全連接層維數(shù)等于類別數(shù).在測試時，需要利用的是訓(xùn)練網(wǎng)絡(luò)的特征提取能力，并且訓(xùn)練集和測試集的ID 不能共享，因此會丟棄最后的全連接層.為了保證實驗的合理性，對單行人、單人臉、各種融合方法均采用ID 分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練.將所有方法中網(wǎng)絡(luò)的全連接層數(shù)和超參數(shù)進(jìn)行統(tǒng)一，取全連接層之前的1 024 維特征作為輸出特征，便于后續(xù)的距離度量.

實驗的評價指標(biāo)是重識別任務(wù)(re-identification, ReID)中常用的識別準(zhǔn)確率（accuracy，ACC）和平均準(zhǔn)確率（mean average precision，mAP）.為了真實刻畫目標(biāo)識別的合理性與真實性，計算庫中每個ID 的5 張圖片與待測試的圖片之間的歐式距離，采用加和求平均數(shù)的方法得到平均距離.當(dāng)平均距離最小的庫ID 與待測試圖片ID 相同時，則該測試圖片識別正確，所有測試圖片（總數(shù)記為 AllID）中識別正確的個數(shù)記為 T rueID，則ACC的計算為

ACC 指標(biāo)則是統(tǒng)計識別正確個數(shù)占總ID 數(shù)的比重.為了能夠更加全面的衡量ReID 算法的性能，采用mAP 指標(biāo)來反映檢索的人在數(shù)據(jù)庫中所有正確圖片排在序列表前面的程度，其計算式為

式中：E為總查詢次數(shù)，m∈(1,E) ；i為查詢中返回的圖片數(shù)量；為第m次查詢中，返回的前i張圖片中識別成功的個數(shù)；j為第m次查詢結(jié)束時，識別正確圖片的總個數(shù).

2.3 實驗方法

為了驗證所提方法的有效性，實驗部分對比了圖3 中的3 種特征融合方法，也將單一特征的分類識別結(jié)果與各融合方法進(jìn)行對比.在現(xiàn)實監(jiān)控場景下，人臉和行人的特征融合，能夠彌補(bǔ)單一特征信息丟失的不足.

2.4 實驗分析

在試驗中，通過對比單一特征識別結(jié)果、多特征識別結(jié)果以及是否加入中心距離損失來驗證所提方法的有效性.

2.4.1 各識別方法的實驗結(jié)果分析在控制網(wǎng)絡(luò)層和超參數(shù)的前提下，計算ACC 值和mAP 值，實驗結(jié)果如表2 所示.從表2 可知，人臉識別的準(zhǔn)確率最低.在現(xiàn)實情況及非配合情況下，人臉識別準(zhǔn)確率確實會受到較大的影響.3 組數(shù)據(jù)的人臉和行人平均識別準(zhǔn)確率分別為40.574%、54.818%，行人特征相比于人臉具有較高的魯棒性.在多特征融合方法中，特征相加融合的平均準(zhǔn)確率為59.16%，這種求和方式默認(rèn)2 種特征的貢獻(xiàn)量是相同的，所得平均值容易因質(zhì)量差的特征產(chǎn)生偏差.首尾拼接融合的平均準(zhǔn)確率為61%，該方法將2 個特征均放入網(wǎng)絡(luò)中組合訓(xùn)練，缺點是整體的性能會因損壞的特征數(shù)據(jù)而下降.

表2 多種識別方法的結(jié)果對比Tab.2 Comparison of results of multiple identification methods

以上2 種融合方法都是靜態(tài)的特征融合，而軟注意力融合與本研究的門控特征融合都是動態(tài)的特征融合方式，兩者的平均準(zhǔn)確率分別為63.6%、73.0%.從實驗結(jié)果看，多特征的動態(tài)組合不僅能彌補(bǔ)單一特征信息缺失的不足，也能緩解多特征融合存在冗余的問題.兩者雖都為動態(tài)融合，但兩者在動態(tài)程度上存在差別，軟注意力機(jī)制會重點關(guān)注某一特征，并且會綜合考慮所有特征，最終所得的權(quán)值系數(shù)很難取到極端值.在現(xiàn)實應(yīng)用場景下，人臉往往模糊到無法獲取有用的特征甚至是干擾的信息.本研究的門控方法采用sigmoid函數(shù)進(jìn)行權(quán)值分配，由于該函數(shù)的平滑性和取值特征，考慮到的因素更多，更適合現(xiàn)實場景下的應(yīng)用.不難發(fā)現(xiàn)，本研究的門控特征融合方法帶來的提升效果是顯著且穩(wěn)定的.

2.4.2 中心距離損失效果分析對于多分類問題，不可避免的就是類內(nèi)與類間距離的大小問題，所提的融合損失能夠針對該問題進(jìn)行優(yōu)化.各分類方法在表2 的實驗基礎(chǔ)上，加上中心距離損失重新訓(xùn)練和測試.ACC 值和mAP 值如下表3、4 所示，其中L1 為分類任務(wù)中常用的交叉熵?fù)p失，L2 為所提的融合損失.

表4 分類網(wǎng)絡(luò)增加中心距離損失后的mAP 值Tab.4 mAP value of classification network after increasing center distance loss%

通過觀察表3、4 的實驗結(jié)果可以發(fā)現(xiàn)，ACC 值和mAP 值在加入中心距離損失后均有提升，各方法的平均準(zhǔn)確率分別提高3.0%、5.6%、7.2%、9.5%、8.1%、2.6%.各方法在加上中心距離損失訓(xùn)練后，隨著類中心距離在訓(xùn)練過程中不斷更新調(diào)整，有效緩解樣本由于類間距離小于類內(nèi)距離而導(dǎo)致判決錯誤的情況.6 類方法的平均準(zhǔn)確率先上升后下降，當(dāng)2 個特征進(jìn)行融合后，融合特征的類內(nèi)距離會隨之增加.為了使得融合后的類內(nèi)特征距離更加緊湊，加入中心距離損失，改善因類內(nèi)距離過大而出現(xiàn)誤判的情況，單特征改善情況則不會那么顯著.本研究的門控方法加入損失后的提升效果雖不如其他方法明顯，是因為特征的有效性已經(jīng)接近上限，同時也反映出本研究特征融合方式是緊湊的.

2.4.3 錯誤樣本分析以上述實驗結(jié)果中的門控?fù)p失和距離loss 實驗結(jié)果為例，整理出4 組錯誤的典型樣本如圖6 所示.每組左邊為測試樣本，右邊為模型識別出的錯誤結(jié)果.從圖6 來看，當(dāng)人臉模糊或不配合、行人衣服顏色相似時，即使采用融合方式，模型在應(yīng)對2 個特征信息不準(zhǔn)的情況下，魯棒性表現(xiàn)的都不夠強(qiáng)，這表明不僅融合算法存在挑戰(zhàn)，單行人或人臉識別模型的特征提取也有待改進(jìn).數(shù)據(jù)集的豐富性也會影響結(jié)果，當(dāng)訓(xùn)練量足夠多時，現(xiàn)實場景下的目標(biāo)識別率也會進(jìn)一步提升.

圖6 所提方法的錯誤樣本Fig.6 Error samples of proposed method

由于本研究數(shù)據(jù)集由項目合作方提供，暫時沒有取得公開權(quán)限，讀者可以搜集多個公開數(shù)據(jù)集如Market1501 等.在使用能夠看到人臉和行人的數(shù)據(jù)時，可以與本研究相當(dāng)?shù)臄?shù)據(jù)量進(jìn)行重現(xiàn)測試，也可以根據(jù)介紹的數(shù)據(jù)集制作流程，重新制作數(shù)據(jù)集進(jìn)行復(fù)現(xiàn).

3 結(jié) 語

本研究提出了一種基于門控多特征融合與中心損失的動態(tài)目標(biāo)識別方法.以門控的方式將行人特征與人臉特征進(jìn)行動態(tài)融合，產(chǎn)生更強(qiáng)的類間區(qū)分性特征，可以彌補(bǔ)單一特征在現(xiàn)實場景下由于信息丟失導(dǎo)致識別準(zhǔn)確率下降的問題.將中心距離損失與門控分類損失結(jié)合，隨著類中心距離的更新，類內(nèi)距離不斷縮小，使得特征更具判別能力.在自制數(shù)據(jù)集實驗結(jié)果中，監(jiān)控場景下的特征融合方法可以有效降低目標(biāo)識別的誤判概率.在實際場景下，會出現(xiàn)待識別目標(biāo)被遮擋、更換衣服或監(jiān)控環(huán)境光強(qiáng)變化等復(fù)雜情況，這樣會導(dǎo)致特征融合產(chǎn)生不了更強(qiáng)的特征，反而會組合產(chǎn)生干擾特征，因此進(jìn)一步的研究可從如何提取強(qiáng)魯棒性的特征或訓(xùn)練出帶有記憶的識別網(wǎng)絡(luò)2 個方向來展開.