張 森,張 頡,王 堯,劉錦隆,閆 斌,尚趙偉
(1.重慶大學計算機學院, 重慶 400000;2.國網四川省電力公司,四川 成都 610041;3.國網四川省電力公司涼山供電公司,四川 西昌 615000;4.電子科技大學自動化學院,四川 成都 611731)
電力是經濟發展的能源基礎,電力信息化對于中國的能源安全而言無疑是一個有效的保障。近幾年,視頻作為安全管理和風險控制的重要技術手段,在電力各個業務板塊得到廣泛應用。行人重識別(person re-identification,ReID)是計算機視覺領域的一個重要研究方向,要求根據某個攝像頭捕捉到的行人圖像在其他攝像頭捕捉的圖像中進行檢索,以找出相同身份的行人[1],能夠根據行人的穿著、體態、發型等信息認知行人,實現對無法獲取清晰拍攝人臉的行人進行跨攝像頭連續跟蹤,增強數據的時空連續性。隨著新基建的建設快速推進,在電力行業的智慧工地、變電站監控、作業施工管控等場景中,作為人臉識別技術在身份確認方面的重要補充技術手段,行人重識別有著重要的應用價值。
在視頻監控網絡中,行人因受到視角、姿態變化、背景、光照、攝像頭設置等多種因素影響,會導致同一個人在同一攝像機的不同時刻,或不同攝像機在同時刻捕捉的圖像存在很大差異,造成行人識別精度低,特別是在白天和夜晚環境下,攝像機在可見光和紅外光不同模式下成像的差異更大,給跨模態(cross modal)行人重識別問題(即在可見光圖像庫中如何準確檢索出與給定紅外圖像相同身份的行人)帶來相當大的困難?,F有研究主要集中于使用共享參數的多層卷積網絡直接提取兩種模態數據中的共享信息。但數據本身跨模態差異大,這些方法均仍未達到實用效果。為此提出一種新的網絡結構,實驗表明,可有效提取出兩種模態中的共享信息,提高行人重識別精度。
針對可見光與紅外光的跨模態圖像行人重識別問題,文獻[2]在國際計算機視覺大會上首次發布大規??梢姽?紅外跨模態行人重識別數據集SYSU-MM01,并提出深度零值填充(deep zero padding)的網絡模型,開啟了可見光-紅外行人重識別問題的先河。文獻[3]在國際人工智能聯合會議上引入生成對抗網絡的思想訓練一個跨模態生成對抗網絡模型(cmGAN), 使用可見光和紅外光兩種模態圖像進行互相生成以降低模態間差異。文獻[4]在國際人工智能聯合會議上提出一個雙流網絡結構分別提取兩個模態的特定特征,隨后通過權重共享提取兩個模態的共享特征,并于2020年[5]使用新的基準模型對其進行改進實現了較大的精度提升。文獻[6]針對跨模態問題設計了五元組損失函數,在提高同一模態類間差異的同時降低跨模態類內差異。文獻[7]在國際計算機視覺與模式識別會議上使用生成對抗的思想將兩種模態圖像進行互相生成,但訓練不穩定且效果一般。文獻[8]在美國人工智能協會2020大會上通過引入一個輔助的x模態將雙模態重識別轉化為可見光、紅外光、x模態的三模態重識別問題,實現了較好的效果。以上研究盡管取得了一定的成就,但存在以下問題:
1)直接使用共享參數提取與模態無關的身份信息,忽視了不同模態數據本身的差異。可見光圖像為紅綠藍三通道數據,包含了豐富的色彩信息,而紅外圖像為單通道,其灰度值反映了目標的紅外輻射量,成像機理完全不同導致跨模態行人重識別領域相關研究效果較差。
2)僅考慮了圖片整體特征或僅考慮局部特征,對圖像信息的利用不充分。
為解決以上兩個不足,下面提出的網絡結構可有效提取出兩種模態中的共享信息,提高跨模態行人重識別模型精度:
1)基于注意力機制設計了輕量化的模態遷移模塊,可有效地在特征嵌入網絡的輸入級縮小跨模態差異,并且額外參數量可忽略不計。
2)設計了基于分塊的多粒度特征分解模塊。同時考慮輸入圖像的整體信息和豐富的局部信息,提高了有效信息的利用率。
3)整個模型可以端到端進行訓練,并且兩種模塊可以獨立使用,也可以與其他相關研究進行組合。
目前基于深度學習的跨模態行人重識別,多采用使用共享參數的多層卷積神經網絡進行特征提取[4-8],將可見光圖像特征和紅外光圖像特征嵌入同一個特征空間用于后續分類(或相似度度量)。這里也采用此類網絡架構,其總體框架如圖1所示。對于可見光圖像,首先輸入到模態遷移模塊,利用通道間的注意力機制將RGB 3個通道進行非線性加權,減弱可見光圖像特有的顏色信息,模擬紅外光的紅外輻射信息,實現輸入級模態間差異的削減;接著模態遷移模塊的輸出和原始紅外圖像一起,通過共享參數的卷積神經網絡來提取特征。文獻[9]中已有實驗論證,將ResNet50的最后一層下采樣層(down sampling layer)的池化步長(stride)從2修改為1,可有效避免尺寸減小帶來的信息損失,提高特征提取性能,因此在行人重識別的多項工作[6-8]中都將其作為特征提取的基準分類模型。為了證明所提方法的有效性,同樣選擇該微改的ResNet50(下面簡稱為ResNet50)作為基礎模型進行對比。另外,在去掉最后ImageNet的全連接層基礎上,使用ImageNet大規模數據集上預訓練的權重參數,進行遷移學習后所提取的特征經過多粒度特征分解模塊,通過水平分塊將特征分為兩級細粒度特征。再將全局特征和細粒度特征分別進行三元組損失函數計算,經過全連接層進行交叉熵損失函數計算,完成整個網絡的端到端的訓練。

圖1 網絡整體結構
由于不同模態圖像灰度值反映的信息語義不同,且兩種模態信息并沒有已知的對應關系,因此,為了模擬行人圖像的跨模態遷移減小圖片級模態差異,使用注意力機制中的通道注意力,期望通過反向傳播讓模型擬合可見光模態到紅外模態的通道級轉換。具體結構如圖2所示。

圖2 模態遷移模塊結構
可見光圖像首先經過最大池化和平均池化得到兩個長度為3的一維向量特征表示,再經過1×1卷積和非線性的relu激活層再次疊加1×1卷積層用于擬合模態遷移變換。將兩條路徑得到的輸入進行像素級疊加;再經過sigmoid激活函數提高非線性,得到不同通道的注意力權值;再與原始圖像進行通道級相乘,得到注意力加權后的三通道圖像,用于后續特征提取。
同一個行人在不同光照條件、視角差異、姿態變化等情況下攝像頭所捕獲到的圖像有較大差異。若僅觀察整體特征不利于行人身份的準確識別,如2個不同行人若身體姿態相似,則極易被誤判為同一人,因此考慮行人圖像的局部細粒度特征在一定程度上可提高模型魯棒性。根據特征大小不同應當考慮不同粒度,如面部佩戴的眼鏡、帽子等應該使用較細的粒度,褲子外觀應該使用較粗粒度。據此設計了多粒度特征分解模塊,如圖3所示。前級特征提取得到了深層網絡多維特征,分別經過3個不同分支,包括全局特征分支、粗粒度特征分支和細粒度特征分支。其中全局特征分支提取原始的圖像整體特征,粗粒度特征分支將原特征進行水平分塊為3組,細粒度特征分支將原特征水平分塊為6組,總共得到10組特征,之后每組特征都經過全局平均池化層化為特征向量,再經過1×1卷積層進行降維,最后接批量歸一化層(batch normalization,BN層)將各組的特征實現通道級拼接得到一個總體多粒度特征,將其作為該輸入圖像的特征表示,用于后續損失函數計算和預測階段的特征匹配。其中全局特征分支降維為512通道,粗粒度特征分支降維為256通道,細粒度特征分支降維為128通道。

圖3 多粒度特征分解網絡結構
所選擇的數據集為可見光-紅外光跨模態行人重識別領域使用最廣泛的公開數據集SYSU-MM01,共包含287 628張可見光行人圖片和15 792張紅外光行人圖像,來自于6個攝像頭,包括室內場景和室外場景。整個數據集共包含491個不同身份的行人,每個行人都至少有一張可見光圖像和一張紅外光圖像。SYSU-MM01數據集已經預先劃分了訓練集、測試集和驗證集,其中訓練集共296個ID的行人,測試集共96個,驗證集共99個。目前普遍使用的處理方式是將原始的訓練集和驗證集合并到一起訓練。測試集中的紅外圖像樣本稱為query集,也叫查詢集,可見光圖像樣本稱為gallery集,也叫待查集。測試模式包括全部場景(all)和室內(indoor)場景以及單發(single shot)和多發(multi-shot)兩種情況互相組合。
評價指標使用累計匹配特性(cumulative matching characteristics,CMC)和平均精確度(mean average precision,mAP)兩項指標,其中mAP指標在目標檢測領域早已廣泛使用,而CMC指標一般只在圖像檢索、重識別等問題中使用。模型在測試時將query集和gallery集全部樣本輸入網絡提取各自的特征向量計算相似度,從而對于query集每個樣本都能得到gallery集全部樣本的相似度降序排列。對于CMC指標一般使用rank-k命中率進行計算。將query集中全部樣本的rank-k計算平均值即可得到最終的rank-k結果。一般最常選擇的k值為1、10和20。
實驗采用的數據增強包括隨機圖像剪切(crop)、水平翻轉和隨機擦除,最后圖像大小為288×144像素,網絡使用Adam優化器,權重衰減系數為5×10-4,初始學習率為0.01,并且學習率衰減使用warm-up策略,即前10個epoch(1個epoch為將所有訓練樣本訓練1次)學習率從0.001線性增長到0.01,10到30個epoch學習率保持0.01,30到60個epoch學習率為0.001,60到80個epoch學習率為0.000 1。一共訓練80個epoch。ResNet50由于使用了預訓練參數,因此其學習率設置為模型學習率的0.1倍。使用P×K的采樣策略,即每次迭代選擇P個ID,每個ID選K張可見光圖像和K張紅外光圖像,實驗設置P為6,K為4。因此每次訓練的batch大小為48張圖片。模型在SYSU-MM01數據集的4種模式下進行測試,結果如表1所示。

表1 SYSU-MM01數據集不同方法結果對比
根據表1可知,在全場景模式下,單發和多發兩種情況下所提方法指標都高于現有方法,其中單發的rank-1高于當前最佳方法6.53%,mAP也高出最佳方法2.79%,多發模式下也有相同結果;并且室內場景下由于難度有所下降,各項指標都有所提高,但仍然優于現有其他方法:證明了所提方法的有效性。
為進一步證明所設計的兩種模塊各自的有效性,對比實驗設計包括不同網絡架構的對比和不同不同基礎模型的對比。對于跨模態行人重識別問題,基于深度學習的方法其模型可歸類為3種網絡架構:單流架構、雙流架構、半雙流架構,如圖4所示。將3種網絡架構和所提方法一起進行對比,為了控制變量,本部分實驗都不采用所提出的特征分解模塊,并且4種架構的基礎模型均采用前面所述的ResNet50,其中半雙流架構的共享卷積層使用ResNet50的layer1-4。在全場景單發模式下實驗結果證明了使用所提的注意力模塊后的網絡架構的有效性,如表2所示。

圖4 不同網絡架構對比

表2 不同網絡架構對比
為了對比所提出的特征分解模塊的有效性,分別使用4種不同的經典預訓練模型作為特征提取的基礎模型,分別為ResNet50、ResNet18、SqueezeNet、DenseNet121,每種基礎模型都進行是否使用特征分解模塊的對比。在全場景單發模式下實驗結果如表3所示。

表3 不同基礎模型對比
從表3結果可看出,不同的預訓練模型效果有差別,但使用所提特征分解模塊后各項指標均有所提高,證明所提特征分解模塊的有效性。
針對可見光和紅外光跨模態行人重識別問題,提出了一種新的網絡結構,包括基于注意力的模態遷移模塊用于緩解巨大的跨模態差異以及基于圖像分塊的多粒度特征分解模塊用于提取圖像全局和局部的多粒度特征。在SYSU-MM01公開數據集上進行的測試表明,所提兩種模塊能有效提高行人重識別模型精度,與現有多種方法比較達到了目前更好的效果。但與可見光單模態行人重識別相比,跨模態行人重識別模型效果仍然有很大的提升空間??紤]到深度學習中注意力機制有多種實現方式,接下來將進一步改進模態遷移模塊,探究可見光和紅外光之間更有效的特征變換結構,進一步減小跨模態差異,提高算法性能。