劉靜怡 金彬 解祥新 李天逸


摘要:行人重識別也稱跨境追蹤,旨在彌補固定攝像頭的視覺局限。針對行人圖像容易出現遮擋、視覺與姿態的不同變化、光照變化等影響而出現難以區分行人的狀況,最終導致行人重識別準確率低的問題,文章提出了一種使用點積得到計算效率更高的注意力評分函數進行檢測的方法。實驗結果表明,在注意力機制的加持下,該模型能夠有效地增強行人圖像特征等關鍵詞的提取,進一步提高模型的魯棒性,有效地滿足實際需要。
關鍵詞:行人重識別;注意力評分函數;魯棒性
中圖分類號:TP311? 文獻標志碼:A
0 引言
近幾年,智能化逐漸成為城市發展的趨勢,監控視頻網絡也越來越普遍地被應用到地鐵、商場、醫院等公共場合,這不僅給人們提供便利,還能確保地區的安全[1]。但是由于攝像頭的數量巨大,拍攝場景復雜,拍攝中會出現很多不確定因素,雖然目前的人臉識別技術比較成熟,但是它有一個明顯的缺點,就是必須要看到相對清晰的人臉照片。而通過行人重識別技術可以對已有的可能來源與非重疊攝像機視閾的視頻序列中識別并檢索出目標行人,從而大大提升了數據的時空連續性,使數據更加準確、可靠。因此,將行人重識別技術運用到智能安防、視頻監控系統等各個領域能更好地保障社會安定。
目前,行人重識別所采用的方法有基于表征學習的ReID方法、底層視覺特征方法、中層語義屬性、高級視覺特征和別的一些組合方法[2-3]。這些方法雖然能從不同角度解決一些問題,但是不能有效解決在面對行人局部特征區域劃分后出現離異值使該區域內容不一致的情況。針對目前行人圖像易受到外部環境影響的各種問題,本文提出了基于評分函數的方法,進而提高魯棒性以及局部特征的可區分性。
1 行人重識別理論
1.1 行人重識別問題描述
盡管目前很多學者對行人重識別進行了深入而全面的研究,使得技術的可用性得到了一定的提高,但是由于顯示復雜的場景,仍然存在著來自不同背景和視角的挑戰。行人重識別存在的難點問題如下:
(1)遮擋。在各種復雜的情況下,行人很容易被多種物品所遮擋,如口罩、墨鏡、桌子等,致使行人的姿態和穿著特征很難提取,從而影響重識別的精度。
(2)視角、姿態的變化。行人在路上的姿態行為是不可控的,所以在不同的視角拍到的照片都是有很大區別的,因此這些問題都對行人重識別提出了挑戰。
(3)光照變化。由于現實拍攝過程中光照來源、光照強度、拍攝場景以及攝像參數具有很大的不確定因素,導致對于不同分辨率的攝像機敏感度不同,從而拍到的行人也存在著很大的差異。
(4)相似行人的影響。在實際場所下,很多人會面臨撞衫的情況,甚至會在外界因素導致之下,不同行人比同一行人更難分辨,導致了相似行人的識別困難,增加了行人重識別的研究難度。
(5)距離的影響。近距離拍攝的圖像中大部分是行人,而較遠距離得到的圖片主要是背景,所以提取目標行人特征后的精確性就會降低。
除了以上問題,行人重識別還存在無正臉照、配飾、服裝、穿衣風格以及由于不同的數據集中存在域的偏移問題,使得原數據集下訓練的模型在目標數據集下很難取得很好的性能,泛化性能不強。
1.2 常用算法實現
1.2.1 基于表征學習的行人重識別方法
表征學習可以近似看作為樣本在特征空間的分界面,主要通過構造網絡直接得到模型的魯棒性,不直接學習圖片之間的相似性。并且主要得益于深度學習,卷積神經網絡(CNN)是深度學習中最流行的算法之一[4],它可以根據任務需求自動提取表征特征并且可以在網絡的輸入時使得圖像特征表現得更為明顯。基于特征表達的方法包括底層視覺特征、中層語義屬性特征、高級視覺特征3類。
1.2.2 基于度量學習的行人重識別方法
不同于表征學習的方式,度量學習旨在通過構造網絡來檢測兩張圖片的相似度,被廣泛用于圖像檢索領域。度量學習也可以看作在特征空間進行聚類,正樣本距離拉近的過程使得類內距離縮小,負樣本距離推開的過程使得類間距離增大,最終收斂時使得樣本在特征空間呈現聚類效應。度量學習的行人重識別一般分為線性學習和非線性學習兩種方法,它們之間都依附于強有力的度量函數,因此度量函數的好壞十分重要。
1.2.3 基于局部特征的行人重識別方法
局部特征是對行人圖像特征的局部表達,其思路主要是對圖像的某一區域進行特征提取,最后將多個局部特征融合到一起作為最終特征。主要的研究方法為:利用關鍵點來定位以及區域分塊。
1.2.4 基于多層深度特征融合的行人重識別方法
采用卷積神經網絡提取目標行人圖像的深層特征可以降低表觀變化造成的影響,提高目標行人特征的穩定度和可靠性。卷積的本質是濾波,操作是加權平均、乘加運算。與普通的神經網絡相比,它具備了“平移不變性”,無論行人目標在哪個位置都能被檢測到,并且可以通過卷積層的級聯學習到不同尺寸的特征,有效地提取到有用信息。
2 注意力評分函數概述
在注意力機制的背景下,本文將自主性提示稱為查詢(Query),對于給定的任何查詢,注意力機制通過注意力匯聚將選擇引導至感官輸入,在注意力機制中,這些感官輸入被稱為值(Value)[5-6]。設計注意力匯聚以便給定的查詢(自主性提示)可以與鍵(非自主性提示)進行匹配,將會引導出最匹配的值(感官輸入)。
從宏觀上來看,利用評分函數算法實現注意力機制框架,如圖1所示。圖1也說明了如何將注意力匯聚的輸出計算成為值的加權和,其中a表示注意力評分函數,由于注意力權重是概率分布,因此,加權和本質上是加權平均值。
評分函數公式:用數學語言描繪,假設有一個查詢q∈Rq和m個“鍵-值”對(k1,v1),……,(km,vm),其中ki∈Rk,vi∈Rv。注意力匯聚函數f就被表示成值的加權和:
f(q,(k1,v1),……,(km,vm))=∑mi=1α(q,ki)vi∈Rv(1)
其中,查詢q和鍵ki的注意力權重(標量)是通過注意力評分函數a將兩個向量映射成標量,再經過softmax運算得到的:
α(q,ki)=softmax(a(q,ki))=exp(a(q,ki))∑mj=1exp(a(q,kj))∈R(2)
而softmax操作用于輸出一個概率分布作為注意力權重[7-8]。在一些特殊情況下,并非所有的值都應該被納入注意力匯聚。某些文本序列被填充了沒有意義的特殊詞元,是為了將有意義的詞元作為值來獲取注意力匯聚,所以本文指定了一個有效序列長度(即詞元的個數),以便在計算softmax時過濾超出指定范圍的位置。
正如公式所示,選擇不同的注意力評分函數a會導致不同的注意力匯聚操作[9]。本文主要使用縮放點積注意力可以得到計算效率更高的評分函數。假設查詢和鍵的所有元素都是獨立的隨機變量,而且都滿足零均值和單位方差,那么兩個向量的點積的均值為0,方差為d。為了確保無論向量長度如何,點積的方差在不考慮向量長度的情況下仍然是1,將點積除以d,則縮放點積注意力評分函數為:
a(q,k)=kqTd(3)
在實踐中,本文從小批量的角度來考慮提高效率,基于n個查詢和m個鍵值對計算注意力,其中查詢和鍵的長度相同為d,值的長度為v0。查詢Q∈Rn×d。鍵K∈Rm×d和值V∈Rm×v的縮放點積注意力是:
softmax(QKTd)V∈Rn×v(4)
3 實驗結果與分析
本系統行人檢測模塊采用的是Market-1501,這是常用的行人重識別中的數據集,實驗選用ResNet-150這種流行的CNN網絡。本文注意力模塊使用縮放點積算法優化,初始學習率為0.01,權重衰減率設置為0.000 5,迭代次數為50次,測試中,不增加數據增強操作。
3.1 評價標準
為了評估算法的性能,本文采用Rank-1和mAP作為評估標準來衡量識別的效果。Rank-1是指在候選集中得到與檢索目標相似性排名最高的圖片為目標行人的概率,是排序命中率的核心指標[10]。而平均精度值mAP(Mean Average Precision)是更能全面衡量ReID算法效果的指標,其計算公式為mAP=所有類別的平均精度求和除以所有類別,其中mAP的相對大小是衡量類似任務模型質量的關鍵標準之一。本文采用了Rank-1和mAP的結果來衡量引入注意力機制識別模型的性能。
3.2 實驗結果及分析
本文做了兩組對比實驗,對比了在模擬的行人圖像各種分辨率共存和尺度不匹配的場景下,引入注意力評分函數和未引入時分別做行人重識別的實驗效果,實驗結果如表1所示,左邊的數據是mAP,即本次實驗的平均精度,右邊的數據是Rank-1,即實驗中排序第一的目標行人圖像是所要查詢的行人概率。
通過實驗得出的結果可知,對收集到的數據集,正面的目標行人圖像首位命中率可以達到89.57%,該模型在處理正面行人圖像時效果較為準確。并且從以上結果可以看出:本文提出在隱層和輸出層之間使用縮放點積注意力評分函數可以增強最終行人重識別的正確率,這表明了本文提出的方法是有效的,并且本文提出的模型并沒有經過任何的預訓練,這也可以說明本文提出的模型具有較強的魯棒性。
實驗證明引入注意力評分函數的行人重識別技術有一定幅度的提高,網絡的表征能力得到了進一步的增強,基于注意力評分函數的行人重識別研究與傳統的算法相比有一定的競爭力。但是,行人重識別的數據集的樣本數量比較少,缺少樣本也是行人重識別的一個重要難題,這也意味著使用龐大的模型需要對樣本進行復雜的預處理和數據夸張以及在網絡上加入各種的措施避免過擬合。
4 結語
為了解決行人重識別準確率低的問題,本文提出了一種新的基于縮放點積注意力評分函數方法,這種方法通過調優算法來提升性能,優點在于其夠全局捕捉聯系,不像序列RNN捕捉長期依賴關系的能力那么弱并且可以并行化,十分有效地提高模型的魯棒性。然而,本文所提出的方法也存在一定的缺點:一是當查詢和鍵是不同長度的矢量時,縮放點積注意力函數沒有其他的評分函數計算效率高;二是文中樣本數據較少,該實驗結果仍存在必然偏差,若增加樣本數據量,則模型的魯棒性能達到更好的預測效果。
參考文獻
[1]嚴燦祥.行人再識別技術研究[D].北京:中國科學院大學,2014.
[2]李承宸.基于局部特征的行人重識別技術應用與研究[D].濟南:山東師范大學,2020.
[3]樊霖.基于孿生網絡的行人重識別研究[D].天津:天津理工大學,2020.
[4]湯勇.基于深度學習的行人檢測與行人重識別研究[D].長沙:湖南大學,2019.
[5]張嚴.基于注意力機制的對比學習行人重識別[D].武漢:華中科技大學,2020.
[6]羅善益.基于注意力模型的行人重識別算法研究[D].武漢:華中科技大學,2020.
[7]祁子梁.基于混合損失函數的行人再識別研究[D].天津:河北工業大學,2019.
[8]謝以翔.基于視覺注意力機制的行人再識別研究[D].合肥:安徽大學,2019.
[9]張斌艷,朱小飛,肖朝暉,等.基于半監督圖神經網絡的短文本分類[J].山東大學學報(理學版),2021(5):57-65.
[10]鄭付科.基于內容一致性和行人屬性的行人重識別研究[D].鄭州:鄭州大學,2020.
(編輯 王雪芬)
Pedestrian reidentification study based on the attention scoring function
Liu? Jingyi, Jin? Bin, Xie? Xiangxin*, Li? Tianyi
(Nantong Institute of Technology, Nantong 226000, China)
Abstract:? Person re-identification, also known as cross-border tracking, aims to make up for the visual limitations of fixed cameras, and this paper proposes a method for detecting pedestrians by using the attention scoring function with higher computational efficiency by using the dot product to obtain a more efficient attention scoring function for detection. The experimental results show that with the support of the attention mechanism, the model can effectively enhance the extraction of keywords such as pedestrian image features, further improve the robustness of the model, and effectively meet the practical needs.
Key words: person re-identification; attention scoring function; robustness