張耿寧 王家寶 李陽 苗壯 張亞非 李航
摘要:
行人重識別精度主要取決于特征描述和度量學習兩個方面。在特征描述方面,現有特征難以解決行人圖像視角變化的問題,因此考慮將顏色標簽特征與顏色和紋理特征融合,并通過區域和塊劃分的方式提取直方圖獲得圖像特征;在度量學習方面,傳統的核局部Fisher判別分析度量學習方法對所有查詢圖像統一映射到相同的特征空間中,忽略了查詢圖像不同區域的重要性,為此在核局部Fisher判別分析的基礎上對特征進行區域分組,采用查詢自適應得分融合方法來描述圖像不同區域的重要性,由此實現度量學習。在VIPeR和iLIDS數據集上,實驗結果表明融合后的特征描述能力明顯優于原始特征,同時改進的度量學習方法有效提高了行人重識別精度。
關鍵詞:
行人重識別;顏色標簽;特征融合;度量學習;核局部Fisher判別分析
中圖分類號:
TP391.4
文獻標志碼:A
Abstract:
Feature representation and metric learning are fundamental problems in person reidentification. In the feature representation, the existing methods cannot describe the pedestrian well for massive variations in viewpoint. In order to solve this problem, the Color Name (CN) feature was combined with the color and texture features. To extract histograms for image features, the image was divided into zones and blocks. In the metric learning, the traditional kernel Local Fisher Discriminant Analysis (kLFDA) method mapped all query images into the same feature space, which disregards the importance of different regions of the query image. For this reason, the features were grouped by region based on the kLFDA, and the importance of different regions of the image was described by the method of QueryAdaptive Late Fusion (QALF). Experimental results on the VIPeR and iLIDS datasets show that the extracted features are superior to the original feature; meanwhile, the improved method of metric learning can effectively increase the accuracy of person reidentification.
英文關鍵詞Key words:
person reidentification; Color Name (CN); feature fusion; metric learning; kernel Local Fisher Discriminant Analysis (kLFDA)
0引言
近年來,隨著監控設備在公共場所的逐漸增多,行人重識別技術越來越受到人們的關注。行人重識別的定義為從跨攝像機、跨時間段的行人圖像數據庫中找出與檢索行人一致匹配的人物[1]。但是由于光照、攝像機位置、行人姿勢變化等問題,同一行人在不同圖像之間會出現較大的差異,這給行人重識別研究帶來巨大的困難和挑戰。
當前,行人重識別研究方法大致可分為兩類:基于特征描述的方法和基于度量學習的方法?;谔卣髅枋龅姆椒▊戎赜谕ㄟ^尋找對視角變化魯棒的特征來提高行人重識別精度。早期Gray等[2]采用AdaBoost方法從大量顏色、紋理特征中挑選出更具描述力的特征來改進效果,但是該方法無法解決視角變換問題。Kai等[3]放棄使用全局特征描述,改用局部的尺度不變特征變換(ScaleInvariant Feature Transform, SIFT)來表示行人,但是局部特征點經常會落在嘈雜的背景上,導致精度的下降。Farenzena等[4]提出了一種局部特征對稱驅動累積(SymmetryDriven Accumulation of Local Features, SDALF)方法,該方法通過行人對稱屬性減少背景干擾來提升對視角變換的魯棒性。此外,Bazzani等[5]對具有相似顏色的像素區域進行聚類,將行人圖像劃分成最大顏色穩定區域(Maximally Stable Color Regions, MSCR),并使用這些區域的類中心、二階距矩陣和顏色均值來描述行人。與全局特征描述相比,基于局部區域的特征描述具有更好的視角變化魯棒性。
基于度量學習的方法側重于從訓練數據中學習出一種魯棒的度量方法來解決復雜的匹配問題。2008年Zheng等[6]提出概率相對距離比較(Probabilistic Relative Distance Comparison, PRDC)算法,其基本思想是增大正確匹配之間擁有較短距離的可能性,使算法對行人外觀變化魯棒。之后,Pedagadi等[7]采用局部Fisher判別分析(Local Fisher
Discriminant Analysis, LFDA)方法進行行人重識別度量學習,但是LFDA需要對高維散列矩陣進行主成分分析(Principal Component Analysis, PCA)降維,降低了特征的表達能力。Xiong等[8]在LFDA的基礎上使用了核技巧,提出了核局部Fisher判別分析(kernel Local Fisher Discriminant Analysis, kLDFA)算法,可避免求解高維的散列矩陣,既減少了運算量,又提高了行人重識別的準確率。
針對當前研究進展,本文在行人重識別的特征提取與度量學習上分別作出了改進:在特征提取方面,基于特征融合的思想[9],將顏色標簽(Color Name, CN)特征[10]與現有的顏色和紋理特征進行融合,并通過合并區域塊直方圖來提取行人特征;在度量學習方面,首先對特征進行區域分組處理,然后進行kLDFA求解出各特征組的映射矩陣,最后采用查詢自適應得分融合(QueryAdaptive Late Fusion, QALF)方法[11]來兼顧不同查詢圖像的差異。在VIPeR和iLIDS這兩個數據集上,實驗結果表明本文改進的特征提取方法和度量學習方法均能有效提升行人重識別的精度。
1特征提取
1.1特征選擇
由于基于局部區域劃分的特征描述被驗證具有較好的描述能力,故本文在區域劃分的基礎上,將CN特征與現有的HSV顏色特征,尺度不變局部三元模式(Scale Invariant Local Ternary Pattern, SILTP)紋理特征[12]進行融合,得到更加魯棒的行人圖像特征描述。
CN特征是人們對生活中出現的顏色賦予的一種語義標簽,對應于Berlin等[13]在語言研究中總結的11個基本顏色詞:黑色、藍色、棕色、灰色、綠色、橙色、粉紅色、紫色、紅色、白色和黃色。由于不同光照下的同一顏色會依概率映射到對應的顏色詞上,所以CN特征具有一定的光照不變性,且被認為與現實中的顏色具有非常緊密的聯系。該特征具備較強的顏色表達能力,在目標分類領域已經得到了較好的應用[10]。
在計算CN特征時,需要對圖像像素點完成一個從RGB顏色空間到CN各顏色詞的概率映射,映射矩陣M為常數。映射過后,CN特征描述子的定義如下:
OCN={p(cn1|x),p(cn2|x),…,p(cn11|x)}(1)
其中x為像素點的值,p(cni|x)表示屬于第i個顏色詞的概率值,且:
∑11i=1p(cni|x)=1(2)
傳統的矩陣M是由人工標注的一系列顏色片段學習獲得的,但是這種學習方法存在著大量的主觀因素,因此在文獻[14]中使用概率潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA)模型從大量的谷歌圖片中自動學習獲得映射矩陣,并通過實驗比較得出比傳統方法學習出來的映射矩陣具有更加良好的性能,所以在本文中使用的映射矩陣M即是文獻[14]中學習獲得的矩陣。
HSV是一種基于色調(Hue)、飽和度(Saturation)和亮度(Value)的顏色模型,HSV顏色空間的色彩與人的視覺感知基本一致。
SILTP[12]是對局部二值模式(Local Binary Pattern, LBP)特征的改進,LBP計算簡單且具有良好的尺度不變性,但是對于圖像噪聲非常敏感,SILTP通過多次比較的方式對LBP進行改進,使得SILTP既具有LBP的尺度不變性又對圖像噪聲魯棒。
1.2直方圖提取
特征選擇后,即可對行人圖像進行區域劃分以及塊直方圖的提取。經過參考文獻[8]中的參數及實驗驗證,本文提取特征的具體步驟如下:
步驟1區域劃分。每張行人圖像統一縮放至128×48像素大小,按照區域大小為10×48像素,步長為5像素將圖像水平分割成有重疊部分24個區域,其中最后一次步長為8。
步驟2塊劃分。對每一個區域使用大小為10×10像素,步長為5像素將每個區域分割成有重疊的8個塊,其中最后一次步長為8。
步驟3直方圖提取。對每一個塊提取CN、HSV和SILTP特征直方圖。CN特征中,每個詞分成25bin,11個詞通過相加獲得275bin,所有像素以每個詞的概率投票至對應的bin中,最終獲得275維的CN特征直方圖;HSV特征中,三個通道每個通道分為8個bin,通過相乘獲得512維的顏色直方圖;SILTP特征選取SILTP0.34,3和SILTP0.34,4兩個尺度,獲得162維的紋理直方圖[12]。
步驟4直方圖合并。各特征提取后,每個塊直方圖的維度為275+512+162=949維。通過對應維度值相加,把每個區域中的8個949維的直方圖合并成1個。至此,每個區域對應一個949維的直方圖。
考慮到多尺度下能更好地描述圖像,本文將128×48像素的圖像進行2×2像素縮放,得到64×24像素和32×12像素兩個尺度。依照前述步驟進行了區域劃分以及直方圖提取,在64×24尺度下可得到11個區域,在32×12尺度下可得到5個區域,每個區域對應一個949維的直方圖。
經過上述操作后,提取出來每一幅圖像的特征維度為(24+11+5)×949=37960維。
最后,對特征進行log變換和歸一化操作獲得最終所需要的圖像特征,其中log變換是為了降低某個維度較大的數值特征的影響。
2度量學習
行人重識別時,不同的查詢樣本都有著各自的特點,如圖1所示:左邊行人,其中間部分區分性好,故中間部分提取的特征應該增加權重;中間行人,其黑色上衣是很常見,所以對應部分的特征應該降低權重;右邊行人,其頭上戴著帽子,相比前兩張查詢圖片,頭部部分的特征的權重應該增加。由此可看出,每個查詢圖像應具有不同的部分權值,以提高查詢的精度。
在度量學習中,kLDFA是對于所有查詢樣本學習出來的映射矩陣,在檢索時無法保證前述的特性。因此,本文在kLDFA的基礎上,提出了一種查詢自適應的度量學習方法,主要過程見圖2。該方法先把提取到的特征按2.1節所示進行分組,然后對每一組特征分別進行kLDFA度量學習得到映射矩陣并存儲起來,在相似性度量時再利用QALF對各個特征組的得分進行加權融合,得到相似性度量最終結果。
2.1特征分組
對于從對象圖像提取出來的特征,本文將其按圖像的上中下等分為3組,如圖3所示,特征組1包含原圖、第一次縮放和第二次縮放的前8、4和2個區域,維數為13286,記為F(1);特征組2包含原圖、第一次縮放和第二次縮放的中間8、4和2個區域,維數為13286,記為F(2);特征組3包含原圖、第一次縮放和第二次縮放的最后8、3和1個區域,維數為11388,記為F(3)。
2.3查詢自適應得分融合
通過訓練數據求得每個特征組的映射矩陣之后,將其存入數據庫。當進行相似性度量時,先計算出各個特征組經過映射后的得分,再采用QALF方法對各個特征組得分進行加權。該方法主要通過無標簽的訓練數據,對每一張查詢圖像計算得出各個特征組的權重,以達到自適應加權的效果。QALF[11]認為,描述能力強的特征比描述能力弱的特征在得分曲線下的面積要小,QALF方法主要分為離線部分以及在線部分:
3實驗與分析
3.1數據集與評價指標
本文選取VIPeR[2]和iLIDS[15]兩個存在視角變化的公開數據集評測所提方法的效果。
VIPeR數據集擁有1264張行人圖像,圖像大小為128×48像素,每個行人有2張從不同攝像機拍攝得到的圖像,圖像都是從水平視角拍攝,但是由于攝像機的視角變換,同一行人在不同攝像機下的圖像有較大的姿勢變化。
iLIDS數據集由476張行人圖像組成,包含119個行人,每個行人擁有2至8張圖像,由于數據集在機場拍攝,因此有部分行人圖像存在較嚴重的遮擋問題。
實驗中,為了與其他算法比較,本文采用M(r)評價指標,CMC(Cumulative Match Characteristic)評價曲線[8]。其中M(r)為排序后前r位圖像中包含正確圖像的概率。
3.2特征及度量方法對比分析
為了評測本文所提特征與度量方法對行人重識別精度的影響,本文在度量學習方法不變的條件下對比了本文特征與文獻[8]中的原始特征,同時在使用本文特征的條件下對比了本文度量方法與kLDFA[8]方法。實驗結果如圖4所示,其中,測試數據集統一為VIPeR。由圖4可知,當度量學習方法統一為kLDFA時,使用本文特征比原始特征在r=1的精度百分數上大約有10個百分點的增加,隨著r的增大,雖然提升的程度有所減小,但是依舊比原始特征的精度要高,這驗證了本文所提特征比原始特征具有更好的描述能力;當特征統一為本文特征時,使用本文提出的度量學習方法比kLDFA在r=1的精度百分數上大約有3個百分點的增加,并隨著r的增大,提升的程度更為明顯,這驗證了本文的度量學習方法能針對查詢圖片,對各個區域學習出合適的權重系數,有效地提高行人重識別精度。
3.3綜合對比分析
本節實驗將本文的方法與SVMML方法[16]和KISSME方法[17]進行了對比,以評測本文方法的效果。實驗分別在VIPeR和iLIDS數據集上進行了測試,測試結果見表1。
由表1可看出,在VIPeR數據集上,當r=1時,本文方法比SVMML在精度百分數上提高約8個百分點,而比KISSME方法提高約13個百分點,隨著r的增大,本文方法依然保持良好精度;在iLIDS數據集上,當r=1時,本文方法比KISSME在精度上提升約14個百分點,而在VIPeR上精度較高的SVMML方法,在此數據集上則表現較差,這表明了本文方法具有更好的普適性。
4結語
在行人重識別技術中,特征描述與度量學習一直都是重難點問題,本文針對這兩個方面分別作了改進:在特征描述方面,基于特征融合的思想提取出一種更有效的特征;在度量學習方面,在kLDFA的基礎上加入自適應得分融合,使得查詢圖像與數據庫圖像之間的相似性度量更加精確。實驗結果驗證了本文方法的有效性。文獻[3]中通過人物對稱屬性減少了背景干擾從而提高了重識別精度,在本文中,由于并未去除行人圖像背景的干擾,可能會導致精度有一定程度的下降,在接下來將進一步研究如何去除背景的干擾。
參考文獻:
[1]
GONG S, CRISTANI M, YAN S, et al. Person Reidentification [M]. Berlin: Springer, 2014.
[2]
GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features [C]// Proceeding of the 10th European Conference on Computer Vision, LNCS 5302. Berlin:Springer, 2008: 262-275.
[3]
FARENZENA M, BAZZANI L, PERINA A, et al. Person reidentification by symmetrydriven accumulation of local features [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
KAI J, BODENSTEINER C, ARENS M. Person reidentification in multicamera networks [C]// Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2011: 55-61.
[4]
KAI J, BODENSTEINER C, ARENS M. Person reidentification in multicamera networks [C]// Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2011: 55-61.
FARENZENA M, BAZZANI L, PERINA A, et al. Person reidentification by symmetrydriven accumulation of local features [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
[5]
BAZZANI L, CRISTANI M, MURINO V. Symmetrydriven accumulation of local features for human characterization and reidentification [J]. Computer Vision and Image Understanding, 2013, 117(2): 130-144.
[6]
ZHENG W S, GONG S, XIANG T. Person reidentification by probabilistic relative distance comparison [C]// CVPR 11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[7]
PEDAGADI S, ORWELL J, VELASTIN S, et al. Local Fisher discriminant analysis for pedestrian reidentification [C]// CVPR 13: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3318-3325.
[8]
XIONG F, GOU M, CAMPS O, et al. Person reidentification using kernelbased metric learning methods [M]// FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision—ECCV 2014, LNCS 8695. Berlin: Springer, 2014: 1-16.
[9]
張永庫,李云峰,孫勁光.基于多特征融合的圖像檢索[J].計算機應用,2015,35(2):495-498.(ZHANG Y K, LI Y F, SUN J G. Image retrieval based on multifeature fusion[J]. Journal of Computer Applications, 2015, 35(2): 495- 498.)
[10]
KHAN F S, VAN DE WEIJER J, VANRELL M. Modulating shape features by color attention for object recognition [J]. International Journal of Computer Vision, 2012, 98(1): 49-64.
[11]
ZHENG L, WANG S, TIAN L, et al. Queryadaptive late fusion for image search and person reidentification [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1741-1750.
[12]
LIAO S, ZHAO G, KELLOKUMPU V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 1301-1306.
[13]
BERLIN B, KAY P. Basic Color Terms: Their Universality and Evolution [M]. Berkeley, CA: University of California Press, 1991.
[14]
VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for realworld applications [J]. IEEE Transactions on Image Processing, 2009, 18(7): 1512-1523.
[15]
ZHENG W S, GONG S, XIANG T. Associating groups of people [C] // Proceedings of the British Machine Vision Conference. 2009, 2: 6.
ZHENG W S, GONG S, XIANG T. Associating groups of people [EB/OL]. [20151211]. http://www.bmva.org/bmvc/2009/Papers/Paper167/Abstract167.pdf.
[16]
KOSTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints [C]// CVPR 12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2288-2295.