蔣檜慧, 張 榮, 李小寶, 郭立君
(寧波大學 信息科學與工程學院,浙江 寧波 315211)
?
基于特征融合與改進神經網絡的行人再識別*
蔣檜慧, 張 榮, 李小寶, 郭立君
(寧波大學 信息科學與工程學院,浙江 寧波 315211)
行人再識別中,為了獲得基于突出性顏色名稱的顏色描述(SCNCD)特征對于光照變化較好的魯棒性,提出了融合SCNCD特征和對于視角變化魯棒性高的局部最大出現概率(LOMO)表觀特征;為了獲得圖像的結構信息,將圖像劃分為多個重疊塊,并提取塊特征;針對神經網絡容易陷入局部極小值,且收斂速度慢的問題,引入動量項。經過公用VIPeR數據庫和PRID450s數據測試后,實驗結果表明:融合后的特征的識別能力明顯高于原特征的識別能力,且改進后的神經網絡收斂速度明顯提高。
行人再識別; 局部最大出現頻次(LOMO)特征; SCNCD特征; 塊特征; 神經網絡
行人再識別[1~4]即判斷一個攝像頭下出現的行人是否與另一個攝像頭下出現的行人為同一行人。由于行人圖像分辨率低,很難捕捉到人臉或其他生物特征,所以,行人再識別主要依據行人表觀特征,如衣服的顏色、紋理等。由于受到光照、視角、遮擋、姿勢等因素的影響,同一行人的外觀差異很大,而不同行人也可能有很相似的外觀,給行人再識別帶來很大的挑戰。
目前,行人再識別的研究主要集中在特征提取和度量學習方面。特征提取的主要任務是提取對于光照、視角、姿勢等變化具有較高魯棒性的有效特征。Farenzena M等人[2]根據對稱和反對稱性解決視角變化問題,將人體按照人體的結構劃分為不同區域,對每個區域分布提取HSV直方圖特征和紋理特征。Yang Y等人[5]提出了基于突出性顏色名稱的顏色描述(salient color name based color descriptor,SCNCD)特征,確保與顏色越接近的顏色名稱分配的概率越大。Liao S等人[6]提出了局部最大概率(local maximal occurrence,LOMO)特征,該特征按塊提取HSV顏色直方圖特征和尺度不變三值模式(SILTP)紋理特征,計算同一水平位置上所有塊的局部特征的發生率,對于視角變化具有很好的魯棒性。Zhao R等人[7]根據無監督學習獲得每個塊的突出性權值,在目標匹配時,融合圖像塊的突出性,突出性權值大的塊在匹配中所占比重大。
度量學習[8]的主要任務是學習一個合適的度量,使得同一行人距離更近,不同行人距離更遠。Kostinger K Q等人[9]提出了保持簡單直接(keep it simple and straight,KISS)的度量學習算法,依據兩個高斯分布的對數似然比檢驗學習度量。Zhang Y等人[10]在學習度量的過程中考慮了圖像自身的差異性,學習得到的度量對于每個圖像都有較高的適應性。Carr P等人[11]提出了使用彈性模型進行塊匹配,有利于解決不同相機間的姿勢和視角的變化。Wang J等人[12]在AUC損失函數基礎上提出了top-heavy損失函數,對不同位置的錯誤排序進行不同程度的懲罰,位于序列前端位置的錯誤排序給予較大懲罰。
文獻[5]提出的SCNCD特征對于光照變化有很好的魯棒性,但是該特征對于視角變化的魯棒性不高,而LOMO特征對于視角變化具有很好的魯棒性。因此,本文提出在SCNCD特征的基礎上,引入文獻[6]提出的LOMO特征。考慮到基于局部塊提取特征能夠有效地獲得圖像的結構信息,本文提出了基于局部塊結構融合LOMO特征和SCNCD特征的方法。
在度量學習方面,由于線性映射容易丟失行人圖像的非線性流形結構,所以,本文采用非線性的反向傳輸(back propagation,BP)神經網絡,將原始特征映射到目標空間,在目標空間中,進行相似性度量。神經網絡的結構需要通過樣本的特征訓練得到,在訓練的過程中,由于神經網絡存在收斂速度慢等不足,所以,提出在更新權值時,引入動量項來增加網絡的收斂速度。
1.1 突出性顏色名稱特征提取
SCNCD特征[5]建立像素顏色與16種顏色名稱之間的對應關系。對于RGB值相近的顏色,通常用同一個顏色名稱表示。當光照變化時,在一定RGB值范圍內的顏色,對應的顏色名稱仍然不變,所以,顏色名稱對于光照變化有很好的魯棒性。此外,考慮到某種顏色映射到每個顏色名稱的概率不相等,與顏色越相近的顏色名稱映射到該顏色名稱的概率越大,所以只建立像素顏色和與它最鄰近的幾個顏色名稱的對應關系。映射關系如下
(1)
式中

且

式中 c={c1,c2,…,c16}為16種顏色名稱;d={d1,d2,…,d512}為512種RGB相近的顏色;KNN(dn)為顏色dn的k近鄰,k在實驗中設置為5;cl,ct,cp均為dn的k近鄰顏色名稱;μ為dn的均值。該方法明顯提高了特征對于光照變化的魯棒性。
1.2 特征提取
圖1為本文的特征提取過程,將128像素×48像素的圖像劃分為10像素×10像素,步長為5像素的重疊塊,對同一水平條的所有塊提取HSV顏色特征、SILTP紋理特征以及SCNCD特征。同一水平條的所有塊提取特征后,最大化所有塊特征相同二進制(bin)下的值,作為該水平條特征對應bin下的值。

圖1 特征提取
水平條特征的提取過程:x為某水平條的特征,xp為某水平條所有塊的特征。選擇某水平條所有塊{x1(i),…,xp(i),…,xp(i)}的第i維值的最大值x(i)=max{x1(i),…,xp(i),…,xp(i)}作為x(i)的值,i為特征向量的第i維。當行人在不同相機下視角發生變化時,某水平條的特征x在一定范圍內具有穩定性,該方法很好地解決了相機的視角變化問題;同時對塊提取SCNCD特征,保證了圖像塊對于光照變化具有一定的魯棒性。

1.3 相似性度量學習
本文選用BP神經網絡作為映射函數,在目標空間中,使用圖像對特征的內積作為相似性度量
s(xA,xB)=〈f(xA),f(xB)〉

(2)
式中 xA,xB∈Rd1為待查詢圖像和目標圖像的特征;W∈Rd1×d2為映射矩陣,用于對圖像特征進行映射,通過相似性學習獲得;b∈Rd2為偏差向量;d1,d2分別為原始特征空間和目標特征空間的維數。


(3)

1.4 增加動量項的梯度下降法
使用梯度下降法求解式(3)的最優解,損失L對W求偏導
(4)


(5)
當權值W接近于極值時,每次迭代變化很小,減緩了迭代速度,且可能在局部極值附近振蕩,導致不能收斂,因此,考慮在更新參數的過程中加入動量項,權值的更新公式變為

(6)
式中η為學習率;α為動量項,表示W在第t+1步的變化與第t步的變化之間的關聯。利用式(6)更新參數W,直至收斂,得到最優參數。參數b的求解與W相同。
使用VIPeR數據庫[14]和PRID 450S數據庫[15]進行評估,并與當前已有方法的實驗效果進行比較。VIPeR和PRID 450S數據庫通常用于單幅圖像的行人再識別,但PRID 450S數據庫比VIPeR數據庫更加真實。實驗結果通過累計匹配特征曲線(CMC)描述,CMC曲線表示在排名前n個人中正確匹配的人數。
2.1 參數設置
實驗中,將數據庫中的行人圖像隨機分為2部分,分別用于訓練和測試。在測試階段,選取其中一個攝像頭下的圖像作為待查詢圖像,另一個攝像頭下的圖像作為目標圖像。實驗結果通過對測試樣本進行10次隨機分配,并對分配后的測試樣本進行評估后取得平均值。提取圖像特征后使用PCA降維,VIPeR,PRID450S數據庫分別降維至600,449維,并使用神經網絡進行訓練,學習率為10-2。
2.2 基于VIPeR數據庫的實驗
VIPeR數據庫是從戶外環境的2個攝像頭中獲取的,包含632個行人,每個行人有2張不同角度的圖像。獲取圖像時,考慮了光照、視角、姿勢、背景等變化,能夠真實反映現實中的行人再識別問題。實驗中,所有圖像均歸一化為128像素×48像素。
2.2.1 特征提取方法比較
為了評估本文提出的特征提取方法對于行人再識別效率的影響,在度量方法固定的條件下對比了本文方法與SCNCD,LOMO特征方法的實驗效果。表1給出了使用本文的度量方法進行3種特征識別的實驗效果。其中,r為目標人排名,下同。從表1的實驗數據分析可知:本文的特征提取方法優于其他2種特征提取方法,尤其是排名第一(r=1)的正確匹配率(Rank1)。從表中可以發現本文方法的Rank1識別率比SCNCD方法Rank1的識別率高4.56 %,比LOMO方法Rank1識別率高1.52 %。

表1 VIPeR庫不同特征的匹配率
2.2.2 度量方法比較
為了評估不同度量方法對于本文提出的特征提取方法的影響,在特征提取方法固定(本文特征方法)的條件下對比本文度量方法與傳統的度量方法(PCCA[16],Svmml[17],MFA[17],kLFDA[18],KISSME[9])。圖2、表2給出了對比實驗效果,從圖2的 CMC曲線及表2不難看出:本文方法與其他度量方法相比,排名第一的正確匹配率(Rank1)的值均高于其他度量方法Rank1。本文的度量方法使用非線性的神經網絡進行度量學習而其他方法使用了線性的度量方法進行學習,因此,使用非線性的神經網絡進行度量學習,識別率更高。

表2 VIPeR庫不同度量方法的匹配率

圖2 在VIPeR數據庫上不同度量方式比較
2.2.3 BP網絡改進性的驗證
為了驗證使用動量項改進BP神經網絡對網絡收斂速度的影響,在網絡結構、權值、學習樣本均相同的條件下,分別利用BP網絡和改進的BP網絡計算Rank1的識別率隨迭代次數的變化情況。圖3給出了BP網絡和改進的BP網絡下,Rank1的識別率隨著迭代次數增加的變化情況,不難看出:對神經網絡的參數進行更新時,使用動量項改進的神經網絡收斂速度有了明顯提高。

圖3 Rank1跟隨迭代次數的變動曲線
2.3 基于PRID 450S數據庫的實驗
PRID 450S數據庫比VIPeR數據庫更加真實。該數據庫包含來自2個不重疊攝像機的450個行人,每個行人具有2張圖像。由于視角變化,背景,遮擋等因素的影響,使得該數據庫也有一定的挑戰性。實驗中,所有圖像均歸一化為160像素×60像素。
2.3.1 特征提取方法比較
為了評估本文提出的特征提取方法在PRID 450S數據庫上的識別效果,固定度量方法對比SCNCD,LOMO特征提取方法與本文方法的識別效果。表3給出了識別效果對比,不難看出:本文的特征提取方法優于其它2種特征提取方法。本文方法較SCNCD方法的Rank1識別率高18.18 %,較LOMO方法Rank1識別率高3.29 %。

表3 PRID 450S庫不同特征的匹配率
2.3.2 與現有方法的比較
為了評估本文的方法在PRID 450S數據庫上的識別效果,將本文方法與現有的行人再識別方法進行比較。表4列出了常用的行人再識別方法在PRID 450S數據庫上的識別效果,數據來源于相關論文或代碼。將本文方法與KISSML,ELF,ECM,SCNCD,Semantic,LOMO,SLTRL等方法進行比較,從表中不難發現,本文的方法比其他方法的實驗效果好,尤其是Rank1的值。

表4 PRID 450S庫各算法部分匹配率比較
本文基于融合的思想,提出了結合LOMO特征和SCNCD特征的方法,通過將圖像劃分塊,提取塊的特征及多尺度下特征提取,增加了特征對于光照、視角及尺度變化的魯棒性,提高了行人再識別的識別率。使用基于序列排序模型對神經網絡進行訓練,充分利用了樣本的識別信息。通過增加動量項的方式,增加了網絡的收斂速度,同時減小了網絡陷入局部極小值的概率。通過對VIPeR數據庫和PRID 450S數據庫的測試表明:該方法取得了較好的識別效果。后期工作將重點在度量學習方面,研究如何學習出一種更高效的度量學習方法。
[1] 黃凱奇,陳曉棠,康運峰,等.職能視頻監控技術綜述[J].計算機學報,2015(6):1093-1118.
[2] Farenzena M,Bazzani L,Perina A,et al.Person re-identification by symmetry-driven accumulation of local features[C]∥Computer Vision and Pattern Recognition(CVPR),San Francisco,New Jersey:IEEE,2010,2360-2367.
[3] Gray D,Tao H.Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]∥European Conference on Computer Vision,2008,New Jersey:IEEE,2008:262-275.
[4] Ma B,Su Y,Jurie F.Covariance descriptor based on bio-inspired features for person re-identification and face verification [J].Image and Vision Computing,2014,32(6):379-390.
[5] Yang Y,Yang J,Yan J,et al.Salient color names for person re-identification[C]∥European Conference on Computer Vision,Zurich,Switzerland,Springer,2014:536-551.
[6] Liao S,Hu Y,Zhu X,et al.Person re-identification by local maximal occurrence representation and metric learning[C]∥CVPR,Boston,MA,USA,New Jersey:IEEE, 2015:2197-2206.
[7] Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[C]∥Computer Vision and Pattern Recognition(CVPR),2013,Portland,Oregon,New Jersey:IEEE,2013:3586-3593.
[8] 俞 婧,仇春春,王 恬,等.基于距離匹配的行人再識別技術綜述[J].微處理機,2016(3):77-80.
[9] Kostinger M,Hirzer M,Wohlhart P,et al.Large scale metric learning from equivalence constraints[C]∥Computer Vision and Pattern Recognition (CVPR), 2012,Providence,RI,USA,New Jersey:IEEE,2012:2288-2295.
[10] Zhang Y,Li B,Lu H,et al.Sample-specific SVM learning for person re-identification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1278-1287.
[11] Carr P.Person re-identification using deformable patch metric learning[C]∥2016,IEEE Winter Conference on Applications of Computer Vision,IEEE,Lake Placid,NY,USA,2016:1278-1287.
[12] Wang J,Sang N,Wang Z,et al.Similarity learning with top-heavy ranking loss for person re-identification [J] IEEE Signal Processing Letters,2016,23(1):84-88.
[13] Zhao R,Ouyang W,Wang X.Person re-identification by salience matching[C]∥Proceedings of the IEEE International Conference on Computer Vision,2013:2528-2535.
[14] Gray D,Brennan S,Tao H.Evaluating appearance models for recognition,reacquisition,and tracking[C]∥Proc of IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS),2007.
[15] Roth P M,Hirzer M,et al.Person re-identificaiton[M].London:Springer,2014:247-267.
[16] Mignon A,Jurie F.Pcca:A new approach for distance learning from sparse pairwise constraints[C]∥CVPR,2012,Providence,New Jersey:IEEE,2012:2666-2672.
[17] Yan S,Xu D,Zhang B,et al.Graph embedding and extensions:A general framework for dimensionality reduction[J].IEEE Tran-sactions on Pattern Analysis and Machine Intelligence,2007,29(1):40-51.
[18] Xiong F,Gou M,Camps O,et al.Person re-identification using kernel-based metric learning methods[C]∥ECCV,Zurich,Switzerland,Springer,2014:1-16.
[19] Liu X,Wang H,Wu Y,et al.An ensemble color model for human re-identification[C]∥WACV,2015,Hawaii,USA,2015:868-875.
[20] Shi Z,Hospedales T M,Xiang T.Transferring a semantic representation for person re-identification and search[C]∥Computer Vision and Pattern Recognition.Boston,New Jersey:IEEE,2015:4184-4193.
Pedestrian re-identification based on feature fusion and improved neural network*
JIANG Hui-hui, ZHANG Rong, LI Xiao-bao, GUO Li-jun
(College of Information Science and Engineering,Ningbo University,Ningbo 315211,China)
In person re-identification,aiming at salient color named based color descriptor(SCNCD) features based on salient color names are robust to illumination changes,propose to fuse the SCNCD features and the LOMO features which are robust to viewpoint changes.In order to get structure information of images,the images are divided into overlapping patches and the patch features are extracted.In order to solve the problems that neural network is easy to fall into local minimum and its convergence speed is slow,momentum term is introduced.The proposed method has been tested in the most challenging public VIPeR database and PRID450s database,and experimental results prove that recognition abilities of the fused features are obviously higher than that of the original features,and convergence speed of the improved neural network is increased obviously.
pedestrian re-identification; local maximal occurrence(LOMO) features; salient color name based color descriptor(SCNCD) features;patch features; neural network
10.13873/J.1000—9787(2017)08—0121—05
2017—06—02
國家自然科學基金資助項目(61175026);浙江省自然科學基金資助項目(LY17F030002);“信息與通信工程”浙江省重中之重學科開放基金資助項目(XKXL1516, XKXL1521)
TP 391
A
1000—9787(2017)08—0121—05
蔣檜慧(1993-),女,通訊作者,碩士研究生,主要研究方向為計算機視覺與模式識別,E—mail:393607151@qq.com。
郭立君(1970-),男,博士,教授,主要從事計算機視覺與模式識別、移動互聯網及其應用研究方向。