李大湘,費國園+,劉 穎
(1.西安郵電大學 通信與信息工程學院,陜西 西安 710121;2.西安郵電大學 電子信息現場勘驗應用技術公安部重點實驗室,陜西 西安 710121)
行人再識別,旨在判別非重疊場景中的不同攝像機下的兩人是否為同一行人[1],該技術可應用到智能安防和智能視頻監控等領域。
當前行人再識別的研究工作主要集中在特征描述和度量學習兩個方面。特征描述分為基于手工設計的表征方法和基于深度學習的表征方法。基于手工設計的特征描述方法集中于描述符的定義,這些描述符能夠盡可能多地捕獲不同視圖中人物外觀的變量。文獻[2]提出了一種基于顯著顏色名描述符(salient color names based color descriptor,SCNCD),利用顏色名對光照的魯棒性這一優點對行人圖像進行表征。文獻[3]提出局部最大概率特征(local maximal occurrence,LOMO),該特征主要由HSV顏色直方圖和尺度不變局部三元模式(scale invariant local ternary pattern,SILTP)紋理特征構成。與手工設計的特征描述方法不同,卷積神經網絡(convolution neural network,CNN)可以從原始圖像數據中自動捕獲人物外觀變量以建立行人表征。文獻[4]提出一種FTCNN模型,利用辨別行人聯合屬性的損失函數有效提高了CNN特征的辨別力,從而改善了行人再識別的性能。
針對文獻[5]中參考集的選擇問題,提出了一種基于改進差異矩陣度量的行人再識別算法。該算法首先利用顯著顏色名描述符(salient color names based color descriptor,SCNCD)和FTCNN特征對行人圖像進行表征,然后通過K-means算法對行人圖像聚類得到包含典型圖像的參考集,最后使用差異矩陣度量方法得到匹配結果。
為了處理跨攝像機視圖中行人外觀的變化,選用SCNCD和FTCNN作為視覺特征對不同攝像機捕獲的圖像進行表征。
顏色作為一種線索,在行人再識別任務中可以獲得重要信息。但是它對于光照變化不具有魯棒性。基于顏色名對光照變化的魯棒性,Yang等利用顯著顏色名描述符對行人圖像進行表征。SCNCD的提取過程如圖1所示[2]。

圖1 SCNCD提取
首先對行人圖像調整大小為128*48像素,并且將其均等地分為6個水平條紋以關聯特定的身體部位。然后基于手動預定義的16個顏色名,計算每個水平條紋中的顏色概率分布以形成16維向量。由于沒有單一顏色模型可以提供良好的描述符,因此顏色名稱在4種顏色模型中計算并融合以獲得最終的SCNCD。
為了結合深度卷積神經網絡特征,本文選取FTCNN特征對行人圖像作進一步表征。FTCNN特征的提取過程[4]如圖2所示。
安全人機工程學是人機工程學的一個分支,它從安全工程學的觀點出發,為進行系統安全分析和預防傷亡事故、職業病提供人機工程學方面的系統理論和知識[6]。LEC法是美國的安全專家G.F.Kinney和K.J.Graham提出的一種簡單易行的評價作業條件危險性方法。筆者針對城南污水廠建設要求和實際情況,運用安全人機工程原理,通過風險分析,運用各種管理方法和技術手段,建立合理可行的人機系統,做好城南污水廠工程的施工組織管理,旨在如何有效發揮人的主體作用,保證本工程以安全為主的各項指標受控狀態良好,保障工程建設安全高效運行,探索一套行之有效的污水廠建設管理新思路,并為其他類比工程提供參考。

圖2 FTCNN特征提取
使用Caffe深度學習框架中的AlexNet網絡提取FTCNN特征。在訓練期間,使用行人屬性數據集PETA對網絡進行訓練。首先對行人圖像調整大小256*256像素,然后隨機剪裁227*227像素子窗口送入AlexNet網絡中。測試期間,所有行人圖像調整大小為227*227像素。所有的CNN參數從預先訓練的AlexNet網絡中得到。通過水平鏡像、隨機剪裁行人圖像擴充數據量,以避免網絡發生過擬合現象。初始學習率被設置為γ=0.0001, 每經過20 000次迭代學習率降低為原來的1/10。
FTCNN特征與SCNCD進行串聯融合,然后采用主成分分析法(principal component analysis,PCA)對融合的特征進行降維。最終每張行人圖像的特征是280維。

(1)
其中,A和B是兩個不同的攝像機,p是目標圖像的ID,q是候選集中圖像的ID。然后通過比較兩者特征向量之間的距離來確定排名。
文獻[6]提出一種參考描述符(reference descriptor,RD),即利用一個具有典型身份的參考數據集來重構每個行人的特征。RD方法側重于發現目標與參考身份相對應的重建關系,并忽略其與每個參考身份的局部差異關系。利用這種關系來描述行人,可以找到目標行人與參考集身份的相對差異,如圖3所示。

圖3 特征向量和特征矩陣

(2)
引入差異矩陣,可以避免跨攝像機視圖成像時對行人圖像造成的干擾[5]。
文獻[5]中參考集的選取具有隨機性,因此選取的參考集中的行人圖像不穩定且特征矩陣維數較大。本文利用K-means算法對行人圖像聚類得到包含典型圖像的參考集,在減少典型參考行人圖像數量的同時提高行人再識別的匹配率。以行人圖像的特征向量作為數據點,對A攝像機下的行人圖像操作步驟如下:
步驟1 任意指定k個數據點作為類中心ui,i=1,2,…,k;
步驟2 將每個數據點歸并到距其最近的類中心所在的簇ci;
步驟3 對屬于同一簇內的所有數據點求取平均值,將平均值作為新的簇中心;
步驟4 重復步驟2和步驟3直至每個簇不再發生變化。
簇的個數對應參考集圖像的對數。最終,分別選取距離k個類中心最近的數據點所對應的行人圖像作為參考集。對于攝像機B,采用與A攝像機中參考集圖像相同ID的圖像作為參考集。考慮到算法的時間復雜度和行人再識別的匹配率,VIPeR數據集的參考圖像對設置為80對,PRID450s數據集的參考圖像對設置為40對。

(3)
一致項由所有相似對的矩陣距離之和來定義
(4)

(5)

(6)
為簡單起見,將一致項和辨別項的權重設為1,稀疏項權重設為μ, 則目標函數為
E(L1,L2)=Econ(L1,L2)+Edis(L1,L2)+μEspr(L2)
(7)
可通過求解目標函數(8)學習度量矩陣,利用梯度下降法迭代求解,具體過程如圖4所示,其中步長λ1和λ2的取法見文獻[8]
(8)

圖4 目標函數求解流程
(1)VIPeR數據集:廣泛使用的VIPeR數據集[9]包含從632個人的兩種視圖中捕獲的1264張室外圖像。一些示例圖像顯示在圖5(a)中。每個人分別具有從兩個不同相機拍攝的一對圖像。將所有個體圖像標準化為128*48像素的大小。視角改變是外觀變化的最重要原因,還包括其它因素,如光照條件和攝像頭參數。
(2)PRID450s據集:PRID450s數據集[10]是一個更現實化的數據集,其中包含通過兩個空間不相交的攝像機視圖捕獲的450個圖像對。所有圖像在本實驗中均調整大小為128*48像素。與VIPeR數據集不同,該數據集具有顯著且一致的光照變化。PRID450s數據集中的一些示例如圖5(b)所示。

圖5 行人再識別數據集示例圖像
采用Windows7 64位操作系統Intel i7處理器的戴爾電腦,利用軟件Matlab2015b進行實驗。VIPeR和PRID450s的訓練集和測試集的圖像對數分別設置為200對、200對和150對、150對,參考集圖像對數分別為80對和40對。在每種數據集上重復實驗10次取均值后作為最終結果。本文選用特征累積匹配(cumulative matching characteristic,CMC)曲線作為評價標準。橫軸代表排名等級rank-r,表示具有最大相似度的前r個目標;縱軸代表識別率,指在對應的前r個目標中正確目標的個數與r的比值。利用改進的度量算法在VIPeR和PRID450s行人再識別數據集上分別采用SCNCD、FTCNN以及兩者融合的特征對行人圖像進行表征的識別率結果如圖6所示。

圖6 VIPeR和PRID450s的CMC曲線
與當前一些行人再識別方法進行比較,結果見表1和表2,表明提出的方法是有效的。同時對比文獻[5]和本文中的算法在兩種不同數據集所用時間見表3以及rank-1匹配率如圖7所示,驗證了利用K-means算法對行人圖像聚類得到的圖像作為參考集是有利的。
實驗結果表明了利用K-means算法選取的參考行人圖像比較穩定。因為只考慮具有代表性的行人圖像與目標圖像之間的差異,所以特征矩陣的維數變小導致差異矩陣的維數降低,因此在差異矩陣度量時不僅提高了行人再識別的匹配率還降低了算法的時間復雜度。
本文在SCNCD特征和FTCNN特征以及DMMM矩陣度量算法的基礎上,提出了一種基于特征融合及差異矩陣的行人再識別算法。其創新性在于:①在特征融合階段,選取具有魯棒性的兩種特征對行人圖像進行描述;②在差異矩陣度量時,通過K-means算法對行人圖像聚類得到包含典型行人圖像的參考集,從而優化目標圖像相對于參考集圖像的重建關系。對比實驗結果表明,所提出的算法優于DMMM算法,在降低時間復雜度的同時又提高了識別率。在兩個公開的行人再識別數據集VIPeR和PRID450s上的實驗結果表明了該算法的有效性和可行性。

表1 不同算法在VIPeR上的匹配率/%

表2 不同算法在PRID450s上的匹配率/%

表3 矩陣度量算法時間對比/s

圖7 本文算法和DMMM算法匹配率對比