江雨燕,董映宇,鄭煒晨,邵 金,呂 魏
(安徽工業大學 管理科學與工程學院,安徽 馬鞍山 243002)
行人重識別(personal re-identification)是從一個攝像機中的行人圖片與其他互不重疊區域的攝像機拍攝到的行人圖片相互匹配的問題.行人重識別在計算機視覺領域發展迅速也很有挑戰性,因為存在運動模糊,尺寸大小變化,部分遮擋,外觀變化等問題.同時,在低分辨率的攝像機的不同也因為分辨率低而產生很高的相似度.當前,主要重識別方法有兩種:1)設計具有魯棒性的行人特征提取的表達模型;2)建立有效的行人相似性度量判別模型.
對于行人特征表達模型,提取具有魯棒性鑒別特征表達行人.如:對稱驅動局部的特征進行累積的描述子(SDALF)[1]、自定義圖案結構特征提取方法(CPS)[2]、生物學啟發特征和協方差描述(BiCov)[3]以及由局部fisher向量編碼的混合特征(eLDFV)[4]等.Liao等人利用色彩和紋理直方圖建立特征表達方法,提出了LOMO[5]模型,以此計算局部色彩紋理特征,得到一個超高維度的特征向量.Matsukawa等人基于像素特征層級分布提出一種區域描述子GOG[6].Chen[7]等人在塊匹配的基礎上提出自適應層次結構的顏色分布場行人再識別方法.雖然上述模型通過圖形特征上的表達能力和判別能力有顯著提升,但由于行人圖形在不同視圖下的特征變化的復雜性,上述模型對于判別精度提升有限.
在度量判別模型領域,通過d(xi,xj)=(xi-xj)TM(xi-xj)形式的Mahalanobis距離函數,用馬氏距離替換歐式距離,提出更加有效的有監督的度量學習模型.如:Liao等人則結合KISSME算法和FDA算法,建立了一種交叉二次判別模型XQDA(Cross-view Quadratic Discriminant Analysis,XQDA)[5].Huo等人采用線性判別分析的映射方法使樣本在投影子空間中能夠保持最大化的分類信息提出增量學習的LDKISS[8].Gao等人[9]利用字典表達的方法,學習一種具有視覺不變性的正交字典,提升了模型的分辨能力.Wang等人基于嵌入不同的訓練人員類別來構造一個身份回歸空間,建立了IRS[10].Feroz等人[11]將XQDA擴展到更高維度的空間,運用核化方法學習不同視圖下特征的非線性變化.Li等人運用深度學習等方法,建立了FPNN[12]深度網絡模型.hmed等人利用人體結構信息,在FPNN的基礎上,提出了Improved Deep[13]深度網絡結構.Wang[14]等人基于siamese模型的卷積神經網絡用于行人再辨識的研究,在分類與驗證損失函數的聯合監督下引入特征加權層提高判別性能.在深度學習方面,行人重識別性能得到了很大的提高,但由于需要對過于龐大的訓練數據進行標注的巨大工作量以及對數據規模的要求,在實際的應用中對即時性高維度小樣本的問題(Small Sample Size problem,SSS)的處理存在著局限性.
度量學習在處理高維度小規模訓練數據時有良好的性能.然而,它們存在兩個局限性:1)樣本容量小導致樣本協方差的逆容易出現較大偏差,對應大的特征值容易被高估,小的特征值被低估,影響度量矩陣的判別精度;2)人的外貌特征在跨視圖存在非線性的變化,現有的大部分方法都是固定的線性變化.針對上述兩個局限性,一種新的非線性度量學習方法,稱為核交叉視圖二次判別分析 k-XQDA(Kernel Cross-view Quadratic Discriminant Analysis,k-XQDA)[9]由Feroz提出.然而,這種非線性度量學習方法在因樣本規模小存在的偏差很大程度上影響核化后的判別能力.同時,由于核化空間高維度的復雜性,現在的改進方法只適用于非核化空間下的情況.
針對上述問題,本文提出一種有效的改進方法,將MCE準則(Minimum classification error,MCE)[15]與k-XQDA結合.針對樣本容量小導致樣本協方差的逆出現較大偏差,在原空間中通過最小誤差分類準和平滑技術有效減小大的特征值,適當放大小的特征值,又由于跨視角間樣本出現的非線性變化問題,通過理論推導將原空間改善后的特征值有效引入核化空間,優化核化空間中的度量矩陣提升距離度量的準確性,稱為最小分類誤差的跨視圖二次判別分析(MCE-KXQDA).實驗表明,MCE-KXQDA基于最小誤差分類準則和平滑技術能顯著提高k-XQDA的性能.
XQDA[5]算法在KISSME算法的基礎上將跨視圖的數據映射到子空間中,在對特征降維的同時學習距離度量.兩個樣本xi和xj,Δij=xi-xj表示特征差值,定義類內差值ΩS和類間差值ΩD服從均值為0的兩個高斯分布,δ(Δij)為決策函數.
(1)
其中ΩS和ΩD協方差矩陣分別是ΣS和ΣD,δ(Δij)數值的高低分別對應Δij∈ΩD與Δij∈ΩS,可以得出:
(2)
假設在給定的c個類別中有n個樣本X=(x1,x2,…,xn)源于同一視角,另有m個樣本Z=(z1,z2,…,zm)源于其他的視角,對xi,zi∈Rd.在跨視圖訓練集{X,Z}學習一個低維子空間W={w1,w2,…,wb}∈Rd×b,并在低維子空間內學習一個距離度量將同類樣本和非同類樣本盡量區分開.低維子空間的相似距離由如下公式算出:
(3)

(4)
最大化J(wk)等價于:
(5)

(6)
(7)

對XQDA進行核化,得到非線性維空間上的形式被稱為k-XQDA[9].假設給定的核化方程記作k(xi,xj)=〈Φ(xi),Φ(xj)〉,Φ(x)表示將x核化后的數據形式,Φ(x)∈RD×n,D?d.對于訓練數據集核化后的矩陣(X,Z)∈Rd×(n+m),K核化后的協方差矩陣,K∈R(n+m)×(n+m),對核矩陣進行分塊處理:



其中Φ=[ΦX,ΦZ],θ=[αk,βk]T.非線性核化的損失函數J(wk)通過式(6)、式(7)可以進行簡化計算.具體核化過程如下:
nSΣS=A+B-C-D
(8)


(9)

(10)
(11)
(12)

(13)
(14)

(15)

(16)
(17)
對分子的核化nDΣD=U+V-E-P-nSΣS其中:
(18)
其中Φi表達式為:
ΦX=[Φ(x1),…,Φ(xn1),…,Φ(xn)]
(19)
ΦZ=[Φ(z1),…,Φ(zm1),…,Φ(zm)]
(20)
(21)


(22)

(23)
(24)
由式(8)-式(17)和式(18)-式(24)分別求出J(wk)的分子和分母部分,最大化J(wk)求出非線性空間中的度量矩陣:
(25)
由于數據規模較小,存在的數據偏差將影響判別模型的效率和魯棒性.引入最小分類誤差準則和平滑技巧結合非線性維度空間的表示,得出更高效的判別模型MCE-kXQDA.小樣本導致的數據偏差會使得協方差矩陣特征值大的偏大,特征值小的偏小.最小分類準則和平滑技巧可以有效減小數據偏差造成的影響,非線性核化方法可以使算法更具魯棒性,將兩者結合進一步提升判別準確率.
對于任意一組數據的協方差矩陣Σi,Φi表示組成協方差矩陣的特征向量,Λi是特征向量對應特征值構成的對角陣,協方差矩陣可以表示為:

兩個樣本的距離δ(xij)可以表示為:
特征值中d-k個小的特征值使用平滑技巧得到新的特征值:

在Tao等人提出的MCE-KISS[15]中hc表示屬于類別c中樣本x的誤分類的評價函數:
在考慮內類最遠距離和類間最近距離的基礎上得出的單個類別c誤分類的損失函數lc,其中ξ是超參數:

給定了訓練樣本{xn|n=1,2,…,N}和每個樣本對應的標簽{Ci|i=1,2,…,M},下式計算經驗損失:
利用梯度下降法對參數θ進行更新如下,其中ε是步長:
式中c表示相同類別,r表示不同類別.在學習過程中,我們需要保證特征值是正的,所以我們進一步定義:


進一步計算出確切的參數更新的形式:

(26)
(27)

(28)

(29)
(30)
對協方差矩陣做出的調整可以轉化為對特征值矩陣的線性變化,Λ′為線性變化的矩陣,故調整后的協方差矩陣Σ′可以表示為:
Σ′=ΦΛ′ΛΛ′ΦT
(31)
在原空間調整后的協方差矩陣Σ′可以進一步調整為下面的形式:
(32)
結合式(30)-式(32)可以得出原空間優化后的數據矩陣Y′:
Y′=Λ′TY,Y=X,Z
(33)
最小分類準則和平滑技巧對原空間協方差矩陣中特征值做出了有效調整,其調整后的特征值對角陣可以視為從原對角陣通過線性變換得到,任何線性變化都可以由對應的線性變化矩陣Λ′ 表示.原數據矩陣X,Z通過式(30)-式(33)得到調整后的數據矩陣X′,Z′.將調整后的數據矩陣X′,Z′有效的引入核化空間,由式(8)-式(24)可得:
(34)
(35)
(36)

(37)
核化后的距離計算如下:

(38)


(39)



圖1 MCE-kXQDA算法框架
MCE-kXQDA算法:
輸入:訓練數據X=(x1,x2,…,xn),Z=(z1,z2,…,zm),類別列表y={1,2,…,c}
輸出:樣本xi和zj的距離
2.通過式(30)-式(33)得出調整后的數據矩陣X′,Z′
3.通過式(34)構建核化矩陣K′


8.通過式(39)計算出距離d(Φ(xi),Φ(zj))
在行人重識別實驗中,測試集標簽被認為在訓練過程中是不可見的.我們將數據集的一半作為訓練集一半作為測試集.每個人被視為一個不同的類,為了進行測試,一個視圖中的測試圖像形成查詢集,其他視圖中的測試圖像形成圖庫集.查詢根據圖庫進行匹配,并根據匹配得分獲得一個排序列表.rank-N表示前N匹配樣本中的準確率.重復上述過程10次,評估平均性能.
數據集:我們使用了3個標準數據集,包括CUHK01[16],GRID[17]和PRID2011[18],這些數據集為實驗提供了較小的訓練集,庫中所有圖像樣本均被歸一化到160×60的尺寸.
CUHK01數據集采集于香港中文大學,包含3884幅行人圖片,一共971個標簽.來自每個攝像機的每個身份的兩個圖像.該數據集有一對互不連接的攝像機,圖像質量較好,如圖2所示.基于LOMO特征模型提取的圖像特征,進行10次重復的獨立實驗,計算平均值作為識別精度的測試結果.本文提出的算法在k-XQDA基礎上做的改進,首先和k-XQDA[9]對比,在rank-1,rank-5,rank-10,rank-20均取得最優,特別在rank-1精度上達到了62.12%.同時,與考慮半正定限制條件和采用非對稱樣本加權策略的MLAPG[22]算法和基于核化的KNFST[23]對比中也取得更好的效果.實驗也驗證了KNFST的結論,具體對比結果如表1所示.

圖2 CUHK01數據集的行人樣本

表1 在CUHK01數據集上實驗結果
GRID數據集包含250對行人圖像.每一組包含了同一個人從不同的相機視圖中看到的兩幅圖像.所有的圖像都是從安裝在一個繁忙的地鐵站的8個獨立的攝像頭視圖中拍攝的,如圖3所示.由于姿態、顏色、光線的變化,數據集具有挑戰性;以及空間分辨率低導致的圖像質量差.同時,在GRID數據集的圖庫有額外的775張圖像,它們與查詢集具有不同的身份,并充當干擾物.本文在GRID數據庫上基于GOG和LOMO疊加模型提取圖像特征,進行10次重復的獨立實驗,計算平均值作為精度的測試結果.在與k-XQDA對比不同級別的準確率上都較優,在rank-1上提升達到11.19%.與OL-MANS相比,省去計算每次為每個查詢圖像獨立的二次度量,在提高識別精度的同時保證了計算效率,具體對比結果如表2所示.

圖3 GRID數據集的行人樣本

表2 在GRID數據集上的實驗結果對比
PRID2011中有385條軌跡來自攝像頭A,749條軌跡來自攝像頭B,其中兩個攝像頭中都只出現了200人,本文外加入了549張圖像,它們與查詢集具有不同的身份,并充當干擾物,如圖4所示.數據庫上基于GOG模型提取圖像特征,進行10次重復的獨立實驗,計算平均值作為識別精度的測試結果.對比其他算法,在不同的級別的準確率都處于最優,在rank-的識別精度上,超過k-XQDA8.44%,與采取核化方法的KNFST算法相比可以精度超過14.74%.對比結果如表3所示.

圖4 PRID2011數據集的行人樣本

表3 在PRID2011數據集的實驗結果對比
本文基于LOMO特征模型提取的圖像特征從CUHK01數據集選取不同數據樣本量大小的算法對辨識精度做了測試.如圖5所示,在數據量p=800、600、400和200這4種條件下算的識別精度,從圖中可知在數據量下降明顯的條件下,算法保持較高的識別精度,對數據量大小的變化具有較強的魯棒性.

圖5 算法識別精度對比圖
本文提出基于核化跨視圖二次判別法的改進方法.本算法將原空間下對協方差矩陣優化調整有效的引入核化空間,提出最小分類誤差原則及平滑技巧與核化跨視圖二次判別法結合,得出更有效的度量矩陣提高判別準確率.為了驗證本文方法的有效性,實驗選取了CUHK01,GRID,PRID2011這3個公開數據庫上,并分別用不同的特征提取模型對算法進行了測試,測試結果顯示本文算法在不同級別的準確率上都取得最優,優于改進前的核化跨視圖二次判別法.本算法在數據量變化是具有較強的魯棒性,在不同大小的數據樣本下測試算法識別精度,在樣本量較小的情況下保持較高的識別精度.