顏 悅,程清翠,李向奎,朱 豪
(1.昭通學(xué)院 物理與信息工程學(xué)院,云南 昭通 657000;2.四川泛希誠科技有限公司,四川 成都 610213)
隨著現(xiàn)代社會高速發(fā)展,人與汽車混雜的交通網(wǎng)絡(luò)讓社會治安環(huán)境尤為復(fù)雜,特別在一些人流量大的城市里,盜竊違法事件屢屢發(fā)生,使得社會公共安全問題受到了人們的廣泛關(guān)注。2010 年,公安部提出關(guān)于在全國范圍內(nèi)構(gòu)建城市報警系統(tǒng)及監(jiān)控網(wǎng)絡(luò)系統(tǒng)的意見[1],并在全國范圍內(nèi)開展多級城市報警聯(lián)合監(jiān)控系統(tǒng)的建設(shè)。截至2018年,全國大約有4 000 萬臺攝像頭被安置于城市的各個角落,構(gòu)造出一張龐大而細(xì)密的監(jiān)控網(wǎng)絡(luò)。
監(jiān)控網(wǎng)絡(luò)的出現(xiàn)為追查犯罪分子行動軌跡、破獲各種案件提供了極大幫助,能檢索出犯罪過程中的關(guān)鍵信息,使公安部門能在較短時間里鎖定并及時追蹤犯罪嫌疑人,是服務(wù)于偵查打擊、震懾違法犯罪等行為的有效途徑。同時,監(jiān)控網(wǎng)絡(luò)在創(chuàng)新社會管理、服務(wù)廣大群眾方面也具有巨大作用,例如通過比較監(jiān)控畫面可及時得知走失人口的運動軌跡,幫助家人盡快找回親人。網(wǎng)絡(luò)監(jiān)控是為違法犯罪分子編織的天羅地網(wǎng),能讓罪惡無處遁形;網(wǎng)絡(luò)監(jiān)控也是為人民群眾所構(gòu)造的守護之網(wǎng),能讓百姓安居樂業(yè)。
在現(xiàn)實生活中,由于監(jiān)控所安裝的環(huán)境不同,受到維護設(shè)備經(jīng)濟成本等條件限制,監(jiān)控網(wǎng)絡(luò)的攝像頭視域難免會出現(xiàn)中斷,無法保證監(jiān)控覆蓋所有區(qū)域。并且,由于監(jiān)控對象運動軌跡具有隨機性,當(dāng)其在某個攝像頭的視域下消失后,如何再次對其定位是目前亟待解決的問題。
行人重識別是近幾年智慧視覺分析領(lǐng)域的熱門,當(dāng)某一個攝像頭下的行人在其他時間點、地點出現(xiàn)在其他攝像頭視域下時,可利用該技術(shù)將其再次自動識別,對維護治安、保障社會公共安全具有重要意義,因此吸引了大量研究人員廣泛關(guān)注,但由于監(jiān)控網(wǎng)絡(luò)采集到的圖像質(zhì)量較低、物體存在遮擋、背景發(fā)生變化等因素,嚴(yán)重影響了識別性能。為此,本文聯(lián)合字典對的學(xué)習(xí)研究不同相機視角引起的光照差異與背景變化,分離行人圖像共享的域信息和行人特征信息,從而進一步提升行人匹配性能。
近年來,行人重識別技術(shù)得到了社會普遍關(guān)注,也因此獲得了快速發(fā)展,其主要方法可分為基于特征表示的行人重識別、基于度量學(xué)習(xí)的行人重識別基于字典學(xué)習(xí)的行人重識別。
由于行人外觀特征易受光照、拍攝視角、遮擋等因素影響,如何進行特征設(shè)計與選擇至關(guān)重要。因此,各學(xué)者圍繞行人特征開展了深入研究。為了能更好地提取行人特征,彭玉青等[2]提出融入外觀特征的行人重識別方法,該方法設(shè)計了兩個不相同的分支,一個分支用于提取行人的全局特征,另一個分支用于提取行人的局部特征,然后將兩者結(jié)合起來得到行人的整體外觀特征。譚玉瑩[3]通過加權(quán)分類損失與三元組損失提出一種基于圖像—空間特征融合的有監(jiān)督行人重識別方法,該方法可訓(xùn)練出更具判別性的特征。朱小波[4]提出一種基于特征融合與子空間學(xué)習(xí)的行人重識別算法,在提取到行人圖像特征后將其通過核函數(shù)轉(zhuǎn)換至另一個非線性空間,然后在該空間中創(chuàng)造一個子空間用于學(xué)習(xí)一個有較好識別性能的相似度量函數(shù),進一步改良了相似度量學(xué)習(xí)方法與特征融合方法。
度量學(xué)習(xí)是計算機中的一個距離度量函數(shù),在行人重識別中用于計算兩幅圖像信息間的距離,也叫相似度,使計算結(jié)果能準(zhǔn)確反映兩幅圖像信息中行人特征間的差異。由于不同負(fù)樣本間所攜帶的識別信息數(shù)量不同,會導(dǎo)致進行度量學(xué)習(xí)時對度量學(xué)習(xí)的貢獻不同。
為此,唐鼎[5]提出負(fù)樣本敏感度量學(xué)習(xí)方法解決該問題。張國鵬[6]在算法中充分利用每個批次中所有樣本對的距離信息,利用中心損失函數(shù)降低樣本同類距離。蔣同[7]提出跨視圖局部塊度量學(xué)習(xí)算法,通過減小或擴大正樣本或負(fù)樣本到局部塊間的距離,獲得更高的跨視圖樣本匹配率。劉國明[8]提出基于前景分割的特征表示模型,根據(jù)同一行人圖像在不同相機視角下的相同和不同特征計算不同相機視角下的行人圖像樣本對距離。為了能更好地獲得行人整體內(nèi)部特征并更清晰地區(qū)分行人特征間的不同點,周刊[9]提出一種基于度量學(xué)習(xí)和多特征融合的行人重識別方法。
將字典學(xué)習(xí)運用于行人重識別領(lǐng)域,是為了挖掘行人圖像最重要的本質(zhì)特征以盡可能多的表示行人信息,也就是為了學(xué)習(xí)到一個具有較高判別性的特征表示。何悠[10]提出基于最小負(fù)樣本約束的字典學(xué)習(xí)算法,通過最小負(fù)樣本的稀疏編碼增大同類樣本間的距離,獲得一個更穩(wěn)定、區(qū)分能力更強的字典模型。為了能更全面獲取已標(biāo)記的樣本標(biāo)簽信息,周維燕[11]提出在字典學(xué)習(xí)模型中引入標(biāo)簽一致性約束項,構(gòu)建了分類器、投影變換與判別字典聯(lián)合學(xué)習(xí)模型。為了減少行人視覺間的歧義性,許佳佳[12]提出一種共享與特有成分字典聯(lián)合學(xué)習(xí)框架。湯紅忠等[13]提出一種多級別判別性字典學(xué)習(xí)算法解決跨視圖的行人重識別問題。崔益峰等[14]提出一種基于聯(lián)合判別性低秩類字典及稀疏誤差字典的人臉識別算法,以解決行人圖片間的相似性。為了更好地消除行人圖像的域信息和行人姿態(tài)信息對行人重識別技術(shù)的影響,嚴(yán)雙林[15]提出一種基于矩陣分解與超圖結(jié)構(gòu)對齊的字典學(xué)習(xí)算法。
雖然上述方法均取得了不錯的成效,但幾乎未在如何有效減小復(fù)雜背景等域信息方面進行研究。PRID2011 數(shù)據(jù)集是從某個十字路口的兩個不同相機視角下捕獲到的行人圖像,他們的背景間存在較大差異,并且由于光照強度不同會導(dǎo)致同一行人存在較大差異,而不同行人之間卻可能更相似,部分圖像如圖1所示。

Fig.1 Pedestrian image sequence of PRID2011 data set圖1 PRID2011數(shù)據(jù)集的行人圖像序列
因此,為了將不同相機視角下的行人圖像共享信息與行人特征信息進行分離,本文通過創(chuàng)建兩個字典構(gòu)建行人重識別的算法模型,一個字典表示行人圖像信息共享字典,另一個表示行人特征信息字典,其分離思想主要是使來自同一相機視角下的所有行人圖像在共享字典上享有相同的稀疏表示,以此分離每個視角下的行人圖像共享信息和行人特征信息,避免了直接采用包含域信息的行人圖像進行重識別研究所帶來的問題。
為降低不同相機視角間的域偏移問題,構(gòu)建:
式中,Xa、Xb表示相機視角a、b下的訓(xùn)練樣本圖像,D代表所有相機視角下的域信息字典,Dt代表分離出域信息后的行人外觀特征字典,Ya、Yb為字典D中選擇出的某些原子組成,主要為了得到訓(xùn)練數(shù)據(jù)集樣本信息的稀疏表達(dá),Yta、Ytb為對應(yīng)外觀信息字典Dt上的行人編碼系數(shù)矩陣用來構(gòu)建相機視角a、b下的共享背景信息。
式中,||Yta||1、||Ytb||1為了使Yta、Ytb更稀疏,范數(shù)l1因其在提高模型參數(shù)的稀疏性上相較于l0更容易求解,因此本文算法模型中選擇l1來提高模型稀疏性,α1、α2、α3、α4為對應(yīng)項的權(quán)重參數(shù),根據(jù)參數(shù)大小可看出其對應(yīng)項對算法識別性能的影響。
由式(2)可知,對于變量D、Dt、Ya、Yb、Yta、Ytb而言,它們均非共凸,只有固定所有變量求解其中的一個變量時才為凸。因此,本文通過交替迭代方法[16]優(yōu)化這些變量,具體過程如下:
(1)更新Ya。在求解Ya時,算法模型中除Ya外的其他參數(shù)均需固定,此時對Ya進行求解的函數(shù)為:
由式(3)可知,求解Ya等同于對Ya的范數(shù)l2,1的最小化求解,本文使用文獻[17]中對范數(shù)l2,1最小化的求解方法,然后對Ya求導(dǎo)可得到Y(jié)a的解為:
其中,Λ1為求解Ya的范數(shù)l2,1所創(chuàng)建的對角矩陣,該矩陣是稀疏的。
(2)更新Yb。用更新Ya的方法更新Yb,對Yb求導(dǎo)可得Yb的解為:
其中,Λ2為求解Yb的范數(shù)l2,1所創(chuàng)建的對角矩陣,該矩陣同樣也是稀疏的。
(3)更新Yta。以交替迭代的方法更新Yta,此時求解Yta的函數(shù)為:
在更新Yta前,先引入一個新的中間變量E,將式子改寫為:
更新E實質(zhì)上是對范數(shù)l1的最小化求解,采用迭代收縮算法Iterative Shrinkage Algorithm[18]求解E,進一步更新Yta為:
對Yta直接求導(dǎo)可得Yta的解為:
其中,I1為單位矩陣,其行列數(shù)皆為字典Dt的原子數(shù)。
(4)更新Ytb。如同更新Yta一樣可得到Y(jié)tb的解為:
其中,I2為單位矩陣,其行列數(shù)皆為字典Dt的原子數(shù)。
(5)更新D。同樣地,固定變量Ya、Yb、Yta、Ytb、Dt,可得求解D的函數(shù)為:
在對D進行求解時,需要先求解D的核范數(shù),此時需要引入一個新的中間變量V,然后采用奇異值闕值算法[19]求解V,引入新變量后可將式(11)改寫為:
當(dāng)V確定后,需要再引入一個松弛變量H,將式(12)改寫為:
其中,Λ4為由所有的拉格朗日對偶變量構(gòu)成的對角矩陣,I6為行列數(shù)均為字典Dt的原子數(shù)的單位矩陣。
當(dāng)字典D、Dt訓(xùn)練好后,通過以下方法測試訓(xùn)練得到的字典性能:
式中,Xa1、Xb1為從PRID2011 數(shù)據(jù)集中選擇的測試樣本集,Ya1、Yb1代表相機視角a、b下的編碼系數(shù),Yta1、Ytb1表示相機視角a、b下的行人特征信息編碼系數(shù)。
首先通過式(26)求解Ya1,通過文獻[16]的交替迭代法,固定除Ya1外的其它參數(shù)求解Ya1。
求解Ya1本質(zhì)上是最小化求解范數(shù)l2,1,因此采用文獻[17]中對范數(shù)l2,1最小化求解的方法進行求解,得到Y(jié)a1為:
式中,Λ1為求解Ya1的l2,1范數(shù)而創(chuàng)建的對角矩陣,該矩陣是稀疏的。
同理更新Yb1,得到Y(jié)b1的解為:
式中,Λ2為求解Yb1的l2,1范數(shù)而創(chuàng)建的對角矩陣,該矩陣也是稀疏的。
當(dāng)Ya1、Yb1確定后,使用同樣的方法求解Yta1、Ytb1,可得Yta1目標(biāo)函數(shù)為:
求解Yta1相當(dāng)于對范數(shù)l1的最小化求解,使用迭代收縮算法Iterative Shrinkage Algorithm[18]求得Yta1的解為:
其中,I7為行列數(shù)皆為字典Dt的原子數(shù)的單位矩陣,J1為求范數(shù)l1的中間變量。
同理可得Ytb1解為:
其中,I8為行列數(shù)皆為字典Dt的原子數(shù)的單位矩陣,J2為求l1范數(shù)的中間變量。
確定Yta1、Ytb1后,通過歐式距離計算Yta1(:,i)與Ytb1(:,j)間的距離。其中,Yta1(:,i)表示Yta1的第i列,Ytb1(:,j)表示Ytb1的第j列。
假設(shè)要從Ytb1中匹配Yta1中的某個目標(biāo)行人,就需要將Yta1中代表這個目標(biāo)行人的列與Ytb1中的每一列進行距離計算,距離最近即為匹配成功的行人。當(dāng)Yta1中所有的行人均匹配成功后對所求距離進行升序排列,獲得Rank 的匹配率。
本文分別選擇PRID2011、CUHK01 和i-LIDS 數(shù)據(jù)集對訓(xùn)練、測試進行驗證與分析。PRID2011 數(shù)據(jù)集的行人圖像由室外環(huán)境下的兩個非重疊相機捕獲,并且每個視角均包含干擾圖像。在CUHK01數(shù)據(jù)集中,每個身份在每個相機視角下均有兩張圖像,所有圖像均來自安置于校園內(nèi)的兩臺相機。i-LIDS 數(shù)據(jù)集中的行人圖像通過安裝在機場到達(dá)大廳中的多個非重疊相機所獲取,包含了119個行人身份的476 張圖像,其中不同相機拍攝每個行人2~8張圖像。
由于以上數(shù)據(jù)集各自具有不同的特征,因此能保證客觀、全面地測試算法性能。本文實驗中,每個數(shù)據(jù)集被分為兩個部分,一部分為訓(xùn)練樣本,另一部分為測試樣本,采用累積匹配特性(Cumulative Match Characteristic,CMC)曲線評估字典的識別性能,參數(shù)值分別為d=50、dt=89、α1=1、α2=1、α3=28、α4=1。其中,d為參數(shù)字典D的大小,dt為字典Dt的大小,α1、α2、α3、α4為每個公式的權(quán)重參數(shù)。
PRID2011 數(shù)據(jù)集中總共包含949 張行人圖像,其中行人圖像200 張、人干擾圖像549 張,每個行人在對應(yīng)的相機視角下只存在一張圖像,實驗時首先在兩個相機視角下分別隨機選取200 張行人圖像對中的100 張行人圖像對來訓(xùn)練字典D、Dt,然后將兩個相機視角下剩余的100訓(xùn)練行人圖像對和549 訓(xùn)練行人干擾圖像測試所訓(xùn)練字典D和字典Dt的性能,并重復(fù)10次。
由于PRID2011 數(shù)據(jù)集兩個相機視角間的光照變化和背景差異較大,包含干擾行人圖像,在該數(shù)據(jù)集下進行測試難度較大且具有一定的代表性。為此,將在PRID2011 數(shù)據(jù)集測得的平均識別率作為識別結(jié)果與ATNet[21]、JSMAL[22]、SAAVF[23]、AIESL[24]、SNR[25]、SRSCC[26]方法進行比較,如表1 所示。由此可見,本文所提方法在PRID2011 數(shù)據(jù)集上的Rank1、Rank5、Rank10、Rank20 匹配率分別達(dá)到40.40%、60.40%、71.30%、82.20%,相較于SRSCC 分別提高了1.2%、0.5%、1.8%。

Table 1 Comparison of matching rates of different algorithms on PRID2011 dataset表1 不同算法在PRID2011數(shù)據(jù)集上的匹配率比較(%)
CUHK01 數(shù)據(jù)集的圖像是由安裝在校園里的兩個不相交攝像頭所拍攝,包含971 個行人,共計3 884 張圖像。每個行人在每個攝像頭下均有兩張清晰度較高的圖像。在該數(shù)據(jù)集中,一個攝像頭拍攝行人的正面或背面,另一個攝像頭拍攝行人的側(cè)面,如圖2所示。

Fig.2 Pedestrian image sequence of CUHK01 data set圖2 CUHK01數(shù)據(jù)集的行人圖像序列
為檢驗本文所提算法的有效性,將其與MVLDML[27]、CSPL+GOG[28]、AIESL[24]、GOG+TDL[29]、MSE-VCM[30]、MLSVM[31]、CV-KCRC[7]算法進行比較,如表2 所示。由此可見,在該數(shù)據(jù)集下本文所提算法的識別率相較于其他算法均具有一定的提升,例如相較于MSE-VCM 算法,雖然在Rank20 方面降低了0.64,但Rank1、Rank5、Rank10的匹配率分別提高1.8%、0.16%、0.88%。

Table 2 Comparison of matching rates of different algorithms on CUHK01 dataset表2 不同算法在CUHK01數(shù)據(jù)集上的匹配率比較(%)
機場到達(dá)大廳行人圖像數(shù)據(jù)集i_LIDS 是目前較為常用的數(shù)據(jù)集之一,該數(shù)據(jù)集內(nèi)的行人圖像是由安置于機場到達(dá)大廳的多個攝像頭所拍攝,包含119 名行人共476張圖像。由于兩個不同攝像頭視域下行人圖像數(shù)量并不相同,圖像數(shù)量分別為1~8 張,因此適用于本文所需解決的行人外觀歧義問題。除了行人圖像數(shù)量不同造成的影響外,由圖3 可見該數(shù)據(jù)集還存在照明、背景、遮擋等因素干擾,因此該數(shù)據(jù)集對本文算法的準(zhǔn)確度驗證具有一定的挑戰(zhàn)。
實驗中,任選60 名行人身份圖像對進行訓(xùn)練,將剩余的59 名行人身份圖像用于測試,并重復(fù)10 次,得到最終的識別性能,即平均識別率。同時,為了驗證本文所提算法的有效性,將其與MLQAW[32]、MMLBD[33]、FSCML[34]、JDSML[35]、GOG+TDL[29]算法進行比較,如表3所示。

Fig.3 Pedestrian image sequence of i_LIDS data set圖3 i_LIDS數(shù)據(jù)集的行人圖像序列

Table 3 Comparison of matching rates of different algorithms on i_LIDS dataset表3 不同算法在i_LIDS數(shù)據(jù)集上的匹配率比較(%)
根據(jù)本文設(shè)置的6 個參數(shù),基于PRID2011 數(shù)據(jù)集介紹如何設(shè)置這6 個參數(shù)的值。實驗中,字典D的大小d和字典Dt的大小dt是影響本文算法識別性能的重要參數(shù),在選取字典最佳值時需要首先固定一個字典大小再調(diào)節(jié)另外一個字典的大小,通過比較不同大小字典值所得到的識別率來確定字典的最佳值。圖4(a)、圖4(b)分別顯示不同大小d、dt對識別率的影響,由此可見當(dāng)d=50、dt=89 時,本文算法的識別率(以Rank1為例)最高。

Fig.4 Effects of different d/dt values on the recognition performance of the algorithm圖4 不同d,dt值對算法識別性能的影響
在確定d、dt后,依次判定公式中每一項對應(yīng)的權(quán)重參數(shù)α1、α2、α3、α4取不同值時對算法識別性能的影響,使用交叉驗證方法確定這4 個參數(shù)。首先,將α2、α3、α4分別固定為1、28、1,研究α1的影響。
由圖5(a)可見,當(dāng)α1=1 時本文算法識別性能更高,由此確定α1。然后,將α1、α3、α4固定為1、28、1,由圖5(b)可見當(dāng)α2=1 時本文算法識別性能更高。接下來,將α1,α2,α4分別固定為1、1、1,由圖5(c)可見當(dāng)α3=28 時本文算法識別率更高。最后,將α1、α2、α3分別固定為1、1、28,由圖5(d)可見當(dāng)α4=1 時本文算法能識別率更高。

Fig.5 Influence of different weight parameters on the recognition performance of the algorithm on the PRID2011 dataset圖5 PRID2011數(shù)據(jù)集上不同的權(quán)重參數(shù)的值對算法識別性能的影響
此外,算法模型中變量的更新次數(shù)對算法識別性能也具有一定的影響。因此,固定d、dt、α1、α2、α3、α4,從5~40開始逐漸調(diào)整變量更新次數(shù),由圖6 可見當(dāng)更新次數(shù)為15時本文算法識別性能較好。

Fig.6 Effect of different iteration times on recognition performance on PRID2011 dataset圖6 PRID2011數(shù)據(jù)集上不同迭代次數(shù)對識別性能的影響
本文為了解決不同相機視角間因像素、光照等干擾問題及其他原因?qū)е聢D像模糊的問題,將圖像信息分解為域信息字典與行人外觀特征信息字典,通過低秩分解減弱或去除因域信息干擾的行人圖像,以更好地恢復(fù)行人信息,即剩余信息將基本不再受域偏移問題的影響。具體為,通過構(gòu)建聯(lián)合字典對學(xué)習(xí)模型得到一個域信息字典與行人外觀信息字典,實現(xiàn)特定域信息部分與行人外觀特征部分的分離,并在3 個挑戰(zhàn)性極大的數(shù)據(jù)集上進行實驗,結(jié)果表明本文所提算法相較于其他算法均具有較強的魯棒性。
隨著時代進步,行人重識別技術(shù)將具有更好的前景。分析發(fā)現(xiàn),不同數(shù)據(jù)集間由于相機設(shè)備參數(shù)、光照和場景的不同而存在較大差異。本文行人重識別是在同一個數(shù)據(jù)集上進行訓(xùn)練與測試,此時性能表現(xiàn)較好,但如果將基于某數(shù)據(jù)集所設(shè)計的訓(xùn)練模型直接測試另一個數(shù)據(jù)集,將會導(dǎo)致識別效果較差。因此,在維持原有性能前提下,將基于某個或某些數(shù)據(jù)集所訓(xùn)練的模型拓展至其他數(shù)據(jù)集中進行應(yīng)用是值得深入的研究方向。