李玲莉,謝明鴻,李 凡,張亞飛 ,李華鋒,譚婷婷
(昆明理工大學 a.信息工程與自動化學院; b.云南省人工智能重點實驗室 昆明 650500)
行人重識別是一種從不同相機視角下在采集的行人圖像中搜索出相同行人的技術,在智能監控中發揮重要作用,因此受到研究者的廣泛關注。在現實監控環境中,同一行人的不同圖像常常因相機視角差異、光照變化等影響呈現出不同的外貌特征,這給行人重識別帶來了極大挑戰。由于不需要進行大量人工樣本標記,近年來無監督域自適應行人重識別方法已成為研究熱點之一。這些方法主要是通過無監督域不變特征提取、對抗學習和圖像風格遷移等手段來減小源域與目標域之間的差異。然而,無監督域不變特征提取的方法往往很難挖掘具有判別性的特征信息;基于對抗學習的無監督方法提取到的特征往往是來自不同域樣本的共有信息,丟失了不同域樣本之間的特有信息,容易加劇樣本特征之間的歧義性;基于圖像風格遷移的方法雖然有效,但容易導致遷移圖像標簽信息改變。
不同數據集之間產生域偏移的主要原因之一是相機的成像風格不同。從圖1可發現來自同一視角下的行人圖像,呈現出相似的風格信息,如果將這些圖像的視覺特征由矩陣表示,這個矩陣在數學上就會呈現出低秩性。因此根據這種低秩先驗性,設計一種域不變特征分離模型,將風格信息從圖像特征中分離出去,這種策略不僅能緩解不同視角之間域偏移給行人重識別帶來的挑戰,還能保持行人身份特征信息不發生改變,避免傳統無監督域自適應方法的標簽遷移。整體思路如圖2所示。

圖1 挑選自不同數據集同一攝像頭的行人圖像Fig. 1 Pedestrian images selected from the same camera view of different datasets

圖2 研究算法的整體框架Fig. 2 The overall framework of the algorithm in this paper
為解決單個數據集中多個視角下行人圖像風格不一致問題,提出低秩成分分解的字典學習模型,將不同相機視角下的行人圖像特征分解成具有低秩特性的風格信息和具有判別性的行人身份信息,通過去除分解出來的風格信息,利用剩下的行人身份信息來訓練判別字典學習模型,并將行人身份信息在其對應字典下的判別系數作為行人的潛在身份特征,作為最后行人身份相似性度量。為進一步緩解域偏移所帶來的影響,利用同一身份行人屬性的域不變性,將屬性與特征關聯模塊嵌入到字典學習框架中,構建從特征到屬性的映射,進一步挖掘屬性與特征之間的關系。為了保證潛在視覺特征遷移到語義屬性空間的過程中行人身份信息不發生改變,在字典學習模型中引入自重構約束以及身份判別特征與標簽一致性約束,提升字典的判別性。通過構建標記樣本身份判別特征和標簽之間的關系,拉近同一行人潛在特征之間的距離,拉遠不同行人潛在特征之間的距離。最后,通過選擇置信度高的偽標簽來調整模型參數,使其更適應目標數據的識別。
為解決有監督行人重識別方法和傳統無監督域自適應行人重識別方法推廣應用方面的不足,近2年研究者提出了一些新的無監督域自適應的行人重識別方法。其中包括基于樣本存儲的域自適應方法[1],基于塊判別性特征學習的無監督行人重識別方法[2],基于自相似聚類的域自適應方法[3],基于元學習的域生成方法[4],基于對抗學習的域自適應行人重識別方法[5-7]以及基于域不變特征提取方法[8]。
基于樣本存儲[1]的方法利用樣本存儲實現了3種基本不變性,即樣本不變性, 相機不變性和鄰域不變性,從而減小了源域與目標域之間的差異。雖然基于塊的判別性特征學習[2]也是較為有效的算法,但這類算法沒有考慮塊與塊之間的關系,導致識別性能稍弱。基于自相似聚類方法[3]可獲得較高的識別性能,但這種方法克服域偏移問題的本質是自訓練,與現實場景不符。基于元學習的域自適應方法是最近提出的一種有效方法[4],該方法使用元學習來更新模型中的分類器參數,并使用多個數據集來訓練模型,使模型具有域不變性。基于對抗學習[5-7]的域自適應方法可以實現不同數據集行人圖像的遷移,但在遷移過程中容易造成不同樣本的特有信息丟失,不利于行人身份信息保留。基于域不變特征提取的方法[8]通過提取不同數據集間的共有信息用作行人身份識別,該方法雖然有效,但未能充分考慮域信息的低秩先驗性,從而導致提取的特征判別性較弱,限制了識別性能的進一步提升。這些方法雖然能取得不錯的實驗結果,但不能有效挖掘無標記樣本的判別信息,導致限制識別性能的提升空間,且對標記的訓練數據的數量和規模都要求較大。為實現域自適應的行人重識別,利用同一視角下行人圖像風格的低秩先驗性,來實現風格信息與行人身份信息的分離,該方法在不需要大規模有標記訓練樣本的情況下便能接近甚至達到基于深度學習的無監督域自適應方法識別性能。
字典學習因其在模式識別和圖像處理方面的優異表現,已成為解決行人重識別問題的常用方法。這類方法通常利用字典和表示系數的乘積來表示特征,并把表示系數作為最終的底層視覺特征,用于最終行人圖像間的相似性度量;這類方法還可以利用模型的正則項約束來提升表示系數的判別能力。近年來,一些基于字典學習的行人重識別方法被提出。文獻[9]提出了一種多任務字典學習的跨數據集遷移學習方法,該方法通過將字典分解成任務共享字典和視角特定字典,分別獲取不同視角下行人的潛在屬性和行人外貌差異表示。文獻[10]提出一種基于卡方核的正則化線性判別分析行人重識別算法,使數據在低維空間能夠保持高維空間的可分性,提高行人重識別算法性能。文獻[11]提出一種面向無監督域自適應的聯合屬性身份嵌入字典學習方法,該方法通過視覺特征空間和語義屬性空間的對齊來學習語義屬性字典和視覺特征字典。文獻[12]將多特征字典學習和自適應多特征圖整合到一個聯合學習模型中,使得學習到的字典具有判別性。雖然上述方法在行人重識別中能達到不錯的識別性能,但無法有效克服相機風格差異帶來的域偏移問題。基于成像風格的低秩先驗性,提出了一種判別字典學習的圖像風格分離模型,降低成像風格差異所導致的不同視角行人圖像之間的域偏移。


在無監督的行人重識別任務中,由于不同數據集間存在域偏移問題,在源域上訓練的模型常常不能直接應用到目標域上。為解決這個問題,基于行人圖像風格信息的低秩先驗性設計了一個域不變信息分離模型
(1)

由于不同視角下同一行人的屬性具有域不變性,如果將訓練樣本的屬性與潛在特征建立一種映射關系,挖掘潛在信息,有利于實現目標域樣本屬性的預測。除此之外,利用屬性作為輔助信息也能提高編碼系數的判別性。因此,將屬性引入到行人重識別的模型中,公式如下
(2)
其中,W是轉換矩陣,其作用是建立行人潛在特征空間與屬性空間的聯系,β是平衡參數。在公式(2)中,利用自重構思想來保證行人屬性和潛在特征的一致性。
為提高字典的判別性和減少行人特征之間的歧義性,將標簽信息應用到模型當中,公式如下
(3)

(4)

對于所有變量來說,公式(4)是非凸函數。然而,固定其它變量而更新其中某一個變量時,模型具有全局最優解。因此采用交替迭代法來獲得每個變量的最優解。

(5)
式(5)具有如下形式的解析解
(6)

(7)


(8)

(9)
其中,Fv可由奇異值分解 (SVT) 算法[17]求解公式(10)得到
(10)

(11)

(12)

(13)
為便于求解,引入輔助變量Ph,公式(13)可寫為
(14)
其中Ph可通過求解式(15)來得到
(15)

(16)


(17)
公式(17)可直接用 SVT 算法來求解,為此對其進行松弛化處理
(18)

(19)
公式(19)可使用拉格朗日對偶法[18]進行求解。

(20)
為便于求解,引入2個變量H和T,公式(20)可表示為
(21)
其中,更新H和T的目標函數分別表示為
(22)
(23)
公式(22)和(23)均可采用奇異值分解(SVT)算法來求解。然后,更新D0,其目標函數為
(24)
可將公式(24)簡化為
(25)

(26)
為便于求解,公式(26)可松弛化為
(27)
從而得到更新L的解析表達式
(28)

βCsCsTW+WAsAsT=βCsAsT+LAsT。
(29)
公式(29)是Sylvester方程,利用Bartels-stewart算法[19]求解。為便于理解,將求解公式(4)的優化算法總結在表1中。

表1 域自適應行人重識別低秩分解字典學習算法

(30)
同時,得到映射矩陣W后,可預測目標域的屬性特征At
At=(WTW)-1(WTCt),
(31)
在得到測試樣本行人身份信息編碼系數Ct,行人屬性表示At后,通過余弦距離[20]得到行人圖像對的相似性分數
(32)
其中,zl(l=a,b)表示語義屬性空間或視覺特征空間中的一個向量,ε>0是一個常數。為綜合潛在視覺特征空間和語義屬性空間的互補性,最終的相似分數可由下式來求得
simfinal=τsimC+(1-τ)simA,
(33)
其中τ為權值,simC和simA分別表示潛在特征相似性分數和屬性相似性分數。由于屬性的判別性較弱,因此取τ=0.8。
為了驗證算法的有效性,選擇了4個具有挑戰性的數據集:VIPeR[21],PRID2011[22], CUHK01[23],GRID[24]。其中,VIPeR,PRID2011和GRID數據集有2個攝像頭且每個行人身份在一個攝像頭視角中只有一張圖像。PRID2011和GRID都包含干擾圖像,因此,更接近真實場景。CUHK01也有2個攝像頭,但每個身份在一個攝像頭下有2張圖像。具體的數據集描述如表2所示。

表2 實驗數據集的詳細設置
在上述的數據集中,只有VIPeR, PRID2011,GRID標注了語義屬性。在算法中,這些被標注了語義屬性的數據集可以用作訓練集,而未標注語義屬性的數據集可以用作測試集。具體來說,將上述的單個數據集的全部樣本用來訓練模型,而目標數據集中的樣本按行人身份分成互不重疊的2個子集,一個參與模型的訓練,另一個用于模型的測試,隨機取10組數據的平均值作為實驗結果。測試時,所有的干擾圖像都會被用作測試集樣本。該模型一共有10個參數,其中包括字典D和D0的大小d和d0,和8個超參數α1,α2,λ1,λ2,δ,δ1,β,γ。設定d=650,d0=800,α1=0.1,α2=0.1,λ1=0.6,λ2=0.5,δ=5,δ1=6,β=0.15,γ=0.5。在特征的選擇上,使用Gaussian of Gaussian(GOG)描述符[25]來描述行人的外貌特征。在屬性表示上,使用的VIPeR,PRID2011,GRID數據集上的屬性定義是由R.Layne 等人[26]所標注的。
在VIPeR上的實驗:將PRID2011作為源數據集,VIPeR作為目標數據集,實驗結果與UMDL[9],SAAVF[11],MFFAG[12],ADV[27],GL[28],SDC[29],CAMEL[30],DECAMEL[31],AIESL[32],SNR[33]比較,對比結果如表3所示。由此可以看出,在VIPeR上,研究方法的性能超過了深度學習的方法DECAMEL[31]和傳統的無監督域自適應行人重識別方法UMDL[9],SAAVF[11],MFFAG[12],ADV[27],GL[28],SDC[29],CAMEL[30],AIESL[32],SNR[33]。證明了方法的有效性和優越性。

表3 在VIPeR數據集上的識別性能
在GRID上的實驗:將VIPeR作為源數據集, GRID作為目標數據集,實驗結果與DIMN[4],AIESL[32],SNR[33],TLSTP[34]進行了比較,對比結果如表4所示。由于GRID數據集攜帶了大量干擾圖像,因此在該數據集上進行行人身份的匹配充滿了挑戰。由表4中的數據可以看出,提出的方法在性能超過了傳統無監督域自適應行人重識別方法AIESL[32],SNR[33],TLSTP[34]和深度學習方法DIMN[4]。

表4 在GRID數據集上的識別性能
在CUHK01上的實驗:為進一步驗證算法的有效性,將VIPeR用作源數據集,CUHK01用作目標數據集,實驗結果與UDML[9],MFFAG[12],CAMEL[30],DECAMEL[31],AIESL[32],TSR[35],DAS[36],UJSDL[37]進行比較,對比結果如表5所示。由此可以看出,提出的方法在性能上超過了傳統的無監督域自適應行人重識別方法UDML[9],MFFAG[12],CAMEL[30],AIESL[32],TSR[35],DAS[36],UJSDL[37]和深度學習方法DECAMEL[31]。

表5 在CUHK01數據集上的識別性能
3.3.1 收斂性分析
目標函數(4)對變量{D,D0,W}來說是一個非凸函數,然而固定其它變量而更新其中某個變量時,模型具有全局最優解。在VIPeR數據集上對算法的收斂性進行了驗證,其結果如圖3所示。由此可發現,對于變量 {D,D0,W}而言,算法是收斂的,而且當迭代次數達到10次的時候,算法能達到穩定解。因此,將迭代次數設置為10。

圖3 算法在VIPeR數據集上的收斂性分析Fig. 3 Convergence analysis of the algorithm on VIPeR dataset
3.3.2 算法的復雜度分析

3.3.3 消融性分析

圖4 算法的消融性分析Fig. 4 Ablation analysis of the algorithm
在算法中共有8個超參數α1,α2,β,λ1,λ2,δ,δ1,γ和字典的尺寸大小d,d0需要選擇,根據實驗經驗,設置d=650,d0=800,α1=0.1,α2=0.1,δ1=6,γ=0.5。其余主要模塊參數β,λ1,λ2,δ的設置采用交叉驗證方法來進行選擇。在此過程中,改變其中某個參數,其余參數固定,研究該參數對識別性能的影響,找到最優參數值。對于β,δ,λ1,λ2來說,其變化范圍從10-6到103,每次以10的倍數遞增。圖5(a)—(d)給出了這4個參數取不同數值時的識別性能,由此可以看出,當λ1=0.6,λ2=0.5,δ=5,β=0.15時,算法能取得較為滿意的結果。


圖5 算法在VIPeR數據集上的參數分析Fig. 5 Parameters sensitivity analysis of the algorithm on the VIPeR dataset
根據同一視角下行人圖像所表現的低秩先驗性,提出對風格魯棒的無監督域自適應行人重識別方法。該方法將反映圖像相機風格的信息從圖像特征中分離出去,極大緩解數據集之間由風格差異引起的域偏移給跨數據集行人重識別帶來的影響。在算法中,為建立目標數據集與源數據集之間的聯系,提出聯合學習算法,將行人身份特征信息、語義屬性和標簽信息嵌入到一個字典學習模型中。為了有效利用目標數據集中的信息,將目標數據集中被分配偽標簽且置信度較高的樣本選出來調整已訓練模型參數。在域自適應行人重識任務中,算法比傳統的無監督域自適應行人重識別方法及部分基于深度學習的無監督域自適應行人重識別方法表現出較強的競爭力。