唐佳敏,韓 華,黃 麗
(上海工程技術大學電子電氣工程學院,上海 201620)
視頻監控網絡作為重要的基礎安全公共設施已在全球范圍內得到廣泛運用。在智能監控普及的同時,需要對攝像頭監控區域是否有重疊視域進行區分。在無重疊視域的多攝像機聯合監控系統中,行人再識別[1]是關鍵問題,其定義為在無重疊區域的視頻監控網絡中判別目標行人是否具有關聯性身份。目前,行人再識別已成為研究熱點,國內外學者們提出了很多優秀的技術和方法[2-4]。在計算機視覺與機器學習相關的各大頂級國際會議上,也出現了很多關于行人再識別研究的成果[5-7]。
目前,行人再識別方法主要可分為基于人工設計特征和基于深度學習兩類。在基于深度學習的方法中,監督學習[8-10]已被證明能夠獲得很好的性能,但存在需要利用目標行人圖像數據標簽的不足。因為手動打標簽需要消耗很多的人力和時間資源,所以在任務執行過程中存在一定的限制性。無監督學習中常用到的算法有聚類、可視化與降維、關聯學習等,與監督學習方法相比,無監督學習方法不需要對數據集的數據手動打標簽,因此適用的數據集比較多,此類方法更具有可行性和擴展性。
在無監督學習中,三元組損失函數因能拉近樣本和正樣本間的距離而得到廣泛應用,但其學習的僅僅是樣本間的相對距離,只考慮了類間的差異性,沒有學習絕對距離,忽視了類內的相似性。同時,不同攝像頭下同一個人的不同圖片外表特征差異較大,如果聚類合并時使用最大距離準則會放大差異性,導致不能合并來自不同攝像頭下的同一人的圖片。鑒于此,本文提出一種基于無監督學習的粗細粒度特征提取方法。分別通過相斥函數和相吸函數擴大類間差異和類內相似度,在此基礎上進行特征學習和參數更新,同時使用最小距離準則將跨攝像頭中差別較大擁有相同身份的人的圖片聚類在一起,并對多個聚類進行逐步合并,解決特征差異性問題。
行人再識別問題定義為在無重疊區域的視頻監控網絡中判別目標行人是否具有關聯性身份的任務,如圖1 所示。其中,第1 列給定一個行人圖或是行人視頻作為查詢目標,在大規模數據庫中找出與其相近的同一身份的行人圖或行人視頻,由同一行為同一身份的行人在不同攝像頭下所拍攝到的圖片不難發現,哪怕是同一身份的行人,在不同攝像頭下也會有差異比較大的外觀展示,主要影響因素有視角、光照、遠近、遮擋等,但是即使有較大差異,仍然要對行人的身份進行正確匹配。行人再識別方法的識別流程如圖2 所示。

圖1 行人再識別問題示意圖Fig.1 Schematic diagram of pedestrian re-identification problem

圖2 行人再識別流程Fig.2 Procedure of pedestrian re-identification
在基于深度學習的行人再識別方法中,基于監督學習的方法被證明具有很好的性能。ZHU 等[8]提出CycleGAN 算法,對目標行人的圖片進行一系列形變、圖片增強等操作后,將其轉換到目標行人的數據庫候選圖片中。WEI 等[9]提出行人重識別生成對抗網絡,采用場景分割的思想,先確保圖片中的目標行人不改變,再將圖片所處的背景風格轉變為人為所期望的數據庫的風格樣式,最后進行一系列操作實現重識別。QIAN 等[10]提出行人姿態歸一化生成對抗網絡,利用原始目標行人的圖形生成含有同一身份并且姿勢可以控制的歸一化圖像,通過目標行人的姿勢遷移解決姿勢偏差的問題。但監督學習存在需要利用目標行人圖像的數據標簽這一不足。因為手動打標簽需要消耗很多的人力和時間資源,所以在任務執行過程中存在一定的限制性。
如果說監督學習的本質是告訴計算機怎么做的話,那么無監督學習的本質就是讓計算機自己去學習怎么做,因此,無監督學習中常用到的算法有聚類、可視化與降維、關聯學習等。在行人再識別中,基于無監督學習[11-13]的方法已經有很多。WU 等[11]簡化了無監督行人重識別問題,給每個目標行人一張圖片作為訓練集,通過動態取樣的思想為每個身份的行人動態地分配沒有標簽的候選圖片,并利用偽標簽對模型進行訓練學習。DENG 等[12]提出相似性保留生成對抗網絡的思想,將目標行人的圖片從源域替換到目標域,之后使用有監督的流程訓練算法模型。ZHONG 等[13]提出異質學習的方法,通過三元組損失函數挖掘信息,對于相同相機域的正樣本對和不同域的負樣本對進行屬性加強,增強相機的不變性和域的聯結性。無監督的方法不需要對數據集的數據手動打標簽,這樣對于數據集的要求就不那么嚴格,擴大了可用數據集的范圍,使得研究工作更具可行性和擴展性。
基于全局[14]的粗粒度特征提取是針對每一個目標行人的每一張完整的圖片進行特征提取。全局特征的顯著優勢是便于訓練與處理,能對行人的外觀有一個完整全面的表達,不會出現“盲人摸象”的問題。但是又存在明顯缺點:對于目標行人的圖片缺少細節的特征表示,對于艱難樣本難以區分,細節特征的判別性不夠。對于行人再識別中的遮擋等問題,基于局部[15]的細粒度特征提取是行人再識別中常用的特征提取方法。在一張圖片中,位于不同圖像區域的特征包含不同的信息。在各個區域中提取細粒度特征可以更精確地提取到可能被忽略的判別性特征。因為相似的圖片中很有可能會存在相似的區域,并且區域之中的相似度遠大于行人整體間的相似度,但具有相似區域的行人不代表是相似的行人,所以,提取局部特征可以減小判斷2 張圖片為同一行人的錯誤率。但是僅僅提取局部特征會造成空間細節特征信息的損失和非完整性。而此時全局特征便于訓練,能整體地對行人的外觀進行表達,所以,怎樣有效地學習具有判別性的粗粒度特征和細粒度特征,在提取特征信息全面的同時又不缺細節,從而提高整個網絡算法的判別力精度,是需要研究的問題。
本文提出一種基于無監督學習的粗細粒度特征提取方法。構建一個基于細粒度和粗粒度特征學習的模型框架,如圖3 所示,其中包括局部分支和全局分支,分別用于獲取細粒度特征和粗粒度特征。首先,得到每個特征圖的U個補丁,利用U個CNN 對U個補丁分別提取其細粒度特征,從而可以得到U個損失,將其求和平均的結果視為細粒度損失。然后,為每張圖片分配不同的簇中心,每個形狀代表一張圖片,相同的形狀代表相似的身份。使用聚類算法將同一個身份的相似的樣本逐漸合并,通過聯合相斥損失函數和相吸損失函數得到總的粗粒度損失,從而將相似的圖像特征拉到一起,將不相似的圖像特征推遠。

圖3 基于粗細粒度特征學習的模型框架Fig.3 Model framework based on fine-grained and coarse-grained features learning
局部分支學習主要是為了指導補丁網絡在未標記的數據集上學習細粒度特征。在一般的特征學習中,讓同一類的特征在特征空間中更靠近,并且遠離其他類,能夠學習到更具判別性的特征。因此,補丁網絡特征學習的作用是將特征空間中相似的補丁塊拉近,同時將不相似的補丁塊推遠。

其中:t是訓練的次數;l是訓練更新時的更新率表示體量中第i個圖像的第u個補丁的特征是當前更新的局部塊特征。當t=0 時,在未標記的數據集上先進行初始化,再通過式(1)逐一更新。
基于無監督學習框架,本文使用一種基于補丁塊的判別特征損失函數,將相似的特征拉到一起,并推遠不相似補丁塊,從而學習未標記數據集中的補丁特征。該函數計算公式如下:

粗粒度特征學習在全局分支上進行。首先,使用這個和交叉熵損失類似的相斥損失函數來優化卷積模型,將不同人之間的特征差異性擴大。然后,根據一些相同身份的圖片的相似性,將含有相似特征的行人圖片當作是同一個目標人物,使用一個相吸損失函數來減少同一類內的差異性,并將相同類組合起來當作一個聚類,再由卷積網絡算法最大化聚類中心的差異性來更新參數,聯合相斥和相吸損失函數進行粗粒度特征學習。最后,通過將屬于同一個聚類間的特征向中心聚集,使聚類內部的差異性最小化,增加屬于同一個身份的圖片的特征相似度,利用特征空間中的結構化信息,根據最小距離準則對數據進行聚類合并。
定義一張圖片x屬于第c個聚類中心的概率為:

其中:C表示當前狀態下聚類的個數,在最初狀態,C=N,就是給每一個圖片賦予一個人聚類身份,讓聚類的個數等于圖片的數量,當相似的圖像被逐漸地進行合并,聚類C的數量就會慢慢減少;用于計算數據xi特征空間中的l2范數,即||νi||=1;V∈是一個查詢列表,用于存放每一個聚類的特征;Vj表示V的第j列特征;τ是一個標量參數,其作用是便于對概率的取值區間進行控制。在本文后續的實驗中,將τ設置為0.1。在之前的操作中,通過算式VT·νi來計算數據xi和其他數據間的余弦相似度,而現在,使用來計算 表V的第列數據,將原來聚類的特征與新的數據特征進行求和并求平均。在此基礎上,使用式(4)所示的損失函數優化卷積模型,將其作為相斥損失函數來放大不同身份圖片的差異性:

對式(4)進行最小化操作的結果可以從式(3)的分式上明顯顯示。分母:計算每個圖像特征νi與每一個聚類中心特征之間的余弦距離,然后將其最大化;分子:計算每個圖像特征νi與相對應聚類中心特征之間的余弦距離,并將它最小化。在后續優化的步驟中,Vj列舉了第j個聚類中心中所包括的全部圖片的特征,將其作為該聚類的“中心點”。在模型訓練階段,計算聚類中心的時間復雜度很高,通過查詢表格V的方法來節省冗余的計算過程,能夠省去多余的反復提取特征并存儲的過程。
在此基礎上,本文提出在區分聚類中心、放大差異性的同時也可放大相同類間的相似性,將不同攝像頭下相差明顯但具有同一身份的行人圖片聚集在一起。給出對應的相吸損失函數,如式(5)所示:

全局分支的粗粒度特征損失函數公式如下:

其中:β是被用來平衡相斥和相吸這兩個損失函數的超參數;m代表行人圖片數的總和。通過聯合損失函數的操作來對算法模型進行特征學習和參數更新。
在聚類不斷生成的過程中,需要聚類合并策略的參與,將相似的樣本歸于同一類,將相異的樣本歸于不同的類。進行聚類合并的一個關鍵點在于每次迭代中形成的聚類之間以及它們和樣本之間距離的計算。本文對于計算聚類A和聚類B之間的相似度值D(A,B)使用最小距離準則。合并公式如下:

其中:d(xa,xb)表示行人圖片在特征空間中的歐氏距離,即d(xa,xb)=||νa-νb||。
在每一次的聚類合并過程中,定義n=N×γ,通過此公式來計算減少的聚類中心的個數,其中:γ∈(0,1)表示聚類的速度。在合并的過程中,剛開始有N個樣本圖片,每一個樣本圖片都被定義成單獨的一個聚類,所以,聚類的個數初始化就是C=N,通過每一次合并,所有聚類中距離最小的n個聚類就被合并減少,在經歷了t次合并操作后,聚類的個數就會隨之減少到C=N-t×n。
基于以上無標簽數據集框架中所使用的粗粒度特征學習損失函數和細粒度特征學習損失函數,最終每張目標行人圖片所形成的總的聯合損失函數可以表示如下:

其中:U表示一張圖片的補丁塊的個數;λ是一個控制權重的參數。
在Market-1501 和DukeMTMC-reID 這2 個大型數據集上進行實驗,使用ResNet-50 卷積網絡作為整個算法的骨干網絡,并使用ImageNet 數據庫預訓練權重來初始化模型。在實驗操作中刪除了最后一個完全連接層,并將最后一個殘差塊的步幅設置為1,將參數k設置為15,參數s也隨不同數據集而設置不同的數值,在Market-1501 中將其設置為15,在DukeMTMC-reID 中將其設置為5,參數β設置為0.5,將參數τ設置為0.1,聚類速度γ設置為0.05,參數λ設置為0.8,訓練次數設為60,一次的體量大小設為32,使用動量為0.9 的隨機下降梯度方法訓練模型。
在Market-1501 和DukeMTMC-reID 數據集上進行測試,將本文方法與經典的先進方法進行性能對比,表1、表2列出了比較結果??梢钥闯觯涸贛arket-1501數據集上,本文方法Rank-1 的性能結果比所有對比方法的最優結果提高了5.76%,平均精度均值(mean Average Precision,mAP)性能結果也提高了3.2%;在DukeMTMC-reID 數據集上,Rank-1 的性能結果比對比方法的最優結果提高了5.07%,mAP 性能結果也提高了5.6%。

表1 在Market-1501 數據集上各算法的性能比較Table 1 Performance comparison of each algorithm on Market-1501 dataset %

表2 在DukeMTMC-reID 數據集上各算法的性能比較Table 2 Performance comparison of each algorithm on DukeMTMC-reID dataset %
對表1、表2 數據的具體分析如下:
1)與基于手工特征表示模型的對比
與局部最大出現率(LOMO)[16]、無監督多任務詞典學習詞袋(Bow)[17]、無監督多任務字典學習(UMDL)[18]等手工特征方法相比,本文方法具有性能優勢,這是因為對手工特征的研究是在Re-ID 研究的早期開始的,在大部分早期研究中沒有太多可參考的學習方法,因此難以學習出色的區分特征。
2)與基于深度學習特征表示模型的對比
(1)偽標簽學習。與跨視圖非對稱度量學習(CAMEL)[19]、漸進無監督學習(PUL)[20]等基于無監督模型的偽標簽學習方法相比,本文方法具有性能優勢。這是因為對比方法通過比較視覺特征直接分配偽造標簽,并且忽略了潛在的歧視性信息,從而導致效果不理想。
(2)無監督域適應。與行人再識別的生成對抗網絡GAN(PTGAN)[9]、可轉移的屬性身份深度學習(TJ-AIDL)[21]、保持相似性的對抗網絡(SPGAN)[12]、多任務中級特征對齊(MMFA)[22]、CamStyle[23]、異質學習(HHL)[13]、多標簽參考學習(MAR)[24]等基于無監督域自適應的方法相比,本文方法具有性能優勢。這是因為多數對比方法都僅僅考慮了源域中有判別性的特征信息,而忽視了在未標記的目標域中的具有有效判別性的潛在信息,并且源域中有判別性的特征信息會隨著數據集的改變而有很大不同,所以在目標集中減少其本身的有效性與多樣性。同時,由于圖像塊之間的相似度必定比圖像的相似度大,因此本文方法的局部分支基于圖像塊來學習特征比基于圖像的效果好。
3.3.1 全局分支中相吸損失函數分析
對全局分支中有無相吸損失函數的模型進行對比實驗,結果如表3 所示,可以看出,相吸損失函數在2 個數據集上對整體算法性能都有很大的提升作用。

表3 無標簽數據集中有無相吸損失函數的對比結果Table 3 Comparison results whether or not have attracted loss on the unlabeled datasets %
為更直觀地驗證相吸損失的效果,進行可視化效果展示,如圖4 所示。在此分支中,如果沒有相吸損失函數,那么在特征空間中的學習過程中就會有一個較大的類內差異的情況出現。相反,加入相吸損失函數就會將聚類中心聚攏。同時學習每個聚類中心,即可顯著提升深度特征的判別力,來增加每個身份的相似性。

圖4 有無相吸損失的可視化效果對比Fig.4 Visual effect comparison of whether or not have attracted loss
3.3.2 局部分支中細粒度損失函數分析
從表4 可以看出,加入細粒度損失函數之后,在2 個數據集上,性能結果都好于未使用的時候,主要原因是該損失函數可以為模型提供有效的指導,其可視化展示如圖5 所示,當沒有細粒度損失函數時在Rank-5 時,由于衣物與鞋子的相似度就誤以為是目標行人,忽略了背包的差異性,導致識別錯誤,因此對于每一張行人圖片,位于不同圖像區域的特征具有不同的信息,使用不同的網絡分支去細化的學習未標記數據集上不同的局部人體的補丁特征,可以更精確地提取到可能被忽略的特征,最終能夠得到對行人不同的局部特征更有判別力的模型。

表4 無標簽數據集中有無細粒度損失函數對比結果Table 4 Comparison results whether or not have fine-grained loss on the unlabeled datasets %

圖5 有無細粒度損失的可視化對比Fig.5 Visual comparison of whether or not have fine-grain loss
3.3.3 聚類合并準則的有效性分析
觀察3 種常見的聚類合并準則,通過比較在Market-1501 數據集中的結果選擇最小距離準則,如表5 所示。當使用最小距離準則時,Rank-1 準確率最高,其次是中心距離準則,最低的則是最大距離準則。因為數據集有不同的攝像頭的圖片,而在不同的攝像頭下,相同的人的不同圖片會有較大的外表特征的差異,所以,使用最大距離準則會放大差異性,導致不能合并來自不同攝像頭下的同一人的圖片。

表5 3種常見的聚類合并準則在Market-1501數據集上的結果Table 5 Results of three common clustering and merging criterias on the Market-1501 dataset %
3.3.4 粗粒度損失中參數β的分析
在全局分支上,聯合相斥和相吸2 個損失函數,相斥損失放大不同身份的樣本之間的差異性,相吸損失拉近相同身份之間的相似性。如圖6、圖7 所示,評測準則Rank-1 和mAP 直到β的值達到0.5 時結果最優。由此可以得出以下結論:相斥損失相較于吸引損失貢獻了相近的能量值。

圖6 參數β 對評測準則Rank-1 的性能影響Fig.6 Performance impact of parameter β for the evaluation criteria Rank-1

圖7 參數β 對評測準則mAP 的性能影響Fig.7 Performance impact of parameter β for the evaluation criteria mAP
3.3.5 損失函數中權重λ的分析
總損失中參數λ的影響如圖8、圖9 所示,可以看出,將全局的粗粒度損失和局部的細粒度損失組合起來得到了更好的結果,細粒度損失學習到了具有判別性的細粒度特征,粗粒度損失指導了具有判別性的粗粒度特征學習,其中Rank-1 和mAP 隨著權重λ的增加一直持平穩上升的趨勢,直到0.8 時達到最高點,所以將設置λ=0.8??梢钥闯觯毩6葥p失貢獻的性能略多。

圖8 權重λ 對評測指標Rank-1 的性能影響Fig.8 Performance impact of parameter λ for the evaluation criteria Rank-1

圖9 權重λ 對評測指標mAP 的性能影響Fig.9 Performance impact of parameter λ for the evaluation criteria mAP
本文提出的行人再識別無監督學習框架,通過基于相斥和相吸的特征學習聯合損失指導未標記數據集中的粗粒度特征學習,使用最小距離準則增加不同相機下同一目標行人之間的相似性,并從全局和局部2 個方向學習判別性特征,提高算法模型的性能。下一步將對判別特征與損失函數進行優化,提取出全面且極具判別性的特征,同時對損失函數加以改進,使算法模型能夠較好地達到收斂狀態,減小模型數據結果的誤差,從而提高整個網絡算法的判別精度。