Transformer框架下面向車輛重識別的特征對齊與判別性增強

2021-02-14 06:24:36羅慧誠汪淑娟

電視技術 2021年12期

羅慧誠，汪淑娟

（昆明理工大學信息工程與自動化學院，云南昆明 650500）

0 引言

當前，車牌識別是確定車輛身份的一種有效手段。但在標清攝像頭下，當車輛距離攝像頭較遠，車牌可能無法清晰成像。此外，有預謀的犯罪往往會采用一些手段（如遮擋車牌、套牌）來逃避攝像頭的監控。在這種情況下，利用車牌識別來追蹤目標車輛顯然是不現實的。為彌補車牌識別存在的缺陷，車輛重識別概念被提出。該技術主要是利用車輛外觀表現出來的特征，從不重疊相機視角識別出與給定車輛身份相同的車輛。由于其在城市安全和公共智能交通等方面具有廣泛的應用前景，該技術受到了計算機視覺和多媒體領域研究者的極大關注。

雖然基于特征表示的車輛重識別方法已取得了極大的研究進展，但由于攝像頭視角的差異、光照變化、復雜背景以及車輛姿態的影響，導致同一輛車在不同相機視角下表現出了巨大的外觀歧義性。此外，具有相同顏色和相同車型的車輛往往不具有相同的身份，這給車輛的身份匹配帶來了極大困難。為解決這一問題，本文在Transformer框架下提出一種面向車輛重識別的特征語義對齊與判別性特征表示方法。該方法首先使用預訓練后的車輛姿態估計模型實現對車輛關鍵點的提取，然后利用關鍵點所具有的語義信息，根據不同圖像塊的坐標，設計一種特征聚集方法，將Transformer中具有相同語義屬性的token劃歸到同一組內，這不僅賦予了token語義信息，同時也實現了特征的語義對齊，提升了特征魯棒性與判別性。進行不同車輛圖像的特征匹配，便能實現具有相同語義屬性的部位進行特征的相似性度量，有利于匹配性能的提升。由于描述同一輛車的不同語義特征之間具有較強的關聯關系，如果能有效利用這一關系，將進一步提升特征的質量。為此，將具有相同語義的token經過自注意力之后作為圖結構的頂點特征，不同語義的token之間的相似度作為邊，構建了圖卷積網絡來對不同語義屬性的特征進一步優化。總結起來，本文的貢獻包括以下3個方面。

（1）本文提出利用預訓練的車輛姿態檢測模型，來引導Transformer中具有相同語義token的特征對齊，實現了具有相同屬性位置車輛特征的相似性度量，解決了車輛由于相機視角變化、姿態差異、光照改變、復雜背景而導致的同一車輛外觀不一致的問題。

（2）提出利用不同屬性特征之間的關聯關系來提升特征的表示能力。為實現此目的，在經過自注意力模塊的特征上，構建了圖卷積網絡，并以此實現了不同類別token特征的信息傳遞。

（3）在兩個大型的車輛數據集（VeRi-776[1]和VERI-Wild[2]）上的實驗結果表明，所提出方法的性能優于大部分最先進的車輛重識別方法的性能。

1 方法

1.1 概述

本文提出的方法主要包括關鍵點引導的特征對齊、基于自注意力的局部特征強化以及屬性特征信息傳遞3個部分。關鍵點引導的特征對齊以Transformer框架作為基線，解析車輛的關鍵點信息，得到精確的語義特征。基于自注意力的局部特征強化關注類別相關信息，對類別相關的特征賦予更大的權重。屬性特征信息傳遞利用不同屬性的語義特征之間的相關性，通過圖卷積網絡進行信息傳遞，提升特征的表征能力。3個模塊以端到端的方式聯合優化網絡。本文提出的方法的整體架構如圖1所示。

圖1 Transformer框架下面向車輛重識別的特征對齊與判別性增強的網絡結構圖

1.2 關鍵點引導的特征對齊

給定一張圖像x∈H×W×C，其中H、W、C分別代表圖像的高度、寬度、通道數量。VIT框架使用滑動窗口的機制滑動圖像x來劃分為部分像素重疊的patch塊，滑動的步長為S，patch的邊長為P，分辨率為H×W的輸入圖像x被分為N個固定大小的patch塊，過程如下所示：

式中：NH和NW分別代表圖像x高度和寬度上的patch塊數量，[·]表示向下取整操作。切分后的patch塊嵌入到網絡的輸入序列中作為局部特征表示。此外，一個額外的tokenfcls也被嵌入到網絡的輸入序列中，用于學習網絡的全局特征表示。輸入到Transformer層的輸入序列的表示如式（2）所示：

式中：Z0表示Transformer層的輸入序列，L是將patch塊映射到D維的線性投影，得到N個token。將輸入序列送入l層Transformer層后，得到特征尺度不變的輸出序列Z1。Z1可表示為：

本文將N個token表示為作為網絡的局部特征表示。將得到的fclsl作為網絡的全局特征表示，使用多頭注意力學習局部特征的分類能力。

在之前的工作[3-4]中，將車輛姿態估計模型輸出的關鍵點信息與卷積神經網絡產生的特征圖結合得到局部特征。然而，Transformer模型不同于卷積神經網絡，其特征提取過程不產生特征圖，因此車輛姿態模型生成的掩膜數據無法直接用在Transformer產生的特征向量上。為了解決該問題，本文通過HRNet[5]預測車輛圖像的關鍵點，由關鍵點坐標確定關鍵點對應的token。

具體來說，將x送入車輛姿態估計網絡HRNet，能夠得到全局特征圖Fg和K個不同位置的局部特征掩模圖因此可以通過式（4）得到不同位置的局部特征圖。

式中：表示全局特征圖和一個局部特征掩模圖逐元素相乘的操作，表示K個不同位置的局部特征圖。

得到局部特征圖后，該特征圖上的最大值所在的像素點的位置坐標即為所需的關鍵點坐標。接著，將得到的關鍵點坐標在VIT框架里選擇對應的token，即從VIT框架的N個token里挑選出符合關鍵點坐標的K個token，每個關鍵點對應的token編號的計算過程如式（5）所示：

式中：H和W分別代表圖像x的高度和寬度表示向下取整操作，滑動的步長為S，patch的邊長為P。對于token塊表示它的關鍵點坐標，ni代表它在局部特征中的編號。因此本文將K個token表示為

依據關鍵點對應的車身區域，可以將關鍵點聚合為m個車輛區域的語義特征，例如和四個token聚合后能夠代表車前身。因此，將車輛相同語義區域對應的token進行聚合可以得到車輛的語義特征。其過程如式（6）所示。

式中：concat(·)代表特征向量按通道concatation操作，FC(·)代表一層完全連接層，代表具有相同語義屬性的token，代表車輛某一區域的語義特征向量。因此，能得到m個語義特征向量

1.3 基于自注意力局部特征強化

將上一個模塊輸出的m個語義特征向量和全局特征向量fclsl作為自注意力模塊的輸入fx。如圖2所示，fx分別經過3個結構相同的線性嵌入的映射函數θ、φ、g，其中線性嵌入的映射函數θ的定義為：

式中：Wθ表示可學習的權重矩陣，可通過1×1卷積實現。

為了突出特征的判別性，需要探索語義特征的重要程度，過程如下所示。

如式（8）所示，先對θ(fx)和[φ(fx)]T使用矩陣相乘的方式表示特征的相關性，再經過softmax函數對不同的語義特征分配可學習的權重，最后權重與g(fx)的積為g(fx)中關鍵的語義特征賦予更大的關注。

為了保留上一個模塊提取語義特征能力的完整性，引入殘差連接，依據式（9）將殘差信息與fx結合。

式中：Wz表示可學習的權重矩陣，可用1×1卷積實現。得到的fz作為屬性特征信息傳遞模塊的輸入。

1.4 屬性特征信息傳遞

在現有的方法中，基于關鍵點或目標檢測方法得到的語義特征通常直接按通道concatation操作進行特征融合，忽略了不同屬性語義特征之間的相關性。不同屬性語義特征之間的相關性可以提升特征的表達能力，例如車頂和前后擋風玻璃，車窗和車身等不同屬性的語義特征間可以相互交互，提高語義特征的質量。為了利用車輛不同屬性語義特征之間的關系，本文構建一個圖卷積網絡來對這些關系進行建模。如圖1所示，其中，語義特征之間的相鄰關系可由鄰接矩陣A∈(m+1)×(m+1)表示，其中m+1是節點的數量。對于鄰接矩陣A，如果語義特征i和j相鄰，例如車頂和前車窗玻璃位置相鄰，則設置A(i,j)=1。為了充分利用相鄰關系，挖掘具有鑒別性的特征，圖卷積模塊通過使用圖中每個節點向其相鄰節點進行信息傳播來實現關系傳遞。在注意力模塊的后面添加兩層的圖卷積，其中每一層r可被描述為：

式中：A∈(m+1)×(m+1)是特征矩陣的鄰接矩陣，E∈(m+1)×(m+1)是A的度矩陣，是第r-1層輸出的特征矩陣，W(r-1)∈D×D是第L-1層可學習的參數，σ(·)是一個Relu激活函數。將基于自注意力的局部特征強化的輸出置為初始的特征矩陣圖卷積網絡中節點L輪信息傳播更新得到圖卷積模塊的輸出

1.5 損失函數

經過3個模塊后，得到優化后的全局特征fclsz和m個語義特征對于全局特征fclsz，通過構建身份損失LIDG和三元組損失LT來優化網絡。其中身份損失LIDG是交叉熵損失，描述如下：

式中：b代表代表第k個樣本的全局特征，yk代表車輛分類第k個樣本的真實身份標簽，代表全局特征分類器，代表分類器預測出的第k個樣本的身份標簽。

此外，本文還通過帶有軟間隔的三元組損失[6]使相同身份車輛圖像具有高相似性，不同身份的車輛圖像具有低相似性。具體優化公式如下：

式中：b代表代表第k個樣本第p個語義特征，yk代表車輛分類第k個樣本的真實身份標簽，代表第p個語義特征的分類器代表分類器預測出的第k個樣本第p個語義特征的身份標簽。

綜上所述，所提出框架的整體損失函數L如下所示，通過最小化L以端到端的方式優化所提出的網絡。

式中：λ表示超參數，表示L中調整語義特征身份損失項的權重。

2 實驗

2.1 數據集和評估指標

在兩個大型的車輛重識別數據集VeRi-776和VERI-Wild上評估所提出的模型。將評估的結果與近兩年最先進的車輛重識別方法進行比較。

遵循文獻[2]和文獻[7]，本文使用平均精度均值（mAP）、Rank-1精度（R1）及Rank-5精度（R5）作為模型的評估指標。

2.2 實現細節

本節介紹實驗中模型架構的詳細信息。

本文使用基于VIT框架的12個Transformer層作為提取特征的主干。將基于車輛姿態估計的HRNet網絡預測的36個關鍵點及其坐標映射到VIT框架里，得到關鍵點對應的36個帶有不同語義信息的token。通過關鍵點將車輛圖像劃分為不同的語義區域，并將具有相同語義信息的token進行聚合，得到13個代表車輛不同區域的語義特征。之后，將Transformer層得到的全局特征和語義特征送入基于自注意力的局部特征強化模塊和屬性特征信息傳遞模塊，得到魯棒性的特征表示。最后對得到的全局特征和語義特征分別做分類損失。

2.3 與最先進方法的比較

本文將提出的方法與現有的車輛重識別方法進行比較，方法分為3類。第一類是基于深度學習的全局特征表示方法。研究人員使用深度網絡從車輛的全局外觀里學習視覺特征，代表性方法包括文獻[8]、文獻[9]、文獻[10]、文獻[11]的方法。第二類是多模態方法，這些方法通常利用車輛背景、車牌、時空上下文等多模態信息，方法主要是文獻[12]的方法。第三類方法是車輛全局和局部特征的表示方法，由于所提的方法探索車輛的局部信息以此得到細粒度的特征，因此也與同樣使用局部信息的方法進行比較。比較的方法主要包括文獻[3]、文獻[13-22]中的方法。比較結果如表1和表2所示，其中，“—”表示無可用數據。

在VeRi-776數據集上的對比實驗：結果如表1所示，提出方法的性能在Rank-1/mAP優于最好的基于語義分割的車輛重識別方法PVEN[23]1.00%/0.64%，在Rank-1/mAP比最好的基于目標檢測的車輛重識別方法Part regular[14]高2.30%/5.84%。此外，所提的方法在Rank-1/mAP上同樣也優于最好的基于關鍵點的車輛重識別方法PAMTRI[3]3.74%/8.26%，并在VeRi-776數據集上實現了最好的性能。

表1 在VeRi-776數據集上的對比實驗

在VERI-Wild數據集上的對比實驗：表2列出了本文方法在VERI-Wild數據集上與其他方法的比較結果，本文方法同樣實現了最好的性能，在VERI-Wild數據集3個測試子集Test3000、Test5000及Test10000上Rank-1分別優于次優方法UMTS[13]3.05%、3.77%和4.64%。本文方法在VeRi-776數據集和VERI-Wild數據集上均實現了良好的性能，這表明了所提方法的有效性和通用性。

表2 在VERI-Wild數據集上的對比實驗

2.4 消融實驗

本節進行一系列的實驗，分別驗證提出的關鍵點引導的特征對齊（SFET）、基于自注意力的局部特征強化（SAFL）和屬性特征信息傳遞（PGCN）3個模塊的有效性。實驗結果如表4所示。其中，基準方法僅用全局特征身份損失LIDG和三元組損失LT約束網絡。加入任意模塊后，使用全局特征身份損失LIDG、三元組損失LT和語義特征身份損失LIDL共同約束網絡。在VeRi-776上進行消融實驗，探究每個模塊的作用。

表4 消融實驗結果

2.5 參數分析

本文涉及一個超參數λ，用來控制語義特征損失項。在VeRi-776進行超參數的分析，結果如圖3所示，對于兩個數據集，當λ∈[0,0.1]時，隨著λ的增加，網絡的識別率在逐步提升，然而，當網絡的性能達到一個最高峰后卻在不停減弱，即λ∈[0.1,1]時，隨著λ的增加，Rank-1/mAP卻在逐步下降，主要的原因是語義特征損失項過大，導致網絡無法擬合。當λ=0.1時，本文的方法在數據集上得到最優的性能，因此根據實驗結果將λ設置為0.1。

圖3 超參數λ的有效性分析

3 結語

本文提出了一種新穎的車輛重識別方法。該方法主要由關鍵點引導的特征對齊、基于自注意力的局部特征強化以及屬性特征信息傳遞3個部分組成。其中，關鍵點引導的特征對齊模塊通過一種新的關鍵點映射模型和Transformer基線得到細粒度的零部件語義特征，基于自注意力的局部特征強化模塊為更顯著的語義特征賦予更大的關注，挖掘出更具有判別性質的信息，屬性特征信息傳遞模塊為零部件的天然相鄰關系建模，使語義特征間相互關聯，促進了多攝像頭下車輛的識別率。本文在兩個基準車輛數據集上的實驗表明了提出的方法在車輛重識別任務上的有效性以及對比同類方法的優越性。