針對目標遮擋的自適應特征匹配網絡

2023-12-19 13:14:48蘇宏陽楊大偉

光學精密工程 2023年22期

毛琳，蘇宏陽，楊大偉

（大連民族大學機電工程學院，遼寧大連 116600）

1 引言

目標跟蹤是計算機視覺領域中一個重要研究方向，其任務是準確跟蹤給定視頻序列中的標注目標，如行人、車輛、動物等。目標跟蹤應用非常廣泛，如視頻監控、自動駕駛、機器人視覺等，但由于目標在視頻中普遍存在遮擋、消失等現象，會極大降低現有算法的準確性和魯棒性，使算法在實際應用中可靠性降低。

目標遮擋是目標跟蹤中常見挑戰之一，傳統目標跟蹤算法往往無法應對目標遮擋帶來的問題，導致跟蹤效果下降。近年來，研究者們開始使用深度學習來解決遮擋問題。一類基于深度學習的目標跟蹤算法利用強化學習思想，在目標遮擋的情況下，動態調整跟蹤器行為，以適應目標的變化。例如，ATOM［1］（Accurate Tracking Overlap Maximization）通過設計兩個模塊，一個模塊進行訓練，不斷增強檢測框與真實結果重疊率，另一個模塊則是分類模塊，用于前景背景判別，以此獲得更高的跟蹤精度。PrDiMP［2］（Probabilistic Regression for Visual Tracking）則在ATOM 基礎上，通過融合置信度回歸方法，進一步優化概率回歸模型，取得更加準確的回歸結果。另一類基于深度學習的目標跟蹤算法則采用孿生神經網絡結構，以SiamRPN［3］為基礎的許多目標跟蹤算法將目標跟蹤看作一個相似度匹配問題，通過學習模板和搜索區域的相似度來進行目標定位，配合復雜的特征后處理來應對目標遮擋、目標消失等挑戰。如通過級聯區域建議網絡（Region Proposal Network，RPN）［4，5］，來生成更多的區域建議框，以達到更準確的跟蹤。此外，還有一些目標跟蹤算法利用分割技術，在原有的分類和回歸分支基礎上，增加預測目標分割掩碼的分支［6-7］，通過分割算法將目標分割出來，將跟蹤問題轉化為一個前背景分類問題，實現跟蹤和分割的互補，提高了跟蹤的準確性。以上算法均取得不錯成績，但由于引入復雜的特征后處理，導致更多的計算，并且更加依賴超參的設置。總的來說，基于深度學習的目標跟蹤算法已經取得了一定進展，但面對目標完全遮擋時，算法很難找到目標位置，往往需要設計繁瑣的手工特征和復雜的特征后處理。

在最近，Fei Xie 等人提出EoC［8］（Extract or Correlation）模塊，EoC 模塊中集合了自注意力和交叉注意力（Self-Attention，SA；Cross-Attention，CA），作者以EoC 模塊構建骨干網絡，通過在特征提取過程中不斷計算相關性，獲得良好的跟蹤性能。而Yutao Cui 等人則在MixFormer［9］中提出了一種混合注意模塊（Mixed Attention Module，MAM），可以同時進行特征提取和特征融合，獲得優異的算法性能。

同時，在目標分割領域，針對時間信息利用不充分的問題，Oh Seoung Wug 等人提出了一種基于時空記憶網絡的視頻對象分割方法［10］，通過在時間和空間維度上建立記憶單元來捕捉視頻中對象的運動和形狀信息。Xie Haozhe 等人提出了一種高效的區域記憶網絡［11］，通過學習目標區域和背景區域之間的相互關系來提高分割精度和效率。Paul Matthieu 等人提出了一種局部記憶注意力網絡［12］，利用局部上下文信息來提高分割效果，并加速模型推理。Wang Hao 等人提出了一種時序記憶注意力網絡［13］，通過在時間維度上建立記憶單元來建模視頻序列的長期依賴關系，從而提高視頻對象分割的精度。

綜上所述，為解決目標跟蹤中常見的目標遮擋問題，本文算法結合相關濾波和MixFormer 的思想，提出一種自適應特征匹配網絡，該網絡通過目標特征互相關計算，對目標特征進行自適應加權，提高特征匹配準確度。同時，本文借鑒分割領域中記憶網絡的思想，構建一個特征記憶網絡，用于緩解目標跟蹤中時間信息利用不充分問題。通過利用特征記憶網絡，算法能夠更好地適應跟蹤目標在時間序列中的運動和變化，即使在目標完全遮擋時也能自適應推斷目標位置，從而提高跟蹤的精度和穩定性。在數據集上的實驗結果表明，本文算法在解決目標遮擋問題方面具有更好的表現，能夠更準確地跟蹤目標，并且在完全遮擋情況下也能保持較高的跟蹤精度。

2 自適應特征匹配網絡

針對目標遮擋的自適應特征匹配網絡算法框架在文獻［14］的基礎上構建，如圖1 所示，可將其分為四個部分：骨干網絡、自適應特征匹配網絡（Adept Feature Match Network，AFMN）、特征記憶網絡（Feature Memory Network，FMN）、分類回歸網絡。

圖1 整體網絡框架Fig.1 Overall network framework

2.1 骨干網絡

在運動目標的處理過程中，常常會遭遇尺度變化和遮擋等問題，這時無法獲取完整的目標特征，只能獲得局部特征，這就可能導致跟蹤錯誤。因此，本文旨在研究如何有效利用局部特征。為實現這一目標，本文采用Inception V3 作為骨干網絡，并進行遷移學習。Inception V3 同時使用多個尺度的卷積核來提取特征，這種設計使得模型能夠適應不同尺度的圖像，提高了模型的魯棒性。此外，該模型還采用1×1 卷積核來減少模型的參數量和計算復雜度，同時增加了模型的非線性和表達能力。通過卷積層、池化層、批量歸一化等操作，該模型將輸入圖像轉換為高維特征向量，并逐漸提取越來越抽象的特征，以區分不同的目標，為后續處理和跟蹤任務提供支持。

在訓練過程中，使用相同的結構來構建查詢幀和記憶幀的骨干網絡，但不共享它們之間的權重，將其分別表示為Φq，Φm。在骨干網絡提取特征完成后，分別使用自適應卷積層τq，τm對骨干網絡的輸出進行處理，以適應后續的特征處理操作，具體可用公式表示為：

2.2 AFMN

在目標跟蹤中，大多數算法通常依賴目標區域特征來進行跟蹤。然而，當目標發生遮擋時，無法獲取目標完整信息，導致算法在前背景分類和檢測框回歸時出現偏差，使得預測位置偏離實際軌跡，就會產生跟蹤漂移的問題，如圖2 所示。

圖2 跟蹤漂移示意圖Fig.2 Schematic diagram of tracking drift

針對目標遮擋產生的跟蹤漂移問題，分析其產生原因，以圖2 為例，由分數響應圖可以看出，在分類階段，由于目標被遮擋，目標區域得分急劇降低，又因為存在與目標相似的背景，導致算法錯誤的給背景賦予較高分數，而將目標分類為背景。由跟蹤圖可以看出，在回歸階段，受前背景分類的影響，導致回歸精度大大降低。進一步，在進行下一幀跟蹤時，由于受到前一幀跟蹤結果的影響，算法將上一幀跟蹤結果進行特征匹配，使算法誤把背景作為目標進行跟蹤，造成了跟蹤漂移的問題。

針對上述問題，本文在實驗中發現，獲得骨干網絡提取的特征后，其多通道的特征圖中存在許多相似或重復的特征，這可能會對特征匹配造成干擾，尤其在目標遮擋時更為明顯。

為解決這個問題，如圖3 所示，對骨干網絡的輸出fq和fm，將其按通道拆分為h份，拆分過程可表示為：

圖3 特征圖拆分示意圖Fig.3 Schematic diagram of feature map splitting

將二者進行分頭后，不僅可以解決相似和重復特征對跟蹤造成的影響，還可以通過多次計算fq和fm之間的相似度，對二者的相似性關系進行多維度觀察，提高特征的利用效率，并進行自適應的特征檢索，為特征匹配提供更多參考，減小誤判的可能。如圖4 所示，在進行特征圖拆分后，通過多次計算相似性關系，生成多個目標響應，為算法提供更多選擇，通過訓練，最終實現正確的跟蹤。

圖4 多響應分數圖Fig.4 Multi-response fractional graph

因此，為了更準確地確定目標位置，本文將骨干網絡提取的特征進行分頭，提出一種基于相關濾波和注意力的方法，計算目標逐像素的相似度，通過被遮擋目標暴露部分進行局部到局部的特征匹配，從而顯著提高目標定位精度。該方法將特征圖轉換為一維向量，并通過計算特征圖向量像素間的點積相似度，判斷不同特征之間的互相關程度。然后，將這些點積相似度作為權重系數組成權重矩陣，對記憶幀特征圖進行加權，篩選目標特征，并與查詢幀特征拼接，最終進行分類回歸操作，實現自適應的特征匹配。這種方法可以更好地解決目標遮擋問題，提高跟蹤算法的精度和魯棒性。整體結構圖如圖5 所示。

圖5 AFMN 結構圖Fig.5 AFMN block diagram

圖6 特征圖向量示意圖Fig.6 Schematic diagram of feature map vector

隨后，通過矩陣乘法計算向量qi和mj之間的點積相似度，由點積的幾何意義可知，兩個向量之間的點積結果越大，則代表兩個向量越相似，以此獲得權重矩陣wk，可表達為如式（4）所示：

式中，通過矩陣乘法的方式，實現了計算不同特征圖像素之間的點積相似度為計算獲得的2 維矩陣，其中每個元素代表了和特征圖任意兩個像素點之間的相似程度。隨后，使用softmax 函數對其進行歸一化處理，為權重矩陣不同元素賦予相似度分數，將其表達為式（5）的形式，式中，exp 為指數操作，作為除數防止指數操作過程中數值溢出，θ為qi和mj的相似度夾角。可以得出，wk經過softmax 函數歸一化處理后，其中每一元素都根據相似程度被賦予不同的相似度分數，將其對進行特征加權，便可對中不同目標特征實現自適應的注意操作，可表達為如式（6）所示：

式中，為方便計算，將權重矩陣wk進行轉置，表達為(wk)T，并與'進行矩陣乘法計算，其中，，包含了和任意兩個特征圖像素點的點積相似度，則包含記憶幀C h個通道的特征圖像素點。使用權重矩陣wk對的每一通道、每一像素點進行自適應加權，以關注的不同區域，并獲得概率矩陣Mk，并將其簡化為式（7）。式中，cosθ，cosβ為向量點積之間的夾角，i，j分別為qi和mj的索引，v為mj像素點的索引。當i，v=1 時，代表特征圖第1 個像素點與第1 個通道特征圖的全部像素點相似度總分。當i=HW，v=C h時，代表特征圖第HW個像素點與第C h個通道特征圖的全部像素點相似度總分。

圖7 點積相似度計算Fig.7 Calculation of point-product similarity

其中：h為所分頭數，k為頭數的索引，C，H，W分別表示矩陣的行數、列數和通道數。

通過式（8）計算得到的概率矩陣涵蓋記憶幀中所有可能目標特征，即使目標被部分遮擋也能自適應檢索目標的局部特征，并通過局部特征匹配來完成跟蹤過程。將該概率矩陣與查詢幀特征矩陣進行拼接，可得到AFMN 模型的最終輸出Y。具體可表達為：

該輸出能夠指導后續的分類和跟蹤任務。具體來說，上述方法獲得的輸出能夠有效關注目標特征信息，在進行特征匹配時給予目標所在區域更高的評分，從而實現更精確的跟蹤結果。

2.3 FMN

為有效利用歷史幀提供的目標信息，本文算法將回歸跟蹤框后的圖像幀存儲在特征記憶網絡中。在每次跟蹤新的查詢幀時，從FMN 中選擇相應的記憶圖像，并通過骨干網絡進行特征提取。由于孿生神經網絡的特性，骨干網絡可以提取與查詢幀目標相似的特征。將記憶特征與查詢幀特征一起輸入到AFMN 中，即使目標被遮擋，由于AFMN 是逐像素計算相似度，因此也可以實現局部到局部的特征匹配。本文認為初始幀包含最準確的目標特征，而與查詢幀相近的記憶幀包含與查詢幀最相似的特征，因此記憶幀包含第一幀和查詢幀的前一幀，余下T-2 幀通過以下公式來進行選取：

其中：T為要選取的幀數，P為當前幀的索引，l為間隔系數，即隔多少幀選取一張記憶幀，idx即為最終的記憶幀索引。通過記憶幀的選取，整個算法通過對多幀目標位置進行學習，在目標被完全遮擋時，也可以自適應推測目標存在位置，并具有較高的精度。

2.4 分類回歸網絡

根據文獻［15］閱讀發現，無錨檢測器在檢測框的標定和回歸方面表現更佳且參數更少，因此采用無錨頭網絡進行分類回歸任務。如圖8 所示，該網絡包含分類分支、中心度分支和回歸分支，每個分支分別使用輕量級網絡γcls，γreg中的七個卷積層對AFMN 傳入的數據進行處理，然后使用單個卷積層wcls，wctr，wreg將其降維以進行分類回歸。分類分支用于目標背景分類，中心度分支使用FCOS的中心度公式來加強預測框回歸效果，回歸分支直接估計目標位置并進行檢測框標定。

圖8 分類回歸網絡Fig.8 Classification regression network

在本任務中，為解決目標遮擋問題，采用一系列損失函數。首先，分類分支采用FocalLoss損失函數，可用公式表示為：

其中：Loss表示損失函數值，N表示批次大小，H和W分別表示預測結果的高度和寬度，pij表示預測結果中位置i，j的概率，mij表示掩碼，α和γ是可調節的超參數，用于表示損失的重要程度。該損失函數能夠有效應對樣本不均衡的情況。通過調整難易樣本的權重，FocalLoss 使模型更關注難以跟蹤的目標，從而提高對少數類別目標的學習能力，進一步提升跟蹤準確性。

其次，中心度分支使用交叉熵損失函數，并結合特征圖像素點與目標中心點的距離進行權重賦值。可用公式表示為：

其中：yi是目標中心度的標簽，y?i是預測的中心度值，N是樣本的數量，λ是權重參數，用于調節損失值權重。通過交叉熵損失函數對比預測的中心度值和目標中心度的標簽值，來衡量模型的中心度預測準確程度，并對背景標簽進行了排除。最終計算所有樣本損失的平均值，并根據權重參數進行損失調節。這種距離加權策略能夠抑制遠離目標中心點的像素得分，使模型更加關注目標的中心區域。

對于回歸分支，采用IOU 損失函數來擬合更準確的預測框坐標。可用公式表示為：

式中，IOU代表預測框與標簽的交并比。

最后，將上述損失函數作為子損失函數，采用多元交叉熵損失進行最終的損失計算，權重比例為0.2∶0.2∶0.6。這樣的設置在文獻［14］中得到了論證，能夠綜合考慮分類、中心度和回歸任務，使模型更好地適應目標跟蹤任務的特性，提升整體性能。

3 實驗結果分析

3.1 實驗設計

本文網絡使用GOT-10k，COCO 和LaSOT數據集進行訓練。骨干網絡采用預訓練的Inception V3 模型，將AFMN 的h和FMN 的T都設為3，訓練過程采用SGD 優化器，整個訓練過程包括20 個周期，每個周期包含38 000 個數據，初始學習率設為1×10-6，在第一個周期，采用線性學習率，使其增長至6×10-3，隨后兩個周期，采用余弦退火學習率，學習率從6×10-3呈余弦變化下降至1×10-6，并在后續所有周期中保持1×10-6不變。

3.2 算法對比

為了全面地驗證本文算法的有效性，在多個目標跟蹤數據集上進行了測試，包括OTB-2015，VOT2018，GOT-10k 和LaSOT 數據集。這些數據集具有挑戰性和多樣性，能夠評估算法在不同場景下的魯棒性和準確性。

在測試中，本文算法表現出良好的跟蹤效果。如表1 所示，算法在OTB-2015 數據集上表現出色，跟蹤精度優于大多數的跟蹤器。但在VOT2018 數據集中，如表2 所示，跟蹤準確度低于絕大多數跟蹤器，魯棒性卻優于其他跟蹤器，這是因為VOT2018 評估工具中所提供的跟蹤框是旋轉的，而本文算法回歸的跟蹤框是平行于x軸和y軸的，因此在VOT2018 數據集中的表現會受到一定影響，但這也側面印證了本文算法具有良好的魯棒性。此外，如表3 所示，在GOT-10k數據集上，算法也取得很好的跟蹤效果，相比于STMTrack 算法，AO提高了1.8%，SR0.5提高了2.4%，SR0.75提高了1.9%，并且超過了平均性能水平。在LaSOT 數據集上，本文算法也表現出了競爭力，能夠在跟蹤任務中取得良好的結果。總的來說，本文算法在多個數據集上的測試結果都表現出了較好的魯棒性和準確性。同時，針對目標遮擋、目標消失和背景干擾等情況時，具有更高的魯棒性。面對復雜場景時的跟蹤效果在可視化分析部分進行展示。

表1 在OTB-2015 數據集上，AFMN 與其他跟蹤器的比較Tab.1 On the OTB-2015 dataset， AFMN compares to other trackers

表2 在VOT2018數據集上，AFMN 與其他跟蹤器的比較Tab.2 AFMN compares to other trackers on VOT2018 dataset

表3 在GOT-10k 和LaSOT 數據集上，AFMN 與其他跟蹤器的比較Tab.3 AFMN compares to other trackers on GOT-10k and LaSOT dataset

3.3 可視化分析

為了驗證本文算法在目標遮擋場景下的性能，本節使用包含遮擋目標的視頻序列進行算法性能的評估和分析，將本算法與STMTrack 算法進行對比，如圖9 所示，本文算法在面對目標遮擋和目標消失時，仍然可以準確對目標進行定位和跟蹤，在圖9（c）中，目標被完全遮擋，由于本文算法是多記憶幀計算目標相似度，網絡可以隱性的學習目標運動趨勢，進而對目標所在位置進行估計，所以實現了更準確的跟蹤。這些結果表明，本文算法可以有效地解決遮擋問題，提高跟蹤精度和魯棒性。進一步證明了本文算法在目標遮擋狀態下的有效性。

圖9 可視化對比Fig.9 Visual comparison

同時，圖10 展示了本文算法在目標遮擋場景下更多的跟蹤效果，在圖10（a），圖10（c）和圖10（d）中，目標被部分遮擋，均實現了準確跟蹤，在圖10（b）中，目標短時間內完全消失，本文算法依舊自適應推斷出了目標位置。實驗結果表明，本文算法在目標遮擋狀態下具有良好的魯棒性和穩定性。

圖10 目標遮擋場景下的可視化結果Fig.10 Visualization results in the object occlusion scenario

3.4 消融實驗

為驗證AFMN 中特征圖拆分份數對跟蹤結果的影響，僅在GOT-10k 數據集上進行訓練和測試。該數據集包含超過10 000 個視頻序列，其中涵蓋了大量目標遮擋場景，因此能夠有效驗證本文算法的有效性。實驗結果如表4 所示。

表4 h 對AO 的影響Tab.4 Influence of h on AO

根據表4 可以得出結論：當特征圖被拆分為3 份時，跟蹤效果最佳。這是因為特征圖中存在許多重復的特征通道，將其分成多份后可以進行多個角度的相似度比較。但由于特征圖通道數有限，若份數過多，則每份所包含的目標特征就不足以充分表達目標特性，會忽略部分特征，從而導致跟蹤精度降低。

為驗證FMN 中記憶幀數對跟蹤結果的影響，同樣在GOT-10k 數據集上進行訓練和測試，并得到實驗結果，如表5 所示。

表5 T 對AO 的影響Tab.5 Influence of T on AO

根據表5 的數據，當記憶幀數為3 時，跟蹤效果最佳。這是因為過少的記憶幀無法提供足夠的目標表觀信息，從而導致跟蹤結果不佳。而當記憶幀過多時，如在目標遮擋的場景中，跟蹤器會更傾向于匹配相似度最高的區域，而忽略被遮擋的目標，從而導致跟蹤精度降低。因此，選擇適當的記憶幀數可以提高跟蹤器的性能。

4 結論

本文針對目標遮擋問題提出了一種自適應特征匹配網絡，該網絡通過一個有效的模塊AFMN 對骨干網絡提取的特征進行處理，并將目標遮擋問題轉化為背景估計和目標位置估計的聯合優化問題，通過計算記憶幀與查詢幀的像素級相似度，將目標和背景分別編碼，進而確定某一區域屬于背景或目標，以此來提高目標跟蹤的精度和魯棒性。并且，通過特征記憶網絡對記憶幀進行挑選和保存，為特征匹配提供額外的表觀信息，同時使網絡隱性的學習目標運動趨勢，進而實現更好的跟蹤結果。在Got-10k 數據集上的實驗結果表明，本文所提出的算法與STMTrack算法相比，AO值提升1.8%，SR0.5提升2.4%，SR0.75提升1.9%，在使用一張NVIDIA 1080Ti顯卡時，運行速度可達21 FPS。并且在處理目標遮擋問題時具有良好的性能表現，與當前流行的目標跟蹤算法相比具有更高的精度和更強的魯棒性。