龔琳茜
(南京理工大學計算機科學與工程學院 南京 210094)
在視頻序列中選中目標人員,并在序列中進行持續的身份識別與跟蹤,可以被用于安防、交通、城市治安等領域,具有廣闊的應用前景。而深度學習作為一種工具,具有強大的特征表達能力,被廣泛應用于這類視覺目標檢測、識別與跟蹤的應用中。
目標身份識別與跟蹤的前提是穩定的目標檢測。目前,先進的目標檢測算法有基于區域生成網絡(RPN)的Fast-RCNN[1]、Faster-RCNN[2]等,和去除區域生成而降低了計算成本的YOLO[3~6]系列算法。其中,YOLO 系列算法在準確性與實時性中都取得了顯著的效果。最新的模型YOLOv4 在MS COCO數據集上在65 FPS的實時率下取得了43.5%的平均精度[6]。本文的目標檢測與提取方法將基于YOLOv4進行。
身份識別基于對目標人員區別于其他人員的特征。本文基于深度殘差網絡ResNet[7]進行候選目標特征提取,經過在人員識別數據集上的訓練,模型能夠將目標人員與其他候選目標的關聯性加以度量。通過候選目標特征與預提取的模板目標特征的關聯,達成前后幀的目標持續跟蹤。
如圖1 所示,本文基于YOLOv4 對視頻序列進行目標檢測,提取出所有疑似的候選目標人員。基于ResNet 訓練目標身份識別網絡,提取所有司儀人員的深層特征,對其到目標特征模板進行距離度量,區分目標人員與其他偽目標,達到身份識別與跟蹤的效果。

圖1 整體網絡結構示意圖
目標檢測算法應用特征提取網絡進行淺層基礎特征的提取,常用的特征提取網絡有AlexNet[8],VGG[9],ResNet[7],DarkNet[4]等。本文的目標檢測方法基于目前在實時性與準確性上達到折中效果的深度學習網絡YOLOv4[6]。前作YOLOv3使用Dark?Net53 作為基礎特征提取網絡,引入了殘差模塊[7]和Bottleneck[10]結構以解決深層傳遞模型參數時梯度消失的問題。在一塊Titan X 顯卡上獲得了57.9 AP50的成績。
YOLOv4 在前作使用的DarkNet53 的基礎上提出了CSPDarknet53作為特征提取網絡,在每組殘差模塊上加上CSP[11]結構。如圖2 所示,CSP 結構將該層的特征映射過程分為兩個部分,第一個部分將經過取消了Bottleneck的DarkNet網絡層模塊,另一部分則直接或經過簡單卷積層后,到達下一個網絡層級進行結合。這樣的網絡設計成功減少了參數規模,使訓練難度降低,并能加快神經網絡的前向推理的速度。使得YOLOv4 在前作的基礎上,獲得了更好的實時性能。

圖2 CSP模塊示意圖
YOLOv4 使用Mish[12]激活函數代替前作使用的Leaky ReLU[13]激活函數。Leaky ReLU 的定義如下:
相較于Leaky ReLU,Mish 激活函數保證了每一點的平滑,從而使下降效果較其更佳。Mish激活函數定義如下:
通過基礎特征提取網絡提取到了一些相關的淺層特征,對這部分淺層特征進行增強是目標檢測中關鍵的步驟。YOLOv4 使用的一些特征增強技巧如下:
SPP[14]:SPP是空間金字塔池化技巧,可以使網絡進行多尺度特征提取,使得輸入為任意尺寸時,仍然生成固定大小的圖片。
SAM[15]:SAM是一種卷積的注意力機制模塊,結合了空間和通道的注意力機制,YOLOv4 將空間范圍的注意力機制改為點范圍的注意力機制。
PAN[16]:PAN是一種基于提議的實例分割框架下的路徑聚合網絡。如圖3所示,在YOLOv4中,將融合的方法由和改為乘積。

圖3 YOLOv4對PAN的改進
另外,YOLOv4 沿用了前作的檢測頭,其提取特征主要目的是區別不同目標的種類,因而無法直接進行身份識別判斷。在目標人員識別的應用場景中,YOLO 檢測的目標類別被設定為人類,并在視頻序列中檢測出候選人員,以進行后續的人員身份識別。
盡管YOLO 使用的DarkNet系列網絡在目標檢測上具有更強大的性能,其在圖像分類領域不是最優的特征提取網絡。本文綜合考慮算法的實時性和精度,基于ResNet 訓練身份識別網絡。在不同深度的ResNet 上進行訓練實驗的結果表明,該方法具有有效性。
由于網絡的加深會造成梯度爆炸和梯度消失的問題,常規的卷積神經網絡收斂速度變慢,且分類準確率表現相對較差。ResNet[7]將計算機視覺領域常用的殘差表征的概念,進一步應用在了CNN模型當中。如圖4 所示的殘差模塊,使用多個有參網絡層來學習輸入、輸出之間的參差。

圖4 ResNet的兩種基本網絡結構
本文基于ResNet 訓練身份識別網絡作為基礎的特征提取器。具體地說,基于ResNet-18 網絡結構,提取目標檢測網絡輸出的候選人類目標的特征表示,并要求該特征表示具有區別人員身份的獨特性。ResNet-18的基本網絡結構如圖5所示。

圖5 ResNet18的網絡基本結構
不同于一般圖像分類的特征騎去網絡,使用交叉熵損失作為后向傳播的點,結合中心損失[18]作為訓練網絡的基礎。中心損失函數的作用是減少分類結果的類內差異,增大其類內樣本的相似性。
交叉熵損失函數的具體定義如下:
中心損失函數的具體定義如下:
使用中心損失函數作為訓練人員身份識別網絡的損失函數,使得特征提取網絡的輸出特征在類內距離減小,是人員識別有效的手段。對于特征提取網絡的獨特的特征輸出,進行與目標人員特征模板的距離度量,可以判斷目標身份,達到目標判斷與跟蹤的目的。
對數據庫中未知的人員進行持續的身份識別與跟蹤時,一個有效的距離度量是必要的。本文使用均方誤差和作為所有目標特征與所有疑似目標特征之間距離的度量。
使用預訓練的ResNet-18 和ResNet-50 做前向推理時的實時性比較結果顯示,在檢測識別正確率差距較小的情況下,使用ResNet-18 在一塊英偉達1080Ti 顯卡上的跟蹤幀率達到平均50fps,使用ResNet-50 幀率為25fps,使用ResNet-18 的總和效果更佳。

表1 不同網絡框架識別結果對比
本文在常見的動態跟蹤場景中可能出現的情況下進行了實驗,分別有:1)多個偽目標同時存在時,算法對唯一目標的識別;2)目標被其他偽目標遮擋后,數幀之內回到視野中時的識別;3)在目標走出視野后,數幀之內又回到視野中時的識別。如圖6 所示,在多個偽目標存在時,可以對唯一目標進準確的識別;在目標被偽目標遮擋后回到視野中時,可以恢復對目標的識別;在目標被出視野后回到視野中時,可以恢復對目標的識別。

圖6 多種情況下的識別跟蹤效果示意圖
本文在相同的場景下,試驗了核相關濾波算法KCF[19]與基于深度學習的算法GOTURN[20]算法,如圖7、8 所示。在目標在被遮擋后在視野中消失的情況下,本文方法的表現更佳。

圖7 KCF在視野消失場景下的跟蹤表現

圖8 GOTURN在視野消失場景下的跟蹤表現
目標人員身份識別與跟蹤有廣泛的應用前景。本文針對在各種目標丟失場景下的恢復問題,提出了將目標檢測與身份識別結合的跟蹤網絡。實驗表明,其在目標由于視野限值或遮擋后消失的情況下具有有效性。