吳鳳嬌,劉 寬,候紅濤,孫收余,趙 凱,羅子江
(1.貴州財經大學信息學院,貴陽 550025;2.北京盛開智聯科技有限公司,北京 101300)
目標跟蹤作為計算機視覺中一個經典的研究問題,被普遍應用于視頻監控、人機交互、自動駕駛和安防監控等領域,人臉作為一個重要的跟蹤對象也不例外。人臉跟蹤的核心思想是根據人臉的重要生物特征在上下文時空中進行特征搜索和匹配,從而得到人臉在視頻序列中的位置和大小信息。目前,人臉跟蹤算法主要包括傳統的人臉跟蹤算法、相關濾波人臉跟蹤算法、基于深度學習的人臉跟蹤算法。傳統的人臉跟蹤算法和基于相關濾波的人臉跟蹤算法大多采用手工特征,手工設計特征局限于經驗性不足,難以達到較好的跟蹤性能。卷積神經網絡的出現以及在人臉檢測領域取得的顯著成果,相繼被運用到人臉跟蹤領域。在精度上表現優異的算法以Nam等提出的MDNet算法為代表。MDNet在精度上表現突出,但在實際應用環境中難以達到實時跟蹤。為解決跟蹤算法實時性低的問題,Bertinetto等人基于相似性判斷提出SiamFC跟蹤算法,該算法僅將模板和搜索區域的距離作為相似性判斷依據,加快算法推理速度,但魯棒性不足。Li等基于RGBT(RGB-Thermal)目標跟蹤研究缺乏綜合評價平臺,提出RGBT234數據集,并提供了相應的評價基線,但其算法復雜度較高,難以實時處理。本文提出多模態余弦相似孿生網絡人臉跟蹤算法,該算法采用可見光(visible spectrum,VIS)和紅外光(infrared spectrum,IR)圖片作為輸入,削減跟蹤算法對光照變化的敏感度,增強算法在光照差異變大的環境中的跟蹤性能,并用余弦相似相關替換互相關層,增強模板與搜索分支的相似性判別能力。為彌補余弦相似和多模態輸入增加的計算開銷,結合MobileNet、PP-LCNet和PeleeNet思想設計適合于人臉跟蹤輕量級特征提取網絡。大量實驗證明,本文的人臉跟蹤方法有效解決光照變化明顯、背景相似干擾、快速移動、遮擋等問題,實際跟蹤速度可達到115.7 fps。
本文算法基于SiamFC,該算法將目標跟蹤任務轉換為相似性學習,將模板和搜索區域的距離作為相似性判斷依據。但當目標處于暗光、曝光和復雜多運動物體的場景下,單獨的VIS圖像無法提供足夠的信息,導致跟蹤精度下降乃至跟蹤失敗,而IR圖像能夠很好地應對光線問題,有效地補充了VIS圖像的不足。因此,本文采用多模態余弦相似孿生網絡人臉跟蹤,網絡包括模板分支和搜索分支,兩個分支分別將模板和搜索的VIS-IR圖融合為一張3通道的模板圖z和搜索圖i,如圖1所示。

圖1 多模態余弦相似孿生網絡人臉跟蹤網絡
圖1中多模態余弦相似孿生網絡人臉跟蹤算法包括模板分支和搜索分支,搜索分支和模板分支的輸入通道為3。多模態輸入融合計算方式如式(1)所示:

式(1)中表示可見光特征,表示紅外光特征,β表示VIS圖像的融合系數,β表示IR圖像的融合系數。為了更好地利用好雙模態圖像互補的信息,本文采用了權重分配策略,使用亮度信息離散度作為融合系數分配的參考依據。圖2(a)為相同場景中拍攝到的VIS圖與IR圖。圖2(b)為與圖2(a)對應的像素亮度統計情況,其中橫軸表示圖片寬,縱軸表示圖片對應像素列、像素亮度加和。由圖2可知,VIS圖片中像素亮度分布離散度大且無明顯規律,而IR圖片橫軸中心位置(動態目標存在的位置)像素亮度集聚度高,且幾乎呈正態分布。

圖2 VIS圖與IR圖差異對比直方圖
故,融合系數計算方式如式(2)所示:

和表示像素所在的行和列,?和分別表示VIS圖與IR圖,其中屬于正態因子系數,計算方式如式(3),其中和分別是IR圖像單個像素亮度和整體亮度均值。
對模板分支和搜索分支X進行相同的特征變換=(),生成特征圖F和F。本文對F和F操作,余弦相似相關的計算方式如式(4)所示:

式(4)中“?”表示余弦相似相關,和分別表示模板分支和搜索分支。經過余弦相似相關的特圖值都將被擬合到-1到1之間。
多模態輸入和余弦相似相關在跟蹤算法中造成算力增加,推理速度減慢等問題。基于此,本文設計輕量級卷積神經網絡平衡計算開銷,特征提取主干網絡結構,如表1所示。

表1 多模態人臉跟蹤孿生網絡結構
表1所示,基于SiamFC思想設計本文網絡結構包括搜索分支和模板分支,搜索分支輸入大小是模板分支的四倍。為減少推理延遲,在主干網絡特征提取以深度可分離卷積為主,深度可分離卷積對普通卷積進行過程分解,有效縮減模型量、節約算力。復雜背景下的人臉跟蹤需要更深層的語義特征作為跟蹤的外觀判斷依據,隨著網絡深度的增加,感受野隨之增大,在網絡末尾增加三個Dense_Block,結構如圖3所示。

圖3 深度模塊結構
圖3(a)為PeleeNet網絡中的Dense結構塊,直接將上一階段的特征圖通過Concat方式進行特征融合。圖3(b)為本文借鑒PeleeNet中Dense結構塊設計的特征提取網絡結構,在其基礎上,左邊分支直接用可分離卷積代替標準卷積進行特征提取,在右邊分支使用兩個深度可分離空洞卷積增加感受野,提高算法在資源受限設備中的適用性。
SiamFC跟蹤對特征提取后的模板特征和搜索分支特征進行互相關操作,互相關操作能以較小的算力完成最大響應點的搜索,但最大響應點定位容易出現誤判,如圖4所示。

圖4 余弦相似相關與互相關對比
圖4中當跟蹤區域出現相似背景(多人臉干擾時),互相關操作容易出現最大響應位置計算錯誤,導致人臉跟蹤失敗。余弦相似相關充分挖掘局部特征向量之間的內在關系,尋找相似度最大的最優位置,抗特異性強,局部相似性度量準確性高。本文的余弦相似計算方式如式(5)所示。

式(5)中表示通道,和分別表示特征圖上某點所在行和列,表示搜索分支的一個局部特征集,表示模板分支全局部特征集,其中的局部特征集和的全局特征集數量相等。
實驗訓練PC機環境:CPU選取Intel(R)Core(TM)i7-5930,顯卡NVIDIA GTX 1080 Ti,采用Visual Studio 2013,OpenCV3.1.0和Caffe框架實現多模態余弦相似孿生網絡人臉跟蹤算法。
本文采用ChokePoint數據集、RGBT234數據集和自制樣本數據集對本文的人臉跟蹤算法進行實驗驗證。ChokePoint數據集包含432個視頻。RGBT234數據集是較大規模的雙模態跟蹤數據集,它囊括了234對VIS和IR視頻序列。自制的數據集考慮多人干擾、人臉遮擋等因素,共搜集103282對VIS-IR可變性面部圖片。
2.3.1 評價指標
本文提出的多模態余弦相似孿生網絡人臉跟蹤方法采用平均中心像素誤差精度(accuracy)、魯棒性(robustness)、重疊率(overall)進行評估。平均像素誤差,即實際人臉中心位置與預測人臉中心位置小于給定閾值的百分比,魯棒性評估決定人臉跟蹤算法的穩定性,重疊率越高算法的跟蹤鎖定位置更準確。
2.3.2 定性分析
實際測試過程中僅對首幀視頻幀進行初始化,同時使用實際拍攝視頻序列和ChockPoint數據集視頻序列進行測試評估,部分實際評估結果如圖5、圖6所示,其中直角虛線框表示真實的標準框,圓角虛線框表示SiamFC算法跟蹤結果,直角實體框表示本算法的跟蹤結果。

圖5 光照明暗變化人臉跟蹤示例

圖6 相似多人臉干擾跟蹤示例
圖5為ChockPoint數據集中的測試樣例圖片幀,從圖5可以看出,第485幀、第498幀、第506幀和第513幀均呈現不同的光照色差,基于本文算法繪制出的矩形框仍然能較準確地框出人臉所在位置,而SiamFC算法則出現不同程度的抖動。
圖6為實際應用環境中拍攝的多人臉干擾的視頻序列,在第145幀,兩種跟蹤算法均能進行較準確的人臉跟蹤。隨著時間的推移,第153幀和第164幀中開始出現大面積人臉重疊,SiamFC的跟蹤框大范圍抖動,引入過多非目標人臉信息。從第164幀到第178幀,SiamFC的跟蹤框明顯跟錯了對象,而本文的人臉跟蹤算法依舊能準確地鎖定跟蹤人臉,進行準確的人臉跟蹤,能有效解決多人干擾人臉目標跟錯現象,抗干擾性強,具有更強的魯棒性。
2.3.3 定量分析
在我們的實驗中,對增加不同模塊和策略的主干網絡進行增益實驗比較,其中DP表示使用本文設計的輕量級主干特征提取網絡,IR是紅外光圖,VIS是可見光圖,Cor表示互相關,Cos表示余弦相似相關,具體參數如表2所示。

表2 不同策略組合的主干網絡命名
將本文設計的人臉跟蹤網絡以及幾種變體網絡在自制數據集上的平均像素誤差精度、魯棒性、平均覆蓋率、測試速度進行比較,具體實驗結果如表3所示。

表3 不同主干網絡跟蹤性能比較
表3中,將SiamFC的主干網絡AlexNet直接替換為本文設計的輕量級主干網絡,跟蹤整體性能略微降低,為彌補深度可分離卷積帶來的精度下降,采用HSwish作為激活函數,增加非線性,并在主干網絡末尾增加三個Dense_Block增大感受野,豐富深層語義信息提取。直接使用IR圖像作為輸入,跟蹤精度相對于VIS的有所下降,據分析,IR圖像相對于VIS丟失了顏色等重要信息。Siam-DP+VIS+IR(Ours)對孿生網絡的搜索分支同時融合可見光圖與紅外光圖,消弱光照強度變化對跟蹤外觀模型表征的影響。Siam-DP+VIS+IR+Cos(Ours)把互相關操作替換為余弦相似相關,余弦相似相關將輸出響應最大值進行歸一化,提高網絡模型的相似性判別能力,在本文設計的四種主干網絡中,整體性能均優于SiamFC。
2.3.4 方法有效性比較
為驗證本文提出的基于多模態余弦相似孿生網絡人臉跟蹤方法的有效性,與其他人臉跟蹤算法進行比較,其中包括基于稀疏表示的IVT跟蹤算法、基于相關濾波的KCF跟蹤算法、基于深度學習孿生網絡的SiamFC跟蹤算法、基于深度學習位置回歸的GOTURN人臉跟蹤算法等。
表4和表5分別為不同人臉跟蹤算法和本文的跟蹤算法在光照變化(IV)、遮擋(OCC)、快速移動(FM)、背景干擾(BC)、運動模糊(MB)等5種環境下平均像素距離誤差在20個像素以內、平均成功率即平均跟蹤面積重疊率為0.45以上的百分比的實驗結果,表中最優結果已使用加粗顯示。

表4 基于ChockPoint數據集的平均像素誤差精度和平均成功率(用“/”隔開)的比較

表5 基于RGBT234數據集的平均像素誤差精度和平均成功率(用“/”隔開)的比較
表4中基于深度學習的人臉跟蹤算法在跟蹤性能上均取得顯著提升,從表中可以看出,雖然在FM和MB條件下的跟蹤效果不是最好,但是在IV、OCC、BC三種條件下的表現優于其他四種跟蹤算法。表中四種經典跟蹤算法的平均成功率依次是0.676、0.691、0.717、0.7366,本文算法的平均成功率為0.781。實驗表明,本文提出的人臉跟蹤算法即使是在跟蹤環境復雜多變的情況下依舊能達到較優的跟蹤效果。
表5中,本文所提出的人臉跟蹤算法整體性能較優,其中在FM條件下略差于Li等的基準算法,但其他條件下皆較優,整體平均精度達到0.762,整體平均成功率為0.484,比Li等的分別提高8.3%和4.8%。進一步證明了在多模態輸入的條件下,本文的人臉跟蹤算法即使是在跟蹤環境復雜多變的情況下依舊能達到較優的跟蹤效果。
本文以實際應用環境為背景,為解決光照變化大、背景相似干擾等人臉跟蹤問題,提出多模態余弦相似孿生網絡人臉跟蹤算法。首先,采用成對的VIS-IR圖片作為網絡的輸入,利用這兩種模態信息互補的特點,降低光照強弱變化對圖片特征的敏感度,提高跟蹤過程中外觀建模的魯棒性。其次,結合SiamFC算法中互相關層存在相似度計算異常的問題引入余弦相似相關層,進一步對相似度值進行歸一化,有效解決互相關層由個別差異值引起的相似度誤判問題。余弦相似相關相比互相關增加較大的算力開銷,本文通過構建輕量級的特征提取網絡有效地減少余弦相關增加的算力開銷。為提高算法的適用性,采用大量不同角度、姿態、遮擋、佩戴飾物的樣本數據進行模型訓練。經實驗驗證,本文的人臉跟蹤算法有效解決跟蹤過程中光照干擾、多人臉干擾、復雜背景、跟丟、跟錯等問題,提高人臉跟蹤算法穩定性,實際跟蹤速度達到115.7fps,具有較高的實時性和較強的移植性。