沈陽理工大學信息科學與工程學院 中國科學院沈陽自動化研究所機器人學國家重點實驗室 秦麗娟
沈陽理工大學信息科學與工程學院 蔣玉玲
在計算機視覺的領域中,深度學習的技術應用得越來越廣泛,基于深度學習行人跟蹤在計算機視覺領域中具有重要的研究價值。近年來,大量的研究在基于孿生神經網絡在目標跟蹤領域的研究成為重點。
在科研領域中,計算機視覺是其研究的重點領域,隨著科學的進步,計算機視覺追蹤被應用非常廣泛,如企業、軍事和自動駕駛等對目標的準確追蹤有越來越高的要求。近幾年,目標跟蹤算法是根據相關的濾波框架進行應用,手動提取的目標的物體的特點和在頻域中計算,然后得出相應的響應圖,得到最大的頻域響應值處作為預測的目標出行人的位置,目標跟蹤算法的幀率較高、穩定性強。隨著深度學習的發展,手工特征逐漸被相關濾波代替,有的跟蹤算法使用深度學習中端到端的框架進行目標行人的跟蹤。在對目標進行跟蹤的過程中,跟蹤算法能夠提煉出圖像中的完整信息,較大幅度的增加了跟蹤算法的成功率和準確率。
在對目標行人進行跟蹤的過程中,由于光線的變化,被行人或者物體遮擋等影響,所以需要對目標行人的位置進行準確的預測,來對目標行人進行跟蹤。本文采用SiamFc孿生網絡搭建出的目標跟蹤框架,采用相似性判別網絡,并在視頻幀搜索的區域中找出和目標行人最為相符的位置,來對行人進行位置進行預測跟蹤。
相似性度量,是綜合評定兩個事物之間相似程度的一種度量。兩個事物中的相像程度,作為計算機視覺領域中的要點,在其他的許多研究中如機器學習的SVM、K鄰近與K均值等算法,都應用到了相似性距離。而視覺領域中的很多方面都可以等都應用到了相似性度量的問題,例如圖像檢索、行人識別等。
目前使用最多的距離測量方法包括閔可夫斯基距離、歐式距離與曼哈頓距離。歐氏距離如式(1)所示,曼哈頓距離如式(2)所示,閔可夫斯基距離如式(3)所示。

孿生網絡近年頻繁的使用在相似性度量的方法中,特別是當物體的種類比較多時,同類別的物體樣本數量相對很少的情況下能夠對物體進行較為精確的分辨。孿生網絡的結構如圖1所示。

圖1 孿生網絡結構圖
孿生網絡結構利用一個函數把輸入映射到特征空間,在特征空間中使用對應的測量方法進行距離的相似性度量,這里所需的函數被卷積神經網絡來替代。兩個卷積神經網絡的結構相同,并且共享權值W,在訓練此網絡時,將其輸入理解為一個圖片對,表示為(X1,X2,Y),式中的X1與和X2表示的是一對圖片,Y表示圖片對是否為同一個類別,當Y=0表示同類。訓練用的損失函數:

其中N表示的是樣本對的數量,L+表示相同類別圖片對的損失函數,L-表示不同類別圖片對的損失函數。將L+設計成單點遞增函數,L-設計成單調遞減函數,這個操作就能在最小化損失函數增加不同圖片對的能量的同時,也減少相同圖片對的能量。孿生網絡淡化了數據標簽的概念,這樣就讓網絡有了更高的延展性,可以把訓練的數據集進行分類,這樣就增加了訓練的數據集的容量,這樣一來,深度神經網絡可以用來訓練數據量較少的數據集。

圖2 孿生網絡跟蹤框架圖

圖3 注意力機制跟蹤結果圖

表1 對比的實驗數據結果
孿生網絡是由兩個組織結構相同的,并且參數是共享的卷積神經網絡組成,將需要跟蹤目標檢測圖片和模板圖片輸入卷積神經網絡中,這對圖片里有兩種圖像,分別是跟蹤目標的模板和搜索區域,提取出圖片對的圖像特點后,通過兩個注意力機制來對提取得到的特征圖進行處理,然后結合注意力機制的得到的處理結果,再對搜索區域的特征圖進行濾波獲得響應圖,最大響應值會出現在兩者最相似的地方,當前跟蹤的目標位置就映射出搜索區域的坐標位置。兩種注意力機制分別是殘差注意力機制和通道注意力機制。如圖2所示。
本文在孿生網絡跟蹤框架上做實驗,測試用的數據集是VOT2015,只加入殘差注意力機制,只加入通道注意力機制和加入兩種注意力機制,實驗結果對比如圖3所示。
通過圖3可以得出,將各個注意力機制分別加入跟蹤框架中,跟蹤的準確率與跟蹤的成功率都有所增加,當兩種注意力機制都加入時,不管是成功率還是準確率都提升最高。本文也與其他的跟蹤算法做了對比,對比的實驗數據結果如表1所示。
結論:深度學習在近年來應用很廣泛,比如家庭的視頻監控,車輛自動行駛等領域。由于深度神經網絡的模型具有很強的特征表征能力和泛化能力,在對目標進行跟蹤應用越來越多。本文中,在孿生網絡跟蹤框架中加入注意力機制后,跟蹤的準確率,成功率都有很大的提高,當把兩種注意力機制一起放入跟蹤框架中時,跟蹤的效果最好。