張宸瑋
(中國石油大學(華東) 青島 266000)
本文的研究工作主要基于多目標跟蹤領域(Multi-object Tracking,MOT),因為目標跟蹤需要建立前后兩幀圖像之間目標的聯系。多目標需要實現鄰接兩幀之間相同目標的數據聯系,還存在著遮擋、目標較小、目標相似度明顯、運動軌跡起止時間未知等問題。多目標跟蹤包括兩類,第一類為以檢測為核心的跟蹤,第二類則將初始框作為核心,進而實現高效的智能化跟蹤[7]。DFT 與單目標跟蹤有相似之處,它們都不能夠脫離于人工標注的環節。如果采用人工初始化的方式,那么其往往難以標記首幀中并未發現的目標,而多目標跟蹤本身包含目標不斷消失出現的場景,因此未被人工初始化的目標將無法被跟蹤。人工標注的不完整性影響跟蹤結果的穩定性,因此TBD 比DFT 更常用,本文主要基于TBD進行研究。
本文提出了一種基于Yolov4-tiny和Deepsort[8]的紅外人員目標跟蹤方法,其重點涵蓋模型訓練、跟蹤等多個環節。Deepsort 是基于TBD 策略的MOT 算法,通過設計檢測結果和跟蹤預測結果的關聯策略實現跟蹤。該方法具有較高的檢測精度及較快的檢查速度,可以滿足夜間紅外場景下人員實時跟蹤的要求。
本文提出了融合Yolov4-tiny 與Deepsort 的紅外人員目標跟蹤方法,其流程如圖1 所示。首先利用AIIR 型號紅外成像儀器采集圖像作為訓練集,訓練Yolov4-tiny 模型。然后用訓練好的模型對夜晚紅外場景進行人員檢測。最后,利用Deepsort 算法對人員檢測結果進行跟蹤,從而得到清晰而準確的人員跟蹤結果。

圖1 紅外人員目標跟蹤方法流程圖
本文采用Yolov4-tiny 算法對紅外人員目標進行實時檢測。Yolov4-tiny 是一類應用較為廣泛的算法,它對于常規的嵌入式平臺具有良好的適用性。與Yolov4 相比,檢測精度在一定程度上下降,然而其能夠可靠地進行模型壓縮,可以明顯優化檢測效率。在確保檢測速率符合要求的條件下,為了有效增加算法精度,本文做出如下改進:1)在特征層后增加一個分支,將Yolov4-tiny 的輸出大小為26*26*128。13*13*256 的特征圖在經過DBL(卷積+批量標準化+激活函數Relu)變換后,與另一個相同尺寸的特征圖疊加為有效特征層,其尺寸大小為26*26*128;2)在第一個有效特征層之后,添加三個空洞率分別為1、3、5 的平行深度可分離卷積層,以擴大特征層的感受野。在經過連接之后,通過1*1 卷積和DBL 變換作為第二個有效特征層;3)改進特征融合網絡。在第二個有效特征層經過DBL 變換后添加殘差網絡,之后進行卷積與上采樣,最后經由Yolo_head輸出第一個預測結果。
2.1.1 改進的特征提取網絡
本節解決了模型的特征提取網絡CSPDarknet53-tiny 不能充分利用各個尺度的信息的問題。對底層特征(128)進行DBL 變換,并通過1*1 卷積調整大小,與前面的特征合并。融合結果結合中層特征(256)作為第一有效特征層,增強模型對小目標的特征提取能力;同時,在第一個有效特征層之后,引入三種不同空洞率的平行連接。融合結果通過卷積加標準化操作,再經由DBL 變換進行調整,作為第二有效特征層。改進后的特征提取網絡結構圖如圖2 所示,其中SepConV_Bn 為包含深度可分離空洞卷積[10]的卷積塊。

圖2 改進的特征網絡結構圖
空洞卷積很大程度上表現出不規則的特點,可根據實際需求對感受野進行調節,并有效減少計算量。其思想是擴大每個卷積核像素之間的距離。相比正常卷積,其加入了空洞率參數,下圖具體展示了空洞卷積的整體情況。
圖3(a)為正常卷積,圖3(b)為空洞率為2的空洞卷積。與前者相比,后者的感受野明顯增加。然而,在對感受野進行拓展的過程中,某些像素值并未加入卷積操作,使卷積具有信息丟失的現象;為解決這一問題,本節在設計三個并行空洞卷積時,將空洞率分別設為1、3、5,即小空洞率聚焦短距離信息,大空洞率聚焦長距離信息。同時,通過深度可分空洞卷積替換傳統的空洞卷積,其大幅度縮減了計算量。

圖3 正常卷積與空洞卷積的比較
2.1.2 改進的特征融合網絡
Yolov4-tiny中,采用FPN結構對輸出的兩個有效特征層進行簡單的特征融合。過程如下:最后一個有效特征層卷積后再上采樣,一方面通過yolo_head 處理第一個預測結果,另一方面與前一個輸出的有效特征層疊加,再由yolo_head 處理輸出第二個預測結果。本文引入一種改進的反殘差網絡來增強FPN 的特征融合能力。圖4 為標準殘差網絡、反殘差網絡和改進反殘差網絡的結構比較圖,其中n 是輸入通道的數量、t 為輸出通道的數量、C為壓縮或擴展通道的倍數。

圖4 標準殘差網絡、反殘差網絡、改進反殘差網絡的比較
殘差網絡使用跳轉連接來解決神經網絡中的退化問題,從圖4 的比較可以看出,標準殘差網絡圖4(a)首先通過1*1 的卷積壓縮通道數,此后應用3*3 卷積完成標準化的提取特征,最后通過1*1 卷積恢復特征映射的通道數。在對特征通道進行壓縮和擴展的過程中,會存在破壞特征表達并導致信息丟失的問題;而反殘差網絡圖4(b)則相反,先通過1*1 卷積擴展通道,然后使用3*3 的卷積提取特征,最后使用1*1 的卷積映射到原始通道數量;為了加深網絡深度,降低計算復雜度,本節采用了改進方法,對圖4(c)的后一塊反殘差塊進行了改進,將圖4(b)中的3*3常規卷積替換為3*3深度卷積。
改進后的算法總體結構如圖5所示。

圖5 改進的Yolo_v4-tiny網絡結構圖
Deepsort 目標跟蹤檢測算法是基于sort 目標追蹤算法的改進,引入離線訓練深度學習模型,在實時目標跟蹤過程中,對待跟蹤目標特征加以提取匹配。在遮擋的條件下其依然能夠體現出理想的跟蹤效果[11]。
Deepsort跟蹤框架結構如圖6 所示。根據要求對ID 編號進行初始化,此后結合預測公式對檢測框位置實現準確預測,如此就能夠獲取后續的狀態參數。除此之外,我們可以通過匈牙利匹配算法對各目標所涵蓋的特征展開比較,假如特征距離未超過限定的閾值,則判定兩幀內的框與特定的ID 號相對應,如此就實現了高效的目標關聯,假如特征距離相對較大,則判定兩者的ID 號具有偏差,然后開始后續的匹配操作。

圖6 Deep sort 跟蹤框架結構
單假設追蹤方法是Deepsort 目標跟蹤算法的核心,主要采用卡爾曼濾波的遞歸方法完成所采集逐幀紅外圖像的數據關聯。Deepsort 算法需在匹配計算中加入目標外觀信息,因此在目標受遮擋情況下仍可實現圖像ID的精準匹配。
Deepsort目標跟蹤算法的流程如圖7所示。

圖7 Deepsort算法流程圖
從圖7 中可以看出,Deepsort 目標跟蹤檢測算法包括狀態估計、軌跡處理以及級聯匹配等過程。
傳統sort算法需將跟蹤框以及檢測框的IoU 狀態作為算法輸入,跟蹤框以及檢測框匹配結果需利用匈牙利算法實現,而Deepsort 算法需同時考慮目標外觀信息以及運動信息關聯[12],目標檢測以及目標軌跡跟蹤匹配通過融合度量方法實現。
通過馬氏距離表示運動信息的關聯度,該種距離是跟蹤器預測框與檢測框間的距離,馬氏距離表達式如下:
利用馬氏距離對運動數據的關聯度進行具體表示,其對應的表達式為
在上述式子中,lj與yi先后指代的是j的位點和i預測目標的位置;Zi在此處指代的是平均跟蹤位置與檢測位置之間存在的協方差矩陣[13]。
由公式可知,Deepsort 算法可依據特定標準差分析目標跟蹤過程中狀態測量的波動情況,該種標準差利用馬氏距離通過平均跟蹤位置與檢測位置運算獲?。?4]。
根據要求對95%置信區間展開計算,此處可以結合逆χ2分布情況展開分析。
閾值化處理表達式如下:
當所設置的閾值t(1) 高于其中某次所關聯的馬氏距離時,表示跟蹤運動狀態的目標的運動信息已成功關聯[15]。紅外成像監控為測量空間,設置馬氏距離閾值為9.5988。
用lj表示紅外圖像檢測塊,用rj表示利用CNN(Convolutional Neural Networks)模型所獲取的特征向量,設定特征向量限制條件為‖rj‖=1。
當前目標圖像內檢測結果j的特征向量與跟蹤器i所關聯特征集間最小余弦距離表達式如下:
當所獲取結果低于已設置閾值時,表明所關聯目標外觀信息為成功狀態。
線性加權以上度量方式實現融合關聯方式的最終度量,關聯方式融合表達式如下:
其中,δ表示關聯系數。
當運動信息以及目標外觀信息關聯均符合所設置閾值條件時,融合關聯方式[16]。短期預測與匹配以及長時間遮擋情況下分別采用距離度量方法以及外觀特征度量方法獲取有效的跟蹤結果。
由于針對油田場景下的紅外圖像數據集很少,因此本文使用384*288 分辨率非制冷焦平面探測器,焦距25mm 的AIIR 型號紅外熱像儀拍攝的6 個夜間油田場景人員視頻,制作紅外圖像數據集。其中,特別采集了一定數量的存在快速運動、障礙物遮擋的紅外人員圖像,以測試目標識別模型的環境適應性和魯棒性。數據集包括8000 張油田場景下人員紅外圖像,選取其中7000 幅作為訓練集,1000幅作為測試集。此外,為檢測本文方法的跟蹤穩定性與幀率,特選取一部分視頻用于測試。
由于本文使用的數據集與其他開源的數據集差異較大,因此采用監督學習的方式訓練改進的Yolov4-tiny 網絡模型。在訓練的過程中主要應用Adam 算法,在此處momentum=0.957,初始學習率learing_rate=0.0013,steps=8000,subdivisions=16,每中輸入batch/subdivisions=2 張圖片,從而有效降低顯存壓力;除此之外,輸入圖像的規格一般情況下設置為416*416,此后在部署網絡中完成訓練工作,此時的顯存為8.5G。在進行訓練的時候,各參數的的變化情況具體參考如圖8。
由圖8 可知,當step=6400 時,網絡模型趨于穩定,在通過反復的訓練之后成功收斂至0.1145,此時的mAP等于87.2%。
選取檢測準確率P(precision)、召回率R(recall)作為檢測精度的評價指標:
式中:Tp為正確檢測出人員目標的數量;Fp為將非人員目標檢測為人員目標的數量;Fn為未能檢測到人員目標的數量。
本文還使用反投影誤差來體現目標與圖像間變換精度。反投影誤差指不同幀圖像中匹配點對的匹配程度,反投影誤差可體現目標與圖像間變換精度。用(di,si)表示匹配點對,其中si與di分別表示監控視頻圖像以及目標圖像中的點,H表示投影距離,定義反投影誤差表達式如下:
目標跟蹤成功率是成功跟蹤目標的圖像幀數與系統所采集總視頻圖像幀數之比。反投影誤差低于所設置閾值的圖像即目標跟蹤成功,設置反投影誤差門限為10 個像素,反投影誤差高于10 個像素時,表示為目標跟蹤失敗狀態。
選取處理視頻序列的平均幀率作為跟蹤速度的指標。圍繞目標檢測的精度、目標跟蹤的成功率以及檢測跟蹤速度3 個方面,將本文提出的方法、融合YOLOv4-tiny 與Deepsort 方法、融合Yolov4 與Deepsort 方法、融合YOLOX 與Deepsort 方法進行比較。
首先在紅外圖像測試集上選取不同數量的人員目標,使用以上四種算法進行測試,結果如圖9所示。

圖9 不同跟蹤方法對紅外圖像人員目標跟蹤結果
圖9 可見,在進行測試的各部分圖像中,YoloV4網絡、YoloX 網絡和改進的YoloV4-tiny網絡均能正確檢測出人員目標,原始的Yolov4-tiny網絡在第三幅圖中漏檢了一個目標,在準確率相差較小的情況下,基于空洞卷積改進的Yolov4-tiny網絡的幀率高出前兩個網絡,說明改進的YoloV4-tiny 網絡在針對實時的目標檢測速度方面更具優勢。表1給出了四種算法在紅外圖像測試集上跟蹤性能指標。
根據表1 可知,YoloX+deepsort 在紅外測試集中檢測準確率、跟蹤成功率最高,檢測時幀率最慢。改進后的Yolov4-tiny+deepsort算法與原始Yolov4+deepsort 算法相比,檢測的準確率和召回率分別下降了1.3%和0.8%,檢測精度下降不大,跟蹤成功率和平均幀率分別上漲了1.3%和23%,跟蹤速度大大提升。
本次研究充分利用了檢測算法準確度高、跟蹤算法跟蹤效果出眾的特點,設計了一類改良的目標跟蹤方法,其很大程度上以空洞卷積為基礎,并將輕量級Yolov4 與Deepsort 進行銜接。除此之外,本文結合紅外圖像特征所表現出的特性進行分析,根據預設目標對Yolov4網絡展開優化,最后利用檢測網絡對紅外視頻涵蓋的對象實現特征提取,給出目標類型并確定目標的檢測框;接著將檢測框中的目標信息作為Deepsort 多目標跟蹤算法的初始化信息,計算前后兩幀目標之間的匹配程度,為每個對象分配ID,得到最終的識別結果。通過設計對比實驗可知,本文探討的方法在各個方面都表現出明顯優勢,比如其檢測精度符合要求,跟蹤成功率處于較高的水平,實時性均十分出眾,魯棒性也非常理想,可以將其用于解決夜晚追蹤困難、人力管控時效性差、管控內容涵蓋多、現場巡檢監督薄弱及投入人力成本高等問題。實現高效規范作業行為、節約人力資源、提高工作效能、為油田作業安全提供進一步保障。