王勇 張志騰 王瑛



摘要:行人目標跟蹤是智能監控領域的一個重要課題。傳統的目標跟蹤技術,在跟蹤精度上沒有深度網絡高,但深度卷積神經網絡計算量極大,導致計算速度緩慢無法實時跟蹤。隨著卷積網絡的不斷發展,孿生網絡在目標跟蹤這一課題上脫穎而出,其根據子網共享權重的特點,可以訓練出有效的網絡只需要少量的參數,少量的參數也就意味著不易于過擬合以及運行速度快等突出的優點,適用于實時行人目標跟蹤。文中采用孿生網絡和輕量骨干網絡構建目標跟蹤網絡,實現實時高精度的目標跟蹤算法。
關鍵詞;目標跟蹤;孿生網絡;輕量網絡;實時跟蹤
中圖分類號:TP18 ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)32-0001-03
Object Tracking Algorithm Based on Lightweight Siamese Network
WANG Yong, ?ZHANG Zhi-teng, ?WANG Ying
(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Pedestrian object tracking is an important subject in the field of intelligent monitoring. The traditional object tracking technology is not as high as the deep network in tracking accuracy, but the deep convolutional neural network has a huge amount of computation, which leads to slow computing speed and unable to track in real time With the continuous development of convolution network, siamese network in object tracking on the subject, according to the characteristics of the subnet Shared weight, can train the effective network only need a small amount of parameters, a small amount of means is not easy to fitting parameters and running speed of such outstanding advantages, suitable for real-time object tracking of pedestrians. In this paper, the siamese network and the lightweight backbone network are used to construct the target tracking network, and the real-time and high precision target tracking algorithm is realized.
Key words:object tracking;siamese network;lightweight network;real-time tracking
現代社會智能化發展飛快,越來越多的監控攝像頭以及視頻圖像分析技術應用于我們的日常生活中[1]。如商場中使用監控攝像頭來關注分析顧客行為以防止顧客破壞超市的公共秩序以及道路上的紅綠燈處監控攝像頭用于監控來往車輛是否違反交通規則以此來約束司機不當行車行為,維護交通秩序。未來監控視頻分析技術還可應用于大量聚集人群行為監控分析,實時分析人群行為,當發生暴動及斗毆等不良行為時自動報警以防止大規模沖突斗毆事件發生時未能及時發現并出警的情況發生。
由此可見,監控攝像頭將會越來越普及,安裝至各個公共場合甚至于各家各戶中,其硬件成本隨著時間的推移也會越來越低,視頻分析技術也將會越來越精進,此時大商場中遍布大量攝像頭將是一種必然的趨勢。在這種大環境下,如果只將攝像頭用于監控顧客是否做出破壞超市公共秩序的行為,未免有點大材小用。沃爾瑪、麥德龍以及華潤萬家這類超級商場巨頭都在使用監控視頻分析算法來分析顧客購物行為以提升顧客的購物舒適度甚至間接地提升商品的銷售額,促進銷售業績上升。如沃爾瑪采用監控攝像頭來自動分析商品是否正確地擺放在合適的貨架上,若不在則自動發出警告及時告知銷售員及時將商品正確地放置回合適的貨架上,以提升商場的整體整潔度和商品的有序度,方便顧客更好地找到相應的商品進而提升顧客的購物體驗。孿生網絡以其少量參數計算速度快的優點在近年來的實時目標跟蹤領域脫穎而出,本文將通過改進全卷積神經網絡SiamFC,以實現一個在商場環境下能夠實時跟蹤且精度優秀的輕量孿生網絡SiamLight,提升商場監控的使用效率。
1 研究現狀
視覺目標跟蹤算法在廣義上可分為兩大類[2]:基于生成模型和基于判別模型的算法。第一類,通過歷史幀的結果生成一個統計模型用來描述目標特征,能較好地處理目標在被跟蹤的過程中丟失的情況,但這類算法忽略目標的背景信息,導致在背景非常混亂時易丟失目標。第二類,基于判別模型的算法主要是通過學習生成一個決策邊界,以此來區分背景區域和目標區域。目前較為活躍的目標跟蹤算法狹義上也分為兩類:基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法。
第一類目標跟蹤算法,以較佳的運行速度和優秀的性能,在工業界和學術界中研究使用頻率都較高,發展比較快速。
Bolme等人[3]提出最小平方和跟蹤算法,這是相關濾波算法第一次應用在目標跟蹤領域,該算法通過將均方誤差最小化以達到在后續圖像中找到目標的最可能出現的位置。
基于深度學習的目標跟蹤算法可以分為基于回歸網絡、孿生網絡和基于其他網絡的目標跟蹤算法[4]。
Held等人[5]在2016年提出了基于回歸網絡的目標跟蹤算法,該算法第一次在目標跟蹤領域使用孿生網絡,第一次實現了實時跟蹤的深度學習算法。
Bertinetto等人[6]提出全卷積孿生網路SiamFC算法,SiamFC的網絡結構如圖1所示,SiamFC網絡通過骨干網絡(AlexNet)對圖像提取特征,再將兩個特征圖做卷積操作,最終得到響應值最高的位置就是要映射出預測框的位置。
Fan等人[7]提出了結構感知視覺跟蹤網絡SANet該網絡基于循環神經網絡。SANet在學習過程中對目標的自身結構進行編碼,不僅提高了抗同類相似源干擾的能力,也提高了對不同類目標源的鑒別能力。同時,該算法通過采用跳層連接策略融合RNN和CNN的特征,為網絡提供了更多的信息,經過驗證該算法同樣也有較好的跟蹤效果。
基于孿生網絡的目標追蹤器可以克服其他深度學習網絡一個重要缺點,即當用預訓練網絡來提取特征時導致網絡速度非常慢的問題。孿生網絡在具有較快速度的同時也有較強的跟蹤性能,本文也將基于該類目標追蹤器開展實驗。
2 輕量孿生網絡
本文的孿生網絡結構如圖2所示,該孿生網絡由分支t和x組成。分支都使用一個輕量級卷積神經網絡,異步通過卷積神經網絡進行訓練,提取特征,之后對兩個分支皆做卷積操作得到兩張特征圖,再對兩張特征圖進行卷積操作,得到響應圖,響應圖中的響應值代表兩張圖的相似度。最后,目標跟蹤的過程可以表示為一個互相關操作,如公式(1)所示:
[ft,x=φx*φt+b] ? ? ? ? ? ? ? ? (1)
式子中[φ(?)]表示輕量卷積神經網絡,*表示以t的特征圖為卷積核的卷積操作,b代表偏置。通過圖2可以看到,圖像t和x作為網絡輸入,最終輸出為兩個圖像塊所生成的響應圖,在響應圖中響應值最大的位置映射到待搜索圖塊中就是跟蹤目標的位置。
本章孿生網絡中的卷積神經網絡使用了一個輕量的網絡作為孿生網絡跟蹤算法的骨干網絡。該骨干網絡有3個最大池化層(Max pooling)和13個卷積層,采用的是1×1和3×3的兩種卷積核,在卷積層之后都進行歸一化處理,來達到對模型進行歸一化且加速訓練模型的效果。本章的卷積神經網絡的各層的卷積核、輸入輸出通道數以及步長等詳細信息如表4-1所示,相比于常用作骨干網絡的VGGNet和AlexNet,本章的網絡結構的特點是頻繁地使用了1×1這一小卷積核,它的優勢是可以將通道數量壓縮變小,有利于提高使用較深的卷積神經網絡時的速度,且它也可以減少網絡中參數的數量,使得在一些小顯存的GPU設備上也能讓該目標跟蹤算法運行起來,不僅如此,使用1×1卷積核還一個最大的好處是可以提高跨通道信息和非線性表達的混合,從而提高網絡的泛化能力。
3 實驗
3.1實驗環境與網絡訓練
本文的跟蹤算法使用的編程語言是Python語言在操作系統為ubuntu18.04內存為8G、CPU為Intel i7-8750H并搭載GTX1060顯卡的個人電腦上進行模型的訓練和實驗評估。
本文選擇中科院發布的一個目標追蹤數據集GOT-10k[121]作為訓練集,通過隨機梯度下降法求解公式3.1來對目標跟蹤網絡進行訓練,訓練參數如下:模板圖像t和搜索圖像x都裁剪縮放成127×127×3和255×255×3。卷積層的初始學習率設置為0.0008,訓練過程包括60次迭代,每個迭代包括3000個樣本對,每6個次迭代學習率就變成原來的0.89。
3.2實驗結果與分析
本文測試數據集使用VOT2019數據集進行實驗將本文算法SiamLight與SiamFC和KCF算法進行對比。實驗結果如表2所示:
表2可以看出SiamLight的EAO、準確性、魯棒性都最優,且幀率相比SiamFC提升89.1%。由此我們可以得到本文中所應用的輕量級網絡相比于SiamFC中的AlexNet網絡有更強的特征提取能力,同時本文算法多次運用1×1的卷積來減少參數數量,使得SiamLight在有較好精度的情況下也有很快的運行速度,同樣相比于傳統KCF算法性能領先更明顯,這表明了本文的改進算法輕量級孿生網絡在實時目標跟蹤上任務有著優異的表現。
參考文獻:
[1] 朱紅岷,戴道清,李靜正.基于圖像處理的變電站視頻智能分析研究[J].計算機工程與應用,2018,54(7):264-270.
[2] 孟琭,楊旭.目標跟蹤算法綜述[J].自動化學報,2019,45(7):1244-1260.
[3] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.June 13-18,2010,San Francisco,CA,USA.IEEE,2010:2544-2550.
[4] Luo W H,Xing J L,Milan A,et al.Multiple object tracking:a literature review[J].Artificial Intelligence,2021,293:103448.
[5] Held D,Thrun S,Savarese S.Learning to track at 100 FPS with deep regression networks[C]//Computer Vision - ECCV 2016,2016:749-765. DOI:10.1007/978-3-319-46448-0_45.
[6] Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision - ECCV 2016 Workshops,2016:850-865. DOI:10.1007/978-3-319-48881-3_56.
[7] Fan H,Ling H B.SANet:structure-aware network for visual tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:2217-2224.
【通聯編輯:唐一東】
收稿日期:2021-07-25
基金項目:廣東省科技研發專項(2015B090923001)
作者簡介:王勇(1968—),男,湖南長沙人,博士, 教授,研究方向為物聯網、非結構化信息處理與智能計算;張志騰(1997—),男,碩士研究生,研究方向為目標跟蹤;王瑛(1970—),女,湖南長沙人,高級工程師,研究方向為云計算、大數據、知識工程。