999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于孿生區域候選網絡的無人機指定目標跟蹤

2021-03-07 05:16:40黃玉清
計算機應用 2021年2期
關鍵詞:深度特征

鐘 莎,黃玉清

(西南科技大學信息工程學院,四川綿陽 621010)

(*通信作者電子郵箱hyq_851@163.com)

0 引言

目標跟蹤是計算機視覺的熱點研究問題,隨著越來越多的圖像和視頻信息涌入到人們的生活中,目標跟蹤逐漸應用到了無人駕駛、視頻監控、智能交通控制、智能人機交互等各種真實場景中。傳統的跟蹤算法分為生成式和判別式兩大類[1]:生成式是針對跟蹤目標建立外觀數據先驗分布模型或者提取目標特征,然后在后續幀中進行相似特征搜索,逐步迭代實現目標定位;但生成式方法沒有全面利用圖像的背景信息,在目標外觀發生變化、形變、運動模糊等真實場景下,模型的建立會受到巨大的影響。判別式方法將目標模型和背景信息同時考慮在內,通過對比目標模型和背景信息的差異,將目標模型提取出來,從而得到當前幀中的目標位置。

基于相關濾波的跟蹤器在準確率和實時性上都表現出了優越的性能,雖然深度學習已經應用到目標跟蹤領域,但基于深度學習的跟蹤器性能一直無法超越相關濾波跟蹤器。孿生網絡通過度量方法衡量兩個輸入的相似度,最早應用在判斷簽名是否一致上。后來,Tao 等[2]提出的孿生示例搜索跟蹤(Siamese INstance search for Tracking,SINT)算法,是第一個將孿生網絡應用在目標跟蹤領域的算法,它通過相似性學習的方式進行目標跟蹤,將目標跟蹤問題轉化為模塊匹配問題。該算法的提出引起了目標跟蹤領域學者的廣泛關注。后來,Bertinetto 等[3]提出的全卷積孿生網絡(Fully-Convolutional Siamese networks,SiamFC)算法則將目標跟蹤轉化為一種更通用的相似性學習問題,盡管網絡結構非常簡單,但幀率遠超實時性要求,每秒平均幀數(Frames Per Second,FPS)達到86,準確率達53.35%,并且在多個基準數據集上達到最優性能;但SiamFC 采用的卷積神經網絡是AlexNet(Alex Network,AlexNet)[4],而且沒有模型更新,只是將第一幀作為模板幀進行計算,因此當目標外觀變化劇烈、運動模糊、照明不佳和尺度變化等問題時,將無法實現良好的跟蹤效果。在SiamFC 算法的思路下,Li 等[5]通過在SiamFC 網絡結構的基礎上加入區域候選網絡(Region Proposal Network,RPN)[6]提出了孿生區域候選網絡(SiamRPN)算法。該算法的蹤速度是SiamFC 的兩倍,幀率達到160 FPS,準確率也提高了,達到56%。針對孿生網絡無法從深度網絡中獲得更優性能的問題,Li 等[7]提出了基于超深網絡的孿生區域候選(Siamese Region Proposal with very deep networks,SiamRPN++)算法,該算法無論是在速度還是準確率上,都超越了相關濾波跟蹤器,并且是第一個將深度殘差網絡應用于孿生網絡中并取得很好效果的算法。該算法采用有效的采樣策略打破了孿生網絡的空間不變性,采用分層的特征聚合結構線性加權融合多層特征,提出了深度可分離的逐通道互相關結構,并結合了RPN 以獲得分類和邊界框回歸的結果。

基于孿生網絡的跟蹤算法沒有在線更新模型,都是將第一幀作為模板幀,學習目標特征將其與后續幀作對比。SiamRPN算法實時性超高,但準確率沒有SiamRPN++算法高;且算法的上行通道模塊通道數多造成了參數分布的不平衡,互相關計算法復雜;該算法采用AlexNet 提取的特征,沒有深度殘差網絡(deep Residual Network,ResNet)[8]提取到的特征語義信息豐富,在目標模糊和巨大變形時跟蹤效果不好。針對這些問題,本文提出了Attention-SiamRPN+算法。該算法采用改進的ResNet-50作為骨架網絡提取特征,能在減少計算量的同時獲得更豐富的語義信息;為了使提取到的特征更好地應用于后續的逐通道深度互相關,并且對于無人機(Unmanned Aerial Vehicle,UAV)拍攝小目標也能表現更好的跟蹤效果,引入通道注意力機制模塊篩選特征;保留SiamRPN算法中的RPN,借鑒文獻[7]中的分層特征融合,將卷積模塊后的RPN 融合,最后得到目標跟蹤結果。最后將所提算法應用于UAV 指定目標的實時跟蹤,UAV 指定的小目標跟蹤效果很好,框選的目標位置很準確,短時間的遮擋也能保持目標不丟失,實時性可達70 FPS。

1 Attention-SiamRPN+

Attention-SiamRPN+算法也采用孿生網絡結構,模板圖像分支與搜索圖像分支共享權值,模板圖像分支輸入圖像像素為127× 127× 3,搜索區域圖像像素為255× 255× 3。骨架網絡為改進的ResNet-50(詳見1.2 節),用作特征提取;注意力機制模塊銜接在ResNet-50 的conv4、conv5 模塊后,篩選殘差網絡提取出的有用特征并重新分配權值(詳見1.3 節);之后,將篩選后的特征圖送入RPN 模塊,采用文獻[5]中的RPN模塊(分類和回歸函數見1.4.2 節)。在RPN 模塊中,首先進行深度互相關操作,互相關之后進行分類和邊界框回歸,分類是將圖像分為前景和背景,邊界框回歸是得到邊界框的中心左邊和寬高。RPN 模塊采用分層融合的方式,線性加權組合兩個RPN 的分類和回歸結果,本文算法的網絡結構模型如圖1所示。

1.1 空間感知采樣策略

孿生網絡跟蹤器中使用的收縮部分和特征提取器具有嚴格的平移不變性的固有限制,表示為式(1),其中Δτj是平移移位子窗口運算符。收縮部分具有結構對稱性的固有限制,適用于相似性學習,由式(2)表示。

由于想要從更深的網絡中獲得特征信息,采取深層網絡不可避免要進行填充以使網絡更深,從而會破壞嚴格的平移不變性。文獻[7]中的實驗表明,均勻分布的采樣方式讓目標在中心點附近進行偏移,定量結果中32 位移熱圖更接近測試對象的位置分布。為了避免對象產生強烈的中心偏差,通過空間感知采樣策略使用ResNet-50主干網絡訓練SiamRPN,偏移64 像素使得訓練深度的孿生跟蹤器效果最好,因此本文中直接采用結果最好的64像素位移進行采樣。

1.2 改進的ResNet-50

ResNet 是2015 年提出的深度殘差網絡,有兩種殘差單元。深度殘差網絡的原理是假定某段神經網絡的輸入是y,網絡單元期望輸出是H(y),如果直接把輸入y傳到輸出作為初始結果,那么此時需要學習的目標就是F(y)=H(y) -y,如圖2 所示,這就是一個ResNet 的殘差學習單元。ResNet 相較于其他網絡是將學習目標做了變化,不同于其他網絡是學習一個完整的輸出H(y)。ResNet 只是輸出和輸入的差(H(y) -y),即殘差。殘差單元模塊通過快捷連接(shortcut connection)實現,通過shortcut將這個模塊的輸入和輸出進行一個元素方面(element-wise)的疊加。

根據文獻[9]中實驗的結論,8倍上采樣比32倍上采樣效果好很多,得到的圖像細節更多[9],原ResNet 具有32 像素的大步幅,不適用于密集的孿生網絡預測,為了跟蹤時定位更準確,通過將conv4 和conv5 卷積塊修改為具有單位空間步幅,最后兩個塊的有效步幅從16 個像素和32 個像素減少到8 個像素,并且通過擴張卷積來增加其接受場,這樣設置是為了增加感受野和利用上預訓練參數。而且本文為了獲得深層特征,避免層數過多,無法滿足實時性,根據文獻[7]中的消融實驗,保留了對跟蹤性能貢獻最多的conv4 和conv5 卷積塊,去除了ResNet-50中的conv3卷積塊,這樣可以使計算量更小,使算法實時性更高。由于保留了所有圖層的填充,因此模板特征的空間大小增加到15,這給后續的深度互相關模塊帶來了很大的計算負擔。因此,本文將中心7× 7區域裁剪為模板特征,其中每個特征單元仍然可以捕獲整個目標區域。在實驗中多次調試ResNet,發現將ResNet 特征提取器的學習率設置為RPN的1/10,特征表示會更適合于跟蹤任務。

圖1 Attention-SiamRPN+算法網絡結構Fig.1 Network structure of Attention-SiamRPN+algorithm

圖2 殘差網絡單元Fig.2 Residual network unit

1.3 注意力機制網絡

通道注意力機制是對卷積網絡提取出的不同通道特征圖的語義屬性進行篩選的過程[10-11]。每個通道特征表示圖像在不同卷積核上的分量,是由卷積層提取到的,而每個通道的特征表示紋理、顏色等不同類別的特征。在各種跟蹤環境中,通道的特征都是不同的,定位目標時需要更多淺層的顏色、形狀等特征,而在多個目標相似時又需要更深的特征來描述目標。通道注意力機制模塊的原理是將殘差網絡提取到的特征通道重新分配權值,與模板目標特征相關度越大的權值越大,相關度越小的權值越小。

本文算法中的深度互相關是根據文獻[7]中的結論做的改進,由于深度互相關得到的特征通道都是兩兩正交的,因此本文在深度互相關模塊前引入通道注意力機制,篩選貢獻更大、更有效的特征,使得后續的深度互相關作出更有效的特征響應;因為本文算法將應用于UAV 指定目標跟蹤,增加注意力機制也使算法更適用于小目標跟蹤。并且以此訓練的網絡模型對于目標外觀變化以及背景環境變化劇烈的情況下,會有更好的適應能力。

通道注意力塊由具有全局平均池化層(Global Average Pooling,GAP)、修正線性單元層(Rectified Linear Unit,ReLU)和具有Sigmoid 激活的降維層組成,如圖3 所示。給定一組通道特征c),通道注意力參數由β(如式(3))表示,網絡的輸出表示為對輸入執行通道級的重新縮放,由式(4)可得網絡的輸出值。本文算法中,在骨干網絡改進的ResNet-50 的conv4、conv5 卷積模塊后加入通道注意力機制模塊,使得訓練的深度網絡增強對目標外觀變化的適應能力,在某些特定環境下,跟蹤器的性能更好。

其中:δ為ReLU函數;σ為Sigmoid函數。

圖3 通道注意力機制網絡Fig.3 Channel attention mechanism network

1.4 RPN+RPN融合

1.4.1 互相關

基于Siamese 網絡的跟蹤算法將視覺跟蹤公式化為互相關問題,并從具有孿生網絡結構模型中學習跟蹤相似度圖的深層模型,一個分支用于學習目標特征表示,另一個分支用來搜索區域。目標區域在序列的第一幀中框出,看作模板示例z,在后續幀x中找到最相似的區域,用式(5)表示此過程:

其中:φ(z)代表孿生網絡特征提取器的模板分支輸出;φ(x)代表孿生網路特征提取器搜索分支輸出;*代表相關運算;b用于建模相似度值的偏移量。

SiamFC 算法中利用互相關層獲得用于目標定位的單個通道響應圖;在SiamRPN 算法中,通過添加巨大的卷積層來縮放通道(UP-Xcorr),互相關被擴展為嵌入更高級別的信息,例如錨點。繁重的上行通道模塊造成了嚴重的參數分布不平衡(例如RPN 模塊包含20M個參數,而特征提取模塊僅包含4M個參數,M表示未知數),這使得訓練優化很難在SiamRPN中進行,并且邊界框預測和基于錨的分類是不對稱的。為了對差異進行編碼,模板分支和搜索分支通過兩個非共享的1×1 卷積層,將通道減少到256,然后具有相同通道數的兩個特征圖逐通道進行相關運算,分類和回歸分支各自互相關運算如式(6)所示。

1.4.2 RPN

RPN 由深度互相關、分類與回歸三部分組成,結構如圖4所示。

圖4 RPN結構Fig.4 Structure of RPN

本文中的互相關采用的是深度互相關,逐通道地作相關運算;分類是用于前景和背景的分類;回歸是用于候選區域的回歸,生成邊界框的位置。假設有k個錨點,則RPN 需要輸出2k個分類通道和4k個回歸通道,分類損失函數采用快速區域卷積網絡(Faster Region-Convolutional Neural Network,Faster R-CNN)[6]算法中的損失函數,即交叉熵損失,如式(7)所示:

其中:yi為第i個樣本的值;pi為其概率值。邊界框回歸采用具有標準化坐標的平滑損失L1,假設Ax、Ay、Aw、Ah表示錨點框的中心點和形狀,Tx、Ty、Tw、Th表示真值框的中心點和形狀,歸一化距離為式(8)所示。然后經過平滑的L1損失,如式(9)所示,那么回歸的損失可表示如式(10)。最后總的損失函數如式(11)。

其中:λ為超參數,用來平衡回歸和分類兩個分支。

1.4.3 RPN分層特征融合

算法的骨干網絡是ResNet-50,采用了深度網絡提取特征,如果只獲取最后一層網絡提取的特征,就只會獲得深層特征。視覺跟蹤需要豐富的表示形式,其范圍從低到高、縮放范圍從小到大、分辨率從精細到粗糙。即使卷積網絡中的特征深度很大,但僅靠隔離層還是不夠的,將這些表示進行復合和聚合可改善對識別和定位的推斷。淺層特征主要集中于顏色、形狀等低級信息,這對于目標定位是必不可少的,但淺層特征缺少語義信息;深層特征具有豐富的語義信息,這在某些挑戰性場景(例如運動模糊、巨大變形)中可能是有益的。Fan等[12]提出的孿生級聯區域生成網絡(Siamese Cascaded Region Proposal Network,C-RPN)算法將三個RPN 模塊級聯起來,這種堆疊的思路使得算法的精度有所提高。算法中使用豐富的分層信息來幫助跟蹤,在網絡中提取了多分支特征以協同推斷目標定位。對于改進的殘差網絡ResNet-50,從最后兩個殘差塊提取多層特征,以進行分層融合,將這些輸出分別稱為F4(z)和F5(z)。如圖1 所示,conv4、conv5 的輸出分別饋入通道注意力機制模塊和RPN,由于兩個RPN 模塊的輸出大小具有相同的空間分辨率,因此加權總和直接用于分類和邊界框回歸的輸出,加權融合層conv-bn-relu 模塊將所有輸出組合在一起,如式(12)所示。

2 實驗與結果分析

2.1 實驗環境

實驗平臺是使用Linux 16.04 版本下Pytorch 0.4.1 框架的Python語言搭建,CPU處理器為Intel Xeon e3-1231-v3,內存是1 TB,GPU顯卡為GTX1080Ti,顯存為11 GB。

2.2 網絡訓練

本文算法的骨干網絡在ImageNet[13]數據集上進行預訓練,用于圖像標記。整個網絡模型在ImageNet DET 和ImageNet VID 數據集的訓練集上訓練網絡。在訓練和測試中,使用單尺度圖像,其中模板圖像為127×127 像素,搜索區域圖像為255×255,批處理圖像個數為28(14對)。

網絡訓練和設置借鑒文獻[14],將兩個同級卷積層附加到經過大幅縮減的ResNet-50 中,以使用5 個錨點執行候選分類和邊界框回歸,其中錨點率設置為[0.33,0.5,1,2,3]。本文使用0.001 的熱身學習速率訓練RPN 分支的前5 輪迭代(epoch),最后15 個epoch 對整個網絡進行了端到端訓練。初始學習率(lr)為0.005,訓練期間使用0.000 5的衰減和0.9的動量值(momentum),最終學習率下降到0.000 5,整個訓練周期為428 460 次。整個網絡訓練損失是分類損失和用于回歸的標準平滑L1損失之和,分類損失權值初始設置為1,回歸權值初始設置為1.2。

2.3 算法評估

本文算法評估的測試視頻序列來源于權威的目標跟蹤算法評估平臺VOT和OTB,VOT2018[15]中包含了各種大小物體、尺度變化大、目標遮擋嚴重、運動快速等跟蹤難點,總共60 段視頻序列;OTB2015[16]包含了OTB50 中的所有視頻以及再更新的視頻總共100 段視頻序列。本文在VOT2018 平臺測試中,測試了準確率(Accuracy)、預期平均重疊率(Expected Averaged Overlap,EAO);在OTB2015 平臺測試中,采用了一次通過評估模式(One-Pass Evaluation,OPE),通過成功率曲線和精度曲線對算法性能評估。成功率曲線計算跟蹤重疊率大于某個閾值的幀數占所有幀數的百分比,其中重疊率是指目標跟蹤框與真實目標框的重疊面積與總面積之比,本文設定重疊率閾值為0.65。精度曲線為追蹤算法估計的目標位置(bounding box)的中心點與人工標注(ground-truth)的目標的中心點,這兩者的距離(中心位置誤差)小于給定閾值的視頻幀的百分比,本文設置的像素閾值為20。以每秒平均幀數(FPS)來代表跟蹤算法速度。測試跟蹤器時的學習率lr=0.33,窗口影響因子Window_Influence=0.04,懲罰因子Penalty_K=0.04。

表1為四種算法在VOT2018和OTB2015平臺上各種指標評估結果,圖5 為OTB2015 平臺上的四種算法的成功率與精度曲線圖、VOT2018 平臺上的預期平均重疊率排序圖。ECOHC 表示提取方向梯度直方圖(Histogram of Oriented Gradient,HOG)和顏色(Color)特征的高效卷積算子(Efficient Convolution Operators,ECO)跟蹤算法。在VOT2018 平臺評估中,本文算法的準確率、預期平均重疊率、成功率、精度分別為59.4%、39.5%、68.7%、89.4%,比其他三種算法要好,其中SiamRPN 算法是速度最快的算法,幀率高達160 FPS,但是其準確率沒有本文算法高。圖6、7 為四種算法針對評估平臺上的某兩段視頻序列的跟蹤結果,選取的兩段視頻序列分別是運動模糊的車輛和無人機跟拍的遠距離目標。在視頻1 中,車輛存在運動模糊的現象;視頻2 中目標較小,且運動過程中存在遮擋和尺度變化的現象。從兩段視頻序列跟蹤結果可以看出,本文算法無論是在運動模糊環境中,還是在小目標、尺度變化大的情景中,都表現出更優的跟蹤結果。

表1 四種算法評估指標Tab.1 Evaluation indicators of four algorithms

圖5 四種算法評估結果Fig.5 Evaluation results of four algorithms

2.4 Attention-SiamRPN+算法應用于無人機指定目標跟蹤

無人機拍攝的視頻序列存在目標模糊、視頻抖動、尺度變化、目標小等問題,現將所提算法應用于無人機指定目標跟蹤中,分析算法對于無人機指定目標的跟蹤性能,并給出與其他三種算法對比的跟蹤結果。

針對無人機視頻序列的四種算法對比,如圖8 為四種算法跟蹤結果。本文算法在目標模糊、尺度變化大時都能很好地適應,準確地定位框選出目標位置,短時間的遮擋能準確定位目標,長時間的遮擋無法很好定位目標,因為該算法和其他孿生跟蹤算法都是基于第一幀目標進行學習訓練的,沒有在線更新模型,并且缺乏預測機制,當目標短時間的遮擋時,還能保持前幾幀的學習特征,定位出目標,但長時間的遮擋就會導致目標跟丟。ECO-HC 算法因為遮擋目標定位不準確;SiamFC 算法因為目標遮擋導致跟丟目標;SiamRPN 算法因為有相似目標,框選了其他物體和目標。四種算法的速度分別為:47.7 FPS(SiamFC),51.6 FPS(ECO-HC),139.8 FPS(SiamRPN),64.5 FPS(Attention-SiamRPN+)。本文算法的實時性第二,雖然沒有SiamRPN 算法的實時性高,但是已滿足實際無人機目標跟蹤實時性的要求,并且準確率更高。

圖6 視頻1跟蹤結果Fig.6 Video 1 tracking results

圖7 視頻2跟蹤結果Fig.7 Video 2 tracking results

圖8 無人機拍攝視頻跟蹤結果Fig.8 UAV shooting video tracking results

3 結語

針對無人機指定目標跟蹤中運動模糊、目標小、目標抖動等問題,本文提出了基于孿生區域候選注意力機制網絡的跟蹤算法Attention-SiamRPN+。該算法采用改進的ResNet-50提取特征,引入注意力機制模塊篩選特征,最后用RPN 實現分類與邊界框回歸。實驗結果表明:增加的注意力機制模塊使得模型可以更好地適應環境以及目標的變化;ResNet-50可以提高算法的實時性,以更適用于無人機的指定目標實時跟蹤。本文算法中沿用目標檢測算法的損失函數,對于目標的框選不是特別精確,未來的研究重點是針對損失函數做改進,使算法更適用于目標的定位。

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 国产精品美乳| 国产精品999在线| 91高清在线视频| 狠狠干综合| 国产精品露脸视频| 亚洲一区二区三区国产精品| 99久久精品免费看国产电影| 亚洲视频免费在线| 精品色综合| 亚洲成在线观看| 中国成人在线视频| 国产成人精品亚洲日本对白优播| 国产偷倩视频| 精品国产电影久久九九| 免费女人18毛片a级毛片视频| 中文字幕有乳无码| 日韩精品无码不卡无码| 四虎成人免费毛片| 婷婷伊人久久| 久久精品国产精品一区二区| 伊人查蕉在线观看国产精品| 无码专区在线观看| 日本在线免费网站| 精品综合久久久久久97超人| 91啦中文字幕| 国产精品一区二区无码免费看片| 欧美亚洲综合免费精品高清在线观看| 久久精品丝袜| 国产精品久久国产精麻豆99网站| 久久这里只精品国产99热8| 五月丁香伊人啪啪手机免费观看| 欧美视频二区| 美女被操91视频| 久久综合激情网| 色网站在线视频| 欧美.成人.综合在线| 久久视精品| 亚洲日本www| 71pao成人国产永久免费视频| 亚洲欧美在线看片AI| 欧美精品成人一区二区在线观看| 白浆免费视频国产精品视频| 手机在线国产精品| 欧美成人免费一区在线播放| 午夜福利亚洲精品| 日韩小视频在线观看| 国产美女自慰在线观看| 欧美精品1区2区| 国产精品无码制服丝袜| 午夜无码一区二区三区在线app| 色婷婷亚洲综合五月| 久久永久免费人妻精品| 老熟妇喷水一区二区三区| 国产网站免费观看| 亚洲美女操| 国产综合网站| 欧美精品在线看| 狠狠做深爱婷婷久久一区| 在线欧美一区| 在线观看亚洲人成网站| 欧美亚洲国产精品第一页| av尤物免费在线观看| 青青青亚洲精品国产| 18禁不卡免费网站| 国产手机在线观看| 亚洲 欧美 偷自乱 图片 | 久久窝窝国产精品午夜看片| jizz国产视频| 97在线观看视频免费| 日韩精品一区二区三区视频免费看| 国产素人在线| 国产中文在线亚洲精品官网| 97在线碰| 丝袜无码一区二区三区| 国产视频入口| 无码精品福利一区二区三区| 免费毛片全部不收费的| 91在线高清视频| 日韩在线观看网站| 91精品啪在线观看国产| 国产欧美中文字幕| 99伊人精品|