999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種低參數的孿生卷積網絡實時目標跟蹤算法

2021-02-05 03:03:00譚光鴻韓雁鵬
計算機工程 2021年2期
關鍵詞:模型

羅 朔,侯 進,譚光鴻,韓雁鵬

(西南交通大學信息科學與技術學院,成都 611756)

0 概述

目標跟蹤是計算機視覺領域的重要研究課題之一,廣泛應用于人機交互、智能視頻監控和醫學診斷等場景[1]。目標跟蹤定義為根據給定視頻中第一幀的目標位置來預估隨后幀中的目標位置。在一般情況下,目標跟蹤技術主要在連續的視頻序列中建立所要跟蹤物體的位置關系,然后得到物體完整的運動軌跡,從而為分析視頻內容提供數據依據并對目標行為進行分析。

傳統的目標跟蹤算法在面對目標快速移動、目標模糊、物體形變和光照變化等復雜場景時,難以準確跟蹤到目標[2-4],存在較大的局限性。隨著大數據時代的到來,深度學習技術憑借其強大的特征提取能力,在圖像識別和目標分割等計算機視覺領域引起廣泛關注,同時也推動了目標跟蹤技術的發展。2013年,WANG等人提出的DLT[5]將深度學習與單目標跟蹤任務相結合,雖然效果比某些傳統算法差,但是其為深度學習應用于目標跟蹤提供了新思路。2016年,BERTINETTO等人提出了一種新的全卷積孿生網絡跟蹤算法SiamFC[6],其用孿生網絡進行相似度比較,將跟蹤問題轉換為相似度學習問題,在ILSVRC15的目標跟蹤視頻數據集上進行端到端的訓練,達到了實時跟蹤的效果。2017年,SONG等人提出CREST算法[7],其建立一種端到端的跟蹤模型,將特征提取和響應生成融合在深度學習框架中,僅采用單層卷積的端到端結構就達到了利用深度特征的傳統協同濾波器的效果。2018年,WANG等人提出RASNet算法[8],其在SiamFC的基礎上加入一般注意力、殘差注意力、通道注意力3種機制,將SiamFC網絡結構改為端到端的網絡,有效緩解了過擬合問題,提升了網絡的判別能力和適應能力。

近年來,越來越多的研究人員利用深度學習強大的特征提取能力來提高跟蹤精度,其中性能較優的深度學習目標跟蹤算法包括MDNet、SiamRPN和SiamMask[9-11]等。但是,基于深度學習的跟蹤算法模型大,參數量多,很難部署于其他嵌入式設備上。SiamFC算法雖然能夠實現實時跟蹤,但是其模型依然很大,且訓練時沒有充分利用樣本之間的關系。

本文提出一種低參數的孿生卷積網絡實時目標跟蹤算法,設計基于非對稱卷積模塊的孿生網絡框架,使用非對稱卷積模塊來降低模型的參數量,同時利用三元組損失函數進行訓練,提取出表達性較強的深度特征完成目標跟蹤,從而提高算法的目標跟蹤精度。

1 SiamFC跟蹤算法

全卷積孿生網絡SiamFC的核心思想是將跟蹤一個任意目標當作一種相似度學習,通過比較上一幀圖像和下一幀圖像來返回一個相似度值,該相似度值越高,說明2個圖像越相似。SiamFC采用邏輯損失函數進行訓練,其表達式為:

其中,y、ν、x分別為標簽集、相似性評分集、實例輸入集,νi是單個樣本中跟蹤器跟蹤框的真實得分,yi∈{1,-1}是單個樣本的參考標簽分數,wi為實例xi的權重,在SiamFC中,根據正負實例的數量將平衡權重應用于損失函數中。平衡權重的定義如下:

其中,M為正實例輸入集xp的數量,N為負實例輸入集xn的數量,M=|xp|,N=|xn|。在SiamFC中,M=13,N=212。

雖然SiamFC利用深度網絡來提取特征,但其只利用了樣本之間的兩兩關系,忽略了正樣本和負樣本之間的潛在關系,同時,SiamFC模型也存在一定冗余。因此,設計一種參數量低且特征提取效率高的網絡模型十分有必要。

2 孿生卷積網絡實時目標跟蹤算法

2.1 網絡結構設計

SiamFC所用的網絡結構為AlexNet,雖然其層數較少,但是模型參數量依然很大。參數量小的卷積神經網絡模型可以進行更高效的訓練,能更方便地部署在嵌入式設備上。為了壓縮模型大小,文獻[12]提出將d×d的卷積分解為1×d和d×1卷積的方法,以減少參數量。文獻[13]提出的ENet也采用上述方法來設計高效的語義分割網絡,該網絡雖然精度有所下降,但是其降低了33%的參數量。本文提出一種基于非對稱卷積模塊的網絡結構,如圖1所示。

圖1 基于非對稱卷積模塊的網絡結構Fig.1 Network structure based on asymmetric convolution module

圖1所示網絡結構通過訓練孿生網絡來學習一個函數f(z,x),將模板圖像z與相同大小的搜索圖像x進行比較,如果2個圖像描述相同的對象,則返回高分;否則,返回低分。基于非對稱模塊的卷積神經網絡中有一個特征提取器φ,其對2個輸入圖像進行相同的特征提取,再通過一個卷積嵌入函數比較上述特征,卷積嵌入函數可以定義為:

其中,g是一個距離度量或相似度度量。本文采用的神經網絡為全卷積神經網絡,將卷積神經網絡最后的全連接層換成卷積層。全卷積神經網絡應用于目標跟蹤的優勢在于待搜索圖像不需要與模板圖像具有相同的尺寸,可以為網絡提供更大的搜索圖像作為輸入,然后在密集網格中計算所有平移窗口的相似度。全卷積神經網絡定義為:

其中,b為偏置項。式(4)的輸出是一個標量值的分數映射,大小為搜索區域和模板圖像經過一系列卷積后的尺度,得分最高的位置對應搜索區域中需要跟蹤的目標位置。

一維卷積核通常被用于逼近正方形卷積核的特征提取效果,以此進行模型壓縮和加速。如果幾個大小互為轉置的一維卷積核在相同的輸入上以相同的步幅進行卷積,產生相同分辨率的特征輸出,可以將這些特征與3×3卷積核提取后的特征在通道上進行融合,從而得到一個等效的特征輸出,并且不會增加額外的計算負擔。非對稱卷積模塊包括壓縮層和非對稱層2個卷積層,其中,壓縮層只包含1×1的卷積核,非對稱層則包含1×3、3×1和3×3 3種卷積核。與AlexNet相比,非對稱卷積模塊使用大量1×1的卷積核來替換3×3的卷積核,可以將參數降低為原先的1/9。在壓縮層中使用1×1的卷積核降低輸入到3×3卷積核中的通道數,也可以降低模型的參數量。在非對稱層中應用1×3、3×1和3×3的卷積核進行特征再融合,非對稱卷積模塊結構如圖2所示,整個網絡結構參數如表1所示,其中,S1為壓縮層中1×1的卷積核個數,即輸入到壓縮層中的通道數。

圖2 非對稱卷積模塊結構Fig.2 Structure of asymmetric convolution module

表1 網絡結構參數Table 1 Network structure parameters

整個網絡的輸入通道數為3,所有卷積層都有ReLU非線性激活函數,都加入了批處理規范化層來進行數據的歸一化處理,使得在進行ReLU之前不會因為數據過大而導致網絡性能不穩定。

2.2 三元組損失

三元組損失廣泛應用于計算機視覺領域中的人臉識別、圖像檢索和行人再識別[14-16]等任務。本文提出一種新的三元組損失,將其加入到孿生網絡結構中,以充分挖掘輸入之間的內在聯系。如同分割實例集x,將相似度的評分集ν也分割為正評分集νp和負評分集νn,然后直接在這些得分對上定義三元組損失。為了測量每個得分對,本文應用匹配概率,即使用softmax函數將正實例分配給示例的概率。匹配概率的定義如下:

本文目標是使所有得分對之間的聯合概率最大,即所有概率的乘積最大。通過使用負對數可以得出損失公式如下:

將式(5)代入式(6)可得:

將式(2)代入式(1)可以得出邏輯損失函數如下:

進一步可得:

從式(8)、式(9)可以看出,2種損失函數的區別在于求和項不同,可設:

梯度在深度學習的訓練中起重要作用,因為涉及反向傳播階段,所以可以通過梯度來分析2個損失函數的特點。對于邏輯損失函數項,梯度為:

由式(12)、式(13)可以看出,邏輯損失的梯度?Tl/?νp和?Tl/?νn分別只依賴νp和νn,這意味著邏輯損失函數不能充分利用νp和νn的信息,而三元組損失的梯度?Tt/?νp、?Tt/?νn與νp、νn都有聯系,與邏輯損失相比,三元組損失可以同時利用νp和νn的信息,從而實現更強大的表示。同時,因為本文的三元組損失是在原始分數的基礎上定義的,使用正分數和負分數的組合,所以可以使用相同的輸入來滿足網絡,在訓練過程中不需要額外的計算也可進行深度網絡的特征提取。

3 實驗結果與分析

3.1 訓練數據集

GOT-10K數據集[17]是中科院在2018年發布的一個目標追蹤數據集,其包含了超過10 000條視頻,分成560多個類別,87種運動模式,人工標注邊界框超過150萬個。數據集又分為訓練集、驗證集和測試集。GOT-10K數據集與其他數據集的區別在于其子集之間不存在交集,可以使得訓練出的模型有更強的泛化能力。

3.2 結果分析

對整個數據集訓練50輪,每個階段包括9 335對樣本,訓練的batchsize大小為8,學習率在10-2~10-5之間進行衰減。計算機CPU為Intel I7-6800K處理器,主頻為3.4 GHz,內存為32 GB,顯卡為NVIDIA GeForce GTX1080Ti,實驗環境為ubuntu16.04,Pytorch框架。為了充分驗證本文算法的性能,選擇在當前比較流行的跟蹤基準GOT-10K、OTB100[18]和VOT2016[19]上進行測試。

3.2.1 GOT-10K基準

在GOT-10K測試集上驗證算法性能,GOT-10K包含180段視頻,一共有84個目標類別和32個動作類別。采用平均重疊率(AO)、成功率(SR)和FPS 3個評價指標。AO為所有幀跟蹤結果與事實之間重疊率的平均值,SR為重疊率超過一定閾值的成功跟蹤幀所占的百分比,本文選擇0.50和0.75這2個閾值,FPS為每秒傳輸幀數。GOT-10K基準下的實驗結果如表2所示。

表2 GOT-10K基準下的評估結果Table 2 Evaluation results under GOT-10K benchmark

在表2中,本文算法同時使用非卷積模塊和改進的三元組損失函數。從表2可以看出,在僅使用非對稱卷積模塊時,模型大小只有3.8×106,算法精度略低于SiamFC算法,但是速度提升了9FPS。在僅使用三元組損失函數時,算法精度有所提升,模型大小保持不變。當同時使用非對稱卷積模塊和三元組損失函數時,模型精度和速度均優于SiamFC算法,其中,AO提升了1.8個百分點,SR(0.50)與SR(0.75)分別提升了1.1和0.9個百分點,速度也提升了9FPS,模型大小為3.8×106,只有SiamFC算法的40%。本文算法在精度、速度都提升的情況下降低了模型大小,為跟蹤算法部署于嵌入式設備提供了可能。

3.2.2 OTB基準

OTB也是視覺跟蹤領域廣泛使用的基準庫[20],其包括OTB50和OTB100 2個數據集,本文選擇OTB100數據集,該數據集包含100個人工標注的視頻幀,每個序列包括11個不同的屬性,如尺度變換、運動模糊、光照變化和遮擋等。本文采用準確率和成功率2個評價指標,準確率表示中心點距離小于給定閾值的視頻幀所占的百分比,成功率表示重合率得分超過某個閾值的幀所占的百分比。各算法準確率和成功率對比結果如圖3所示。圖3(a)中的橫坐標為中心點位置誤差的閾值,其為一個像素值,當中心點位置誤差的閾值越大時,算法的準確率越高。圖3(b)中的橫坐標為重疊率閾值,重疊率閾值越高,算法的成功率越低。從圖3可以看出,在僅使用三元組損失函數時,模型的準確率和成功率分別達到79.8%和59.5%,本文算法同時使用非卷積模塊和三元組損失函數,準確率和成功率也達到78.9%和59.2%,相比SiamFC算法都有一定提升。

圖3 OTB100基準下算法性能對比結果Fig.3 Comparison results of algorithms performance under OTB100 benchmark

3.2.3 VOT2016基準

VOT是一個針對單目標跟蹤的測試平臺,本文選擇在VOT2016數據集上進行測試,評價標準為預期平均重疊率(Expect Average Overlap rate,EAO)、準確率(Accuracy)、EFO(Equivalent Filter Operations)和魯棒性(Robustness)。其中,EFO為等效濾波,為了減小不同網絡的編程語言和硬件配置對跟蹤速度的影響,本文首先在600像素×600像素的圖像上進行30×30的濾波運算,然后將跟蹤算法處理每幀圖像的時間除以濾波運算的時間,得到一個歸一化的參數,即EFO,其可以比較客觀地評價跟蹤器的性能。魯棒性數值為跟蹤過程中的失敗總次數。一個性能較優的跟蹤器應該有較高的EAO、準確率和EFO,但魯棒性分數應該較低。

在VOT2016中,將本文算法與SiamFC[6]、KCF[21]、SAMF[22]和DAT[23]4個主流跟蹤算法進行對比,結果如表3所示。從表3可以看出,在VOT2016基準下,本文算法的EAO高出SiamFC算法0.8個百分點,準確率也提高了1.27個百分點,并且與其他3個主流算法KCF、SAMF、DAT相比,本文算法都有很大的性能提升。雖然在速度評價指標EFO上本文算法低于KCF算法和DAT算法,但也高于SiamFC算法和SAMF算法,達到實時跟蹤的效果。在EAO指標上,本文算法取得最高值24.38%,高于KCF的19.35%和DAT的21.67%。在魯棒性方面,本文算法取得最小的魯棒性值0.447,跟蹤失敗次數與其他算法相比最少。綜上,本文算法EAO和準確率最高,魯棒性能最好,在5種算法中具有較好的性能表現。

表3 VOT2016基準下的評估結果Table 3 Evaluation results under VOT2016 benchmark

圖4所示為5種跟蹤算法的實驗效果對比,左上角標號為測試視頻序列中的圖片幀數編號。從圖4可以看出,在整個視頻序列中本文算法一直保持平滑的跟蹤效果,KCF算法和DAT算法的跟蹤效果越來越差,SAMF算法最后完全丟失了跟蹤目標。

圖4 5種算法的跟蹤效果比較Fig.4 Comparison of tracking effects of five algorithms

4 結束語

本文提出一種孿生卷積網絡實時目標跟蹤算法。構建基于非對稱卷積模塊的網絡結構,通過非對稱模塊減少模型的參數量,使用三元組損失函數進行模型訓練以提高算法精度。實驗結果表明,該算法能夠大幅降低模型大小并實現實時跟蹤,且跟蹤精度優于KCF、DAT、SAMF和SiamFC 4種算法。后續將引入再檢測機制,結合目標檢測與目標跟蹤進一步提升算法的跟蹤性能。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲无码91视频| 不卡无码网| 中文字幕亚洲综久久2021| 国产农村精品一级毛片视频| 国产香蕉97碰碰视频VA碰碰看 | 亚洲爱婷婷色69堂| 国产99视频在线| 婷婷午夜天| 国产在线精品美女观看| 制服丝袜一区二区三区在线| 日韩123欧美字幕| 国产成人精品一区二区三在线观看| 曰韩免费无码AV一区二区| 亚洲男人的天堂网| 亚洲欧美日韩久久精品| 亚洲精品波多野结衣| 亚洲品质国产精品无码| 98超碰在线观看| 国产欧美精品一区二区| 波多野结衣在线se| 国产精品区视频中文字幕 | 国产99视频精品免费观看9e| 国产精品女同一区三区五区| 91久久天天躁狠狠躁夜夜| 91人人妻人人做人人爽男同| 青青草原国产| 亚洲国产高清精品线久久| 国产精品偷伦视频免费观看国产| 亚洲男人在线天堂| 蜜桃臀无码内射一区二区三区 | 亚洲精品色AV无码看| 韩国福利一区| 欧美一级特黄aaaaaa在线看片| 国产视频大全| 成人欧美在线观看| 色婷婷在线影院| 人妻无码中文字幕一区二区三区| 国产原创第一页在线观看| 女人18一级毛片免费观看 | 亚洲IV视频免费在线光看| 婷婷色中文| 亚洲欧美日韩天堂| 在线观看国产黄色| 成人毛片免费在线观看| 看国产毛片| 极品私人尤物在线精品首页| 国产精品福利导航| 国产国语一级毛片在线视频| 亚洲午夜18| 国产免费a级片| 成人免费一级片| 亚洲成人精品在线| 亚洲男人的天堂在线| 国产超薄肉色丝袜网站| 操操操综合网| 伊人色在线视频| 欧美成人区| 天天综合网亚洲网站| 国产成人久久综合一区| 最新国产麻豆aⅴ精品无| 亚洲精品久综合蜜| 极品性荡少妇一区二区色欲| 老司机精品99在线播放| 亚洲一区波多野结衣二区三区| 日本不卡在线视频| 国产精品男人的天堂| 激情五月婷婷综合网| 露脸真实国语乱在线观看| 国产网站免费| 国产精品思思热在线| 色屁屁一区二区三区视频国产| 国产91蝌蚪窝| 99久久精品美女高潮喷水| 国产视频 第一页| 欧美一区二区福利视频| 1024你懂的国产精品| 黄色片中文字幕| 久久精品丝袜高跟鞋| 国产一区二区三区视频| 中美日韩在线网免费毛片视频| 99视频国产精品| 美女国产在线|