999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度模態融合的RGB-T目標跟蹤網絡

2024-03-04 02:33:58程竹軒范慧杰唐延東
關鍵詞:模態特征融合

程竹軒,范慧杰,唐延東,王 強

(1.沈陽化工大學 信息工程學院,遼寧 沈陽 110142;2.中國科學院沈陽自動化研究所 機器人學國家重點實驗室,遼寧 沈陽 110016;3.沈陽大學 遼寧省裝備制造綜合自動化重點實驗室,遼寧 沈陽 110044;4.中國科學院 機器人與智能制造創新研究院,遼寧 沈陽 110016)

目標跟蹤[1]是計算機視覺領域的一個熱門研究課題,在視頻監控、姿態分析、行為識別等領域被廣泛應用,然而RGB跟蹤器在遇到劇烈光照變化、低光照、雨天及大霧等跟蹤場景時,輸入圖像的質量會受到很大影響,導致跟蹤器性能嚴重下降,而基于可見光-熱紅外(RGB-Thermal,RGB-T)的多模態目標跟蹤可以有效整合可見光與熱紅外圖像信息,能克服單模態跟蹤對可見光強度敏感的局限性,提高跟蹤性能,因此相較于僅使用可見光模態信息進行跟蹤來說,RGB-T跟蹤魯棒性更高。然而,能否設計出高效的多模態融合策略、提取兩種模態的優勢特征并融合出一個包含二者優勢互補信息的中間態特征,將直接影響RGB-T跟蹤器的整體性能。

早期的模態融合策略中,一種方法是將兩個模態的特征通過級聯的方式進行融合,如Zhang等[2]提出一種基于多域卷積的RGB-T目標跟蹤網絡,先對卷積神經網絡(convolutional neural network,CNN)輸出的兩種模態特征執行級聯操作進行融合,再將得到的融合特征輸入指定層進行二分類來識別目標;另一種方法是通過逐元素相加的方式進行融合,如Zhang等[3]提出一種基于模態感知的RGB-T目標跟蹤網絡,通過模態感知層獲得一種中間模態,并將中間模態特征分別與可見光特征和熱紅外特征進行逐元素相加獲得融合特征。這兩種融合方式并未考慮到不同模態信息在不同跟蹤場景下的差異,如在圖1所示的跟蹤場景中,可見光模態的質量明顯高于熱紅外模態的質量,熱紅外模態無法提供有效信息,此時若將兩模態特征進行級聯或逐元素相加會引入無效信息,削弱可見光模態的信息,降低跟蹤器性能。Zhu等[4]提出一種新的融合方法,通過建立自適應聚合子網絡,在跟蹤過程中學習層權重和模態權重,網絡在線跟蹤速度僅為1.3幀/秒(frames per second,FPS),無法達到實時跟蹤的效果;Zhang等[5]將孿生跟蹤網絡引入RGB-T跟蹤任務當中,利用一對孿生網絡分別提取可見光與熱紅外特征,用級聯方式融合,形成融合后的模板特征與搜索區域特征,并對這兩種特征進行互相關操作得到最終的響應圖,此方法跟蹤速度較高,但由于缺少有效的融合策略以及未對多尺度特征信息加以利用,跟蹤精度較低。

圖1 模態質量差距較大的跟蹤場景

針對上述RGB-T目標跟蹤的特點以及現有網絡的不足,本研究提出一種基于多尺度模態融合的RGB-T目標跟蹤網絡,首先通過主干特征提取網絡獲得可見光與熱紅外各自的模板和搜索區域的特征,然后分別進行特征尺度拓展以引入不同語義級別的特征,并在3種尺度上分別進行模態信息融合,再將融合特征通過增強模塊增強特征表示,最后通過區域建議網絡(region proposal networks,RPN)獲得預測結果。

1 相關工作

1.1 基于區域建議的孿生網絡

Li等[8]提出的基于區域建議的孿生網絡(SiamRPN)由一對主干特征提取網絡和區域建議網絡組成,網絡分為模板分支和搜索分支。主干特征提取網絡用于獲得模板和搜索區域的初始特征;區域建議網絡由分類分支和回歸分支組成,分類分支用于區分跟蹤目標與背景,回歸分支用于調整候選框的大小與位置,為圖像中的每個樣本被預測為跟蹤目標或是背景的概率提供一個置信分數,將主干特征提取網絡輸出的初始特征進行互相關操作。具體來說,該操作會將模板特征變成批大小×通道數個卷積核,每個卷積核的大小為模板特征的寬×高,再將搜索區域特征分為批大小×通道數個組后進行卷積操作,得到分類分支和回歸分支對應的響應圖,最后利用非極大抑制對候選框進行篩選得到跟蹤結果。

1.2 基于SiamRPN的RGB-T目標跟蹤網絡

FSRPN(fuison SiamRPN tracker)[9]是一種基于SiamRPN的RGB-T目標跟蹤網絡,將SiamRPN拓展到可見光與熱紅外兩種模態,該網絡將特征疊加的融合策略應用于孿生網絡框架,通過主干特征提取網絡ResNet-50[10]獲得深層特征,并利用通道注意力對模板特征與搜索區域特征進行增強,然后將增強后的特征直接相加獲得融合特征,再利用這些融合的深層特征與區域建議網絡跟蹤目標。該方法在一定程度上融合了兩種模態的信息,但該網絡僅使用深層特征,未考慮不同尺度特征對后續融合以及互相關操作的影響,忽視了兩種模態特征間的差異性,難以獲得魯棒的融合特征,限制了網絡的跟蹤性能。

2 多尺度模態融合網絡

2.1 網絡整體結構

本研究提出的網絡模型采用孿生網絡結構,整體結構如圖2所示。網絡相較于基線網絡FSRPN,在多尺度特征的利用、模態融合、特征增強方面進行了改進。不同于基線網絡FSRPN僅使用單尺度特征以及直接相加的模態融合方式,本研究設計了一個特定的模塊,在將特征拓展到多個尺度的同時,在不同尺度上分別對可見光、熱紅外兩種模態信息進行自適應融合,并根據模板圖像和搜索區域圖像的特征分布差異,使用帶有殘差的通道自注意力以及卷積塊注意力模塊(convolutional block attention module,CBAM)[11]改進基線網絡中對融合特征增強的過程。

圖2 多尺度模態融合網絡結構圖

如圖2所示,本研究提出的網絡模型由一對AlexNet[12]組成的主干特征提取網絡、多尺度模態融合模塊、特征增強模塊和區域建議網絡組成。考慮模型跟蹤速度,采用一對AlexNet作為主干特征提取網絡,用于提取可見光與熱紅外對應的模板圖像和搜索區域圖像的初始特征。多尺度模態融合模塊主要實現對可見光與熱紅外對應的初始特征在3種尺度上的拓展,實現將兩種模態信息在3種尺度上分別進行模態融合。特征增強模塊由殘差通道自注意力和CBAM并聯組成,作用是對輸入的特征圖進行加權操作,增強目標區域的特征表示,抑制背景信息的特征表示,提高目標區域特征在區域建議網絡中的貢獻,提升跟蹤效果。區域建議網絡用來獲得分類分支和回歸分支對應的響應圖,最終輸出跟蹤結果。

2.2 主干特征提取網絡

對于兩種模態下圖像的特征提取,采用一對非共享權值的AlexNet網絡作為主干特征提取網絡,其網絡參數如表1所示。其中,Conv表示卷積核大小不同的卷積,MaxPooling表示全局最大池化。在對數據集中每段視頻序列進行跟蹤時,將首幀的目標中心作為該序列的模板圖像,每次跟蹤只對模板圖像進行一次特征提取,后續跟蹤過程不對模板特征進行在線更新,這樣可以有效降低運算量,提高網絡跟蹤速度,同時跟蹤目標也不受背景信息影響,在長時間跟蹤中可以有效提高跟蹤性能,避免遇到遮擋時在線更新學習到背景信息。

表1 主干特征提取網絡參數

可見光與熱紅外對應的模板圖像與搜索區域圖像在進入主干特征提取網絡之前預先裁剪成尺寸127×127和256×256大小,最終輸出的特征尺度為6×6×256和24×24×256,此過程可由式(1)表示:

(1)

式中:zv與xv分別表示可見光對應的模板圖像與搜索區域圖像,φ()表示特征提取操作。熱紅外分支處理過程同理。

使用AlexNet作為主干特征提取網絡可以有效保證跟蹤速度,并且SiamDW[13]通過實驗表明,對于孿生網絡,使用更深的主干網絡并不能有效提升跟蹤效果,因為更深層的主干網絡在提取深層特征時會提高網絡的感受野,而孿生網絡的最佳感受野為整個輸入圖像的60%~80%。此外,深層的主干網絡還會降低特征間的區分度,導致跟蹤性能降低。

2.3 多尺度模態融合模塊

深層特征含有更加豐富的語義信息,但缺點是特征圖的分辨率很低,無法充分表達對應的空間信息;淺層特征可以很好地表達特征中所包含的空間信息,但語義信息表達能力較弱。因此,如何將深層特征與淺層特征相結合,使不同尺度的特征起到互補效果是多尺度操作的關鍵。本研究提出一種多尺度模態融合模塊,如圖3所示。首先將初始特征經過卷積核大小為1×1的卷積調整特征的通道數,然后經過一個由若干殘差卷積組成的瓶頸層(Bottleneck)改變特征的語義級別,不同級別的融合可以得到更加穩定的語義信息,利用穩定的語義信息可以使跟蹤過程不再受到目標物體外觀變化的影響,通過殘差結構可以避免梯度消失所導致的退化問題,并且殘差卷積可以通過構建恒等映射層以實現卷積層的自適應組合[14],從而構建出更加高效的卷積結構。此過程以可見光搜索區域圖像為例,可由式(2)表示:

(2)

圖3 多尺度模態融合模塊

式中:B1、B2表示瓶頸層,L表示LeakyReLU激活函數,熱紅外分支對應的操作同理。通過此模塊,模板圖像分支與搜索區域圖像分支將會各得到兩種模態特征尺寸為1 024×6×6、512×12×12、256×24×24的共計6種特征。

在得到每個模態的不同尺度特征后,通過自適應融合方式在3種尺度上分別進行模態融合。不同模態信息各有優點:可見光圖像可以提供豐富的背景信息,更好地區分目標與背景;熱紅外圖像可根據熱成像原理,全天候提供準確的目標輪廓信息。為了利用兩種模態的互補信息,本研究通過生成模態權重的融合結構,對原特征進行自適應加權的方式融合兩種模態信息,如圖4所示。圖4中,GAP表示全局平均池化,FC表示公共全連接層,FC1與FC2為兩個非共享權重的全連接層,wv與wt表示可見光與熱紅外的模態權重,Cat表示級聯操作。

圖4 自適應模態融合

該結構中,首先將可見光與熱紅外特征疊加,然后利用全局平均池化以及全連接層和Softmax函數生成每個模態對應的自適應權重向量并加權。以6×6×1 024尺度的特征為例,該過程可表示為:

(3)

(4)

(5)

式中:GAP表示池化核大小為1的全局平均池化,FC表示公共全連接層,wg表示公共權重,FC1與FC2表示可見光與熱紅外各自的全連接層,wv與wt分別表示各自生成的權重,Cat表示級聯操作,Af表示模塊輸出的每個尺度的融合特征。最后通過上采樣與卷積操作使3種尺度特征歸一化并疊加得到最終的融合特征,該融合策略通過自適應的方式避免了對有效模態信息的削弱,融合出的特征相較于級聯和逐元素相加的方法有更強的魯棒性。

2.4 特征增強模塊

特征增強模塊由殘差通道自注意力和CBAM并聯組成,通過特征增強模塊從特征中學習權重分布,利用學到的權重分布,改變原特征的特征分布,從而達到增強目標特征并抑制背景特征的目的。Hu等[15]提出一種通道自注意力結構,通過建模通道之間的關系自適應地改變通道特征分布。由于模板特征是目標最顯著的特征,包含背景信息較少,使用深層的注意力機制會破壞模板圖像的特征分布。本研究在通道自注意力的基礎上,設計一種包含捷徑連接的殘差通道自注意力,在增強融合后的模板分支特征的同時,最大限度地保留其特征分布,結構如圖5所示。圖5中,Conv表示卷積核為1的卷積。

圖5 殘差通道自注意力

首先通過一個1×1的卷積調整輸入特征的通道數,然后利用全局平均池化操作將特征的空間維度壓縮成一個點,得到一個通道數維度的特征向量,之后通過全連接層與Sigmoid激活函數生成通道權重,并將權值向量對輸入特征加權得到增強特征,最后與捷徑連接相加得到最終輸出,該過程可表示為:

Ae=Sigmoid[FC(GAP(Conv(Af)))]?Conv(Af)+Conv(Af)。

(6)

對于搜索區域圖像,采用CBAM進行特征增強。CBAM比通道自注意力的結構更加復雜,可以對特征在通道和空間位置兩個方面進行增強,因在不同網絡結構和不同任務中具有適用性強的特點,可在任何卷積神經網絡架構中靈活使用,在計算量較小的同時增強特征的表達,其結構如圖6所示。

圖6 CBAM結構圖

CBAM會依次通過通道自注意力Mc和空間自注意力Ms求出對應的通道權重與空間權重,并對輸入特征進行加權操作,得到增強后的特征,該過程可由式(7)表示:

Ac=Mc(Af)?Af,As=Ms(Ac)?Ac。

(7)

通過兩種注意力結構的并聯使用,可以有效地增強融合后的特征表示。

2.5 區域建議網絡

區域建議網絡首先由Faster R-CNN[16]提出,可以根據輸入的特征圖在原圖像上生成候選框,結構包含分類分支與回歸分支,分別用于區分前景和背景以及對候選框位置進行回歸。對特征增強模塊輸出的增強特征進行互相關操作后得到分類和回歸響應圖:

(8)

式中:★表示互相關操作,分類響應圖上的每個點都是一個通道數為2 000的向量,代表原圖像上錨點屬于正樣本或是負樣本,即目標或是背景信息。而回歸響應圖上的每個點都是一個通道數為4 000的向量,代表錨點在原圖像上的位置信息。本研究設置錨點數量為5,其寬高比分別為3、2、1、1/2、1/3,網絡得到的響應圖尺寸為19×19,則原圖像上的錨點數為1 805,之后通過非極大抑制進行篩選,計算所有錨點對應錨框與目標框真值的交并比,其中大于0.6為正樣本,小于0.3為負樣本,最終選擇出16個正樣本和48個負樣本供網絡學習。

2.6 損失函數

采用交叉熵函數作為分類分支的損失函數,采用L1平滑損失作為回歸分支的損失函數,定義候選框與目標框真值之間的標準距離為:

(9)

式中:gx、gy、gw、gh為目標框真值的坐標,dx、dy、dw、dh為錨點相較于目標框真值的偏移量。L1平滑損失為:

(10)

因此,回歸分支的損失可以表示為:

(11)

分類分支的損失可以表示為:

(12)

式中:N為樣本數量;pi是網絡對樣本的預測值;yi是樣本的真實標簽,若為正樣本則yi為1,若為負樣本則yi為0。

網絡總的損失函數L可以表示為:

L=Lcls+μLreg。

(13)

式中,μ為控制兩種損失函數平衡的超參數,用來確保二者在數值上處于同一數量級,設為1。

3 實驗結果與分析

3.1 實驗數據集

將提出的目標跟蹤網絡在GTOT、RGBT-234兩個公開的RGB-T目標跟蹤數據集上進行實驗。其中,GTOT包括50個不同場景下的可見光與熱紅外視頻序列,共7 500個幀對,每幀圖片都由人工進行真實邊界框的標注,并且視頻中包含了遮擋、尺寸變化、快速移動、低光照、熱紅外交叉、小目標、形變等7種挑戰屬性;RGBT-234是一個規模更大更復雜的數據集,包括234個不同場景下的可見光與熱紅外視頻序列,共117 000個幀對,并且視頻中包含了12種挑戰屬性。LasHeR[17]是一個大型數據集,由1 224個可見光和熱紅外視頻序列和730 000個幀對組成,其目標類別達到32個。

3.2 實驗配置

所提出的網絡基于深度學習框架Pytorch實現,實驗使用的軟件環境為Windows 10,CUDA 11.0.197,Python 3.7,硬件配置為NVIDIA TITAN XP;網絡初始學習率為0.01,隨著訓練的進行衰減至0.000 01,整個網絡采用端到端的方式訓練迭代50次,批大小設置為32;使用AlexNet的預訓練參數對Conv1、Conv2、Conv3的參數進行初始化,并在前10次迭代中凍結這3層參數以防止權值被破壞,使用隨機梯度下降法優化損失函數;使用RGBT-234和LasHeR作為數據集訓練一個網絡,并在GTOT數據集上測試,然后使用GTOT和LasHeR數據集訓練另一個網絡,并在RGBT-234上測試。

3.3 評價指標

本研究采用RGB-T跟蹤中最常用的精度(precision rate,PR)和成功率(success rate,SR)兩種指標來評估所提出的RGB-T目標跟蹤網絡的性能。精度是在給定的距離閾值內預測邊界框的中心與目標真實邊界框中心距離小于閾值的圖像幀數占所有幀數的比值,成功率是預測邊界框與目標真實邊界框之間的交并比大于閾值的圖像幀數占所有幀數的比值。兩種指標數值越高,表示網絡的跟蹤性能越好。

3.4 實驗分析

在GTOT數據集和RGBT-234數據集上對網絡進行測試,并將實驗結果與已有的先進方法(HMFT[18]、ADRNet[19]、JMMAC[20]、FSRPN、MANet++[21]、DAFNet[22]、DAPNet[23]、SiamCDA[24])進行對比,對比結果如圖7所示,圖注中每種方法后的數值表示該方法在不同閾值下的平均精度或平均成功率??梢钥闯?在GTOT和RGBT-234數據集中,本研究所提網絡的精度和成功率分別比基線網絡FSRPN高14.9%、14.6%和4.8%、4%,證明了本研究所提網絡結構的有效性,并且在測試過程中的平均跟蹤幀率為37 FPS,可以達到實時跟蹤的效果。

圖7 不同網絡在兩個數據集上的對比結果

RGBT-234數據集包含12種挑戰屬性,分別為背景、相機移動、形變、快速移動、嚴重遮擋、低光照、低分辨率、運動模糊、無遮擋、部分遮擋、尺度變化、熱紅外交叉,與其他網絡的對比結果如表2所示。表2中每種挑戰表現最優結果以黃色表示,次優結果以藍色表示。

表2 不同網絡在RGBT-234不同挑戰屬性下的PR/SR結果對比

從表2可以看出,所提出的網絡在絕大多數挑戰屬性中的表現優于基線網絡FSRPN及其他網絡,背景、形變、嚴重遮擋、熱紅外交叉等4種屬性優于其他所有網絡,表明通過多尺度模態融合以及對融合后模態特征的增強為網絡提供了目標更加豐富的語義信息和細節特征,可以有效解決目標形變、快速移動、嚴重遮擋等導致的目標跟蹤性能不佳的問題。

圖8展示了本研究提出的網絡在4個復雜跟蹤場景下的跟蹤效果,其中藍色框與白色框為預測邊界框,紅色框與黑色框為目標真實邊界框,黃色框為FSRPN的預測邊界框。

圖8 網絡在4個復雜跟蹤場景下的跟蹤效果

3.5 消融實驗

為了驗證網絡中各個模塊的有效性,本研究在RGBT-234數據集上進行消融實驗,實驗設計如下。

1) Our-ATO。僅使用特征增強模塊,移除網絡中的多尺度模態融合模塊;

2) Our-MSO。僅使用多尺度模態融合模塊,移除網絡中特征增強模塊;

3) Our-MSO-A。移除多尺度模態融合模塊中的尺度拓展操作;

4) Our-MSO-B。移除多尺度模態融合模塊中的自適應模態融合,并以特征級聯替代。

表3為RGBT-234數據集上消融實驗結果。由表3可見,Our-ATO和Our-MSO的PR和SR指標均高于基線網絡FSRPN,表明兩個模塊的有效性,Our-MSO-A和Our-MSO-B的結果均低于Our-MSO,表明多尺度模態融合模塊中的尺度拓展以及模態融合的有效性。為了更直觀地展示二者對于網絡性能的提升效果,圖9以響應熱力圖的方式展示了4個跟蹤場景下網絡輸出響應的比較,可以看出,在多尺度模態融合模塊與特征增強模塊的作用下,響應位置更趨近于目標中心區域,表明兩個模塊可以為網絡提供有效的多尺度融合模態信息以獲得更準確的響應,從而提高跟蹤精度。

表3 RGBT-234數據集上消融實驗結果

圖9 網絡輸出的響應熱力圖比較

4 結論

本研究提出的RGB-T目標跟蹤網絡可以在不同尺度融合兩種模態信息獲得更加魯棒的模態互補特征,并且通過特征增強模塊進一步增強特征表示,可以有效應對目標快速移動、目標遮擋、熱紅外交叉等復雜跟蹤場景。在兩個RGB-T跟蹤數據集上的實驗結果表明,本網絡與其他網絡相比具有更高的跟蹤性能,可以通過雙模態信息互補的方式獲得更加準確的目標響應,提高不同場景、不同挑戰下的跟蹤效果。

未來考慮通過改進網絡結構提升運動模糊以及像機移動跟蹤場景下對目標特征的捕捉能力。

猜你喜歡
模態特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 国产精品思思热在线| 亚洲中文精品久久久久久不卡| 久久这里只有精品66| 亚洲动漫h| 风韵丰满熟妇啪啪区老熟熟女| 福利一区在线| a级毛片免费看| 99re热精品视频中文字幕不卡| 97超爽成人免费视频在线播放| 91成人免费观看| 国产18在线播放| 最近最新中文字幕免费的一页| 国产成人你懂的在线观看| 91久久偷偷做嫩草影院电| 色婷婷成人网| 黄色a一级视频| 丁香六月综合网| 国产第一页亚洲| 国产真实乱了在线播放| 国产白浆在线| 亚洲天天更新| jizz在线观看| 亚洲中文字幕久久精品无码一区 | 久久精品免费国产大片| 激情综合婷婷丁香五月尤物| 女人18毛片一级毛片在线 | 青青青国产视频| 国产男女XX00免费观看| 18禁黄无遮挡网站| 国产毛片基地| 97久久精品人人做人人爽| 亚洲热线99精品视频| 国产日本一区二区三区| 久久99久久无码毛片一区二区| 亚洲美女一级毛片| 国产成人无码AV在线播放动漫| 亚洲国产精品成人久久综合影院| 日韩福利视频导航| 精品欧美一区二区三区在线| 亚洲人在线| 国产精品女在线观看| 亚洲婷婷六月| 欧美激情伊人| 国产亚洲高清在线精品99| 亚洲成肉网| 一区二区三区四区日韩| 国产成人毛片| 国产精品微拍| 精品国产Av电影无码久久久| 国产精品自在拍首页视频8| 无码不卡的中文字幕视频| 亚洲美女一级毛片| 欧美特黄一免在线观看| 国产精品性| 亚洲福利一区二区三区| 免费中文字幕一级毛片| 亚洲天堂区| 青青草国产精品久久久久| 91小视频在线播放| 99热在线只有精品| 亚洲无线视频| 亚洲中文字幕国产av| 97精品久久久大香线焦| 亚瑟天堂久久一区二区影院| 久久综合伊人 六十路| 国产精品视频第一专区| 91久久国产综合精品女同我| 国产在线视频福利资源站| 中文字幕中文字字幕码一二区| 国产熟睡乱子伦视频网站| 欧美亚洲国产精品久久蜜芽| 日本三区视频| 国产91高跟丝袜| 国产十八禁在线观看免费| a级毛片网| 九色在线视频导航91| 欧美激情首页| 国产精品一区在线麻豆| 99re热精品视频中文字幕不卡| 99久久亚洲精品影院| 国产毛片基地| 18禁黄无遮挡网站|