999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可見光與紅外融合目標跟蹤技術研究進展綜述

2022-10-27 02:43:18方彥策趙君靈黃昭龍李旗挺杜立超張宏江宋眉眉
計算機測量與控制 2022年10期
關鍵詞:模態特征融合

方彥策,趙君靈,黃昭龍,李旗挺,杜立超,張宏江,宋眉眉

(1.中國海洋大學 信息科學與工程學部,山東 青島 266100;2.天津理工大學 理學院,天津 300384;3.中國運載火箭技術研究院 研究發展部,北京 100076)

0 引言

目標跟蹤是計算機視覺領域中的一個重要的問題,在自動駕駛[1]、無人機[2]、機器人[3]等領域有廣泛應用。在目標跟蹤的早期階段,卡爾曼濾波[4],光流法[5]等方法已被陸續用于目標跟蹤。然而,緩慢的計算速度和較低的精度限制了目標跟蹤水平進一步的發展。同時,傳統的可見光目標跟蹤容易受到天氣、光線、視頻圖像質量等各種干擾。近年來,在通過可見光視頻進行目標跟蹤的基礎上,將紅外視頻圖像引入目標跟蹤的做法,有效地提高了傳統目標跟蹤的效果,這一方法被稱為可見光與紅外融合目標跟蹤方法(RGBT, RGB-infrared fusion tracking)。Yilmaz等人[6]在2006年對當時最先進的目標跟蹤方法進行了總結,但當時的方法仍然存在精度等方面的不足。近年來,人工智能技術的持續發展有力地促進了目標跟蹤技術的進步,突破了傳統可見光與紅外融合目標跟蹤的發展瓶頸,為可見光與紅外融合的目標跟蹤技術不斷提供新的思路、框架和工具,并逐漸在速度和準確性之間取得平衡,成為進一步研究的重點。Zhang等人在2020年[7]從稀疏表示、相關濾波、深度學習等方面梳理了可見光和紅外融合的主要方法。本文面向可見光與紅外融合目標跟蹤技術的發展歷程,特別針對近兩年來出現的新方法和新技術,對可見光與紅外融合目標跟蹤技術的研究現狀進行總結。

本文首先介紹可見光與紅外融合跟蹤的相關工作,然后從傳統方法和基于深度學習的方法兩方面進行闡述,接著介紹可見光與紅外數據集和相關評估指標,最后提出了對該領域未來理論研究和應用領域發展方向的展望。

1 基本概念

1.1 可見光和紅外圖像

可見光指的是波長在390~780 nm之間的光線,可見光圖像具有明顯的顏色和紋理信息。紅外光指的是波長為760 nm~1 000 μm(真空中)的輻射電磁波,紅外圖像反映的是目標和背景向外輻射能量的差異,具有較大的作用距離和較強的抗干擾能力。可見光圖像容易受光照影響,但可以提供豐富的圖像細節;紅外圖像不容易受光照影響,雖然能大致描繪物體的形狀和位置,但缺乏紋理等細節信息[8]。由此可見,如果將可見光和紅外圖像進行融合,可以實現較好的互補作用。

1.2 可見光和紅外圖像融合跟蹤技術方法

圖像融合是指用特定的算法將多幅圖像合成一幅圖像,原圖像集合的大部分特點都能從合成后的圖像中體現(圖1)。將可見光圖像和紅外圖像進行融合,既可以減少外界光照等環境因素的影響,也可以獲得盡可能豐富的圖像信息。通常來說,可見光和紅外圖像融合的方法有:像素級融合、特征級融合和決策級融合[9]。

圖1 可見光與紅外圖像融合過程

1.2.1 像素級融合

像素級圖像融合是指對可見光和紅外圖像進行匹配后,在兩種圖像的像素之上計算出新的像素值的方法,新的像素值將融合兩種圖像的信息。像素級融合實現難度比較低,但是計算量較大,在實時性方面有所欠缺。

1.2.2 特征級融合

特征級融合的過程是對可見光和紅外圖像分別進行特征提取之后,進行基于特征(如邊緣、形狀、輪廓等)的數據融合,并用融合后的特征做出判斷。

1.2.3 決策級融合

決策級融合是先對于可見光和紅外圖像分別進行單獨的處理,得到各自判斷和識別的初步結果,然后將這些初步結果按照一定的規則和權重進行調整,最終獲得最優的結果的過程。決策級融合在魯棒性、實時性、開放性等方面都具有優勢。

1.3 目標跟蹤

目標跟蹤是一種在給定視頻序列初始幀的目標大小和位置的情況下,利用特定方法獲得在后續幀中目標的大小和位置的技術方法。目標跟蹤在經過了早期經典方法的發展之后,又出現了基于相關濾波、深度學習等理論的方法。

早期經典方法主要根據目標的特征進行跟蹤。例如,光流法是[5]通過相鄰幀之間像素的位置變化來判斷目標的運動狀態,但這種方法要求限制像素的位移距離,所以光流法有很大的局限性。此外,粒子濾波等經典算法也被用于進行目標跟蹤,但還不能很好地解決目標跟蹤中的各種問題,也無法處理各種復雜的現實情況。

在基于相關濾波的目標跟蹤方法方面,最早利用相關濾波器進行目標跟蹤的方法是“最小輸出平方和誤差”算法(MOSSE,minimum output sum of squared error)[10],在實現了較高速度的同時提升了目標跟蹤的效果。

在基于深度學習的目標跟蹤方面,“視覺幾何”研究組(VGG,visual geometry group)提出了VGG-19網絡[11]并應用于目標跟蹤,該網絡利用部分卷積層作為特征提取層,得到的特征經由相關濾波器進行處理,實現了很好的跟蹤性能。此后,該領域還出現了對沖深度跟蹤(HDT,hedged deep tracking)[12]、視覺跟蹤連續卷積算子(C-COT,continuous convolution operators for visual tracking)[13]等基于深度學習的方法,在目標跟蹤的實時性和性能上都有所提高。

2 可見光和紅外融合目標跟蹤

可見光與紅外融合目標跟蹤的早期方法有卡爾曼濾波、粒子濾波和均值漂移等,經過較長一段時間的研究之后,發展出了基于相關濾波的方法、基于圖的方法和基于稀疏表示的方法。近年來,深度神經網絡表現出了強大的學習能力,突破了傳統目標跟蹤方法存在的精度瓶頸,成為了可見光與紅外融合目標跟蹤的一種主要方法。有鑒于此,本文將可見光與紅外融合的目標跟蹤方法分為經典方法和基于深度學習的方法。

2.1 經典方法

2.1.1 早期的經典方法

早期的可見光與紅外融合目標跟蹤方法主要基于三種不同種類的算法,分別是卡爾曼濾波算法、粒子濾波算法和均值漂移算法。

卡爾曼濾波是早期目標跟蹤方法中常用的算法。卡爾曼濾波算法由R.E.Kalman在1960年提出[4],卡爾曼濾波是一種高效率的遞歸濾波器,它能夠從一系列不完全和包含噪聲的測量中,估計動態系統的狀態。基于卡爾曼濾波的方法,論文[14]提出了一種運動物體檢測和跟蹤的系統,該系統把紅外視頻和可見光視頻穩定地集成在水平集框架中,將三維結構張量擴展為通量張量,實現無特征分解的快速、魯棒的運動檢測。除此之外,一種壓縮時空卡爾曼濾波融合跟蹤算法[15]將卡爾曼濾波擴展到多傳感器融合跟蹤的情形,其中圖像來源包括可見光圖像和紅外圖像。

根據已知的公開文獻,粒子濾波算法在1993年由Gordon等人提出[16],它通過非參數化的蒙特卡洛模擬方法來實現遞推貝葉斯濾波,適用于任何能用狀態空間模型描述的非線性系統,其精度可以逼近最優估計。粒子濾波方法在1998年[17]首次被引入到目標跟蹤領域,該方法將靜態非高斯問題的統計因子抽樣算法和目標運動的隨機模型進行了融合。之后,有研究人員利用一種融合顏色提示和結構相似性度量的粒子濾波器[18],去探討可見光和紅外攝像機的視頻像素級融合是否會存在精度上的問題,實驗表明該濾波器在紅外的視頻中跟蹤性能較好,而在可見光視頻中由于光照等環境因素干擾較大導致跟蹤性能較差,融合后不能保證取得更好的效果,甚至可能還會導致性能下降。對此,論文[18]認為基于多分辨率的融合方法,可以有效解決普通融合方法帶來的性能下降問題。另外,傳統的融合前跟蹤策略還存在多個單一傳感器之間相互影響的情況,因此出現了一種改進的粒子濾波算法[19],它使用帶有空間信息的顏色直方圖來表示目標模型,并給予每個粒子的顏色特征權值,同時在融合可見光和紅外序列的跟蹤結果的規則上進行了改進,最后根據目標融合跟蹤結果更新模板,在有效性、魯棒性和實時性上均有提升。

均值漂移算法最早由K.Fukunaga等人提出[20],它是一種沿著密度上升方向尋找聚簇點的方法,通過不斷地重復計算距離均值來移動中心點,實現對目標的跟蹤。均值漂移在復雜的背景變化之下,會導致魯棒性和跟蹤效果的下降。針對此問題,一種基于區域目標檢測和模糊區域規則的FRDIF融合方法[21]采用相似度加權算法,解決了復雜背景變化帶來的影響。除此之外,為了解決其他多模態跟蹤方法遇到的數據存儲量和處理量指數增長的情況,有學者提出了一個可以融合多個空間圖跟蹤器的框架[22],通過有效地組合特征以進行抗干擾的跟蹤,提升了跟蹤效果。

2.1.2 基于相關濾波的方法

相關濾波在目標跟蹤中是一種重要的方法。它通過設計特定的濾波模板,與目標所在的候選區域做相應的運算,從輸出的最大相應位置中可以得到目標的近似位置。相關濾波由于它自身在效率和正確性上的優勢,在目標跟蹤領域得到了很大的關注。根據公開的文獻資料,第一個被用于可見光與紅外融合目標跟蹤的相關濾波器是基于軟一致性的相關濾波器[23],軟一致性是指在稀疏不一致的情況下,使可見光和紅外光的光譜保持一致,從而實現可見光和紅外數據更有效地融合,并利用加權融合機制來計算檢測階段的最終響應圖。

在目標跟蹤階段,相似物體或背景噪聲的存在會導致算法的準確率降低,基于相關濾波的一種大邊緣目標跟蹤方法和一種多模態目標檢測技術的提出解決了相關濾波在此方面的不足[24]。考慮到在不同模式中的特征也具有一定的相似性,因此,基于這個原則可以構建一個相關濾波器[25],它利用低秩約束聯合學習不同模態,在繼承相關濾波的優點的同時,魯棒性也有一定程度的增強。在此之外,還有多種基于相關濾波的方法,例如基于相關濾波器和直方圖的融合跟蹤方法[26]、基于相關濾波器的可見光跟蹤[27]和基于馬爾可夫鏈蒙特卡羅的紅外跟蹤[28]。

2.1.3 基于圖的方法

公開文獻顯示,圖相關的模型是在2017年被提出的[28],通過使用可見光和紅外數據來學習對象的表示,該模型被稱為加權稀疏表示正則化圖。為了抑制可見光與紅外跟蹤的背景效應,研究人員[29]基于跨模態流形排序算法,通過將軟交叉模態一致性整合到排名模型中,并用最優查詢學習方法來處理查詢的標簽噪聲,將排序結果融合到基于塊的對象特征中以解決背景效應。在此基礎上,文章[30]又通過學習局部和全局多圖描述符對先前的圖模型進行了改進,首先用多個圖表示對象,并以一組多模態圖像塊為節點以防止失真和部分遮擋;然后隨著時間的推移,使用空間平滑度以及低秩表示動態地學習聯合圖;接著將多圖信息與對應的圖節點權重相結合,形成魯棒的對象描述符,最后采用結構化支持向量機進行跟蹤。在之前的研究基礎上,一種兩階段模態圖正則化流形排序算法被提出并用于學習可見光與紅外融合跟蹤對象的魯棒表示[31],該算法利用結構化向量機對目標位置進行預測,從而實現對目標的表示和跟蹤。

稀疏表示是一種使用字典中元素的線性組合來表示樣本的方法。據公開資料顯示,稀疏表示在2009年首次被引入可見光與紅外融合目標跟蹤任務[32],該方法將跟蹤任務建模為稀疏近似問題,并通過正則化的最小二乘方法來解決。在添加非負性約束和更新動態模板之后,實驗表明基于稀疏表示的方法有很大的潛力[32]。隨后,另一種基于稀疏表示的數據融合方法也被證明對于可見光與紅外融合目標跟蹤任務[33]是有效的,它將來自不同目標候選源的圖像塊鏈接到一個一維向量,然后將其稀疏表示到目標模板空間。對具有異構信息源的多個真實視頻的實驗表明,這個方法比當時同類目標跟蹤算法具有更強的魯棒性。在稀疏表示的基礎上,聯合稀疏表示提供了一種比較自然的方法來融合多種模態的信息[34],使用聯合稀疏表示設計的似然函數能有效地判斷樣本之間的相似性。

除了直接利用稀疏表示進行可見光和紅外融合的目標跟蹤外,稀疏表示還可以與貝葉斯框架等多種方法相結合,從而獲得不同的稀疏表示模型,達到比單一稀疏表示更好的效果。文獻[35]介紹了一種在貝葉斯過濾框架中的方法,通過拉普拉斯稀疏表示引入生成多模態特征模型,進行實時在線的灰度可見光與紅外目標跟蹤。該模型充分利用局部塊之間的相似性來細化其稀疏代碼,從而可以無縫融合不同的源數據以進行目標跟蹤,在魯棒性和有效性上都得到了實驗驗證。另一種貝葉斯過濾框架中的跨模態稀疏表示的融合方法[36],是在模型中引入模態權重以實現自適應融合,使用重建殘差和系數來定義運動模型生成的每個候選樣本的似然概率,最后通過尋找具有最大似然概率的候選樣本來定位目標。另外,模型[37]基于可見光和紅外目標跟蹤的模態相關感知,通過低秩正則化表征不同模態之間的相關性,并結合稀疏正則化的表示,使其能夠進行有效模態融合并處理較大的外觀變化。

在貝葉斯過濾框架中,還有一種基于聯合稀疏表示的自適應融合方案[38],能夠自適應地結合來自灰度和紅外視頻的信息,可在比較復雜的場景中進行目標跟蹤,也適用于在線跟蹤任務。但是上述方法對于有挑戰性的場景仍然不能很好地進行目標跟蹤,因此在貝葉斯過濾框架下又有了一種基于多任務拉普拉斯稀疏表示的灰度(可見光)-紅外目標跟蹤方法[39],它基于給定的邊界框提取出一組重疊的局部塊,尋找灰度和紅外模態的多任務聯合稀疏表示,并將這兩種模態的表示系數連接成一個向量來表示邊界框的特性,該方法在比較有挑戰性的跟蹤任務中具有一定的有效性。

2.2 基于深度學習的方法

2.2.1 基于Transformer的方法

Transformer[40]是一個利用注意力機制來提高模型訓練速度的結構,由Google在2017年提出,最早被設計用于自然語言處理。Transformer使用注意力結構代替長短時神經網絡,同時也跳出了編解碼器與卷積神經網絡(CNN,convolutional neural network)或循環神經網絡(RNN,recurrent neural network)結合的固定模型框架。當前,Transformer在深度學習的各個領域都表現出了其出色的性能,其中也包括可見光與紅外融合目標跟蹤。

根據已公開的文獻,第一個將Transformer引入可見光與紅外融合目標跟蹤領域的是一種稱為跨模式協作上下文表示(CMC2R,cross-modal collaborative contextual representation)的雙流混合結構[41],通過編碼器塊轉換層融合不同分辨率下的局部特征和全局表征,以及空間和通道的自我注意機制,實現兩種模態的信息融合,最終獲得上下文信息(圖2),該網絡在目標跟蹤任務中表現出了較好的性能。

圖2 基于Transformer的跨模式協作上下文表示雙流混合結構

2.2.2 基于注意力的方法

深度學習中的注意力機制,來源于對人類視覺的注意力機制的研究。注意力機制能夠像人眼一樣,在輸入圖像之后,評估圖像中不同區域的重要性,并為其分配不同的權重。分層雙傳感器交互網絡(HDINet,hierarchical dual-sensor interaction network)[42]較早將注意力機制引入可見光與紅外融合目標跟蹤領域。該網絡的核心是特征交互模塊和數據編碼模塊兩個模塊,前者基于注意力機制提取和補充雙傳感器的主導信息,而后者負責將原始數據編碼為第一個特征交互模塊的初始輸入,同時后者的工作質量對整個網絡的性能有關鍵影響。為了高效地融合雙模態信息,有學者提出了基于模態感知注意網絡和競爭學習(MaCNet, modal-aware attention network and competitive learning)的可見光和紅外融合目標跟蹤算法[43]。該算法由特征提取網絡、模態感知注意力網絡和分類網絡組成,其中特征提取網絡利用雙流網絡結構,從每個模態圖像中提取特征;模式感知注意力網絡通過整合原始數據建立一個描述不同特征層重要性的注意力模型,來引導特征的融合,以增強不同模式間的信息交互;分類網絡由分別作用于可見光數據、熱紅外數據和融合信息數據的三個平行的二元分類器組成,輔以一個面向多模態的損失函數。在競爭性學習的訓練策略引導下,整個網絡將向雙模態的最佳融合方向進行微調。為進一步充分利用可見光圖像和熱紅外圖像在跟蹤中的互補優勢,跨模態注意網絡(CANet,cross-modal attention network)[44]給出了可見光與紅外融合目標跟蹤的兩個并行網絡中的跨模型操作(CM,cross-model operation),在兩種模態之間,設計了一種基于注意力機制校正的特征信息的加法運算,在獲得更豐富的模態特征信息基礎上有效減少了計算冗余。另外,利用一個并行的、分層的交互網絡來實現兩種學習方式的特征互補,體現了深度學習的互補優勢。然而,基于注意力機制的方法可能會導致在較長的時間跨度上,單幀學習的特征權重無法使分類器專注于魯棒的特征[45],為解決此問題,研究人員提出了一種包含全局和局部注意力的雙視覺注意力引導的跟蹤算法。此外,針對處理硬樣本(即難以學習的樣本)分類的一種用于可見光與紅外跟蹤的多模態學習框架(M5L,multi-modal multi-margin metric learning)[46]將所有樣本分為四個部分,利用其相互之間的關系來提高特征嵌入的穩健性,其中的注意力機制融合模塊可以實現基于質量感知的數據整合。

2.2.3 基于時間序列的方法

在深度學習中,時間信息是輸入神經網絡的視頻流中不可或缺的因素。目標跟蹤任務中,基于前后幀存在的時間上的因果關系,通常可以將時間因素作為線索。因此,在神經網絡中引入長短時記憶(LSTM,long short-term memory)等基于時間序列的方法是可見光和紅外融合目標跟蹤的重要方法之一。

基于歷史跟蹤結果的自適應融合算法[47]首先將基于時間序列的深度學習方法引入可見光與紅外目標跟蹤領域。該方法綜合了前向和后向的跟蹤結果來評估跟蹤精度,在給定初始目標邊界的情況下,采用卷積神經網絡進行特征提取,分別對目標進行可見光和紅外目標跟蹤,同時在這兩種模式中實現反向跟蹤,并且計算每對之間的差異。這一基于歷史跟蹤結果的融合算法,自適應地匯集了可見光和紅外信息,解決了可見光和紅外融合跟蹤過程中的一些難題。ChiNet將長短時記憶跟可見光與紅外目標跟蹤相結合[48],利用航天器交會序列的時間信息來估計航天器的相對姿態,根據長短時記憶單元在數據序列建模中的性能,來處理卷積神經網絡主干提取的特征,聯合多模態可見光與紅外圖像的輸入,將平均位置誤差縮小近80%。除此之外,一種考慮時間信息的自適應可見光與紅外目標跟蹤器[49]綜合分析了空間和時間因素,在傳統空間信息網絡的基礎上,增添了包含時間信息的網絡,構建了一個用于跨模態交互的自適應融合子網絡,從更多的維度中獲取有效的信息。

2.2.4 自適應融合的方法

隨著深度學習的迅速發展,原有的傳統圖像融合方法逐步傾向于與深度學習融合,大量融合模塊的研究和設計,對于綜合可見光圖像和紅外圖像的信息起了重要的作用。

針對不同序列的圖像對的個體特征和共同特征,動態融合網絡(DFNet,dynamic fusion network)[50]的雙流結構中的每一層可以依據兩個非共享卷積核來提取個體特征,通過共享卷積核為每一層提取共同特征,并對非共享卷積核和共享卷積核進行自適應加權和求和,從而可以動態計算個體特征和共同特征在面對模態可靠性變化時的貢獻。與DFNet相似,三串流自適應融合網絡(TAFNet,three-stream adaptive fusion network)[51]借助成對的可見光和紅外圖像進行人群計數。TAFNet分為一個主流和兩個輔助流,主流的輸入由一對可見光和紅外圖像結合構成,兩個輔助流分別利用可見光圖像和紅外圖像提取特定模態的特征。與前兩者所不同的是,增強背景感知相關濾波方法[52]則采用了先融合后跟蹤的策略,該方法將紅外圖像轉換為單通道圖像,利用灰度信息確定目標和整體環境之間的像素差異程度,通過對可見光和紅外圖像的自適應加權決策實現目標跟蹤。基于響應圖評估算法[53]改進了高斯回歸中的自適應融合權重,運用分層卷積神經網絡分別提取了可見光和紅外圖像中的深度特征,每個層的可見光和紅外信息互不干擾。為了更好地開發和利用多尺度信息,多分支自適應融合網絡[54]從多個分支中聚合多尺度信息,由多尺度適配器以并行的方式提取特征,并由多分支融合模塊自適應地聚合來自多個分支以及上一層的特征,從而減輕來自低質量圖像和視頻中的噪聲的影響。為了增強不同模態的特征表示并充分挖掘模態之間的互補性,三叉戟融合網絡(TFNET,trident fusion network)[55]通過遞歸策略來聚合所有卷積層的特征,利用聚合特征和模態特定特征進行分類和回歸,實現了更加魯棒的目標跟蹤。

2.2.5 基于多模態編解碼器的方法

多模態編解碼器可以將多種模態的信息輸入(如可見光、紅外)轉化成特定長度的向量,再將向量轉化成特定形式并進行輸出。論文[56]中提出了一種多交互雙解碼器,旨在解決可見光和紅外融合目標跟蹤方面存在的兩個關鍵問題:一是如何實現不同模態之間的有效互補,防止噪聲干擾;二是如何抑制顯著性偏差,即如何聚焦可見光和紅外目標的共同特征,避免被單一模態主導跟蹤。該方法利用多交互塊來模擬雙模態、多級特征和全局上下文之間的交互,從而融合了不同模態之間有效的互補特征,恢復出更多的空間細節,實現對目標對象的定位并抑制背景噪聲。

3 數據集與評價指標

3.1 可見光與紅外數據集

數據集在可見光與紅外融合目標跟蹤的訓練和測試過程中是不可或缺的。可見光與紅外融合數據集主要有OTCBVS、LITIV、GTOT、RGBT210、RGBT234、VOT-2016和LasHeR等。這些數據集在各自的歷史發展階段中,都有力推動了可見光和紅外融合目標跟蹤技術的研究。

3.1.1 OTCBVS數據集

OTCBVS數據集[57]是一個公開的基準數據集,可以用于測試和評估可見光與紅外領域的算法。這項工作是Riad I.Hammoud在2004年發起的。它由14個子數據集組合而成,分為7個紅外數據集、1個可見光數據集、6個可見光-紅外數據集,包含行人、面部、動作、武器、車輛、船舶等目標(圖3)。

圖3 OTCBVS數據集圖例

3.1.2 LITIV數據集

LITIV數據集[58]是利用可見光和紅外攝像機以每秒30幀的速度,在不同的場景和不同的時間進行拍攝而得到的圖像數據集合,圖像分辨率為320×240像素。LITIV數據集中共包括9個視頻序列。

3.1.3 GTOT數據集

灰度紅外目標跟蹤(GTOT,grayscale-thermal object tracking)數據集[38]包含50個不同場景下的視頻,包括道路、水池、實驗室等區域,共約15 800幀。其中,標注的被跟蹤目標分為4類,包括車輛、人、天鵝等。

3.1.4 RGBT210、RGBT234數據集

RGBT210數據集[29]是由一個熱紅外成像儀(DLS-H37DM-A)和一個CCD相機(SONY EXView HAD CC)拍攝得到的,其中包含210個視頻集,共約210 000幀,每個視頻集最多包含8 000幀。

RGBT234數據集[59]包含234個視頻集,共約233 800幀,每個視頻集包括該視頻的可見光和紅外視頻序列。相較于RGBT210數據集,RGBT234數據集拓展了場景的多樣性,增加了在炎熱天氣下捕獲的視頻(圖4)。基于RGBT234數據集,衍生出了2019年舉辦的Visual Object Tracking挑戰賽數據集VOT19-RGBT,該數據集包含234個序列,并且所有序列都根據VOT序列聚類協議在11維全局屬性空間中聚類。

圖4 RGBT234和RGBT210數據集圖例

3.1.5 VOT-2016數據集

由于上述GTOT、RGBT210等數據集存在著一定的局限性,比如數據集中的視頻主要由同一種設備采集,成像特性和圖像分辨率基本相同,這不利于保證目標跟蹤算法在不同環境中的應用效果。為了完善數據集、增強數據多樣性,“視覺目標跟蹤”團隊(VOT,visual object tracking)使用10種不同類型的傳感器、從9種不同類型的數據來源中收集圖像數據,構建了VOT-2016數據集[60]。該數據集的平均序列長度為740幀,分辨率范圍從305×225像素到1920×480像素不等,其中的數據還包含了由溫度改變而帶來的紅外特征變化。

3.1.6 LasHeR數據集

針對大規模數據集短缺、成像平臺單一、場景和類別數量有限、復雜場景數據缺乏的問題,研究人員又構建了LasHeR數據集[61]。該數據集由1 224個可見光和紅外視頻對組成,總數據量超過730 000幀。LasHeR數據集收集了廣泛的對象類別,從不同的拍攝點和不同的場景,進行了跨日夜、跨天氣、跨季節的數據采集,不僅對每一幀進行了空間對齊,而且還使用邊界框進行了手動注釋。

3.2 評價指標

可見光和紅外融合的目標跟蹤性能評估常用的指標有5種[62-63],即精確率、成功率、準確性、魯棒性和預期平均重疊(見表1)。

表1 跟蹤性能評價指標

3.3 基于深度學習的不同跟蹤方法的性能

可見光與紅外融合目標跟蹤在引入了深度學習技術之后,跟蹤的效果實現了較大提升(表2)。但是,相比于單一的可見光目標跟蹤,可見光與紅外圖像的融合處理會導致識別速度的降低。提高實時性將是可見光與紅外融合目標跟蹤領域需要研究的一個問題。

表2 部分可見光與紅外融合跟蹤器的性能表現

4 未來發展方向

近年來,可見光和紅外融合目標跟蹤領域的發展日新月異,但仍存在一些問題值得研究,一方面亟待擴充符合要求的可見光和紅外圖像,另一方面需要建立可見光與紅外融合目標跟蹤方法體系,從而進一步推動該領域的發展。

4.1 算法模型提升

4.1.1 發展無需對齊多模態目標跟蹤方法

由于能同時捕獲可見光和紅外圖像(或視頻)的裝置比普通相機的成本更高,所以可見光和紅外數據集相對較少。此外,可見光和紅外融合的目標跟蹤對于兩種圖像的對齊(Align)程度有較高的要求,但是現有可見光和紅外數據集中,能夠完全互相對齊的可見光圖像和紅外圖像數據量依然不夠充足,而構建圖像數據對齊的大規模數據集需要耗費較大的代價。因此,有必要發展無需對齊的多模態目標跟蹤方法,實現在可見光和紅外對齊圖像數據不足的情況下提升目標跟蹤的效果。在此方向上,近年來的研究工作[68-69]取得了一定的進展,所以無需對齊的多模態目標跟蹤方法在理論上是可行的[56]。

4.1.2 在跟蹤過程中融入目標的運動模型

在可見光和紅外融合目標跟蹤任務中,經常會出現尺度變化和熱交叉(TC,thermal crossover)的情況,在此情形中很多跟蹤器無法較好地完成目標跟蹤任務。此外,當前可見光和紅外融合的目標跟蹤算法在面臨運動目標圖像模糊問題時,局限性依然存在。針對上述問題,在未來的研究中,可以考慮在可見光和紅外融合目標跟蹤的過程中,融入被跟蹤目標的運動模型,以便利用更多、更豐富的空間和時間信息來提升目標跟蹤的效果[47]。

4.1.3 進一步研究丟失目標重檢測的方法

目前,許多可見光和紅外融合的目標跟蹤算法在具有不確定性因素的環境中,缺少丟失目標后重新進行檢測的功能,一旦丟失被跟蹤的目標,難以進行二次跟蹤。例如環境中存在遮擋物,容易致使同一個目標在遮擋前后被算法分別識別成兩個不同的目標,這就使得算法在這類情形下的跟蹤準確性較低,甚至導致跟蹤任務失敗。對于此類問題,需要進一步研究丟失目標后進行重新檢測和跟蹤的方法,使得在有干擾物存在的復雜場景下,可見光和紅外融合的目標跟蹤算法依然可以有效工作。

4.1.4 加強基于成熟模型的遷移學習研究

在可見光與紅外融合圖像數據量較少的客觀情況下,依賴大數據量的深度學習方法受到了較多的限制,不能很好地達到預期效果。因此,可以在純可見光目標跟蹤預訓練模型的基礎上,開展遷移學習技術研究,對已有可見光目標跟蹤成熟模型進行適應性調整和改進,從而盡可能多地吸收和利用可見光跟蹤模型學習到的色彩、紋理等細節特征,來提升可見光和紅外融合的目標跟蹤算法的效果。

4.1.5 研究無監督或弱監督目標跟蹤方法

可見光和紅外數據集的人工標注存在工作量大、耗費時間長的問題,同時保證標注質量需要花費的人力成本很高。在當前此類數據集標注量相對欠缺的情況下,可以考慮研究基于無監督或弱監督的可見光和紅外融合目標跟蹤方法,并且研究開發樣本自動標注算法,提高標注效率。這樣能夠在一定程度上緩解數據集標注量不足的問題。

4.1.6 研究探索目標跟蹤新方法和新框架

近年來,Transformer和注意力機制的引入,使得可見光和紅外融合的目標跟蹤在性能上得以繼續提升。由此可以看出,探索新方法和新框架是提升可見光和紅外融合目標跟蹤算法性能的有效途徑,創新性的圖像處理思想和機制將不斷推動可見光和紅外融合目標跟蹤領域持續向前發展。

4.2 技術轉化應用

隨著可見光與紅外融合目標跟蹤技術的逐步完善,該技術將在未來各種實際場景中產生很大的應用價值。

4.2.1 提升人物檢測和跟蹤水平

與傳統的可見光目標跟蹤技術相比,在現實復雜場景(如低照度或者低能見度的環境)中,可見光與紅外融合目標跟蹤技術具有較為明顯的優勢,體現出了一定的魯棒性,例如在夜晚對行人進行檢測、跟蹤和數量統計。另外,在新冠疫情背景下,該技術也能夠應用于檢測進入特定場所的人員的口罩佩戴情況甚至是體溫狀況[70]。除此之外,可見光與紅外融合目標跟蹤技術還可被用于人體模型的構建[71]。雖然,可見光與紅外融合目標跟蹤技術在人物檢測和跟蹤上尚未有大規模的應用,但是未來有望在此領域發揮較大的效用。

4.2.2 推動多樣化物體檢測發展

可見光與紅外融合目標跟蹤也適用于多樣化的物體檢測。例如,科研人員基于該技術,從多光譜和紅外遙感信息中解讀出內蒙古等我國西北干旱地區的土壤鹽漬化情況[72]。另外,針對電力設備的在線監測和故障檢測需求[73],可以依托可見光與紅外融合目標跟蹤技術,在移動平臺上(例如無人機、無人車)建立適應尺度變化、位移變化的電力設備檢測系統,提升了對電力設備的故障點判斷水平。此外,在消防安全方面,火災現場的可見光圖像易受到環境干擾,但其紅外圖像則由于明顯的熱效應而便于進行紅外跟蹤。因此,根據這個特點,可以構建基于可見光與紅外融合目標跟蹤的火災定位方法[74],對于火情信息檢測、火災控制撲救具有重要意義。

4.2.3 實現全天候復雜環境感知

可見光與紅外融合目標跟蹤對于提高計算機視覺技術的環境適應能力具有重要的意義。近年來,基于可見光與紅外融合目標跟蹤的自動駕駛技術受到日益增多的關注,將紅外信息引入自動駕駛,可以有效提高自動駕駛車輛在夜晚、濃霧等惡劣條件下的安全行駛能力。另外,該技術還為全時效無人機的自動作業提供了技術保障,支撐無人機實現了夜晚條件和復雜氣象條件下的圖像采集和目標跟蹤的功能[75]。

5 結束語

近年來,可見光與紅外融合目標跟蹤技術發展迅速。本文梳理了當前可見光與紅外融合目標跟蹤的主流方法,將這些方法分為經典方法和基于深度學習的方法,其中經典的方法分為早期方法、基于相關濾波的方法、基于圖的方法、基于稀疏表示的方法。針對深度學習方向,可以分為基于Transformer的方法、基于注意力機制的方法、基于時間序列的方法、自適應融合的方法、基于多模態編解碼器的方法。此外,本文還介紹了當前該領域常用的數據集以及常見的評價指標,并對該領域的未來發展方向進行了討論和展望。

猜你喜歡
模態特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 亚洲系列无码专区偷窥无码| 在线欧美日韩| 永久免费无码日韩视频| 中文字幕在线看视频一区二区三区| 亚洲欧美自拍中文| 国产小视频免费| 久久久精品久久久久三级| 国产区福利小视频在线观看尤物| 日韩 欧美 国产 精品 综合| 亚洲欧洲日产无码AV| 97国产在线播放| 亚洲高清资源| 真人免费一级毛片一区二区| 欧美国产在线精品17p| 自拍亚洲欧美精品| 国产一级视频在线观看网站| 欧美色伊人| 久久99国产精品成人欧美| 国产高清精品在线91| 国产在线观看人成激情视频| 亚洲人成影院午夜网站| 在线国产91| 亚洲嫩模喷白浆| 激情爆乳一区二区| 亚洲欧美成人在线视频| 精品三级网站| 中文字幕 日韩 欧美| 中文成人无码国产亚洲| 日韩精品无码免费专网站| 香蕉精品在线| 国产三级国产精品国产普男人| 久草美女视频| 亚欧乱色视频网站大全| 国内精品视频| 人人91人人澡人人妻人人爽| 免费在线一区| 91网址在线播放| 中文字幕亚洲综久久2021| 日日摸夜夜爽无码| 免费无码在线观看| 免费A∨中文乱码专区| 九九热视频精品在线| 无码又爽又刺激的高潮视频| 欧美激情视频一区| 久久人人妻人人爽人人卡片av| 亚洲精品另类| 丁香五月亚洲综合在线| 国模私拍一区二区| 香蕉国产精品视频| 美女国产在线| 国产免费好大好硬视频| 亚洲日韩欧美在线观看| 久久久久88色偷偷| 亚洲天堂免费| 亚洲黄网在线| 男女性色大片免费网站| 亚洲国产天堂久久综合226114| 日本午夜在线视频| 日本一区二区三区精品国产| 麻豆精品在线播放| 日韩精品亚洲一区中文字幕| 四虎影视无码永久免费观看| 一区二区偷拍美女撒尿视频| 国产18在线播放| 色播五月婷婷| 四虎成人免费毛片| 一本久道久综合久久鬼色| 久久国产免费观看| 国产精品无码在线看| 中文字幕1区2区| 亚洲av无码成人专区| 91网址在线播放| 国产一级妓女av网站| 久久精品国产999大香线焦| 凹凸精品免费精品视频| 自偷自拍三级全三级视频| 欧美高清国产| 欧美爱爱网| 国产拍揄自揄精品视频网站| 婷婷午夜天| 国产亚洲精品91| 国产剧情无码视频在线观看|