章雪瑞,孫鳳銘,袁 夏
南京理工大學 計算機科學與工程學院,南京 210094
視頻目標分割是計算機視覺中的一項重要任務,在智能監控、視頻編輯、機器人環境理解等方面有重要應用。基于半監督學習的視頻目標分割是指給定第一幀目標掩模的情況下,陸續分割后續幀中的目標。半監督視頻目標分割主要使用空間線索和時間線索進行目標分割。
半監督視頻目標分割方法目前一般使用掩模或者光流的形式傳播上一幀的信息,有的加入在線訓練以提高分割精度。掩模只能體現出前一幀中目標的形狀和位置,而光流計算需要增添光流檢測網絡,計算復雜度較高且難以做到端到端訓練。在線訓練雖然能提升分割的效果,但是不能滿足機器人視覺認知這種對計算效率要求較高的在線檢測任務。
(1)提出新的長時匹配和短時匹配卷積神經網絡結構,通過像素級相關計算將第一幀和前一幀中的目標特征傳遞到當前幀。
(2)實驗驗證了長時匹配模塊和短時匹配模塊的互補性,將二者結合在一起使用能夠有效提升分割精度。
(3)設計了一個高效的端到端視頻分割模型,在計算效率和分割精度上取得了較好的平衡。
根據使用的線索不同,半監督視頻目標分割的方法可以分為三類,基于檢測的方法、基于傳播的方法以及兩者都有的混合方法。
基于檢測的方法中具有代表性的是OSVOS模型[1],將視頻分割轉換為圖像分割,通過每個視頻帶有標注信息的第一幀訓練出只針對當前視頻的過擬合的模型。基于匹配的VideoMatch方法[2]對匹配特征的平均相似度得分圖進行軟分割,生成平滑的預測結果。這些方法都不依賴時序信息,所以對遮擋和漂移可以有很好的處理,但是它們較為依賴第一幀的標注,對于外觀變化較大和具有相似目標的幀不能很好的處理。
基于傳播的方法中具有代表性的MaskTrack模型[3],將視頻分割問題轉化為受引導的實例分割問題,使用前一幀的預測掩模作為當前幀的指導信息來分割目標。文獻[4]進一步提出重新傳播概念,從視頻序列中挑選高質量的幀然后向前后傳播。因為視頻幀之間一般變化不大,所以簡單利用前一幀的預測掩模或者光流就能取得很好的結果,對于目標形變、相似目標區分有很好的處理能力。但是這類方法在面對遮擋、消失等情況時有可能把錯誤的信息傳播到后一幀,從而影響這些情況下的分割結果。
目前主流的半監督視頻分割方法都會將上訴兩種方法結合起來,同時利用第一幀和前一幀的信息。RGMP[5]使用Siamese網絡編碼當前幀和第一幀特征,輸入時分兩路,一路是當前幀加前一幀掩模,另一路是第一幀加對應掩模。對于兩路特征,RGMP將其疊加起來,沒有做更復雜的操作。FAVOS模型[6]在第一幀將目標分成多個部件,比如一個人可以分為頭、身體和四肢,然后在后續幀中跟蹤這些部件并通過基于感興趣區域的分割網絡生成部件的分割掩模,最后將分割出來的部件和第一幀相應部件計算特征距離來聚合部件。OSMN網絡[7]設計了一種調制器,將第一幀目標和前一幀目標位置分別送入網絡獲取視覺調制參數和空間調制參數,將視覺調制參數作為權重,空間調制參數作為偏移量對當前一幀特征進行引導使它專注于固定目標。
(5) 隨剪力連接度的降低,試驗梁的動力響應變大;在剪力連接度相同情況下,不同栓釘損傷對結合梁動力性能影響不大。
在線訓練是提高半監督視頻目標分割性能的一個重要方法,是在Lucid Data Dreaming合成視頻幀方法[8]基礎上發展起來的。它是指模型訓練好后,對于單獨的每個視頻使用第一幀的標注再訓練幾十秒乃至幾分鐘,訓練時間越長效果越好。這種方法不適合用于在線計算任務。
在給定視頻第一幀目標分割掩模的情況下,本文設計了一個基于長-短時相似性匹配的視頻目標分割神經網絡模型。其中長時匹配指當前幀與第一幀標注的掩模匹配,短時匹配指當前幀與前一幀的預測結果匹配。
整體網絡結構如圖1所示,本文方法包含四個部分,分別是用于提取特征的編碼模塊、長時匹配模塊、短時匹配模塊以及解碼模塊。

圖1 網絡結構圖Fig.1 Network architecture
為了突破常規卷積固定感受野的局限,解決目標運動過程中非剛性形變問題,本文在模型中引入了文獻[9]提出的各向異性卷積模塊(AIC),并將其由原本的三維結構改寫為適用于處理單幀視頻圖像的二維結構(2D-AIC)。在經過編碼器提取特征后,將特征經過兩個2D-AIC分支得到用于長時匹配的全局特征和用于短時匹配的局部特征。然后將當前幀的全局特征中每個像素特征和第一幀全局特征的所有像素特征做相關操作,得到全局相似性圖。接著將當前幀的局部特征中每個像素特征和前一幀的局部特征中對應范圍內的像素特征做相關操作,得到局部相似性圖。最后將全局相似性圖、局部相似性圖、前一幀掩模以及編碼器輸出的特征合并送入解碼模塊,再經過兩個優化網絡后分割得到最終結果。后面章節將更詳細地介紹每個模塊。
編碼模塊采用Res2Net[10]作為主干網絡,去掉最后的全連接層,同時為了更好地利用多尺度特征,以及為后續優化網絡提供低級特征,本文采用類似FPN[11]的結構,每層都會將上一層特征執行兩倍上采樣操作后與經過1×1卷積降維的本層特征相加,然后送入一個2D-AIC結構輸出。本文的編碼器總共有三個輸出,res2層對應的輸出用于提取全局特征和局部特征,其他兩個輸出用于為最后的優化網絡提供低級特征。編碼模塊如圖2所示,2D-AIC結構如圖3所示。

圖2 編碼模塊Fig.2 Encoding module

圖3 各向異性卷積(2D-AIC)Fig.3 Anisotropic convolution(2D-AIC)
相關操作被廣泛地應用到了目標跟蹤當中,如SiamRPN[12]通過將目標區域與搜索區域做相關操作定位目標。近年來,也有一些算法將相關操作引入到視頻分割當中,如RANet[13]采用像素級相關的做法形成相似圖,然后使用一個小型網絡對相似圖進行打分,選擇分數最高的256層用來分割。本文采用類似的操作,設計了圖4所示的長時匹配模塊,將當前幀與第一幀進行像素級關聯,以利用第一幀掩模的信息。防止因為遮擋、形變等原因導致前一幀中目標特征丟失而難以利用前一幀很好地檢測當前幀中的目標。

圖4 長時匹配模塊Fig.4 Long-term matching module
對于提取得到的當前幀全局特征I∈RC×H×W(H和W相當于原圖尺寸的1/8)中的每個像素級特征Iij,將其和第一幀全局特征K∈RC×H×W做逐像素相關操作得到相似圖然后對于相似圖,將其維度變換為(H×W)×1×1后和經過相同變換的第一幀的前景(或者背景)M∈R(H×W)×1×1相乘,最后取其中最大的N(本文設為256)個值得到全局相似性圖G∈RN×H×W中對應像素Gij,如式(1)所示:

式(1)中Gij代表前景(或者背景)全局相似圖中的像素點特征,K代表第一幀特征,Iij代表當前幀的像素點特征,M代表第一幀前景(或者背景)真值,×代表向量相乘操作,·代表逐元素相乘操作,SelectorN代表選擇最大的N個值。其中全局相似圖的可視化如圖5所示,可以看出前景中目標物體的響應最大,而背景中目標物體響應最低。

圖5 全局相似圖Fig.5 Global similarity map
時序傳播起始于MaskTrack模型,之后在其他方法中取得了不錯的效果,這些方法一般將前一幀的掩模或者光流送入網絡進行分割。掩模僅僅提供了目標在前一幀的位置以及形狀,忽略了前一幀的目標特征,而光流計算需要增添光流檢測網絡,計算復雜度較高且難以做到端到端訓練。實際上可以根據前一幀的預測來判斷當前幀哪些像素是前景,哪些像素是背景。因為視頻幀之間變化不大,所以可以限定每個像素的運動范圍。受Flownet2.0[14]中互相關層啟發,設計了短時匹配模塊。


圖6 短時匹配模塊Fig.6 Short-term matching module
即將當前幀特征(i,j)位置的像素點It ij與前一幀前景特征(或者背景特征)中以(i,j)為中心,x軸和y軸距離不超過k的像素集逐像素做相關運算得到(2×k+1)2的相似值,再從中選擇排在前N的值最后組成前景相似圖(或者背景相似圖)L∈RN×H×W。局部相似圖的可視化如圖7所示,可以看出和全局相似圖相比,局部相似圖去除了許多干擾元素,結果更清晰。

圖7 局部相似圖Fig.7 Local similarity map
解碼模塊包括兩個優化網絡用于上采樣以及一個conv 3×3的分割網絡用于提取最終結果的概率圖。優化網絡結構如圖8所示,Featurei代表編碼器輸出的同一層特征,將編碼器輸出的特征經過一個2D-AIC后與經過兩倍上采樣的上一層特征相加再送入一個2D-AIC輸出。最后經過兩個優化網絡在圖像的1/2尺寸下進行分割。

圖8 優化網絡結構圖Fig.8 Refined module
本文使用DAVIS[15-16]和YouTube-VOS[17]公開數據集進行模型訓練,在DAVIS2016和DAVIS2017數據集上進行模型評估。DAVIS2016數據集為單目標分割數據集,包含50個視頻,其中訓練集30個視頻,測試視頻20個視頻。DAVIS2017為多目標分割數據集,包含150個視頻。YouTube-VOS數據集包含4 453個YouTube視頻,在本文實驗中用于增加訓練數據,只在模型訓練階段使用。為了便于和已有算法的結果進行公平對比,視頻目標分割模型在DAVIS數據集上的評價指標采用區域相似度和輪廓精度J&F指標。
主干網絡使用在ImageNet[18]數據集上預訓練過的Res2Net50模型參數初始化。訓練采用Adam優化器,學習率為0.000 01,損失函數為Focal loss[19]。在4塊NVIDIA GeForce TITAN XP上訓練20萬次,批量大小設為12,數據增強采用隨機裁剪、隨機尺寸變換和隨機翻轉。
在DAVIS2016驗證集上與表1中近幾年的方法進行比較,可以看到本文模型在無需在線微調的情況下達到了較好的實驗結果,區域相似度和輪廓精度J&F的平均值達到了86.5%。模型在單塊GeForce TITAN XP計算卡上的在線推理速度可以達到21 frame/s,在時間和精度方面取得了較好的平衡。其中,PReMVOS模型[20]在輪廓精度方面比本文實驗結果高1.5%,這是因為PReMVOS利用每個視頻的第一幀人工合成了2 500張圖片進行在線訓練,通過付出一定時間代價得到了比本文更高的輪廓精度,這種做法不適用于在線處理。從表1中計算效率對比結果看,RANet模型的計算效率高于本文方法,該模型訓練階段使用靜態圖片合成視頻幀進行預訓練,訓練過程復雜,模型中使用了注意力機制,在推理階段效率高于本文模型。由于該模型側重和第一幀匹配,因此對目標形狀、大小變化的適應性以及對相似目標的區分能力不強,在單目標實驗中的大部分精度指標以及多目標實驗中的精度指標方面低于本文所提出模型。

表1 不同方法在DAVIS2016驗證集上的結果Table 1 Results of different methods on DAVIS2016 validation set
表2顯示了本文模型切削實驗的結果。為了探索網絡結構中各個模塊的作用,在只保留短時模塊和長時模塊下分別做了訓練和測試,結果如表2第一行和第二行所示,兩者都取得了不錯的結果,但是和結合兩個模塊訓練后的結果有一定差距,J&F指標分別降低了3.7%和2.9%。只保留短時匹配模塊會降低精確度是因為缺少第一幀的糾正導致誤差會從前一幀傳遞到當前幀,正如圖9所示,沒有第一幀真值的矯正,誤差隨著幀數的增加而增加。只保留長時匹配模塊也會降低精確度,這是因為目標越往后和第一幀的差別越大,只靠和第一幀像素做匹配不足以捕捉目標,尤其是目標尺寸變化過大時,如圖10所示,因為和第一幀的目標相差過大,網絡已經檢測不出目標了。為了確定掩模和短時匹配模塊對時序傳播的貢獻,本文分別去掉短時匹配模塊和掩模進行實驗,結果如表2中第三行和第四行所示,去掉掩模比去掉短時匹配模塊的J&F指標高了2.2%,這證明了本文所提出的短時匹配模塊的有效性。雖然短時匹配模塊的效果很好,但是它對物體的形狀和位置的特征表示不夠,還是需要掩模和它互補,在加上掩模后本文方法在J&F指標上提高了1.6%。

表2 切削實驗結果Table 2 Ablation study results

圖9 誤差傳播Fig.9 Error propagation

圖10 誤差匹配Fig.10 Error match
多目標視頻分割由于目標多,相似目標容易互相遮擋、交錯而過而極具挑戰性。對于多目標視頻分割,本文在每幀分割出所有目標后對于每個像素選擇概率最大的類。
本位設計的網絡模型中比較耗時的是編碼模塊、長時匹配模塊和短時匹配模塊,每幀中對于不同目標而言這些模塊參數是可以共享的,因此這部分的計算時間對于單目標和多目標而言大致相同,不會隨目標個數增加而增加。模型中解碼模塊的計算時間和目標數量相關,每個目標平均約需11 ms。因為大部分模塊的計算時間不受目標個數影響,所以本文算法在多目標視頻分割上依然能有較高的效率。
在多目標數據集DAVIS2017的驗證集和測試集上實驗結果如表3和表4所示,可以看出本文方法在多目標上依然取得了良好的結果。PReMVOS模型的J&F指標比本文方法分別高了0.5%和4.2%,這是因為它使用了在線訓練,每個視頻需要在第一幀上訓練幾十秒甚至幾分鐘,無法滿足在線應用需求。而本文方法無需在線訓練,提高了在移動機器人環境感知應用中的可用性。

表3 不同方法在DAVIS2017驗證集上的結果Table 3 Results of different methods on DAVIS2017 validation set

表4 不同方法在DAVIS2017測試集上的結果Table 4 Results of different methods on DAVIS2017 test set
圖11顯示了四段視頻每隔10幀的分割結果。第一個和第二個視頻分別是騎馬跳躍和賽車漂移,這兩段視頻說明了本文算法對于形變和快速運動的處理能力。第三個和第四個視頻分別是游動的五條金魚和人群中的三個同伴,可以看出在相似目標互相遮擋和背景繁雜的情況下,本文依然能取得良好的結果。請在如下網址查看更多視頻分割結果。


圖11 視頻目標分割結果Fig.11 Video object segmentation results
面向視頻目標分割,為了能更好地利用視頻時序信息提高分割結果和計算效率,本文提出一種新穎的短時特征匹配模塊。通過結合長時匹配模塊和短時匹配模塊,本文設計了一個有效、快速的端到端視頻目標分割神經網絡模型,能較好地處理目標遮擋、形變、快速運動以及相似目標互相遮擋的情況。實驗表明本文提出的模型在DAVIS數據集上取得了良好的實驗結果,并且無需在線訓練,能滿足對計算效率要求較高的應用需求。
在本文工作的基礎上,后續將融合當前幀之前多幀的預測結果分割當前幀中的目標,以進一步提高分割精度。