999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

反饋學習高斯表觀網絡的視頻目標分割

2022-04-14 02:19:20王龍宋慧慧張開華劉青山
自動化學報 2022年3期
關鍵詞:特征融合模型

王龍 宋慧慧 張開華 劉青山

視頻目標分割[1-6]通常被建模為半監督學習任務,即在給定初始幀目標掩模標注的前提下,精確分割出后續幀中特定目標區域.視頻目標分割在眾多計算機視覺任務中具有重要的應用價值,包括視頻編輯[7-8]、目標追蹤[9-10]和動作識別[11-12]等.近年來,隨著深度學習的興起,視頻目標分割也取得了突破性進展.但是,精度高且速度快的算法仍然非常匱乏,其原因在于所學深度模型仍難以有效應對復雜視頻場景的變化,如嚴重遮擋、快速運動、相似目標干擾等.

為此,一些視頻目標分割算法在不同方面進行了嘗試.其中,文獻[1-2,13-14]中的算法在測試階段用第1 幀及其標注在線微調網絡;另外,文獻[2,15-17]中的算法將視頻分割任務視為掩膜逐幀傳播過程.但是,由于未充分考慮復雜場景的表觀建模,這些方法在一些復雜場景下表現不佳.為此,一些算法試圖通過增強目標與背景的特征表征力來提升表觀模型的判別力.譬如,文獻[3]通過利用匹配(Matching)操作與排序注意力模塊學習查詢幀中的每個像素與引導幀中所有像素之間的相似程度來構建魯棒的表觀模型;文獻[4]設計了兩個新穎的子網絡調制器,將視覺和空間信息通過網絡調制構建表觀模型,并嵌入分割子網絡進行學習.但是,這些方法只利用單幀的特征學習表觀建模,未能充分捕獲視頻的時域上下文信息,難以自適應復雜場景的變化.針對該問題,本文設計出一種在線多幀、多尺度高斯表觀網絡模塊,通過在線學習目標與背景的特征分布來提升表觀模型的判別力.

除此之外,大量掩膜傳播類算法[2-3,15-18]將前一幀的預測結果作為當前幀的額外輸入進行處理.這種結構可視為時間維度的循環結構.但是,鮮有算法在空間維度也構建循環結構,而空間維循環可將高層特征反饋到低層,從而充分利用前、后層特征信息學習更加魯棒的表觀模型.鑒于此,本文通過引入這種反饋機制[19-20]設計出反饋多核融合模塊,用于引導學習更加魯棒的表觀模型.

本文的主要貢獻總結如下:

1)提出一種在線多幀、多尺度高斯表觀模型,充分學習多尺度特征的統計信息,增強對目標與背景表觀的判別力;

2)將信息反饋的思想引入視頻目標分割,設計出一種反饋多核融合模塊,允許前層特征捕捉后層的有用信息;

3)本文算法與當前最先進的方法相比,在多個標準數據集上達到領先水平,證明了本文算法的優越性.

1 相關工作

1.1 基于在線微調的視頻目標分割

一些視頻目標分割算法嚴重依賴在線學習.文獻[1]及其擴展算法[21]預先訓練一個語義分割網絡,然后利用初始幀微調該網絡,使其關注分割目標;文獻[13]在文獻[1]的基礎上引入了在線自適應機制以學習跨視頻目標表觀變化.這類方法將視頻簡單地視為無關圖片的集合,忽略了視頻序列的時間相關性,嚴重影響建模精度.為此,一些方法開始考慮采用簡單的時序信息建模,通過傳播上一幀掩膜來建模時序信息.文獻[2]利用了光流算法傳播掩膜,首創了掩膜傳播類視頻目標分割方法;文獻[22]將4 個不同功能的子網絡組合為一體進行微調,獲得2018 DAVIS[23]挑戰賽的冠軍.盡管在線微調能夠大幅提升視頻目標分割的精度,但是嚴重影響運行效率,導致其難以應用于對實時性要求較高的實際任務之中.

1.2 基于離線學習的視頻目標分割

為降低運算成本并達到精度與速度之間的平衡,最近提出的一些視頻目標分割算法拋棄了在線微調過程,轉而只依賴于離線學習.文獻[16]提出了基于孿生網絡的視頻目標分割模型,其中,子網絡1 對初始幀及其掩模標注進行編碼,子網絡2 對當前幀和上一幀預測結果進行編碼.兩者的輸出結果再通過全局卷積(Global convolution)進行融合;另外,文獻[18]在時空域引入非局部(Non-local)注意力機制來充分利用視頻中豐富的時序信息,在多個標準數據集上都表現出優異的性能.

1.3 基于表觀建模的視頻目標分割

表觀建模對視頻目標分割至關重要.文獻[24]設計了軟匹配層來計算相似得分圖;文獻[25]同時進行全局匹配和局部匹配,并結合了參考幀和上一幀的信息學習魯棒的表觀模型;文獻[3]則將掩膜傳播與特征匹配結合,優勢互補,性能表現出色;文獻[15]和文獻[26]分別設計了專門的目標表觀模型來自適應學習目標和背景區域之間的差異.

1.4 反饋機制

近年來,反饋機制[19-20]在視覺任務中得到了廣泛應用,如圖像超分[27]、顯著目標檢測[28]、人群計數[29]等.文獻[27]利用反饋結構,以高層特征補充學習淺層表征,取得不錯效果;文獻[28]在解碼器中應用多階段反饋機制,進一步糾正顯著圖估計偏差,提升了顯著性檢測的精度;文獻[29]設計了一種通用架構,將自頂向下的信息以反饋的形式傳遞給自底向上的網絡進行特征學習,在多個數據集上表現出優異性能.

2 本文方法

如圖1 所示,本文網絡主要包含引導、查詢與分割三個分支.其中,引導與查詢分支為在ImageNet數據集上預訓練的ResNet101 網絡,通過共享網絡權重分別用于提取引導幀與查詢幀的深度特征.深度卷積網絡各層特征的特性不同:低層富含紋理細節信息,高層富含語義信息,而中層則介于兩者之間.本文將利用多層特征構建多尺度表觀網絡,以充分利用它們之間的互補優勢.

圖1 網絡結構圖Fig.1 Network structure diagram

首先,利用多層特征構建多尺度高斯表觀模型,并通過在線更新來捕獲多幀信息.通過圖1 中的多尺度高斯表觀特征提取模塊生成目標和背景區域的概率密度分布圖作為目標表觀特征X?,其能夠有效凸顯目標而抑制背景干擾.之后,將引導幀的高斯表觀特征、引導幀真實標注GT0、查詢幀的高斯表觀特征和上一幀掩膜預測Mt-1一同輸入反饋多核融合模塊,該模塊同時考慮時空雙重反饋,不僅沿時間維反饋傳播掩膜,而且將后層特征反饋至前層以融合兩者優勢,達到豐富自身信息容量與提升判別力的效果.最后,融合后的多級特征通過一個簡單的類似文獻[30]所提出的U 形網絡 (UNet)結構的解碼器網絡,輸出最終分割預測結果Mt.

本文的主要創新點在于所設計的多尺度高斯表觀特征提取模塊與反饋多核融合模塊,并將在后續內容中進行詳細介紹.

2.1 多尺度高斯表觀特征提取模塊

鑒于視頻的多幀、多尺度特征的統計信息在表觀建模中的重要作用,本文在低、中、高三種特征尺度層面上,通過設計混合高斯模型(Gaussian mixed model,GMM)在線學習多幀的表觀統計信息,以獲取各個位置的像素屬于前景目標的概率,來突出目標并抑制背景干擾,為后續模塊精確預測提供有效支持.

本文的GMM 模型在整個視頻上在線更新目標的均值μ與方差σ.具體來講,本文利用當前幀It對應的多尺度特征與分割結果Mti,通過掩膜平均池化操作估計目標和背景的均值與方差參數,對應公式化描述為

圖2 高斯表觀特征提取模塊 (G 表示高斯模型)Fig.2 Gaussian appearance feature extraction module(G denotes Gaussian model)

其中,γ是超參,分別為式(1)與式(2)在時間為t-1 時計算所得.最后,更新后的參數代入GMM 公式,并忽略掉無關的常數項,可輸出高斯表觀特征如下:

2.2 反饋多核融合模塊

由于視頻相鄰幀間目標的表觀變化比較平穩,故大量算法將視頻目標分割視為掩膜從初始幀逐幀傳播的過程,把上幀預測掩膜作為處理當前幀的額外輸入,通過這種時域循環結構捕捉時序信息.但是,這類方法忽視了與時域循環結構相對應的空域循環結構.而這種結構允許靠近監督約束的特征回流到網絡淺層,能夠進一步增強所學特征的判別力.所以,為了同時充分利用這兩種結構,本文將反饋機制和掩膜傳播相結合,構建了反饋多核融合模塊,分別在低、中、高三種特征尺度上進一步增強多尺度高斯表觀特征的信息容量.

圖3 展示了反饋多核融合模塊的結構.在視頻目標分割任務中,首幀的掩膜標注提供全局引導信息,而前一幀預測出的掩膜則富含局部引導信息.反饋多核融合模塊融合這兩種引導信息以及第2.1節所述的引導幀與查詢幀的高斯表觀特征:

其中,fcat代表沿通道維度連接.不同于簡單的前饋結構,反饋結構中的高層信息可通過反饋連接向前流動.如圖3 所示,多核融合模塊在第n=1,···,k次循環接收前一次循環的輸出以及式(6)定義的

其中,fMKFM為多核融合模塊,⊕為按位加.

圖3(b)所示多核融合模塊(Multiple kernels fusion module,MKFM)為反饋多核融合模塊的基本單元,除了傳播掩膜的功能之外,還通過并行多個不同擴張率的卷積操作構成空洞金字塔[32],擴大感受野以捕捉更豐富的上下文信息.首先,輸入三個平行的擴張率分別為r=1,3,6 的帶孔卷積:

圖3 反饋結構Fig.3 Feedback structure

其中,CONV表示卷積操作.然后,式(9)的結果輸入一個普通卷積以融合三路特征融合并還原通道數;最后,利用殘差跳躍連接來防止梯度消失,以上操作公式化為

其中,fdec由多個上采樣層和卷積層組成,還原到原始尺寸的同時逐級融合多層特征.

3 實驗設置與結果分析

3.1 訓練細節

為了公平起見,本文借鑒文獻[15]采用兩階段訓練:

第1 階段:以尺寸調整至 240×480 像素大小的DAVIS 2017[33]和YouTube-VOS[34]訓練集為訓練數據,采用Adam[35]優化器,訓練80 個周期.其中,每批訓練數據包括4 段視頻,每段視頻隨機選取連續8 幀,學習率及其衰減率分別設置為10-4和0.95,權重衰減率設置為10-5.

第2 階段:對第1 階段訓練的預訓練模型進行進一步微調.首先,以尺寸調整為 480×864 像素大小的DAVIS 2017[33]和YouTube-VOS[34]的訓練集為訓練數據,采用Adam[35]優化器,訓練100 個周期.其中,每批訓練數據包括2 段視頻,每段視頻隨機選取連續4 幀,學習率及其衰減率分別設置為10-5和0.985,權重衰減率設置為10-6.

3.2 評價指標

本文使用DAVIS 2017[33]的標準評價指標,包括區域相似度J和輪廓精度F.其中,J為分割結果和標注真值掩膜的交并比,即

其中,M表示預測的分割結果,GT表示分割真值掩膜.F將掩膜視為系列閉合輪廓的集合,計算基于輪廓的F度量,即

其中,P為準確率,R為召回率.另外,本文還采用綜合指標J&F,其表示為兩者的均值,即

3.3 單目標數據集上的比較結果

DAVIS 2016[36]是密集標注的單目標視頻目標分割數據集,包括30 段訓練視頻和20 段驗證視頻.表1 中對比了本文算法與其他18 種最先進的算法,包括10 種基于在線學習的算法和8 種基于離線學習的算法.本文算法的綜合指標J&F=85%,在基于離線的對比方法中排名第2,僅低于排名第1 的RANet[3]0.5 個百分點,與性能最先進的在線方法MHP[14]相比,結果僅相差1.9%.但是,本文算法的運行速度達到0.1 s/幀,遠快于對比的離線方法,如MHP[14]分割每幀用時超過14 s.此外,雖然RANet[3]幾乎在所有指標上都略高于本文算法,但是,其在驗證單目標與多目標分割任務前,需分別在單目標數據集DAVIS 2016[36]和多目標數據集DAVIS 2017[33]各自的訓練集上進行網絡微調,即針對不同數據集使用更有針對性的不同模型參數.而本文算法則無需這一過程,在驗證不同數據集時使用同樣模型參數,因而更具普適性.

表1 不同方法在DAVIS 2016 驗證集的評估結果Table 1 Evaluation results of different methods on DAVIS 2016 validation dataset

3.4 多目標數據集上的比較結果

1)數據集DAVIS 2017 上的結果

DAVIS 2017[33]是DAVIS 2016[36]針對多目標視頻分割任務的擴展,其包括60 段訓練視頻、30 段驗證視頻、30 段測試視頻以及30 段競賽視頻.表2比較了本文算法與9 種基于離線學習算法和8 種基于在線學習算法在DAVIS 2017[33]驗證集上的結果.本文算法以J=70.7%和F=76.2%的結果在所有離線方法中排名第1,非常接近最優在線方法MHP[14]的性能J=71.8%和F=78.8%.但是,本文算法運行速度達到0.14 s/幀,而MHP[14]則為20 s/幀.

表2 不同方法在DAVIS 2017 驗證集的評估結果Table 2 Evaluation results of different methods on DAVIS 2017 validation dataset

表3 是各算法在DAVIS 2017[33]測試集上的表現.本文算法在離線算法中仍表現最優,且與排名第2 的FEELVOS[25]相比,J和F指標分別高出3.1%和3%.此外,本文算法精度不及最優離線方法PReMVOS[22],但是其網絡模型是由4 個不同功能的子網絡組成,結構異常復雜,并且其緩慢的在線學習過程導致其推理速度(> 30 s/幀)遠慢于本文算法.另外,DAVIS 2017[33]測試集中平均每段視頻包含的目標物體數目多于驗證集,導致離線算法與在線算法之間的精度差距要比在驗證集上的更大.

表3 不同方法在DAVIS 2017 測試集的評估結果Table 3 Evaluation results of different methods on DAVIS 2017 test-dev dataset

2)數據集YouTube-VOS 上的結果

YouTube-VOS[34]是第一個大規模視頻目標分割數據集,包含3 471 段訓練視頻和474 段驗證視頻.驗證集又分為65 類可見類別和26 類未見類別.評估指標為分別計算可見和未見的J和F:Js,Ju,Fs和Fu.綜合指標G為4 項指標均值.如表4 所示,本文算法G=6 8.1%,排名第1,超越第2名AGAME[15]2.1%,甚至比在線學習的S2S (Sequence-to-sequence)[45]高3.7%.尤其,本文算法對未見類別取得了Ju=62.1%和Fu=68.3%的出色性能,充分體現了本文模型良好的泛化性能.

表4 不同方法在YouTube-VOS 驗證集的評估結果Table 4 Evaluation results of different methods on YouTube-VOS validation dataset

3.5 消融實驗

表5 展示了本文算法在DAVIS 2017[33]驗證集上的消融實驗結果.三個算法變體分別用于驗證各組成部分的作用.不考慮高斯表觀建模即去除多尺度高斯表觀特征提取模塊,J=62.2%,與原模型相比下降了8.5%,證明了高斯表觀建模的重要作用.另外,將反饋多核融合模塊替換為幾層簡單的卷積后,J=66.6%;只去除反饋連接后J=69.1%.從這兩種模型變體的結果指標可見,多核融合模塊和反饋機制的貢獻分別為2.5%與1.6%.最后,將上述兩模塊都去除,J僅為59.8%.以上消融實驗充分證明了本文算法各部分的重要作用.

表5 消融實驗(M,F和f分別代表多尺度高斯表觀特征提取模塊、反饋多核融合模塊和反饋機制)Table 5 Ablative experiments (M,F,f,denotes the multi-level Gaussian feature module,feedback multi-kernel fusion module and feedback mechanism,respectively)

表6 展示了反饋次數k對本算法精度、速度的影響.當反饋次數為0 時,意味著只有前饋沒有反饋;當k由0 變為1 時,J提升了0.8%;進一步地,當k取2和3 時,J也隨之繼續提升;最后,當k再進一步增加時,J不再改變.而另一方面,隨著k值的增加,算法運行速度逐漸變慢,這是多核融合模塊(MKFM)被重復調用導致計算量上升的結果.但是,由于多核融合模塊結構簡單、計算量小,k每加1,速度僅變慢2~3 ms/幀.相較于J的大幅提升,此數量級的速度變慢和計算量增加是微乎其微的.綜上,本文將反饋機制和多核融合模塊相結合,能夠以較少的計算代價換來精度的大幅提升.

表6 不同反饋次數對比Table 6 Comparisons with different numbers of feedback

3.6 分割結果展示

圖4 展示了本文算法在各數據集上的分割結果.可見本文算法在多種挑戰場景下性能出色.前兩行中,跳舞女孩和街舞男孩被幾乎無錯地分割,展示了本算法對單個目標的強大分割能力.第3 行金魚和第8 行斑馬視頻中,算法未被多個相似物體誤導,未發生混淆和丟失,體現了本算法對于相似物體的良好區分能力.另外,第4 行中,兩個進行柔道比賽的男士之間相互遮擋與交互不斷,但是本算法仍可準確分割,表現出很強的魯棒性.最后,第5行和第6 行出現的自拍桿和小提琴琴弓都被準確分割,充分展示了本算法對小物體出色的分割能力.

圖4 分割結果展示Fig.4 Display of segmentation results

4 結束語

本文提出了一種新穎的反饋學習高斯表觀網絡的視頻目標分割算法,集成了多尺度高斯表觀特征提取模塊與反饋多核融合模塊.前者通過高斯混合模型在線建模跨多幀和多尺度的目標和背景穩定表觀特征,生成粗糙但魯棒的中間結果,方便后續模塊進一步處理.而后者結合反饋機制和掩模傳播,通過時空雙重循環結構更好地利用上下文信息,增強模型的判別力.在多個標準評測數據集上的實驗結果都充分驗證了本文所提出算法的優越性.

猜你喜歡
特征融合模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 欧美色伊人| 99视频精品在线观看| 国产在线精品99一区不卡| 熟女成人国产精品视频| 久久久久免费精品国产| 国产爽妇精品| av午夜福利一片免费看| 国产精品久久久久久久久| 久996视频精品免费观看| 亚洲欧美日韩成人在线| 午夜日b视频| 日本午夜影院| 亚洲精品视频网| 亚洲精品福利网站| 天天躁夜夜躁狠狠躁图片| 亚洲国产av无码综合原创国产| 国产农村精品一级毛片视频| 丁香亚洲综合五月天婷婷| 国产成人调教在线视频| 色国产视频| yy6080理论大片一级久久| 亚洲乱伦视频| 国产毛片不卡| 国产一区二区三区视频| 福利国产在线| 午夜不卡福利| 少妇极品熟妇人妻专区视频| 成人在线亚洲| 欧美激情视频二区| 国产成本人片免费a∨短片| 国产自在线播放| 精品国产网站| 精品综合久久久久久97超人| 欧美日韩中文字幕在线| 久久综合九九亚洲一区| 欲色天天综合网| 色久综合在线| 国产区精品高清在线观看| 香蕉精品在线| 成年人福利视频| 免费三A级毛片视频| 少妇被粗大的猛烈进出免费视频| 日韩一区二区三免费高清| 亚洲第一成网站| 中文字幕在线欧美| 免费久久一级欧美特大黄| 好吊妞欧美视频免费| 精品国产自在在线在线观看| 99re经典视频在线| 宅男噜噜噜66国产在线观看| 久久免费视频6| 国产高清毛片| 亚洲大学生视频在线播放| 尤物精品视频一区二区三区 | 亚洲第一在线播放| 亚洲三级a| 一级爆乳无码av| 丰满人妻久久中文字幕| 亚洲欧洲美色一区二区三区| 亚洲日韩日本中文在线| 国产欧美视频在线观看| 波多野结衣中文字幕一区二区| 国产一级视频久久| 国模极品一区二区三区| 色精品视频| 日韩在线欧美在线| 亚洲日本中文字幕天堂网| 亚洲成人在线网| 一本大道东京热无码av| 亚洲色图欧美在线| 无码日韩精品91超碰| 在线观看无码av五月花| 日韩av高清无码一区二区三区| 九九热精品视频在线| 亚洲精品第五页| 久久精品欧美一区二区| 国产美女无遮挡免费视频网站| 欧美精品导航| 国产精品人成在线播放| 精品少妇人妻一区二区| 99久久性生片| 国产欧美专区在线观看|