魏宗琪,梁 棟
(南京航空航天大學 計算機學院,江蘇 南京 211100)
視頻前景分割旨在發現視頻中視覺上顯著的移動前景對象,并從背景中識別覆蓋這些對象的所有像素。視頻前景分割結果可以作為許多其他任務的重要預處理組件,例如圖像和視頻壓縮[1]、視覺跟蹤[2]和行人重新識別[3]。然而,在實際的應用時,僅訓練一個用于大規模跨場景視頻前景分割的深度模型仍然是一個具有挑戰性的問題,因為現成的基于深度學習的分割模型依賴于場景特定的結構信息。模型訓練去適應新場景需要額外費力的場景標注和從頭開始訓練或微調模型,否則前景尤其是微小的前景的分割結果會受到影響。
傳統的無監督前景減法方法[4-6]側重于建立統計模型來抑制動態背景的干擾,但它們在實現準確的背景更新方面存在瓶頸,同時還有使用卷積神經網絡[7-11]代替背景減法的方法,但這些方法都是特定于場景的,需要針對其他場景從頭開始訓練。深度背景減法模型(Deep Background Subtraction, DeepBS)[12]和時空注意力模型(Spatial Temporal Attention Model,STAM)[13]利用經過訓練的卷積神經網絡來實現跨視頻場景的前景分割。跨場景分割往往比較粗糙,無法很好地保留物體和小物體的邊界。由于卷積神經網絡的發展,語義分割方法取得了顯著進展。SOTA方法包括PSPNet[14]、DeepLabV3+[15]、BFP[16]和CCL[17]。盡管語義分割方法可以為每一幀提供高級語義注釋,但它們忽略了對視頻前景分割非常重要的時間相關性和運動線索。
從本質上講,前景分割是一項與場景外觀、運動和場景屬性相關的分割任務。端到端模型訓練為場景外觀和運動特征的有效混合和融合提供了一條路徑,可以獲取運動前景區域和過濾場景中的復雜背景信息。光流是一種瞬時運動提示,但是魯棒性較差且不足以描述像素級別的運動(運動目標整體)。針對現有的前景分割任務,該文試圖解決以下問題:(1)如何更全面地描述場景中的前景;(2)即使是在新場景中使用,能否實現無需額外訓練的即插即用的前景分割模型。通過集成來自不同模態(前景的運動和外觀)的更多特征來解決這些問題,然后通過注意力模塊引導的選擇性連接結構消除沒有前景代表性的特征。提出間隔光流注意力模型(Interval Optical Flow Attention Model,IOFAM),如圖1所示。

圖1 間隔光流注意力模型
早期的研究集中在統計分布上來構建背景模型[5-6,18]。對視頻數據中時空局部的描述[19-21]揭示了背景模型能夠在保持時空依賴性上有顯著的效果。上述統計建模方法通常計算成本低,有利于資源受限的視頻監控系統。然而,為了消除光照變化和動態背景帶來的影響,通常使用不精確的漸進背景更新解決方案[5]:(1)選擇性更新,只有在將新樣本歸類為背景樣本時才將新樣本添加到模型中;(2)盲選更新,每個新樣本都添加到模型中。選擇性更新必須決定每個預測像素值是否是背景的一部分,利用分割結果作為更新標準可以看作是實現這一任務的一種簡單方法,而無效的分割決策可能會導致之后的錯誤分割。盲選更新機制允許將不屬于背景的強度值添加到模型中,但這會導致更多的假陰性,因為前景像素可能會錯誤地成為模型的一部分。必須對更新率進行權衡,該更新率調節更新背景模型的傳播。由于對較小或臨時變化的敏感性,高更新率會導致嘈雜的分割,而低更新率會產生過時的背景模型并導致錯誤分割。利用超像素[22-24]對背景更新,采用自適應閾值、顏色特征和圖像紋理等對前景目標進行分割,將圖像劃分超像素塊處理是分割中一種有效的方式。
基于深度神經網絡的前景分割:
Brahamand[7]提出了第一種使用CNN進行背景減法的方法,該方法在給定的N個視頻幀上執行時間特征維度的中值操作,然后通過圖像幀、背景和地面實況像素的相應圖像塊來訓練特定于場景的網絡。 MFC3-D[9]使用多尺度3D卷積來檢測紅外視頻的前景對象。MSNet[10]使用生成對抗網絡來生成背景。概率模型[11]將每個視頻幀分成塊,輸入到用于去噪的自動編碼器組中提取重要特征。分割模型[25]結合了邊緣檢測算法,在人體前景檢測中對錯誤的分割背景進行過濾,使用邊緣校正通道在深度分割網絡中處理人體假陽性的問題。上面提到的所有方法都是特定于場景的,即如果將模型應用到其他新的場景,則需要從頭開始訓練。DeepBS[12]是第一種利用經過訓練的卷積神經網絡進行跨視頻場景的前景分割任務的方法,但沒有考慮運動信息。對于訓練數據,它從CDNet2014數據集中隨機選擇5%的樣本以及每個子集的相應地面實況。 SAFF[26]融合了語義信息,在語義和表觀特征的基礎上進行前景分割,在目標的顯著性和輪廓實現更精確的分割。為了解決前景背景顏色相近、物體遮擋等問題,基于雙邊網絡[27]實現了視頻像素級前景分割任務,將高維的特征空間通過降維至當前視頻幀特征中,實現特征融合。為了應對光線因素對前景分割的影響,基于ViBe[6]融合多幀差分法[28]的RGB圖像及深度圖像進行建模,然后利用選取基準(SC)融合策略和前景區域直方圖信息優化目標結果。
間隔光流注意力模型如圖1所示。所提出的模型使用編碼-解碼結構,對靜態視頻幀外觀特征和場景運動信息進行編碼,并在解碼過程中集成了注意力模塊(Attention)以融合視頻幀和光流兩個編碼器(Encoder)和解碼器(Decoder)的特征。
該文提出的間隔光流用于增強對場景中目標運動準確性的描述。光流作為瞬時運動描述特征,在表現運動方面缺乏穩定性和充分性。來自長間隔視頻幀的光流具有物體的長期運動線索,但物體的輪廓不精確;短間隔視頻幀計算的光流具有當前幀的準確運動線索,但有時不足以描述整個運動物體,例如圖1中右側框的第一個光流。間隔光流(IOF),如圖1右,使用當前視頻幀和不同長度的間隔幀計算3個光流,不同幀間隔計算得到不同特性的光流可以相互補充,實現充分運動特征和準備運動目標輪廓描述的特征綜合。具體步驟:通過設置間隔當前幀的長度參數τ1、τ2和τ3,得到當前時刻τ的幀位置,以及T-τ1、T-τ2和T-τ3時刻的幀,最后計算T時刻的光流信息,記為Op(τ1)、Op(τ2)和Op(τ3)。將具有不同間隔的三個光流合并到三個通道中作為間隔光流Iop(T),直接使用已有光流模型直接計算光流。
該文提出一種新的注意力模塊,旨在解碼器階段通過密集的注意力過程合并解碼器和編碼器特征,為解碼過程提供更充分的時空特征。具體來說,首先提取高級特征用來提供全局信息,然后指導注意力模塊加權適當的低級特征,即預測輸入圖像中的兩種編碼器特征融合為具有外觀和運動信息的特征,通過解碼器層對像素級特征重新加權并與后者連接。

圖2 注意力模塊
在圖2中,解碼過程是從前一個解碼層Di-1到下一層Di。輸入特征包括對應編碼層視頻幀特征Ei和光流特征Opi以及解碼器中的前一層解碼特征Di-1,輸出部分是解碼器層特征Di。為了更清楚地解釋Attention模塊的運行機制,使用Bw和Be_op作為這一過程階段的結果。具體過程如下:假設得到了兩個特征圖張量Ei∈RH×W×C和Opi∈RH×W×C(H和W是單個特征圖的高度和寬度,C表示特征圖通道數)。為了得到Di,首先在兩個編碼器中連接了兩種對應的特征圖Ei和Opi,進行拼接后,通道C變成原來通道的兩倍2C,然后通過卷積得到Be_op∈RH×W×C:
Be_op=conv(Relu(Ei‖Opi))
(1)
其中,conv表示卷積核3×3,公式1用于提取外觀特征和減少通道,‖用于通道連接,Relu是激活函數。在解碼層Di-1∈RH/2×W/2×2C,做上采樣卷積得到Bup_sampling∈RH×W×C。然后通過卷積和激活操作得到加權系數特征Bw∈RH×W×C(系數值在0和1之間)。
Bw=BN(σ(conv(Relu(Bup_sampling))))
(2)
其中,σ是Sigmoid激活函數,conv表示卷積核3×3,BN是批量歸一化(Batch Normalization)。然后Bw與特征圖Be_op通過矩陣對位相乘得到加權特征圖(Atten結果),這一步是Attention模塊中解碼器的加權操作。批量歸一化后,從Bup_sampling中得到原始解碼器特征,在原來的Decoder特征中加入了Dropout(dpt)操作,每個節點在訓練過程中都有50%的概率被抑制,在推理過程中去掉這個操作,將加權編碼器特征圖和原始解碼器特征連接起來,得到當前解碼層i中的Di∈RH×W×2C。
Di=(Bw·Be_op)‖BN(dpt(Bup_sampling))
(3)
其中,·是矩陣的對位點乘。
Focal Loss[29]的提出是為了解決模型訓練中的正負不平衡以及難易樣本的問題,用于基于二元交叉熵函數的對象檢測。結合前景分割任務,為了解決小目標分割結果不好的問題,定義了一幀S(fg)中前景和背景的面積比,然后在前景類內定義一個平衡系數β,如下所示:
β=t3min(1/S(fg),50)
(4)
其中,t3是一個超參數。設置β取S(fg)和50最小值的原因是為了防止潛在場景沒有目標的情況,防止無窮大,其中50是訓練場景中小物體采樣后設置的值。為了改善小目標結果,基于調整面積的參數提出用于平衡前景類別內部的類內尺度焦點損失(Class in Scale Focal loss,cisfocal):
(5)
其中,p表示模型預測的概率,前景標簽y=1,背景標簽y=0。α是前景和背景像素樣本的平衡參數,γ是調節難易樣本的參數,對于困難樣本,它將獲得較低的權重。β是用于平衡前景中不同尺寸的目標參數,對于小目標,為了讓模型更關注它,損失將適當調大。為了穩定地訓練模型,在訓練過程中加入曼哈頓距離l1 loss作為正則化。它是在預測的p和真實值y之間測量的,Ll1=‖p-y‖1。最終的損失函數可以表示如下:
L=t1Lcisfocal+t2Ll1
(6)
在兩個數據集(CDNet 2014[30]和LIMU[31])上評估所提出的前景分割模型的分割效果。按照DeepBS[12]中的訓練設置,對于訓練數據,從CDNet 2014中的5萬張數據集隨機選擇5%的樣本及不同場景特點的子集的標注來訓練模型。CDNet 2014中剩下的95%的樣本用于測試模型,沒有任何訓練集重疊。模型基于CDNet 2014數據集訓練,為了驗證模型的跨場景能力,在沒有經過訓練的LIMU數據集進行直接的推理,分為CameraParameter (CP)、Intersection (ITS)和LightSwitch (LS)三個具有不同特點的場景,分割前景無需任何后處理即可獲得。
在實驗過程中提前做了很多超參數調優的實驗,對比了很多不同的設置。最后對于實驗中的間隔光流,設置τ1=1,τ2=5和τ3=10。在損失函數中,最后設置t1=0.8,t2=0.2,t3=0.25,α=0.75,γ=0。訓練批次數據個數大小為16,總共訓練了160個epoch。用Adam作為優化器,其beta1=0.95,beta2=0.999,學習率設置為5×10-5的小值。實驗基于兩張1080Ti卡的環境下進行。
使用Recall=TP/(TP+FN)、Precision=TP/(TP+FP)和F-measure(F1)=2×Recall×Precision/(Recall+Precision)作為實驗的評價指標,對像素級的分割結果的評價,TP、FP和FN表示前景結果的正檢、錯檢和漏檢,Recall表示完整性,Precision表示邊緣準確性,F-measure(F1)則是綜合指標。
在消融實驗中,驗證了間隔光流、注意力結構和類內尺度焦點損失,綜合上述的模塊得到的結果最優,在綜合指標F-measure(F1)達到0.977 6。如表1所示,對比第1、2、3和8行的結果,結合間隔光流的模型具有顯著的提升。對比第1和9行,驗證注意力結構,在綜合指標F1中提升9.85個百分點。對比第1、4、5、6和7行的結果,最好的損失函數的組合為cisfocal loss和l1 loss的組合。

表1 在CDNet 2014數據集上的消融實驗
在對比實驗中,對比的模型分為兩類:(1)跨場景的深度神經網絡模型;(2)基于具體場景的背景減法模型。DeepBS[12]和STAM[13]和提出的IOFAM采用相同的訓練策略。對具體場景訓練的模型,對比了基于深度神經網絡的FgSegNet[32]和基于背景減法的GMM[33]、CPB[18]和SubSENSE[34]。通過不同模型的實驗結果說明方法的魯棒性和有效性。在跨場景實驗中,模型還對比了兩個語義分割模型PSPNet[14]和DeepLabV3+[15]。
文中提到的模型都是在CDNet 2014數據集中訓練的,表2中的實驗結果對比突出說明所提模型的跨場景能力,以及使用單個模型的簡潔性與有效性。表2顯示IOFAM在Recall、Precision和F-measure(F1)綜合指標都達到了SOTA的結果。對需要在具體場景單獨訓練的模型FgSegNet、GMM、CPB和SubSENSE,只有一個模型的IOFAM在綜合指標F1的對比中仍然是最優的。IOFAM對比單個模型訓練的STAM[13],在F1指標中提高了1.25個百分點。對比去掉注意力結構的IOFAMnoAtt和去掉光流特征的IOFAMnoOp,并結合表1中的消融實驗說明注意力和光流在模型訓練的重要性。

表2 在CDNet 2014數據集上的實驗結果 %
為了驗證模型的跨場景能力,在LIMU數據集的三個典型場景中進行了測試,結果如表3所示。為了更好地說明模型的跨場景能力,在對比實驗中加入了兩個語義分割模型PSPNet[14]和DeepLabV3+[15]。通過綜合指標F-measure(F1),在CP的子場景中,PSPNet作為語義分割的結果更好,F1為0.865 6,但在另外兩個子場景中的結果較差,實驗也說明視頻前景分割任務和語義分割任務的不同。在LIMU數據集的跨場景實驗中,IOFAM在整體的F1綜合指標達到SOTA為0.798 1。

表3 在LIMU數據集上的F1指標實驗結果 %
針對前景分割中的跨場景問題提出了一種間隔光流注意模型(IOFAM),以實現具有實際應用價值的跨場景前景分割任務。與最先進的跨場景深度模型、特定場景深度模型、背景減法模型在未訓練數據集LIMU的實驗結果對比,表明在無需任何額外訓練的情況下具有良好的場景泛化能力。雖然采用雙輸入,但該框架實現了單一模型和端到端的訓練,不需要場景適應等額外的微調操作。未來的工作將是使用自監督學習來探索特定訓練場景的注意力模型。