班 穎,田 韻,邵澤軍
(燕京理工學院建筑學院,廊坊 065201)
近年來,擴展的魯棒主成分分析模型(robust principal component analysis, RPCA)[1]在 運動目標檢測領域得到了較好的發展,其模型簡單,求解高效。該模型將視頻序列組成的矩陣分解為低秩靜態背景、稀疏平滑前景和稀疏動態背景,并分別利用核范數和L1范數進行低秩和稀疏約束。
上述擴展的RPCA 存在如下不足:①核范數被定義為背景矩陣所有奇異值之和,沒有考慮不同奇異值對秩函數的影響;②RPCA 模型將前景看作背景中存在的異常像素點,在復雜背景中前景檢測精確度下降,而L1范數不能有效應對復雜背景對前景提取造成的干擾。
為解決問題①,Gu等[2]提出了加權核范數,考慮了不同奇異值對秩函數的影響,加強了背景的低秩性。為提高背景建模在復雜場景中的穩定性,加權Schatten-p 范數最小化模型被提出[3]。文獻[4]基于t-product 提出了一種新的張量核范數,為準確恢復低秩和稀疏成分提供了保證。為解決問題②,并提高目標檢測的準確率,高階魯棒主成分分析模型(Higher-order RPCA,HoRPCA)被提出[5]。在文獻[6]中,3D全變分(3D Total Variation,3D-TV)被提出用來約束稀疏前景,有效抑制了由動態背景造成的噪聲干擾。文獻[7]利用超像素生成步驟和樹結構稀疏性動態估計前景,有效去除了背景。
基于以上認識,為加強對實際背景的近似和應對復雜背景的變化,提出了一種結合加權核范數與3D 全變分的目標檢測模型。該模型將視頻序列組成的矩陣分解為低秩靜態背景、稀疏平滑前景和稀疏動態背景,利用加權核范數對背景進行低秩約束,考慮了不同奇異值對秩函數的影響;為加強前景的時空連續性,利用3D-TV 對運動目標進行稀疏約束,有效抑制了動態背景的噪聲干擾。
假設給定的視頻序列I∈Rm×n×t,m和n分別表示視頻的寬和高,t表示視頻的幀數,將每幀圖像向量化形成矩陣O。矩陣O可分解為
其中:B∈Rmn×t是靜態背景,M∈Rmn×t為殘差。
為應對現實生活場景的復雜多變,將殘差M分解為稀疏前景F和動態背景E:
其中:F∈Rmn×t和E∈Rmn×t均具有較強的稀疏性。
由于靜態背景具有較強的相關性,因此對背景B采用低秩約束。對前景F和動態背景E分別采用稀疏約束,具體模型如下[1]:
在RPCA模型中,核范數定義為背景矩陣的所有奇異值之和,沒有考慮不同奇異值對秩函數的影響,因此對秩函數的近似程度不夠,Gu等[2]提出了加權核范數,定義如下:
由于較大的奇異值對秩函數的影響大,因此施加較大的權重系數,對較小的奇異值施加小的權重系數。上述加權核范數考慮了不同奇異值對秩函數的影響,使其更加接近實際背景的秩。基于以上考慮,本文采用上述的加權核范數對背景進行低秩約束,進一步加強了背景的低秩性。
運動目標,一般是視頻中的顯著性運動對象,且在整個圖像上的分布占比較小,因此前景目標具有稀疏性。另外,運動目標往往是占據一定比例的連續區域,因此具有時空連續性和光滑性,而視頻背景中的雪花和搖晃的樹葉等呈現不連續的噪聲特征[2]。在數學上,3D 全變分[6]具有平滑信號的功能,可以有效抑制視頻中不連續的噪聲干擾。對于前景張量F(i,j,k) ∈Rm×n×t(i= 1,2,…,m;j= 1,2,…,n;k=1,2,…,t),利用3D 全變分來約束前景的稀疏性和時空連續性,如下[6]:
3D全變分通過將上述TVi,j,k相加得到:
為方便計算,引入沿水平方向、垂直方向以及時間方向的向量差分算子:
令Df=[(Dh f)T,(Dv f)T,(Dt f)T]表示三個向量差分算子的聯級,則上述3D 全變分模型可改寫為
從3D 全變分的定義看出,沿水平和垂直方向的差分算子說明3D 全變分考慮了運動目標在二維空間上的連續性;沿時間方向的差分算子說明其考慮了運動目標在時間上的連續性。另外,3D全變分能有效抑制動態背景造成的不連續噪聲干擾,且考慮了運動目標在時空上的連續性,加強了模型在復雜背景中的穩定性,提高了目標檢測的準確性。基于以上考慮,本文采用3D 全變分約束運動目標的稀疏性和時空連續性。
綜上所述,本文提出了一種新的結合加權核范數和3D-TV 的目標檢測模型,具體模型如下:
利用3D-TV 的變形公式(7),上述模型可轉換成如下:
其中:γ1,γ2,γ3為權重系數。
引入輔助變量g求解上述模型,式(9)變形為
利用交替方向乘子法(alternating direction multiplier method,ADMM)[8]求解式(10),其增廣拉格朗日函數為
其中:Y1,Y2,Y3是拉格朗日乘子,μ為參數。
進行變量分離,上述增廣拉格朗日函數轉化成幾個子問題。
(1)固定變量Mk,Ek,Fk,gk,Y1k,Y2k,Y3k和μk,更新Bk+1:
問題的解為[2]
(2)固定變量Bk+1,Ek,Fk,gk,Yk1,Yk2,Yk3和μk,更新Mk+1:
該子問題可以通過軟閾值算子求得[9]:
其 中:P=(O+Ek-Fk-Bk+1)/2 +(Y1k-Y2k)/2μk,Sa(b) = sgn(b)max( |b|-a,0)是軟閾值算子。
(3)固定變量Bk+1,Mk+1,Fk,gk,Yk1,Yk2,Yk3和μk,更新Ek+1:
通過軟閾值算子求得[9]:
其中:N=Mk+1-Fk+Yk2μk。
(4)固定變量Bk+1,Mk+1,Ek+1,gk,Y1k,Y2k,Y3k和μk,更新Fk+1:
其 中:G=vec[Y2k+μkMk+1-μkEk+1+DT(Y3k+μkgk)]。
通過3D 快速傅里葉變換(3D Fast Fourier Transform,3D FFT)[6]求解有:
其中:fftn和ifftn分別為快速3D傅里葉變換和逆變換。
(5)固定變量Bk+1,Mk+1,Ek+1,Fk+1,Y1k,Y2k,Y3k和μk,更新gk+1:
通過軟閾值算子求得[9]:
(6)更新拉格朗日乘子Y1k,Y2k,Y3k和參數μ。
為了驗證所提算法的效果,將本文算法與RPCA[10],IALM-RPCA[11],HoRPCA[5],KBRRPCA[12],TRPCA-TNN[4],以及KBR-L112[13]分別從主觀和客觀兩個方面進行比較。所有實驗的運行環境為Matlab 2014a,Inter Core i5-6500 處理器,8 GB 的內存,Win10 64 位操作系統。實驗的測試數據均來自于CD.net數據庫[14]。
為了在客觀上準確評估本文算法的性能,采用Recall(查全率)、Precision(查準率)和綜合評價指標F值(F-measure)作為提取運動前景的評價指標[15]。
在仿真實驗中,本文主要選取了5類監控視頻進行結果展示和分析,分別為:Bad Weather(a-b)、Camera Jitter(c-d)、Dynamic background(e-f)、Shadow(g-h)和Thermal(i-j),如圖1 所示。

圖1 前景目標時空連續性圖
圖2 前6 行分別給出了復雜天氣、相機抖動和動態背景的視覺對比圖。從圖中看出,對于復 雜 天 氣Blizzard 和Snowfall,IALM-RPCA 和HoRPCA 提取的目標受動態背景的干擾較大,提取的運動目標出現了較多的背景部分,RPCA和KBR-RPCA 提取的前景較為模糊空洞,TRPCA-TNN 和KBR-L112對目標的提取效果較好,但有部分的前景誤判,本文算法提取的運動目標較為完整清晰,且對前景的誤判較小,有效抑制了復雜天氣對前景提取的干擾。對于相機抖動Boulevard 和Traffic,IALM-RPCA、HoRPCA和KBR-L112,雖然提取的前景目標較為完整,但同時由于相機抖動前景視覺圖中提取了較多的背景線條,RPCA、KBR-RPCA和TRPCA-TNN 提取前景的精確度較低,前景目標中的空洞現象較大,且把部分背景誤判為前景目標,本文算法提取的運動目標較為完整,對背景的干擾作用去除較好,且對前景的誤判較小。對于動態背景Overpass 和Fall,RPCA、KBR-RPCA 和TRPCATNN 提取的前景目標只出現部分輪廓,運動目標不完整,IALM-RPCA 和HoRPCA 的視覺效果圖中出現了大量的背景物體,KBR-L112和本文算法提取的前景較為完整,但由于湖水蕩漾和樹葉擺動,KBR-L112的前景視覺圖中出現較多的噪點,而本文算法對前景的誤判較小,有效抑制了動態背景的干擾作用。

圖2 不同視頻的視覺對比
圖2 后4 行分別給出了陰影和熱成像的視覺對比圖。對于陰影圖像Bungalows 和Copymach,IALM-RPCA 和HoRPCA 的視覺效果圖中出現了較多的背景部分,前景背景的區分度較低,RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的前景較為空洞,前景目標的提取精確度較低。本文算法提取目標的精確度較高,去除背景的效果較好。對于熱成像圖像Corridor 和Library,RPCA、KBR-RPCA 和TRPCA-TNN 提取前景的效果較差,HoRPCA 和KBR-L112的視覺效果圖中出現較大的空洞現象,IALM-RPCA 和本文算法提取前景的精確度較好,但兩者相比本文算法去除背景的效果更好。
圖3 給出了視頻Badminton 在4 個不同幀下的視覺對比圖。從中看出,IALM-RPCA 和Ho-RPCA 提取的前景較為完整,但同時把背景誤判為前景的錯誤率較高,RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的運動目標空洞較多,同時含有較多的背景線條,本文算法提取的前景目標較為完整,且去除背景的準確率較高。

圖3 不同算法下不同幀的視覺對比(Badminton)
綜上所述,與其余6種算法對比,本文算法提取的前景較為完整,且有效去除背景,對前景的誤判較低,整體獲得最佳的檢測效果。
將本文算法的Recall和Precision值分別在5類不同的監控視頻上與其他6 種算法進行對比,其對比如圖4所示。從圖4可知,除IALM-RPCA外,本文算法的Recall和Precision值基本上高于其他算法,雖然本文算法的Recall和Precision低于IALM-RPCA,但綜合評價指標F值遠高于IALM-RPCA,說明本文算法有較好的前景查全率和查準率。

圖4 Recall和Precision數值對比
由于Recall只能反映丟失運動目標內部信息的相關性,Precision只能反映丟失目標外部信息的相關性,且兩者指標值有時會出現矛盾的情況,因此采用它們的調和平均值F值來綜合判斷提取效果更為準確。本文算法與其他6種算法的F值對比見表1,其中加粗為最優值,下劃線為次優值。從表1 可以看出,本文算法的F值均處于最優或次優的情況,說明本文算法有較好的前景提取效果,對前景的誤判較小。

表1 不同算法下的F值
表2 給 出 了 視 頻Badminton 在955、965、975 和985 幀不同算法的F值。從表2 看出,所提算法在相同視頻不同幀下的F值基本上處于最優的情況,說明所提算法能穩定地分離視頻的前景與背景,且分離準確率較高。

表2 不同算法下不同視頻幀的F值
本文提出了一種結合加權核范數與3D 全變分的目標檢測模型。該模型以改進的RPCA為基礎,將視頻分解為低秩靜態背景、稀疏平滑前景和稀疏動態背景。為加強背景的低秩性,利用加權核范數對背景進行低秩約束,考慮了不同奇異值對秩函數的影響,提高了背景的去除率;并利用3D-TV 對前景進行稀疏約束,加強了前景的時空連續性,提高了目標檢測的準確率。從實驗視覺對比圖看出,所提算法提取的運動目標較為清晰完整,去除背景的準確率較高,能有效抑制復雜背景對目標檢測的干擾作用。所提算法的綜合評價指標F值均處于最優或次優,說明本文算法的目標檢測準確率較高。