薛 茹,黃 操
(1.西藏民族學院 信息工程學院,陜西 咸陽712082;2.長安大學 信息工程學院,陜西 西安710064)
責任編輯:時 雯
背景減法是視頻監控中常用的運動目標檢測方法,它通過當前幀的像素和背景模型中的相應像素比較,將視頻圖像中的運動目標提取出來,由此可見背景模型直接影響背景減法獲得運動目標的質量[1]。最簡單的背景模型是為每個像素做高斯分布[2],然而,單高斯分布對于擺動的樹木、光線變化等動態背景并不得心應手。因此,Stauffer和Grimson用高斯混合模型[3]表達動態背景的變化,并用參數估計技術更新背景模型,由于外界環境變化的不確定性,用高斯分布建立精確的背景模型是不可能的。為了克服因快速變化的背景引起的參數估計錯誤而導致的背景模型的不精確性,Elgammal和Harwood等人提出了非參數模型[4]方法,通過像素的觀測值用核密度估計技術預測當前像素的概率密度函數,這種方法能適應背景的迅速變化,使其迅速檢測運動目標。但是,在光線變化和樹木擺動的情況下,這種方法需要長時間紀錄觀測像素,占用大量內存。為了克服該問題,文獻[5]提出用碼本的方法建立基于像素統計的模型,該方法用壓縮的方式在內存有限的情況下表示圖像序列,通過比較當前幀和背景幀的顏色和亮度差進行檢測,該方法用聚類分析構建背景模型,為每個像素建立包含一個或多個碼元的碼本。以上都是針對單個像素建立背景模型,而基于像素區域的背景建模也受到了關注。局部二值模式(LBP)[6]是一種檢測區域紋理變化的方法。在給定像素為中心的圓形區域內,用中心像素與相鄰像素的差值確定編碼,所得的二進制值分布在中心像素的環形區域,用于對該像素建立模型。如果檢測像素的區域和得到的二值模式相同,那么該像素為前景,否則為背景像素。然而,由于中心像素作為參考來計算二值模式,該像素的穩定性直接影響檢測的準確性。文獻[7-8]同樣提到了該方法,文獻[7]用視頻序列中相應塊之間的相關性檢測前景,該方法對于處理動態場景和塊內部的固定干擾還有困難,另外,對于運動目標與塊的大小、干擾等都需綜合考慮。文獻[8]利用了固定塊大小和邊緣直方圖的方法,但使用固定塊大小很難平衡噪音魯棒性和檢測準確性。邊緣直方圖不能過濾諸如擺動的樹枝這樣小范圍運動的干擾。Bourezak等人[9]采用在不同大小的塊上使用顏色直方圖的方法。文獻[10]在經典碼本[5]算法的基礎上,從像素塊和像素兩個級別對圖像進行編碼,提取運動目標,但是該方法由于采用兩個級別進行編碼,其編碼和更新過程過于復雜,影響了前景檢測的實時性。
本文方法對塊向量進行聚類分析,考慮組成圖像的相鄰像素之間的相關性,用三維矩陣表示塊向量的聚集范圍,并通過聚集后的部分矩陣向量分割前景和背景。
視頻中灰度圖像用一維表示,彩色圖像用R,G,B空間三維表示。盡管通過顏色的變化可以將圖像前景或背景分割[11],但是實際中顏色的變化是隨著時間而不斷變化的,要更清楚地檢測運動目標,并降低運算量,有必要增加空間維度。為了充分表達出空間顏色隨時間變化的關系,本文運用三維立體矩陣理論[12-13]將彩色圖像的變化表示在一個數學模型里,運用動態的建模方法進行目標檢測。
彩色視頻圖像中,像素塊的R,G,B值分別用塊中像素的R,G,B均值來表示,即R—,G—,B—。像素塊的R,G,B向量是從原點到那一點的向量v(如圖1所示)。RGB空間中向量的夾角、距離都可表征像素間顏色的差異。

圖1 RGB向量空間示意圖
v1(R1,G1,B1)與v2(R2,G2,B2)分別表示兩個塊向量,v1,v2的夾角α定義為

v1,v2的距離L定義為

對視頻圖像序列進行分塊,如圖2a所示。對于一幀視頻的每個塊都有自己的位置;對于視頻序列,要明確表示像素塊的位置,除了行、列外,還需要表示時間的變量。因此將圖2a中的視頻序列擴展到三維矩陣中,如圖2b所示。用v表示像素塊向量的大小,下標i和j表示在一幀圖像中像素塊的位置,t表示圖像序列的時間,那么vijt就可以表示第t幀中、第i行、第j列像素塊的向量,即在三維矩陣中i,j,t軸分別表示視頻中像素塊所在的行、列、時間軸縱向序列。

圖2 視頻的三維矩陣表示
動態背景建模方法的思想是:將視頻圖像分塊,求其塊向量的值。通過計算同一塊向量在連續視頻序列中的最小歐氏距離,根據歐氏距離對塊向量進行聚類分析。根據檢測過程中塊向量在聚心的聚集范圍內出現的次數,移動該聚心的位置,再根據視頻圖像塊與出現頻率較高的聚心進行比較,判斷該塊屬于前景或背景,并動態對聚心進行更新。
三維塊向量矩陣中各元素分別用vijd表示,i和j值由視頻圖像大小決定,d為經驗值。將該矩陣從縱向深度為d/2的位置,分為深度為1~d/2和d/2~d的兩部分。其中,深度為1~d/2的向量是檢測過程中可能的塊向量的聚心,用來分割視頻的前景和背景。而深度為d/2~d的部分是曾經出現過,但出現頻次不多,后面可能還會出現或者不會再出現的塊向量。由此可見,d的大小決定聚心的精確度。
檢測過程中像素塊先與縱深在1~d/2范圍的向量進行比較,通過式(3)求得歐氏距離最小值

式中:xij為當前視頻圖像中第i行、第j列像素塊的向量值;vijk為V矩陣中第i行、第j列像素塊在縱向值為1~d/2的像素塊向量;disij為歐氏距離的最小值。如果disij小于閾值TSij,那么這個塊判斷為背景。這樣在第一幀圖像到達后就可以粗略地將背景與前景分隔,為背景建立初步模型。

再將當前像素塊與縱深在d/2~d范圍內的向量比較。在檢測過程中將3d/4作為新的候選聚心添加的地方,縱深從3d/4~d的向量是長時間沒有出現塊。判斷添加聚心的條件是,若歐氏距離disij大于閾值TPij,則將該向量添加到縱深為3d/4處,其后面的向量依次后移,縱深超過d則刪除。對于disij小于等于閾值TPij的向量,將當前的像素塊拋棄,在矩陣中找到對應的(假設該塊為vijn)像素塊向量,將其在縱向上提升s,也就是在該塊的縱深減少s,即塊向量為vij(n-s)(其目的在于對在聚心范圍內出現的塊,將其塊向量位置向縱深為1~d/2的范圍內提升,使其能代表該塊的聚心)。原來位置的向量則依次下移。對于提升距離s則根據實驗確定。依次類推,最終使出現頻次最高的向量出現在深度為1的平面矩陣中,那么vij1更能代表當前視頻的背景。為了確保檢測的準確性,將縱深在1~d/2范圍內的向量作為分隔前景背景的基本模型。具體過程如圖3所示。

圖3 動態背景建模方法
對于在檢測過程中出現的閾值需要實時掌握視頻變化情況,因此對于閾值TSij和TPij,根據計算過程中得到的歐氏距離的最小值βTS和βTP倍和時間常量TC來表示

式中:t代表視頻的時間間隔;βTS,βTP,TC為經驗值;α=。這樣閾值根據像素塊的變化實時更新聚類的聚心,并改變聚心的優先級別。
總之,將重復出現的像素塊的縱深提升到矩陣縱度的前一半范圍內,是為了讓這部分像素塊能實時代表像素塊的聚心,將聚心范圍縮小,提高用縱深為1~d/2范圍內的塊向量進行前景和背景分割的精確性。將出現頻度較低的像素塊向量剔除,減少矩陣的冗余提高有效度。
算法描述如下:
1)初始化矩陣V,使其初始值為0;正規化當前幀中各像素塊xij。
2)計算當前幀中各塊與矩陣中縱深為1~d/2的相應塊的歐氏距離,并分別求其最小值disij。

3)繼續計算當前幀中各塊矩陣中剩余像素塊的歐氏距離,并分別求其最小值disij

如果當前圖像中的某像素塊向量和矩陣中相應的像素塊向量歐氏距離接近,即小于閾值TPij,則丟棄當前塊,矩陣中相應的塊(假設該塊為vijq)縱向提升s,也就是在該塊的縱深減少s,則該塊為vij(q-s)。那么矩陣中原來vij(q-s)~vijq及其后面的像素塊依次改變。若s=1,即t=vijq,vijq=vij(q-s),vij(q-s)=t,也就是兩個向量交換位置。
如果disij大于閾值TPij,則用當前塊向量值代替矩陣中深度為p=3d/4的塊向量,而矩陣中原來的塊向量值從3d/4到d,依次后移一位。最后一個向量vijd直接從矩陣中刪除。
4)返回第一步。
用該方法提取前景,由于采用塊大小的不同會直接影響前景的分辨力。因此,為了提高檢測的效果可以采用重疊塊的辦法,但是這樣會影響計算速度和存儲容量。
本文方法是對圖像在水平、垂直、縱向時間上進行塊劃分,并根據平面上塊的大小和時間序列來設計矩陣的大小。實驗中,平面中塊的大小根據圖像分辨率設定,同時要考慮得到背景模型和提取前景分辨率的要求;也就是說,用大塊去分割圖像會導致提取的前景不平滑、失真率變大。因此,在實驗中針對不同的圖像,采用了不同大小的塊。時間序列的大小根據經驗,盡量提取清晰干凈的背景為宜,同時還需考慮系統的存儲容量和計算速度。
實驗中提取的視頻圖像的分辨率為640×480,測試了1 000幀,采用25 f/s(幀/s)。將本文的算法應用于一個三維矩陣中,塊大小是4×3像素。矩陣中,行i=640/4=160;列j=480/3=160;縱向深度d=200。時間常數為500,βTS=1.5,βTP=2。通過MATLAB 2007運行。選取兩個視頻,視頻1為湖邊的視頻,在有風的情況下樹木擺動,湖里水波反光,且湖岸上有行人通過;視頻2為公園中一房子旁邊,有微風、行人較多,這兩個視頻的場景都比較復雜。
文獻[9]采用像素塊的碼本聚類方法,根據像素塊出現頻率對其進行編碼來提取前景。該方法中塊大小是4×3,學習幀為100;像素塊距離閾值為10,碼元沒出現的時間間隔閾值為50。將文獻[9]方法與本文方法進行比較,如圖4所示。在圖4的視頻1中,風較大、湖面水波反光,本文和文獻[9]的方法都能有效剔除水波的干擾,但是不能完全剔除擺動樹木的影響。然而,從圖中可以看到,本文方法對擺動樹木的抗干擾能力比文獻[9]好。視頻2中本文和文獻[9]方法提取的前景能有效減去固定房屋,對于樹木的干擾本文方法更好;對于人體中出現空洞的現象本文方法效果不明顯。

圖4 本文方法與文獻[9]提取前景比較
為了進一步對該算法進行分析,采用操作特征曲線(Receiver Operating Characteristic,ROC)來分析評估該算法的性能。ROC曲線通過Y軸的真陽性率(True Positive Rate,TPR)與X軸的假陽性率(False Positive Rate,FPR)形成曲線,是一種評估算法質量或性能的有效方法。AUC(ROC曲線下的面積)是衡量算法的總體性能,算法的AUC值越接近1,說明該算法的性能越好。圖5顯示了本文實驗中的ROC曲線。

圖5 ROC曲線

式中:TP為檢測到的正確前景像素個數;FN為檢測到的錯誤前景個數;FP為檢測到的錯誤背景像素個數;TN為正確檢測的到背景像素個數。從圖5可以看出,本文方法的值比文獻[9]更接近1。
提出針對圖像在三維空間建立背景模型,在平面上進行塊的劃分,在縱向上進行塊向量的存儲,并根據塊向量在一定變化范圍內出現的次數,調整塊向量在縱向上的位置,使得出現次數高的向量集中在縱深為1~d/2的范圍內,有效地進行聚類分析。并將該方法和碼本塊聚類分析方法(文獻[9])進行比較,實驗證明該方法能動態更新背景模型,不需要花費時間學習,能有效提取運動目標,降低外界干擾。
[1]薛茹,宋煥生,張環.基于像素的背景建模方法綜述[J].電視技術,2012,36(13):39-43.
[2]WREN C,AZARBAYEJANI A,DARRELL T,et al.Pfinder:Real-time tracking of the human body[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[3]STAUFFER C,GRIMSON W.Adaptive background mixture models for realtime tracking[C]//Proc.CVPR 1999.Fort Collins,Colorado:IEEE Press,1999:246-252.
[4]ELGAMMAL A,HARWOOD D,DAVIS L.Non-parametric model for background subtraction[C]//Proc.ECCV 2000.Dublin,Ireland:IEEE Press,2000:751-767.
[5]KIM K,CHALIDABHONGSE T,HARWOOD D,et al.Real-time foreground-background segmentation using code book model[J].Real-Time Imaging,2005(11):172-185.
[6]OJALA T,PIETIKINEN M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[7]MASON M,DURIC Z.Using histograms to detect and track objects in color video[C]//Proc.AIPR 2001.Washington,DC,USA:IEEE Press,2001:154-159.
[8]MATSUYAMA T,OHYA T,HABE H.Background subtraction for nonstationary scenes[C]//Proc.ACCV 2000.Taipei,Taiwan:IEEE Press,2000:622-667.
[9]BOUREZAK R,BILODEAU G.Iterative division and correlograms for detection and tracking of moving objects[C]//Proc.IWICPAS 2006.Xi’an,China:IEEE Press,2006:45-56.
[10]GUO J,HSU C.Hierarchical method for foreground detevtion using codebook model[C]//Proc.2010 IEEE 17th International Conference on Image Processing.Hong Kong:IEEE Press,2010:26-29.
[11]沈盼盼,樊豐,伍瑞卿.基于RGB三通道分離的運動目標檢測方法[J].電視技術,2012,36(3):137-140.
[12]桑愛軍,陳賀新.三維矩陣彩色圖像WDCT壓縮編碼[J].電子學報,2002,30(4):594-597.
[13]朱艷秋,陳賀新,戴逸松.彩色圖像三維矩陣變換壓縮編碼[J].電子學報,1997,25(7):16-21.