丁潔 肖江劍 況立群 宋康康 彭成斌
背景建模是計算機視覺的一個重要研究方法,在智能視頻監控、智能交通、人機交互等領域有廣泛應用.現有背景模型主要分為基于時域信息的模型和基于時空域信息融合的模型[1].基于時域信息的模型通常利用過去一小段時間內像素的統計特性來預測該像素短期未來的狀態,而基于時空域信息融合的模型在利用時域信息的同時也關注像素在空間域上的分布特性.這些模型又可以分為參數化模型和非參數化模型.參數化模型是利用含參模型對每個像素點建模,非參數化模型是使用已觀察的像素值對該像素點建模[2].
Wren等[3]提出的單高斯背景模型是利用時域信息建立的參數化模型,該方法對光照緩變適應性較強,但在發生背景擾動時,處理情況較差,這主要是因為單高斯背景模型無法處理多模態變化.此后,Stauffer等[4]提出混合高斯背景模型(Mixture of Gaussian,MOG)來處理多模態變化,它也是一個只利用時域信息的參數化模型.與單高斯模型不同的是,它對圖像每個像素點建立多個不同權重的高斯模型.它可以有效地處理多模態場景,但是如果背景中同時呈現高低頻變換,它的靈敏度調節困難,會導致前景像素融入背景模型、丟失高頻目標.另外,條件隨機場[5]、碼書[6]等方法也被用于基于時間域信息的背景建模,然而發生變化(如風吹樹枝)時,受模型更新速度的影響,算法會產生大量的虛警數.此后,Barnich等[7]通過利用像素的空間關系提高模型更新速度,提出融合時空特性的非參數化模型—ViBe(Visual background extractor)模型,該模型利用像素點的鄰居像素來對模型更新,使其對變化場景可以較快適應.然而在非平穩變化(如光照突變)下,使用該模型仍然會產生大量的虛警數.2014年,St-Charles等提出SuBSENSE(Self-balanced sensitivity segmenter)算法[8],該算法對ViBe算法顏色空間以及距離公式進行改進,可以有效填補ViBe算法目標內部空洞并提高更新速率,然而該算法運算效率較低且容易出現大范圍閃爍現象.
分析以上背景建模方法,無論是只使用時間域信息的模型還是使用時空域信息融合的模型都只考量狹小時間段內的統計特性.然而,在整個背景建模的過程中,場景背景的變化有周期性重現的特點(如光線的變化情況等),如果僅在小時段時空域上研究,必定會丟失周期性信息,使更新受限.如果將周期性信息合理記錄,構成帶記憶的模型.在發生非平穩變化時,直接在記憶字典中找到對應變化特點的背景作為此時背景,并使用它更新模型,必定能大幅度降低虛警數.為了充分利用背景長時間周期性重現特點,搭建一個合理融合大時空域信息的基于長時間視頻序列的背景建模框架,并在其上研究背景建模方法.設計該框架時有以下幾個難點:1)如何將大量長時間背景信息合理描述;2)如何訓練生成簡單并兼顧實時性的背景字典;3)如何在背景詞典中查找所需背景;4)如何使背景字典長久的適用于場景;5)如何將長時間的時空域信息與短時間的時空域信息結合,即如何將長時間記憶模型與短時間記憶模型融合.
針對1),本文通過對長時間視頻剪輯、求平均背景生成背景圖片,并對圖像降采樣、降維[9],產生有意義的背景描述子;針對2),本文采用譜聚類[10]對背景粗分類,并使用K-means[11]對背景進一步細分類,使用類別中典型圖建立樹形字典,從而訓練出簡單可兼顧實時性的背景字典;針對3),計算原圖向量與背景詞典向量之間的歐氏距離,距離小的即為所需背景;針對4),本文增加背景字典更新模塊;針對5),本文設計突發變化判斷機制,如果是平穩變化則使用現有短時空域信息模型,如果是突發變化則利用帶記憶的長時空域信息模型.
本文首先介紹該框架的建立方法,然后介紹該框架與短時空域信息背景模型[12]的融合方法,重點測試突發變化發生時的運動目標檢測結果.實驗結果表明:該框架可顯著提高背景模型(如ViBe或MOG算法)對突發變化(主要測試光照突變)的適應性和魯棒性,有效實現對前景目標的較準確檢測.
本文以長時間定視角視頻序列為研究對象,給出同時滿足運動目標檢測實時性、準確性以及突發變化適應性(如光照突變)要求的長時間背景建模框架.
長時間背景建模框架如圖1所示,其內容可以分為三塊:背景字典訓練模塊、圖像檢索模塊以及背景字典更新模塊.背景字典訓練模塊包括視頻背景信息描述(預處理與PCA(Principal components analysis)降維)和生成背景字典(譜聚類、K-means再聚類以及字典生成);圖像檢索模塊包括非平穩變化判斷、原圖像合理描述與檢索判斷方法;背景字典更新模塊包括模型效果判斷機制與更新方法.下文將圍繞以上三個模塊展開.
訓練背景字典部分包括背景合理描述與生成背景字典兩部分.這部分將完成背景模型的記憶功能.
這部分本質為特征提取,通過對長時間視頻預處理以及降維,生成背景描述子,并以向量的組合描述長時間視頻圖像序列.
根據長時間視頻數據量大,而每一分鐘背景變化差異不大的特點,對采集的定視角視頻做預處理.
輸入:所采集的定視角視頻(本文采集24小時定視角視頻).
輸出:預處理結果向量集{i}.
步驟1.將視頻剪輯為一分鐘短視頻(24×60=1440個);
步驟2.依次對每一分鐘的視頻使用已有背景建模方法建立背景模型并求得背景(本文使用高斯背景建模算法來建立背景模型);

圖1 長視頻背景建模框架Fig.1 Long time background modeling framework
步驟3.求每分鐘的平均背景圖(共1440張,即背景記憶庫);
步驟4.背景圖像降采樣,主要目的是減小訓練算法運算量.(將原圖像(Data1分辨率352×288)變為分辨率160×120的圖像);
步驟5.將圖像轉換為向量形式,此后運算都以該向量集為基礎.(1×160×120維的向量集
通過預處理所得高維向量數據集為{i},在其之上直接處理,會造成維數災難[13],因此使用降維算法對其降維.本文采用被廣泛使用的主成分分析法(PCA)對數據集降維,主成分分析法的優點是概念簡單、計算方便、重構誤差小.
使用PCA算法,計算合適的投影矩陣Ud,將圖像數據集合{i}降到低維空間變為計算公式:

其中,i是i降維后對應的向量,是{i}的均值向量.在降維后的空間,背景數據集變為{i},它就是背景描述子.降維的維數是通過保留信息量以及聚類結果確定的,其確定方法在第6節闡述.
這部分主要闡述背景記憶庫中的向量分類方法、背景字典生成方法以及組織方式.因為本文處理的定視角視頻序列有如下特點:1)數據量較大;2)場景典型類別少.本文利用聚類算法探索背景向量之間的關系并分類.譜聚類算法對背景向量粗聚類,K-means算法對背景向量細聚類.與此同時,使用類中典型圖生成背景字典,并根據粗細分類合理組織背景字典.
由于譜聚類算法有對不規則誤差數據不敏感,計算復雜度較小,收斂于全局的優點,本文使用該算法對數據聚類[14].2014年,Zhu等[15]提出一種通過有效計算高維復雜數據之間相似度以改進相似度矩陣的方法,大幅度提高高維譜聚類性能.本文使用該方法計算相似度矩陣.
本文譜聚類流程:
輸入:背景描述向量集{i}.
輸出:聚類結果向量(指明每個向量的類別).
步驟1.計算這n個描述向量的相似度矩陣an×n,其元素aij為數據i與j的相似度;
步驟2.計算矩陣D,D為對角矩陣,除對角元素外都為0,D的對角元素為

其中,D的對角元素為an×n對應列的所有元素之和;
步驟3.計算規范拉普拉斯矩陣L,其中I是單位矩陣;

步驟4.求L的特征值并按從小到大排列:γ1≤γ2≤···≤γn(對稱矩陣有n個實值的特征值);
步驟5.對于k類聚類(k的選擇由第6節闡述),原算法選取前k個特征值所對應的特征向量,按列組成新的矩陣R,它是n×k維矩陣,本文算法根據經驗選取前k+3個特征值對應的特征向量,按列組成新的矩陣R,它為n×(k+3)維矩陣;
步驟6.把矩陣R的每行元素作為新數據(共n個,每個數據k+3維),使用K-means聚類.如果R的第i行元素被聚類到子類Kj,那么原n個數據中的第i個數據屬于子類j.
本文計算相似度矩陣an×n的方法 (由 Zhu等[15]提出)如下:
如圖2所示,γ為根節點.假如一對樣本從根節點開始直到到達它們各自的葉子節點li與lj.最后由根節點、中間節點、葉子節點組成的一條路徑(如圖粗體部分所示)會被生成.

圖2 隨機決策樹Fig.2 Random decision tree

分別表示遍歷的中間節點.如果pi和pj經過相同的λ個節點,則

(i,j)的相似度表示為

其中,b=argmax|pb|且b∈{i,j},b表示到達葉子節點lb的數據樣本集,分子表示i,j共同經過的權重和,分母為整體權重.這種表達方式可以有效表達數據點之間的相似性.由aij構成的矩陣即為相似度矩陣an×n.
根據上一部分的譜聚類算法,背景圖片可以分為k類,類中的圖片相似度較高.由于背景圖片量大,假如直接使用新的視頻圖像向量與k類中每個背景向量比較則計算量太大.而如果只與該類典型圖片向量比較,則比較向量太少,會導致檢索出的背景不夠準確.因而,本文通過對每類向量(由第2.2.1節可知,該向量為k+3維)K-means再聚類,聚為10個小類.這樣背景描述向量就又被分為10類.
建立的背景字典需滿足兩個要求:第一,能有效代表所有背景;第二,檢索速度快.針對這兩個要求,設計如圖3所示的字典生成方法,由第2.2.1節可知,譜聚類將背景圖聚為k類,我們找到這k類的典型圖,之后再按第2.2.2節中K-means再聚類,分別找到每部分10個類的典型圖.典型圖是每類的載體,背景字典由圖3中淺色箭頭虛線所連典型圖構成.由圖3可知,此背景字典為樹形結構,因而可加快檢索速度.

圖3 背景字典生成圖Fig.3 Map of background dictionary
圖像檢索部分主要討論檢索時機,檢索背景字典的方法.本文使用非平穩變化判斷機制確定檢索時機,通過計算歐氏距離檢索背景字典.
本文實驗的非平穩變化是光線突變,因而設計關于光線的非平穩變化判斷機制.
根據光線突變時絕大多數像素點變為前景的特點,本文通過關注前景像素點占總像素點的比例來統籌設計判斷機制.
光線突變時,前景像素比例迅速增大,當大于臨界值T時,則認為發生了光線突變.如式(7)其中Ro為前景像素比例,flag1=1說明非平穩變化發生,反之,則不是.

當判斷結果為flag1=1時,將此時原圖經過第2.1.1節中步驟4、步驟5兩步變為與i維數一致的高維向量,將映射到與i同一個空間中,變為向量,計算公式:

其中,是第2.1.2節中的投影矩陣,向量nnn就是原圖像的合理描述.
該處步驟與特征臉算法[16]類似,通過計算向量與背景字典中i的歐氏距離,距離最小的即為對應的背景向量.將該向量的索引返回,該索引背景就是此時背景,并采用該背景初始化背景模型.
這部分討論模型效果判斷機制以及更新方法.
檢索替換生成新模型之后,前景像素比例Ro應該迅速下降.如果下降較小,說明場景與記憶場景差距較大,此時需要更新背景字典.根據這個特點設計判斷機制如式(9):

Mp表示原來模型,Ma為新模型.Tu為閾值,flag2=0代表不需要更新背景字典,flag2=1代表需要更新背景字典.
結合本文第2.1.1節中背景的生成方法,再考慮快速的背景字典更新,最終從判斷結果為flag2=1的當前幀開始累計100幀背景計算其平均背景,將平均背景作為新的背景,添加到背景庫中.同時,與譜聚類典型圖對應向量比較,找到在背景字典合適的位置,將該向量加入.如果檢索位置已滿,則根據被檢索頻率的高低來替換背景向量,如果一個向量長時間沒有被檢索,則被替換的概率高.
以上三部分就是本文框架的建立方法,由于本文框架主要處理非平穩變化,而非平穩變化并非常態,因而設計將現有短時空域的背景建模與本文長時空域背景建模融合.這樣可以提高背景建模速度.
在第3.1節中,我們談到非平穩變化判斷機制,如果判斷為flag1=0,則使用現有短時空域背景建模算法實現運動目標檢測.如果判斷為flag1=1,則使用長時空域背景建模來建立背景模型.使用該模型后,當它轉換為平穩變化后,則繼續使用短時空域背景建模算法,這樣既可以保證準確性又可以保障實時性.
當長時空域背景建立的背景模型要轉換為短時空域背景模型時,需要注意:初始轉換時,增加更新速度可以達到更好的效果.這主要是因為背景字典中圖片與新的視頻背景會有些許小差異,這會引入一定的ghost區域.
首先通過保留信息量的多少來選擇一個預定維數,再根據聚類結果對其做小范圍調整.降維中,低維空間表達高維空間信息的程度是一個重要的衡量標準,本文稱為貢獻率.
如圖4所示(以Data1為例),背景圖片降至2維就可表達90%的信息量,本文選取維數可以達到99%以上的信息量.由圖可知,在降至30維時其貢獻率第一次大于99%,因此,預估降為30維.
圖4中,橫坐標是降到的維數,縱坐標是貢獻率.

圖4 貢獻率圖Fig.4 Contribution rate
首先通過譜聚類特點預估聚類個數,再通過最終聚類結果對其調整.Ng等提出的NJW譜聚類算法[17],譜聚類的個數通過拉普拉斯特征值的特點來選取.該算法認為:對于存在k個理想的彼此分離簇的有限數據集,可以證明拉普拉斯矩陣的前k個最大特征值為1,第k+1個特征值則嚴格小于1,二者之間的差距取決于這k個聚類的分布情況.當聚類內部分布得越密,各聚類間分布得越開時,第k+1個特征值就越小.
然而,本文中的聚類數據是圖像的特征,由圖5可知,如果直接按照上述方法來判斷,在第二個特征值時就嚴格小于1,那么圖像只為一類,這與聚類的目的相悖.這也表明圖像特征的區分特點沒有普通數據明顯,此時結合聚類的目標對NJW 譜聚類算法中聚類個數的判斷進行拓展.首先,此處聚類的目標是得到內部數據緊湊的幾類,而上述方法提到當聚類內部分布的越密,各聚類間分布的越開,特征值差異就越大,就可以通過觀察特征值拐點的方法來取合適的個數.在圖5中(以Data1為例),可以看到前3個特征值差距較大,因而取3個較為合適.

圖5 譜聚類中拉普拉斯矩陣特征值圖Fig.5 Laplacian eigenvalues graph of spectral clustering
通過聚類結果圖,根據聚類的目標來調整降維維數與聚類個數.本文中主要是判斷開關燈影響,經驗理想值應該為夜晚、白天、開燈的三種情況(經訓練的背景圖片信息按照時間順序排列(該數據集為晚上0點開始至第二天0點結束,圖6的橫坐標即為按時間排列的圖像)).圖6(以Data1為例)為不同維數的聚類結果圖,觀察該對比圖:發現在原來第6.1節所得維數的基礎上再加兩維可以達到聚類內部緊湊、類間分離的目標,而在維數太大的情況下,由于所展現的特征的不同,出現過擬合,反而達不到目標的效果.圖7是降維至32維時,取不同的聚類個數的效果,可以看到在聚為三類時,它將上午、下午聚為一類,中午以及晚上開燈情況分為一類,其余一類是夜晚、晚上未開燈情況,根據數據集本身特點顯示,該種情況符合研究特點.而在聚為二類、四類時,夜晚關燈后的背景的圖像不符合研究特點.因而,最終取32維、聚為三類.

圖6 不同維數的聚類效果Fig.6 Cluster results of different dimension

圖7 不同聚類個數效果圖(32維)Fig.7 Cluster results of different cluster number(32)
通過統計短時空域背景建模算法(以ViBe算法為例)光線突變前、后前景像素點比例(針對本文的四個數據集),如圖8~10所示,對光線突變閾值T更新背景字典閾值Tu取值.本文中T取0.42,取Tu為0.35.

圖8 光線突變閾值T的確定Fig.8 Determination of sudden illumination change threshold T
圖8是分別對關燈、開燈四個數據集光線突變前后30幀的前景像素統計圖,前26幀表示未發生光線突變,后4幀表示已經發生光線突變.在圖8(a)中,未發生光線突變時,除Data2數據集,前景比例均很小接近0,Data2有波動是由于視頻幀中有大目標出現,而突變后,前景比例最低的Data4接近0.45;在圖8(b)中,除Data4數據集,其余前景比例均很小接近0,Data4中波動主要是由于開燈時日光燈的閃爍造成的,而突變之后,前景比例最低的Data3接近0.6.綜上所述,結合開關燈突變像素比例變化,開燈日光燈閃爍,大目標出現三方面影響,取T為0.4左右.

圖9 閾值T的邏輯回歸分析Fig.9 Logistic regression analysis of threshold T

圖10 更新背景字典閾值Tu的確定Fig.10 Determination of threshold Tufor updating background dictionary
在實踐中,我們采用邏輯回歸的方法最終確定閾值T.將生成圖8的訓練集(像素點比例集)作為樣本,是對應的二值隨機變量的集合,每個元素值為0或1(0表示突變前狀態,1表示突變后的狀態);如下式(10)、(11)所示:

式(11)中,是輸入訓練樣本向量,其中每個樣本都可以得到一個hi,β是參數向量,p表示hi為1的可能性,是Sigmod函數.通過回歸模型獲得的hi為1的概率與的對應關系如圖9所示.若p=0.5,hi是0或1(當前狀態是突變前或突變后)的可能性是相同的.因此,我們取p=0.5對應的f的值作為臨界點T的取值,即0.42.
圖10是使用本文方法后,前景像素比例的變化圖.圖中展示不同數據集在第四幀處,使用本文方法像素的變化情況,也是背景適應程度的展現.由圖8可知,正常情況下使用本文方法后,前景像素比例降幅明顯.本文的衡量方法就是觀察突變后,不同算法的前景像素比例變化情況(如圖12、14).由圖10(a)、圖10(b)展現的均為背景字典中背景能代表場景的情況(實際場景變化如圖11、圖13),其比例變化最小值接近0.5.而根據實驗結果圖觀察,被認為替換效果不佳的比例變化最大接近0.3,因此,根據經驗將Tu定為0.35,也可采用邏輯回歸對其驗證.
為了驗證該框架的性能,將該框架用于ViBe算法以及MOG算法,在多個測試數據集上進行實驗,比較這兩種算法與本文融合框架后算法在光線突變發生時的運動目標檢測情況.
實驗在Intel(R)C@2.40GHz 8.0GB的計算機上,VS2013、OpenCV2.4.9和MATLABR2013a環境下實現,在實驗中ViBe維持原論文中參數,MOG采用Opencv實現版.本文算法未對視頻做形態學等預處理以及后處理.
本文討論長時間視頻背景建模方法,數據集分為訓練數據集、測試數據集.訓練數據集用于構建記憶背景字典,測試數據集用于檢索并實現運動目標檢測.
本文訓練數據集有四個,第一個是由監控攝像頭拍攝的實驗室2015年11月27日整天視頻數據(后續稱為Data1,分辨率為352×288);第二個是通用數據集WallFlower dataset[18]中LightSwitch數據集(稱為Data2,分辨率為160×120);第三個是WallFlower dataset中TimeOfDay數據集(稱為Data3,分辨率為160×120);第四個是由焦距2.6mm攝像頭拍攝的室內2016年4月20日整天定視角視頻(稱為Data4,分辨率為640×320).
Data1測試數據集為2015年11月25日的視頻序列(共778幀)、2015年11月26日視頻序列(共2474幀);Data2測試數據集是LightSwitch數據集中未訓練的開關燈圖片序列(開燈測試序列共378幀,關燈測試序列共1625幀);Data3測試數據集是TimeOfDay數據集模擬的開關燈數據集(開燈測試序列共576幀,關燈測試序列共132幀);Data4的測試數據集是2016年4月20日(共1473幀)、2016年4月19日視頻序列(共1113幀).

圖11 運動目標檢測效果對比圖(ViBe關燈)Fig.11 Moving object detection comparison charts(ViBe turns offthe lights)

圖12 運動目標檢測效果對比圖(ViBe開燈)Fig.12 Moving object detection comparison charts(ViBe turns on the lights)

圖13 前景像素比例變化對比圖(對應圖11(a)~(b))Fig.13 Comparison chart of foreground pixel ratio(Corresponding to Fig.11(a)~(b))
圖11、圖12、圖15、圖16是四個不同數據集的實驗結果對比圖.圖11、圖15是關燈情況,圖12、圖16是開燈情況;圖11、圖12、圖15、圖16中a、b、c、d 子圖分別對應Data1、Data2、Data3、Data4實驗結果,a、b、c、d四個子圖中每個子圖第一排是原視頻圖像,圖11、圖12的第二排是ViBe運動目標檢測前景,圖15圖16的第二排是MOG運動目標檢測前景,第三排是本文提出算法的運動目標檢測前景,F表示視頻序列的第幾幀(忽略日光燈閃爍幀、攝像頭適應幀).從圖中可以看到:在發生光線突變時,大量的背景點被誤判為前景點,原ViBe、MOG算法恢復模型較慢,使虛警數(False positive,FP)[19]在長時間內較高;結合本文框架可以使它迅速適應光照突變,大大降低虛警數,從而更為準確地偵測運動目標.
圖13、 圖14分別是圖 11(a)~(b)、 圖13(c)~(d)相應的前景點比例變化比較圖,圖15、圖16的相應的前景變化比例可類似得到.這兩幅圖通過前景像素點比例形象的表示光線突變后背景模型的適應情況.
圖17為室外場景的測試效果,首先使用8月16日的視頻背景數據來建立背景字典,測試數據集為8月15日傍晚室外開燈序列視頻(共273幀).圖17(a)為ViBe算法與結合本文框架后算法的對比圖,其中第一排表示原圖,第二排表示ViBe算法目標檢測效果圖,第三排為結合本文框架的目標檢測效果圖.圖17(b)為混合高斯背景建模算法與結合本文框架后的算法的對比圖,其中第一排表示原圖,第二排表示混合高斯背景建模算法目標檢測效果圖,第三排為結合本文框架的目標檢測效果圖.由圖可知,對室外光線突變場景,結合本文記憶字典模型可以顯著提高模型適應能力,有效降低虛警數.
總結圖11~17知,本文算法有效提高短時空域算法光照突變適應能力,降低原有算法誤檢率,可以更好地偵測運動目標.

圖14 前景像素比例變化對比圖(對應圖12(c)~(d))Fig.14 Comparison chart of foreground pixel ratio(Corresponding to Fig.12(c)~(d))
本文使用虛警數FP以及漏檢數FN來定量評估.虛警數FP是本身為背景像素卻被誤判為前景的像素個數,漏檢數FN是本身為前景像素卻被誤判為背景的像素.本文框架相當于是在原算法發生光照突變之后做的處理,那么在未發生光照突變時,本文算法與原算法的虛警數與漏檢數一致;而在發生光照突變后,由圖13、圖14知,本文算法大大地降低了虛警數,而漏檢數與原算法未發生光照突變時一致,也就是比此時原算法的漏檢數少.

圖15 運動目標檢測效果對比圖(MOG關燈)Fig.15 Moving object detection comparison charts(MOG turns offthe lights)

圖16 運動目標檢測效果對比圖(MOG開燈)Fig.16 Moving object detection comparison charts(MOG turns on the lights)
本文采取了訓練、測試模式,存在訓練時間以及測試時間.在運動目標檢測時相當于處于測試階段,本文與之密切相關的為檢索時間,因而與原算法比較,本文算法主要增加了額外的檢索時間,本文在檢索部分的耗時運算為13次歐氏距離的計算(參考圖3結構,其中3次為圖像描述子與三類典型圖描述子之間的歐氏距離,求得最近的典型圖之后,計算原圖描述子與該典型類中再聚類10個典型圖描述子之間的歐氏距離).在未采取優化機制的情況下,Data1、Data2、Data3、Data4檢索一次背景字典的時間分別為 0.137s、0.051s、0.105s、0.123s.由此可以推想到,視頻中檢索背景字典的頻數對實時性有影響,即突變越頻繁,檢索背景字典次數越多,對實時性影響越大.然而在一般場景中,開關燈情況并不頻繁.本文以每300幀(大約10s)發生一次檢索來計算實時性,與原算法的對比效果圖如表1所示.在更新背景字典時,使用另外一個線程來生成新的背景圖,不影響主線程的實時性.

圖17 室外情況運動目標檢測情況Fig.17 Moving object detection of outdoor
由表1可知,本文通過前期對視頻集做背景訓練,在之后的目標檢測中對實時性的影響很小,而由圖11~17可知,該方法可以有效降低誤檢率,明顯改善運動目標檢測結果.

表1 算法處理速度(fps)Table 1 Processing times of algorithm(fps)
利用固定攝像頭定視角視頻背景周期性重現(比如白天、夜晚周期性變換)特點,搭建基于長時間視頻序列的背景建模框架并研究方法.首先通過對長時間背景序列預處理、降維,得到背景描述子;然后,通過聚類(包括譜聚類、K-means聚類)來訓練背景字典;再設計非平穩變化下的檢索替換機制,并在效果差時對背景字典更新;設計長短時空域模型的融合機制增強實時性,可以有效改善運動目標檢測.通過搭建這樣一個可以嵌入現有背景建模算法中的框架,可以解決室內場景難題.將ViBe或MOG算法與該框架融合,測試非平穩變化(本文主要測試光照突變),實驗結果表明,該框架可以使ViBe、MOG算法迅速適應光線突變,明顯提高運動目標檢測的準確性,有效降低ViBe、MOG算法的誤檢率.
由于本文主要針對定視角室內場景,僅對室內非平穩變換(光照突變)以及簡單室外光照突變的情形進行測試.如果是復雜室外場景,則要考慮相機抖動、動態場景等情形,未來將通過對相機抖動,動態場景等訓練學習,探索更為通用的長時間域背景建模方法.
References
1 Chu Jun,Yang Fan,Zhang Gui-Mei,Wang Ling-Feng.A stepwise background subtraction by fusion spatio-temporal information.Acta Automatica Sinica,2014,40(4):731?743(儲珺,楊樊,張桂梅,汪凌峰.一種分步的融合時空信息的背景建模.自動化學報,2014,40(4):731?743)
2 Niu Hua-Kang,He Xiao-Hai,Wang Xiao-Fei,Zhang Feng,Wu Xiao-Qiang.An improved ViBe object detection algorithm.Journal of Sichuan University(Engineering Science Edition),2014,46(S2):104?108(牛化康,何小海,汪曉飛,張峰,吳小強.一種改進的ViBe目標檢測算法.四川大學學報(工程科學版),2014,46(S2):104?108)
3 Wren C R,Azarbayejani A,Darrell T,Pentland A P.P finder:real-time tracking of the human body.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780?785
4 Stauffer C,Grimson W E L.Adaptive background mixture models for real-time tracking.In:Proceedings of the 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,Co,USA:IEEE,1999,2:252
5 Wang Y,Loe K F,Wu J K.A dynamic conditional random field model for foreground and shadow segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(2):279?289
6 Kim K,Chalidabhongse T H,Harwood D,Davis L.Background modeling and subtraction by codebook construction.In:Proceedings of the 2004 International Conference on Image Processing.Singapore:IEEE,2004,5:3061?3064
7 Barnich O,Van Droogenbroeck M.ViBe:a universal background subtraction algorithm for video sequences.IEEE Transactions on Image Processing,2011,20(6):1709?1724
8 St-Charles P L,Bilodeau G A,Bergevin R.Subsense:a universal change detection method with local adaptive sensitivity.IEEE Transactions on Image Processing,2015,24(1):359?373
9 van der Maaten L J P,Postma E O,van den Herik H J.Dimensionality reduction:a comparative review.Journal of Machine Learning Research,2007,10(1):66?71
10 Huang H C,Chuang Y Y,Chen C S.Affinity aggregation for spectral clustering.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.773?780
11 Arthur D,Vassilvitskii S.k-means++:the advantages of careful seeding.In:Proceedings of the 18th annual ACMSIAM Symposium on Discrete Algorithms.Philadelphia,PA,USA:ACM,2007.1027?1035
12 Goyette N,Jodoin P M,Porikli F,Konrad J,Ishwar P.Changedetection.net:a new change detection benchmark dataset.In:Proceedings of the 2012 IEEE Computer Society Conference on Workshop on Computer Vision and Pattern Recognition Workshops.Providence,RI,USA:IEEE,2012.1?8
13 Su Ya-Ru.Research on Dimensionality Reduction of High-Dimensional Data[Ph.D.dissertation],University of Science and Technology of China,China,2012(蘇雅茹.高維數據的維數約簡算法研究[博士學位論文],中國科學技術大學,中國,2012)
14 Cai Xiao-Yan,Dai Guan-Zhong,Yang Li-Bin.Survey on spectral clustering algorithms.Computer Science,2008,35(7):14?18(蔡曉妍,戴冠中,楊黎斌.譜聚類算法綜述.計算機科學,2008,35(7):14?18)
15 Zhu X T,Loy C C,Gong S G.Constructing robust affinity graphs for spectral clustering.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.1450?1457
16 Smiatacz M.Eigenfaces, Fisherfaces, Laplacianfaces,Marginfaces—how to face the face veri fication task.In:Proceedings of the 8th International Conference on Computer Recognition Systems CORES.Switzerland:Springer,2013.187?196
17 Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and an algorithm.In:Proceedings of Advances in Neural Information Processing Systems 14:Proceedings of the 2001 Conference.Vancouver,British Columbia,Canada:MIT Press,2001,14:849?856
18 Toyama K,Krumm J,Brumitt B,Meyers B.Wall flower:principles and practice of background maintenance.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1991,1:255?261
19 Chen Y T,Chen C S,Huang C R,Huang Y P.Efficient hierarchical method for background subtraction.Pattern Recognition,2007,40(10):2706?2715