侯 暢,董蘭芳
(中國科學技術大學 計算機科學與技術學院,合肥 230027)
運動目標檢測算法即根據歷史視頻幀將視頻中的每個像素點分類為背景或前景,以獲取運動目標,被廣泛應用于視頻監控等領域[1].
一種最簡單的運動目標檢測算法就是基于圖像灰度值,使用視頻圖像減去事先給定的背景圖像,與閾值進行比較來獲得檢測結果.然而由于自然場景的動態性(如圖像噪聲、光照變化、動態背景以及前景目標間歇性運動等),這種方法所獲取的結果通常很不理想,如何實現一個適用于不同場景的運動目標檢測算法一直是該領域所面臨的主要挑戰.
很多學者就該問題進行了大量研究,運動目標檢測算法可簡單分為基于采樣的、基于概率統計的、基于編碼本的以及基于深度學習的.早期比較偏向于使用基于統計或采樣的方法來解決該問題,如Stauffer與Grimson提出使用高斯混合模型(Gaussian Mixture Model,GMM)來進行運動目標檢測[2],該模型假定每個背景像素點顏色值都是服從概率分布的,而其概率分布函數(Probability Distribution Function,PDF)可看作一個高斯混合模型,且鄰近像素點間是相互獨立的,這樣輸入視頻幀中的顏色值與高斯分布均值的差值在一定范圍內的像素點即為背景,反之為前景像素點,同時使用一種期望最大化(Expectation Maximization,EM)算法來學習高斯混合模型中的參數[3];類似地,Elgammal等提出一個非參數化概率方法來進行背景建模,同樣假定背景像素顏色值服從某種概率分布函數,但是對于每個像素點的評估使用核密度估計(Kernel Density Estimation,KDE)算法[4];Barnich等與Kim等分別提出基于采樣的以及基于編碼本的背景建模法[5,6].后來Varadarajan等[7]提出了一種基于區域的高斯混合模型,從方形子圖像塊中提取特征來進行建模;St-Charles等[8]引入局部二值相似度特征(Local Binary Similarity Patterns,LBSP)來作為額外特征來改善背景模型,并針對閾值的確定提出了一些啟發式的改進,雖然這些方法在一定程度上改善了檢測結果,但是時間復雜度增加,很難做到實時.
近幾年鑒于卷積神經網絡(Convolutional Neural Network,CNN)在特征學習上的成功,很多人嘗試使用基于深度學習的方法來解決運動目標檢測問題.Babaee等結合St-Charles等的成果,訓練一個通用的CNN 模型,用來對比背景圖像與視頻幀,效果很好,但是其背景建模方法是結合了幾種現有算法,時間復雜度很高,在比較好的計算平臺上(英特爾E5-1620 v3 處理器、英偉達GeForce Titan X顯卡)也只能做到10幀每秒(Frame Per Second,FPS)[9].
總結起來,傳統基于概率統計、采樣等技術的運動目標檢測算法沒能很好利用圖像特征來改進背景去除結果,另一方面近年來基于深度學習的方法并沒有充分挖掘CNN的特征學習能力,且大部分算法時間復雜度高,不適用于實時任務.
在圖像處理領域很多解決問題的方法或范式都可以進行一定程度的推廣,比如2012年在圖像分類領域基于深度卷積網絡的Alexnet后來被廣泛應用到其他圖像處理任務中[10];源自人臉識別領域圖像比對的思想近年來也被應用到目標跟蹤等任務中[11].啟發自圖像比對及圖像語義分割的思想,本文提出了一種新的基于深度編解碼網絡的運動目標檢測算法,我們一方面使用計算復雜度較低的高斯混合模型作為背景建模方法,另一方面充分利用CNN的特征學習能力,采用事先訓練好的一個基于反卷積的編解碼網絡來識別視頻幀與背景圖像間的差異.實際應用中首先用高斯混合模型進行背景建模,之后將所得背景與視頻幀作為網絡輸入即可直接獲取檢測結果.該方法利用了深度卷積網絡在抗噪及特征學習等方面的優點,無需進行復雜的參數調優即可實現高性能的運動目標檢測.我們在CDnet2014數據集上進行了實驗評估,其結果顯示我們所提出的算法在很多指標上優于現有的大部分算法.另外得益于較為簡單的網絡結構,我們的算法在使用GPU的情況下能夠近乎實時地進行運動目標檢測,實用性很強.
一個典型的運動目標檢測系統如圖1所示.

圖1 運動目標檢測系統模塊圖
圖1中背景模型就是當前場景中背景的一種描述,在運動目標檢測算法中通常作為輸入視頻幀的參照物.一般使用最開始的部分視頻幀來初始化背景模型,初始化完成后對每個輸入的視頻幀首先提取其特征,之后跟背景模型進行比較來獲取檢測結果.輸入的視頻幀與檢測結果有時也用來維護更新背景模型.
本文使用高斯混合模型來進行背景建模,將所得背景圖像與視頻幀作為深度卷積神經網絡的輸入即可直接獲取運動目標檢測結果.下面來分別介紹我們所用的背景建模方法以及編解碼網絡模型.
目前常用的背景建模方法[12]主要有中值法、均值法、卡爾曼濾波器模型[13]、碼本法[6]、單高斯模型以及混合高斯模型[14,15]等.其中中值法與均值法難以適應現實場景中光照等動態變化,后幾種方法中混合高斯模型魯棒性相對較好,且實現簡單、計算復雜度不高,因此本文采用GMM來進行背景建模,下面我們來詳細介紹GMM.
在時刻t的RGB或其他空間中的一個像素對應的值用 來表示,基于像素的背景減除法涉及到對一個像素是前景(FG)還是背景(BG)進行決策,貝葉斯決策R的公式如下:

通常情況下,不知道前景對象的信息,如什么時候出現,出現的頻率等,因此我們假設p(FG)=p(BG)和前景對象的出現符合均勻概率分布即可以使用式(2)來對某個像素是否屬于BG進行判別,如果滿足公式,則對應的是BG:

其中,Cthr是一個閾值,稱為背景模型.從訓練集χ中來估計對應的背景模型,得到的模型用表示.由于在實際的應用中,場景中亮度可能是逐漸的改變(如戶外場景的天氣的變化)或者突變(戶內場景的燈光的切換)以及場景中新對象的出現或者對象的消失都會對場景背景建模有一定的影響.為了適應這種變化,通過增加新的樣本和排除舊的樣本來更新訓練的樣本集,選擇一個合理的時間間隔T,在時刻t有當有新樣本到來的時候,都需要更新訓練集χT和重新估計然而來自老的樣本中可能會存在一些值是屬于前景對象的,因此我們應該用來估計,使用M個組件的GMM,對應的公式如下:


這個算法呈現了一個在線的聚類算法,而且通常入侵的對象由一些具有小權重的聚類來表示,因此使用前B個最大的聚類來近似背景模型:


其中,cf表示一個屬于前景對象但是不會干擾背景模型的最大比例值.例如,如果有一個新對象進入場景并在場景中保持靜止一段時間,那么該對象就很有可能產生一個額外穩定的聚類,由于背景被遮擋,產生的額外的聚類的權重的值會持續增長,如果對象保持足夠長的靜止時間,那么對應的權重慢慢會超過cf,則其就會被當成是背景.從式(4)能夠知道對象只需要大約靜止為幀,就會被認為是背景的一部分,例如cf=0.1和α=0.001,那么就可以知道其需要105幀.為了更好的適應環境的變化,用式(8)來替換式(4),可以得到權重的更新公式為:

其中,cT=c/T,c對應的是支持一個高斯組件的樣本數目,例如可以選擇α=1/T,那么至少需要c=0.01*T樣本數來支持一個高斯組件,那么就可以得到cT=0.01,GMM對應的具體流程如圖2所示.

圖2 高斯混合模型流程圖
通過以上介紹不難看出,GMM作為一種像素級的背景建模方法,并沒有利用到區域性特征如邊緣信息,如果前景目標部分與背景顏色相似,則所得的運動目標檢測結果很容易產生“空洞”,如圖3所示.

圖3 高斯混合模型檢測結果中的“空洞”
而另一方面深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)有著很強的特征學習能力,能夠學習到除顏色特征之外區域級的特征,可以有效解決該問題,所以本文中先使用GMM來生成背景圖像,前景背景的分割則采用一個基于反卷積的編解碼網絡來實現.
運動目標檢測是對于每個像素點進行背景或前景的二分類,從另一個角度看來就是一種像素級的語義分割,如圖4所示.

圖4 圖像語義分割(上)與運動目標檢測(下)
在圖像語義分割領域,目前比較成功的模型都是基于深度神經網絡的,其中FCN[16]、SegNet[17]、DeconvNet[18]、DeepLab[19]是其中比較成功的模型,這些網絡都是首先使用卷積等操作來獲取描述原圖像的特征圖,之后從較低分辨率的特征圖(Feature Maps)解碼獲取原圖大小的像素級分類結果,整個網絡類似一個編解碼器,我們不妨稱之為編解碼網絡.
其中SegNet的作者在CamVid數據集[20]上使用相同的學習速率分別訓練了這幾種模型進行測試,其結果如表1所示.

表1 不同模型在迭代過程中的表現
表1中的G代表整體準確率(global accuracy),指在所有10種類別(動物、行人、卡車等10種)上的分類準確率(正確分類的像素數除以總像素數);C代表類別平均準確率(class average accuracy),指在所有類別上的平均準確率;mIoU代表平均交疊率(mean intersection over union),指分割結果與真實數據之間的交疊率:

BF代表邊緣 指標,指針對邊緣像素點的F1指標(綜合考慮準確率與召回率):

通過結果不難看出SegNet能快速收斂到比較好的結果,且其對于邊緣的描繪較其他幾種模型好很多,因此我們選擇以SegNet為基礎設計網絡結構.
參考SegNet我們設計了兩種編解碼網絡,第一種網絡包含4個編碼層(不妨稱之為SubNet-4),其結構如圖5所示.

圖5 SubNet-4網絡結構示意圖
整個網絡包含一個編碼網絡與對應的解碼網絡,最后接一個像素級的分類層來獲取分類結果,網絡的輸入為視頻幀與背景圖像,輸出為檢測結果.
編碼網絡中的每個“編碼器”首先進行卷積操作,卷積核大小為7×7,邊緣填充3個像素,保證卷積后特征圖大小與原圖相等,然后批量歸一化[21](Batch Normalization),接著進行像素級的線性整流(Rectified Linear Unit,ReLU),再進行窗口大小為2×2、步長為2的最大值池化操作來得到特征圖,這樣每經過一層編碼特征圖大小會縮放到上一層的四分之一.
為了能得到原輸入圖像大小的特征圖,解碼網絡中的“解碼器”首先使用對應層的“編碼器”中最大值池化的池化掩模(記錄了進行池化操作時選擇了哪個位置的激活值作為池化結果)進行一次“上采樣”,如圖6所示.
這樣的上采樣操作很明顯丟失了特征圖中的一些信息,所以每個上采樣層緊接著一個可訓練的卷積層來還原原來的特征圖.類似編碼器中的設置,將卷積核大小設定為7×7,邊緣填充3個像素.這樣通過結合上采樣與卷積操作實現類似反卷積的效果,每次解碼將特征圖縮放到上一層的2倍大小,最終得到原輸入大小的特征圖用于像素點的分類.

圖6 SegNet中的上采樣
為了對比不同深度的編解碼網絡在運動目標檢測任務上的表現,我們進一步加深了網絡層數,得到第二種編解碼網絡,其編碼網絡包含13個卷積層,結構類似VGG16網絡[22](一個經典的用于目標分類的深度卷積網絡)的前13個卷積層,對應的解碼網絡也有13層(不妨稱之為SubNet-13),各個編解碼器結構與SubNet-4相同,這里不再贅述.
我們所提出的算法主要包含兩個模塊:GMM以及編解碼網絡,下面我們簡單分析下這兩個模塊的計算復雜度.
GMM背景建模算法中為了優化對于模型參數的求解實際采用的是K-means聚類算法,K-means算法的計算復雜度一般為O(n×k×t),其中n為待聚類的點的個數,在GMM中即為歷史幀的個數,k為聚類中心個數,即為GMM中高斯組件的個數,t為直到收斂時的迭代次數.如果數據本身就有一定的聚類結構,那么收斂所需的迭代數目通常是很少的,并且進行少數迭代之后,再進行迭代的話,對于結果的改善效果很小.鑒于上述原因,該模塊對于單個像素點的建模在實踐中可以認為幾乎是線性復雜度的,其整體計算復雜度O(M×N×n)取決于圖像的大小.
一般的DCNN由卷積層以及全連接層構成,而由于卷積層采用了局部連接及權值共享等手段,其計算復雜度較全連接層要低.SubNet中并沒有采用全連接層,以SubNet-4為例,其整體可以看作一個8層的全卷積網絡,其計算復雜度可看作O(8×M×N×m×n),其中M、N、m、n分別代表每層圖像以及卷積核的大小.
綜上可以得知我們算法中較為耗時的模塊是編解碼網絡,然而由于SubNet無全連接層,故與使用了普通DCNN進行運動目標檢測的算法相比,有一定的速度優勢.
我們使用CDnet2014數據集來進行訓練及測試,該數據集中包含了10個類別的場景總共約140 000幀的視頻數據,其中有標注的數據大約50 000幀,圖像中的每個像素點分別以不同灰度值被標注為五類,如圖7所示.
1)灰度值0:靜止的像素點.
2)灰度值50:屬于陰影的像素點.
3)灰度值85:不在感興趣區域內的像素點.
4)灰度值170:運動狀態未知的像素點(通常在運動目標邊緣,源自運動模糊等因素).
5)灰度值255:運動的像素點.

圖7 示例數據
我們的模型有兩個輸入,分別是視頻幀與背景圖像,視頻幀、背景圖像與真實數據共同組成一條訓練數據.其中背景圖像是我們使用高斯混合模型(高斯混合模型的模型個數為5,歷史幀數為100幀,平方Mahalanobis距離閾值固定為16)從視頻中生成的,具體每個實驗所用到的訓練以及測試數據我們在實驗部分有對應的說明.
此外,為了適應于網絡的輸入,我們使用最近鄰插值(Nearest Neighbor Interpolation)視頻幀、背景圖像與標注數據統一縮放到360×480的大小.
為了驗證模型及算法的有效性,我們先使用基準場景中的部分數據訓練我們的SubNet模型并測試,對比了不同深度的網絡模型的表現,并且與原GMM算法以及當前比較先進的算法進行對比,之后我們在一些新的場景中對模型進行了進一步的微調及測試.
衡量一個運動目標檢測算法質量的指標主要包括:
1)真陽性(True Positive,TP):結果中的前景像素點確為前景像素點.
2)偽陽性(False Positive,FP):結果中的前景像素點并非前景像素點.
3)真陰性(True Negative,TN):結果中的背景像素點確為背景像素點.
4)偽陰性(False Negative,FN):結果中的背景像素點并非背景像素點.

圖8 結果示意圖
圖8是實驗結果的示意圖,其中白色矩形框是真實數據,灰色矩形框是算法結果,圖中ABCD四個圓形區域內的點即分別為TP、FN、TN、FN的像素點.
繼而可進一步得出以下統計指標:
1)召回率(Recall,Re):
Recall=TP/(TP+FN)
2)特異度(Specificity,SPC):
SPC=TN/(FP+TN)= 1 -FPR
3)準確度(Accuracy,ACC):
ACC= (TP+TN)/(P+N)
4)F評分(F Measure,FM):
FM= 2 ×ACC×Re/(ACC+Re)
5)偽陽性率(False Positive Rate,FPR),又稱錯誤命中率,假警報率 (False Alarm Rate,FAR):
FPR=FP/N=FP/(FP+TN)
6)偽陰性率(False Negative Rate,FNR):
FNR=FN/(TP+FN)
這里我們特別關注下F評分,從F評分的計算公式不難看出其結果是綜合考慮了多個評估指標,有較高的參考價值,較為魯棒的算法通常有更高的F評分.
此外,考慮到實用性,我們也會考察算法的速度,采用每秒幀數作為參考指標.
CDnet2014數據集提供了所有現有算法的結果以及各個算法與真實數據對比所得的統計指標,同時給出兩種評估方法:一是在線評估,將算法在所有場景上的結果上傳到服務器進行評估;二是離線使用他們給出的工具包進行評估,評估結果可能跟在線方式有細微區別,但整體不會差別太大.考慮到GMM模型的應用場景,我們僅在部分場景上進行了訓練以及測試,所以我們使用離線的方式來評估我們的算法,并使用同樣的方式評估對比算法.
我們在CDnet2014基準(baseline)數據集中highway、office、pedestrians場景中隨機選取了10%的真實數據(約800條)作為訓練數據來分別訓練SubNet-4與SubNet-13.
參考SegNet的訓練過程,兩個模型都采用交叉熵函數[18]作為損失函數,用隨機梯度下降算法(Stochastic Gradient Descent,SGD)在Caffe框架[23]上進行訓練.在訓練SubNet-4時將學習速率固定為0.01,根據實際硬件條件將批量大小(batch size)設置為10;訓練SubNet-13時將學習速率固定為0.001,批量大小設置為4.我們觀察到在大約訓練15個周期(epoch,指在所有訓練數據上都進行一次訓練)后兩個模型都已經基本收斂,為了對比不同深度的模型的表現,我們進一步將兩個模型各自訓練到約30個周期,之后在所得模型上進行測試.兩個模型訓練過程中損失函數值變化過程如圖9所示.

圖9 訓練過程中損失函數值變化曲線
訓練完成后,我們使用SubNet-4與SubNet-13分別在這些場景中進行了測試,將測試結果與原GMM算法以及當前效果比較好的SuBSENSE[8]及DeepBS[10]算法進行對比,結果如表2所示.

表2 不同算法在三個場景上的整體表現對比
進一步分析SubNet-4與SubNet-13在基準數據集中各個場景下的表現,如表3、表4所示(其中“平均”是統計所有場景下TP、FN、TN、FN的結果,而不是簡單計算統計指標的均值).

表3 SubNet-4在基準數據集中各個場景下的表現

表4 SubNet-13在基準數據集中各個場景下的表現
我們發現在highway場景中算法表現良好,但是在office、pedestrian場景中表現較差.為了研究算法表現不佳的原因,我們選取了SubNet-4在office場景下的部分結果進行觀察,如圖10所示.
通過結果可以發現,因為我們的模型是通過背景圖像與視頻幀之間的差異性來找出前景目標,然而由于GMM模型本身的缺點,office場景中的前景目標在場景內長時間停留后,導致GMM將其誤看作背景.鑒于office為一個背景變化不大的場景,我們手動選擇了一張背景圖片作為全局背景(圖10中第600幀時生成的背景圖像),使用SubNet-4模型進行測試,測試結果如表5所示.
測試結果驗證了我們的猜想,模型的表現有了很明顯的提升進步.
另外算法各個模塊的計算耗時以及不同算法之間性能對比結果如表6、表7所示.

圖10 Office場景中第600、1200、1800幀的測試結果:視頻幀(上)、背景圖像(中)與檢測結果(下)

表5 不同背景下SubNet-4在office場景中的表現

表6 各個模塊的計算耗時 (單位:ms)
實驗中我們使用GTX 1080 GPU對算法的各個模塊進行了加速,與同樣使用GPU加速的的DeepBS算法對比,我們在較弱的硬件條件下SubNet-13取得了與DeepBS同等性能,而SubNet-4的性能更好,達到了15FPS,已經近乎實時.

表7 不同算法的性能對比
總結該階段的實驗結果可以得知:
1)我們的算法較原GMM算法有不小的提升.
2)我們的算法的表現已經比較接近于當前的頂尖算法,這一結果還是在沒有進一步優化背景建模算法及檢測結果的情況下實現的(比如DeepBS在獲取檢測結果后又使用時間中值濾波對結果做了進一步的處理),表明我們的算法有很具競爭力,也很有優化潛力.
3)對比SubNet-4于SubNet-13,4層編解碼網絡的表現已經足夠好,進一步增加網絡深度反而導致模型過擬合,降低了泛化能力;另一方面,考慮到算法性能及實用性,我們建議實際應用中不需要采用過深的網絡.
為了進一步驗證模型的泛化能力,我們在CDnet數據集的其他場景上進行了實驗及測試.參考之前不同深度編解碼網絡的對比結果,我們這里僅使用SubNet-4進行了相關的實驗.
首先我們使用在基準數據集上訓練得到的SubNet-4在CDnet2014數據集中badWeather類別下的部分場景上進行了實驗,其結果如表8所示).

表8 SubNet-4在不同場景上的表現
結果發現算法在skating場景中表現良好,但是另一些場景中表現不佳,原因在于惡劣天氣下場景中有飄舞的雪花等干擾,基于背景-視頻幀對比的話不一定能得到很好的結果,我們需要進一步對模型進行微調優化.
深度神經網絡模型有著很強的抗噪以及特征學習能力,因此我們嘗試使用新的場景中的數據對SubNet-4模型進行微調.
具體來說,我們隨機選取了上面幾個場景的部分數據(分別取各個場景的10%的數據,總共約2000條數據)對SubNet-4進行了進一步的訓練微調,同樣訓練了約30個周期待模型收斂后在這些場景中進行了測試.為了研究微調對模型的影響,我們同時測試了微調后的模型在CDnet2014 baseline類別中highway、office、pedestrians場景下的平均表現,測試結果如表9、表10所示.

表9 微調后的SubNet-4在不同場景上的表現

表10 不同算法在badWeather部分場景中的平均表現
通過結果不難看出微調后的模型較原模型在新場景中的表現有了很大的提升,在badWeather場景上的平均表現甚至超過了現有最好的算法.其中一個很有趣的發現是微調后的模型在基準數據集上的表現有所提升(F評分從0.9109提升到0.9284),表明增加數據量有助于提高模型的魯棒性.
我們選取了部分測試結果與原GMM算法進行了對比,結果如圖11所示.
不難看出我們的算法較原GMM算法有很大的提升,并且在有效地解決“空洞”問題的同時大幅度提高了抗噪能力.
通過多個實驗的結果可以得出我們的算法在原GMM算法上有了很大的提升,特別是針對特定場景微調模型后,算法的表現甚至超越了現有的一些頂尖算法,證明了我們所提出的算法的有效性.
實驗結果也同樣說明了這種算法雖然有很強的學習與泛化能力,在使用特定場景的數據進行微調后能提升效果,但還是很依賴于背景建模方法,容易受GMM模型弊端的影響,然而也從另一個角度說明了如果配合更好的背景建模方法,其效果能進一步地提升.

圖11 測試結果對比,從上到下分別是視頻幀、真實數據、GMM算法結果與我們的算法結果
受現實場景動態性的影響,傳統的運動目標檢測算法往往效果不佳.為了提升算法效果,本文提出了一種新的基于編解碼網絡的運動目標檢測算法,將該問題看作像素級的語義分割問題,結合GMM與深度神經網絡,無需進行復雜的參數調優即可實現高效的運動目標檢測.并且算法模型非常簡單,在使用GPU的情況下能夠近乎實時地進行檢測,實用性很強.另外由于前景背景分割模塊是使用深度編解碼網絡實現的,獨立于背景建模方法,如果配合更好的背景建模方法能夠進一步的提升算法效果,還有很大的優化空間.
總結得出論文的主要貢獻在于:
1)將運動目標檢測問題轉化為圖像語義分割問題,使用GMM結合基于反卷積的編解碼網絡有效地解決了GMM算法中的“空洞”等問題.
2)證明了只需使用深度卷積網絡進行前景背景分割,無需較為復雜的背景建模方法以及參數調優就能很好地進行運動目標檢測.
3)本文的算法仍然依賴于GMM,在未對模型輸出做任何形式的優化的情況下仍取得了很好的結果,表明該方法很具潛力,仍有很大的改進空間.
4)我們的模型十分簡單,在使用GPU加速的情況下能夠近乎實時地實現運動目標檢測,很具實用性.
下一步的研究工作一方面可以嘗試使用遞歸神經網絡(Recurrent Neural Network,RNN)等適合處理時序數據的網絡模型來改進背景建模方法,同時可以集成為一個可端到端學習的深度網絡模型,來提升算法效果與效率;另一方面可以探索使用更高效的語義分割模型來提升算法速度.
1 Sajid H,Cheung SCS.Background subtraction for static &moving camera.2015 IEEE International Conference on Image Processing (ICIP).Quebec City,QC,Canada.2015.4530–4534.
2 Stauffer C,Grimson WEL.Adaptive background mixture models for real-time tracking.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,CO,USA.1999.252.
3 Dempster AP,Laird NM,Rubin DB.Maximum likelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society.Series B (Methodological),1977,39(1):1–38.
4 Elgammal A,Harwood D,Davis L.Non-parametric model for background subtraction.European Conference on Computer Vision.Dublin,Ireland.2000.751–767.
5 Barnich O,Van Droogenbroeck M.ViBe:A universal background subtraction algorithm for video sequences.IEEE Transactions on Image Processing,2011,20(6):1709–1724.[doi:10.1109/TIP.2010.2101613]
6 Kim K,Chalidabhongse TH,Harwood D,et al.Real-time foreground-background segmentation using codebook model.Real-Time Imaging,2005,11(3):172–185.[doi:10.1016/j.rti.2004.12.004]
7 Varadarajan S,Miller P,Zhou HY.Region-based mixture of Gaussians modelling for foreground detection in dynamic scenes.Pattern Recognition,2015,48(11):3488–3503.[doi:10.1016/j.patcog.2015.04.016]
8 St-Charles PL,Bilodeau GA,Bergevin R.SuBSENSE:A universal change detection method with local adaptive sensitivity.IEEE Transactions on Image Processing,2015,24(1):359–373.[doi:10.1109/TIP.2014.2378053]
9 Babaee M,Dinh DT,Rigoll G.A deep convolutional neural network for background subtraction.arXiv:1702.01731,2017.
10 Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2012.1097–1105.
11 Bertinetto L,Valmadre J,Henriques JF,et al.Fullyconvolutional siamese networks for object tracking.European Conference on Computer Vision.Amsterdam,The Netherlands.2016.850–865.
12 余家奎.基于視頻的火花和煙霧檢測算法研究[碩士學位論文].合肥:中國科學技術大學,2015.
13 夏梁,何波.基于卡爾曼濾波的背景更新算法.電腦知識與技術,2014,10(6):1242–1243.
14 Zivkovic Z.Improved adaptive Gaussian mixture model for background subtraction. Proceedings of the 17th International Conference on Pattern Recognition.Cambridge,UK.2004.28–31.
15 Reynolds D.Gaussian mixture models.Encyclopedia of Biometrics.US.2015.659–663.
16 Shelhamer E,Long J,Darrell T.Fully convolutional networks for semantic segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640–651.[doi:10.1109/TPAMI.2016.2572683]
17 Badrinarayanan V,Kendall A,Cipolla R.Segnet:A deep convolutional encoder-decoder architecture for image segmentation.arXiv:1511.00561,2015.
18 Noh H,Hong S,Han B.Learning deconvolution network for semantic segmentation.Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile.2015.1520–1528.
19 Chen LC,Papandreou G,Kokkinos I,et al.Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs.arXiv:1606.00915,2016.
20 Brostow GJ,Fauqueur J,Cipolla R.Semantic object classes in video:A high-definition ground truth database.Pattern Recognition Letters,2009,30(2):88–97.[doi:10.1016/j.patrec.2008.04.005]
21 Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift.arXiv:1502.03167,2015.
22 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556,2014.
23 Jia YQ,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding.Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,Florida,USA.2014.675–678.