侯慧欣,呂學強,游新冬,黃 躍
(1.北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101;2.首都醫科大學 宣武醫院,北京 100053)
人數統計是智能監控領域一個重要的研究分支,在電影院場景下,這一技術的應用可以幫助實時統計電影票房,有效防止“偷票房”、“幽靈場”等現象的發生。目前主流的人數統計方法主要分為基于檢測的方法和基于回歸的方法兩大類[1]。基于檢測的方法[2-4]通過檢測人體整體或局部的特征直接檢測到人體,進而統計人數?;诨貧w的方法[5,6]首先提取人群的整體特征,然后根據提取的特征建立其與人數之間的映射關系,利用回歸算法獲得圖像中的人數。無論哪一種方法,其中一步很重要的工作就是前景提取。前景提取的好壞直接關系到后續人體檢測、特征提取、回歸等的效果?,F有的前景提取方法大多數僅僅針對固定場景下的運動人群,無法克服人群分割中的所有問題,且可移植性差,只能處理某一固定場景的圖像。針對這一問題,張君軍提出將全卷積網絡[7]應用于人群分割的設想,目前已有學者對此進行了研究,但針對影廳場景的研究還未深入。
針對影廳這一復雜背景,由于可利用的數據集很小,因此選用語義分割中適用于小數據集訓練的U-net[8]網絡作為基礎網絡架構,再針對其速度慢、邊緣分割效果差等問題,采用Inception[9]網絡中的卷積策略以及擴張卷積[10]進行改進,最后利用改進透視效應校正方法結合線性回歸,實現觀影人數統計。
近年來,隨著越來越多的深度學習方法被應用到計算機視覺任務中,一些學者開始嘗試將卷積神經網絡應用到前景提取和人群計數中。
Braham等[11]最先將卷積神經網絡應用于前景提取,實驗結果表明,使用神經網絡能有效提高傳統前景提取方法的精度且大大降低了背景減除過程的復雜性。此后,Wang等[12]提出一種多尺度級聯卷積神經網絡結構用于前景分割,使用不同比例對輸入幀進行下采樣。該網絡結構相比其它網絡結構取得了更高的精度,但其速度慢、計算冗余、精度低。針對以上問題,曾冬冬[13]首先嘗試將全卷積網絡應用到前景提取上,提出一種多尺度全卷積網絡,該方法在精度上取得了較優的效果且能滿足實時性要求。
深度學習方法在人群計數方面的研究也越來越深入。劉思琦等[14]利用擴張卷積網絡進行人群特征提取,再通過對抗式損失函數將網絡中提取的不同尺度的特征信息融合,得到密度估計結果。Boominathan等[15]使用深層和淺層結合的全卷積網絡來預測給定人群圖像的密度圖,在UCF_CC_50數據集上進行測試,取得了較好的結果。J. Wang等[16]提出一種新的全卷積網絡,通過對人群密度分布進行回歸,實現對圖像的人群計數。J. Fu等[17]設計了一種引入長短時記憶結構的CNN-RNN人群計數神經網絡,能有效地預測高密度群體的人群密度。陳朋等[18]提出一種基于多層次特征融合網絡的人群密度估計方法,利用多層次特征融合網絡進行人群特征的提取、融合、生成人群密度圖,最后對人群密度圖進行積分計算求出對應人群的數量。
這些方法均為人數統計技術的發展做出了重要的貢獻。但在本應用場景下,首先影院背景復雜度較高,易受光線、溫度等因素的影響,傳統前景提取方難以適用。其次,由于影廳面積較大,拍攝時透視效應嚴重,后排人體成像與前排差距較大。且實際可利用的圖像數據量小。
因此,針對以上問題,本文主要貢獻如下:
(1)提出了一種IDU-net的前景提取方法,有效解決了因影廳背景復雜導致的前景提取效果不好問題,提高了前景提取的準確性,為后續人數統計工作奠定了良好的技術基礎。
(2)提出了一種改進透視效應校正方法,結合線性回歸方法實現影廳人群計數。
(3)整理了3個影廳共300張圖片數據,并在此數據集上進行大量實驗,結果表明,提出的方法在前景提取及人數統計上均取得了最高的準確率。
本文提出的紅外影廳圖像人數統計算法流程主要包含以下步驟:
(1)圖像預處理,主要包括對原始紅外影廳圖像進行預處理和制作標簽圖像;
(2)前景提取,利用IDU-net網絡進行端到端訓練,提取前景圖像。常用前景提取方法包括ViBe算法、高斯混合模型等;
(3)透視效應校正,首先根據隨機采樣的數據進行擬合,明確縱坐標對成像大小的影響,再根據擬合結果進行校正,計算前景面積;
(4)建立前景面積與人數的回歸關系,計算人數統計結果。
算法流程框架如圖1所示。

圖1 算法流程框架

圖2 IDU-net網絡架構
為實現觀影人數統計,首先需要將人群與背景分割開,因此第一步重點工作是前景提取。本文采用U-net網絡作為基本架構,如圖2所示,U-net網絡為一個U形結構,左側為encoder部分,是重復卷積-卷積-最大池化的過程,用于獲取圖像的高層抽象信息;右側為decoder部分,通過上采樣操作還原分辨率信息,同時與上層提取的feature map進行concatenate操作。
但原U-net網絡存在兩個問題:①架構較大,訓練時需耗費大量計算資源與時間;②原網絡把輸入圖像下采樣到非常小的特征圖會使場景的空間結構不那么清晰,失去部分位置信息,不僅限制了分類的準確率,還影響前景提取的邊緣分割效果。針對以上兩個問題,本文對原網絡進行改進。首先為了提高訓練速度,本文采用Inception網絡中的策略:將n×n的卷積核尺寸分解為1×n和n×1兩個卷積。在進行卷積操作時,原網絡采用3×3的卷積核,為了減少參數,提高訓練速度,參考Inception網絡中的卷積方式,采用1×3與3×1的卷積方式替代原有卷積,這種方法在成本上比單個3×3的卷積核降低33%。這種方法有效地減少了訓練過程中的參數量,且減少了訓練時長。其次,為了盡可能保留原圖像的位置信息,提高分類準確率,本文將擴張卷積方法應用到U-net網絡中。擴張卷積的好處就是既能保持原有網絡的感受野,同時又不會損失圖像空間的分辨率。這種方法使得網絡在對圖像進行下采樣時能保留前景的邊緣信息及位置信息,同時提高了將模型遷移到其它場景的性能。
U-net網絡各層均采用ReLU非線性函數作為激活函數。由于本問題本質是一個二分類問題,因此采用對數損失函數定義模型誤差,損失函數公式如式(1)所示
(1)
式中:n為像素總數,yi為第i個像素點真實類別(1或0),si為第i個樣本點經過模型預測結果。
由于透視效應的作用,高度相同物體的成像大小與其和攝像機鏡頭的距離成反比。因此,只有透視校正后的前景區域面積才能更為準確地反映場景中的實際人數[19]。由于影廳圖像四周存在許多背景區域,而在進行前景提取時這部分區域容易被誤判為前景,如果直接對這部分區域進行透視效應校正,會影響后續人數統計效果。針對此問題,對透視效應校正方法進行改進,標記圖像中的背景與前景區域,對兩部分區域分別進行處理,使其更適用于影廳場景。
首先,為了明確縱坐標對成像尺寸是如何影響的以及其影響程度,隨機選取50個點記錄其縱坐標以及該點所在的座椅尺寸,畫出其散點圖,如圖3所示,然后根據散點圖顯示的規律分別進行擬合,得到擬合系數α,β。

圖3 座椅成像高度隨縱坐標變化散點
改進后對位于坐標 (x,y) 的點,其高度計算公式如下
(2)
式中:h為校正后高度,H為圖像高度。
傳統的前景面積S計算公式如下

(3)
校正透視效應后,原有的前景面積計算公式需相應的進行修改。修改后前景面積計算公式如下
(4)

根據提取的前景面積,建立歸一化前景與人數之間的回歸模型。由于在影廳場景下,人群之間遮擋問題較小,前景面積與人群基本呈線性關系,因此使用線性回歸模型。
為了驗證本文人群統計方法的精度以及對不同場景的適應性,將基于U-net的前景提取方法與背景差分法、混合高斯模型、ViBe算法進行對比,分別比較4種方法的前景提取效果以及人數統計精度。
本文使用的數據集為中國電影科學技術研究所提供的300張紅外觀影圖像,包括3個座位分布不同的影廳圖像各100張。
針對前景提取的效果評價,本文使用如下5個量化指標:分類準確率PCC(percentage correct classification)、召回率R(recall)、準確率PR(precision)、假負率FNR(false negative rate)、假正率FPR(false positive rate)。分類準確率表示正確檢測到的前景的像素數和背景像素數占所有像素的比例,作為算法的整體性能指標。召回率表示提取的前景像素點與所有前景像素點的比例。準確率表示提取的前景像素點中真實前景像素點的比例。假正率分別表示檢測到的錯誤前景比例,假負率表示誤判為背景的前景像素占背景像素數的比例。分類準確率、召回率及前景準確率越高,表明算法提取效果越好。假正率、假負率越低,算法性能越佳
(5)
(6)
(7)
(8)
(9)
其中,TP為正確檢測到的前景像素點個數,FP為背景中被誤判為前景的像素點個數,TN為正確的背景像素點個數,FN為前景中被誤判為背景的像素點個數。
對于3種方法的人數統計精度,使用平均準確率MAR(mean accuracy rate)、平均相對誤差MRE(mean relative error)、平均絕對誤差MAE(mean absolute error)等評價指標來評價估測誤差。MAE、MRE、MAR定義如下
(10)
(11)
(12)
其中,N為圖片總張數,G(i) 是第i張圖像經過算法預測的結果人數,T(i) 是第i張圖像經手工標出的人數,作為參考值。
本文將所提方法與混合高斯模型、ViBe算法、原 U-net 模型進行對比,分別比較其前景提取效果、人數統計結果。
3.2.1 定量分析
(1)前景提取效果對比
本文將所提方法與傳統前景提取方法:混合高斯模型、ViBe算法、原U-net模型進行比較,分別從召回率(R)、準確率(PR)、假負率(FPR)、假正率(FNR)以及分類準確率(PCC)5個指標進行對比。結果見表1。
從召回率上看,ViBe算法、原U-net模型、IDU-net模型均表現良好,這表明這3個方法均能將前景區域提取出來。但結合準確率來看,ViBe算法雖然能正確提取前景區域,但同樣會將大量背景區域誤判為前景區域,因此該方法無法正確的將前景與背景區域分割開。而混合高斯模型雖然準確率較高,但召回率卻很低,這表示混合高斯模型能較好的將前景與背景區分開,但是該方法提取的前景不完整,因此該方法表現也較差。相比之下原U-net模型、IDU-net模型的召回率、準確率均較高,表明這兩種方法表現優于混合高斯模型與ViBe算法。其中,IDU-net模型在這兩個指標上均高于原U-net模型,這表明改進后的模型前景提取效果更佳。
從假負率與假正率這兩個指標來看,混合高斯模型假負率最低但假正率最高,這也表明其將大量背景像素點誤判為前景像素點。而ViBe算法正相反,假負率最高而假正率最低,這表明該方法易將許多前景像素點誤判為背景像素點。原U-net模型、IDU-net模型方法的假正率、假負率雖然均不是最低,但是其兩個指標均保持在較低的范圍。這表明這兩種方法雖然都會出現將前景誤判為背景或者將背景誤判為前景的情況,但都處于誤差可接受范圍內。其中原U-net模型比IDU-net模型的假負率高,假正率低。這表明原U-net模型更易將背景區域誤識別為前景,因此提取的前景區域會多于正確的前景區域。相比而言,IDU-net模型假正率與假負率幾乎保持平衡,雖然不是最低,但是針對前景區域面積提取這一情況效果最佳。

表1 前景提取效果對比
從分類準確率這一綜合指標來看,IDU-net模型分類準確率達97.65%,高于其它3種方法。這直接表明,IDU-net模型在影廳這一場景下前景提取效果最佳。
(2)人群計數效果對比
本文從平均準確率、平均相對誤差、平均絕對誤差3個指標來分析4種方法的人群計數效果。分別將改進前后的透視效應校正方法應用在4種前景提取算法上的結果進行對比。結果見表2。

表2 人數統計結果對比
從結果可以看出,IDU-net前景提取算法能有效提高人數統計準確率。相比原U-net模型、混合高斯模型、ViBe算法,IDU-net模型的準確率較高且誤差較小。同樣,從實驗結果來看,改進透視效應校正方法相比原透視效應校正方法,在4種前景提取方法上的人數統計準確率均獲得了有效提高,誤差也有所下降。但由于原U-net模型與IDU-net模型能有效切割出前景區域,因此改進透視效應校正方法在這兩個前景提取方法上改進效果較小。在前景提取效果不佳的混合高斯模型與ViBe算法上效果提升較大。綜合來看,IDU-net前景提取方法與改進透視效應校正方法相結合能獲得最佳人數統計結果,其準確率達到89.79%。
3.2.2 定性分析
本文將所提IDU-net前景提取方法與高斯混合模型、ViBe算法、原U-net模型進行對比。在此主要選取:①密集人群+清晰背景;②密集人群+模糊背景;③稀疏人群+清晰背景;④稀疏人群+模糊背景,共4組圖片進行定性分析。結果見表3。
通過對比發現:
(1)IDU-net的3個模型均對影廳這一場景具有極高的魯棒性,無論是人群密集或稀疏,無論圖片清晰或模糊,均幾乎完美分割開了人群與背景,避免了復雜背景的干擾。
(2)GMM算法在密集人群場景下分割效果較好,但在稀疏人群場景下,前景提取效果較差,無法完全提取出前景區域。GMM算法對背景的光線變化魯棒性良好。但總體而言,GMM算法無法完全避免復雜背景的干擾,提取的前景區域中包含許多背景信息。
(3)ViBe算法在這4種方法中表現最差,雖然該方法幾乎能提取出所有前景區域,但受到復雜背景的干擾,將背景誤判為前景的情況十分嚴重,提取的前景面積中包含大量背景信息。在稀疏人群場景下表現尤其差。
(4)原U-net模型相比傳統方法表現較好,對這4種場景均適應良好,且能避免復雜背景的干擾,提取出正確的前景區域。但相比IDU-net模型,其缺點在于提取的前景區域邊緣模糊,沒有明顯的人形輪廓。通過圖4的細節對比圖可發現:當人群較為集中時,原U-net模型提取的前景區域中邊界較為模糊,人與人之間易發生粘連,存在大片模糊區域。相比之下,IDU-net模型前景提取結果具有較為清晰的邊界,相較而言具有更為清楚的人形輪廓。
在3個影廳測試圖片下,本文所提方法的效果都明顯優于GMM算法、ViBe算法。而且本文所提方法無論是在人群稀疏還是密集場景,均能夠得到較好的前景提取效果,增強了算法對不同場景、不同光線的魯棒性,擴大了算法的應用范圍。

表3 前景提取效果對比

圖4 前景提取結果細節對比
針對傳統前景提取方法在影廳這一場景下無法避免復雜背景干擾問題,提出IDU-net模型進行影廳圖像前景提取,然后對提取的前景區域進行改進透視效應校正,統計校正后的前景面積后進行線性回歸,得到最終人數統計結果。通過與混合高斯模型、ViBe算法、原U-net模型等前景提取方法進行對比,驗證了本文方法在影廳這一場景下前景提取的有效性。但是本文方法還存在一些問題,目前在影廳場景下人群統計技術仍舊依賴于不同影廳的座位分布情況,無法直接移植到其它影廳,后期可以在人群統計方法的通用性、可移植性上進行更多研究,可以利用前景圖像的其它特征對前景面積進行自動校正。