文/錢超 李頂根
當前,密集場所的公共安全問題越來越突出。為了保障公共安全,對公共場所尤其是人口密集區域的人數統計顯得尤為重要。同時隨著圖像采集與圖像處理技術的發展,基于視頻圖像的人數統計方法得以廣泛的應用。目前基于視頻的人數統計主要有基于檢測的人數統計,但是由于人群密集區域,身體頭部之間的遮擋非常嚴重,采用典型的頭肩模型和人體模型直接對人流中單個個體進行檢測統計導致人數統計精度較低。另外,基于特征的人數統計,但假設前景區域和人流總數近似于線性關系,在密集區域由于遮擋和透視問題也使得其精度較低。
隨著深度學習在圖像處理和圖像識別上的發展應用,使得深度學習算法逐漸引入到人流密度統計上,基于此發展出一些基于深度學習的人流密度統計方法。其中卷積神經網絡中其神經元間的非全連接和權值共享的特性,使其網絡模型的復雜度明顯減低,同時減少了權值的數量,在人數統計處理中優勢明顯。Zhang[4]等人提出用多任務卷積神經網絡估計人群密度概率圖以提高精度。Zhang[5]等人提出了用多列卷積神經網絡提取不同尺寸的行人特征,增加人群密度估計準確率。但是該結構存在著模型結構復雜,訓練難度大,訓練時間長,難以實際應用的問題。因此基于此本文提出了基于擴張卷積神經網絡的人數統計算法。通過卷積神經網絡提取特征,并通過擴張卷積神經網絡在保證數據量的基礎上,提高模型深度,估計人群人流密度進行人數統計。

表1:模型誤差表

圖1:基于擴張神經網絡的人數統計算法整體結構圖
針對人群密集區域的場景特點,本文采用基于神經網絡的人數統計方法。該網絡前端采用卷積神經網絡,后端采用擴張卷積神經網絡,以增大感受野,獲取更多特征。
在前端網絡中選取常用的VGG16神經網絡,在傳統的VGG16神經網絡中去除了用于分類的全連接層,只采用了VGG16中的卷積層和池化層。卷積核的大小為3X3,這使得輸出的數據僅僅為輸入數據的1/16,一方面減小了數據處理量,另一方面保證了算法的精度。
在后端網絡中采用了擴張卷積,其作用在輸出分辨率不變的情況下進一步挖掘數據特征。其中擴張卷積系數取2。該算法的整體結構圖如圖1所示。
為了生成用于訓練該人數統計模型的真實人群密度概率圖,這里采用高斯核密度算法。在訓練圖像中每個人的頭部中心位置坐標,然后通過高斯核模糊行人標點生成人群密度概率圖。

其中,x是人群密度概率圖H的像素位置,a是行人標記集中一個標記點,δ是高斯核N的方差。
圖像中的總人數為人群密度概率圖中所有點像素和。即

為了評估模型計算值與真實目標值之間的偏差,這里采用歐式距離方程來計算。模型的損失函數由兩個部分所組成。其中包括人群密度概率圖損失函數和人群人數損失函數。

其中N為訓練數據中的圖像數。Xi為輸入圖像,Fh為估計的人群密度概率圖,Fc為估計的人群數量。
為了對卷積神經網絡模型人數統計的精度進行定量評估,引入了評價指標平均絕對誤差(MAE)和均方誤差(MSE)。

N為測試圖像總數,Estn和GTn分別為第i張圖像所對應的真實值和估計值。平均絕對誤差反映了模型結果的準確性,而均方誤差反映了模型結果的魯棒性。
為了對模型的精度進行驗證,這里采用ShanghaitechB數據集。該數據集中共700張圖像,其中400張圖像作為訓練數據,余下300張圖像作為測試集。將本文的基于卷積神經網絡的人流統計算法與其他幾種算法的估算誤差相比較,結果如表1所示,該模型具有較高的精度,可實際應用。

圖2:密集區域人群人數統計系統效果圖
基于該擴張卷積網絡的人群人數統計算法,設計了一款用于實時監測密集區域人數的統計系統。并在武漢市某大型廣場進行實時監測和顯示,系統輸出的圖像如圖2所示。從圖中可以看出,該系統能夠較好的反映出人群密度,并統計出人群人數。對公共密集區域的人群起到很好的安全監控作用。
本文提出了一種基于擴張卷積網絡的人群人數統計算法。該算法由卷積神經網絡和擴張卷積神經網絡兩個部分構成。該算法適用于密集區域人群擁擠場景,能夠在擴大感受野的同時保證數據的計算強度。且通過在典型數據集上的分析,驗證了其有效性,同時具有較好的精度和魯棒性。