王勇 謝旭軒 王瑛

摘要:人群計數在智能視頻監控領域是一個研究的熱點。傳統的人群統計技術,在低密度人群場景中有很好的效果,但是在高密度場景中表現欠佳。隨著卷積神經網絡在圖像處理的技術突破,其具有對非線性映射的強大的學習能力,也適用于人群計數模型從圖像到人群數量非線性的關系。文中敘述了傳統的人群計數方法,介紹了基于卷積神經網絡的經典模型,最后介紹了密度圖的生成原理。
關鍵詞:人群計數;視頻監控;卷積神經網絡
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2020)15-0237-02
1引言
隨著我國科技技術突破,推動視頻監控設備迅速普及建設。傳統的視頻監依賴工作人員對數據進行存儲、回放、捕抓。這種人工處理方式是非常耗時,處理的信息滯后,無法對一些緊急安全狀況作出預警和報警。隨著計算機視覺的發展,智能視頻監控應運而生,智能視頻監控夠對動態視頻圖像進行檢測和識別,進而對目標進行分析和理解,在公共安全、交通狀態等監控有廣泛的應用。它拋棄了低效率人工處理方式,實現高效處理視頻數據,讓視頻監控設備更智能化,促進了智慧城市的建設。而人群計數是智能視頻監控領域的一個重要研究熱點。
人群計數在智能視頻監控領域應用主要是在車站、廣場等易發生突發事件區域。2015上海外灘廣場踩踏事件,主要原因人群過度擁擠導致人員摔倒發生疊壓,致使踩踏事件釀成。這直接導致的原因就是對高密度人群流量實時信息掌控能力不足,如果能通過智能視頻監控對現場密集人群進行智能分析及時預警,便能避免類似突發事件的發生。早期研究人員基于檢測、回歸、密度估計等方法實現了人群計數,但這些模型大多都要經過對圖像進行前景分割處理,而前景分割是一件很復雜的事情,及其影響性能,而基于深度學習實現了端到端的模型訓練,具有很好的模型泛化、特征表達能力,使得在人群計數有廣泛的應用,相比傳統的方法在性能、準確度上有顯著提高。
2研究現狀
2.1傳統方法
傳統的人群計數主要分為直接和間接模型,直接模型包括基于檢測器方法;間接模型主要是基于回歸方法和基于密度估計。早期研究人員主要是通過滑動窗口檢測器提取圖像中整體特征來檢測行人達到定量目的。整體的特征包括:Hoar小波、Edgelet特征等,然后通過分類器boost、隨機森林、支持向量機來學習以上特征;但是基于整體特征的模型適合低密度數據集,而對于高密度數據集效果很差。針對高密度集遮擋的場景,通過局部檢測的方法,利用人體某些特定部位,如人頭和肩膀表示人群特征。在遮擋的情況下局部特征相對于整體特征是比較容易提取的,使其結果更加準確。基于回歸的方法,針對的是具有復雜的前景圖像,通過回歸模型建立人群特征和人群數量的映射函數,常用的回歸模型特征有邊緣、像素等,然后通過回歸模型SVM、線性回歸等來擬合人群特征和人群數量的函數關系。密度估計是基于回歸方法等改進,該類模型建立的是人群特征和人群數量的非線性關系,在高密度場景特征提取融合了空間信息,Zou Y通過學習子空間中局部圖像特征和局部密度圖之間的線性關系,通過子空間的線性關系來代替整體空間的非線性關系來降低模型計算復雜度。
2.2基于深度學習模型
近年來隨著GPU的技術的突破,深度學習在圖像處理有很大的改進,特別是基于CNN模型的應用迅速普及,CNN具有很強的非線性學習能力,這點在人群計數中有很大的優勢。基于深度學習算法的人群計數實現了視頻數據端到端的訓練,拋棄了傳統的回歸算法需要進行前景分割。通過多層卷積提取的高層語義特征使得算法性能更加高效。
Y.Zhang等提出的MCNN模型,主要由不同大小的卷積核組成的三列卷積網絡,通過三列卷積網絡分別提取不同尺度人群圖像特征,然后將不同尺度特征經過1x1卷積核融合,達到增強模型穩定性目的。該模型從任意視角和不同密度估計人群數量,它的每列能夠自適應不同尺度特征變化,對不同場景用不同核大小卷積運算提取不同尺度特征。
D.B.Samm等提出的SWITCHCNN,該模型在MCNN回歸網絡模型上增加了一個選擇分類器網絡。它首先對輸入的視頻幀數據進行局部采樣,將圖像分為不同的局部,作為分類器網絡的輸入。然后通過switch開關選擇最佳的回歸網絡,最終得出每個局部相應的密度圖。模型優點就是利用了視頻圖像不同幀之間人群密度變化來提高預測人群估計的準確性。它的回歸網絡具有不同的感受域,針對各自適應特定的規模輸入,使得該模型在大規模和透視變化中具有魯棒性。
Y.Li,x.Zhang等設計的CSRNET模型,該網絡主要包含前后兩個部分,前部分是一個卷積網絡用來提取2D特征,后部分是一個空洞卷積網絡使用擴張卷積內核來提取高密度集場景中多尺度上下文信息代替來池化操作。采用了端到端的訓練方法。該模型摒棄了多列網絡膨脹的網絡結構,這種網絡設計參數較多,計算復雜,性能低。而且后端空洞卷積網絡能夠更容易提取人頭的邊緣信息,從而得到更高的精度,在高密度集場景中具有很好的性能。
3基于密度圖生成原理
基于深度學習的人群計數,它的輸入是一張完整圖片,通過端到端的訓練輸出是密度圖,然后對密度圖回歸積分(對像素點累加)就是最終要得圖片的相應數量。在模型網絡訓練之前先對圖片中人頭位置(xi)進行標注,記為δ(x-xi),那么這張圖片可以通過如下公式(1)數量化
4總結
基于深度學習的人群計數在近幾年受到了研究人員的廣泛關注,相比傳統的人群計數,卷積神經網絡強大的特征提取能力,在人群計數非線性關系中效果很好,對人群特征表征能力強,對人群計數存在的遮擋、光照、圖像透視畸形問題,提供了很好的解決方案。