











摘 要:隨著城市化進程的加快,節日聚會等大型活動越來越多,在這種人群密集的環境中,人民群眾的生命安全受到很大的威脅。鑒于此問題,提出了一種基于卷積神經網絡的人群密度分析防踩踏方法,利用已有的人群計數手段CAN人群計數模型和ShanghaiTech數據集,輔以計算圖片中場景的實際面積,實現了圖片中人群密度的識別,并按照3種不同的密集程度劃分預警狀態,給出相應的防范措施,以達到防踩踏的目的。實驗結果表明,本系統對于防止人群密集程度過大導致的踩踏事故具有較大的可行性和較高的可靠性。
關鍵詞:防踩踏;人群計數;人群密度:卷積神經網絡;照相機;機器視覺
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2024)05-0-05
0 引 言
隨著經濟和科技的發展,現代交通越來越方便,城市化進程越來越迅速,城市間的人口流動不斷增加,演唱會、節日聚會等大型活動也越來越多,在這種人群密集的環境中,人民群眾的生命安全會受到很大的威脅。2022年10月29日韓國首爾龍山區梨泰院發生大規模踩踏事故,造成156人死亡,150余人受傷[1]。主要原因就是對大規模人群聚集活動的安全管理的忽視,并且當地警方對于游客的報警信號,并沒有做出及時的反應,最終導致了悲劇的發生。為保證人民群眾的生命安全,對人流進行防踩踏識別是十分必要的。發生踩踏最主要的原因就是人群過于密集,所以對于不同的人群密集程度,劃分預警狀態,并給出相應的防踩踏措施是十分必要的。因此,通過計算出圖片的人數和圖片中場景的實際面積,得到人群密度;再根據圖片的人群密度,做好及時有效的應對措施,對于防止踩踏,保證人民群眾的生命安全有十分重要的意義。本文利用已有的人群計數手段和人群計數數據集,輔以計算圖片中場景的實際面積,實現了圖片中人群密度的識別,并按照3種不同的密集程度劃分預警狀態,給出相應的防踩踏措施,以達到防踩踏的目的。
1 人群計數發展
人群計數,又叫人群密度估計,是一種通過計算機計算或估計圖像中人數的技術。在傳統的人群計數方法中,研究人員主要采用基于檢測、回歸的傳統方法估計人群數量。
基于整體檢測的方法采用哈爾小波、方向梯度直方圖(Histogram of Oriented Gradient, HOG)、Shapelet訓練器,以及支持向量機(Support Vector Machine, SVM)、提升、隨機森林、集群等算法來完成人群計數任務中的檢測或分類[2]。
基于回歸的方法是通過特征提取和回歸建模展開,特征提取主要針對前景特征、邊緣特征、紋理和梯度特征等,將特征提取出來后,利用不同的回歸算法來計數,例如線性回歸、分段線性回歸、嶺回歸和高斯過程回歸等方法。
上述兩種方法在人群稀疏的場景下有著較好的效果,但是在密集的場景下效果就不盡如人意了。
隨著深度學習在計算機視覺的識別、分割、檢測方法上的發展,人群計數經歷了從傳統的基于檢測和基于回歸向現在的基于密度圖預測的跨越式發展。密度圖預測,就是將輸入的人群圖像映射到其對應的密度圖[3-4],如圖1所示,該密度圖指示圖像中每個像素對應的人數。
卷積神經網絡(Convolutional Neural Networks, CNN)在人群計數方面有極其強大的優勢,例如:(1)自動化計數;(2)對圖像中復雜的場景和多樣的人群分布具有較強的適應性;(3)對實時圖像進行快速計數;(4)利用遷移學習進行模型訓練;(5)可以對不同分辨率的圖像進行計數。
卷積神經網絡優異的特征學習能力和深度學習的網絡結構,已成為研究熱門,并被廣泛應用于人群計數、交通監測、城市管理等領域。
2 設計思路
本系統先對圖片進行人群計數,為了得到更準確的人群計數結果,對識別模型進行選擇時,選擇識別準確率更高的模型來對圖片進行人群計數;然后計算圖片中人數和圖片中場景的實際面積,得到圖片的人群密度;最后通過人群密度來劃分預警狀態,并采取相應的防踩踏措施,從而達到預防人群踩踏事故發生的目的。設計思路如圖2所示。
3 人群計數模型選擇
為了得到更加精確的人群密度,對比了2種目前準確率較高的人群計數模型。
3.1 多列卷積神經網絡(MCNN)
多列卷積神經網絡(Multi-Column CNN, MCNN)是Zhang等人[5]為了解決多尺度問題所提出的一種人群計數模型。其網絡結構如圖3所示,MCNN包含多個CNN網絡,每個網絡都有不同的感受野(即卷積核的大小和步長),這些網絡可以處理不同大小的人群,從而提高了計數的準確性。同時,為了解決密集人群計數時的重疊問題,MCNN還引入了最大池化操作和重疊區域加權的技術。最后將多列子網絡輸出的人員密度圖做線性加權得到該圖像的人群密度圖。
MCNN中采用了多個CNN網絡進行前向傳播,每個CNN網絡使用不同的卷積核大小和步長,從而可以提取不同感受野下的特征。例如,較小的感受野可以用于計算局部特征,較大的感受野可以用于計算全局特征。這些CNN網絡可以使用相同或不同的結構和參數,也可以通過遷移學習預先訓練好的權重進行初始化。同時在MCNN中,不同感受野下的特征圖需要進行融合,以得到一個全局的特征圖,從而提高計數的準確性。MCNN使用了兩種不同的特征融合方法:并聯(Parallel)和級聯(Cascade)。并聯方法將每個CNN網絡提取的特征圖連接起來,形成一個較大的特征圖。這種方法的優點是簡單、計算速度較快,但由于特征圖的尺寸較大,計算量也會相應增加。級聯方法將不同CNN網絡的特征圖依次融合,最終形成一個較小的全局特征圖。這種方法可以減少計算量,但需要進行多次特征融合操作,同時對不同感受野下的特征進行加權融合,以保證對不同尺度人群的計數準確性。最終,MCNN使用回歸模型對全局特征圖進行處理,得到人群數量的預測結果。在MCNN中,回歸模型可以是一個全連接層,也可以是一個更復雜的神經網絡模型,例如LeNet、VGG等。
總體來說,MCNN使用多個CNN網絡和特征融合方法,可以提高人群計數的準確性,并且能夠適應不同尺度的人群計數。同時,MCNN還可以通過遷移學習進行訓練,從而減少對大量標注數據的依賴,提高了模型的泛化能力。
3.2 上下文感知人群計數 (CAN)
上下文感知人群計數(Context-Aware Crowd Counting,CAN)是一種基于卷積神經網絡(CNN)的人群計數方法[6]。CAN的主要思想是通過捕捉圖像中的上下文信息來提高人群計數的準確性,結構如圖4所示。
CAN首先對輸入的圖像進行前向傳播,通過CNN網絡提取出特征圖。為了提高特征圖的表征能力和計算效率,CAN使用了VGG網絡的特征提取器,該特征提取器包括13個卷積層和5個最大池化層。通過這些卷積和池化操作,VGG網絡能夠有效地提取出圖像的低級特征和高級特征。基于提取出的特征圖,CAN構建了一個上下文感知模塊,用于捕捉圖像中的上下文信息。該模塊包括全局上下文模塊和局部上下文模塊。全局上下文模塊使用一個全局池化層,將整個特征圖進行池化操作,得到一個全局的特征向量。該特征向量表示了整個圖像中的上下文信息,包括圖像的大小、形狀等。局部上下文模塊使用一個卷積層和一個最大池化層,對特征圖進行卷積和池化操作,得到一個局部的特征圖。該特征圖表示了圖像中的局部上下文信息,包括人群的分布、密度等。
最終,CAN將全局特征向量和局部特征圖進行連接,得到一個上下文感知的特征向量。通過一個全連接層,將該特征向量映射到人群數量的預測結果。具體地,CAN將全局特征向量和局部特征圖分別經過兩個全連接層進行降維,得到兩個低維特征向量,再將這兩個向量進行連接,形成一個上下文感知的特征向量。通過一個全連接層,將該特征向量映射到人群數量的預測結果。該特征向量中包含了圖像的全局上下文信息和局部上下文信息,可以更準確地反映出人群的數量。
3.3 評價指標
平均絕對誤差(Mean Absolute Error, MAE)表征算法估計的準確性,其定義為:
(1)
均方誤差的平方根(Root Mean Squared Error, RMSE)表征算法估計的穩定性,其定義為:
(2)
式中:N表示測試圖片的個數;zi表示第i張圖片的真實人數;代表第i張圖片的預測人數。
3.4 運行結果及分析
采用MCNN和CAN兩種網絡模型對ShanghaiTech數據集進行識別。
ShanghaiTech數據集[5]包含A和B兩個數據集,一共1 198張圖片樣本,330 165個人頭標記。A數據集為密集人群數據集,包含482張圖片樣本,其中300張用于訓練,182張用于測試。B數據集為稀疏人群數據集,共包含716張圖片樣本,其中400張用于訓練,316張用于測試。
本方法選用ShanghaiTech數據集進行識別驗證,數據結果見表1所列。
在Part_A中從MAE指標上來看,CAN模型比MCNN低48.2;從RMSE指標上來看,CAN 模型比 MCNN 低 79.7。在Part_B中從MAE指標上來看,CAN 模型比 MCNN 低17.8;從RMSE指標上來看,CAN模型比MCNN低30.7。可見基于CAN的模型在ShanghaiTech數據集中識別準確率更高,結果更穩定,能夠滿足本研究的需求。因此,利用該訓練集得到的CAN模型可以用于本研究中人群防踩踏的識別過程中。
4 圖片中場景實際面積計算
當知道一張圖片中一個物體的實際面積時,可以通過比例來計算整個圖片中場景的實際面積。已知某個物體在圖片中的面積是S1,該物體的實際面積是S2,圖片的總面積是S3,該物體在圖片中所占的比例就是S1/S3,物體在圖片中所占的比例和該物體在實際場景中的尺寸比例相等,由此可以得到圖片中場景的實際面積。由于透視效應的影響,圖像會出現“近大遠小”現象,讓計算值與場景中實際面積出現較大的誤差,所以引入一個矯正系數K,用來減小誤差。整個圖片的實際面積可以通過下式計算:
(3)
(4)
式中:P為物體在圖片中所占的比例;S為圖片中場景對應的真實面積;K為矯正系數。
在本研究中,識別的每一張圖片都有一個共同的特征,就是“人”,而人的正臉表面積其實都相差不大,根據已知數據,成年人的頭部正視圖面積約為100~120 cm2。本研究使用的是ShanghaiTech數據集的圖片,該數據集多來源于上海街道,絕大部分都是中國人,而中國人的整體頭部尺寸相較其他國家的人較為適中,所以本研究選取頭部正視圖面積的中間值110 cm2。
計算圖片中場景的實際面積時,已知圖片中人的頭部的實際面積,可以得到人的頭部在圖片中所占的比例,由此就能計算出圖片中場景的實際面積。為此編寫了一個程序,能夠實現用矩形框框選圖片中的區域,然后輸出矩形框框選區域占整個圖片的比例,矩形框框選示意圖如圖5所示。
在用矩形框框選圖片中人的頭部時,要盡量框選正面的頭部,有利于正確代入正面頭部的實際尺寸,讓誤差更小。同時,盡量框選距離照相機鏡頭較近的“人頭”。第一個原因是距離照相機鏡頭較近的“人頭”更加清晰,利于框選。第二個原因是當拍攝一個物體時,它會通過相機鏡頭進入相機內部;在相機內部,光線會經過鏡頭的透鏡系統,被聚焦在相機感光元件上,形成一張圖像;在透鏡系統中,距離相機感光元件較近的物體會形成一個較大的投影,而距離相機感光元件較遠的物體則會形成一個較小的投影,表現出“近大遠小”現象。本研究是從防踩踏的角度出發,選取距離照相機鏡頭較近的“人頭”時,選擇“人頭”的矩形框會在圖片中占據較大的比例,最后計算出的實際圖片面積會偏小,導致最后計算出的人員密度偏大[7],會更加容易逼近防踩踏的人員密度標準,但是從防踩踏安全角度出發,這樣做則能夠有效預防踩踏的發生,更能維護人民群眾的生命安全。
5 人群密度和防踩踏識別
5.1 人群密度
人群密度是進行防踩踏狀態劃分的重要指標,通過式(5)計算:
(5)
式中:ρ是人群密度,單位是人/m2;N是圖片中的人群個數;S是圖片中場景的實際面積。
如圖6所示,先用CAN網絡得到圖片的人數,再用矩形框框選圖片中距離照相機較近的正面“人頭”,得到框選區域占整個圖片的比例,用于后面人群密度的計算。
圖6中,CAN預測圖片中的人數為137.677 73,矩形框框選圖片中的“人頭”占全部圖片面積的0.24%。將占比代入式(3),此時矯正系數K取25,計算得到圖片中場景的實際面積是114.58 m2,將人數和圖片中場景的實際面積代入到式(5),最后得到人群密度約為1.2人/m2。
5.2 防踩踏識別
人群密度過大是導致踩踏事故的一個重要因素[8]。人群密度超過某一閾值時,人們的行動就會變得非常局限,而這種局限可能導致踩踏事故的發生[9-11]。所以要對不同的人群密度進行合理的劃分,然后采取相應的預防踩踏的措施。
本系統給人群密度標定2個閾值:3人/m2、5人/m2。在0~3人/m2范圍內為綠色狀態,表示無需采取措施;3~5人/m2范圍內為黃色狀態,表示進入警戒狀態,區域內要禁止人流進入;大于5人/m2時為紅色狀態,表示人群密度已經超過了限制,非常容易發生踩踏事故,要在限制人流進入的情況下,同時疏散現有人群。
識別結果如圖7~圖9所示。圖7~圖9展示了圖片分別為綠色狀態、黃色狀態、紅色狀態的識別結果,表明了本系統對不同人群密度的識別效果,并能夠給出相應的預警狀態,結合對應的防踩踏措施,對于預防因人群密集程度過大導致的踩踏事故,可行性好、可靠性高。
6 結 語
本文設計了基于卷積神經網絡的人群密度分析防踩踏系統。在實驗中先進行模型的選擇,選擇CAN模型對圖片進行人群計數;然后計算圖片中場景的實際面積,通過圖片人數和圖片中場景的實際面積得到圖片的人群密度;最后根據人群密度來劃分預警狀態,采取相應的措施,從而達到預防人群踩踏的目的。實驗表明,基于卷積神經網絡的人群密度分析防踩踏系統能夠防止因人群密集程度過大導致的踩踏事故,可行性好、可靠性高。
注:本文通訊作者為姚平。
參考文獻
[1]張海生,付嘉駿,陳函,等.梨泰院事故,韓公布兩大原因[N].環球時報,2022-11-02(004).
[2]盧振坤,劉勝,鐘樂,等.人群計數研究綜述[J].計算機工程與應用,2022,58(11):33-46.
[3] SINDAGI V A,PATEL V M. A survey of recent advances in CNN-based single image crowd counting and density estimation [J]. Pattern recognition letters,2018,107:3-16.
[4]潘婷.高校教學樓人流量預測的方法及模型研究[D].天津:天津大學,2021.
[5] ZHANG Y Y,ZHOU D S,CHEN S Q,et al. Singleimage crowd counting via multi-column convolutional neural network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2016:589-597.
[6] LIU W,SALZMANN M,FUA P. Context-aware crowd counting [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA: IEEE,2019:5094-5103.
[7] YANG Y H,WANG B,DING Y,et al. Facial anthropometric proportion of Chinese han nationality [J]. Journal of craniofacial surgery,2019,30(5):1601-1604.
[8] HELBING D. Understanding crowd dynamics [J]. Advances in complex systems,2007,10(4):443-466.
[9]陳璐.基于卷積神經網絡的視頻密集群體行為識別[D].南京:南京郵電大學,2020:10-11.
[10]郭濠奇,楊杰,康莊.基于改進CSRNet的人群計數算法[J].傳感器與微系統,2022,41(6):150-152.
[11]楊博涵.一種基于卷積神經網絡的人群密度識別算法[J].電腦知識與技術,2022,18(2):82-83.
作者簡介:夏 軍(2001—),男,碩士研究生,主要研究方向為圖像識別。
王鑫一(2001—),男,本科生,主要研究方向為光電檢測。
鄢 嫣(1980—),女,博士,副教授,主要研究方向為量子光學。
姚 平(1978—),男,碩士,高級實驗師,主要研究方向為光電檢測。
收稿日期:2023-05-06 修回日期:2023-06-05
基金項目:國家自然科學基金項目(11704045)