蔡烜 蔣龍泉 馮瑞



摘 要: 針對廣場等區域人流量大、安保要求高的特點,設計并實現了一套基于音視頻識別的區域安防管控平臺。該平臺從區域安防的需求出發,設計了嫌疑人員報警、人群擁擠報警和異常聲音報警三大功能,以人臉識別、人群密度估計、異常聲音識別三個音視頻識別算法作為支撐,實現對區域內與人相關的異常事件的預警。首先介紹了基于深度神經網絡的人臉識別算法,然后介紹了一種引入注意力機制的卷積神經網絡模型來實現的人群密度估計算法,和一種基于多卷積神經網絡模型融合的異常聲音識別算法;最后介紹了平臺需求與設計過程,主要包括平臺建設的需求分析和界面設計。
關鍵詞: 視頻分析;音頻分類;深度學習;人臉識別;人群密度估計;異常聲音識別;區域安防管控;
中圖分類號: TP311
文獻標志碼: A
文章編號:1007-757X(2019)06-0017-04
Abstract: We design and complete a regional security control platform based on audio and video recognition in order to protect people in the area from dangerous situation. The platform is designed three functions: suspect alarm, crowd crowding alarm and abnormal voice alarm. It uses face recognition, crowd density estimation and abnormal voice recognition as the support to realize the early warning of abnormal events in the region. Firstly, it introduces the face recognition algorithm based on deep neural network, then a convolutional neural network model with attention mechanism is introduced to realize the population density estimation algorithm. Finally, it introduces an abnormal voice recognition algorithm based on multi-convolutional neural network model fusion. At last it introduces the platform requirements and design process, including the platform construction requirement analysis and interface design.
Key words: Video analysis; Audio classification; Deep learning; Crowd density estimation; Abnormal voice recognition; Regional security management
0?引言
近年來,我國經濟保持高速發展,城鎮化率不斷提高,城鎮人口增多,廣場、景區、高鐵站等人流量大的區域成為城市安全的重點管控區域,這些區域人員流動性大,人員身份難確認,存在各種安全隱患和威脅,現有傳統視頻監控手段還比較落后,監控中心無法實現實時視頻全覆蓋,單純依靠人力無法及時發現區域內的風險和隱患,只能通過視頻回放進行事后追查已經不符合新時期安防工作的需要。
與此同時,科技領域中音視頻識別技術不斷提升,如人臉識別技術、音頻識別技術等,這些技術已逐步在各行各業中開始應用,在推動科技進步和經濟發展同時,為安防管控新增了強有力的技術手段,區域安防管控平臺也可以利用這些新技術手段提升管理水平。隨著大數據、人工智能等技術的推廣應用,安防管控平臺的構建采用智能音視頻分析手段已經成為一個必然趨勢。
1?平臺框架
平臺架構一共分為三層,由下至上分別為算法層、應用層和平臺層,如圖1所示。
分層架構的優勢是使各層之間相互獨立,通過統一的接口進行通信,每層內部各個部分按功能模塊相互獨立,使其具有良好的可擴展性。
算法層由人臉識別算法、人群密度估計算法和異常聲音識別算法構成;人臉識別算法和人群密度估計算法的輸入為視頻或圖像,異常聲音識別算法的輸入為音頻;人臉識別算法的輸出為視頻圖像中的人臉與人臉庫中的人臉的相似程度,人群密度估計算法的輸出是單位面積下人的數量,異常聲音識別的輸出是音頻段落中是否包括某個種類的音頻;各算法相互獨立,可擴展性強。
應用層通過與算法層的數據通信,獲得算法的計算結果,并結合實際應用的業務邏輯,生成相應的結果和數據;其中嫌疑人員報警模塊生成是否發現嫌疑人和發現哪位嫌疑人的信息,人群擁擠報警模塊生成某區域人群密度數據以及是否超過警戒值的信息,異常聲音報警模塊則是生成音頻中是否包含爆炸、尖叫等異常聲音的信息;應用層將這些報警信息上報給平臺層。
平臺層主要完成人機交互、數據可視化和調度指揮的功能,將應用層上報的報警信息進行直觀展示,并結合聲光電的方式進行更明顯的提示。平臺及時響應,調用人力采用應急措施,將風險和威脅扼殺在萌芽階段。
2?人臉識別
人臉識別屬于生物特征識別的一種,主要用于人身份的識別;相比于指紋識別和虹膜識別,它具有易獲得性,可以在被識別人無感的情況下進行識別,對于區域安防管控工作的開展具有明顯的優勢;計算機通過人臉識別算法對人臉圖像進行特征提取,然后將兩張或多張人臉的特征進行比對,判斷該人臉是否與人臉庫中的某個人臉相似,最終確認人員的身份。
2.1?算法步驟
算法流程圖如下如圖2所示。
首先需要采集大量人臉的樣本圖像用于訓練人臉特征,采集時要求按每個人進行分類歸納,每個人需要采集不同時期、不同角度、不同光照環境等情況下的多張照片,保證樣本的數量和多樣性,是訓練一個優秀的分類識別模型的基本保障;然后對人臉進行特征提取:包括全局、人眼、鼻、嘴等多個特征點,然后得到訓練樣本的特征集合;最后使用樣本圖像的特征集合訓練人臉識別的分類器。
識別比對時,算法將提取待識別的人臉圖像的特征,獲取到人臉圖像的特征向量后,使用離線學習訓練好的分類器進行特征比對,并將比對結果進行輸出,從而得到人臉識別的結果。
2.2?算法結果
基于深度學習的人臉識別算法在效果上有兩方面提升,一方面,算法不再采用傳統已知人臉特征,由深度神經網絡訓練抽象特征,深度學習得到的特征表達具有人工設計特征表達不具備的重要特性;另一方面,深度學習網絡中卷積層中濾波器的分辨率更小,使網絡能夠具備更精細的細節特征刻畫能力。基于以上兩點,使用基于深度學習的人臉識別算法在室外自然光線條件下具有更好的效果,更好的應用于區域安防管控平臺。
3?人群密度估計
人群密度估計的主要任務是:人群場景的視頻中的圖像幀或拍攝的圖片,計算單位面積內人群的密度,再將單位面積人群密度累加,得到整體場景的人群密度,連續的視頻幀的人群密度即反映場景中的人群密度變化。
本文采用一種引入注意力機制的卷積神經網絡模型,用以實現結構簡單、訓練消耗少的人群密度方法。
3.1?算法流程
算法流程如圖3所示。
a.將圖像進行預處理獲得預處理圖像;預處理的操作包括圖像分割及將分割的圖像進行正則化;
b.構建基于注意力機制的卷積神經網絡模型;
c.將多張已標注人群密度的圖像組成訓練集,將數據集輸入步驟b中搭建的基于注意力機制的卷積神經網絡模型,進行模型訓練;
d.將待計算人群密度的圖像輸入步驟c中訓練的基于注意力機制的卷積神經網絡模型,計算得到該圖像中的人群密度結果并進行輸出。
3.2?算法結果
本文采用的通過引入注意力機制的卷積神經網絡模型實現的人群密度估計算法,該模型的注意力機制可以使模型更好的定位到人群和識別人群的密度,因此,此模型能夠學習到更多的特征,更好地進行特征表達,也更加適合高密度人群的人群密度估計任務,在高密度人群中的平均誤差率只有10%左右;此外,該模型結構簡單,不需要使用模型混合、多任務訓練以及度量學習等方法,也提高了模型訓練的效率。
4?異常聲音識別
異常聲音識別本質上是音頻分類;隨著近幾年深度學習的發展和硬件性能的高速提升,音頻分類作為計算機聽覺領域一項基礎的任務,其精度也得到了大幅提升。
視頻圖像一般受圖像質量、光線等因素的影響,而聲音是全向傳播的,受影響的因素較小,所以異常聲音識別能為安防工作提供聽覺維度的異常預警。本文采用一種基于多卷積神經網絡模型融合的異常聲音識別方法,實現針對槍聲、爆炸聲、尖叫聲三類異常聲音的檢測和分類。
4.1?算法流程
算法流程如如圖4所示。
a.讀入音頻文件并進行分段處理,本文分為每2秒一段;
b.搭建多個深度卷積神經網絡,包括但不限于如:ResNet-101、VGG16,Resnext;
c.將步驟a中完成分段的音頻進行預處理,然后通過步驟b中的多個深度卷積神經網絡分別提取音頻特征;
d.把提取的訓練集的音頻段落的特征輸入到步驟b中的多個卷積神經網絡模型進行模型訓練;
e.根據驗證集使用不同網絡模型進行識別的準確率,設定該模型的權值;
f.將需要識別的音頻同樣進行預處理然后輸入步驟d中訓練完成的卷積神經網絡模型,綜合步驟e各模型的權值計算,得到多模型聯合預測的類別結果。
4.2?算法結果
在國際通用音頻數據集UrbanSound、FreeSound中整理了包括槍聲、爆炸聲、尖叫聲、啼哭聲和玻璃破碎聲共5類音頻數據,采用上述的基于多卷積神經網絡模型融合的異常聲音識別方法進行識別。
從表1的算法效果可以看出,相較于傳統的計算機聽覺方法,本文采用的基于多卷積神經網絡模型融合的異常聲音識別方法大幅提升了音頻分類的準確率,使區域安防管控平臺的異常聲音報警模塊有了良好的準確率保證。
5?平臺設計
從第1章中的平臺架構圖中可以看出,平臺需要完成的主要任務是:人機交互、數據可視化和調度指揮。音視頻識別算法將前端監控系統獲取的音視頻數據識別分析生成相應音視頻文件的人員身份、人群密度或異常聲音的結果,通過功能層編輯整理為實際業務數據,傳輸至平臺進行直觀呈現和交互。
5.1?需求分析
需求用例圖如圖5所示,需求點如下:
a.監控中心的值班人員通過平臺能實時獲取到報警信息;
b.報警信息呈現需準確顯示報警出現的地理位置信息;
c.報警信息呈現需顯示現場的視頻圖像或音頻數據;
d.管理人員通過平臺能進行嫌疑人員人臉數據的管理;
e.平臺支持報警記錄的查詢。
5.2?界面設計
界面設計如圖6所示。
其中報警信息的呈現采用彈窗和列表的方式進行信息提示,界面的中心部分是管控區域的GIS地圖,地圖中的彈窗位置對應報警信息的地理位置信息,報警信息彈窗中顯示報警現場的視頻圖像或音頻數據,報警記錄查詢的結果頁通過列表顯示,管理人員通過將嫌疑人員的人臉圖像在平臺中進行注冊和刪除來實現嫌疑人員管理;此外,平臺還應該提供方便的接口實現應急響應,如平臺與前端警務設備通過接口進行數據傳輸。
6?總結
文章通過人臉識別、人群密度估計和異常聲音識別三個音視頻識別算法的實現和應用,構建基于音視頻識別的區域安防管控平臺的應用功能模塊,主要解決實際安防工作中監控手段單一、科技應用匱乏以及缺乏事前預警等問題;并對平臺部分進行了需求分析和界面設計,平臺具有良好的人機交互效果,并將算法結果進行數據可視化,讓監控中心更好的進行調度指揮。但實際安防工作中業務更多、場景更復雜,安防管控平臺需接入更多的功能模塊,本文的設計范圍和考慮因素還比較窄,實際工作中的設計和實現需要具有更高的集成度和統一調度指揮的業務邏輯。
參考文獻
[1]?鄒國鋒,傅桂霞,李海濤等. 多姿態人臉識別綜述[J].模式識別與人工智能,2015,28(7):613-625.
[2]?丁蓮靜,劉光帥,李旭瑞,等. 加權信息熵與增強局部二值模式結合的人臉識別[J].計算機應用,2019(4):1-8.
[3]?Arun Kumar Dubey,Vanita Jain.A review of face recognition methods using deep learning network[J].Journal of Information and Optimization Sciences,2019,40(2):547-558.
[4]?Sugiura, Motoaki,Miyauchi, Carlos Makoto,Kotozaki, Yuka, et al.Neural Mechanism for Mirrored Self-face Recognition[J].Cerebral cortex,2015,25(9):2806-2814.
[5]?Hao-xiang Zhang,Peng An,De-xin Zhang.Application of robust face recognition in video surveillance systems[J].Optoelectronics letters,2018,14(2):152-155.
[6]?Youmei Zhang, Chunluan Zhou, Faliang Chang, Alex C. Kot. Multi-resolution attention convolutional neural network for crowd counting[J]. Neurocomputing,2019, Volume 329:144-152.
[7]?Luo H, Sang J, Wu W, et al. A High-Density Crowd Counting Method Based on Convolutional Feature Fusion[J]. Applied Sciences, 2018, 8(12):2367.
[11]?Gunduz A E,Temozel T T,Temizel A.Density estimation in crowd videos[C].//2014 22nd Signal Processing and Communications Applications Conference: 2014 22nd Signal Processing and Communications Applications Conference (SIU2014), 23 – 25 April 2014, Trabzon, Turkey.2014:822-825.
[12]?曹金夢,倪蓉蓉,楊彪.基于多尺度多任務卷積神經網絡的人群計數[J].計算機應用,2019,39(1):199-204.
[13]?Brian M F, Justin S, Pablo B J. Adaptive Pooling Operators for Weakly Labeled Sound Event Detection[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11):2180-2193.
[14]?王開武. 基于深度神經網絡的異常聲音事件檢測[D].重慶:重慶大學,2018.
[15]?吳曉東.智能視頻監控技術在智慧城市中的深入應用[J].設備管理與維修,2019(6):150-152.
[16]?董煒.智能視頻分析技術在智慧安防中的應用與展望[J].電子技術與軟件工程,2019(7):251-252.
[17]?任龍剛,王偉,劉峰,等.基于平安校園建設的高校安全管理體系構建——以西安歐亞學院為例[J].安全,2019,40(3):68-71.
[18]?黃凱奇,陳曉棠,康運鋒,等.智能視頻監控技術綜述[J].計算機學報,2015,38(6):1093-1118.
(收稿日期: 2019.05.01)