周晴










摘要:姿態在行為識別與分析領域是一種具有良好語義性、高度結構化且對光照及場景變化具有魯棒性的信息?;谌梭w骨架的動作識別方法由于能提取個體的關節點構成人體的關節點形成的骨架圖,在近幾年逐漸成為了異常行為識別領域的重要研究方向之一。本文設計了一種基于手部姿態運動特征的暴力打斗行為檢HandPose-network姿態估計網絡模型,通過對手部運動情況建立運動模型,完成暴力行為檢測。本模型在目前最大暴力行為監控視頻數據集RWF 2000和常用暴力行為檢測Hockey數據集進行了實驗,其準確率分別達到92.10%和97.80%,說明了該方法在暴力行為場景的有效性。
關鍵詞:異常行為;暴力行為;動作識別;姿態序列;軌跡聚類
1 引言
對于我國社會治安的防控體系當中,公共安全防范方面屬于其極為重要的一部分,影響著社會的穩定與繁榮。商場、步行街道、火車站、辦事廳等人群密集的公共場所,一旦出現損害人民生命財產安全與社會穩定的公共事件特別是打架斗毆這類群體暴力行為,將產生惡劣的社會影響。視頻監控不僅可以強化公共區域(或場所)的監管力量,而且可以對潛在犯罪者產生威懾作用,借助日趨成熟的計算機視覺技術實現智能化、自動化的視頻監控與分析,對保障公共場所安全具有重要的意義。目前針對基于視頻的暴力打斗行為檢測問題,國內外已有大量的學術研究成果,但普遍存在著算法模型可解釋性差、針對場景變化魯棒性差等缺點,難以應用到實際場景。
針對暴力打斗行為檢測,主要有兩類方法:提取手工特征分類和端到端深度學習方法。這兩類方法容易受到雜亂背景以及目標表觀變化的干擾,使得模型難以遷移到其他場景下,局限于訓練數據集所在的場景。同時由于暴力行為沒有一種簡單、固定的行為模式,并且通常涉及多個主體目標,通用異常行為檢測難以取得較好的效果。因此需要針對暴力打斗行為展開特定的研究。
本文研究了基于姿態運動特征的暴力打斗行為檢測算法,提出了手部危險區域位置特征和軌跡簇運動效率特征,并根據當前場景的情況對是否發生暴力行為做出判斷。基于姿態的特征可以直觀地描述行人的動作狀態,可以克服行人外貌、相機運動等對行為識別的干擾。
本文提出了一種基于手部危險區域位置特征以及聚類軌跡運動有效性特征的暴力行為檢測算法,并在RWF 2000和Hockey兩個常用數據集中進行了實驗結果的驗證和分析。
2 相關工作
公共場所中,暴力行為一般指有威脅性地行為動作,比如目標攻擊其他行人、目標蹲下放置危險物品等[1]。暴力行為的識別方法主要基于表觀特征和運動特征,通常在網格化后的圖像塊中[2],或者在視頻時空立方體中[3],或者在預先定義的識別區域[4]進行特征提取。但是,基于像素的特征是對噪聲敏感的高維非結構化信號,一些無關的特征維度可能會掩蓋蘊含重要信息的特征維度[5]。此外,高維特征中存在的冗余信息增加了模型區分信號和噪聲的負擔。
人體關節點可以直觀地描述行人的動作狀態,相比于圖像和光流信息,關節點信息可以克服行人外貌、相機運動等對行為識別的干擾。因此可以利用人體姿態提取人類行為的重要信息。Li[6]等為了處理人體骨架的 3D 坐標值信息,提出了一種平移尺度不變的映射方法,該方法在關節點信息在比例不發生變化的同時將范圍映射到 0~255 的區間內,再訓練 CNN 網絡提取其中存在的空間、運動信息。劉凱[7]使用了基于非負矩陣分解和隱馬爾科夫模型的方法,取得了更快的識別速率,以便在實際場景中應用。
雖然姿態信息在動作識別領域已經受到重視,但在暴力行為檢測領域,目前研究人員較少利用姿態信息研究魯棒性更好的檢測算法。使用傳統手工設計的特征以及深度特征進行暴力行為檢測的方法,面對場景變化魯棒性差,對噪聲敏感,同時方法模型不具有良好的可解釋性。因此針對實際場景,如何結合對光照變化及場景變化魯棒性更好的姿態信息取得更好的暴力行為檢測效果值得深入研究。
3 HandPose-network模型及實現
針對打架斗毆這類暴力行為,有效獲取及利用人體手部姿態信息是進行準確檢測暴力行為的保障?;诖?,本文設計了一種基于手部姿態運動特征的暴力打斗行為檢測方法HandtPose-network,模型整體實現流程如圖1,本文沿用Alphapose[8]算法提取人體姿態特征,先將監控視頻轉化為 t 個關鍵幀,對每一幀使用yolov3網絡模型提取特征。然后檢測圖像中的人體骨架關節點,得到了手部關鍵點集合后,根據手部危險區域位置特征,采用基于時空密度聚類的空間軌跡提取的方法獲取每個人在視頻中的手部運動軌跡,將提取的動作特征輸入暴力打斗行為檢測模塊進行行為判定,旨在針對實際場景中的復雜打斗行為進行準確地檢測。
3.1Alphapose采用的算法原理
Alphapose可以明確的分為兩部分,即目標檢測階段和人體姿態提議階段。首先通過目標檢測YOLOv3[9]網絡,直接將圖片輸入到網絡中利用 CNN 來提取整個圖片的特征,最后再對整張圖片進行回歸操作來檢測目標。YOLOv3 使用 Darknet-53 作為主干網絡,并且借鑒了金字塔特征圖的思想,使用 FPN 對輸出進行預測,Residual 指帶殘差結構的卷積模塊。
通過YOLOv3網絡從原圖片中根據人的提議框裁剪出人的區域后依次將單人圖片輸入區域多人姿態檢測(Regionalmulti-person pose estimation,PMPE)框架中,檢測出人體姿態,再通過 p-Pose NMS 比較姿態相似性,去除重復目標。
3.2手部特征提取
3.2.1手部危險區域位置特征
暴力打斗行為的具體行為模式不易定義,在現實生活中以多種形式呈現,具體包括推搡、纏斗等多種情況。打架斗毆這類暴力行為,四肢的運動通常具有更強的語義性,能更準確地表征暴力行為,打架行為手部的運動情況與正常行為有較大的區別。因此本文從手部運動模式進行建模分析,由此區分暴力行為與非暴力行為。
3.2.2手部危險動作區域分析
在大多數暴力行為中,手部動作發揮了至關重要的作用。建立手部的運動模型,有助于理解個體的行為狀態。因此本文從手部的運動模式著手,建立相應的運動特征。首先將人體從頭至腳等比例劃分為k部分。k通常設置為10,編號分別為0~9。個體處于正常站立狀態,手部位置通常處于3~5號區域位置。進一步結合現實生活中人體的實際暴力行為的相關動作,當手部位置落入到3~5號區域是安全動作的手部位置,通常難以對他人產生威脅性的姿勢;當手部位置落入到0~2號區域是危險動作手部位置,該位置的手部姿態將滿足大部分可產生傷害性動作姿勢的必要條件。
首先將關節坐標點進行歸一化處理,計算公式(1)如下:
其中,w,h為視頻幀目標檢測框的長寬。
每一個區域的高度hunit由所有關節點縱坐標的最大值和最小值決定。ymax表示關節點中最大的縱坐標值,ymin表示所有關節點中最小的縱坐標值。為第i個區域,左閉右開區間。這一過程表示如下式:
隨后統計視頻幀中所有個體的手部姿態位置,即可能產生危險動作的區域計算得到一個比值 R,表征了當前所有個體動作的危險程度。
3.2.3 時空密度聚類軌跡運動有效性特征
手部的運動軌跡有豐富的肢體信息,在人類行為識別任務中起到主要作用。因此如何有效利用手部軌跡中蘊含的豐富信息,將決定暴力行為的檢測效果。
目標處于正常行走狀態,手部隨著身體的移動,近似呈現一條直線;而發生打斗時,個體組成的群體的手部軌跡將呈現團狀。這兩種情況的手部軌跡有明顯的區別。在觀察到該現象的基礎上,綜合考慮手部關節點的運動的時空信息,提出基于時空密度聚類軌跡運動有效性特征。首先將連續若干幀個體的手部位置堆疊為關節點圖譜,根據時空密度將位置點分為若干軌跡簇,軌跡簇表示了個體手部運動的軌跡。
3.2.4 基于時空密度聚類的空間軌跡提取
為了得到相關性較高的手部軌跡數據,本文提出了基于時空域密度聚類的手部軌跡提取方法。DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一種經典的基于密度的聚類算法,一般假定類別可以通過樣本分布的緊密程度決定,同一類別的樣本之間的緊密相連的。手部軌跡空間點很符合這類特點,即同一個體的手部運動軌跡在時空上是連續的,兩點之間距離較近,不同個體正常行走會避免碰撞,短時間內不會出現重疊現象。
利用場景中個體的平均包圍框對聚類算法的領域進行自適應估計。首先通過移動加權平均的方式,計算當前幀的平均包圍框大小。使用來表示個體的包圍框,當前幀的平均包圍框大小計算如下式:
n表示當前幀個體的數量,同時結合之前記錄的平均包圍框的大小,使用加權平均的方式,避免由于目標檢測器出現的誤差,導致包圍框大小出現抖動,加權平均的包圍框大小由下式計算而得:
t表示當前時刻的個體平均包圍框的大小,對應表示為。使用與關節點坐標同樣的方式對t做尺度歸一化后,得到歸一化后的包圍框Rn=(wn,hn)。結合手部連續運動范圍相對于個體包圍框的比例,擬合得到空間鄰域閾值的大小εs,具體計算入下式:
帶有時間信息的關節點由向量p=(x,y,t)表示,其中x,y分別是空間上的坐標值,t為關節點所在的幀數。將時間信息融合到關節點的表示向量中,充分利用時間域中的信息,獲取在時間和空間上關聯性更緊密的點,構成相應軌跡。
時空距離由空間坐標差的二范數進行表示,見下式:
時域上的距離將由點所屬的幀差dists的一范數進行計算。
時空鄰域是將空間鄰域和時間鄰域相結合確定的時空范圍,先從空間和時間的物理意義入手,分別確定各自的鄰域范圍,再將二者有機結合,這樣能夠有效分離前后分別出現在同一位置的兩條無關軌跡。
空間鄰域與時間鄰域共同構建時空鄰域之后,基于時空密度的DBSCAN算法從關節點集中的任一點出發,計算與其他所有點之間的時空距離,統計滿足時空閾值的關節點個數,若數目大于給定的最小樣本數時,該樣本即為核心對象,形成一個聚類,鄰域內其他直接密度可達的點重復進行此步驟,得到最終的聚類結果。
3.3 暴力打斗行為檢測
在正常情況下,普通人手部行為包括以下情況:提東西、玩手機、牽手、或自然垂手等,個體手部軌跡會跟隨移動路徑進行改變,可能伴隨小幅度的擺動。在發生暴力行為的場景中,個體為了完成各種暴力行為,手部會發生劇烈地揮動。同時由于暴力行為通常有多個參與個體,在一定的時空中,手部關節點位置高度隨機分布,與正常行走狀態下的手部小幅度揮動的軌跡完全不同。為了量化手部運動劇烈程度,引入了手部軌跡運動有效性特征。
對聚類后的每一段手部軌跡分別計算移動效率,使用經驗性閾值進行異常判定。
在某一時刻t,通過時空聚類獲得了m條軌跡,表示由空間點集構成的一條軌跡。針對空間簇內的點集,兩兩計算成對距離,每個點選擇其最小成對距離di作為運動距離,計算公式如下:
將所有點的最小運動距離進行累加,得到整個空間簇點集的運動距離:
運動距離可以有效軌跡空間簇軌跡的運動路徑的長度。使用空間軌跡簇中兩點最大距離dist作為整段軌跡的有效距離:
對每個軌跡簇使用其點數作為權重,加權求得當前時刻的軌跡簇運動有效性:
表示當前軌跡簇中點的數量。當前幀整體運動有效性低于某一閾值時,判定當前幀發生暴力打斗行為。
4 實驗結果及分析
4.1暴力打斗行為檢測數據集
本文在RWF 2000[10]數據集和Hockey[11]數據集上測試HandPose-network的性能。RWF2000數據集是從YouTube上收集的一個新的真實世界戰斗數據集,包含2000個由監控攝像頭在真實場景中捕獲的視頻,一半視頻屬于暴力行為視頻,另一半視頻屬于正常行為視頻。Hockey數據集視頻畫面取自于美國曲棍球比賽,該數據集由500段暴力行為視頻和500段正常行為視頻組成。兩個暴力檢測公用數據集中的視頻環境各異,其中發生的打斗行為各式各樣,這給暴力行為檢測帶來一定的挑戰。
4.2評價方法
檢測圖像中暴力打斗行為個體是本文算法的研究目的,因此以暴力行為個體作為正樣本,以非暴力行為個體作為負樣本,將圖像中的每一個人類個體作為一個樣本,本文采用了精確率(Precision)作為評價指標。
其中,TP為真陽性樣本數(被正確識別為暴力行為的樣本數),FP為假陽性樣本數(被錯誤識別為暴力行為的樣本數)。
4.3實驗細節
本文實驗環境如下:Intel(R) Core(TM)i9 CPU處理器,32.00GB安裝內存,Windows10 64位操作系統,顯卡為NVIDIA GTX 1080Ti。本文先對RWF2000數據集和Hockey數據集中所有視頻進行了人工篩選,將模糊不清、界限不明確的視頻刪除。
4.4實驗結果分析
首先,在目前最大的暴力行為監控視頻數據集RWF 2000上與當前最有效的算法進行準確率的比較(表1)。
為了比較算法的高效性,表2列舉了本文提出的算法與其他算法在Hockey數據集上的識別精度。
4.軌跡聚類可視化
為了進一步驗證手部姿勢運動特征對暴力打斗行為檢測的有效性,對基于時空密度的軌跡聚類結果進行解釋說明,展示了部分發生暴力打斗行為的異常場景軌跡聚類結果(如圖2),不同類別的簇使用不同的顏色進行了標注。從異常場景中的聚類結果可以發現,場景中存在個體的打斗行為時,個體手部軌跡在空間中存在高度重疊,呈現混亂的團狀,與正常場景中手部隨身體移動呈現的線狀明顯不同,具有比較易于區分的特征。
5.結束語
異常行為檢測技術,在公共安全領域具有廣泛的應用前景。然而人類行為模式復雜多樣,真實場景中存在大量干擾信息,現有方法在實際應用場景取得較好的檢測效果。本文針對實際場景中的暴力打斗行為,研究一種基于手部姿態的運動模型的暴力行為檢測方法,旨在進行準確地檢測判斷。
本文圍繞暴力行為檢測這一課題展開了研究工作,本文的算法針對手部活動劇烈的一些暴力行為,這當然不足以描述現實生活中可能發生的各種打斗行為。在面對目標倒地、腿部 踢踹、持有槍支等更多種類的暴力行為時,本文算法難以進行有效檢測。因此如何進一步拓展可識別的暴力行為種類,將是今后研究的一個方向。
參考文獻
[1]Sodemann A A,Ross M P,Borghetti B J.A review of anomaly detection in automated surveillance[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C (Applications and Reviews),2012,42(6):1257-1272
[2]Edison A,Jiji C V.Optical acceleration for motion description in videos[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2017:39-47.
[3]胡學敏,余進,鄧重陽,等.基于時空立方體的人群異常行為檢測與定位[J].武漢大學學報(信息科學版),2019,44(10):1530-1537.
[4]Co?ar S,Donatiello G,Bogorny V,et al.Toward abnormal trajectory and event detection in video surveillance[J].IEEE Transactions on Circuits and Systems for Video Technology,2016,27(3):683-695.
[5][Kim T S,Reiter A.Interpretable 3d human action analysis with temporal convolutional networks[C].2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).IEEE,2017:1623-1631.
[6]Li C,Zhong Q,Xie D,et al.Skeleton-based action recognition with convolutional neural networks[C].2017 IEEE International Conference on Multimedia & Expo Workshops (ICMEW).IEEE,2017:597-600.
[7]劉凱.高校校園視頻監控系統中異常行為 檢測的設計與實現[D].西安科技大學,2019.
[8]Fang H S,Xie S,Tai Y W,et al.Rmpe:Regional multi-person poses estimation[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:2334-2343.
[9]REDMON J,FARHADI A.Yolov3:anincremental improvement[J]. arXiv:1804.02767,2018.
[10]Cheng M,Cai K,Li M.RWF-2000:an open large scale video database for violence detection[J].arXiv preprint arXiv:1911.05913,2019.
[11]Nievas E B,Suarez O D,García G B,et al.Violence Detection in Video Using Computer Vision Techniques[C]// International Conference on Computer Analysis of Images and Patterns.Springer-Verlag,2011:332-339.
[12]Sudhakaran S,Lanz O.Learning to detect violent videos using convolutional long short-term memory[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS).IEEE,2017:1-6.
[12]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision.2015:4489-4497.
[13]Carreira J,Zisserman A.Quo vadis,action recognition a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6299-6308.
[14]Hassner T,ItcherY,Kliper-Gross O.Violent flows:Real-time detection of violent crowd behavior[C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPR Workshops).IEEE Computer Society,2012.
[15]Nievas E B,Suarez O D,García G B,et al.Violence Detection in Video Using Computer Vision Techniques[C]//International Conference on Computer Analysis of Images and Patterns.Springer-Verlag,2011:332-339.
[16]Serrano I,Deniz O,Bueno G,et al.Spatio-temporal elastic cuboid trajectories for efficient fight recognition using Hough forests[J].Machine Vision and Applications,2017,29(6):207-217.
[17]丁春輝.基于深度學習的暴力檢測及人臉識別方法研究[D].中國科學技術大學,2017.
[18]Zhang T,Jia W,He X,et al.Discriminative Dictionary Learning with Motion Weber Local Descriptor for Violence Detection[J].IEEE Transactions on Circuits & Systems for Video Technology,2017(99):1-1.