一種基于視頻分析的異常行為識別算法及應(yīng)用*

2022-11-09 02:33:52莫輝強(qiáng)邵唐紅

計算機(jī)與數(shù)字工程 2022年9期

莫輝強(qiáng) 邵唐紅王偉楊寒曹越張城閆茜

（1.浙江省軌道交通運(yùn)營管理集團(tuán)有限公司杭州 310020）（2.深圳北斗應(yīng)用技術(shù)研究院有限公司深圳 518055）

1 引言

目前智慧地鐵是軌道交通領(lǐng)域數(shù)字化探索的熱門方向，旨在地鐵線網(wǎng)和地鐵站內(nèi)應(yīng)用互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)，提高運(yùn)營效率，保障運(yùn)營安全［1］。車站是地鐵線網(wǎng)中的重要組成部分，其中針對站內(nèi)乘客行為的安全管控是重要的一環(huán)，運(yùn)用視頻分析技術(shù)識別乘客的特定行為已經(jīng)成為人工智能的熱門研究領(lǐng)域。在車站內(nèi)應(yīng)用乘客行為檢測技術(shù)可以有效降低車站人員巡站的工作強(qiáng)度，是實現(xiàn)智慧地鐵的關(guān)鍵指標(biāo)之一。

智能視頻分析采用基于計算機(jī)視覺和圖像處理的相關(guān)技術(shù)，實現(xiàn)對數(shù)字視頻信號的處理、分析和理解，從而完成監(jiān)控區(qū)域內(nèi)的目標(biāo)識別、追蹤和行為檢測［2］。

視頻監(jiān)控系統(tǒng)作為安防的重要手段，但是系統(tǒng)需要安排專人看管不免費(fèi)時費(fèi)力，所以基于視頻分析技術(shù)的人體異常行為分析需求應(yīng)運(yùn)而生。目前視頻監(jiān)控技術(shù)已經(jīng)經(jīng)歷了三代的發(fā)展，從基本視頻監(jiān)控到自動化視頻監(jiān)控，再到最新的智能視頻監(jiān)控［3］，在智能視頻監(jiān)控時代，人體異常行為分析是目前計算機(jī)是視覺分析領(lǐng)域的熱點(diǎn)主題。其核心利用監(jiān)控系統(tǒng)輸入的圖像完成計算機(jī)視覺處理和分析，從連續(xù)的圖像中檢測人體目標(biāo)、跟蹤和識別其特定肢體動作并進(jìn)行描述和呈現(xiàn)［4］，在分析過程中主要通過深度學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)、骨架檢測模型等多重方法相結(jié)合［5～6］。

因此本文將將介紹一種基于視頻分析的異常行為識別算法應(yīng)用，首先介紹算法的設(shè)計實現(xiàn)思路，然后介紹該算法在地鐵車站的應(yīng)用效果［7］。

2 算法設(shè)計

2.1 算法框架

異常行為識別算法使用了深度學(xué)習(xí)中的目標(biāo)檢測算法，通過模型分析視頻中的所有人員，檢測是否存在異常行為。

該算法命名為YOLO-sibat，是基于YOLO算法改進(jìn)而來，YOLO-sibat將輸入的視頻幀劃分成G*G個單元格（grid），若某個物體（Ground truth）的中心位置的坐標(biāo)落入到某個單元格中，則該單元格只負(fù)責(zé)檢測這個物體的類別及位置，每個單元格預(yù)測數(shù)量（anchor）設(shè)定為A個，置信度（confidence score），類別概率設(shè)置為C個。某個物體的位置信息轉(zhuǎn)化為（x，y，w，h）的形式，分別表示該物體的中心點(diǎn)位置相對單元位置的偏移、寬度和高度，且該位置信息均是歸一化的形式。置信度實際反映的是該單元格是否存在目標(biāo)物以及存在目標(biāo)物情況下位置的準(zhǔn)確性［8～11］，可定義為式（1）：

每一個單元格預(yù)測G*G*（A*（5+C）），其中G為單元格，A為每個單元格的anchors，C為類別。

2.2 數(shù)據(jù)輸入端

馬賽克（Mosaic）數(shù)據(jù)增強(qiáng)是參考了CutMix數(shù)據(jù)增強(qiáng)的方式，CutMix只使用了兩張圖片進(jìn)行隨機(jī)拼接，對數(shù)據(jù)集的豐富并無太大作用，故采用隨機(jī)4張圖片進(jìn)行了隨機(jī)縮放、裁剪、排布的方式拼接成1張圖片，該方法為Mosaic，極大地豐富了數(shù)據(jù)集［12］。

2.3 Backbone

Focus結(jié)構(gòu)：切片，對RGB三通道圖片進(jìn)行切片的示意圖，右邊的4×4×3的RGB圖像經(jīng)過切片后變成12個2×2結(jié)構(gòu)，將其堆疊后表示為2×2×12的特征圖（feature map），以YOLO-sibat的結(jié)構(gòu)為例，原始的視頻幀經(jīng)過比例縮放后得到640×640×3的圖像大小，縮放后的圖像經(jīng)過Focus結(jié)構(gòu)，采用切片的操作后，先變成320×320×32大小的特征圖（feature map），再經(jīng)過一次32個卷積核的卷積操作后，最終變成320×320×32的特征圖［13］。

CSP結(jié)構(gòu)：YOLO-sibat中參考了CSPnet網(wǎng)絡(luò)設(shè)計，得到CSP1_X、CSP2_X網(wǎng)絡(luò)結(jié)構(gòu)，以YOLO-sibat網(wǎng)絡(luò)為例，在主干網(wǎng)絡(luò)（Backbone）使用CSP1_X網(wǎng)絡(luò)結(jié)構(gòu)，用于提取目標(biāo)的特征，在模型的Neck部分使用了CSP2_X網(wǎng)絡(luò)結(jié)構(gòu)，用于結(jié)合高維度的語義信息和低維度的位置信息傳遞到網(wǎng)絡(luò)預(yù)測部分。

2.4 Neck

Neck采用FPN+PAN的結(jié)構(gòu)，Neck這部分除了使用FPN網(wǎng)絡(luò)結(jié)構(gòu)外，還在此基礎(chǔ)上結(jié)合了PAN網(wǎng)絡(luò)結(jié)構(gòu)，PAN網(wǎng)絡(luò)結(jié)構(gòu)則和FPN網(wǎng)絡(luò)傳向相反，PAN從低維度的位置信息向高維度傳遞，經(jīng)過下采樣卷積后和高維度的語義信息進(jìn)行融合，兩個不同方向傳遞的網(wǎng)絡(luò)結(jié)構(gòu)相互融合后，進(jìn)一步提升了網(wǎng)絡(luò)特征表達(dá)的能力［14］。

2.5 Prediction

GIOU Loss：為了使模型預(yù)測的結(jié)果和真實值盡量的靠近，需要損失函數(shù)來進(jìn)行判斷模型的預(yù)測值是否和真實值相近，YOLO-sibat模型的任務(wù)為預(yù)測目標(biāo)的類別和目標(biāo)的位置信息，故損失函數(shù)為分類損失函數(shù)（Classificition Loss）、位置回歸損失函數(shù)（Bounding Box Regeression Loss）兩部相結(jié)合，其中GIOU Loss為位置回歸損失函數(shù)，如式（2）所示：

NMS非極大值抑制：YOLO-sibat模型預(yù)測結(jié)果會存在非常多的目標(biāo)框，需要對對于的目標(biāo)框進(jìn)行后處理，對所有模型預(yù)測的目標(biāo)框進(jìn)行一個篩選，采用了加權(quán)非極大值抑制（NMS）算法，經(jīng)過該算法篩選后的目標(biāo)框為最終結(jié)果。

2.6 實驗過程與結(jié)果

1）評價指標(biāo)

標(biāo)檢測算法進(jìn)行檢測識別，使用評價指標(biāo)是mAP（mean average precision），這是一個可以用來度量模型預(yù)測框類別和位置是否準(zhǔn)確的指標(biāo)，AP值是Precision-Recall曲線下方的面積。混淆矩陣如表1。

表1 混淆矩陣

查準(zhǔn)率（Precision）：算法模型預(yù)測出來的所有正樣本數(shù)量中，正樣本占所有正負(fù)樣本的比率。

召回率也稱查全（Recall）：在所有正樣本數(shù)量中，被算法模型預(yù)測為正樣本數(shù)量的比例。

2）模型訓(xùn)練

模型訓(xùn)練過程及最終結(jié)果如圖1所示，所有橫坐標(biāo)為模型訓(xùn)練的輪數(shù)（epoch），縱坐標(biāo)分表表示損失函數(shù)的值，第一行為訓(xùn)練過程坐標(biāo)位置回歸損失、是否存在目標(biāo)損失、分類損失、精度、召回率；相對應(yīng)的第二行為在驗證集損失值。在最右邊兩列為mAP為98%，精度為97%，召回率為97.3%

圖1 模型訓(xùn)練過程

3）模型驗證與結(jié)果

測試一張圖片在RTX 2080Ti的GPU上20ms后的效果如圖2所示。

圖2 模型驗證

3 應(yīng)用實例

根據(jù)地鐵安監(jiān)部與客運(yùn)部的相關(guān)職責(zé)和要求，將該算法嵌入至智慧車站系統(tǒng)中，基于該算法還衍生出其他異常行為算法：人員摔倒、打架斗毆、人員滯留徘徊、人員入侵、人員電扶梯逆行、出入口商販擺攤等算法車站運(yùn)營人員可自定義操作算法和攝像頭的配置，對于分析出的異常行為以及異常事件將會提示告警并且對偵測到的瞬間進(jìn)行照片抓拍，如圖3所示。

圖3 人員摔倒檢測

4 結(jié)語

本文首先介紹了異常行為的研究現(xiàn)狀以及基于視頻分析的摔倒識別算法，基于深度學(xué)習(xí)目標(biāo)檢測算法，開發(fā)了一套能夠分析視頻的智慧車站系統(tǒng)。除能夠讀入視頻并顯示之外，還嵌入了人體行為識別算法模塊，能夠?qū)τ脩糁付ǖ臄z像頭配置所選擇的算法，并在異常行為發(fā)生的時候?qū)崿F(xiàn)記錄、告警，同時將告警記錄保存至數(shù)據(jù)庫，實現(xiàn)了視頻數(shù)據(jù)與告警數(shù)據(jù)的統(tǒng)一管理，具有良好的操作性。用戶可以在地圖上查看預(yù)警攝像頭位置，實現(xiàn)監(jiān)控技術(shù)和視頻分析技術(shù)的統(tǒng)一，構(gòu)建了一個低成本、強(qiáng)擴(kuò)展性，方便安裝操作以及靈活使用且高效監(jiān)控的系統(tǒng)。