房 凱
(中國石油大學(華東)計算機科學與技術學院,青島 266580)
針對視頻行為分析技術[1]的應用可以有效的提升公共場所的管制水平,對維護社會穩定和人身安全有著重要意義.而將針對視頻的行為分析技術運用在安防領域[2]中,不僅可以降低人工監控的程度以減少人力物力,還可以避免因人力因素導致的重要監控信息的遺漏,有效提高工作效率,從而達到對重大事故的預警及監控作用,避免事故的發生,因此具有重要的研究意義.
圍欄作為施工現場實行封閉式管理的重要工具,在建筑施工作業中,是明令要求必須提前設置的.在作業現場對一些存在安全隱患的地方安裝圍欄隔離起來,最大程度的為施工安全提供保障,減少不必要的損失和傷害[3].但目前施工現場中對圍欄跨越的監管大多依賴人工監察,而且施工場地普遍存在作業面廣、施工人員管理困難,安監人員難以及時準確了解現場人員的分布和作業情況,加之工地中各單位安全責任劃分不明確,通常導致安全監督檢查力度不夠,所以這種人工監察的方式效率非常低下.而且盡管圍欄按照要求設置,但存在多數人員安全意識不強,對圍欄跨越的危險性意識不到位.
在這種背景下,如果能設計一種智能化的圍欄跨越違規檢測算法,可以大大提升對于非施工人員跨越圍欄情況的監管效率,實現智能化的安全管理,及時發現跨越圍欄人員并發出警報,為人員的安全做出了一定的保障.
近年來,深度學習[4]在計算機視覺中得到了廣泛的應用,基于深度學習的動作識別[5]是一種端到端的方法,使用深度網絡從原始視頻中自動學習特征[6]輸出分類結果.根據深度學習網絡的結構的不同,基于深度學習的動作識別方法[7–9]主要分為基于雙流卷積網絡的動作識別和基于三維卷積網絡的動作識別.
視頻的處理相對于單幀圖像來說更為復雜,主要原因在于單幀圖像僅僅包含空間位置信息,而視頻不僅具有單幀圖像的空間特征,還包含幀與幀之間的時序特征[10].因此,在視頻處理方面,需要同時考慮空間和時間兩大部分,這就要求深度網絡具備同時處理不同維度特征的能力[11].
但是,上述的空間流和時間流卷積神經網絡均為2D 卷積,Two-stream 雙流卷積神經網絡的基本網絡架構如圖1所示.

圖1 Two-stream 雙流網絡結構圖
在雙流卷積神經網絡提出之前,動作識別的相關研究主要是從處理單幀圖像的角度出發,通過結合分析關鍵幀中人體運動姿態及其背景實現動作識別.這種方法的主要問題是沒有利用視頻本事特有的時間特征,僅分析每一幀圖像中的空間特征,因此識別效果有限.雙流卷積神經網絡正是為了解決此問題而提出,相比于僅處理單幀圖像,雙流卷積神經網絡可一次性輸入兩幀圖片,這樣在處理空間信息的基礎上還考慮到了一個動作本身持續性的時間變化特征,通過綜合利用兩部分特征[13–16]極大地提升了動作識別的準確性.
二維卷積僅可以用來處理單幀圖像,對于視頻本身的時間維度上的信息難以處理.因此三維卷積的作用就顯現出來,它可以看作是對二維卷積的直接擴展,在原本處理單幀圖像空間特征的基礎上,多了一個維度來捕獲時序信息.3D CNN 架構由Ji 等[17]提出,3D 卷積通過堆疊多個連續的幀組成一個立方體,然后使用3D 卷積核進行處理.2D 卷積與3D 卷積的本質區別在于,處理視頻數據時2D 卷積操作后生成的特征圖還是二維的,相應的多通道信息被完全壓縮,而3D 卷積操作后生成的特征圖仍然是三維的,因此保留了視頻時間維度上的信息.Tran 等[18]在前者的基礎上提出了一種 C3D (Convolutional 3D)的現代深層架構,如圖2所示,C3D 網絡包含8 次卷積操作,其中卷積核大小均為3×3×3,步長為1×1×1,5 次最大池化操作,除第一層池化的池化核大小和步長為1×2×2,其余均為2×2×2,最后網絡經過兩次全連接層和Softmax 層輸出最終結果.實驗結果表明,此C3D 方法在視頻動作識別精度上要優于之前的方法,并且其不需要額外的計算光流,直接可以完成空間信息和時序信息特征的提取操作.

圖2 C3D 網絡結構圖
為了優化3D 卷積本身神經網絡層數的限制,進一步提高使用三維卷積進行視頻動作識別的研究水平,Carreira 等[19]沿時間維度重復使用在ImageNet 上預先訓練的二維濾波器,將用于圖像分類非常深的網絡拓展為空間-時間特征提取器.Qiu 等[20]提出了另一種構建深度三維卷積網絡的方法:偽三維殘差網(Pseudo-3Dresidualnet,P3D ResNet).
三維網絡相比于雙流網絡更加簡單直接,可以更直觀的捕捉短時間內的時間動態,但三維網絡通常考慮比較短的時間間隔,因此無法捕獲長期的時間信息.
針對作業現場圍欄跨越違規行為檢測問題,本文從計算機視覺角度提出一種智能化的檢測與識別方法.考慮到二維卷積可以用來解決空間定位問題,而三維卷積在處理視頻時相對傳統的雙流網絡更加簡單直接.因此提出此方法,通過結合二維卷積及三維卷積,其中三維卷積用于提取輸入剪輯中的時序特征,輸出特征維度為C′×H′×W′;二維卷積則提取當前幀空間特征,解決定位問題,輸出特征維度為C′′×H′′×W′′.
本文擬采用的三維卷積架構為3D-SE-ResNext-101,在3D-ResNext-101 的基礎上引入SE 模塊,相同深度的情況下提升了精度;采用Darknet-19 作為二維卷積架構,提取視頻中的空間位置特征;最后將得到的特征進行通道融合,然后分類回歸,實現圍欄跨越行為檢測與識別.具體流程如圖3所示.
裝配式項目4D模型構建采用的是Navisworks Management和Microsoft Project軟件工具組合進行。

圖3 圍欄跨越行為檢測流程圖
三維卷積不僅可以在空間維度上,而且可以在時間維度上應用卷積運算來捕獲運動信息.眾所周知,殘差網絡可以有效解決神經網絡隨深度增加而出現訓練效果變差的問題,其內部多個殘差塊使用跳躍連接,可以有效解決梯度消失現象.3D-ResNext 基本block 單元如圖4所示.

圖4 3D-ResNext 基本單元
SE 模塊主要包括Squeeze 和Excitation 兩個操作,可以適用于任何映射:

以卷積為例,卷積核為V=[v1,v2,···,vC],其中vc表示第c個卷積核.那么輸出U=[u1,u2,···,uc]:

為了解決空間定位問題,并行提取當前幀的二維特征.我們采用Darknet-19 作為基本架構,因為它在準確性和效率之間取得了很好的平衡.如表1所示,包含19 個卷積層和5 個最大池化層,同時使用batch normalization 來加速收斂.

圖5 3D-SE-ResNext module

表1 Darknet-19
對于最終輸出特征圖尺寸H′×W′中的每個網格單元(gridcell),用K-means 方法事先選擇5 個先驗框,因此最終輸出大小為[(5×(NumCls+5))×H′×W′],其中NumCls表示行為分類得分個數,還有4 個坐標和1 個置信度得分.對于訓練集中的ground truth,中心落在哪個cell,那么該cell 的5 個Anchor box 對應的邊界框就用來預測它,最終選擇IOU值最大的邊界框負責預測;與ground truth 匹配的先驗框負責計算坐標誤差,置信度誤差以及分類誤差,而其它4 個邊界框只計算置信度誤差.損失函數計算公式如下:

式中,W,H分別指的是特征圖的寬與高;A指的是先驗框數目.L1,L2,L3如式(4)~式(6)所示.

計算各個預測框和所有ground truth 之間的IOU值,若最大值也小于閾值,則標記此為background.

計算先驗框與預測框的坐標誤差.

這一部分計算與ground truth 匹配的預測框的坐標損失,置信度損失以及分類損失之和.
本次實驗自建圍欄跨越數據集,共采集視頻70 段,將每段視頻按幀截取并分別保存到不同文件夾,共包含圖片7000 余張.使用LabelMe 軟件標注包含此動作的一系列幀生成相應JSON 文件,編寫程序實現將多個JSON 文件轉化為訓練所需的txt 文件格式,并匯總到trainlist 文件中以開始訓練.
實驗顯卡配置NVIDIA GeForce RTX 2080Ti,處理器為Intel i7.學習率初始化為0.0001,并在30 k,40 k,50 k 和60 k 次迭代后分別降低0.5 倍.
訓練12 個epoch 后選取視頻測試,實驗選取不同場景下的圍欄跨越違規動作模擬視頻以驗證該方法的泛化性,實際測試效果如圖6所示.
從圖中可以看出,在不同的場景下使用此方法可以較為準確的檢測出視頻中的圍欄跨越行為,具有一定的泛化能力.當處理實時監控時,使用OpenCV 不斷獲取視頻監控截圖,將連續幀組成的剪輯作為輸入,經格式化處理后輸入到訓練好的模型中,若檢測到當前幀存在違規動作,使用紅色方框標記并預警,避免事故的發生,從而達到智能化管理.
本次實驗使用Frame-AP 作為評價指標.對所有包含預測框的幀,計算每一個預測框與真實框間的IOU值,若超過閾值(預先設置為0.5),則記為TP,否則為FP,漏檢記為FN;當出現多個預測框同時匹配一個真實框的情況時,則只保留IOU值最大的預測框,記為TP,其余均為FP.相應得出準確率(Precision)及召回率(Recall).

為探究輸入剪輯長度以及下采樣率對圍欄跨越檢測模型的影響,選取剪輯長度為8 幀和16 幀,下采樣率d=1,2,3 進行對比實驗.具體結果如表2所示.比較后,本次實驗選取輸入剪輯長為16,下采樣率d取1.
探究不同3D backbones 對結果的影響(16-frames,d=1).如表3所示.從表3中可以看出,在3D-ResNext-101 基礎上加入SE 模塊后,達到最好效果,因此將其作為本文三維卷積backbone 使用.
探究本文(3D-SE-ResNext-101+Darknet-19)方法與其他方法在圍欄跨越行為檢測上的效果,測試結果如表4所示.
從結果可以看出,在保證Frame-AP 的情況下,本文方法在實際測試圍欄跨越違規行為時處理速度可以達到43 fps,實時性更強.
針對圍欄跨越違規行為檢測問題,本文從計算機視覺角度出發,提出一種基于視頻的智能化檢測與識別算法,使用三維卷積提取時序特征,同時在二維卷積上提取空間特征,解決定位問題.通過設置對比試驗以尋找最優方法.實驗測試結果表明,該方法可以較為準確的檢測出視頻中的跨越行為,具有較高的準確性和魯棒性,大大提升了監管效率,實現智能化管理.未來將會考慮在此基礎上加入目標檢測模塊,重點檢測圍欄區域范圍內的動作,以消除無關區域動作干擾,使圍欄跨越違規檢測與識別方法更加成熟.

圖6 不同場景下的實際測試效果

表2 輸入長度及下采樣率對結果的影響 (IOU=0.5)

表3 3D Backbone 對結果的影響 (IOU=0.5)

表4 不同方法測試效果(IOU=0.5)