潘 丹,林靈婷,翁凌雯,李 棋,常 堯
(1.國網福建信通公司,福建 福州 350013;2.安徽南瑞繼遠電網技術有限公司,安徽合肥 230601)
隨著科學技術的不斷發展,智能攝像頭已被廣泛應用于交通、醫療、安保等各個領域[1],由此產生的圖像數據也隨之呈指數級增長。而對于海量視頻數據的及時、高效處理成為了當前的熱點研究方向。尤其是在安防領域的異常行為檢測方面,其時效性與準確性均有較高要求[2]。
人體行為識別技術通常包括特征提取及特征理解識別兩部分。其中特征提取是識別準確率的關鍵,如基于人工特征與基于深度學習(Deep Learning)的方法[3-4]。前者具有復雜度較低、易于實現的優點,但其識別精度和魯棒性較差[5]。而基于深度學習方法的行為表達能力不受所提取特征的限制,因而具有較好的適應性及準確性[6]。但現有方法相對較為繁雜,低復雜度和準確性通常無法兼顧[7]。
為此,該文提出了一種基于時空雙分支網絡的行為檢測與識別方案,用于電廠/工區監控視頻的人臉識別與違章安全行為的檢測。
在時空特征提取網絡中,利用卷積神經網絡(Convolutional Neural Network,CNN)獲取圖像的空間域特征,同時基于循環神經網絡(Recurrent Neural Network,RNN)提取圖像的時域特征,如此能夠更好地獲得圖像的時空特征,便于后期的行為檢測與分類[8-9]。
CNN 模仿人類視覺神經結構,通過卷積層與池化層提取信息特征,其模型結構如圖1 所示。

圖1 CNN網絡結構
其中,卷積層是提取圖像特征的過程。其將圖像特定部分抽象到特定的層中,可看作是一個壓縮過程,能夠有效地減少參數量。池化層作用于每個輸入的卷積層特征并能夠對其進行有效地縮減,通常包括最大池化(Max-Pooling)、平均池化(Mean-Pooling)等方法。而該網絡采用最大池化,通過卷積過程中創建的特征最大值減小數據尺寸。
此外,在神經網絡的訓練過程中,首先通過網絡的前向傳播獲得張量x,其計算如下:
式中,x是張量,l是圖層,ReLU 是校正線性單元激活函數,*表示卷積運算,b是偏置量,ω是權重。
然后通過均方誤差(Mean Square Error,MSE)計算損失函數L,為:
式中,n為網絡的總輸出個數,代表f(x)為網絡輸出值,y為真實值。
最后,使用優化算法更新網絡的權值。通常而言,通過構建深層網絡來提取更深層次的特征信息,可獲得更準確的特征表達[10]。
RNN 是一種人工神經網絡(Artificial Neural Network,ANN),其通過內部循環結構將過去的學習以權重形式反映在當前的學習中,能夠解決現有連續、重復及順序數據學習的局限性,適用于處理時間序列問題,該網絡結構如圖2 所示[11-13]。

圖2 RNN網絡結構
RNN 結構的數學表達如下:
式中,W1、W2、W3分別是上一時刻和此時刻的隱藏層權重、輸入層與隱藏層間權重、輸出層與隱藏層間的權重。ht是t時刻隱藏層的輸入,Y是網絡輸出值,δ、σ分別是激活函數,b1、b2均是偏置量。
在基于時空雙分支網絡的行為檢測與識別網絡中,首先,通過時空雙分支網絡獲取視頻流中的行為特征。然后,利用Softmax 函數進行行為分類。整體網絡架構,如圖3 所示。

圖3 提出的行為檢測與識別網絡架構
為了解決高幀率及高通道數與計算量間的問題,采用雙分支形式設計時空特征提取網絡。其中,一個分支輸入的是低幀率的視頻數據,在該分支上能夠盡可能多地提取空間信息;而另一個分支輸入的是高幀率的視頻數據,雖然數據量較多,但該分支側重于獲取高時間分辨率下快速變化的運動,通道數較少。
為保證雙分支網絡能夠端到端地進行訓練,所提網絡采用橫向連接的方式融合兩個分支的特征[14]。當兩個分支進行融合時,若每個分支的時間幀數相等,則容易進行特征融合,但顯然高幀率分支與低幀率分支中時間幀數不同,因此需將其時間域維度調整至相同后再進行融合[15-16]。所提網絡利用將高幀率分支特征壓入低幀率分支且進行橫向連接融合的方式,如圖4 所示。

圖4 橫向連接融合方式架構
換言之,在對應的時間幀上將兩個分支中的特征通道進行串聯疊加,即可保證信息的完整性。
通常而言,雙分支結構在融合調整通道數時使用1×1 的卷積。但當通道數增加時,該方式產生的參數量會大幅增加,因此采用分組卷積的方式以降低計算量。但由于通道分組是在1×1 卷積進行時將所在小組內的通道加以融合,會造成不同小組內的信息無法流通,從而不利于最終的行為識別。為此,引入通道混合的思想,將原先所劃分的小組再適當劃分成更小的子組,子組間相互混合,并在此基礎上進行分組卷積,如此便可更好地融合高幀率分支與低幀率分支中的圖像特征。
基于時空雙分支網絡提取圖像特征后,利用Softmax 函數計算出各種行為識別的分類得分,最終將得分加權求和以得到融合分數并預測行為標簽。
實驗的原始數據來源于某電廠的監控視頻數據,其中包含20 個攝像頭采集的視頻信息及20 000張目標圖像。針對電廠的特殊場景,行為檢測的關鍵在于糾察安全隱患,因此涉及的行為主要包括四種:跨越圍欄、穿越警戒線、起吊物下停留和高空拋物。此外,基于Python 深度學習框架進行實驗,CNN 及RNN 的權值共享,且迭代次數為1 500 次。
為了論證時空雙分支網絡的性能,將其與傳統的時空特征提取網絡進行對比。電廠內人員各種行為的識別準確率,如圖5 所示。

圖5 行為識別結果
從圖中可以看出,起吊物下停留的識別結果較好,由于在進行跨越、穿越、拋物等動作時,上肢及身體擺動的幅度較大,因此不易識別。而所提的時空雙分支網絡具有更高的準確率,以高空拋物為例,其準確率約為93%,較傳統的時空特征提取網絡提高了9%左右。由于時空雙分支網絡利用混合組卷積及橫向連接,充分融合了圖像的空域特征與時域特征,且全面考慮了高頻及低頻圖像的特征,故識別效果更優。
時空雙分支網絡能夠有效提取圖像特征,將其應用于電廠內人員的行為檢測,與文獻[2]、文獻[4]、文獻[6]得到的識別準確率對比如圖6 所示。

圖6 不同技術的行為識別準確率
從圖6 可以看出,相比于其他技術,該文技術的行為識別準確率最高,大約為94%,且收斂速度最快。這是由于其采用時空雙分支網絡來提取圖像特征,并利用Softmax函數進行行為分類,能夠較大程度保證分類的準確率。文獻[2]利用Faster R-CNN 網絡以及文獻[6]利用隱馬爾可夫模型進行行為檢測,二者均采用單一識別技術,故得到的準確率低于所提技術。而文獻[4]利用專家知識設計行為檢測技術,受主觀因素的影響較大,因此整體識別準確率低于90%。
隨著電廠智能化水平的提升,各種視頻監控數據劇增,如何高效地識別人員行為、保障運行安全成為了亟待解決地問題。為此,該文采用時空雙分支網絡技術展開了基于視頻信息的行為檢測與識別方案研究。首先,利用時空雙分支網絡獲取到行為圖像的特征,然后,將其輸入Softmax 函數進行分類,從而得到了人員的行為類型。以某電廠的真實視頻數據集為樣本進行的實驗測試結果表明,時空雙分支網絡對于動態行為的識別準確率更高,提高了大約9%,而且該文所提技術方案的識別準確率高達94%,具有良好的工程應用價值。
雖然該文技術能夠在理想的情況下獲得較高的識別準確率,但并未考慮存在遮擋等情況。因此,在接下來的研究中將重點關注遮擋等特殊情況,以提高行為檢測技術的魯棒性。