馬翠紅,王 毅,毛志強
(華北理工大學 電氣工程學院,河北 唐山 063210)
近年來,研究人員將深度學習應用于視頻監控的目標檢測、行為識別等領域[1]。Simonyan等[2]利用包含空間流網絡和時間流網絡雙流卷積網絡分別提取堆疊光流圖和RGB視頻中的長時運動和表觀特征,該模型僅考慮了視頻中的短期動態特征,視頻中的長期特征沒有得到充分利用。
Woo等[3]提出基于RNN可以實現對視頻中多對象行為進行識別。Hochreiter等[4]提出了長短時記憶網絡(LSTM),用LSTM替代傳統的RNN,解決了RNN梯度消失的問題。Gammulle等[5]設計雙流融合LSTM網絡用于行為識別,且其應用在模式識別等任務中也取得了很好的效果。
針對上述存在的問題并總結各種網絡優勢的基礎上,提出基于注意力的雙流CNN與DU-DLSTM的識別模型來解決復雜場景下監控視頻的行為識別問題。
本文提出的模型采用時空雙流網絡和視覺注意力提取特征向量,輸入DU-DLSTM模塊深度解析后經Softmax函數完成識別任務,模型如圖1所示。

圖1 系統總體框架
LSTM是時間遞歸神經網絡(recurrent neural network,RNN)的另一種形式,LSTM的優點是解決長序列訓練過程中的梯度消失和梯度爆炸問題。簡單來說,與普通的RNN相比,LSTM能夠在較長的序列中發揮更好的作用。
LSTM的整體功能實現的結構如圖2所示,其中LSTM的最重要的部位就是她的記憶單元ct,它實現的功能是對信息進行篩選,留下最佳信息,如式(5)所示,LSTM的最大的特點就是通過它自身特殊的門[6]結構對行為信息與記憶單元之間交互的能力進行操控。LSTM的主要的門結構是通過一個Sigmoid函數具體體現的,其中σ(x)=(1+e-x)-1表示它的Sigmoid函數,Sigmoid函數優點在于其最終輸出值都分布在[0,1]之間,代表最終信息的保留程度。具體如式(1)~式(6)所示

圖2 LSTM內部結構
it=σ(Wxixt+Whiht-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+bf)
(2)
ot=σ(Wxoxt+Whoht-1+bo)
(3)
gt=tanh(Wxcxt+Whcht-1+bc)
(4)
ct=ft?ct-1+it?gt
(5)
ht=ot?tanh(ct)
(6)
式中:xt代表當前記憶單元的輸入,ht-1表示上一時刻細胞的輸出。it,ft,ot,分別為輸入門、遺忘門、輸出門,gt是由雙曲正切函數創建的一個新的候選值向量。具體如式(6)所示,其中LSTM的輸出ht是由ot來具體控制是否需要激活其中的記憶單元ct。本文采用的多層LSTM網絡建模隱狀態,其中每一LSTM層的全部輸出內容成為下一層的全部輸入內容,一層層疊加使其形成多層LSTM。
本文主要提出的空間注意力模型,該模型可以主動學習視頻內空間上的重要的特征的概率分布。采用這里提出的注意力機制充分提取視頻和其具體的光流序列的整體特征[7]。其中假設xt作為具體的空間網絡特征輸出,也為時間網絡的輸入,xt是采樣部分的切片。本文選擇確定性軟注意力機制[8]
(7)
其中,xt表示視頻特征立方體,Xt,i為Xt在t時刻的第i個切片,K2表示切片大小,lt,i表示光流特征提取的空間softmax參數[8]
(8)
(9)
其中,c0為初始狀態,h0為隱含狀態,finit ,c和finit,h分別為多層感知器,視頻段的幀數。
本文提出時間注意模型,解析所有視頻幀與識別動作的相關性,解析光流序列得到隱狀態參數ht,時間注意模型解析視頻幀得到隱狀態參數bt,時間維注意力權重值為

(10)
其中,t表示時間幀,n表示視頻長度;h表示隱狀態層參數,q為其最大值;bt,k和ht,k分別表示視頻幀和光流幀的隱狀態參數向量。本文采用sigmoid函數將時間維注意權重系數限制在[0, 1]區間
(11)
時間流網絡提取特征的概率分布P(yt=c),利用softmax分類器獲得對應類別概率分布

(12)
其中,t代表時間幀,c表示動作類別,P(y′=c)為相關性最大的動作特征。
在行為識別領域LSTM由于可以更好提取長時運動信息備受歡迎,但由于其過多的依賴于所有輸入信息,識別精度受到限制。Chevalier等[9]提出的雙向LSTM使得準確度有了升高。如圖3所示。

圖3 雙向結構Bi-LSTM
雙向LSTM網絡經常遇到各種優化瓶頸,導致識別精度很難進一步提高。通過總結遇到的問題,我們提出 DU-DLSTM模塊,如圖4所示,兩個單向傳遞的DLSTM組合后形成DU-DLSTM單元。當前各種拓展的LSTM網絡結構越來越深,時序信息通過深層次的網絡傳輸后,仍能進行更好地融合,深層雙單向LSTM更好地獲取動作的全局信息,完成識別任務。

圖4 雙單向結構DU-DLSTM
DU-DLSTM單元表示為
hDU=c(d(W1hDL1+b1),d(W2hDL2+b2))
(13)
其中,hDL1和hDL2代表相同傳輸方向的兩個DLSTM單元的輸入,W和b為權重和偏置項,hDU為輸出。
本文使用的視頻數據集是KTH,選擇了一些動作,如圖5所示。該數據集包含固定視角攝像機拍攝的600個動態視頻。視頻的幀率為25 frame/s,視頻每幀圖片的分辨率都為160像素×120像素。有25位不同的實驗對象,4種不同的實驗場景:戶外、室內、戶外(場景變化)、戶外(服飾裝扮變化),6種不同的人體行為:散步(Walking)、慢跑(Jogging)、奔跑(Running)、拳擊(Boxing)、揮手(Hand waving)、拍手(Hand clapping)。

圖5 KTH樣本數據集
首先對數據集進行劃分,隨機取80%作為訓練集,剩下20%為測試集。提取視頻的RGB幀和光流幀后進行預處理,然后將視頻隨機剪輯為25 frames的短視頻后訓練,來增強數據。
本實驗主要選擇的是Python語言,將其搭建在深度學習框架Tensorflow下實現具體的實驗,實驗環境:Ubuntu16.04 64位;NVIDIA GeForce GTX 1080Ti(11 G)顯卡;32 G內存。
在訓練過程中,為加強魯棒性,首先在imagenet數據集下進行了10萬次訓練,得到預訓練模型,對參數進行優化。圖6為具體訓練過程中,光流圖和視頻幀數據隨著訓練次數的增加,識別準確率的具體變化。

圖6 KTH數據集訓練準確率
本文將模型對KTH測試集中6種不同的行為識別結果做了可視化處理,用來觀測模型的效果,對角線元素代表識別的準確率。
通過表1可以看出,分析KTH數據集,慢跑和奔跑行為是最容易混淆的,而拍手、揮手、拳擊、散步的識別率準確率極高。通過人眼觀察原始的視頻也可以看出,慢跑和奔跑的區分度很小,數據本身的相似性極高。

表1 各種行為的混淆矩陣
在先前的實驗中, 已經得到空間注意網絡與時間注意網絡的最佳效果, 受到之前學的結果分布學習相關內容的啟發, 本文對具體提出的空間注意網絡與提出的時間注意網絡得到的實驗結果加以不同的分布比來加權, 進行實驗。實驗結果見表2,分布比=空間層∶時間層。

表2 雙流網絡模型在不同權重比下的準確率/%
從表2可以看出,這里提出的空間注意網絡與提出的時間注意網絡的實驗結果具體的分布比為4∶6時,本文的模型的識別精度相比最高, 在數據集中取得98.9%識別準確率。
最后,將本文的網絡模型與目前識別精度較高算法[8,10,11]測試然后對比,其最終的實驗結果見表3。

表3 不同算法在KTH上的比較結果/%
從表3中可以看出,本文提出的注意力的雙流CNN與DU-DLSTM模型使行為識別的準確率有很大的提高。
為充分融合視頻的時間和空間信息,更加充分利用視頻的長時運動信息,本文提出的基于注意力的雙流CNN與DU-DLSTM的行為識別模型,通過與光流特征結合捕獲場景運動信息,構建基于注意力的空間和時間網絡,利用注意力機制學習相關性較大的特征對象,構建DU-DLSTM模塊拓寬網絡深度,有利于學習表征能力更強的特征,最后采用Softmax最大似然函數對視頻進行分類,提高了魯棒性。在KTH數據集上對模型進行了測試,并與其它算法進行比較,表明本文的模型有效提高了識別精度,本文提供一個很好的方案。