周義 范樓苗 張舟



摘要:行為識別是計算機視覺領域的一個重要研究課題,具有廣泛的應用前景。針對現實中對視頻整體序列結構建模會增加大量的冗余信息,提出了一種基于時空關注度長短期記憶網絡(spatial-Temporal Attention Long-Short Term Memory.STA-LSTM)的行為識別框架,提高了行為識別效率。利用GoogLeNet逐層卷積視頻幀,自動聚合蘊含邊、角和線等底層特征以生成具有顯著結構性的高層語義特征。在LSTM中引入關注度網絡來學習關注度權重,利用光流掩膜分割有效的運動前景區域,從而優化關注度權重,將其與卷積特征相結合作為STA-LSTM模型的輸入特征,從而進行行為識別。在UCF101數據集上的實驗結果表明,本文方法優于當前的一些先進方法。
關鍵詞:行為識別;長短期記憶網絡;關注度;光流掩膜
0引言
識別視頻中的行為動作是計算機視覺重要任務之一,其目的是從視頻中提取、分析和表達行為動作信息。該技術正被廣泛應用于視頻監控、人機交互、醫療看護等領域。隨著深度學習技術在計算機視覺中越來越多的應用,也為研究行為識別開拓了新的方向。然而深度學習本身由于需要大數據量和網絡參數數目過多等局限性,使得模型在計算方面付出了較大的代價。對此,本文重點研究如何挖掘視頻中的有效信息,設計泛華能力強的深度神經網絡,識別視頻中的行為動作。
早期的一些研究主要是利用卷積神經網絡來學習視頻中行為的深度表達。Karpathy等人介紹了一種多規模Sports-1M視頻數據集,來訓練深度卷積神經網絡。Simonyan等人提出一種雙流卷積神經網絡,通過分別處理RGB圖像和光流圖中的外觀和運動信息達到了比較好的行為識別效果。然而,使用卷積神經網絡僅能捕捉極少的時序信息。對此,循環神經網絡能夠較好地解決這個問題,尤其是LSMe.在視頻序列建模方面效果顯著。然而現實場景中,由于視頻時長以及視頻中動作所發生的區域不同,對視頻整體序列結構建模會增加大量的冗余信息。對此,本文在循環神經網絡中引入關注度機制,其能夠模擬人類視覺注意力轉移機制,將有限的認知資源聚集于場景中重要的刺激,而抑制那些不重要的信息。具體來說,利用GoogLeNet逐層卷積視頻幀,自動聚合蘊含邊、角和線等底層特征,以生成具有顯著結構性的高層語義特征。在LSTM模型中引入關注度機制,來學習關注度權重系數矩陣。由于視頻中的背景噪聲和相機移動等因素的影響,利用卷積神經網絡作用于RGB圖像得到的特征不能準確地捕捉視頻中的行為動作信息。針對這個問題,本文利用光流掩膜對視頻中的運動前景區域進行分割,以此來校正網絡所學習到的關注度權重。將關注度系數和卷積特征相結合,生成新的特征激活圖序列。其中高值表示顯著性區域,即得到STA-LSTM網絡的顯著性輸入特征,然后對特征進行學習,從而識別視頻中的行為。本文主要貢獻是:
(1)提出了一種新穎的深度學習框架——STA-LSTM用于視頻中的行為識別,在端到端的處理過程中,本文方法可以準確地捕捉行為的外觀信息和動作信息。
(2)提出的STA-LSTM模型能夠有效地去除冗余信息,提取行為發生的有效區域,提高模型識別效率。
(3)將本文方法應用于UCF101數據集取得了良好的識別效果,與當前一些優秀的研究工作相比,在識別性能方面得到了顯著地提升。
1相關工作
行為識別的目的是從未知視頻或圖像序列中自動識別其中進行的行為動作,行為本身是相關聯的一系列二維空間圖像在時間方向上的連接。因此,行為本身具有空間和時間上的結構關聯特性。行為特有的空間和時間結構特性,為許多研究者指明了行為識別的正確方向。
早期行為識別主要使用一些傳統算法,Vemulapalli等人在Lie群組中用曲線表示每個動作并且使用SVM分類器來識別行為,Zanfir等人提出了一種移動姿態框架,結合修改后的kNN分類器進行低延遲行為識別。Carlsson等人通過從動作視頻中提取到的關鍵幀以及保存的動作原型之間做模板來完成行為,其中,形狀信息是用Canny邊緣檢測器得到的邊緣數據來表示的。這種方法能夠容忍圖像和樣本之間一定程度的形變,且能夠準確識別不同人體姿態形成的相似的形狀。Tang等人采用隱馬爾科夫(HMM)模型建模行為的隱狀態變化過程。Pei等人將行為分解為具有語義原子動作集合并定義原子為行為體與目標交互關系的集合,通過與或圖學習原子動作的時序關系,能夠有效剔除時序錯誤的與或圖行為解釋,提升了識別及預測行為的性能。
后來深度學習技術在計算機視覺中得到廣泛應用,Heilbron等人)使用序列編碼器(即LSTM),可以模擬隨著時間推移的C3D特征的演變,使用定位模塊生成整個輸入視頻中不同時間長度的候選提議的開始和結束時間,以進行行為提議。Simonyan等人通過在光流上訓練一個神經網絡來整合運動信息。利用外觀和光流特性,動作識別的準確性顯著提高。Lin等人嘗試使用序列過程提取時空特征,即提取一維時間信息到二維空間信息。該端到端系統考慮長短運動模式,并實現良好的性能。NC等人運用深度神經網絡模型,結合幀序列分析視頻的長期依賴信息用于行為識別。Srivastava等人提出了一種基于興趣點LSTM的無監督訓練方法,使用編碼器LSTM將輸入序列映射成固定長度表示;然后使用單個或多個解碼器LSTm.對其進行解碼以執行輸入序列的重構或預測未來序列:最后對這個無監督的預訓練LSTM進行微調,以適應人類行為識別任務。
融入注意力機制的循環網絡模型可以提取行為發生的時空有效區域,有效剔除視頻中的冗余信息。Yao等人介紹了一種時序注意力機制用于視頻標題生成。Bazzani等人提出一種關注度模型學習視頻中的重要區域,對每一幀使用高斯混合進行視覺關注度建模。Sharma等人使用三層LSTM網絡,引人注意力機制,在網絡中加入關注區域的移動、縮放機制,連續部分信息的序列化輸入,學習視頻的關鍵運動部位。受這些研究工作的啟發,本文使用光流掩膜對視頻中的運動前景區域進行分割,在不增加模型復雜度的情況下,還能利用重要的運動信息,能夠有效提取場景中顯著性區域,實驗結果表明本文方法取得了良好的識別正確率。
2 模型框架
本文的模型架構如圖1所示。首先利用GoogLeNet對視頻幀序列進行卷積,提取最后一層卷積層特征:在LSTM中引入關注度機制,作用于卷積層特征的每一個區域;利用光流掩膜提取每一幀的運動前景區域作用于關注度網絡,得到新的關注度權重矩陣,將之與卷積層特征相結合。作為STA-LSTM模型的輸入特征,通過對特征的學習,進而對視頻中的行為進行識別。
2.1 特征提取
本文使用在ImageNet數據集上預訓練好的GoogLeNet模型,逐層卷積已重新調節大小為224×224的視頻幀序列,提取最后一層卷積層特征。此卷積層包含1024個特征圖,包含了輸入視頻幀的空間外觀信息,其形狀為7x7×1024大小的特征立方體。因此,在每一個時間步長t.提取的向量維度是49x 1024。將這些特征立方體分解為特征片段:Gt=[Gt.1,Gt.2,…Gt.49],這49個特征片段對應于輸入視頻幀的不同區域,本文的關注度模型就是選擇性地關注這49個區域。
2.2 時空關注度的表達
使用GoogLeNet得到最后一層卷積層特征之后,在LSTM中引入關注度機制,作用于卷積層特征的每一個區域。同時,利用光流掩膜分割有效的運動前景,從而修正行為發生的有效區域,即本文提出的STA-LSTM模型,如圖2所示。圖中左側藍色框內為初始化記憶單元和隱單元。為了達到快速收斂的效果,使用兩個三層感知器來初始化STA-LSTM模型的記憶單元和隱單元,以此來計算初始的關注度得分公式如下:
行為識別中,視頻幀中僅有一部分區域和行為發生相關。顯然,為視頻幀中不同的區域分配不同的關注度權重,只需要關注這些行為發生的區域。如圖1所示,針對打網球這一行為而言,主要關注點為手臂、球拍和網球本身。由于視頻幀本身是連續的,相鄰幀之間存在強烈的時序依賴關系,所以可以利用t-1時刻的編碼特征來預測t時刻的關注度權重,然后用此權重來精煉模型的輸入特征,t時刻單個STA-LSTM單元結構如圖2所示。使用關注度模型作用于視頻幀中的7x7個區域來預測49個區域的關注度權重,其得分lt.i可以表示為:
其中,Wl.i表示softmax函數對應于第i個位置的權重,i=1.2.…,49.t=1.2.…,T;T為序列化幀數的長度;lt.i表示第‘幀的第i個區域的關注度權重。
由于場景中存在背景噪聲的干擾,而且同種行為可以發生在不同的場景中,因此,人們利用光流掩膜對運動前景和后景進行分割,對行為的發生區域進行初始劃分,表示為mt.i,當分割后的第i個區域為運動前景時,mt.i為1;當分割后的第i個區域為背景噪聲時,mt.i為0。對視頻幀的前景和后景進行分割可以對關注度模型掃描區域加以有效地限制。提取出前景區域后,對前景區域中的關注度得分進行統計求和。此處,設置和的閾值為Th.定義新的時空關注度得分St.i,如下所示:
2.3 STA-LSTM模型
使用光流掩膜對行為前景和后景進行分割,有效地限制了關注度模型的關注范圍,而不是利用光流特征和外觀特征分別計算關注度得分。在利用外觀和動作特征的同時還降低了網絡復雜度,減少了計算量。得到上述關注度得分后,如圖2所示,STA-LSTM模型的輸入可以表示為:
其中,W和b表示LSTM參數。公式(5)、(6)和(8)中的ft真是忘記門,it是輸入門,ot是輸出門。gt如公式(7)計算所得,表示t時刻候選記憶單元狀態。公式(9)和(10)中的ct和ht表示t時刻記憶單元狀態和隱單元狀態,xt代表t時刻的輸入特征。σ(·)和tanh(·)表示sigmoid和tanh激活函數,⊙表示哈達馬積。
STA-LSTM模型的核心就是忘記門和輸入門,忘記門根據當前的輸入xt、上一時刻狀態ct-1和上一時刻輸出ht-1,共同決定哪一部分記憶需要被遺忘。輸入門根據xt,Ct-1和ht-1決定哪些部分將進入當前時刻的狀態Ct。STA-LSTM結構在計算得到新的狀態Ct后,通過輸出門根據最新的狀態Ct、上一時刻的輸出ht-1和當前的輸入xt來決定該時刻的輸出ht。
最后,使用sofimax函數作用于最后一個隱單元得到最終結果:
yd=softmax(WshT+bs),(11)
其中,yd代表模型預測值;d表示子序列的樣本編號;Ws和bs為softmax函數的參數。
2.4 損失函數
本文的樣本損失函數如下:
其中,第一項表示交叉熵損失函數,第二項表示模型其它參數的正則化約束。
3 實驗
3.1數據集
本文方法所用的數據集為UCFl01.其中包含13320個視頻,分為101種行為類別,選取每個類別視頻總數的三分之二作為訓練集,剩下的作為測試集。所有視頻均采集于現實場景,在相機移動、物體外觀、人物姿態等方面變化多樣,因此廣泛應用于各種行為分析的研究。
3.2 實驗細節及評價標準
將所有視頻分解為視頻幀序列,并將分辨率重新調整為224×224大小,將視頻幀序列輸入在ImageNet數據集預訓練好的GoogLeNet模型中。本實驗取其最后一層卷積層特征作為STA-LSTM模型的輸入,STA-LSTM結構隱單元的數量為1024.權值衰減系數人設為10-5,優化算法使用Adadelta.深度學習框架為了heano。模型在訓練和測試時序列化輸入幀的數量均為了(T=16)幀,將視頻幀按照步長為1分成多個T幀的子序列。在測試階段,針對每個視頻預測其所有子序列的所屬類別,并和標簽值相比較統計正確的類別數,作為該視頻的識別正確率,最后對所有視頻的正確率求均值作為最終的識別正確率。
3.3 實驗結果及分析
首先,通過表1來驗證本文的時空關注度對識別效果產生的影響。其次,通過設置前景區域中時空關注度得分和不同閾值(Th),觀察模型在UCF101數據集上的識別效果,見表2。最后將本文方法和當前一些優秀方法進行比較,比較結果見表3。由表1可明顯看出,在引人時空關注度后,本文所提出的新模型所取得的效果顯著,從而證實了本文方法可以應用于行為識別。
由表2可知,不同的Th值對實驗結果有很大的影響。當Th較小時,不能提供有效的參考區域,當Th較大時,由于背景噪聲、相機移動、光照條件等影響,造成前景分割的不準確,容易對關注度模型矯正過度。經實驗驗證,當Th值為0.7時,識別效果最佳。
表3表明,與當前一些優秀方法相比,本文方法所達到的識別正確率更高。而且,相比于其它關注度方法而言,本文通過光流掩膜分割運動前景區域后,模型能夠更有效地關注視頻中顯著區域,提高識別效率的同時并沒有增加模型復雜度。如圖3所示,圖中(a)、(b)、(c)分別表示原始視頻幀、本文方法所學習到的顯著性區域、Soft Attention Model學習到的顯著性區域,可以看出本文方法能夠更準確地學習顯著性區域。為了進一步論證本文關注度網絡的效果,如圖4所示,在“顛球”這一行為中,本文方法可以準確地捕捉足球、膝蓋和腳等顯著性區域。
為了更詳細地觀察本文方法的細節效果,逐幀定位單個視頻的具體識別情況。這里以該幀為首的子序列的識別正確率作為該幀的識別正確率。抽取一個行為類別為“扣籃(Basketball Dunk)”的視頻,如圖5所示,觀察該視頻全部幀的識別情況。為了便于觀察,本圖只選取識別正確率排名前三的類別,如圖6所示,分別為“扣籃”、“投籃(BasketballShooting)”和“扣球(Volleyball Spiking)”。顯然,本文方法將該視頻正確地識別為“扣籃”,因為“投籃”和“扣籃”的相同點就是這兩種行為都需要籃球,“扣球”和“扣籃”相似之處在于“扣”這一動作特性,在不影響判別準確性的前提下,本文方法也將“扣籃”這一行為以微小的概率預測成“投籃”或者“扣球”這兩種行為。
4 結束語
本文提出一種循環時空關注度網絡,用于視頻中的行為識別。通過外觀等特征學習視頻中的顯著性區域,同時利用光流掩膜分割運動前景區域對關注度網絡學習到的顯著性區域進行校準劃分,使得模型能夠更準確地關注視頻中的顯著性區域從而捕捉更重要的信息,提高行為識別效率。實驗結果表明,與當前一些優秀方法相比,本文方法所達到的識別正確率更高。相對于UCF101的行為類別較為簡單易理解。未來,希望本文的方法可以應用于更加復雜的視頻場景中,如大型監控場景下的視頻理解、異常檢測等,將有助于維護公共安全等領域。