秦悅 石躍祥



關鍵詞:深度學習;時空卷積網絡;雙流融合網絡;R(2+1)D
近年來,隨著計算機科學與信息技術的快速發(fā)展,深度學習在計算機視覺領域取得了一系列顯著成果。鑒于互聯(lián)網上多媒體視頻的激增,視頻行為識別在視頻監(jiān)控,人機交互和社交視頻推薦等方面也出現(xiàn)了廣泛的應用。行為識別已經成為計算機視覺重要分支中一個研究重點和難點。現(xiàn)階段,該項研究仍存在許多困難。第一,相比圖像識別,視頻多出一個時序維度,即不僅要得出每幀視頻的靜態(tài)空間結構信息,還要考慮視頻每幀之間的相似性問題和時態(tài)變化信息。第二,為了提高網絡的學習能力,研究中的深度學習算法不斷加深網絡,容易出現(xiàn)效果變差的退化問題。盡管任何視頻幀都可用圖像來表示,但對僅基于動作外觀無法捕獲的運動模式,特定的時空表示顯得至關重要。因此這項任務的關鍵在于如何合理使用深度神經網絡進行時空特征的聯(lián)合提取。空間特征主要涉及到視頻動作中主體對象的外觀描述和環(huán)境描述,其本質即靜態(tài)圖像識別,因此應著重加強空間建模能力,從而更高效地獲取空間語義。對此深度卷積神經網絡(CNN)方法已取得很好的效果并廣泛應用。時間特征是通過捕獲光流特征——在幾個連續(xù)幀之間堆疊的光流位移場,明確地描述視頻幀之間的運動特征。光流網絡不需要隱式地估計運動類別,可大大降低識別的難度。
針對時空特征的聯(lián)合問題,研究人員提出眾多辦法。第一個嘗試是空間特征信息與時間運動信息并行建模,利用兩個CNN網絡將原始視頻幀和光流圖片被用作輸人流分別進行訓練的雙流神經網絡。第二個嘗試,在識別靜止圖像的2D ConvNets(C2D)基礎上,提出3D ConvNets(C3D)來處理視頻數(shù)據。在C3D中,將2D卷積核替換為多一個時間維度的3D卷積核,使得空間特征和時間特征共同學習。然而大量的模型參數(shù)和低下的計算效率限制了網絡的有效性和使用性,其效果并沒有達到預期。隨后,同一作者提出基于ResNet以C3D網絡為基礎的R-C3D網絡。該網絡減小了參數(shù)數(shù)量,降低近兩倍的FLOPs,加快了網絡速度。不僅如此,在同一數(shù)據集中提高了識別精準率,模型的性能遠遠好過C3D。同時實現(xiàn)針對任意長度視頻和任意長度類別行為的端到端檢測。該網絡充分利用了ResNet網絡,有效解決較深網絡存在的梯度消失或者梯度爆炸的情況,使得網絡能自動學習到不同層次的特征。然而,雖然該結構實現(xiàn)了端到端的檢測,但識別準確度仍然不高。
1相關工作
自2012年Alexnet在圖像分類中大放異彩,便奠定了卷積神經網絡(Convolutional
NeuralNetwork,CNN)在計算機視覺領域中的重要地位。卷積神經網絡的局部連通性有利于過濾器的學習,也在一定程度上降低了計算復雜度,非常適用于高維圖像的學習,適合引入到視頻的識別和分類領域中來。視頻中的一些動作可以僅從靜態(tài)圖像中的物體外觀信息來識別,例如擊劍等具特征的運動項目。而對于其他運動來說很難從單個幀來區(qū)分,例如行走和跑步,打哈欠和大笑,蝶泳和蛙泳等。由此Simonyan等人提出一種雙流神經網絡(twostream convolutional networks, TwostreamCNN),視頻中的空間特征和時間特征分開提取和訓練,其架構的兩個流都使用卷積神經網絡,兩個網絡之間得到的不同信息起到了互補的作用,最后通過兩個網絡的softmax層分數(shù)平均結合后得出識別結果。
雙流架構考慮了時間維度信息的重要性,也有空間建模思想,但忽略了針對視頻動作識別的兩個重要因素:(i)兩個獨立網絡分別訓練,無法學習到時間特征和空間特征的像素間的關系。(ii)無法捕捉時間與空間特征之間的像素關系如何隨著時間演變。將空間特征和時間特征結合起來考慮,能為動作識別提供更多線索,從而提升網絡的識別效果。
后續(xù)有人提出TDD網絡結合傳統(tǒng)手工特征IDT方法Xd軌跡,提高雙流網絡識別連續(xù)動作的能力。Feichtenhofer等人將ResNet運用到雙流神經網絡中,將原本的二維神經網絡擴展到三維,直接學習空時域特征。但該算法輸入部分的視頻相鄰幀冗余度過高。提出了幾個不同時間域上的特征采樣融合方法:早期融合(earlyfusion),將一定數(shù)量的連續(xù)視頻幀作為CNN的輸入,使得網絡第一層濾波器就能學習到特征;緩慢融合(slow fusion),隨著神經網絡輸入逐層次持續(xù)增加時間域;晚期融合(late fusion),合并不同時間域的幀上獨立神經網絡的全連接層。與單一的空間神經網絡性能相比,上述方法并沒有獲得顯著的提升效果,由此可見模型并沒有充分利用時間信息。
201 5年Du Tran等人提出了一種更加直接和簡單的3D卷積時空特征學習方法(convolutional 3D,C3D)。相比2D卷積神經網絡(2D ConvNets),3D卷積神經網絡(3D ConvNets)是對CNN的三維拓展,將所有卷積從d×d更改為3×d×d,有助于學習視頻中的時間特征信息。通過實驗證明,C3D網絡的性能優(yōu)于文獻[8]中的輸入幀融合算法。C3D的提出達到了從低級語義的提取上升到高級抽象語義提取高度,超越了傳統(tǒng)的深度學習方法也超過了傳統(tǒng)手工法,是一個簡單又高效的模型。但計算量過于龐大,精度有待提高。經過研究與探索發(fā)現(xiàn),在動作行為識別的分析方面,2D卷積網絡依舊是最好的選擇。而引入了時空維度特征的3D卷積網絡也為視頻的識別研究帶來了明顯的進步。遺憾的是兩者皆有缺陷,2D卷積網絡由于無法提取長序列視頻特征,容易丟失許多關鍵信息;3D卷積網絡計算量過大,導致參數(shù)過多,需要占用許多存儲空間等問題。Zhaofan Qiu等提出Pseud03D Residual Net (P3D ResNet),基于ResNet網絡將3D卷積核進行一系列的變形,將3D卷積拆分為1D關于時間信息的卷積以及2D關于空間信息的卷積,既獲得了時序信息,又可以大大減少計算量。基于上述情況,Du Tran等提出R(2+1)D卷積塊,建立在R3D已經將ResNet運用到3D卷積網絡上的基礎上進行的改動。并在kinetics數(shù)據集上做了相關實驗,論證了其可用性,證明將3D卷積核分解成單獨的空間和時間分開提取可提高精度。另外,實驗中網絡將輸入RGB圖片的結果和輸入光流圖的結果進行融合后又取得了最好的效果,由此可知,時序特征與空間特征的結合尤為重要。
基于上述分析,深度學習在視頻行為識別中的研究還存在以下問題:
問題1提出的雙流架構由于只是在后期softmax層之后進行分數(shù)融合,導致對于時間特征與空間特征的提取并沒有學習到之間的像素對應關系。視頻存在變化性數(shù)據,任意幀之間的相似性很大,需結合空間特征與時間特征提取出連續(xù)幀之間的關聯(lián)特征——時空特征。
問題2提出的架構受到時間尺度的限制。因為空間ConvNet只在單個視頻幀上運行,時間ConvNet僅在若干個相鄰光流幀的堆棧上運行,導致無法處理長時間尺度的視頻。
問題3提出的網絡證明3D卷積核更適合視頻的特征提取,但計算量過于龐大,參數(shù)過多,影響了整體網絡的識別效果。
基于上述分析,在雙流神經網絡模型的改進基礎上,引入了將時空特征分離的R(2+1)D卷積神經網絡,提出一種基于雙流網絡融合與時空卷積的人體行為識別模型。(Spatiotemporal-r(2+l)d)
2雙流網絡融合與時空卷積的網絡設計
2.1R(2+1)D卷積網絡
應用于本文的R(2+1)D網絡模型將傳統(tǒng)的3D卷積改變?yōu)椋?+1)D卷積塊,計算分為空間2D卷積和時間1D卷積。把的t×d×d的3D卷積核變?yōu)?×d×d和t×1×1的兩個卷積核。3D卷積分解使得2D卷積和1D卷積之間產生了額外的激活函數(shù)(ReLU),網絡中的非線性函數(shù)數(shù)目加倍增加了復雜性更利于網絡的學習。除此之外,單獨的空間與時間分量能夠使網絡優(yōu)化變得更加容易,大大降低了訓練誤差。
本節(jié)的R(2+1)D網絡模型的基本架構如表1所示,選用了34層的網絡和兩層的殘差學習單元。網絡包含4個卷積殘差塊,中括號外為每個殘差塊在堆棧中重復的次數(shù)。第一個卷積層過濾器大小為3×7X 7,步長為IX2X2。四個殘差塊中卷積核大小設置為1×3×3和3×1×1,其中conv_3x、conv_4x、conv_5x步長為2×2×2。卷積殘差塊后連接一個全局時空池化層,產生一個512維的特征向量,再送人全連接層,最后通過softmax層輸出最終識別結果。R(2+1)D網絡的第一層輸人為雙流融合后的A個時空特征圖。
2.2整體網絡框架設計
為了進一步提高視頻識別精度,選擇在淺層網絡對輸入的相對分辨率高的圖像進行空間動作建模和時間信息建模,使用雙通道2D Conv并行提取時空特征。在后期深層網絡使用3D Conv,再次進行時空建模。提出的Spatiotemporal-r(2+1)d端到端模型將雙流神經網絡提取的特征進行權重調整與融合得到中層語義特征,輸入到R(2+1)D網絡當中進一步學習,完成行為識別。同時為了實現(xiàn)對長時間視頻有效,在輸入部分使用視頻分段方法。整體框架如圖1所示。
網絡框架分為三個模塊,對輸入視頻進行分段和圖像預處理、雙流網絡部分的加權融合、R(2+1)D網絡的再次空間建模。首先將視頻分成K個等長的片段{S1,S2,…,s},其中S,,由多幀組成。每個視頻幀丁。從s。中隨機取樣,將T。作為空間網絡的輸入,提取得到的特征圖為,這里的a代表空域提取的特征圖。時域網絡則對應輸入連續(xù)光流圖像,設t時刻為視頻幀T的對應時間,那么在時間t時刻對應的L個連續(xù)光流幀圖片在時間域上的位置為得到的時域特征圖為x,6代表時域網絡提取的特征圖。再通過加權的sum融合法得到后續(xù)輸入到R(2+1)D網絡上連續(xù)的個時空特征圖M∈R
Spatiotemporal-r(2+1)d端到端模型在雙流網絡進行特征融合后得到的時空特征圖為中層語義信息,這里時空雙流網絡去掉了全接連層,因為全連接層輸出的是高級語義特征會影響圖像在時間軸上的信息,不利于后續(xù)的建模。隨后將得到的中層語義信息輸入到效果比C3D網絡更好的R(2+1)D網絡進行后續(xù)時空建模。R(2+1)D使用的是經典網絡ResNet。在雙流網絡與三維卷積網絡融合串聯(lián)的情況下,組成的深度網絡容易出現(xiàn)梯度消失的情況,使得網絡效果變差。ResNet在一定程度可解決深度網絡的梯度消失問題。
設計的網絡框架在輸人中導人的光流圖像形成光流信息包涵了每一個靜態(tài)視頻幀圖像的運動信息,提高了時空特征在像素點上的關聯(lián)性和處理視頻幀采樣的魯棒性。
2.3雙流網絡融合方法
人類的視覺皮層存在兩條路徑流,即腹測流(venteal stream)執(zhí)行對運動物體的識別功能和背測流(dorsal stream)執(zhí)行識別具體運動信息(motion)。兩條路徑流的研究不僅成為雙流神經網絡的科學支撐,也體現(xiàn)了光流在視頻識別中是不可缺少的信息。同時在動作識別中,一個視頻序列中的靜態(tài)圖像涵蓋了很強的運動信息,基于單幀的2DConvNet已經取得了很好的效果。將光流信息和空間信息融合獲得中級語義信息,有利于識別度的提高。傳統(tǒng)的雙流神經網絡最終只是在識別結果上的分數(shù)結合,在此對兩個單獨的神經網絡進行了改進,將雙流分別提取的特征加權融合。
將兩個2D ConvNet在特定的卷積層融合,需要考慮兩個因素。首先兩個輸入在同一時刻要具有相同的空間維度;其次需要注意空間網絡通道是否對應時間網絡通道。
雙流神經網絡的特征圖疊加融合法可以應用于VGG網絡中的任意點,唯一的約束條件是兩個輸入特征圖具有相同的維度,這一點可用上采樣來實現(xiàn)。并且處于相對應的通道,D=D。在堆疊通道之后,后續(xù)網絡層中的濾波器必須學習這些通道之間的對應關系,以便區(qū)分不同的動作。本文設計的網絡架構如圖2所示,選擇在第五個卷積層后,將空間流網絡融合到時間流網絡中,并且去除了空間流卷積神經網絡在第五個卷積層之后的結構。串聯(lián)的雙流網絡部分含有五個卷積層和五個池化層。隨后在數(shù)據集上的訓練過程中用前饋與反向傳播的方法調整參數(shù)。在conv5融合后的特征圖為提取的行為識別中級語義特征。
3實驗分析
實驗分為3個部分。(1)對雙流網絡融合的不同位置進行實驗效果對比;(2)對雙流網絡sum融合法中空域網絡權重和時域網絡權重u取值的討論和實驗;(3)將本文提出基于深度學習的Spatiotemporal- r(2+1)d視頻行為識別網絡框架與目前的一些經典方法進行比較。
3.1實驗環(huán)境
實驗配置GPU為NVIDIA GeForce RTX2080TiX 2,操作系統(tǒng)為Ubuntu 19. 10 lts.實驗框架基于pytorch-1. 4+cdua 10.1.243 +cudnn7.6.4開源框架完成。
3.2實驗數(shù)據集
選用UCF-101和HMDB51兩個目前基于深度學習視頻行為識別領域中最為廣泛應用的數(shù)據集進行評估實驗。UCF-10l的數(shù)據集樣本主要來源于YouTube上的視頻,總共有13320段視頻,包含101類行為,每段視頻大約7s左右,視頻幀像素為320×240。行為內容有五大類。包含人與物體的交互運動,如畫眉毛、刷牙、扔球;人的身體運動,如嬰兒爬行、俯臥撐等;人與人的交互運動,如跳舞、理發(fā)、按揉頭部等。以及演奏和體育類運動,跑步、踢球、跳遠等。圖3展示了UCF-101中幾個正確示例。HMDB51數(shù)據集則來源于各種電影和YouTube網絡視頻,共6849段視頻,包含51類。視頻幀的像素為320 X 240。包含人物身體動作以及各種交互行為。與UCF-IOI數(shù)據集相比,該數(shù)據集來源數(shù)據量少,造成對于網絡的訓練有限。在實驗中將兩個數(shù)據集分成均分成3組,分別是訓練集、驗證集、測試集。UCF-10I中每組包含9500多個訓練視頻,2400多個測試視頻和1300多個驗證視頻。HMDB51中每組包含3500多個訓練視頻,1000多個測試視頻和500多個驗證視頻。同一數(shù)據集測試結果的3組實驗結果取均值為本文最終的實驗結果。
3.3參數(shù)設置與訓練
網絡框架分為兩個模塊。雙流網絡模塊采用在ImageNet數(shù)據集上預訓練的VGGM2048模型,R(2+I)D網絡模塊采用在Kinetics數(shù)據集上預訓練過的R(1+1) D-34模型。利用小批量的隨機梯度下降法,動量為0.9,dropout率為0.5,batch-size設置為32。損失函數(shù)為Cross EntropyLoss。在網絡中加入BN(Batch Normalization)層來加速網絡收斂速度,在很大程度上防止過擬合,改善梯度消失問題。
整體網絡分為空域和時域兩個層。空域網絡的初始學習率設置為0. 005,每間隔10000次就減少為原來的1/10,共進行30000次迭代。空間卷積神經網絡輸入是單個視頻幀,輸入的大小由隨機位置裁剪為224X224的子圖。為了進一步擴充數(shù)據,本文對圖片進行水平翻轉、角度旋轉、水平偏移數(shù)據增強方法。時域網絡的初始學習率設為0. 01,在第30000次迭代后每20000次迭代將學習率縮小為原先的1/10,在迭代80000次后停止訓練。時間流卷積神經網絡的訓練過程中,輸入連續(xù)視頻光流圖,本文的光流圖像使用TV-L1法進行計算。輸人大小為224×224X 2L,根據的結論得知L設置為10時效果最好,由于光流圖存在水平和垂直兩個方向,最終光流堆疊為20個密集光流圖。下面兩個圖展示了算法在UCF-10I數(shù)據集上的訓練結果。圖五可以明顯看到,隨著訓練次數(shù)增加,交叉熵損失不斷下降。圖四中,訓練在第100個epoch學習率減小,準確率大幅度上升,并且在第200個epoch之后準確率趨于穩(wěn)定。
3.4雙流網絡融合不同位置的性能分析
在未設置sum融合權重的情況下(U,=1:1)分別在五個卷積層的不同位置融合空域網絡和時域網絡分別提取的特征圖。兩個網絡提取的特征比重一樣,討論在網絡中不同位置融合對識別效果的影響。表2列出在UCF-IOI數(shù)據集和HMDB51數(shù)據集split 1上不同位置融合的準確率。明顯看到融合位置在網絡的第五個卷積層后的識別效果最好。同時與雙流卷積神經網絡原文中提到的在softmax層的雙通道分數(shù)融合效果相比,特征圖的融合法更勝一籌。
3.5不同融合策略下的識別性能評估
空間卷積網絡與時間卷積網絡的sum融合法通過設空域加權系數(shù)和時域加權系數(shù)U形成不同權重的融合,得到最后的輸出特征圖。選擇在雙流卷積網絡模塊的第五個卷積層對融合系數(shù)比例進行不同策略的實驗。實驗分別在UCF-101數(shù)據集和HMDB51數(shù)據集上取3組的平均準確率來對比(all splits)。網絡的行為識別性能如表3所示,權重比例分別取了7種不同占比,可以看出來當空間特征圖占比大時,識別精度隨之下降;反之當時間特征圖占比較大時精度隨之上升。可得出結論,時域網絡提取的時間信息對整體網絡性能起著重要的作用。總結發(fā)現(xiàn)當:u=4:6時網絡識別性能最好,達到了最高的精度。
3.6與經典算法的對比
為了證明提出的網絡框架具備一定的優(yōu)勢,與現(xiàn)有的一些經典算法在公開數(shù)據集UCF-101和HMDB-51上進行對比。表4列出了不同的對比算法,包括傳統(tǒng)的手工設計特征算法(IDT)及基于深度學習的算法。可以明顯看到基于深度學習算法的框架(序號3,4,5)相較于基于稠密軌跡使用的不同特征編碼方法(序號1,2)準確率得到大幅度的提高。其中C3D算法由于網絡參數(shù)過多,導致效果相對較差。但C3D網絡提出的3D Conv開啟了以3D卷積核為基礎的時空卷積神經網絡研究方向,對于視頻的行為識別具有重要意義。同時可以看到,對比最原始的雙流卷積神經網絡算法加入了LSTM循環(huán)神經網絡后準確率也得到了提高,表示合理將雙流網絡與其他方法相結合是可以提高識別效果的。基于雙流卷積網絡算法進行改進,針對長時間視頻時空建模,在UCF-101和HMDB51上分別取得了92. 1%和66. 1%的識別準確率。對比雙流方法分別提高了4. 1%和6.7%,與其他經典算法相比本方法也獲得了更高的精準度。本算法在數(shù)據集UCF-101上運算速度為89幀每秒,相比改進基礎的雙流神經網絡提升了很多,滿足基于深度學習方法快速處理視頻數(shù)據的實時性要求。同時本算法還實現(xiàn)了端到端的網絡結構,實現(xiàn)了基于視頻行為識別任務上的有效性。
6結論
實現(xiàn)了一種基于視頻分段的雙流融合與時空卷積網絡的人體行為識別方法,在UCF101和HMDB51數(shù)據集上進行了識別分類的訓練和測試。完成了對雙流網絡融合的不同位置進行實驗效果對比工作,同時對雙流網絡sum融合法中空域網絡權重和時域網絡權重取值進行實驗,發(fā)現(xiàn)時域特征對識別效果起著重要的作用。最后將提出的基于深度學習的Spatiotemporal-r(2+1)d端到端視頻行為識別網絡框架與目前的一些經典方法進行比較,證明了將時空特征融合之后的中層語義特征輸入到時空卷積模型中能夠進一步提高行為識別的準確率。