多模態特征融合的長視頻行為識別方法

2021-12-01 07:41:24劉光輝張鈺敏孟月波徐勝軍

計算機測量與控制 2021年11期

王婷, 劉光輝, 張鈺敏, 孟月波, 徐勝軍

(西安建筑科技大學信息與控制工程學院，西安 710055)

0 引言

隨著信息時代的快速發展，網絡視頻數量日創新高，如果不對視頻內容加以檢索，視頻可能會成為謠言的載體，對社會帶來不利影響。傳統的視頻檢索是依靠人進行分析檢查，而行為識別技術可以代替人工檢索，在大量視頻數據庫中自動檢索出指定的行為類別，為視頻篩選檢查提供技術支持。

針對視頻行為識別問題，研究人員先后提出了各種各樣的方法，目前，行為識別方法主要可以分為基于傳統機器學習[1-2]、基于深度學習[3]兩大類。基于傳統機器學習的視頻行為方法主要是通過類似背景減除法提取人員整體輪廓[4-5]或者諸如時空興趣點[6]、Harris角點[7]等局部特征，但此方法所提取的行為特征單一、特征提取過程復雜且工作量較大，對高遮擋、光照變化、背景等因素較為敏感。隨著社會的發展，諸多領域對行為識別任務提出了更高的要求，這些方法受其自身的局限性，已無法滿足行為識別任務的精度要求。

基于深度學習的方法因具備獲取輸入數據隱含的深層次特征的能力，在圖像分類、場景分割、文本識別等領域有著廣泛的應用[8-10]，同樣被研究人員用于行為識別任務中。Simonyan等人[11]首次提出雙流網絡模型，該模型包含兩個卷積神經網絡分支，通過從視頻圖像中獲取不同的輸入數據模態進行特征提取，進而提取視頻數據的空間信息和時間信息。但因其僅通過一幀來解決空間建模問題，對視頻的時域建模能力十分有限[12]。為了解決這一問題，文獻[13]提出一種時域分割網絡(TSN，temporal segment network)，通過對視頻進行時域分割和稀疏采樣，從輸入視頻的多個時域片段中隨機抽取一個片段，最后聚合不同片段的輸出信息得到視頻級識別結果，但該網絡在特征提取過程中忽略了視頻幀在時間維度上的動態相關性，且網絡分支過多，不適用于長視頻預測。

因長視頻預測主要的解決思路是獲取視頻數據的時空信息，針對于此問題，文獻[14]使用長短時記憶網絡(LSTM，long short term memory network)分別獲取視頻數據的全局信息和局部關鍵信息，其中第一個LSTM網絡對輸入圖像包含的完整骨架信息進行編碼，獲取視頻的全局特征信息并從中選擇出包含較多信息的關鍵點，第二個LSTM網絡對信息量大的關節進行特征提取獲得局部關鍵信息。該方法能夠利用LSTM網絡對視頻幀序列進行處理，進而獲取長視頻的時域信息，但輸入數據為骨架序列，限制了其在多類別行為識別任務中的應用。

文獻[15]將卷積操作擴展至時間維度，提出3D卷積結構，解決了視頻識別任務中時空特征提取的問題。文獻[16]提出一種基于3D卷積的特征提取網絡(C3D，convolutional 3 dimention)，該網絡通過將3D卷積核設置為3×3×3，使其能夠提取有效且緊湊的時空特征，在許多視頻級任務中獲得了較好的結果。然而，在真實場景下，攝像機的高度和角度并不相同，導致拍攝的視頻圖像在視角上呈現較大差異，C3D網絡不適合用于處理尺度特征變化較大的視頻數據。為進一步提升3D卷積網絡的識別性能，文獻[17]提出長時序卷積結構(LTC，long-term temporal convolutions)，該方法通過改變網絡的輸入數據量，使其能夠在不同時長的視頻數據中保持良好的行為識別性能，但網絡參數需隨視頻長度動態變化，使得該方法難以在實際任務中得到應用。另外，由于3D卷積操作在進行時空特征提取時面向的是視頻圖像幀，因而當視頻圖像本身受光照變化、復雜背景等因素干擾較多時，網絡所提取的時空特征難以對視頻中的行為進行有效表征，可能會導致錯誤的預測。

由上述可知，3D卷積在一定程度上解決了視頻級任務中時空特征提取的問題，但上述方法仍無法有效解決長時域建模能力不足、視角變化導致的全局時空特征提取能力差、光照變化和復雜背景干擾等問題，基于此，本文提出一種多模態特征融合的長視頻行為識別方法(long video action recognition method based on multimodal feature fusion)。首先，在數據采樣階段建立整個視頻段的時域建模；其次，通過不同大小的3D卷積核獲取多尺度時空特征，弱化視角變化對視頻圖像帶來的干擾；后引入光流數據信息，通過空間注意力機制引導的特征提取網絡獲取光流數據的深層次特征，通過不同數據模式之間的優勢互補，提高網絡在不同場景下的準確性和魯棒性；最后，將獲取的多尺度時空特征和光流信息在網絡的全連接層進行融合，實現端到端的長視頻行為識別。

1 基于多模態特征融合的長視頻行為識別方法

本文整體技術路線如圖1所示，首先，以長視頻數據為處理對象，以全視頻時域建模為出發點，基于多列卷積的特征提取網絡提取能夠適應于視角變化的全局時空特征，基于注意力機制引導的特征提取網絡獲取光流數據的深層次特征；而后，在全連接層進行特征融合并利用Softmax分類器完成最終行為識別。

圖1 長視頻行為識別算法框架圖

1.1 視頻采樣

本文提出的網絡主要為識別長視頻，但考慮到長時序行為幀間差距較小，隨機采樣容易引入大量冗余信息，并消除視頻圖像在時間維度上的相關性，因此在獲取全視頻段的長時時域信息，建立視頻級特征提取網絡時，本文引入均勻稀疏采樣策略完成全視頻段的時域建模，在降低視頻幀冗余度的前提下實現長時序信息的充分保留。假設當前視頻剪輯有N張特征圖，則當前采樣值S可以表示為：

S=[N/l]

(1)

式中,S代表當前視頻的采樣值，N代表當前視頻經數據預處理后的圖像幀數，l代表網絡輸入的數據量，根據得到的采樣值S對特征圖進行位置索引，得到模型輸入L=[L0,LS,...L(l-1)S,LlS]。

本文提出的采樣方法類似于LTC，同樣需要計算每個視頻的時長，但與LTC不同的是，LTC是根據視頻的時長改變網絡輸入的數據量和輸入圖像的分辨率，本文通過動態采樣值保證了網絡輸入數據量的一致性，無需調整其余參數，能夠適用于不同時長的視頻數據。

1.2 多尺度時空特征提取網絡結構

由于卷積神經網絡在逐層提取特征時，輸入圖像會隨著池化操作逐層降低圖像分辨率。以往用于行為識別的3D卷積神經網絡沒有考慮低層特征對于時空特征向量生成的影響，而行為識別任務不僅僅關注于運動主體本身的動作，與場景的空間信息也存在密切關系，基于此，本文設計了一種多尺度時空特征提取網絡，具體結構如圖2所示。網絡主要包括3部分：多尺度卷積模塊、基礎骨架網絡(C3D)、多特征信息聚合。首先，通過多尺度卷積模塊獲取原始圖像的全局特征，而后利用基礎骨架網絡生成高低層時空特征，最終通過多特征聚合模塊的語義特征嵌入融合方式，將高層時空特征包含較多的語義信息引入低層時空特征，增強低層時空特征的語義表達，使得上下文時空信息和尺度信息相互補充，提高網絡對時空特征的表征能力。

圖2 多尺度時空特征提取網絡

1.2.1 多尺度卷積

由于拍攝視頻時往往存在視角的動態切換，導致視頻圖像存在較大的尺度變化，而單列卷積難以應對視頻圖像中的尺度變化問題。因此，本文設計了一種用于時空特征提取的基于多列結構的多尺度卷積模塊，具體結構如圖3所示。在多尺度卷積模塊中，采用3個不同大小的3D卷積核從原始的輸入圖像塊中學習與尺度相關的特征，實現多尺度信息的有效獲取，本文采用的多尺度卷積塊結構如圖4所示，經實驗驗證，采用3×3×3、5×5×5、7×7×7的卷積核能夠有效聚合全局時空信息。

圖3 多尺度模塊卷積結構

圖4 多尺度卷積塊結構

1.2.2 基礎骨架網絡

本文采用基礎骨架網絡(C3D)進行特征提取，該網絡以堆疊的視頻RGB幀作為輸入數據，再利用3D卷積核進行特征提取，卷積核大小決定了提取視頻特征的有效性，由于視頻圖像存在動態遮擋、視角變化等問題，這就要求網絡所提取的特征必須是通用而有效的，同時在時間維度上，視頻特征之間的聯系要緊湊，基于此，C3D網絡包含的8個3D卷積層中所有的卷積核大小均被設置為3×3×3；池化層均采用最大池化操作，其中，pool1內核為1×2×2，其余池化內核均為2×2×2；網絡共有2個全連接層，主要用于對特征向量進行降維。網絡結構如圖5所示。為了應對視頻圖像中的尺度變化問題，本文將該網絡的第一個卷積層替換為多尺度卷積模塊，通過多尺度卷積獲取原始圖像的全局特征。

圖5 C3D網絡結構圖

1.2.3 多特征信息聚合

(2)

式中,m表示第i-1層中與當前特征圖相連的特征圖；Li與Wi表示卷積核的長度和寬度；Hi表示卷積核在時間維度上的尺寸；W代表與i-1層相連的第m個特征圖的連接權值；bi,j表示第i層第j個特征圖的偏置；f為ReLu激活函數。

隨著卷積層網絡的加深，卷積過程會丟失一部分特征信息，由于高層時空特征網絡的感受野比較大，所提取的高層時空特征中包含的語義信息較多，空間細節特征較少；低層時空特征網絡的感受野比較小，所提取的低層時空特征中包含的空間細節信息較多，高級語義信息較少，如果缺失高層語義信息或低層空間細節信息，均會影響最終的行為識別結果，導致精度降低。針對這一問題，本文構建了一個多特征信息聚合模塊，用于聚合高低層時空特征。首先，利用4個并行的1×1×1卷積核將高低層時空特征的通道值均設置為512；然后，通過語義嵌入的方式，對高層特征重采樣與次高層特征進行自頂向下融合，將高層語義信息用于改進低層的細節信息，再對融合后的特征進行重采樣與下一層特征進行融合，增強低層時空特征的語義表達。本文采用的時空特征語義嵌入融合算法如下：

Hl=Upsample(Ml+1)+Ml

(3)

式中,Hl表示在L層語義嵌入后的時空特征；Ml+1、Ml分別為通道值為512的高低層時空特征。

之后，采用不同步長的3×3×3卷積核將時空特征圖映射為具有相同維度的特征圖；最后，將嵌入語義信息后的高低層時空特征進行融合，融合后的高低層時空特征Fhl計算公式如下所示：

(4)

式中,Fl表示在L層的時空特征；lmax、lmin分別為最高層及最低層特征索引位置。

1.3 光流特征提取

真實場景下視頻圖像容易受視角和光照變化、復雜背景等因素干擾，因此僅將視頻幀作為網絡的輸入模態難以對視頻中的行為進行有效表征，鑒于此，本文引入光流數據(Optial Flow)作為模型的又一輸入模態，采用光流信息的原因主要在于：①光流是空間運動物體在觀測平面上像素運動的瞬時速度，能夠反映視頻圖像中運動主體的速度、方向等信息；②光流具有表觀不變性，表現在視頻中的復雜背景及運動主體本身差異性不會影響光流的表現形式[18]。

基于此，本文設計了光流特征提取網絡，具體結構如圖6所示。將光流圖作為網絡的又一輸入模態，以減少光照變化、復雜背景等因素的干擾。以往用于提取光流特征的網絡結構較淺，對光流信息的提取更關注于淺層細節信息，而忽略了光流中更深層次的高級語義信息，為充分挖掘光流數據的潛在特征，使用深度殘差網絡[19]ResNet101模型作為基礎結構，考慮到光流圖中的關鍵信息往往聚集在動作發生的區域，本文在基礎網絡中添加了空間注意力機制，通過空間注意力選出關鍵信息，再送入殘差網絡進行特征提取。

圖6 光流特征提取網絡結構圖

注意力機制的本質就是定位到與當前任務相關的區域[20]，抑制無關信息。由于光流圖呈現的內容是動作發生顯著變化的區域，所以通過空間注意力機制能夠有效定位到圖像中的關鍵信息，有效提升網絡性能。

本文采用的空間注意力模型完整結構如圖7所示，對于特征映射F，首先經過一個最大池化層和一個平均池化層獲得兩個大小為1×H×W特征圖，再通過一個7×7大小的卷積層獲得點對點的空間信息，然后使用sigmoid函數對空間信息進行激活，得到最終得到的空間注意力激活圖MS，具體如公式(5)所示。

圖7 空間注意力模塊

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=

(5)

1.4 多模態特征融合

不同模態的特征向量可以通過簡單的Add相加進行融合，或是在網絡末端的決策層進行簡單的得分融合，但這些融合方法忽略了特征向量間可能存在的語義沖突關系，導致多模態特征融合過程中可能出現語義信息弱化現象，從而導致模型精度降低。基于此，本文通過構建并訓練基于全連接層的多模態特征融合網絡結構，將4096維度的多尺度時空特征和4096維度的光流數據特征映射到4096維的特征融合空間，這種特征融合方式的優勢主要在于模型能夠在訓練階段學習兩個并行網絡各自的特征參數，并自主完成協調反饋，實現了模型的端到端訓練。

1.5 分類器

人體行為的多樣性、復雜性要求在進行任務分類時必須更多地保留特征的有用信息，因此，本文選擇Softmax函數將特征向量映射成概率序列，以保留更多特征的原始信息。Softmax計算輸出類別y(i)的過程如公式(6)所示。

(6)

式中,ηi為融合后的特征值；k為類別數；P表示y(i)屬于類別k的概率值。

2 實驗與結果分析

本文及對比算法均在Ubuntu16.04系統下進行，GPU型號為RTX 2080Ti，實驗環境配置為CUDA10.2+anaconda3+python3.7+ pytorch-1.12.0。模型訓練過程采用小批量隨機梯度下降算法，網絡初始訓練學習率為1e-3，迭代次數為500次。此外，為使模型充分訓練，本文采用數據增強方法，對樣本圖像進行隨機裁剪、旋轉、放縮等操作，增強網絡模型的魯棒性。

2.1 實驗數據集

本文在UCF101[21]數據集及HMDB51[22]數據集上進行了實驗與實驗結果分析，其中UCF101數據集是從YouTube視頻網站收集的人類日常活動的視頻，共計13 320個視頻數據，包括101個動作類別；HMDB51數據集大部分數據來源于互聯網和電影剪輯，視頻圖像受光照和視角變化、背景遮擋等因素影響較大，共計6 849個視頻數據，包括51個動作類別。實驗按照UCF101和HMDB51數據集官方給出的3種原始劃分方案進行訓練和測試，并以3種劃分方案的平均準確率作為最終識別結果。為了便于訓練，對數據集進行視頻幀截取和光流提取，其中，視頻幀通過ffmpeg截取，光流圖通過dense_flow工具提取，預處理后的數據如圖8所示，從左到右依次為RGB圖、X方向光流圖、Y方向光流圖。其中，RGB圖像素大小為128×171，光流圖像素大小為240×320。

圖8 RGB圖、x方向光流圖及y方向光流圖

2.2 評價指標

為綜合評價模型的分類性能，采用準確率(Accuary)作為衡量模型的評估指標，即：

(7)

式中,TP和TN表示被正確分類的樣本數據；FP和FN表示被錯誤分類的樣本數據。

2.3 實驗結果定性分析

分析表1可知：(1)在基于單模態輸入的視頻行為識別任務中，僅基于光流的行為識別方法的識別準確度要高于僅基于視頻RGB幀的方法，在HMDB51數據集上，視頻圖像受光照變化、背景遮擋等因素影響較大，僅基于光流的行為識別方法的識別準確度比僅基于視頻RGB幀的方法高出14.1%，說明相較于視頻圖像，光流具有更強的特征貢獻率；(2)多模態融合的行為識別方法的準確度要高于單一模態輸入的行為識別方法，說明在行為識別任務中，多模態融合的方法能夠結合不同數據模式的優勢互補，有效提升行為識別精度。

表1 本文方法在不同輸入模態下的實驗結果 (%)

2.4 不同采樣方式對比

表2顯示了本文設計的網絡結構在UCF101、HMDB51數據集上使用不同采樣方式的實驗結果，其中SI表示本文所提出的均勻稀疏采樣，RI表示隨機采樣，RSI表示消除時間相關性后的SI采樣數據。

表2 不同采樣方式在UCF101和HMDB51數據集上的實驗結果 %

實驗結果表明，本文所用的均勻稀疏采樣策略比隨機采樣具有更高的識別準確率，原因在于隨機采樣引入了大量的冗余信息；消除采樣數據的時間相關性后，時空特征網絡和光流信息網絡的識別準確率均有所下降，說明了時間維度信息在視頻行為識別中的重要性。

2.5 與其他方法對比

為綜合驗證本文所提方法的有效性，本文將單輸入模態下的實驗結果與當前主流的行為識別方法進行對比，具體如表3和表4所示。

表3 基于RGB單模態的行為識別方法在UCF101和HMDB51數據集結果比較(%)

表4 基于Optial Flow單模態的行為識別方法在UCF101和HMDB51數據集結果比較 (%)

分析表3可知：(1)較之對比算法LTC，本文設計的多尺度特征提取網絡在UCF101和HMDB51數據集上分別提高了6.7%和0.9%，驗證了多尺度特征提取網絡的有效性；(2)HMDB51數據集上的識別準確度均偏低，說明當視頻圖像受光照變化和背景遮擋等因素影響較大時，僅以視頻RGB幀作為網絡輸入數據模態的方法具有一定的局限性。

分析表4可知，本文設計的光流特征提取網絡能夠有效獲取光流數據的深層次特征，較之其它對比算法，對光流特征圖的特征分類性能有明顯提升。

為驗證本文所提方法的有效性，將最終實驗結果與當前主流方法進行了比較，具體如表5所示。

表5 UCF101和HMDB51數據集上本文方法與其他算法比較 (%)

分析表5可知，本文所提方法在UCF101和HMDB51數據集上有良好的表現，較之對比算法，不僅能夠識別對長視頻中的人體行為，且具有更高的識別準確率。

3 結束語

本文提出一種多模態特征融合的長視頻行為識別方法，網絡首先在數據采樣階段引入了均勻稀疏采樣策略，進而完成全視頻段的時域建模，其次，通過多列卷積獲取多尺度時空特征，弱化視角變化對視頻圖像帶來的干擾，后引入光流數據信息，通過空間注意力機制引導的特征提取網絡獲取光流數據的深層次特征；最后，將獲取的多尺度時空特征和光流信息在網絡的全連接層進行融合，實現了端到端的長視頻行為識別，解決了基于卷積神經網絡的視頻行為識別方法存在的長時序行為識別能力不足、尺度特征提取困難、光照變化及復雜背景干擾等問題。在UCF101和HMDB51數據集上的實驗結果驗證了本文方法的有效性。