基于多輸入流的卷積行為識別網絡*

2023-03-18 11:40:48劉石磊李欽楊耿

科學與信息化 2023年5期

關鍵詞：方法

劉石磊李欽楊耿

1. 深圳信息職業技術學院廣東深圳 518172；

2. 香港理工大學香港 999077

引言

行為識別作為計算機世界領域的研究重點，在視頻監控、人機交互、環境輔助生活、智能駕駛等應用方面有很大的應用空間。但是，受到遮擋、視角變化、尺度變化、陰影、光照變化和類內變異與類間相似性等的影響，人體行為識別率并不理想。

由當前的行為識別方法上看，主要體現在以下方面：第一，基于圖像局部特征檢測的方法，即利用多極體系結構分級的建構實施行為識別的方法；第二，運用深度學習開展行為識別的方法。

基于圖像局部特征檢測的方法：使用方向梯度直方圖（Hog）或尺度不變（SHIFT）檢測子來提取視頻中的形狀信息，并用光流直方圖（HOF）或運動邊界直方圖特征提取視頻中的運動信息（MBH），然后用詞包形式進行編碼，并訓練分類器識別人體行為[1-3]。

基于深度學習的方法：以上所提出的基于圖像局部特征的人體行為識別方法，即把視頻圖像中所提取的局部特征，依托手工制造獲得高維特征，所以這些方法具有很強的針對性，但通用性并不是很好。為了獲取通用性強的視頻中人體行為識別的方法，近些年來，學者們開始對基于深度學習算法應用的研究。

由目前的基于深度學習的方法上看，主要如下：第一，基于雙流的方法，即運用空間流（spatial）、結合幀圖像提取到的光流場圖像（temporal flow），并對視頻圖像、密集分流開展CNN模型的訓練，判斷兩個分支網絡關于動作的識別，融合兩個網絡的直接平均分類得分、svm分類得分，從而得出最終的結果[4-6]。

第二類是基于3D卷積網絡的方法，通過3D卷積，可以直接處理視頻[7-9]。

當前，在基于視頻的行為識別應用領域，深度學習得到了普遍應用，但是仍面臨著兩個主要問題：一是長范圍時間結構在理解視頻中較長時間的行為上起著重要作用，但是目前的神經網絡結構大多只關注表象和短時間段的運動；二是在實際中，對于深度卷積神經網絡的訓練而言，亟須大量的訓練樣本，進一步優化其網絡性能，但視頻數據的樣本量是有限的。因此如何設計有效的深度網絡來學習視頻序列的最佳表示，并在有限的訓練樣本下，訓練網絡以提高模型的性能是目前急需解決的研究課題。本文提出一種基于多輸入流的行為識別網絡，首先將視頻分段，然后利用稀疏采樣策略提取視頻序列, 使得網絡能學習到較長時間范圍結構，同時提出基于多輸入流的卷積網絡結構來提高雙流卷積神經網絡在視頻行為識別方面的處理能力。

1 方法

1.1 稀疏采樣

在時間結構上視頻的連續幀是高度冗余的。因此，密集的時間采樣，通常導致高度相似的采樣幀，這是不必要的。相反，基于這種情況，使用稀疏時間采樣策略更有利。所以，我們在長視頻序列上，利用稀疏采樣方案，對短片段進行提取，值得注意的是，樣本依時間維度進行均勻分布。在這一前提下，使用分段結構，對源自采樣片段的信息實施聚合處理。由這個層面上看，時間段網絡能夠在整體上建模遠程時間結構視頻。此外，這種稀疏采樣策略，使用比較低的成本，對相關信息進行保留，對時間和資源進行合理預算，以此開展對長視頻序列的端到端學習。為了充分利用視頻中的視覺內容，我們提出基于多輸入流的卷積行為識別網絡。

具體的網絡結構如下：

具體實施方法：首先，將一個輸入的視頻分割成K個部分，如接著，對得到的K組視頻序列稀疏隨機采樣得到并將輸入雙流（two-stream）卷積神經網絡中（圖中K組網絡共享參數W），輸出對應K組得分；接下來，運用平均均值的融合方法得到最終類別得分，該部分對應圖1中segmental consensus部分，并且用表示融合后的輸出。最后將提取出時間和空間信息合并作為最終特征來進行分類處理。

在此，我們使用Softmax函數來進行分類，使用標準的分類交叉熵損失（cross-entropy loss）來度量損失函數，以及隨機梯度下降法（SGD）來訓練網絡參數。

網絡損失函數定義如下：

其中，C是動作的類別數，yi代表第i類的groundtruth標簽。

網絡結構：選擇BN-Inception結構設計時空雙流（twostream）卷積神經網絡，其中，空間流卷積神經網絡作用在單幀的RGB圖像上（single RGB images），而時間流卷積神經網絡以堆疊的光流數據幀（stacked optical flow field）作為輸入。

1.2 防止過擬合

視頻數據量過少會使得網絡面臨嚴重的過擬合問題。針對此類問題我們提出三種防止過擬合的方法

1.2.1 數據增強。數據增強能出現不同的訓練樣本，能有效避免出現嚴重的過擬合情況。在傳統的 two-stream 中，運用隨機裁剪、水平翻轉方法，拓展訓練樣本的量。此外，還可以采用兩種新方法：①角裁剪（corner cropping），即只由圖片的中心、邊角對區域進行提取，以此防止對關注圖片的中心進行默認。②尺度抖動（scale-jittering），即把輸入圖像、光流場的大小進行固定，對于裁剪區域的寬和高而言，對其進行隨機選擇。最終，這些裁剪區域能被調整成最為恰當的大小，并在網絡訓練中得以運用。事實上，這種方法不光包括了尺度抖動，還包括了寬高比抖動。

1.2.2 交叉 - 模態預訓練（Cross modality Pre-training）。當訓練樣本較少時，預訓練是一種較好的訓練神經網絡防止過擬合的方法。

1.2.3 正則化（Regularization Technique）。批量歸一化（BN）可以用來解決協方差偏移（covariate shift）的問題。

2 實驗結果

在HW[10]和Caltech101[11]數據可上進行了實驗，表1和表2給出了幾種算法和我們提出的算法的比較。由表1和表2可知，我們算法明顯優于其他幾種算法。

表1 幾種算法在HW數據庫上的識別率（%）和方差

表2 幾種算法在Caltech101數據庫上的識別率（%）和方差

3 結束語

長范圍時間結構在理解視頻中較長時間的行為上起著重要作用。深度學習雖然已經被有效地運用到靜止圖像的分類研究上，但并不能有效地提取出較長時間范圍視頻序列中的時序結構信息，因此如何設計出合適的卷積神經網絡結構來有效提取長時間范圍結構是目前行為識別需要解決的一個關鍵問題和難點。本文設計了一種卷積神經網絡，能夠有效地提出視頻序列中的圖像信息和時序結構，從而達到對行為視頻進行分類的目的。