999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合非局部神經網絡的行為檢測模型

2021-07-06 12:02:30黃文明陽沐利藍如師鄧珍榮羅笑南
圖學學報 2021年3期
關鍵詞:特征融合檢測

黃文明,陽沐利,藍如師,鄧珍榮,羅笑南

融合非局部神經網絡的行為檢測模型

黃文明,陽沐利,藍如師,鄧珍榮,羅笑南

(桂林電子科技大學計算機與信息安全學院,廣西 桂林 541004)

針對在視頻行為檢測中卷積神經網絡(CNN)對時域信息理解能力不足的問題,提出了一種融合非局部神經網絡的行為檢測模型。模型采用一種雙分支的CNN結構,分別提取視頻的空間特征和運動特征。將視頻單幀和視頻連續幀序列作為網絡輸入,空間網絡對視頻當前幀進行2D CNN特征提取,時空網絡采用融合非局部模塊的3D CNN來捕獲視頻幀之間的全局聯系。為了進一步增強上下文語義信息,使用一種通道融合機制來聚合雙分支網絡的特征,最后將融合后的特征用于幀級檢測。在UCF101-24和JHMDB 2個數據集上進行了實驗,結果表明,該方法能夠充分融合空間和時間維度信息,在基于視頻的時空行為檢測任務上具有較高的檢測精度。

行為檢測;非局部模塊;3D卷積;注意力機制

隨著視頻采集設備的廣泛使用,當前的視頻監控平臺已無法應付日益劇增的海量數據,因此對視頻內容進行自動智能分析十分必要。近年來,基于深度學習的視頻行為檢測技術成為了國內外廣大研究者的熱點課題。行為檢測是指對于給定的視頻,識別其包含的行為類別和主體,并確定行為在視頻中出現和截止的時刻。行為檢測在安防監控等視覺領域有著廣泛地應用。

現有的行為檢測方法主要有2種:①基于循環神經網絡(recurrent neural network,RNN)[1]的序列學習方法,如ESCORCIA等[2]利用長短期記憶網絡(long short-term memory,LSTM)[3]對視頻流進行編碼以生成時間區域候選,YEUNG等[4]通過強化學習訓練一個基于RNN的高精度分析模型進行視頻行為預測,但這些方法往往在處理長視頻時及其耗時,且由卷積神經網絡(convolutional neural networks,CNN)[5]提取的基本特征不支持聯合訓練。②受目標檢測領域中的Faster R-CNN[6]的啟發,采用2階段檢測法:第一階段從完整的長視頻中生成可能包含行為的候選區域;第二階段使用行為識別的方法對該候選區域進行行為分類[7-8]。但該方法存在動作候選時序段的生成耗時、分別訓練區域時建議網絡和分類網絡無法保證找到全局最優解的缺點。另一方面,CNN和RNN均為局部區域的運算,不能獲取更大范圍的信息,因此,在使用這些網絡分析視頻時只考慮了前后幾個視頻幀對當前幀的影響,而視頻動作的檢測往往需要考慮多個長距離幀之間的聯系。

基于以上討論,為有效提高行為檢測的速度和精度,本文借鑒了YOWO模型的思想[9],提出一種改進的行為檢測算法。該模型采用回歸算法,將檢測過程合并為一個網絡,同時對行為進行定位和分類,從而加快整個檢測過程。首先,使用3D CNN提取視頻的時空特征,并結合2D CNN獲取精確的空間特征。針對淺層3D CNN提取視頻時空特征能力不足的問題,本文提出將非局部模塊(non-local block)[10]嵌入到三維神經網絡以解決視頻幀的長距離依賴問題。其次,為了更好地融合2種特征,采用一種基于格拉姆矩陣(Gram matrix)的通道融合和注意力機制的特征融合方法進行特征融合,最大程度地利用通道間的依賴性。最后,使用回歸策略調整邊界框并對行為分類,實現視頻級的行為檢測。

1 相關工作

1.1 行為識別

早期的行為識別算法主要采用分類人工設計特征的模式,人工設計特征一般分為全局特征和局部特征。全局特征是將人體行為作為描述對象進行特征提取,如DATTA等[11]利用加速度運動矢量(acceleration measure vectors,AMV)結合人體軀干的運動軌跡信息和方向信息可以檢測視頻中某類行為是否發生。由于全局特征容易受到遮擋和噪聲以及視角變化的影響,該方法的檢測精度較低。局部特征則是描述了一個動作的局部運動特征,其采用局部特征描述子來表示視頻的運動特征,如CONG等[12]在光流直方圖(histograms of optical flow,HOF)的特征描述方法的基礎上提出了多尺度的特征描述子,并同時提取視頻幀的位移特征和空間特征。WANG等[13-14]提出一種密集地采樣和追蹤視頻幀上的像素點的方法構造局部特征描述子,并通過匹配幀之間的特征點來估計拍攝相機的運動,這些方法在特定場景下均取得了不錯的效果,但是人工特征提取的計算量巨大,在視頻處理應用中仍具有較大的局限性。

隨著深度學習在計算機視覺領域的廣泛應用,一些研究人員將相關技術應用到行為檢測任務中。NG等[15]將CNN與RNN結合,利用CNN對視頻的全局特征進行描述,再將幀級特征和提取的光流特征輸入到池化框架或LSTM進行訓練,利用LSTM的記憶功能對視頻幀之間的時序信息進行建模。JI等[16]將2D CNN在時間域擴展成三維,由于附加了時間信息,該方式能夠對多個視頻幀進行提取,以獲得兼具時空信息描述的特征,從而捕獲視頻中的運動信息。TRAN等[17]在此基礎上提出用于學習時空特征的C3D網絡模型,經過一個大規模監控視頻數據集訓練之后,可以實現簡單有效的行為時序信息學習,進一步提高了3D CNN的性能。

1.2 注意力機制

注意力機制常應用于圖像分類、目標檢測等方面。一些研究者利用注意力機制增強特征的表達能力,提高目標檢測任務的檢測效果。注意力機制通過計算當前位置與其他位置之間的關聯性,來強化對當前位置有意義的信息并弱化無意義的信息,從而捕捉不同位置之間的依賴關系。

HU等[18]首次提出利用注意力機制來獲取特征通道之間聯系,該方法可以獲得特征圖的每個通道在全局下的表示,并為每個特征通道重新分配權重,然后根據其重要性來選擇提升或抑制相應的特征。KONG等[19]在特征金字塔結構基礎上,將全局注意力與局部注意力重新組合,進而在空間和尺度上提取目標的全局或局部的相關特征。文獻[10]提出了一種非局部神經網絡,通過建立特征圖中位置間的聯系,增強空間局部特征的表達能力,可以很好地捕捉到相距較遠的特征之間的相互關系,由此將非局部操作融入到了用于視頻分類的非局部卷積神經網絡中。

2 本文方法

2.1 概 述

本文方法的總體思路為:在判斷一個動作時,將當前幀空間信息與從先前幀中獲得的時空信息關聯起來,然后將2種特征融合在一起,從而為判斷行為提供合理的依據。模型主要由視頻特征提取網絡、特征融合和邊界框回歸3部分組成,檢測流程如圖1所示。

圖1 本文模型框架

為了檢測視頻中的行為主體和類別,以視頻的當前幀和視頻幀序列作為輸入,2D CNN提取視頻單幀的外觀特征,并使用融合非局部模塊后的3D CNN獲取多幀的時空特征。為了更好地實現雙通道的特征融合,本文采用一種基于注意力機制的特征融合方法,得到輸入視頻幀序列的時空特征表示。最后采用一種回歸方法對視頻中的行為進行分類并對邊界框進行微調。

2.2 非局部神經網絡

非局部操作可視為一種自注意力機制,其在圖像和視頻檢測中表現出了較好的效果,該模塊可以壓縮通道特征、聚合全局空間特征以增強目標局部特征。將其作為一個整體的模塊嵌入到視頻編碼階段中,以獲取深度神經網絡的長時記憶。

非局部操作計算步驟為:首先計算當前位置的像素點與特征圖內所有的像素點之間的相似性值,然后對相似性值進行加權求和來表示當前位置的特征信息,達到利用全局特征增強局部特征的目的。且通過非局部操作獲取特征在時空域的全局信息。直觀地說,非局部操作是將某一處位置的值與特征映射中所有位置(時間、空間或時空)的特征加權求和,即

其中,,分別為輸入和輸出特征,一般為圖像或視頻幀的特征圖,兩者具有相同維度;為輸出特征的位置索引;為輸入特征中所有位置的索引。函數(x,x)用于計算xx之間的相似性,可描述兩者之間的聯系;函數(x)計算了輸入信號在位置的特征表示;()為歸一化參數。從式(1)可知,非局部操作考慮了當前位置與特征空間中所有位置的聯系,因此,可有效地捕捉到視頻幀的長時依賴關系。本文采用嵌入式高斯函數作為相似性函數,即

將上述的非局部操作封裝成模塊,結合殘差網絡結構的特點,該模塊將原始輸入信息與非局部操作得到的結果WY進行疊加,得到通過空間全局信息來增強的目標特征。由此得到的非局部模塊可以很方便地嵌入到現有的網絡框架中。非局部模塊結構如圖2所示,模塊可定義為

其中,y由式(1)計算出;W為權重矩陣;+x為殘差連接。其結構如圖2所示。非局部模塊以殘差結構的形式獲取視頻的時空特征,因此,將非局部模塊嵌入到已經過預訓練的網絡模型中時不會破壞模型原有的參數初始化操作。

圖2 非局部模塊結構

2.3 視頻特征提取網絡

視頻特征提取網絡采用一種雙路結構,一個分支為單幀特征提取網絡,另一個是多幀特征提取網絡。為了解決行為主體定位問題,在單幀特征提取網絡中提取關鍵幀的二維特征。考慮到準確性和效率之間的平衡,本文采用Darknet-53[20]作為單幀特征提取網絡的基本架構。將視頻序列的當前幀作為關鍵幀輸入,Darknet網絡采用殘差網絡的連接思想,由于引入了殘差結構,因此可以保證網絡結構很深時仍能收斂。

為了充分利用3D CNN挖掘深層次時空特征的能力,本文采用3D ResNeXt-101[21]作為提取視頻時空特征的基礎網絡結構。ResNeXt融合了ResNet的殘差思想和Inception網絡“拆分-轉換-合并”的原則,設計出的一種基于聚合轉換策略的網絡。其中,“拆分-轉換-合并”的形式可表示為

其中,T為相同的拓撲結構;為一個模塊中所具有的相同分支的數目,用于度量模型的復雜度。利用更簡單的拓撲結構,可以在不增加參數的情形下取得更好的分類效果。

ResNeXt網絡的基本單元結構如圖3所示。與傳統的ResNet相比,在網絡的第1層和第3層中加入了大小為1×1的卷積,從而控制中間層的卷積核個數,減少網絡的參數數量。每一層卷積層后均連接Batch-Normalization與ReLU激活函數,同時在基本單元結構中的中間層卷積網絡引入卷積組,將特征映射劃分為小組,降低網絡的訓練難度,提升網絡性能。

圖3 ResNeXt基本單元

為增強視頻幀之間的上下文語義信息,本文在網絡中添加了非局部模塊。這樣得到的非局部3D ResNeXt-101網絡可以在不改變原有網絡結構的基礎上,進一步學習到視頻時空維度的遠距離深度特征,使特征在空間及通道間的全局信息得以增強。考慮到淺層特征圖計算量大的問題,本文選取在網絡深層部分添加非局部模塊,其中非局部模塊不改變特征圖的大小。為了匹配單幀特征提取網絡輸出的特征圖,對應的輸出特征圖的深度維度減少到1,空間尺寸與前者的輸出尺寸相同。

2.4 特征融合

為了充分融合上述2個網絡提取的特征,本文采用了一種基于Gram矩陣的特征融合方法來映射通道之間的依賴關系。基于Gram矩陣的注意力機制最初被用于風格遷移[22],該注意機制有利于更好地融合來自不同來源的特征,顯著提升整體性能。融合的特征映射包含了視頻的運動信息和外觀信息。特征融合計算步驟如下:

(1) 將空間特征提取網絡和時空特征提取網絡輸出的特征進行通道疊加,并通過卷積層初步融合可能具有不同分布的特征,得到新的特征向量作為特征融合模塊的輸入。

(2) 將輸入特征圖轉換成二維向量,其中=×,即將每個通道的特征向量轉化為一維。然后將矩陣與其轉置T進行相乘,得到了Gram矩陣,可表明通道之間的特征關聯,即

其中,Gram矩陣中的每個元素G表示向量化特征映射與之間的內積。

(3) 使用softmax函數生成通道注意圖,即

其中,是衡量第個通道對第個通道影響的分數。因此,矩陣在給定特征圖的情況下考慮了特征的通道之間的依賴性。進一步將與原始向量相乘,即′=·,實現注意力映射對原始特征的影響,將結果轉換成與輸入形狀相同的三維向量:′?R×C→′′?R×H×W。

(4) 將此結果與原始輸入特征圖結合,采用可訓練標量參數對2個矩陣進行元素級相加,即

其中,從0開始逐漸學習權重。

由式(7)可知,每個通道的最終特征是所有通道特征與原始特征的加權和,即對特征映射之間的長期語義依賴關系進行了建模。這種特征融合結構可以根據通道間的相互依賴性來提升特征的表示,從而使不同分支的特征能夠得到有效的聚合。另一方面,Gram矩陣表示了通道之間關系的信息,乘積越大表示該通道中的特征相關性更強,反之相關性更弱。因此,這種機制加強了上下文關系,能夠增強特征識別的能力。

2.5 行為預測

對于行為的預測,本文采用與YOLO[23]相同的級聯預測結構,使用1×1大小的卷積層來生成所需數量的輸出通道,不同之處在于輸入的RGB特征圖由上述提取的時空動作特征代替。對于每個網格單元格,通過k-means方法在相應的數據集上選擇若干個先驗框。檢測層輸出動作類別和坐標偏移,最終輸出預測結果特征圖?R×w×b×(c+4),其中和分別為特征圖的高度和寬度;為先驗框的個數;為數據集中行為類別的數量。

2.6 損失函數

本文采用類似YOLO網絡的算法來優化損失函數,不同之處在于,邊界框損失采用Smooth L1損失,從而降低異常點的敏感度。并在類別損失中使用Focal Loss,以解決類別分類不平衡的問題。損失函數分為3部分,即

首先計算置信度誤差。即每個預測框和所有的真實標簽之間的交并比(intersection-over-union,IoU)值,以此來判定預測框內是否存在動作;然后計算錨框和預測框的坐標誤差;最后計算與真實標簽匹配的預測框各部分的損失總和,包括坐標損失,置信度損失以及分類損失。

3 實 驗

3.1 實驗設置

3.1.1 實驗環境

本文實驗基于Pytorch深度學習框架,操作系統為Ubuntu 16.04,處理器為Intel(R) Xeon(R) CPU E5-2698 v4@2.20 GHz,運行內存(RAM)為512 GB,GPU為NVIDIA Tesla P100-SXM2 16 G。

3.1.2 數據集

(1)UCF01-24[24]是UCF101數據集的子集,其是時空動作定位最大的且最具挑戰性的動作數據集之一,共有3 207個視頻,包含了24種行為類別,其中每個視頻可能包含具有相同動作類的多個動作實例,并提供了相應的時空標注。

(2)JHMDB[25]是HMDB-51數據集的子集,包含928個視頻,共有21種不同的行為類別,并且所有的視頻均已被修剪成只包含一個動作實例的視頻片段。

3.1.3 評價標準

本文通過幀和視頻級的平均精度均值(mean average precision, mAP)分別在幀級和視頻級來評估模型的空間和時間定位性能。對于幀級別檢測,本文遵循PASCAL VOC的協議標準,如果預測的邊界框與真實標簽的IoU大于閾值,并且框內的行為類別被正確分類,則將其標記為正確的檢測。對于視頻級的檢測,將幀級別檢測結果連接成行為管(action tubes),通過計算預測行為管和真實標注的行為管之間的時空重疊部分對其進行評估。實驗中,幀級mAP(frame-mAP)的IoU閾值設置為0.5,視頻級mAP(video-mAP)設置了3個不同的IoU閾值,分別為0.1,0.2和0.5。

3.2 訓練細節

為了加快模型收斂速度,本實驗使用在Kin- etics數據集上預訓練的3D ResNeXt-101參數初始化3D網絡參數,使用PASCAL VOC數據集上預訓練的Darknet-53參數初始化2D網絡,對于嵌入的非局部模塊參數采用隨機初始化方式。本文采用了多尺度訓練,在測試時每一幀的分辨率設置為224×224。選擇了帶有動量(momentum)和權值衰減策略的小批量隨機梯度下降算法來優化損失函數。初始化學習速率設置為0.000 1,并且每經過10 k的迭代將學習率減少0.5倍,整個訓練過程在5個epoch后完成。考慮到在3D CNN中不同的輸入視頻幀長度和不同的下采樣率會改變整個網絡的性能,實驗固定下采樣率為2,固定輸入長度為16幀。

3.3 實驗結果與分析

3.3.1 消融實驗

為了驗證模型不同結構的檢測精度,本文在UCF101-24數據集上對frame-mAP進行了測試。其中,在研究非局部模塊的影響時,固定將模塊插入在網絡的第4層,以保證檢測結果不受其他因素影響。為了進一步探討模型的性能,實驗還分別研究了模型的定位和分類準確度。對于分類,研究正確定位的檢測分類精度,對于定位,計算正確定位行為的數量占檢測到的所有動作建議區域數量的百分比,即召回率。

表1比較了不同結構的檢測性能。結果顯示,如果不融合時空特征,檢測網絡不能學習良好的特征表示。而特征融合有效地提高了檢測的精度,表明該注意力機制有效增強了通道之間的相互依賴性。其次,嵌入非局部模塊后,模型的frame-mAP有所提升,行為分類性能得到了增強,對定位性能的提高也起到了一定的作用,說明非局部模塊在捕獲視頻時空維度上的遠距離依賴性信息方面存在明顯優勢。

表1 模型不同的結構在UCF101-24上的性能比較(%)

3.3.2 非局部模塊在不同嵌入階段的影響

本文對比了非局部模塊添加到3D特征提取網絡的不同階段對模型的影響。對于每個階段,模塊均被嵌入到該階段的最后一個殘差塊之前。實驗結果見表2,非局部模塊在前3層的提升效果比較接近,但在第5層的表現稍有下降,這可能是因為高層卷積特征圖的空間維度太小,不足以提供精確的空間信息。其次,實驗發現,插入的位置越靠前,模型訓練越耗時,可能是因為淺層特征圖比深層特征圖更大,從而導致計算量增加。

表2 非局部模塊不同插入階段對比(%)

3.3.3 與其他方法對比

在UCF101-24數據集上將本文方法與其他方法對frame-mAP和video-mAP 2個指標進行了比較,其中,文獻[26]為基于Faster R-CNN檢測方法的模型,文獻[27]為基于SSD[28]檢測方法的模型,文獻[29]為最新的SOTA方法,文獻[9]作為本文的基準模型。由表3可知,本文方法在UCF101-24數據集上的frame-mAP達到了87.9%,相較于兩階段方法提升了22.2%,證明了單階段檢測網絡具有優越的性能。video-mAP相較于其他方法也取得了不錯的提升。相比于原始YOWO模型,frame-mAP提高了0.7%,表明本文改進的方法有效提高了模型識別運動信息的能力。

表3 UCF101-24數據集上的對比(%)

3.3.4 示例分析

圖4為本文模型的檢測效果。總體來看,該模型在行為的定位和分類2方面都表現較好。由于非局部模塊的引入,模型可以很好地捕捉視頻的長距離依賴關系,從而有效利用先前幀的信息來判斷當前動作,例如在第一張圖片中,只依據當前幀的信息無法判斷一個人是站立還是坐下,模型可以綜合先前幀的信息,從而對其精確區分。其次,模型對大目標和動作清晰的視頻幀檢測效果良好,但在場景復雜和行為主體為小目標的情況下檢測效果欠佳。此外,模型僅根據當前幀的空間信息來自動判斷行為類別,由于缺乏時間信息,因此在動作開始階段可能會出現分類錯誤。

4 結束語

本文改進了一種用于視頻流的時空行為檢測方法,方法從當前幀中提取精細的空間信息來處理定位任務,同時,從連續的幀中建模時空上下文以捕獲動作信息。在利用3D CNN提取連續幀特征信息時,引入非局部模塊以處理視頻幀長距離依賴問題。并采用了一種基于Gram矩陣的特征融合方法聚合空間特征和時空特征,最后使用回歸方法對行為進行預測。本文方法沒有將檢測和分類任務分開,因此整個網絡可以通過端到端框架中的聯合損失來進行優化。本文在UCF101-24和JHMDB 2個數據集上進行了評估,實驗結果表明,該方法取得了較好的效果,在一定程度上提高行為檢測的準確率。

[1] SUTSKEVER I, MARTENS J, HINTON G. Generating text with recurrent neural networks[C]//The 28th International Conference on Machine Learning. New York: ACM Press, 2011: 1017-1024.

[2] ESCORCIA V, HEIBRON F C, NIEBLES J C, et al. DAPs: deep action proposals for action understanding[C]//The 14th European Conference on Computer Vision. Heidelberg: Springer, 2016: 768-784.

[3] HOCHREITER S SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[4] YEUNG S, RUSSAKOVSKY O, MORI G, et al. End-to-end learning of action detection from frame glimpses in videos[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Washiton, DC: IEEE Computer Society Press, 2016: 2678-2687.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[6] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//The 28thInternational Conference on Neyral Information Processing Systems. New York: ACM Press, 2015: 91-99.

[7] BUCH S, ESCORCIA V, SHEN C Q, et al. SST: single-stream temporal action proposals[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2017: 2911-2920.

[8] GAO J Y, YANG Z H, SUN C, et al. TURN TAP: temporal unit regression network for temporal action proposals[C]//2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society Press, 2017: 3628-3636.

[9] KOPUKLU O, WEI X Y, RIGOLL G. You only watch once: a unified CNN architecture for real-time spatiotemporal action localization[EB/OL]. [2020-07-19]. https://arxiv.org/abs/1911. 06644.

[10] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 7794-7803.

[11] DATTA A, SHAH M, DA VITORIA LOBO N. Person-on-person violence detection in video data[C]//The 16th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2002: 433-438.

[12] CONG Y, YUAN J S, LIU J. Abnormal event detection in crowded scenes using sparse representation[J]. Pattern Recognition, 2013, 46(7): 1851-1864.

[13] WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2011: 3169-3176.

[14] WANG H, SCHMID C. Action recognition with improved trajectories[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2013: 3551-3558.

[15] NG Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]//2015 /IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 4694-4702.

[16] JI S W, XU W, YANG M, et al. 3D Convolutional neural networks for human action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

[17] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 4489-4497.

[18] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 7132-7141.

[19] KONG T, SUN F C, HUANG W B, et al. Deep feature pyramid reconfiguration for object detection[C]//2018 European Conference on Computer Vision. Heidelberg: Springer, 2018: 172-188.

[20] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//2018 IEEE Conference on Computer Vision and PatternRecognition. Washington, DC: IEEE Computer Society Press, 2018: 89-95.

[21] HARA K, KATAOKA H, SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and imagenet?[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 6546-6555.

[22] GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[EB/OL]. [2020-05-20]. https://arxiv.org/abs/1508. 06576v2.

[23] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2016: 779-788.

[24] VAROL G, LAPTEV I, SCHMID C, et al. Long-term temporal convolutions for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2018, 40(6): 1510-1517.

[25] SULTANI W, SHAH M. Automatic action annotation in weakly labeled videos[J]. Computer Vision and Image Understanding. 2017, 161:77-86.

[26] PENG X J, SCHMID C. Multi-region two-stream R-CNN for action detection[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 744-759.

[27] ZHANG P F, CAO Y, LIU B Y. Multi-stream single shot spatial-temporal action detection[C]//2019 IEEE International Conference on Image Processing. Washingtong, DC: IEEE Computer Society Press, 2019: 3691-3695.

[28] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 21-37.

[29] YANG X T, YANG X D, LIU M Y, et al. STEP: spatio-temporal progressive learning for video action detection[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2019: 264-272.

Action detection model fused with non-local neural network

HUANG Wen-ming, YANG Mu-li, LAN Ru-shi, DENG Zhen-rong, LUO Xiao-nan

(School of Computer Science and Information Security, Guilin University of Electronic Technology, Guilin Guangxi 541004, China)

The convolutional neural network (CNN) has insuf?cient ability to understand the time domain information in video action detection. For this problem, we proposed a model based on fused non-local neural network, which combines non-local block with 3D CNN to capture global connections between video frames. Model used a two-stream architecture of 2D CNN and 3D CNN to extract the spatial and motion features of the video, respectively, which takes video single frames and video frame sequences as inputs. To further enhance contextual semantic information, an improved attention and channel fusion mechanism is used to aggregate the features of the above two networks, and ?nally the fused features are used for frame-level detection. We conducted experimental veri?cation and comparison on the UCF101-24 and JHMDB data set. The results show that our method can fully integrate spatial and temporal information, and has high detection accuracy on video-based action detection tasks.

action detection; non-local neural network; 3D convolution; attention mechanism

TP 391

10.11996/JG.j.2095-302X.2021030439

A

2095-302X(2021)03-0439-07

2020-09-26;

2020-11-29

26 Septeber,2020;

29 November,2020

廣西圖像圖形智能處理重點實驗室培育基地(桂林電子科技大學)開放基金項目(GIIP2011)

Open Funds from Guilin University of Electronic Technology, Guangxi Key Laboratory of Image and Graphic Intelligent Processing (GIIP2011)

黃文明(1963-),男,江蘇蘇州人,教授,本科。主要研究方向為數字圖像處理。E-mail:995456524@qq.com

HUANG Wen-ming (1963-), male, professor, undergraduate. His main research interest covers digital image processing. E-mail:995456524@qq.com

鄧珍榮(1977–),女,廣西桂林人,研究員,碩士。主要研究方向為圖形圖像處理、計算機視覺等。E-mail:799349175@qq.com

DENG Zhen-rong (1977–), female, researcher, master. Her main research interests cover graphic image processing, computer vision, etc. E-mail:799349175@qq.com

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 超清无码熟妇人妻AV在线绿巨人| 国产va欧美va在线观看| 激情成人综合网| 国产在线精品人成导航| 一级片免费网站| 国内精品伊人久久久久7777人| 高清国产va日韩亚洲免费午夜电影| 国产亚洲现在一区二区中文| 2021最新国产精品网站| 亚洲无码熟妇人妻AV在线| 国产一级特黄aa级特黄裸毛片| 色综合久久88色综合天天提莫| 91丝袜乱伦| 久久国产精品波多野结衣| 伊人成人在线| 亚洲另类国产欧美一区二区| 东京热av无码电影一区二区| 欧美综合一区二区三区| 国内精品手机在线观看视频| 久久久久青草线综合超碰| 国产中文一区二区苍井空| 亚洲精品无码av中文字幕| 香蕉综合在线视频91| 日本三区视频| 99re这里只有国产中文精品国产精品| 欧美成人一区午夜福利在线| 丁香婷婷激情网| 日韩毛片免费| 色综合中文综合网| 免费va国产在线观看| 免费福利视频网站| 国产激情影院| 97av视频在线观看| 亚洲精品午夜天堂网页| 欧美激情视频在线观看一区| 色综合国产| 亚洲永久色| 99在线观看视频免费| 亚洲第一黄片大全| 色综合久久久久8天国| 99视频在线观看免费| 色综合热无码热国产| 综合社区亚洲熟妇p| 亚洲全网成人资源在线观看| 亚洲中文字幕国产av| 国产伦精品一区二区三区视频优播 | 亚洲高清中文字幕| 永久免费无码日韩视频| 九九热这里只有国产精品| 国产成人亚洲欧美激情| 精品人妻无码区在线视频| 特级做a爰片毛片免费69| 国产亚洲精品资源在线26u| 亚洲国产成人在线| 国产精品刺激对白在线| 欧美国产日韩在线播放| 不卡国产视频第一页| 久久精品娱乐亚洲领先| 日韩国产高清无码| 中文字幕欧美日韩| 亚洲三级成人| 9啪在线视频| 国产一二三区在线| 亚洲精品第1页| 精品国产乱码久久久久久一区二区| 无码AV高清毛片中国一级毛片| 亚洲欧洲日本在线| 狼友视频国产精品首页| 福利视频一区| 一级爆乳无码av| 韩国v欧美v亚洲v日本v| 欧美精品影院| 精品国产黑色丝袜高跟鞋 | 国产高清免费午夜在线视频| 日本精品中文字幕在线不卡| 国产精品专区第1页| 国产精品美女免费视频大全| 精品伊人久久久久7777人| 国产精品手机在线观看你懂的| 狠狠综合久久| 无码aaa视频| 米奇精品一区二区三区|