999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于三維卷積與雙向LSTM的行為識別研究

2019-08-12 02:35:01王毅馬翠紅毛志強
現代電子技術 2019年14期

王毅 馬翠紅 毛志強

關鍵詞: 行為識別; 三維卷積; 雙向LSTM; 雙中心loss; 聯合訓練; 計算機視覺

中圖分類號: TN915.07?34; TP391 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)14?0078?05

Research on action recognition based on 3D convolution and bidirectional LSTM

WANG Yi, MA Cuihong, MAO Zhiqiang

(College of Electrical Engineering, North China University of Science and Technology, Tangshan 063210, China)

Abstract: Accurately identifying the content in video is the direction of future Internet application and development. The behavior recognition in video is the research focus in the field of computer vision. In order to make full use of the information in video and improve the accuracy of action recognition, an action recognition algorithm based on 3D convolution and bidirectional LSTM is proposed in this paper. Specifically speaking, a spatial attention module based on three?dimensional convolution is proposed, which can focus on the salient features of the spatial region. In order to better handle long?time video, a new time?based module based on bidirectional LSTM (long?and short?term memory network) is introduced, which aims to focus on key video instead of the key video frame of a given video, adopts double?center Loss (calculation loss function) to optimize network for joint training in two?stage strategies, and enables it to simultaneously explore spatial and temporal correlation. The results of the tests with the HMDB?51 and UCF?101 data sets prove that this method can accurately identify similar actions in video, the accuracy of action recognition is greatly improved, and the recognition effect is remarkable.

Keywords: behavior recognition; 3D convolution; bidirectional LSTM; double center loss; joint training; computer vision

0 ?引 ?言

對神經學和人類認知的研究表明,人類在觀察世界時,注意的并不是整個環境,而是注意環境的顯著部分和一系列的關鍵時間信息。這種機制促使本文設計一種適用于現實行為的識別模型。

現有的視頻人體行為識別方法有兩方面的不足。

1) 多數基于空間注意的方法,受LSTM的輸入形狀限制,這些方法將相應的特征圖拉伸成連續的矢量序列,這顯然忽略了空間相鄰區域的關系。

2) 多數基于時間注意的方法,更注意每個幀的重要性。忽略相鄰幀之間具有的相關性,使得時間注意模型為每個幀分配相似或相等的注意值。研究表明,8幀長的視頻剪輯足以讓人類識別正在發生的動作。為了克服這兩方面的不足,本文設計一個空間注意模型,可以結合相鄰空間相關的信息,同時設計一個時間注意模型,可以在視頻剪輯之間分配不同的注意值,沒有任何額外的時間正則化。

本文提出一種新的基于三維卷積與雙向LSTM的時空注意模型。空間域信息可以通過精心設計的3D卷積模塊以弱監督的方式獲得,其中本文沒有給出任何幀級語義標注而是給出視頻級動作標簽。通過雙向LSTM獲得重要的時間域信息,然后采用雙中心loss優化網絡對兩階段策略聯合訓練。在沒有任何額外的空間或時間正則化的情況下,模型完全可以實現端到端訓練。

1 ?空間注意模型

本文設計3D卷積網絡顯示出包含的語義信息和特征映射,所提出的空間注意模型僅包含3D卷積和逐元素操作,所以訓練此網絡是有效的。在弱監督的情況下,本文獲得視頻級別標簽。空間注意模型可以被視為3D殘差塊,該模型的主要優點是它由幾個分離的時空分支組成,因此對環境變化更具魯棒性。此外,該模型具有將輸入層連接到輸出層的標識分支,確保了學習的特征與原始輸入相當。

對于每個視頻序列V,本文首先將其拆分為8幀視頻剪輯,將其中間級別的特征圖表示為[V,X=X1,X2,…,Xt,Xi∈Rw×h×d,i=1,2,…,t。]其中[w],[h],[d]分別是特征映射的寬度、高度和通道號。本文使用ResNet3D[1]的架構,[w=h=28,][d=128],所以[Xi∈R28×28×128]。時間范圍內的幀可能會有所不同,因此使用8幀短視頻剪輯探索空間信息。

本文提出的空間注意模塊如圖1所示。首先建立空間卷積(2D)分支以獲得空間注意力引導,考慮到短視頻片段中的時間相干性,本文還構建了額外的時間卷積(1D)分支。這兩個分支可以表示為:

[Si=Xi?Ws+BsTi=Xi?Wt+Bt] ? ? ? ? ? ? (1)

式中:[Ws∈R3×3×1],[Wt∈R1×1×3]是3D卷積的參數;[Bs]和[Bt]是卷積偏差;[Si]和[Ti]是兩個分支對應的輸出。這兩個分支首先被整合為空間?時間單元,然后通過softmax激活進行處理,以獲得由其定義的空間注意門:

[Gi=δ(Si+Ti)] ? ? ? ? ? ? ? ? ? (2)

相應的門輸出重新激活:

[O′i=vGi⊙Xi] ? ? ? ? ? ? ?(3)

式中,⊙表示逐元素相乘。

此外,本文還應用了一個雙層全連接分支,表示為:

[Ai=δXi?W1+B1?W3+B3] ? ? ?(4)

式中:[Wj∈Rj×j×j和Bj(j=1,3)]是學習參數;[Ai]是加法輸出,最終的輸出為:

[Oi=vO′i⊙Ai] ? ? ? ? ? ? ?(5)

在實驗中,為了更好地保存前一層信息,輸出被重新表述為:

[Fi=Oi+Xi] ? ? ? ? ? ? ? ?(6)

這里受ResNet的啟發,最終將卷積核數設為512。經過平均池化后,空間注意網絡的最終輸出大小為[R1×1×512]。

2 ?時間注意模型

本文將視頻分成短視頻剪輯而不是視頻幀,并在剪輯級別分配比重。本文應用多層LSTM進行序列分類,即動作識別。所提出的時間注意模型與現有模型完全不同,因為本文的時間注意模型是在視頻剪輯級別操作,而其他模型是基于幀級別操作。

空間注意網絡輸出的大小為[R1×1×512],這是時間注意模型的輸入,然后本文將空間注意特征向量重新表示為[Xi∈R512,i=1,2,…,t]。本文的目標是測試視頻序列中每個特征向量的比重。通常,由于空間注意力與空間相鄰區域相關,因此時間特征不僅與當前視頻剪輯相關,而且與鄰近的過去和未來視頻剪輯相關。基于此假設,本文使用雙向LSTM構建時間注意模型。雙向LSTM和基本LSTM之間的一個主要區別在于隱藏狀態,在雙向LSTM(見圖2)中,在每一個時間[t]有兩個隱藏狀態,稱為前向隱藏狀態[ht]和滯后的隱藏狀態[ht]。集成隱藏狀態為:

[ht=htoht] ? ? ? ? ? ? ? (7)

式中,“o”表示合并操作。然后獲得時間特征:

[βt=σwTht+b] ? ? ? ? ? (8)

通過softmax激活獲得歸一化,得:

[βt=δwTtβt] ? ? ? ? ? ? ?(9)

3 ?兩階段策略聯合訓練

本文采用雙中心loss(計算損失函數)優化網絡對兩階段策略聯合訓練。網絡反向傳播過程中是通過計算損失函數完成的,在大多數的模型中一般是利用softmax的損失函數,傳統的softmax?loss為:

[Lj=-i=1mlogeWTyixi+byij=1neWTjxi+bj] ? ? ? ? ?(10)

式中:[xi]表示第[i]個特征向量;[yi]表示類別標簽;[n]為類別數;[m]表示小批量大小;[W]表示權重;[b]為偏置項。

Wang等設計了中心softmax?loss函數用于人臉識別任務,將特征空間中的每一個類別都保持一個類中心C,如圖3a)所示[2]。具體而言,中心loss同時學習每個類別的深層特征的中心C,并懲罰深層特征與其相應的類別中心之間的距離,從而能夠減小類內距離并擴大類間距離。文中loss函數包含softmax?loss和中心loss兩部分,其中心softmax?loss的計算公式為:

[Lc=12i=1mxi-cyi22L=Lj+λLc] ? ? ? ? ? ? (11)

式中:[xi]表示第[i]樣本特征向量;[cyi]表示該樣本所屬類別的特征值中心;[Lc]表示中心loss計算公式;[Lj]為softmax函數的loss;[λ]為兩者所占比重。

本文在中心loss的基礎上設計了雙中心loss,見圖3b)。雙中心loss分別維護空間特征中心[CAS]和時間特征中心[CLT],兩者按一定權重系數[WAS]和[WLT]融合形成質心[Ci]。本文采用線性加權方式確定權重系數[WAS]和[WLT],使質心[Ci]在[CAS]和[CLT]的連線之間,從而能夠保證質心[Ci]同時離兩者之間距離最近。公式如下:

[L=Lj+WASLCAS+WLTLCLT] ? ? ? ? (12)

式中:[WAS]和[WLT]為雙中心loss的權值系數;[LCAS]表示ASM特征中心loss;[LCLT]表示LTM特征中心loss。

為了防止目標函數過擬合,可以在2C?softmax的loss中加入正則項。在網絡結構中,融合特征(Fusion Features)單元對整個行為識別過程具有巨大的影響,所以將加入融合特征單元權值的二范數作為正則項,公式如下:

[LF=12i=1mWFi22] ? ? ? ? ? ? ?(13)

式中:[m]為小批量的大小;[WFi]為第[i]個特征樣本的權值;[F]表示融合特征單元個數。那么式(12)可以改寫為:

[L=Lj+WASLCAS+WLTLCLT+αLF] ? ? ?(14)

式中,[α]為正則項系數。

4 ?實驗數據集

本節對所提出的算法測試了兩個標準動作識別的數據集:UCF?101和 HMDB?51,與最先進的其他算法相比,例如C3D和雙流網絡等[3]。

UCF?101是具有挑戰性的動作識別數據集,在視點、比例、背景、照明、相機運動和持續時間方面有很大變化。由13 320個視頻組成,分為101個類別。HMDB?51是更具挑戰性的動作識別數據集,有6 849個視頻,分為51個類。視頻是從電影和YouTube中提取,因此HMDB?51更具挑戰性。

5 ?實驗平臺搭建

對每個視頻,本文使用OpenCV[4]提取幀,而不更改其原始幀速率,將每個視頻分成8幀視頻剪輯并提取其空間信息。空間注意網絡基于ResNet3D,本文將卷積塊表示為Conv,將特征塊表示為Identity,然后ResNet3D的體系結構可以表示為Conv1(64)?Conv2a(64) ?Identity2b(64)?Conv3a(128)?Identity3b(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool?fc(c),括號中的數字表示內核的數量。本文的空間注意網絡可以表示為Conv1(64) ?Conv2a(64)?Identity2b(64)?Conv3a(128)?SA(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool ?reshape(512),其中SA表示空間注意塊。時間注意網絡由具有512個隱藏節點的單層雙向LSTM組成。

本實驗網絡是在深度學習框架caffe[5]平臺上構建的。對于空間注意網絡,采用具有學習率的隨機梯度下降法(SGD),[lr=0.001];對于時間注意網絡,使用具有學習率的均方根誤差法(RMSprop),[lr=0.001]。空間注意模型的最大迭代次數為30 000次,而時間注意模型在10次迭代后停止。

5.1 ?空間注意模型分析

本節分析所提出的空間注意模型的有效性。在UCF?101和HMDB?51數據集上對幾種先進的算法進行比較。結果如表1所示。第一組方法,例如 DynamicImage[6],MotionImage和TemporalNet,運用2D卷積網絡,這些方法對于靜態圖像是可行的,但對圖像序列的損失太大。第二組方法,比較C3D,ResNet3D和本文的空間注意網絡,證明3D卷積網絡[7]對視頻數據的處理效果更優。

5.2 ?時間注意模型分析

本節分析時間注意模型的可行性。表2表明了有無時間關注注意的結果(wiTA和woTA)。通常,時間注意模型可以通過最大池化、平均池化或串聯來合并。本文列出了這三種策略中的最佳結果。

在三個數據集上進行測試,表明本文提出的時間注意模塊提高了測試精度,而且時間注意模型的全連接網絡(FC)優于復合網絡(MoE)和LSTM。

為了驗證本文算法提出的雙中心loss對網絡模型的作用,對比不同的loss設計方案對網絡的影響。實驗結果表明,單一地采用雙中心loss對行為識別影響效果不大,但加入融合單元的正則項后,識別的準確率得到明顯提高。不同loss方案對網絡的影響如表3所示。

5.3 ?與其他方法進行比較

本節驗證了所提出的基于三維卷積與雙向LSTM的網絡在幾個數據集上與其他方法相比的有效性。表4顯示了在HMDB?51和UCF?101數據集測試的結果。

對于HMDB?51和UCF?101數據集,雙流是最先進的方法。它利用幀級和光流級信息作為輸入,所以主要是多模態模型。另外,將長視頻幀壓縮為短視頻幀或單視頻幀表示的缺點是缺乏區分幀與序列的時間信息。盡管光流表示視頻序列,但它需要更高的預計算,將這些單幀與隨機選擇幀相結合也可以提高它們的性能。通過測試結果比較,本文提出的模型得出了最優的結果。

6 ?結 ?論

本文提出的基于三維卷積與雙向LSTM的識別模型,用于視頻中的人體行為識別。在該模型中,空間注意網絡利用視頻幀的顯著區域,并且時間注意網絡致力于探索多個視頻剪輯的比重分配。空間注意模型建立在三維卷積上,時間注意模型是基于雙向LSTM,然后采用雙中心loss優化網絡對兩個階段策略聯合訓練。結果表明,該網絡對于人類行為識別是有效且有前景的。在未來的工作中,將考慮用魯棒特征表示的稀疏張量和張量正則化方法。這些方法可以用于目標檢測、背景減除和動作識別。此外,由于視頻幀本身包含豐富的時間信息,未來的工作是用無人監督的方式實現更強大的視頻識別。

注:本文通訊作者為馬翠紅。

參考文獻

[1] JI S W, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.

[2] WANG L, XIONG Y, WANG Z, et al. Towards good practices for very deep two?stream ConvNets [J]. Computer science, 2015(7): 1?5.

[3] 秦陽,莫凌飛,郭文科,等.3D CNNs與LSTMs 在行為識別中的組合及其應用[J].測控技術,2017,36(2):28?32.

QIN Yang, MO Lingfei, GUO Wenke, et al. Combination of 3D CNNs and LSTMs and its application in activity recognition [J]. Measurement and control technology, 2017, 36(2): 28?32.

[4] 黎松,平西建,丁益洪.開放源代碼的計算機視覺類庫OpenCV的應用[J].計算機應用與軟件,2018,22(8):134?136.

LI Song, PING Xijian, DING Yihong. Open source computer vision library OpenCV applications [J]. Computer applications and software, 2018, 22(8): 134?136.

[5] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4489?4497

[6] PENG X J, ZOU C Q, QIAO Y, et al. Action recognition with stacked fisher vectors [C]// Proceedings of the European Conference on Computer Vision. Heidelberg: Springer, 2014, 8693: 581?595.

[7] SUN L, JIA K, YEUNG D, et al. Human action recognition using factorized spatio?temporal convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4597?4605

[8] Simonyan K, Zisserman A. Two?stream convolutional networksfor action recognition in videos [C]// Proceedings of the Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 568?576

[9] WANG P, CAO Y, SHEN C, et al. Temporal pyramid pooling based convolutional neural networks for action recognition [J]. IEEE transactions on multimedia, 2017, 27(12): 2613?2622.

[10] WANG H, SCHMID C. Action recognition with improved trajectories [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2013: 3551?3558.

[11] Idress H, Zamir A, Jiang Y G, et al. The THUMOS challenge on action recognition for videos "in the wild" [J]. Computer Vision and Image Understanding, 2017, 155: 1?23.

[12] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2011: 2556?2563.

主站蜘蛛池模板: 日韩视频福利| 国产久操视频| 亚洲人成在线精品| 成人福利在线观看| 青青草91视频| 国产91小视频在线观看| 国产H片无码不卡在线视频| 国内毛片视频| 国产精品综合色区在线观看| 久久香蕉国产线看观看亚洲片| 日韩在线1| 国产精品不卡永久免费| 亚洲嫩模喷白浆| 自慰网址在线观看| 欧美一级大片在线观看| AⅤ色综合久久天堂AV色综合| 亚洲福利片无码最新在线播放| 亚洲h视频在线| lhav亚洲精品| 欧美日韩在线第一页| 沈阳少妇高潮在线| 免费观看成人久久网免费观看| 亚洲午夜福利精品无码不卡 | 日韩精品一区二区三区中文无码| 久久久久亚洲精品无码网站| 色婷婷成人| 色悠久久综合| 69国产精品视频免费| 呦视频在线一区二区三区| 99热这里只有精品免费| 欧美激情伊人| 日日碰狠狠添天天爽| 国产美女丝袜高潮| 久久精品只有这里有| 免费国产无遮挡又黄又爽| 国产剧情一区二区| 国产精品v欧美| 亚洲自拍另类| 国产一二三区在线| 国产91特黄特色A级毛片| 欧美成人一级| 四虎永久免费地址在线网站| 婷婷成人综合| 日韩欧美网址| 亚洲国产精品日韩专区AV| 任我操在线视频| 国产精品lululu在线观看 | 久久精品这里只有国产中文精品| 国产精品3p视频| 秋霞一区二区三区| 欧美怡红院视频一区二区三区| 夜夜操天天摸| 91综合色区亚洲熟妇p| 国产一级无码不卡视频| 久久国产精品国产自线拍| 婷婷综合色| 亚洲欧美不卡中文字幕| 人妻中文字幕无码久久一区| 日本午夜影院| 精品国产91爱| 美女被操91视频| 亚洲无线视频| 国产成人成人一区二区| 成人无码区免费视频网站蜜臀| 日韩精品无码免费一区二区三区| 色亚洲激情综合精品无码视频| 欧美自拍另类欧美综合图区| 免费看美女自慰的网站| 国产成人AV男人的天堂| 第一页亚洲| 亚洲天堂在线免费| 在线免费观看a视频| 欧美日韩第二页| 性视频久久| 狠狠躁天天躁夜夜躁婷婷| 国产91视频观看| av天堂最新版在线| 国产成人艳妇AA视频在线| 一级成人a毛片免费播放| 成人在线亚洲| 99人妻碰碰碰久久久久禁片| 人禽伦免费交视频网页播放|