999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制和殘差網絡的視頻行為識別

2023-04-21 13:25:48李建平賴永倩
計算機技術與發展 2023年4期
關鍵詞:特征模型

李建平,賴永倩

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

0 引 言

人體行為識別[1]指從一段視頻中通過某種方法提取關鍵動作特征來識別出不同的人體動作。隨著互聯網的高速發展,人體動作識別仍是一項有挑戰的課題。提取視頻中的動作行為特征,可以利用視頻幀圖像處理、深度學習等方法,使得計算機能學習識別到人體動作的行為變化。行為識別研究在智能監控、智能醫療等領域都有廣泛的應用。

早期行為識別中,由于技術限制,傳統視頻行為識別算法一般是通過手工構造提取特征,例如利用方向梯度直方圖HOF/HOG[2],運動邊界直方圖MHB等傳統的提取特征方法,但該類方法是根據特定目的設計的。Wang等人[3]根據光流場的原理,研究了一種用于視頻運動軌跡的提取方法,即密集軌跡跟蹤算法(DT)。經過對光流圖像和特征編碼方式等方面改造后形成iDT[4]算法,相比其他傳統算法有很好的效果和魯棒性。但隨著技術發展,其他識別方法也涌現而出。

隨著深度學習方法的出現,學者們也紛紛將其應用到視頻中進行人體行為識別。在特征學習方面,它比傳統的學習算法更有效。Simonyan K等人[5]提出一種融合時間和空間兩個維度的雙流卷積網絡,但計算較復雜且無法實現端到端識別;Donahue等人[6]利用LSTM方法對視頻序列進行建模,但由于模型復雜度高,導致最終的識別率也不是很高。Tran等人[7]首次介紹了利用三維卷積神經網絡進行視頻圖像特征提取的方法,即C3D網絡模型,但是參數量大導致訓練周期長且易過擬合。Carreira等人[8]將雙流法與三維卷積結合起來進行行為識別形成膨脹卷積網絡模型(I3D)。為了克服深層網絡易出現梯度消失的現象,He等[9]提出了二維殘差網絡的結構。隨后Hara[10]又將二維殘差結構擴展到了三維中形成3D Resnet模型,識別率也有所提高。Tran等[11]提出了偽3D殘差(R(2+1)D)網絡,將三維卷積轉換成一維時序卷積和二維卷積相結合,用于視頻中的時空行為特征的提取。

在眾多視頻行為識別模型中,雙流法無法實現端到端的識別,利用C3D訓練時間較長且效果不佳,且易發生過擬合。該文通過對比不同層數的殘差網絡最后選定ResNeXt101層殘差網絡。為了在降低建模復雜度的前提下,也能提高識別的準確率,該模型增加了注意力機制來增強特征表示和穩健性。首先,使用pytorch框架,在UCF-101和HMDB-51通用數據集上完成了對Kinetics預訓練模型的訓練和調試。其中,測試效果的評判主要包括識別率和損失函數值兩個方面的綜合考量。實驗結果表明,ResNeXt 3維模型在保持較高識別率的同時,訓練時間也縮短了很多。它具有良好的時間和空間特性提取能力,有利于后續模型的改進優化。

1 相關工作

1.1 3D卷積

傳統的二維卷積神經網絡僅能提取出空間尺度的特征,而不能將圖像在時間尺度上的運動信息納入考慮范圍,也就是光流場,導致提取到的特征準確率不高。在視頻行為識別中,既有時間維度的特征,又有空間維度的特征。2010年,Ji等[12]率先將三維卷積神經網絡應用到了視頻的人體行為識別領域。Tran等[7]經過一系列研究測試,將3*3*3選作最佳卷積核,形成C3D模型。但由于三維卷積結構參數量較多,容易出現過擬合導致識別效果不佳,這也限制了三維卷積網絡的應用。

在處理視頻數據時,將視頻分割為若干連續的圖像,來提取視頻幀的特征。當輸入的數據是視頻流時,二維卷積只是對視頻幀的空間維度進行二維卷積核(i*i),因此,辨識準確率很低。三維卷積就是把一個二維的卷積核變成i*i*i,在時空維度上對視頻幀進行卷積核運算操作。保留輸入信號的時間信息,通過將各特征映射與相鄰多幀進行關聯,得到視頻中的運動信息。整個卷積層的計算公式如公式(1):

(1)

1.2 殘差網絡

2015年,何愷明等人[9]在ImageNet大型視覺辨識大賽上提出了殘差網絡,取得了良好的圖片分類及目標識別效果。他克服了以前由于網絡層過深造成的網絡模型識別性能下降的問題,可以保持超深的網絡結構,而且新提出了residual(殘差)模塊,通過跳躍連接來減輕因加大深度造成的梯度消失問題,并使用批量歸一化進行加速訓練,丟棄了以往的dropout模塊。ResNet網絡可以有效地防止傳統的卷積神經網絡在信息傳輸中出現的丟失和損失,從而確保了圖像特征信息的完整性。

ResNeXt網絡[13]是由Xie等前輩提出的,是ResNet在寬度上的擴充,該網絡的基礎結構是以VGG的疊加原理和Inception的split-transform-merge思想為基礎,其拓展能力更強,可以確保模型的復雜性不會下降或者不會發生變化,并且模型的精確度也得到了改善。ResNeXt的中心思想是分組卷積,主要通過變化基數(Cardinality)來控制組的數量。簡單來講,組卷積就是每個分支生成的Feature Map的總通道數量為n。圖1(a)顯示了ResNet的網絡結構,圖1(b)是ResNeXt的網絡結構。

如圖1所示,左右結構復雜度大致相同。ResNeXt的殘差模塊主要包括了32個相同的分支,每個block圖層主要包括輸入的維度,卷積大小以及輸出維度大小。首先通過1*1的卷積進行降維,再升維到3*3,然后在輸出前再降維到1*1。之后對第三卷積層的輸出進行聚合操作,如公式(2),得到整個殘差塊的輸出。最后,將殘差塊和恒等捷徑連接的輸出聚合起來,聚合公式如公式(3)所示。

(a)ResNet殘差塊 (b) ResNeXt殘差塊,基數cardinality=32

(2)

(3)

1.3 注意力機制

DeepMind小組[14]首次將注意力機制應用于圖像領域。就注意力機制的原理而言,通俗的理解就是將注意力放在重要的東西上。在圖像領域,就是改變每個通道的權重來加強對重要信息的關注。使得網絡模型提取到的特征更加全面,也能增強網絡模型對特征信息的敏銳度。可視化注意力的中心理念是要找到原始數據和它自己的關聯,進而突出自身的重要特征。

引入注意力機制后,可以對區域以外的重要特征進行更好的提取,在獲得更全面特征信息的同時,也能減輕較低層次因感受野較小導致無法獲得更多人體行為特征信息的問題。注意力機制模型主要包括通道注意力機制[15]與空間注意力機制(見圖2)。引入注意力機制,保證了在不增加網絡運算量的前提下,加重對某些特征的提取,從而提高了識別的準確率。

圖2 注意力模塊

因此,該文在視頻識別中引入注意力機制,主要用于增強網絡對行為特征提取的敏感度,使得網絡提取特征模型能充分利用識別區域之外的上下文特征信息。著重解決了在網絡層數較低的時候,因為感受野尺寸大小受限導致無法獲得更多行為特征信息的問題。在對視頻中人體行為識別的過程中,因為光照背景等因素的不確定,可能會導致識別目標不準確。因此,引入了注意力機制,通過給各個通道設置不同的權重,剔除掉了一些沒有意義的信息,更加注重動作識別,增強對特定特征信息的提取效果。該文提出在ResNeXt殘差模型中加入注意力機制,提高特征提取的效率,增強上下文的相關性,對行為識別有所側重,使得提取效果更加明顯。

2 基于注意力機制的殘差3D卷積模型

首先,把原始的視頻數據按照一定的方法截取為連續的視頻圖像幀,之后,對視頻圖像進行剪裁翻轉、二值化、歸一標準化、灰度化等一系列預處理操作。在數據集的處理中,按照7∶3的比例將其劃分為訓練集和測試集。之后把處理后的視頻幀輸入到嵌入注意力機制的ResNeXt殘差模型,使網絡更加重視有較強烈反饋的特性,提取時間和空間兩個維度的特征,同時考慮到各個層面的不同特征,確保所有的特征信息都能被充分利用。最后,經過全局平均池化處理,對視頻中的人體行為進行識別。

在整個網絡模型訓練過程中,設置每次的訓練迭代次數為200次,批處理量為32。設定最初的學習率為0.001,每迭代50次后,其自動縮小為原來的1/10,直到訓練結束。每迭代一次結束后都會直接進行一次校驗,并分別記錄驗證集上的識別準確率和損失函數值,取最好的成績作為模型評估的依據。

圖3是該文所使用的殘差模塊的結構。所采用的卷積網絡主體是由四個殘差模塊組成的ResNeXt 101殘差網絡。ResNeXt網絡結構采用一個拓撲相同的平行塊重疊起來,對數據包進行分組卷積,能保證不增加網絡參數復雜度的同時有效提高網絡的識別準確度。第一層和最后一層采用1*1*1的卷積核,從而減少了總的參數量。中間網絡層用3*3*3的卷積核,F代表特征圖中的通道數目,而group代表分組卷積的總組數,并將其劃分為多個小特征圖。每次卷積操作結束后,都會進行一系列批量歸一化運算,以確保數據的平均分配,加速網絡訓練速度,避免過度擬合。除了最后一層的批量歸一化操作外,其他的層會在歸一標準化后加入RELU激活函數,在完成shortcut后,重新利用激活函數對數據進行處理。通常,在獲得殘差結果后,通過最大池化運算對數據進行壓縮,并將其輸入到下一層的網絡中。

圖3 三維殘差模塊

3 實驗與分析

3.1 實驗環境介紹

本次實驗的軟件環境為64位Ubuntu20.04操作系統,CUDA 11.6.1,CUDNN 11.1用于GPU加速的底層軟件平臺,編譯軟件為Pycharm,深度學習框架為PyTorch 1.11.1,Python版本為3.7.3。硬件環境為Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz,硬盤大小為1 024 GB,內存容量為12G。實驗所用的顯卡為GTX 1080 Ti。

3.2 數據集

3.2.1 UCF-101

UCF-101[16]是當下行為類別和樣本數量最大的真實動作識別數據集之一,其視頻數據主要是從YouTube收集的101個動作類型和13 320種視頻。UCF-101是在不受約束的環境中錄制并上傳至YouTube,在相機的移動過程中,人體的姿勢、觀察角、背景遮擋、照明條件、幀圖像質量等在不同條件下有很大的差別,所以數據相對來說具有多樣性。其中101個動作類型又被分為25個系列,每個系列包括4~7個相關的視頻錄像,主要包括人與物的互動、人與人的交互、人體自身的行為、演奏樂器和做運動五種類別。其中動作包括:跳遠、騎車、彈鋼琴、寫字、跳高等。但是,同一系列的視頻也會有某些共性,比如背景、視角、照明條件等。部分動作幀如圖4所示。

圖4 UCF-101部分動作幀

3.2.2 HMDB-51

HMDB-51[17]是2011年Brown University大學公布的一個用于識別確定人的行為類型的數據集。這些視頻是從各個渠道收集的,大部分都是從電影中找到的,也有一部分從公共數據庫和YouTube之類的網絡視頻庫里收集的。它共分為51個動作類別,每類包含至少有101個片段,總共含有6 849個視頻片段。五種主要的動作行為有:一般的臉部行為、臉部操作、對象的行為、一般身體行為、肢體與對象的交互動作和人體自身姿勢行為,例如吸煙、揮手、翻轉、走路、擊打等。部分動作幀如圖5所示。

圖5 HMDB-51部分動作示意圖

3.3 視頻數據預處理

在對視頻進行網絡訓練前,視頻預處理是提高數據質量和網絡模型泛化程度的必要條件。首先,將視頻數據轉換為連續的視頻幀圖像,然后,在指定的位置上進行統一的圖像采集,得到一系列的訓練樣本。如果輸入的采樣視頻幀數少于16幀,則循環地插入開始幀,直至達到16幀的輸入需求為止。接著,對所獲取到的視頻幀執行抖動(隨機切割裁剪)操作,進行弱化數據噪聲,增加模型穩定性。主要是:把視頻畫面從左上角按一定的規格開始裁剪10次,然后用同樣的方式把它的右上、右下、左下和中間部分進行裁剪,將得到的幀做水平鏡像處理。同時為了使模型有更好的魯棒性,還實現了多尺度的視頻幀空間分割,裁剪尺寸的比例分別為,在訓練和測試樣本上,將視頻的時間和空間均按照1∶1的比例分割為240×240 的大小,并將其調節為112×112,以此來提高實驗的訓練速度,同時不會降低測量的準確率,最終單個樣本輸入的維度為16×3×112×112。對預處理后的視頻幀數據歸一化為(batch,3,16,112,112)的輸入大小。其中,batch表示批量處理的尺寸大小,3表示圖像通道數目,16表示連續而非交疊的圖像幀數。

3.4 實驗結果分析

該文利用Kinetics的預訓練模型,實現在UCF-101和HMDB-51數據集上的遷移學習。隨著迭代次數的增大,該模型的識別準確率逐漸提升,同時損失率也在下降。圖6為該模型在UCF-101數據集上迭代100次的整個過程。在整個模型的訓練過程中,每迭代一次結束后都會在驗證集上進行一次校驗。從圖6可看出,在UCF-101數據集上迭代到60次之前,準確率整體增長趨勢比較快,同時損失值的減少幅度較大。隨著不斷增加迭代次數,準確率和損失函數值的整體變化速度趨于平緩,并在訓練60次左右時開始趨于穩定,最終該模型的準確率可達96.0%。

圖6 該模型在UCF-101數據集上的迭代過程

(1)不同殘差網絡模型深度對實驗的影響。

該文對ResNet101和ResNeXt34,50,101,152多個網絡深度進行訓練,在公共數據集UCF-101上進行對比實驗。其中,將16個不重疊的連續視頻幀作為訓練的輸入,并將ResNeXt50和ResNeXt101的輸入視頻幀數增至64幀,進行了對比實驗。對于不同深度的模型,利用相同的目標樣本訓練更新頂層卷積層和分類層的權重參數,總的迭代次數均為200,將各模型的訓練時間和驗證集上的最大精準度作為評估模型的性能指標,結果如表1所示。

由表1可得,隨著層數加深,準確率有所上升。而且視頻幀的輸入對結果也有很大影響。綜合發現ResNeXt101層的網絡結構準確率更好,同時也更加穩定。

(2)有無注意力機制的對比實驗。

加入注意力機制后,加強對前后視頻幀的關聯,使得提取到的視頻特征更加完全,具體實驗結果如表2所示。經過多次實驗迭代對比,并且不斷調整注意力機制的權重大小,發現加入注意力機制后,UCF-101和HMDB-51數據集上的識別準確率都有明顯的提升。在UCF-101數據集上和HMDB-51數據集上的識別準確率都提升了4.8%。由此可證明,加入注意力機制后,加深了對動作特征的提取,準確率有了明顯的提升。

表2 有無注意力機制的準確率對比實驗 %

(3)與其他模型的對比實驗。

在UCF-101和HMDB-51兩種典型數據集上將文中方法與其他的經典識別模型進行了比較。通過與改進后的密集軌跡iDT算法、雙流法Two-Stream以及C3D算法三種傳統算法,并且與最近兩年利用殘差網絡進行人體識別的相關文獻中的算法進行對比實驗,結果如表3所示。由對比結果可知,該模型的識別準確率更高,泛化性更好。

表3 在UCF-101和HMDB-51數據集上的準確率P值對比 %

該文的主干網絡ResNeXt101層網絡模型與傳統的網絡模型(如iDT、Two-Stream、C3D)相比,ResNeXt101的實驗精度更高,證明了該網絡模型的表達能力較強。從圖7中可明顯看出,嵌入注意力機制的殘差網絡模型在UCF-101數據集上相比C3D和雙流法分別提升了6%左右和8%左右,HMDB-51數據集上的準確率也比雙流法提升了10%左右,證明了深層網絡模型在行為識別任務中取得了不錯的效果。

圖7 各算法在UCF-101和HMDB-51數據集上的準確率

4 結束語

該文提出了一種融合注意力機制的殘差三維網絡模型用以識別視頻中的人體行為。在當下較流行的行為識別數據集上,首先進行殘差網絡層數的對比實驗,然后選定ResNeXt 101層作為該殘差三維網絡結構的殘差塊,保證了深層網絡提高識別率的同時也避免發生過擬合。在此基礎上,引入了注意力機制使殘差3D卷積結構學習到的各個特征通道賦予不同的權重,加強對重要特征的提取。在UCF-101和HMDB-51兩個數據集上,與其他算法,包括近兩年的最新文獻中的方法都進行了對比實驗。實驗表明,該模型能夠很好地提取出連續視頻幀的特征,并且注意力機制能夠充分利用時間和空間特征,識別準確率也有了明顯提升。在下一步工作中,也會繼續對模型進行優化,考慮如何在盡可能減少模型參數的同時提升模型的運行效率,保證模型獲得更好的效果。后續也會將優化后的模型應用于油田的實際工作環境下進行工人的異常行為識別,增強網絡模型在實際生活場景下的特征學習能力。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品大尺度尺度视频| www亚洲天堂| 国产欧美日韩另类精彩视频| 欧美综合成人| 亚洲日韩Av中文字幕无码| 亚洲区视频在线观看| 久久精品国产亚洲麻豆| 亚洲电影天堂在线国语对白| 国产情侣一区二区三区| 精品亚洲国产成人AV| 国产99热| 呦视频在线一区二区三区| 久久精品无码一区二区国产区| 国产成人毛片| 少妇精品久久久一区二区三区| 中文字幕在线日本| 国产女人爽到高潮的免费视频| 日本欧美在线观看| 免费看黄片一区二区三区| 美女一区二区在线观看| AV不卡无码免费一区二区三区| 精品国产福利在线| 日韩免费无码人妻系列| 国产超薄肉色丝袜网站| 在线另类稀缺国产呦| 国产精品内射视频| 国产毛片片精品天天看视频| 亚洲欧美不卡| 精品国产aⅴ一区二区三区| 色哟哟国产成人精品| 波多野结衣中文字幕一区二区| 91久久偷偷做嫩草影院免费看| 色综合手机在线| 午夜国产大片免费观看| 国产国模一区二区三区四区| 日韩在线欧美在线| 五月天在线网站| 毛片基地美国正在播放亚洲 | 97超碰精品成人国产| 美女高潮全身流白浆福利区| 东京热av无码电影一区二区| 狠狠色狠狠综合久久| 国产欧美精品一区aⅴ影院| 99爱在线| 婷婷久久综合九色综合88| 2022精品国偷自产免费观看| 天天综合天天综合| 制服丝袜一区| 浮力影院国产第一页| 日韩av无码精品专区| a级毛片毛片免费观看久潮| 亚洲天堂在线免费| 综合人妻久久一区二区精品| 国产精品综合色区在线观看| 在线观看免费人成视频色快速| 日韩精品无码一级毛片免费| 亚洲v日韩v欧美在线观看| 欧美国产三级| 蜜臀AV在线播放| av一区二区三区在线观看| 久久亚洲欧美综合| 国产91无毒不卡在线观看| 欧美一区福利| 亚洲精品波多野结衣| 午夜精品久久久久久久无码软件 | 丁香婷婷激情综合激情| 国产成年无码AⅤ片在线| 日本午夜影院| 国产精品视频观看裸模| 国产迷奸在线看| 韩日午夜在线资源一区二区| 亚洲国产精品美女| 国产高潮流白浆视频| 亚洲色图欧美在线| 91视频国产高清| 国产av一码二码三码无码| 91久久国产热精品免费| 色天天综合| 成年人久久黄色网站| 99热这里只有免费国产精品| 凹凸精品免费精品视频| 亚洲日本www|