999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進通道注意力機制下的人體行為識別網絡

2022-01-04 09:35:12龔蘇明
電子與信息學報 2021年12期
關鍵詞:特征實驗信息

陳 瑩 龔蘇明

(江南大學輕工過程先進控制教育部重點實驗室 無錫 214122)

1 引言

在計算機視覺領域,對人類行為識別的研究既能發展相關理論基礎又能擴大其工程應用范圍。對于理論基礎,行為識別領域融合了圖像處理、計算機視覺、人工智能、人體運動學和生物科學等多個學科的知識,對人類行為識別的研究可以促進這些學科的共同進步。對于工程應用,視頻中的人類行為識別系統有著豐富的應用領域和巨大的市場價值,其應用領域包括自動駕駛、人機交互、智能安防監控等。

早期的行為識別方法主要依賴較優異的人工設計特征,如密集軌跡特征[1]、視覺增強單詞包法[2]等。得益于神經網絡的發展,目前基于深度學習的行為識別方法已經領先于傳統的手工設計特征的方法。盡管如此,基于深度學習的人體行為識別方法依舊存在著難點:Karpathy等人[3]率先將神經網絡運用于行為識別,其將單張RGB圖作為網絡的輸入,這只考慮了視頻的空間表觀特征,而忽略了時域上的運動信息。Simonyan等人[4]提出了雙流網絡。該方法使用基于RGB圖片的空間流卷積神經網絡和基于光流圖的時間神經網絡分別提取人類行為的靜態特征和動態特征,最后將雙流信息融合進行識別。一個視頻通常持續幾秒至幾十秒,Wang等人[5]提出了TSN結構來處理此問題,其將一個輸入視頻分成K段,然后每個段中隨機采樣得到一個片段。不同片段的類別得分采用段共識函數進行融合來產生段共識。最后對所有模型的預測融合產生最終的預測結果。借鑒2D卷積神經網絡在靜態圖像的成功,Ji等人[6]將2D卷積拓展為3D卷積,從而提出了3D-CNN方法來提取視頻中的運動信息。但3D-CNN計算參數太過龐大,難以優化。Zhu等人[7]提出了偽雙流結構,網絡采用RGB序列作為輸入,分支1提取表觀信息;分支2則通過圖像重建的方法來獲得運動信息,然后將預測結果映射到真實標簽上。

上述方法都注重尋找額外的時間維信息,如光流運動信息、幀間信息等,而忽略了RGB圖像本身富含著重要且豐富的信息。人類在觀察不同行為時,對整個空間區域會有不同的關注度,會更加注意人體進行活動的區域。引入空間注意力機制有助于關鍵特征的增強,提升網絡判別性能。Sharma等人[8]首次將注意力機制引入到行為識別中來提升網絡在空域上提取關鍵信息的能力。相比之前的方法,該方法成功提高了識別正確率但結果依舊較低且只關注高層特征。胡正平等人[9]將2維通道注意力拓展為3維通道注意力并運用到3維網絡中提升網絡的特征提取能力。本文在分析現有通道注意力模塊不足的基礎上,提出了改進的通道注意力模塊,并將此模塊插入現有基礎網絡(如ResNet[10]),實現了識別正確率的提升。

2 注意力機制下的行為識別網絡

2.1 現有通道注意力模塊

卷積神經網絡中,每一張圖片初始會由RGB三通道表示出來,之后經過不同的卷積操作,每一個通道又會生成新的信息。每個通道的特征表示的是該輸入在不同卷積核上的分量,這些分量對關鍵信息的貢獻有多有少,因此受人類注意力感知機制啟發,在網絡中加入通道注意力映射模塊,能有效建模通道間關系從而提升網絡特征提取能力。Hu等人[11]提出了輕量級可插入注意力(Squeezeand-Excitation, SE)模塊,其結構如圖1所示。此模塊主要構成部分為維度壓縮模塊、激勵、加權。該模塊首先利用全局平均池化(global average pooling)操作將每個2維的特征通道變成一個實數,然后利用全連接操作與激活函數(ReLU, Sigmoid)得到比較全面的通道級別的權重關系,最后利用元素乘法將得到的權重與原始特征進行融合。

圖1 SE模塊

2.2 改進通道注意力模塊

行為識別的主體是人,對于人這個目標來說,中心位置和邊界位置的權重應該是不同的。SE_Block中采用全局平均池化操作賦予特征圖每個位置相同的權重,在某種程度上加強了不重要信息,抑制了重要信息。為了賦予特征圖每個位置可學習權重,本文考慮了兩種改進的注意力模塊:(1) 矩陣操作的時空交互(Spatial-Temporal, ST)模塊,如圖2(a)所示;(2) 深度可分離卷積的特征提取(Depth-wise-Separable, DS)模塊,如圖2(b)所示。

圖2 改進的通道注意力模塊

和SE模塊一樣,本文提出的改進注意力模塊是一種即插即用模塊,因此可以直接在現有基礎網絡中加入改進后的注意力模塊構成新的識別網絡。以DS模塊和ResNet為例,圖3給出了網絡模塊示意圖。圖3(a)為原始ResNet殘差塊,圖3(b)則是加入DS模塊之后的網絡模塊。

圖3 網絡模塊示意圖

3 改進通道注意力模塊詳解

3.1 矩陣操作的時空交互模塊

神經網絡中的特征圖本質上是矩陣數據,那么便可以采用矩陣乘法來對特征圖進行處理。在矩陣乘法中需要注意操作數維度匹配問題,綜合考慮這些因素,圖4給出了ST模塊的詳細細節。從圖中可以知道該模塊主要分為3個部分:輸入維度轉換(圖4(b))、時空交互模塊(圖4(c))、激勵加權(圖4(d))。為了簡化輸入,本文將批尺寸(batchsize)省略了。在圖4中,輸入維度為[C×T×H×W],其中C表示通道數,T表示圖像序列數值,H表示高度,W表示寬度。若網絡輸入為單張RGB圖像,則T為1,若輸入為RGB序列,則T為序列數值。

圖4 ST模塊詳細示意圖

在輸入維度轉換部分,針對模塊輸入[C×T×H×W]通過簡單的矩陣轉換操作將其變為[CT×HW],這樣便得到了矩陣乘法的第1個操作數。

時空交互模塊輸入與維度轉換模塊相同,此模塊目的是獲得矩陣乘法的第2個操作數,同時進行賦權重操作??紤]到輸入若為RGB序列,那么在維度變換過程中同時提取輸入特征間的相關信息對整體結果會有所提升,因此采用Reshape-Conv復合操作來達到這一目的。2.1節已經提到,特征圖每個位置的權重是不同的,于是在此部分結束處使用Softmax操作對每個位置賦予不同的可學習權重。

將上述兩部分的輸出進行矩陣乘法便得到了第3部分的輸入。第3部分采用文獻[11]提出的激勵加權操作,其作用是將通道權重通過乘法逐通道加權到原來的特征上,完成在通道維度上的原始特征重標定。

3.2 深度可分離卷積的特征提取模塊

雖然ST模塊能滿足建模通道間關系這一要求,但其操作復雜且引入的額外計算參數過多,因此提出了DS(圖5(a))這一更有效的模塊。DS模塊主要分為兩部分:維度壓縮、激勵加權。

圖5 DS_Block詳細示意圖

在維度壓縮部分,利用深度可分離卷積來實現,其詳細操作見圖5(b)。現作出如下假設:輸入(Cin×H×W),卷積核(K1×K2),卷積核數量(Cout),分組數(G)。對于正常卷積,參數數量為:Cin×K1×K2×Cout;采取分組卷積,參數數量則為:(1/G)×Cin×K1×K2×Cout,參數數量比之前減少了G倍。當Cin=Cout=G時,分組卷積就是Depthwise-Conv。更進一步,當Cin=Cout=G,且K1=H,K2=W時,輸出特征圖尺寸就成了Cout×1×1,實現了全局池化的功能同時賦予了特征圖每個位置可學習的權重。

在激勵加權部分(圖5(c)),相比于SE模塊與ST模塊,做出了2個改動。首先,由于BatchNorm[12]操作每次計算均值和方差是在一個批量(batch)上,所以如果批尺寸(batchsize)太小,則計算的均值、方差不足以代表整個數據分布,因此采用GroupNorm[13]來替代,這樣便與批尺寸(batchsize)無關,不受其約束。當有較好預訓練時,可以考慮不使用。其次,考慮到sigmoid函數存在兩端飽和,在傳播過程中容易丟棄信息,因此可以考慮將其舍棄。

4 損失函數

考慮到可能存在樣本不均衡的情況,本文采用了Lin等人[14]提出的Focal Loss函數作為網絡的損失函數。Focal Loss函數是交叉熵函數的改進版,其表達式為

普通的交叉熵對于正樣本而言,輸出概率越大損失越小。對于負樣本而言,輸出概率越小則損失越小。此時的損失函數在大量簡單樣本的迭代過程中比較緩慢且可能無法優化至最優。因此Focal Loss引入了平衡因子α,其主要用來平衡正負樣本。為了解決簡單與困難樣本的問題,Focal Loss還引入了另一個平衡因子γ。周波等人[15]在其論文中經過實驗分析得出,當γ取值范圍在2~5之間時,結果一樣。因此在本文中,γ取值為2,α取值為0.75。

5 實驗與分析

5.1 實驗數據集

本文在最常見的行為識別數據集UCF101和HMDB51上對本文網絡結構進行評估實驗,以便將其性能與目前主流的方法進行比較。

UCF101數據集是從YouTube收集的具有101個動作類別的逼真動作視頻的動作識別數據集。101個動作類別中的視頻分為 25 組,每組可包含4~7個動作視頻。來自同一組的視頻可能共享一些共同的功能,例如類似的背景、類似的觀點等。

HMDB51數據集內容主要來自電影,一小部分來自公共數據庫,如YouTube視頻。該數據集包含6849個剪輯,分為51個動作類別,每個動作類別至少包含101個剪輯。

5.2 實驗設置

本文實驗中,卷積神經網絡基于PyTorch平臺設計實現。網絡訓練采用小批量隨機梯度下降法,動量為 0.9,權值在每35個epoch衰減一次,衰減率為0.1,損失函數采用Focal Loss函數,其平衡因子α,γ分別為0.75和2。HMDB51數據集的批大小為2,UCF101數據集的批大小為4。本文網絡是在ImageNet數據庫上預訓練的Resnet網絡修改而來,初始學習率設為0.01。

5.3 實驗結果與分析

5.3.1 注意力模塊驗證

本文重點是注意力機制,因此本節對提出的注意力模塊進行驗證。首先,圖6給出了在ResNet50網絡中分別加入SE模塊、DS模塊、ST模塊之后的可視化結果。在圖6中,圖6(a)表示原圖,圖6(b)為ResNet50輸出結果,圖6(c)表示加SE模塊后的結果,圖6(d)是加ST模塊后的結果,圖6(e)為加DS模塊后的結果。

圖6 不同注意力模塊可視化結果

從結果能看到加了注意力模塊后,網絡能更關注有效區域。對于第3行結果,相較于DS模塊和ST模塊,SE模塊出現了明顯差距,SE模塊關注的無效背景區域更大而且并沒有重點關注動作幅度較大的手臂區域;在另外3幅圖中,SE模塊關注的無效區域也更多一點,這表明本文提出的注意力模塊更具優勢。

表1給出了3個注意力模塊在幾個主流方法上的實驗結果。在該系列實驗中,只采用RGB圖作為輸入,預訓練數據集均為ImageNet,主干網絡均為ResNet。從表1結果可以看出,3個注意力模塊均對網絡預測起到了提升作用。例如TSN[5],基礎正確率為85.7%,加了SE模塊后正確率提升了0.4%,而DS模塊則帶來了1.5%的正確率提升。對于MiCT[16],DS模塊提升效果比SE模塊高了0.7%。從整體結果來看,DS模塊提升最大,ST模塊雖然也有提升,但效果不如DS模塊。

表1 驗證注意力模塊

注意力模塊的引入將帶來額外的網絡參數,對此,本文通過實驗給出了各個模塊對網絡的具體影響,結果如表2所示。對于MiCT[16]網絡來說,SE與DS只引入了0.14 M左右的額外參數,這對整個網絡而言計算負擔并不是很大,而ST模塊則引入了較多的額外參數,這對整個網絡是不利的。同樣,對于ResNet[10]結構,SE與DS引入的額外參數幾乎一樣,且對網絡影響不大,而ST模塊依舊引入了大量的額外參數。綜合上述分析,DS模塊要優于ST模塊。

表2 網絡參數對比結果

此外,以ResNet50為Baseline,對增加注意力模塊前后的精度和運行時間進行了比較,結果如表3所示。分析比較發現,相比未加入注意力模塊的Baseline,加入SE模塊后精度提升了0.4%,運行時間增加了0.27 s,加了DS模塊后精度提升了1.5%,運行時間增加了1.27 s,加入ST模塊后精度提升了1.3%,運行時間增加了2.46 s,DS模塊無論在準確率還是速度上都優于ST模塊。相比于SE模塊,DS模塊精度提升增加了1.1%,運行時間增加了1 s。從上述數據可以看出,增加注意力模塊都會在提高精度的同時,降低計算速度,而DS模塊相比于SE模塊,在準確率上取得了較大的提升,但同時增加了一定的計算損耗,今后工作將圍繞如何更好地平衡速度精度問題進一步展開。

表3 注意力模塊的精度及運行時間比較

5.3.2 與主流網絡對比結果

通過5.3.1節的驗證實驗可以知道本文提出的通道注意力模塊在提升模型識別精度上的有效性,其中DS模塊效果最好。為了與主流網絡進行比較,本文將DS模塊及Focal Loss運用到TSN, MiCT兩個基本網絡中,實驗結果見表4。

首先,為了驗證DS模塊對于RGB圖像能起到提升作用,在表4上半部分系列實驗中,所有網絡輸入均采用RGB序列。在這些方法中,P3D[17]通過將3D卷積分解成沿空間維度的2D卷積和沿時間維度的1D卷積來構建時空信息模型;I3D[18]直接將最新的2D卷積架構膨脹成3D卷積,以利用預訓練的2D模型;TS+LSTM[19]利用2D網絡提取視頻幀的表征信息,緊接著連接一個循環神經網絡(LSTM)來學習幀與幀之間的運動信息。從表4可以看出,加了本文注意力模塊的方法相比于其它方法,獲得了更好的性能。以UCF101結果為例,DS模塊與Focal Loss給TSN[5]帶去了1.6%的增長,同時在所有方法中表現最優。此外,TLE[20]采用精心設計的網絡結構(BN-Inception);P3D[17]則使用了更大的預訓練數據集(Kinetics),它們均比原始的TSN[5],MiCT[16]表現更好,但加入DS模塊后,后者表現更好,這意味著本文注意力模塊對識別結果有較大的提升。

表4 不同算法在UCF101與HMDB51數據集上識別準確率對比(單流輸入)

為了驗證本文注意力模塊對于光流也有效同時方便與其他方法比較,對所有網絡采用RGB和光流兩種模態輸入,實驗結果見表5。以UCF101結果為例,對于MiCT[16]方法,構建了RGB流和光流兩條支流,表5中MiCT-A表示在RGB流引入DS模塊而光流支流中不加入DS模塊,其最終識別結果為94.2%;MiCT-B表示在RGB流與光流兩流中均引入DS模塊,其最終結果達到了94.6%。這表明本文的注意力模塊在光流中依舊能起作用。

表5 不同算法在UCF101與HMDB51數據集上識別準確率對比(雙流輸入)

6 結論

本文提出了改進注意力機制下的人體行為識別方法。通過分析現有通道注意力機制的不足,提出了改進的注意力模塊。為了驗證改進注意力模塊的有效性,分別從可視化結果、網絡精度提升、額外網絡參數等方面進行實驗驗證。最后將模塊運用到現有的基礎網絡中,在通用數據集上與其他主流方法進行比較,實驗結果再次證明了改進后的模塊的有效性。今后工作將圍繞如何提高模塊速度上進一步展開。一些說明及源碼見:https://github.com/gongsuming/paper1。

猜你喜歡
特征實驗信息
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲欧美另类视频| 婷婷99视频精品全部在线观看| 热这里只有精品国产热门精品| 少妇精品网站| 伊人久久大香线蕉影院| 亚洲美女一级毛片| 久久国产精品娇妻素人| 尤物午夜福利视频| 国产精品夜夜嗨视频免费视频| 日韩 欧美 小说 综合网 另类| 日韩AV无码免费一二三区| 国产簧片免费在线播放| 免费视频在线2021入口| 国产精品美女自慰喷水| 一本大道视频精品人妻| 中文字幕 欧美日韩| 天天躁夜夜躁狠狠躁图片| 色天堂无毒不卡| 久久这里只有精品66| 91福利免费视频| 欧美另类一区| 亚洲成人网在线播放| 国产精品v欧美| 日韩区欧美国产区在线观看| 色婷婷电影网| 亚洲av无码牛牛影视在线二区| 理论片一区| 狠狠躁天天躁夜夜躁婷婷| 婷婷午夜天| 一级毛片免费高清视频| 亚洲AV无码不卡无码| 动漫精品中文字幕无码| 超碰免费91| 亚洲黄色高清| 日韩欧美国产另类| 这里只有精品在线播放| 国产精品久久自在自线观看| 国产白浆一区二区三区视频在线| 波多野结衣在线se| 色香蕉网站| 在线观看国产精品一区| 国产凹凸一区在线观看视频| 欧美福利在线播放| 亚洲人精品亚洲人成在线| 毛片网站免费在线观看| 精品国产三级在线观看| 欧美不卡二区| 成人福利在线看| 亚洲中文字幕在线精品一区| 久草视频精品| 亚洲精品无码成人片在线观看| 综合色区亚洲熟妇在线| 在线欧美日韩| 国产精品思思热在线| 亚洲综合色婷婷| 久久黄色一级视频| 91无码视频在线观看| 午夜性刺激在线观看免费| 国产精品极品美女自在线网站| 欧美一级高清片久久99| 日韩专区欧美| 1级黄色毛片| 成人午夜福利视频| 久久亚洲国产一区二区| 2020亚洲精品无码| 波多野结衣一区二区三视频 | 五月天综合婷婷| 亚洲无码在线午夜电影| 99热这里只有精品国产99| 国产小视频免费观看| 国产JIZzJIzz视频全部免费| 五月激情综合网| www.国产福利| 亚洲六月丁香六月婷婷蜜芽| 亚洲欧美另类中文字幕| 99在线观看视频免费| 99国产精品免费观看视频| 找国产毛片看| 国产18在线播放| 欧美色综合久久| 国产日本欧美在线观看| 青青青国产视频|