999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進型C3D 網絡的人體行為識別算法

2021-11-29 04:40:06席志紅馮宇
應用科技 2021年5期
關鍵詞:特征模型

席志紅,馮宇

哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001

隨著計算機視覺和人工智能領域的不斷發展,越來越多的先進設備投入到人們的生產生活當中,給人們帶來了巨大的便利。人體行為識別是計算機視覺領域的重要分支,該技術在視頻監控、醫學健康、智能家居、體育運動以及虛擬現實等領域應用極其廣泛。傳統的行為識別方法采用時空興趣點[1](space-time interest points,STIP)表示人體局部時空特征進行姿態識別。Wang 等[2]將加速健壯特征 (speeded-up robust features,SURF)與光流特征結合,提出改進密集軌跡算法進行人體姿態識別。由于傳統的識別方法大部分需要人工提取特征,所以較為耗時耗力。隨著2012 年Hinton 等[3]提出深度卷積神經網絡,不少研究人員把目光轉向了卷積神經網絡。Ji 等[4]首次提出基于3D 卷積網絡結構的人體姿態識別方法。Tran 等[5]提出了C3D網絡,通過系統化地研究找到了3D 卷積最合適的時序卷積核長度。丁紅等[6]提出基于DBN 深度信念網絡的人體行為檢測系統。韓雪平等[7]則將人體局部信息與全局信息相結合提升整體識別率。黃瀟逸[8]提出一種骨骼關節點投影特征并采用支持向量機進行分類識別。葉青等[9]采用3D 卷積層搭建DenseNet 來提高網絡中的特征利用率。M.Kocabas 等[10]提出一種3D 人體姿態估計的自我監督學習方法。Li 等[11]提出動態尺度圖神經網絡(dynamic multiscale graph neural networks,DMGNN)來預測基于3D 骨骼的人體運動。Zhang[12]提出了一種上下文感知圖卷積網絡(CA-GCN) 用于骨骼的人體姿態識別。由于C3D 網絡能直接提取時空特征,并且結構由3D 卷積層和3D 池化以及全連接層簡單堆疊而成,所以結構比較簡單,廣泛用于視頻的人體行為識別研究[5]。但是原始C3D 網絡的參數較為巨大,不利于模型遷移,并且識別率還有待提高。所以本文提出基于改進型C3D 網絡的人體行為識別算法,該算法從卷積核以及網絡結構入手,對模型尺寸進行壓縮并且進一步提高在視頻數據集中的識別率。

1 C3D 神經網絡

1.1 C3D 網絡結構

原始C3D 網絡采用3D 卷積和3D 池化,并且由8 個通道分別為64、128、256、256、512、512、512、512 的3D 卷積層、5 個3D 最大池化層、2 個神經元為4 096 的全連接層以及softmax 分類器構成。Tran 等[5]經過大量實驗證明3D 卷積核尺寸為(3×3×3)時會使得整體性能達到最好,所以原始C3D 網絡中所有3D 卷積層中的3D 卷積核尺寸均為(3×3×3),步長以及填充(padding)均為(1×1×1),則經過該3D 卷積層的輸入和輸出的尺寸均未改變,尺寸的改變均由3D 最大池化操作進行。但是為了避免由于過早地丟失時間信息而造成識別精度的下降,所以僅有第1 層的3D 最大池化內核尺寸為(1×2×2),步長也為(1×2×2),padding 為0,其余3D 最大池化內核尺寸以及步長均為(2×2×2),該網絡整體結構以及尺寸大小如圖1 所示。

圖1 C3D 神經網絡結構

1.2 C3D 網絡輸出特征

該原始網絡的輸入尺寸為(3×16×112×112),可以寫成通用形式為(c×l×h×w),其中c為圖像通道數,l為視頻幀長度,h為視頻幀的高度,w為視頻幀的寬度。3D 卷積濾波器內核尺寸可以寫為(d×k×k),其中d為3D 卷積內核的時間深度,k為3D 卷積內核的空間大小。該輸入通過1 個數量為n、內核尺寸為(3×3×3)、步長以及padding均為(1×1×1)的3D 卷積濾波器,則輸出的特征圖尺寸為(n×l×h×w),并且在該原始網絡中使用的優化算法為隨機梯度下降(stochastic gradient descent,SGD),激活函數為修正線性單元[13](rectified linear unit,ReLU),并為防止過擬合現象而采用了Dropout 正則化方法。

2 本文結構設計方法

2.1 優化算法及激活函數

以往的優化算法常采用SGD,雖然該優化算法在計算梯度時隨機選取一個樣本更新梯度使得訓練速度增快,但是SGD 會引入更多的隨機噪聲,使得準確度下降,在某些情況下還會陷入鞍點容易收斂到局部最優,并對學習率的選擇較為敏感??紤]以上問題,本文采用另外一種改進型的梯度下降算法,即Adam 算法。該算法結合了動量和RMSProp算法的特點,能夠為不同的參數計算不同的自適應學習率,并且能夠快速跳出鞍點以及快速收斂,同時還能夠解決梯度稀疏和噪音大的問題。目前最常用的激活函數為ReLU,由于該激活函數計算簡單,并且計算過程中部分神經元為0,使得網絡具有稀疏性,緩解過擬合現象,在反向傳播過程還會解決梯度消失的問題,所以被廣泛應用在各種網絡結構中。但是該激活函數會造成神經元“壞死”,最終導致相應參數永遠不會更新,而且ReLU 還缺乏概率解釋,一些隨機正則化能夠讓網絡更好地提升精度,所以本文采用與隨機正則化有關的新一類激活函數,即高斯誤差線性單元[14](gaussian error linear unit,GELU),如圖2 所示,其中該激活函數的輸入x為輸入信號加權及偏置總和,y為x經過GELU 激活函數的激活值,并且文獻[14]中已經證明在多個任務實驗里GELU 的激活效果要優于ReLU 的激活效果。

圖2 GELU 激活函數

2.2 全局平均池化替代全連接層

在傳統卷積神經網絡中,全連接層往往處于整個網絡結構的末尾,如圖3 所示。用于將經過最后一層卷積層輸出的特征圖轉換為一維向量,并且該層的每一個神經元都與上一層的每個神經元連接,即把前一層的所有輸出特征全部綜合起來,達到輸出特征高度提純的目的,有助于更好地識別有效特征。但是對輸出特征綜合的同時,該層的權重參數數量也是最多的,并且由于巨大的參數量則容易造成訓練速度降低和過擬合現象發生。所以本文采用全局平均池化(global average pooling,GAP)來代替全連接層,如圖4 所示。該方法在NIN 網絡[15]中被提出,由于它不需要神經元而是直接對輸入特征做下采樣,得到的圖像輸出尺寸為(1×1×1),所以能夠減少大量參數,并且可以避免在原始C3D 網絡中因輸入不同圖像尺寸所帶來的問題。它還可以對卷積層輸出的每個特征圖進行加權平均,使網絡具有全局感受野避免損失空間位置信息,該方法還對整個網絡的結構進行正則化防止過擬合現象。

圖3 全連接示意

圖4 全局平均池化示意

2.3 引入三維點卷積層及批歸一化

在輸入特征經過全局平均池化層后,需要將其輸入到最后的分類全連接層中,并經過softmax分類器以輸出類別得分。但考慮到全連接層會破壞視頻幀圖像的空間結構信息,所以在本文結構中引入三維點卷積層,即用(1×1×1)的三維點卷積核構成的三維卷積層作為分類卷積層來代替該全連接層,并實現了全卷積的網絡結構。點卷積即卷積核為(1×1),最早出現在NIN 網絡[15]中,用于加深網絡結構并構建MLP卷積層。本文受到VGG網絡[16]啟發,采用堆疊卷積核為(3×3×3)的三維卷積層以及三維點卷積層來提高網絡表達能力。本文結構中的三維點卷積層位于卷積核為(3×3×3)的三維卷積層之后,可以對三維卷積提取的時空特征進行網絡通道間的跨通道組織信息,即用以通道之間的信息融合,并且增加卷積層可以加深網絡,提高網絡模型的非線性以及增加更多的特征變換來獲取更深層次的有效行為特征,該方法能夠有效地提高模型識別精度。由于本文是全卷積網絡形式結構,所以去掉了原有的Dropout 正則化操作,但為能夠更好地加快網絡訓練和收斂速度,并進一步有效防止過擬合以及梯度消失和梯度爆炸現象發生,本文引入批歸一化處理[17](batch normalization,BN) 操作來對網絡進行正則化處理。

2.4 卷積核合并

由于在網絡結構中增加了卷積層和BN 層,則在提高網絡識別能力的同時參數的數量也有所增加,所以本文采用了卷積核合并的方式減少網絡參數數量。在Inception-v3 網絡[18]文獻中提到2 種卷積核分解方式:1)分解為較小卷積,例如將1 個(5×5) 的卷積核可以分解為2 個(3×3)卷積核。2) 空間分解為非對稱卷積,例如將1 個(3×3) 卷積核可以分解為(1×3) 卷積核以及(3×1)卷積核。根據第1 種分解方式可知3 個(3×3)的卷積核可以合并為1 個(7×7)的卷積核,如圖5所示。由第2 種分解方式可知1 個(7×7)的卷積核可以拆分成(1×7) 以及(7×1)的2 個非對稱卷積核,如圖6 所示。所以本文將結構中的3 個(3×3×3) 的三維卷積核合并成(3×1×7) 和(3×7×1)的2 個非對稱三維卷積核。這種非對稱形式的拆分能夠節約大量參數,并且其結果要好于對稱地拆分為幾個相同的小卷積核,這種拆分結構能夠處理更多以及更豐富的空間特征,能夠增加特征的多樣性,加快運算速率和減輕過擬合。改進型C3D 網絡整體結構如圖7 所示。

圖5 合并(7×7)卷積示意

圖6 拆分(7×7)卷積為非對稱卷積示意

圖7 改進型C3D 網絡整體結構

3 實驗與結果分析

3.1 實驗環境

本文人體行為識別改進算法研究實驗所采用的實驗設備是Intel Core i7-8 700 CPU,主頻為3.2 GHz,內存為16 GB,硬盤為1 T,GPU 為Nvidia Tesla T4,GPU 顯存為16 GB。操作系統為Ubuntu16.04,編程語言選擇Python3.7,深度學習框架采用PyTorch1.6.0,主要依賴庫為Cuda10.1、Cudnn7.6、OpenCV4.4、Pillow7.2、NumPy1.19.2、Matplotlib3.3.2。

3.2 視頻行為識別數據集

本文使用的人體行為識別數據集為UCF101和HMDB51,這兩類數據集是目前被廣泛使用并公認的人體行為識別算法基準數據集。UCF101數據集包含101 個類別,13 320 個視頻剪輯,每個類別的剪輯視頻數量都不小于101 個視頻,并且每個視頻的長度大多在2~10 s 之間,每個視頻的空間分辨率為 3 20像素×240像素,幀速率為25 幀/s,該數據集的整體時長超過27 h,由于該數據集中的視頻大多包含攝像機的運動、背景混亂、部分遮擋、光照條件差以及低質量幀的情況,所以在行為識別任務中具有一定的挑戰性。HMDB51 數據集包含51 個類別,一共有6 766 個剪輯視頻,每個類別至少包含101 個剪輯視頻,每個視頻的空間分辨率為 320像素×240像素,幀速率為30 幀/s,該數據集涉及到攝像機運動的有無、攝像機的不同拍攝角度、動作中的人員數量不同以及視頻幀的質量不同等情況,所以該視頻數據集同樣具有挑戰性。

3.3 輸入數據預處理

首先,將視頻數據集按照每隔4 幀截取1 幀的形式將視頻轉換為幀圖像,但部分短視頻無法按照此間隔數讓網絡架構的輸入時序長度達到16 幀,則針對這部分較短視頻可自動降低采樣步長直到滿足最少16 幀的要求,這樣均勻采樣后的視頻幀序列能夠比較好地代表整個視頻的行為變化情況。在轉換為幀圖像的同時,將整個數據集按照比例為6∶2∶2 的形式分為訓練集、驗證集以及測試集,并將幀圖像轉換為1 71像素×128像素保存到指定位置。在網絡輸入數據過程中,為提高模型精度以及增強模型穩定性,將輸入尺寸為171像素×128像 素的圖像幀隨機裁剪為112像素×112像素,并通過在以上數據處理生成的視頻幀中指定選擇網絡輸入視頻幀的起始位置,然后在該位置采用一個滑動窗口選取16 幀的網絡輸入視頻幀,則網絡輸入尺寸為(3×16×112×112),并且還對每個輸入數據進行概率為0.5 的水平翻轉以及沿著圖像幀RGB 三條通道分別做均值減法操作來進行數據增強。

3.4 實驗超參數設置

本實驗中網絡的迭代周期(epoch) 為50 次,學習率(learning rate)初始設置為0.000 01,并且每迭代10 次學習率將以0.1 進行衰減,每次訓練采用的批量大小(Batch_size)為8。

3.5 UCF101 實驗結果分析

本實驗通過在UCF101 數據集進行訓練,總訓練時長大約為18.5 h,訓練的epoch 為50,準確率變化曲線以及損失變化曲線分別如圖8、圖9所示,最終識別準確率可達到86.4%,原始C3D 網絡模型在本實驗中達到的準確率為77.5%??梢姳疚母倪M方法可以有效改進準確率,并且本文改進后的模型參數量為25.82×106,原始C3D 網絡模型參數量為78.41×106,所以本文方法也可以有效地壓縮模型參數量。

圖8 UCF101 準確率變化曲線

圖9 UCF101 損失變化曲線

本文還與Res3D[19]、Spatial Stream-Resnet[20]、LSTM Composite Model[21]等當前流行的3 種方法進行準確率以及模型參數量的結果比較,證明本文方法在提高準確率以及模型壓縮方面有很好的效果,如表1 所示。

表1 UCF101 數據集各模型方法結果對比

3.6 HMDB51 實驗結果分析

本實驗在HMDB51 數據集上同樣進行相應的訓練,該訓練時長大約為9 h,準確率變化曲線以及損失變化曲線分別如圖10、圖11 所示。準確率由圖10 可知為54.3%,原始C3D 網絡在本實驗中準確率結果為46.4%,可見本文方法對于該數據集的準確率也有一定的提高。

圖10 HMDB51 準確率變化曲線

圖11 HMDB51 損失變化曲線

本文對于該數據集同樣進行本文方法與多種其他方法的準確率以及模型參數量的結果比較,證明了本文方法確實在改善識別率和模型壓縮方面有很好的效果,如表2 所示。

表2 HMDB51 數據集各模型方法結果對比

4 結論

本文針對C3D 神經網絡進行改進,并通過進一步分析實驗研究結果得出以下結論:

1)本文提出的基于改進型C3D 網絡的人體行為識別算法經過UCF101 和HMDB51 數據集的驗證,在識別準確率和模型壓縮方面均優于原始C3D 網絡以及其他流行算法;

2)雖然本文方法在識別精度和模型壓縮方面都有一定的改善,但是改進后的整體模型結構卻比較復雜,容易產生過擬合,并且增加了模型的整體計算時間;

3)在之后的研究中考慮引入注意力機制以及對網絡進行殘差形式的連接,來進一步增強對于有效特征的關注,并且防止由于模型過于復雜導致的過擬合現象發生;

4)本文引入的三維點卷積、卷積核合并形式以及構建的全卷積網絡結構可以為之后改善模型識別效果提供很好的改進思路,并且本文的模型壓縮方法可以讓人體行為識別系統更方便地嵌入到移動設備中,對于實際應用具有很好的價值。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品永久不卡免费视频 | 亚洲天堂自拍| 欧美成人精品在线| 久久免费观看视频| 国产中文在线亚洲精品官网| 国产亚卅精品无码| 国产亚洲精品97AA片在线播放| 亚洲精品不卡午夜精品| 久久这里只有精品66| 日韩精品一区二区深田咏美| 人妻中文久热无码丝袜| 欧美综合一区二区三区| 久久国产精品麻豆系列| 国产精品亚洲αv天堂无码| 伊人狠狠丁香婷婷综合色| 国产幂在线无码精品| 色综合天天综合| 伊人久久青草青青综合| 国产精品30p| 亚洲第一色网站| 乱色熟女综合一区二区| 婷婷午夜影院| 国产精品永久免费嫩草研究院| 亚洲有无码中文网| 青草免费在线观看| 亚洲天堂成人| 国产手机在线观看| 国产国模一区二区三区四区| 男人天堂亚洲天堂| 污视频日本| 日韩一级毛一欧美一国产| 日本道综合一本久久久88| 57pao国产成视频免费播放| 91av成人日本不卡三区| 黄色网站在线观看无码| 毛片网站观看| 在线日韩日本国产亚洲| 在线综合亚洲欧美网站| 欧美国产日韩在线| 人妻精品久久无码区| 成人欧美在线观看| 国产福利在线免费观看| 国产精品永久久久久| 欧美在线一级片| 国产精品亚洲片在线va| 伊伊人成亚洲综合人网7777| 久久香蕉欧美精品| 中文字幕无码中文字幕有码在线| 日韩成人在线网站| 国产精品成人免费综合| AV片亚洲国产男人的天堂| 农村乱人伦一区二区| 欧美精品伊人久久| 欧美不卡视频一区发布| 亚洲人成网址| 成人国内精品久久久久影院| 波多野结衣在线se| 国产成人欧美| 香蕉99国内自产自拍视频| 精品国产毛片| 青青青国产精品国产精品美女| 91啦中文字幕| www.亚洲一区二区三区| 喷潮白浆直流在线播放| 亚洲无码视频喷水| 91免费片| 伦伦影院精品一区| 露脸真实国语乱在线观看| 亚洲欧美日韩精品专区| 色网站在线视频| 欧洲成人在线观看| 欧美视频免费一区二区三区| 欧美在线伊人| 亚洲AV一二三区无码AV蜜桃| 日韩在线观看网站| 人妻精品全国免费视频| 毛片视频网址| 色悠久久综合| 日韩欧美91| 国产日韩欧美一区二区三区在线| 色国产视频| 色综合五月|