基于雙流CNN與Bi-LSTM的施工人員不安全行為輕量級(jí)識(shí)別模型

2022-08-19 02:02:02代新冠賈榮豪

西安科技大學(xué)學(xué)報(bào) 2022年4期

關(guān)鍵詞：特征模型

馬莉，王卓，代新冠，賈榮豪

(西安科技大學(xué) 通信與信息工程學(xué)院，陜西西安 710600)

0 引言

近年來，隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展，行為識(shí)別技術(shù)廣泛應(yīng)用于安全、交通及醫(yī)療等領(lǐng)域，利用行為識(shí)別技術(shù)對(duì)建筑工地施工人員行為進(jìn)行智能監(jiān)察成為廣泛研究的熱點(diǎn)。傳統(tǒng)的人員不安全行為識(shí)別主要采用前端視頻采集并結(jié)合云端檢測(cè)識(shí)別的模式，而邊緣計(jì)算具有實(shí)時(shí)處理的優(yōu)勢(shì)，能減少網(wǎng)絡(luò)傳輸帶來的檢測(cè)時(shí)延，并降低因網(wǎng)絡(luò)傳輸帶來的隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)[1]。因此，設(shè)計(jì)并實(shí)現(xiàn)人員不安全行為的邊緣檢測(cè)模型具有重要的現(xiàn)實(shí)意義。

由于云端的行為識(shí)別模型主要基于GPU進(jìn)行推理，對(duì)處理器性能有較高要求，大量網(wǎng)絡(luò)參數(shù)也會(huì)占用較多存儲(chǔ)空間。識(shí)別模型受限于處理器性能與內(nèi)存空間無法直接在邊緣端設(shè)備上實(shí)時(shí)運(yùn)行，因此，需開展模型輕量化設(shè)計(jì)，在保證模型識(shí)別準(zhǔn)確率的前提下降低模型計(jì)算復(fù)雜度和模型大小，解決識(shí)別模型在邊緣設(shè)備上的部署問題。

基于深度學(xué)習(xí)的人員行為識(shí)別方法由于具有高效和高識(shí)別率的特點(diǎn)而被廣泛使用。目前行為識(shí)別模型主要分為3類：雙流CNN，3D CNN和CNN-LSTM。SIMONYAN等提出雙流卷積神經(jīng)網(wǎng)絡(luò)[2](two stream convolutional neural network)，通過將視頻流劃分為時(shí)間流和空間流，分別提取時(shí)間特征和空間特征，識(shí)別精度較傳統(tǒng)方法有了明顯提升，并且視頻處理速度更快。雙流CNN分別利用RGB圖像和堆疊光流圖像進(jìn)行分析處理[3]，能夠有效地利用視頻中的時(shí)間信息，但是對(duì)于長時(shí)動(dòng)態(tài)信息利用率不高[4]。長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory，LSTM)網(wǎng)絡(luò)適合處理長時(shí)序列，因此GAMMULLE等提出融合LSTM的雙流CNN網(wǎng)絡(luò)用于行為識(shí)別，利用雙流CNN提取單幀圖像的時(shí)空流特征，將得到的特征按時(shí)間順序輸入LSTM，最終得到視頻數(shù)據(jù)的行為特征，且取得了很好的效果[5]。JI等提出利用3D卷積核[6]提取視頻序列的時(shí)空間特征進(jìn)行行為識(shí)別，由于采用了端到端的方式，具有處理速度快，但存在模型參數(shù)量大，識(shí)別準(zhǔn)確率不高的問題。DONAHUE等提出長時(shí)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)[7]，將LSTM與CNN相結(jié)合，利用CNN提取單幀圖像的卷積特征，將得到的特征按時(shí)間順序輸入LSTM，最終得到視頻數(shù)據(jù)的行為特征，該方法處理速度較快，但也存在準(zhǔn)確率不高的問題。

模型輕量化設(shè)計(jì)其中一個(gè)重要的技術(shù)路線是設(shè)計(jì)高效的網(wǎng)絡(luò)結(jié)構(gòu)，以犧牲部分準(zhǔn)確率為代價(jià)，減少網(wǎng)絡(luò)參數(shù)，以滿足實(shí)時(shí)性與低內(nèi)存的要求。近些年，輕量化的CNN模型相繼被提出，最具代表性的有SqueezeNet，MobileNet，ShuffleNet等。SqueezeNet[8]將單個(gè)卷積運(yùn)算進(jìn)行拆分，拆分為為1×1大小的卷積核以及由3×3和1×1大小卷積核2部分，其比例可通過參數(shù)調(diào)節(jié)，能大幅降低模型參數(shù)。MobileNetV1[9]引入深度可分離卷積替換普通卷積降低模型計(jì)算復(fù)雜度和參數(shù)量，MobileNetV2[10]在此基礎(chǔ)上借鑒殘差網(wǎng)絡(luò)引入反向殘差和線性瓶頸，以提高模型的準(zhǔn)確率，MobileNetV3[11]通過引入通道注意力進(jìn)一步提高模型準(zhǔn)確率。ShuffleNetV1[12]引入分組卷積，大幅降低計(jì)算量。ShuffleNetV2[13]針對(duì)大量的1×1卷積和元素級(jí)加法引入通道分離，避免元素級(jí)加法，降低計(jì)算復(fù)雜度。

1 模型設(shè)計(jì)

如圖1所示，文中提出的基于雙流CNN與Bi-LSTM的施工人員不安全行為輕量級(jí)識(shí)別模型，主要包含雙流特征提取模塊、特征融合模塊和行為分類模塊。模型在傳統(tǒng)雙流CNN的基礎(chǔ)上進(jìn)行改進(jìn)，通過使用輕量化網(wǎng)絡(luò)ShuffleNetV2結(jié)構(gòu)代替?zhèn)鹘y(tǒng)CNN結(jié)構(gòu)達(dá)到降低模型計(jì)算復(fù)雜度和模型參數(shù)量的目的。與此同時(shí)，為了保證模型識(shí)別準(zhǔn)確率，模型在雙流特征提取模塊中引入卷積注意力模塊提取時(shí)空雙流特征，以較小的計(jì)算復(fù)雜度提升為代價(jià)提高行為識(shí)別準(zhǔn)確率；在特征融合模塊中引入Bi-LSTM網(wǎng)絡(luò)，獲取視頻前后的關(guān)聯(lián)信息，充分考慮特征之間的時(shí)序關(guān)系，更好的融合時(shí)空雙流特征，提高識(shí)別準(zhǔn)確率；在行為分類模塊中利用注意力機(jī)制實(shí)現(xiàn)自適應(yīng)分配權(quán)重，從而提升人員行為識(shí)別準(zhǔn)確率。

圖1 基于雙流CNN與Bi-LSTM的施工人員不安全行為輕量級(jí)識(shí)別模型Fig.1 Lightweight recognition model for unsafe behaviors of construction workers based on two-stream CNN and Bi-LSTM

1.1 引入卷積注意力模塊的輕量雙流特征提取模塊設(shè)計(jì)

雙流神經(jīng)網(wǎng)絡(luò)利用時(shí)間流和空間流分別提取視頻行為特征，空間流網(wǎng)絡(luò)將多個(gè)RGB圖像幀作為輸入，提取人員動(dòng)作的空間特征；時(shí)間流網(wǎng)絡(luò)將多個(gè)光流圖作為輸入，提取人員運(yùn)動(dòng)的時(shí)間特征。基于雙流網(wǎng)絡(luò)框架將特征提取網(wǎng)絡(luò)替換為引入了卷積注意力模塊的ShuffleNetV2網(wǎng)絡(luò)，在保證準(zhǔn)確率的前提下大幅提升了行為識(shí)別速度。

1.1.1 ShuffleNetV2網(wǎng)絡(luò)

傳統(tǒng)雙流特征提取網(wǎng)絡(luò)基于CNN，存在特征提取耗時(shí)較長、網(wǎng)絡(luò)參數(shù)量較大的問題。因此采用輕量化結(jié)構(gòu)ShuffleNetV2替換原有的特征提取網(wǎng)絡(luò)，利用有限的計(jì)算資源來實(shí)現(xiàn)較高的模型精度，實(shí)現(xiàn)在速度和準(zhǔn)確度之間的平衡，降低模型計(jì)算復(fù)雜度，提高識(shí)別效率。ShuffleNetV2網(wǎng)絡(luò)由ShuffleNet網(wǎng)絡(luò)升級(jí)而來，ShuffleNet的核心是逐點(diǎn)組卷積和通道混洗，ShuffleNetV2在此基礎(chǔ)上又引入了通道分離操作。逐點(diǎn)組卷積即逐點(diǎn)卷積和分組卷積的結(jié)合。分組卷積是對(duì)輸入的特征圖進(jìn)行分組，然后對(duì)每組分別進(jìn)行卷積，能夠大幅降低卷積參數(shù)量。逐點(diǎn)卷積為使用卷積核大小為1×1的卷積操作，可以起到一個(gè)跨通道聚合的作用，所以進(jìn)一步可以起到降維(或者升維)的作用，達(dá)到減少參數(shù)的目的[14]。分組卷積可用于減少模型參數(shù)量，但是ShuffleNet中使用了過多的分組卷積導(dǎo)致內(nèi)存訪問時(shí)間(memory access cost，MAC)增加，也導(dǎo)致通道間信息分離。為了實(shí)現(xiàn)特征圖之間的通道信息融合，如圖2所示，ShuffleNetV2在通道混洗操作上又引入了通道分離的操作。網(wǎng)絡(luò)通過將輸入特征劃分為2個(gè)分支，通道數(shù)分別為C-C1和C1。左邊分支保持不變，右邊分支經(jīng)過多次卷積，再將2個(gè)分支合并，經(jīng)過通道混洗操作將每一組的特征分散至不同的組后再進(jìn)行分組卷積，實(shí)現(xiàn)不同通道之間的信息交流。

圖2 ShuffleNetV2單元Fig.2 ShuffleNetV2 unit

1.1.2 卷積注意力模塊

利用輕量化結(jié)構(gòu)ShuffleNetV2提取雙流特征能有效降低網(wǎng)絡(luò)的計(jì)算量及其大小，但也導(dǎo)致行為識(shí)別準(zhǔn)確率下降。因此引入卷積注意力模塊(convolutional block attention module，CBAM)以較小的計(jì)算開銷提升網(wǎng)絡(luò)性能。CBAM[15]是一個(gè)輕量級(jí)的通用模塊，可以集成到其他CNN框架中。CBAM結(jié)合了空間和通道注意力機(jī)制，既考慮不同道像素的重要性，又考慮了同一通道不同位置像素的重要性，是一種簡單而有效的注意力模塊。CBAM的結(jié)構(gòu)如圖3所示，模塊的輸入為上一卷積層的輸出特征，通過一個(gè)通道注意力模塊，得到加權(quán)結(jié)果之后，會(huì)再經(jīng)過一個(gè)空間注意力模塊，最終進(jìn)行加權(quán)得到結(jié)果。

圖3 卷積注意力模塊結(jié)構(gòu)Fig.3 Structure of convolutional block attention module

通道注意力模塊結(jié)構(gòu)如圖4所示，其利用平均值池化和最大值池化將輸入特征在空間上進(jìn)行壓縮得到2個(gè)不同的空間信息描述符，再輸入到多層感知機(jī)中壓縮輸入特征圖的空間維度，逐元素求和合并得到通道注意力特征圖。

(4)協(xié)作程度(體現(xiàn)為設(shè)計(jì)方案的鏈長)與方案的平均質(zhì)量之間有正向關(guān)系，但高分方案的鏈長與方案數(shù)量呈近似正態(tài)分布。

圖4 通道注意力模塊Fig.4 Channel attention module

空間注意力模塊結(jié)構(gòu)如圖5所示，其對(duì)通道注意力特征圖的通道進(jìn)行壓縮，在通道維度上分別進(jìn)行了平均值池化和最大值池化，再將所得到的特征圖合并得到空間注意力特征圖。

圖5 空間注意力模塊Fig.5 Spatial attention module

1.1.3 引入卷積注意力模塊的輕量雙流特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)

雙流特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)見表1。表中L為輸入數(shù)據(jù)通道數(shù)，空間流中L=30，時(shí)間流中L=20；重復(fù)次數(shù)表示該模塊在網(wǎng)絡(luò)中堆疊個(gè)數(shù)。

1.2 引入Bi-LSTM的特征融合模塊

由于傳統(tǒng)雙流結(jié)構(gòu)提取的時(shí)空特征僅在最后的Softmax層進(jìn)行融合，沒有充分考慮時(shí)空特征時(shí)序連續(xù)性[16]。因此，在特征融合模塊中引入Bi-LSTM強(qiáng)化時(shí)空特征關(guān)聯(lián)性與時(shí)序性。Bi-LSTM的核心在于引入了可控自循環(huán)[17]，以產(chǎn)生讓梯度能夠得以長時(shí)間可持續(xù)流動(dòng)的路徑，克服長序列模型訓(xùn)練過程中的梯度消失和梯度爆炸問題[18]。由于運(yùn)動(dòng)特征是具有時(shí)序性的人員行為信息，而在Bi-LSTM中，當(dāng)前時(shí)刻的輸入同時(shí)依賴前后的視頻幀，充分考慮視頻幀的時(shí)序信息[19]，因此考慮將雙流網(wǎng)絡(luò)提取的時(shí)空特征作為Bi-LSTM網(wǎng)絡(luò)的輸入特征。Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

圖6 Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of Bi-LSTM

ht=f(w1xt+w2ht-1+b1)

(1)

(2)

(3)

式中Ot為Bi-LSTM的輸出特征向量;b1,b2為前饋層和反饋層的網(wǎng)絡(luò)偏置，f()為tanh函數(shù)，g()為Sigmoid函數(shù)。Bi-LSTM通過同時(shí)對(duì)前向和后向LSTM單元信息的更新，輸出不同時(shí)刻的時(shí)空融合特征向量，最后將該特征輸入到注意力機(jī)制模塊中。

1.3 引入注意力機(jī)制的行為分類模塊

注意力機(jī)制模仿人類視覺系統(tǒng)中大腦處理信號(hào)的機(jī)制，通常被運(yùn)用在圖像處理和自然語言處理領(lǐng)域。注意力機(jī)制通過網(wǎng)絡(luò)中不同時(shí)刻Bi-LSTM網(wǎng)絡(luò)輸出的特征向量動(dòng)態(tài)分配權(quán)重，對(duì)識(shí)別結(jié)果有利的幀賦予更高的權(quán)重，提高識(shí)別的準(zhǔn)確率[20]。利用Bi-LSTM網(wǎng)絡(luò)可以提取到視頻中的行為特征，但是當(dāng)視頻較長時(shí)，提取到的行為特征中會(huì)包含大量冗余信息，關(guān)鍵信息會(huì)被淹沒，這會(huì)對(duì)后續(xù)的行為識(shí)別的準(zhǔn)確度產(chǎn)生影響。注意力機(jī)制結(jié)構(gòu)如圖7所示。

圖7 注意力機(jī)制結(jié)構(gòu)Fig.7 Attention mechanism structure

圖7中Ot為Bi-LSTM網(wǎng)絡(luò)輸出的第t個(gè)特征向量；St為第t個(gè)隱藏層的輸出Ot在所有視頻幀中所占的分值；αt為權(quán)重系數(shù)，表示各個(gè)時(shí)刻的注意力概率分布值。計(jì)算公式如下

St=tanh(wtOt+bt)

(4)

(5)

(6)

式中wt和bt分別為權(quán)重和偏置；tanh()為非線性激活函數(shù)。γ為包含特征信息的特征向量，經(jīng)Softmax分類函數(shù)后可以得到行為識(shí)別結(jié)果。

2 數(shù)據(jù)集構(gòu)建與模型訓(xùn)練

2.1 數(shù)據(jù)集構(gòu)建

實(shí)驗(yàn)數(shù)據(jù)使用UCF-101數(shù)據(jù)集和自建建筑工地施工人員數(shù)據(jù)集進(jìn)行不安全行為識(shí)別。UCF-101視頻數(shù)據(jù)集是在行為識(shí)別領(lǐng)域被廣泛使用的公開數(shù)據(jù)集，主要來源于YouTube視頻平臺(tái)，類別包括人與物的互動(dòng)、人與人的互動(dòng)、人員動(dòng)作、樂器運(yùn)動(dòng)和體育運(yùn)動(dòng)，共計(jì)101種行為類別。UCF-101數(shù)據(jù)集不僅包含多種行為類別，還包含各種的復(fù)雜背景，存在光線不足和相機(jī)晃動(dòng)等問題，對(duì)于模型的魯棒性有較高要求[21]。自建建筑施工人員數(shù)據(jù)集主要來源于在某建筑工地實(shí)拍的施工人員行為視頻，類別主要分為正常行為和危險(xiǎn)行為，正常行為包括正常行走、搬運(yùn)物品、使用推車、駕駛車輛、搭建腳手架、清理工地、施工作業(yè)7類行為，危險(xiǎn)行為包括攀爬高處、翻越圍欄、快速奔跑、拋擲物品、打鬧推搡、意外摔倒和使用手機(jī)7類行為，正常行為和危險(xiǎn)行為共計(jì)14種[22]。所提模型只考慮正常施工環(huán)境，對(duì)于人員密集場(chǎng)所不做考慮。如圖8所示，自建數(shù)據(jù)集在稀疏場(chǎng)景下進(jìn)行數(shù)據(jù)采集，采集時(shí)人員佩戴安全帽，身穿反光背心。

圖8 自建數(shù)據(jù)集示例Fig.8 Examples of self-built data set

實(shí)驗(yàn)所用數(shù)據(jù)集具體參數(shù)見表2。

表2 實(shí)驗(yàn)所用數(shù)據(jù)集參數(shù)

實(shí)驗(yàn)所需數(shù)據(jù)集需要進(jìn)行預(yù)處理，數(shù)據(jù)集劃分以及數(shù)據(jù)采樣后才可用于模型訓(xùn)練。實(shí)驗(yàn)首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理，主要分為3步：①將每段視頻依據(jù)25 fps的幀率進(jìn)行采集，獲得多幀RGB圖像；②基于OpenCV視覺庫中的稠密光流幀提取方法，分別提取視頻中水平和垂直方向上的光流幀；③通過隨機(jī)采樣的方式對(duì)數(shù)據(jù)采樣[23]，將視頻幀序列共分為十段，每段隨機(jī)取一幀RGB圖像幀與光流幀，10幀為一組，并將圖像幀的大小裁剪為244×244。因此，空間流數(shù)據(jù)的輸入大小為244×244×30，時(shí)間流數(shù)據(jù)的輸入大小為244×244×20。

2.2 模型訓(xùn)練

實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架搭建模型，具體實(shí)驗(yàn)環(huán)境為：Intel i7-8700處理器、NVIDIA GTX 2080 Ti顯卡和16G運(yùn)行內(nèi)存。模型采用交叉熵函數(shù)作為損失函數(shù)進(jìn)行訓(xùn)練，用于衡量訓(xùn)練后樣本分類結(jié)果與訓(xùn)練樣本標(biāo)簽的相似度。模型訓(xùn)練采用自適應(yīng)矩估計(jì)(Adam)方法，實(shí)現(xiàn)損失函數(shù)收斂到最小值。Adam方法特點(diǎn)在于自適應(yīng)調(diào)整學(xué)習(xí)率，適合大規(guī)模數(shù)據(jù)及參數(shù)場(chǎng)景，實(shí)現(xiàn)簡單，計(jì)算高效，對(duì)內(nèi)存需求少。實(shí)驗(yàn)采用遷移學(xué)習(xí)方法，首先基于UCF101數(shù)據(jù)集進(jìn)行模型訓(xùn)練，訓(xùn)練完成后固定部分模型參數(shù)，利用自建建筑施工人員行為數(shù)據(jù)集進(jìn)行訓(xùn)練，獲得最終實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)的訓(xùn)練超參數(shù)設(shè)置見表3。

表3 模型超參數(shù)設(shè)置

初始學(xué)習(xí)率用于限制初始時(shí)梯度更新時(shí)的步長，通常設(shè)置為0.001；批量大小受GPU內(nèi)存限制，當(dāng)大小為8時(shí)能夠在內(nèi)存不溢出的情況下最大化提高模型訓(xùn)練效率；一階矩估計(jì)指數(shù)衰減率用于控制動(dòng)量與當(dāng)前梯度的權(quán)重分配，通常取接近于1的值，默認(rèn)為0.9。二階矩估計(jì)指數(shù)衰減率用于控制梯度平方的對(duì)動(dòng)量的影響，默認(rèn)為0.999。Epsilon參數(shù)是增加數(shù)值計(jì)算的穩(wěn)定性而加到分母里的常數(shù)，避免除數(shù)為0，默認(rèn)為1.0×10-8。

圖9為所提模型在對(duì)UCF-101數(shù)據(jù)集訓(xùn)練過程中的損失函數(shù)曲線與測(cè)試集識(shí)別準(zhǔn)確率變化曲線。從圖中可以看出隨訓(xùn)練輪數(shù)增加，每輪的平均損失函數(shù)與平均準(zhǔn)確率趨于穩(wěn)定，最終損失值下降到0.1左右，測(cè)試集識(shí)別準(zhǔn)確率最高可達(dá)94.3%，由此可以分析出所提模型的訓(xùn)練結(jié)果比較理想，具有較高的識(shí)別準(zhǔn)確率。

圖9 模型訓(xùn)練中損失與準(zhǔn)確率變化Fig.9 Changes of loss and accuracy in model training

模型利用遷移學(xué)習(xí)方法在自建建筑工地?cái)?shù)據(jù)集上進(jìn)行二次訓(xùn)練，固定雙流特征提取網(wǎng)絡(luò)中Flatten層及之前的網(wǎng)絡(luò)參數(shù)，并對(duì)其余網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練，最終在測(cè)試集上得到最高識(shí)別準(zhǔn)確率為94.8%。模型通過在UCF-101數(shù)據(jù)集上的訓(xùn)練已經(jīng)具有較高的識(shí)別準(zhǔn)確率，并且由于自建數(shù)據(jù)集數(shù)據(jù)量較少，場(chǎng)景相對(duì)單一，行為類別相對(duì)較少，因此在自建數(shù)據(jù)集上具有更高的識(shí)別準(zhǔn)確率。

2.3 模型評(píng)價(jià)指標(biāo)

考慮到所設(shè)計(jì)的模型主要應(yīng)用于邊緣設(shè)備，因此，除了識(shí)別準(zhǔn)確率之外，模型的計(jì)算復(fù)雜度和模型參數(shù)量也成為評(píng)估模型的主要指標(biāo)，需要對(duì)模型的計(jì)算量與大小進(jìn)行評(píng)估[24]。模型的計(jì)算復(fù)雜度使用累加乘積操作次數(shù)作為衡量標(biāo)準(zhǔn)，利用模型所包含乘法操作與加法操作次數(shù)來表征。模型的大小通常利用模型的參數(shù)量來表示，直接決定模型文件的大小，也影響模型推斷時(shí)對(duì)內(nèi)存的占用量。模型準(zhǔn)確率通過統(tǒng)計(jì)正確識(shí)別行為類別樣本占總分類樣本的比例來表征。模型性能評(píng)價(jià)指標(biāo)見表4。

表4 模型性能評(píng)價(jià)指標(biāo)

其中，Ci,Co為輸入、輸出特征通道數(shù)；Hk,Wk為卷積核大小；H，W為輸入特征圖的大小；TP為將正類預(yù)測(cè)為正類數(shù)；TN為將負(fù)類預(yù)測(cè)為負(fù)類數(shù)；FP將負(fù)類預(yù)測(cè)為正類數(shù)；FN為將正類預(yù)測(cè)為負(fù)類數(shù)。

3 模型對(duì)比實(shí)驗(yàn)

3.1 CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比實(shí)驗(yàn)

為了驗(yàn)證不同方法的性能指標(biāo)，對(duì)多種方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)選取多種經(jīng)典雙流CNN結(jié)構(gòu)作為特征提取網(wǎng)絡(luò)，分別計(jì)算其模型復(fù)雜度模型參數(shù)量和識(shí)別準(zhǔn)確率。由于UCF-101數(shù)據(jù)集樣本較多，同一行為涵蓋多種場(chǎng)景，對(duì)模型魯棒性要求較高，因此實(shí)驗(yàn)利用該數(shù)據(jù)集進(jìn)行不同算法的對(duì)比，實(shí)驗(yàn)結(jié)果見表5。

由表5可以看出，利用ResNet作為特征提取骨干網(wǎng)絡(luò)的雙流CNN網(wǎng)絡(luò)參數(shù)量較大，行為識(shí)別率也不高，性能表現(xiàn)不佳。利用VGG16提取雙流特征的方法可以較大的提升識(shí)別準(zhǔn)確率，但是模型參數(shù)量與計(jì)算量均較高。所提模型在UCF101上的識(shí)別準(zhǔn)確率較高，可達(dá)94.3%，計(jì)算復(fù)雜度為7.79 G，模型參數(shù)量為5.38 M，通過對(duì)比可以看出，該模型的計(jì)算復(fù)雜度和參數(shù)量均最小，相較于傳統(tǒng)雙流識(shí)別方法具有較大的優(yōu)勢(shì)，綜合性能更好。

表5 CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比

3.2 輕量級(jí)CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比實(shí)驗(yàn)

為了驗(yàn)證模型所引入輕量化結(jié)構(gòu)的對(duì)模型性能的影響，選取多種經(jīng)典的輕量級(jí)模型結(jié)構(gòu)引入雙流CNN網(wǎng)絡(luò)并在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)結(jié)果見表6。

表6 輕量級(jí)CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比

由表6可以看出，ShuffleNetV2雖然模型復(fù)雜度最高，但模型參數(shù)相對(duì)較少，而且具有最高的識(shí)別準(zhǔn)確率。因此，選取雙流CNN-ShuffleNetV2輕量化模型作為雙流CNN網(wǎng)絡(luò)的特征提取網(wǎng)絡(luò)。

3.3 消融實(shí)驗(yàn)

3.3.1 卷積注意力模塊引入前后性能對(duì)比

為了驗(yàn)證卷積注意力模塊對(duì)模型性能的影響，使用雙流CNN-ShuffleNetV2模型作為參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，對(duì)應(yīng)表7中基準(zhǔn)模型1，實(shí)驗(yàn)結(jié)果見表7。

表7 卷積注意力模塊引入前后模型性能對(duì)比

由表7可以看出，在引入CBAM后模型計(jì)算復(fù)雜度與模型參數(shù)量雖均有較小提高，但模型識(shí)別準(zhǔn)確率有較大提升。實(shí)驗(yàn)結(jié)果表明，CBAM的引入以模型參數(shù)量與計(jì)算復(fù)雜度較小幅度的增加換取了識(shí)別準(zhǔn)確率0.4%的提升，可滿足文中模型設(shè)計(jì)的需求，因此，文中將CBAM引入該模型以提高模型識(shí)別準(zhǔn)確率。

3.3.2 LSTM，Bi-LSTM引入前后性能對(duì)比

為了驗(yàn)證LSTM與Bi-LSTM引入后對(duì)網(wǎng)絡(luò)性能的影響，以表7中基準(zhǔn)模型1+CBAM作為實(shí)驗(yàn)對(duì)比的參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，對(duì)應(yīng)表8中的基準(zhǔn)模型2，實(shí)驗(yàn)結(jié)果見表8。

由表8可以看出，將LSTM與Bi-LSTM引入模型后，模型的計(jì)算復(fù)雜度沒有變化，模型參數(shù)量變化較小，但模型的識(shí)別準(zhǔn)確率有較大的提升，說明引入Bi-LSTM模型后的識(shí)別準(zhǔn)確率比引入LSTM的高0.3%，表明Bi-LSTM結(jié)構(gòu)對(duì)于長時(shí)序列的雙流特征融合具有更好的表現(xiàn)。

3.3.3 注意力機(jī)制引入前后性能對(duì)比

為了驗(yàn)證注意力機(jī)制引入后對(duì)網(wǎng)絡(luò)性能的影響，文中使用以基準(zhǔn)模型2+Bi-LSTM作為實(shí)驗(yàn)對(duì)比的參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，對(duì)應(yīng)表9中的基準(zhǔn)模型3，實(shí)驗(yàn)結(jié)果見表9。

實(shí)驗(yàn)結(jié)果表明，引入注意力機(jī)制后，模型計(jì)算復(fù)雜度與模型參數(shù)不變，而模型的識(shí)別準(zhǔn)確率提升0.2%。

4 結(jié) 論

1)采用高效輕量化網(wǎng)絡(luò)結(jié)構(gòu)ShuffleNetV2替代傳統(tǒng)CNN能夠大幅降低模型計(jì)算復(fù)雜度和模型參數(shù)量，且在UCF-101數(shù)據(jù)集上行為識(shí)別準(zhǔn)確率可達(dá)93.1%，相較傳統(tǒng)雙流CNN綜合性能更優(yōu)，相比其他輕量級(jí)雙流CNN具有最高的識(shí)別準(zhǔn)確率，適合部署在邊緣設(shè)備上。

2)為提高識(shí)別準(zhǔn)確率，模型引入卷積注意力模塊，以較小的計(jì)算復(fù)雜度和模型參數(shù)量增加為代價(jià)，使得識(shí)別準(zhǔn)確率提升0.4%。模型針對(duì)行為的長時(shí)序性引入Bi-LSTM增強(qiáng)時(shí)空特征關(guān)聯(lián)性，使得識(shí)別準(zhǔn)確率提升0.6%。模型引入注意力機(jī)制自適應(yīng)分配行為權(quán)重，使得識(shí)別準(zhǔn)確率提升0.2%。

3)所提模型與傳統(tǒng)的雙流CNN網(wǎng)絡(luò)相比具有更低的計(jì)算復(fù)雜度和更小的模型參數(shù)量，累加乘積操作次數(shù)為7.73 G，參數(shù)量為5.38 M，且行為識(shí)別率較高，在UCF101數(shù)據(jù)集和自建數(shù)據(jù)集上可達(dá)94.3%,94.8%，適合在邊緣設(shè)備上部署和運(yùn)行。