鄧淼磊,高振東,李 磊,陳 斯
河南工業大學 信息科學與工程學院,鄭州 450001
隨著計算機技術的快速發展,基于視頻智能分析的人體行為識別技術得到了廣泛的應用。在公共安全領域[1],通過行為識別技術可以檢測打架斗毆、持刀搶劫等違反治安法的暴力行為,盡可能減少因此所造成的人員傷害和財產損失;在智慧交通領域[2-3],通過行為識別技術可以自動判別如行人/車輛闖紅燈、駕駛員不安全駕駛等交通違法行為,保障人們出行安全;在醫療監護領域[4-5],通過該技術可實現對患者的實時監控和意外跌倒檢測等,確保患者能夠得到及時治療和幫助;在安全生產領域[6],可以實現對生產作業全過程的實時監測,對作業生產過程中出現的可能導致安全隱患的行為及時報警,確保作業生產在安全可控范圍內進行,保障人員的人身安全和財產安全。由此可見,基于視頻分析的人體行為識別技術與人們的生產生活安全息息相關,對其的研究具有深遠的意義。
基于視頻分析的行為識別任務需建立動作、姿態樣本庫,并對所設計模型進行訓練,以實現對視頻中行為的分類。根據特征提取方式的不同,行為識別可劃分為傳統方法和深度學習方法。傳統方法依賴手工對特征提取,由于早期樣本庫數據量小,場景簡單,動作單一,傳統方法可以滿足一定的需求。但隨著視頻監控技術的普及,應用場景變得越來越復雜,使用傳統方式提取的視頻特征在識別準確度上已無法滿足實際需求,視頻監控的實際價值難以得到充分利用。卷積神經網絡(convolutional neural network,CNN)[7]的出現很好地解決了傳統方式的局限性,取得了較好的效果。本文通過對行為識別領域所使用技術如3D 卷積網絡、雙流卷積網絡、few-shot learning(FSL)等進行分析和總結,對其未來發展進行展望,旨在為行為識別研究提供技術和理論支撐。
特征提取是對待檢測對象進行關鍵信息提取,用來特征表示的過程,特征提取結果的好壞直接影響算法識別率和檢測速度。特征提取方法可分為傳統方法和深度學習,其過程對比如圖1所示。

圖1 傳統和深度學習特征提取過程對比Fig.1 Comparison of traditional and deep learning feature extraction process
傳統手工特征提取方式可分為兩大類:
(1)全局特征提取,即對待測對象進行一次全局信息提取,因此該特征不包含任何的空間征,同時全局特征受噪聲區域、視角變化影響較大。其中輪廓剪影(human silhouette)[8-9]、人體關節點(human joint point)[10]最具代表性。
(2)局部特征提取,即對待測對象進行多次局部信息提取,最后將多個特征進行融合。因此局部特征受視角變化、背景噪聲影響較小。其中最具代表性方法包括運動軌跡(trajectories)[11]、時空興趣點采樣(space-time interest points)[12]等。
傳統特征提取方式是基于先驗模型,并通過關鍵點提取,生成描述子特征數據。與之不同,基于深度學習的特征提取方式則是利用深度神經網絡對待測對象進行深度特征表示的過程,通過對網絡模型進行訓練,獲得網絡參數,其具有對樣本庫數據量依賴小,同時受噪聲、角度變化影響小等優勢,已成為行為識別領域特征提取的主流方式。雖然深度學習算法在特征提取方面表現優異,但在對行為時空特征提取時也存在部分局限性,為此專家學者進行了深入研究,對于不同問題,提出了針對性的改進措施。針對動態時序特征提取難的問題,研究者們一般使用時間注意力機制使模型聚焦時序特征。例如,文獻[13]將預訓練的VGG16 網絡轉換為全卷積網絡,并用第三池化層提取靜態空間特征,同時引入時間注意力機制,學習歷史特征和當前特征之間的關系。
針對特征提取過程中受噪聲影響導致的特征提取難度大、時序特征信息利用率低的問題,文獻[14]提出的基于時間序列膨脹的TS-I3D(time sequential inflated 3 dimensions)模型,利用調頻連續波(frequency modulated continuous wave,FMCW)獲取視頻中每幀的行為信息,同時使用二維快速傅里葉變換計算每個行為的時間域和空間域特征值,然后基于運動參數和頻率之間關系得到多普勒圖,最后使用小波變換濾除噪聲信息,得到最終的特征信息。
為了更好地識別視頻中的人體行為,國內外研究學者一直致力于提取可以耦合人體行為的空間外觀信息和時間運動信息。研究發現,將原始時空網絡拆分為空間卷積和時間卷積兩部分,可以更加有效提取行為特征。為解決視頻序列對齊問題,文獻[15]使用分解的時空卷積網絡(factorized spatio-temporal convolutional network,FSTCN)來對異常行為特征進行提取,將給定的視頻序列進行多剪輯采樣,進一步提高視頻監控領域中人體行為識別算法的精確度。此外,文獻[16]基于時間域持續灰度值假設以及空間域梯度連續假設,提出的雙通道卷積神經網絡可以模擬人體大腦視覺神經腹側和背側通道,分別提取人體靜態空間特征信息和動態運動特征信息。當真賤每個像素均發生改變時,這種利用雙通道卷積神經網絡提取人體行為特征信息的灰度值和空間梯度保持不變。在對人體行為識別時,考慮到空間連續性和人體行為運動狀態的約束,文獻[17]利用原始深度數據提取空間深度特征,同時使用幀分化來跟蹤人體動作,提取時間深度特征,并將兩部分進行融合,以提高模型分類的性能。
人體骨骼特征具有良好的時空性,有利于提高異常行為的判別速度,通過對人體骨骼特征提取,可以更好的獲取具有辨識性的時空聯合信息。文獻[18]通過標注每個視頻幀中的骨骼關節點,并將其在量化后按照時間順序歸一化處理,提取出了具有辨識性的空間特征及時間特征信息。目前大部分基于骨骼關節點的特征提取方法,存在參數量大、計算復雜的問題,這促使科研人員深入研究輕量級卷積骨骼特征提取方法,以提高模型的時效性。文獻[19]集合多模態融合以及人體骨骼行為識別方法,通過多流信息融合,兼顧了模型識別準確度和時效性。為了有效提取更具有鑒別能力的時空特征,通過結合圖卷積LSTM網絡和骨骼關節點特征提取方法,不僅能夠提取空間信息和時間信息,同時可以進一步表征空間域和時間域的共性關系。文獻[20]將增強圖卷積LSTM網絡(AGC-LSTM)用于骨骼行為識別,提高了對于高層語義的表示能力,同時模型利用時間層次結構增強頂層時間域特征。此外,將混合卷積網絡用于行為特征的提取同樣取得了一定的成果。例如,文獻[21]基于C3D 神經網絡和支持向量機提出了一種新穎的自適應特征提取方法,有別于常規算法,該方法根據RGB直方圖檢測場景的變化來測量樣本中特征信息的冗余程度,同時基于光流分析提取視頻中的關鍵幀作為C3D網絡的輸入,進而提取視頻中的特征信息。雖然光流特征是基于人體行為識別任務最有效的特征之一,但特征提取過程計算量大,難以在現實中應用。為此,文獻[22]基于I3D-Shufflenet 的特征提取方法結合了I3D網絡和輕量級模型ShuffleNet 的低復雜度的優點,該方法有效地促進了特征的利用,降低了在特征提取過程中時間的消耗。
深度學習作為行為識別領域主流技術,具有特征表示效果好、數據擬合能力強等的特點。常用的深度學習技術包括基于3D 卷積神經網絡模型、基于雙流卷積神經網絡模型以及混合網絡模型等。
近年來CNN網絡在圖像分類和目標檢測中發展迅速,如表1對常用CNN架構進行了匯總[23-31]。

表1 不同CNN架構對比分析Table 1 Comparative analysis of different CNN architectures
受CNN 在圖像領域取得諸多成果的啟發,學者們開始將CNN 運用到人體行為識別領域。例如文獻[32]通過改進軌跡計算的局部特征描述子捕獲運動信息,同時使用8 層卷積網絡中后3 層全連接層作為輸出,并對輸出向量取平均值后輸入SVM 中進行分類。文獻[33]針對人體行為的運動特征和外觀特征,分別利用改進稠密軌跡Fisher矢量表示和CNN激活。
諸多研究證明,卷積神經網絡在從靜態圖像中提取空間信息具有較高的性能,然而人體行為識別是基于視頻的3D 時空信號,因此將CNN 擴展并應用到3D 視頻的核心是引入對時間信息的利用。3D卷積神經網絡是2D卷積神經網絡的延伸,文獻[34]首次在空間維度引入時間維度特征,以此獲得視頻中相鄰幀間的上下文關系,并將其命名為3D CNN。3D卷積網絡[35-40]在人工智能領域表現優異,國內外學者逐漸將其應用于行為識別,并取得了較好的效果,起初人們并沒有考慮龐大的數據量對設備算力的依賴,產生了較大的計算成本;同時在實際應用過程中,直接通過3D 卷積神經網絡提取行為特征,也易引起梯度消失、梯度爆炸和過擬合問題。針對這些問題國內外學者展開了深入的研究。
梯度消失問題即在反向傳播過程中,梯度信息以指數形勢減少,最后趨近于0,進而導致模型權重難以更新,使訓練不能收斂到較好結果,模型喪失學習能力;相反,梯度爆炸問題是在反向傳播過程中,梯度信息呈現指數形勢增長趨勢,導致誤差梯度不斷累加,使得模型權重更新過量,造成模型無法有效學習。本質上講,梯度消失和梯度爆炸都是由于網絡層數太深導致的反向傳播過程中梯度信息的連乘效應。一般而言,適當降低模型復雜度,更換RuLE、ELU 等激活函數,引入殘差結構等方法可以使網絡模型具有較好的收斂結果,達到提高模型泛化能力和識別效果的目的。如文獻[41]通過跳過連接層和設置學習率的方法,解決分離操作引起的梯度消失問題。該方法通過在不影響識別率的同時,降低了模型復雜度,更加有利于部署。但模型復雜度的降低不利于網絡有效提取特征信息,一定程度上導致了模型識別準確率的降低。
在3D 卷積神經網絡中,較多使用偽-3D 殘差網絡(pseudo-3D residual network,P3D ResNet)來對網絡模型進行優化。簡而言之,P3D ResNet 是將3×3×3 的3D卷積濾波器分離為1個1×3×3空間卷積濾波器和1個3×1×1 時間卷積濾波器。文獻[42]在3D 卷積神經網絡的基礎上,引入了P3D ResNet,該方法提高了3D 卷積神經網絡在人體行為識別領域的泛化能力。相似地,文獻[43]用P3D殘差網絡替換3×3×3卷積運算,同時使用openpose 預處理工具提取樣本特征,進一步提高P3D Resnet 的準確性。實現了自助銀行場景下人體行為的有效識別,保證了人們的財產安全。雖然P3D殘差網絡可以使模型減少運算量,一定程度上解決了梯度消失和梯度爆炸問題,但在實際應用過程中,由于其使用的1×1卷積濾波器會造成特征信息部分丟失,同時也無法對多尺度特征信息有效融合,進而導致模型識別精度下降。例如文獻[43]中自助銀行場景下的行為識別模型在UCF101 數據集其識別精度小于90%,在實際應用中更是不足70%。為此,文獻[44]在其基礎上,通過在殘差網絡中嵌套殘差網絡的方式,不僅解決了梯度消失問題,同時進一步提高了殘差網絡的性能,該方法對于人員跌倒的識別率高達97.4%,但是其未考慮多尺度視頻特征對算法查準率的影響。文獻[45]引入多尺度特征融合思想,通過組合特征映射來增強不同網絡層的特征提取能力,以此提高行為的查準率。
過擬合是由于模型擬合參數時,由于樣本數據的采樣誤差擬合進模型參數中導致的。通常產生過擬合問題的原因包括,訓練數據不足,數據有較多噪聲,模型過于復雜等。在實際應用過程中表現為模型的泛化能力不足,在訓練集上表現良好,但在測試集上表現較差。通常可以通過對數據集擴容、隨機抑制池化單元等方法來解決。文獻[46]通過將Dropout引入到3D CNN網絡池化層中,隨機抑制池化單元,使池化層生成更多的子模型,同時引入雙概率加權思想,使被選中神經元的激活值與其權重相結合,得到所有子模型的近似模型。雖然該方法解決了過擬合問題,增強了模型的泛化能力和識別精度,但隨機池化過程是不可控的,其在抑制無效特征信息的同時,也會造成部分有效特征信息失活。
隨著國內外學者對人體行為識別領域的深入研究,基于姿態信息和視頻幀信息的3D卷積方法在各公開數據集上實現了較高的識別精度,但人體行為識別不僅需要考慮行為的類別,還需全面考慮環境信息對模型的影響。文獻[47]提出基于P3D卷積網絡和LSTM的行為識別方法,在一定程度上提高了模型的魯棒性,經驗證,其在識別準確率和速率方面均優于普通的3D 卷積網絡。P3D 卷積方法使用預訓練的P3D 網絡以及LSTM 分別提取環境特征和行為特征,結合了兩部分特征信息完成對行為的分類,此外,通過添加回歸網絡提高算法的識別速率,但其過于追求對于空間信息的提取,犧牲了大量的時間信息。針對該問題,研究者提出了兩種解決方法,一種單純提高算法對時間信息的利用率,如文獻[48]中將提出的的輕量級C3D 網絡用于完成對雨天駕駛行為的預測。該方法使用五個3D 卷積核和兩個FC層中的最后一層FC 層來學習最終幀的特征信息,通過利用更多有效的時間信息,提高模型的識別精度。另一種通過結合時間域和空間域特征信息,進而更好地研究人體行為的全局特征,如文獻[49]在時間域上,考慮行為本身的相關性,在空間域上,以運動映射序列作為時空卷積網絡的輸入。該方法從不同角度充分識別和利用行為時空特征,同時一定程度上解決了3D 卷積網絡中存在的時間失配和噪聲影響問題。
3D卷積神經網絡注重空間運動信息,計算速度快,在人體行為異常識別領域具有較為廣泛的應用,但不能否認的是,其具有的良好空間特征提取能力,是以犧牲時間特征為代價換來的,而且雖然計算速度和識別精度表現良好,但巨大的計算開銷,一直是難以解決的問題。
混合深度學習網絡可根據不同的應用場景特點組合相應的模型,由于其集成多種網絡模型的優點,在眾多應用場景中均具有強大的特征提取能力和良好的識別精度[50-52]。目前主流的混合深度學習網絡以3D 卷積神經網絡為基礎,融合其他深度學習方法,以提高模型的泛化能力和識別精度。例如,文獻[53]使用3DCNN模型和LSTM 算法分別對光流信息和輔助信息進行特征提取并加以鞏固,最后采用支持向量機對行為進行分類,實驗證明其在多個數據集上識別精度均在90%以上。又如,文獻[54]通過融合擠壓激勵網絡(squeeze-andexcitation network,SE Net)、I3D、GRU網絡的優點提出了SE-I3D-GRU 模型,通過將三維SE Net 分別引入至I3D 和GRU 網絡中,得到SE-I3D 和SE-GRU 網絡,最后將二者進行合并,其在UCF101 數據集上獲得了93.2%的識別精度。此外,為充分挖掘CNN網絡的潛力,文獻[55]充分發掘LSTM網絡與CNN網絡的互補性,通過模型特征關系融合表示替代卷積融合策略,同時利用視頻語義背景提高模型的行為預測性能,其在UCF101數據集上測試精度高達93.1%,在CCV 數據集上其精度也達到了70%。同樣的,文獻[56]使用Shearlet 變換提取多尺度特征信息,并通過循環神經網絡對特征信息進行分類,實驗證明使用Shearlet 變換單獨對特征提取過程建模,提高了行為分類信息的質量。RNN 在行為識別應用中具有不同類型隱藏單元,為了降低RNN 和隱藏單元的參數量,同時提高模型的分辨率,文獻[57]結合高斯混合模型(GMM)和卡爾曼濾波(KF)提取人體行為特征信息,并使用門控循環網絡(GRNN)對行為特征進行分類,該方法UCF101數據集上平均識別精度高達96.3%。
眾多研究證明,混合算法在相應數據集上識別效果優異,但其組合困難,參數過多,資源消耗大,難以在現實中部署。因此,為了滿足實際應用的需求,如何在不增加網絡復雜度的同時,更高效地結合不同種類網絡模型優點,以減少模型在實際應用中的資源消耗,仍需要進一步深入研究。
雙流卷積神經網絡通過提取人體靜態表觀特征和動態運動特征,從空間和時間兩方面對特征進行深度分析,在人體識別領域具有良好的識別效果[58]。其網絡架構如圖2所示。

圖2 雙流卷積神經網絡結構Fig.2 Two-stream convolutional neural network frame
雙流架構[59-64]是目前人體行為識別領域基準之一,國內外學者在其基礎上對雙流架構進行了進一步探索。最早的雙流卷積模型以VGG-16卷積網絡為基礎,并在網絡中分別針對時間通道和空間通道增加殘差塊,用以增強網絡對于時間特征和空間特征的提取能力,最后將兩通道特征信息加以融合利用。例如,文獻[65]通過在VGG-16 卷積網絡中增加VMHI(VGG-16 and motion history image)和FRGB(faster R-CNN and RGB frames)兩個模塊組成的雙流卷積神經網絡,其中VMHI模塊提取時間運動信息并將其輸入至VGG-16 卷積網絡中,FRGB 模塊將RGB 圖像輸入至R-CNN 網絡中訓練,然后將兩模塊的輸出進行融合,實驗結果表明該方法不僅可以識別單人行為,亦可識別兩人交互行為。雖然基于雙流卷積神經網絡對于人體行為時空特征提取效果較好,但仍存在對提取的時空特征難以有效利用的問題。針對該問題,國內外研究學者們在基于雙流卷積網絡的基礎上提出了諸多的改進策略。優化網絡結構是常見的改進方式之一,一方面針對VGG16 網絡無法充分提取行為特征信息的問題,將VGG16 替換成更深層結構的網絡,使模型具有提取更高維特征信息的能力。例如文獻[66]驗證了用ResNet101 網絡替換VGG16 網絡的可行性,文獻[67]驗證了用ResNet50 替換VGG16 網絡的可行性。深層網絡結構固然可以提取更高維的特征信息,但也易產生過擬合問題,使得模型的泛化能力下降。針對該問題,可以通過引入Dropout 方法抑制部分深度神經網絡提取的特征參數,以避免巨大參數量使模型過度擬合訓練。文獻[68]在特征映射中引入Dropout方法以降低網絡中間層中相關的Rademacher 復雜度。雖然Dropout 方法可以有效減少模型參數量,解決過擬合訓練問題,但是由于Dropout 方法對于特征信息的抑制是隨機的,其在抑制噪聲信息的同時,也會導致部分有效特征失活。為此,文獻[69]充分考慮每個神經元中信息,針對性的增加Dropout 層。這樣不僅可以摒棄高粘度神經元帶來的噪聲問題,保證損失最小化,還可以充分發揮Dropout 方法的作用,有效地解決訓練過程中出現的過擬合問題。
另一方面通過在殘差網絡中增加注意力模塊對深層網絡模型進行優化,目前大多數注意力模型以Encoder-Decoder框架為基礎。Encoder-Decoder框架可以理解為將給定序列X首先通過編碼方式轉化為固定長度的向量,然后再將其解碼為目標輸出序列Y的過程,Encoder-Decoder框架如圖3所示。

圖3 Encoder-Decoder框架Fig.3 Encoder-Decoder frame
Encoder-Decoder框架的提出,為構建可選擇性提取特征信息的網絡模型奠定了基礎。文獻[70]利用視覺注意力機制,構建了基于端到端的雙流注意力LSTM模型,該模型可以根據需求,選擇性提取光流圖像中的有效特征,并根據深度特征相關層信息調整網絡參數,用以模型的優化。為了更好地融合人體行為時間域特征信息和空間域特征信息,實現對視頻圖像中多通道的信息有效的利用,人們提出了可用于不同通道特征提取的注意力機制。例如,文獻[71]中提出的跨模態的注意力模塊(cross modality attention,CMA),通過有效融合視頻中多模態信息,提高模型性能。文獻[72]從空間注意力和時間注意力的互補性和共存關系入手,提出了雙流協作學習的時空注意力模型(TCLSTA),通過靜態空間特征和動態運動特征相互促進,增強模型特征學習能力。
經過眾多學者的努力,基于雙流卷積神經網絡模型研究愈發成熟,在人體行為識別領域也取得了諸多成果。雖然雙流網絡能夠很好的結合人體行為靜態和動態特征信息,具有穩定性強、識別精度高的特點,但不可否認的是其具有的高性能是建立在大量數據樣本訓練的基礎之上的,在實際應用中,很多場景均由于無法采集到足夠的樣本信息進行訓練,這會使雙流卷積神經網絡在訓練過程中出現過擬合等的問題,這也導致了實際中其無法達到理論上的識別精度。
基于深度學習的異常行為識別模型具有高性能、高精度的特點,但訓練深度學習模型需要大量的樣本數據支撐,在許多實際場景中,收集大量樣本并進行標注是非常困難的,這就導致很難將深度血虛模型應用于解決現實場景中的問題。如何使用少量樣本、甚至無標簽樣本訓練深度學習模型并使其達到具有大量標簽樣本支撐的模型的識別精度,更好地適應現實場景,不僅是人體行為識別領域的研究難題,更是整個深度學習應用領域亟需解決的問題。少樣本學習方法(FSL)[73-76]旨在使用少量樣本訓練,使模型在有限的樣本中快速適應新的類別。通過集成類別分類器和二域判別器,利用有限的標簽信息進行模型訓練,然后加以利用多任務生成對抗訓練,可以實現網絡的優化。文獻[77]通過少樣本對抗域適應方法(few-shot adversarial domain adaptation,FS-ADA)識別人體行為,使得網絡可以在新場景下提取人體區域不變特征和類別判別特征。目前,大多數行為識別算法都遵循度量學習范式,即學習比較視頻間相似性,但不同視頻下相同行為在時間分布上存在類間差異,這會導致測試集和訓練集在匹配時出現嚴重偏差。文獻[78]從行為持續時間錯位(action duration misalignment,ADM)與行為演化錯位(action evolution misalignment,AEM)兩個方面展開研究,首先通過時間轉換模塊(temporal transform module,TTM)學習時間仿射變換定位動作,忽略無關特征的同時,將每個視頻特征時間偏差進行量化,其次將測試特征坐標化,通過時間重排和空間偏移預測匹配支持的時空行為演化。雖然傳統FSL在許多場景中均具有良好的表現,但將其用于人體互動行為場景的識別時,由于人體行為的多樣性和交互性,自適應分類器難以捕獲表現模糊的特征信息,使得模型識別精度下降。針對該問題,可以通過重建視覺特征之間的關系來學習其類別間的潛在表示。文獻[79]構建的動態圖形網絡(dynamic graph in graph network,Dgig-Net),將視覺子圖嵌入到面向多任務的跨模型圖中,提高了人體互動行為場景下的小樣本識別模型的精度。
最近的研究表明,基于元學習和transformer 的方法,可以很好地實現FSL。如果把機器學習看作尋找(X,Y)之間映射關系f的過程(如圖4(a)所示),那么元學習可以理解為通過尋找(X,Y)的若干子集((X1,Y1),(X2,Y2),…,(Xn,Yn)) 的映射關系(f1,f2,…,fn) 擬合為F,并將其推廣至新的訓練(X*,Y*)中,其過程可用圖4(b)表示。

圖4(a) 機器學習過程Fig.4(a) Machine learning process

圖4(b) 元學習過程Fig.4(b) Meta learning process
基于元學習的少樣本識別一般通過multi-head知識蒸餾方式以“端到端”的方式使網絡具備自學習的能力。文獻[80]通過multi-head 知識方式,同時引入一般幾何變換集的平移同變性和平移不變性思想,分別執行強制同變性和強制不變性操作,為了消除位置偏差,同時利用自監督學習方式,將仿射變換空間進行量化來優化模型,提高行為識別的精度。文獻[81]通過自相關表示(self correlational representation,SCR)和交叉相關注意力(cross correlational attention,CCA)模塊尋找圖像類間和類內的關系映射,通過在網絡中嵌入這兩個模塊,以端到端的方式使網絡具備“學會學習”的能力。目前大多數基于元學習的方法均是分別解析候選區域和新類之間的關系,而沒有考慮二者之間的多重關系。文獻[82]提出了基于異構卷積網絡的FSL 模型,該模型通過在候選區域節點和類節點之間進行高效消息傳遞,獲得每個行為類的上下文感知特征,進而提高FSL模型的查準率。此外,通過將深度引導的自適應網絡以元學習的方式訓練同樣可以達到少樣本學習的目的。例如文獻[83]將時間異步增強采樣后的自適應元融合網絡以元學習的方式訓練,不僅緩解了模型樣本數據短缺的問題,同時自適應地將特征熔斷為兩種不同的流,以此增強網絡對特征信息的充分了利用。
Transformer[84]在自然語言處理領域中占主導地位,其具有獨特的自注意力機制(self-attention)與位置編碼(position encoding)機制,同時,具有可并行計算、無長距離依賴、輸入參數共享等的特點。近幾年,將transformer 應用到計算機視覺領域同樣取得了不俗的成功。文獻[85]利用transformer 架構具有的編碼器-解碼器結構優化共性學習和行為時空定位,實現了無類標簽、間隔邊界和框注釋下的高精度行為識別。文獻[86]利用迭代損失、自注意力機制以增強編碼器-解碼器結構中低層參數的漸變更新。文獻[87]為降低模型計算量,在基于短時序的2D骨架模型中引入transformer,為模型的高準確、低延遲提出了一種新異常行為的解決方案。transformer 的應用極大限度地解決了由于樣本數據采集困難帶來的諸如過擬合、欠擬合模型收斂速度慢、泛化能力低的問題。
除3D卷積神經網絡、雙流卷積神經網絡、少樣本學習外,基于區域感興趣點(regions of interest,ROI)的人體行為識別,通過降低數據規模,提高數據處理效率,文獻[88]從人臉的區域感興趣點提取Gabor 特征,驗證了基于區域感興趣點的人體行為識別算法的可行性。人體行為識別的準確性與人體姿態具有較強的相關性,基于多流卷積神經網絡可以通過融合人體姿態特征和其他特征,用以增強視頻圖像中人體行為的整體特征。融合姿態的多流卷積神經網絡一般包括以下幾個步驟:首先通過預訓練的2D CNN網絡將3D骨架序列轉換成姿態進化圖像(pose evolution images,PEI),其次,利用3D CNN網絡從RGB視頻中提取時間特征信息以及空間特征信息,然后,從RGB視頻中提取人體ROI,最后將ROI 輸入至3D CNN 網絡中,并將四步的結果進行融合,得到最終行為的分類結果。文獻[89]利用融合姿態的多流卷積神經網絡實現了高精度的人體日常行為識別。文獻[90]融合姿態數據和行為數據,并通過消融實驗驗證該方法與單純的RGB 圖像、姿態數據相比更不易受外界環境干擾。在實際應用中,人體行為識別算法建立樣本數據往往需要耗費極大的人力物力。基于圖像聚類的方法可以自動生成數據標簽,解決現實中行為數據標注難的問題。文獻[91]提出了一種基于堆疊卷積auto encoder(SCAE)的聚類方法,該方法使用卷積神經網絡(CNN)和長短期記憶網絡(LSTM)構建深層網絡,以研究多維框架中的人體行為識別視頻的長期依賴性。除基于視覺的人體行為識別算法外,基于環境感知和可穿戴計算的人體行為識別方法也逐漸流行。例如,對于夜間人體行為的識別,由于受到光照條件的影響,往往使用紅外相機獲取人體行為信息。文獻[92]通過捕獲熱量圖像對夜晚行人不安全行為進行識別,其在傳統CNN網絡的基礎上設計出了輕量級的CNN網絡,同時將CNN 網絡與增強的隨機森林分類器隨機連接,以此來提高模型的識別精度。可穿戴計算的人體行為識別方法通過可穿戴傳感器采集活動特征實現行為的識別,雖然相較于基于視覺的主流算法,不易受光線、遮擋等外界因素干擾,但由于缺乏相關技術規范,導致其推廣速度緩慢。文獻[93]基于CNN 網絡和滑動窗口構建了人體活動識別網絡,該網絡規范了應用中傳感器的部署和數據的歸一化方法,為可穿戴計算的人體行為識別技術規范的建立提供了參考。在行為識別過程中,如何在冗長、雜亂的視頻中進行行為時空定位始終是難以解決的問題,為此,有學者提出了基于時間相似矩陣(temporal similarity matrices,TSM)的網絡,該網絡可在視頻對之間進行微粒相似度建模,使它們之間生成時間類激活映射(temporal class activation maps,TCAM)。文獻[94]使用TCAM 作為時間注意力機制實現了在未修輯的視頻中對異常行為進行定位。
雖然深度學習模型算法在行為識別領域取得了不小的成果,同時在現實中也得到了廣泛的應用,但對于許多現實場景仍然存在一定的局限性,例如在許多現實場景中對于樣本數據的獲取成本高昂、耗費時間,甚至無法獲取。少樣本學習雖然一定程度上能減少模型對于樣本數據量的需求,但無法從根本上解決該問題。因此,在對許多模型進行訓練時,由于無法對樣本數據很好的聚類,導致模型難以得到較好訓練的現象普遍存在。然而,遷移學習將目光聚焦于知識轉移,很好地解決了上述問題。遷移學習是通過將一個或多個源任務中的知識用于目標任務改進的一種學習方法。通常我們可以把遷移學習看作深度學習算法的擴展,它解決了深度學習模型算法由于訓練數據不足導致模型泛化能力不足、識別率低的問題。本質上講,根據遷移方法的不同,可將遷移學習方法分為樣本遷移、特征遷移、模型遷移(也叫作參數遷移)、關系遷移4種,其中模型遷移是當下最常用同時也是最有效的的遷移學習方法之一。
在人體行為識別領域,傳統算法和深度學習算法難以解決在新的樣本數據和測試數據具有不同特征分布條件下,模型泛化能力低的問題。模型遷移通過考慮源任務和目標任務之間的互通相關性和互聯差異,增強目標任務的泛化能力。文獻[95]將模型遷移思想用于自然視頻圖像預訓練的CNN 模型中,進行人體頭部運動趨勢識別,將其檢測率提高到了98%以上。文獻[96]證明了廣泛的遷移信息和少量個人信息相結合,足以減少模型對于主觀數據的依賴,提高模型的泛化能力。
模型遷移一般在預訓練和微調模型模式下進行,在模型沒有足夠樣本數據時,通過預訓練和微調模型可以使模型在遷移時快速適應新的數據集,加快其收斂速度,同時有效解決由于數據樣本缺失導致模型過擬合的問題。例如,文獻[97]將模型遷移和集合學習分類器用于卷積神經網絡模型,增強了模型提取抽象特征的能力并加速了模型收斂速度。又如,文獻[98]通過深度模型遷移方法識別CNN 模型和微調CNN 模型以提取的高級特征的行為,通過在12個數據集上對二者進行測試,證明了微調CNN模型對于模型遷移的有效性。
雖然模型遷移極大地解決了深度學習算法對于樣本數據不足導致的模型泛化能力低、收斂速度慢、識別精度不足等問題,但模型遷移也具有一定的局限性,其具有不錯識別精度建立在源任務和目標任務共享一些超參數的先驗分布的假設之下,當目標任務與源任務之間不存在相關性,或者相關性較少時,對于模型的遷移很大概率不會成功。另外,在模型遷移過程中也可能出現兩者之間關系呈負相關的情況,那么就會導致目標任務受源任務誤導,出現負面影響,這種現象也被稱為負轉移。
人體異常行為識別領域常用數據集包括UCF101[99]和HMDB-51[100]。UCF101 是一個源自YouTube 并被廣泛使用的基礎測試集,它包括101 個動作類,約13 320個視頻,每個類至少包含100 個視頻片段,視頻片段的分辨率為320×240,幀率為25 frame/s,其中約9 500個訓練樣本和3 700個測試樣本。HMDB51數據集源自網絡真實視頻或電影,共有51個類別,約6 766個視頻片段,其中約3 570個訓練樣本和1 530個測試樣本。如表2為各算法在UCF101和HMDB51數據集上的表現及特點。
由表2 可以看到在UCF101 和HMDB51 數據集上,混合網絡的平均識別精度較好,根本原因在于混合網絡集合了多種網絡的優勢,同時也與大量的樣本數據有關,這導致其整體結構龐大、參數過多,因此在實際應用中資源消耗嚴重、對硬件設施要求極高,難以在現實中部署。少樣本學習集成類別類器和二域判別器,利用有限的標簽信息進行模型訓練,大大減少了模型對于樣本數據量的需求,但由于人體行為的多樣性,模型中分類器難以捕獲表現模糊的特征信息,這是少樣本學習平均識別精度低的根本原因之一。3D卷積神經網絡注重運動信息,具有良好的空間特征提取能力,運算速度快,然而三維卷積會產生大量的模型參數,導致較高的運算成本和資源消耗。此外,使用3D 卷積網絡提取特征信息時容易造成梯度消失、梯度爆炸、收斂效果差等問題,雖然通過降低模型復雜度以及引入殘差塊的方法可以有效提高模型效果,但是模型復雜度的降低,也會一定程度上導致模型識別率的下降,同時殘差塊中使用的卷積濾波器會造成部分特征信息的丟失,也無法對多尺度特征信息達到很好的融合效果。基于雙流架構算法注重時空信息、準確率較高,例如TSN的稀疏采樣方法可以覆蓋整個視頻的各個時間段,使網絡更好地利用時間通道特征,但其采樣過程是隨機的,不能保證采樣結果均為有效的特征信息。總而言之,3D-CNN、混合網絡、雙流卷積網要想實現較高識別精度,需要對樣本中每個類進行大量標記,而FSL只需要對少量樣本進行標記就可以實現較高的識別精度,這也是FSL具有較高研究價值的意義所在。

表2 各算法性能對比Table 2 Performance comparison of each algorithm
人體行為識別技術多被應用于智慧醫療、智慧城市、人機交互、安全生產等領域,很好地保障了人們的生產和生活安全,另外,其相關技術對入侵檢測、視頻語義檢索等方面研究也具有極高的參考價值。雖然目前深度學習算法使得行為識別技術穩固發展,但不能否認的是大部分算法仍存在空間特征表示與時間特征表示難、計算復雜度高等問題,同時目前的算法只針對特定場景,不具有一定的泛化能力,需要大量的樣本數據進行訓練,其較高的計算復雜度對硬件算力要求高,難以應用于現實問題。隨著人工智能技術的發展以及人們生產生活迫切需求,未來的算法逐漸偏向于泛化能力強、計算復雜度低、少樣本甚至無樣本數據訓練。基于元學習與transformer 的FSL 模型構建是未來的研究熱點之一。
綜合基于深度學習的人體行為識別研究和應用現狀及存在問題,提出如下幾點展望。
(1)跨場景行為識別模型。現有的模型通常是在特定場景下進行訓練,僅能適應特定場景,無法做到跨場景識別。在實際應用中,模型遷移至其他場景時,需要對模型重新訓練,這無疑增加了巨大的工作量。因此,如何在模型訓練過程中融入環境信息,使模型具備跨場景識別的能力是未來的研究方向之一。
(2)現實中部署難。目前大多數高識別精度模型往往具有較高的復雜度,這導致模型在實際應用過程中需要部署在高算力的硬件設備之上,同時高復雜度也會使模型難以進行實時檢測,為模型在現實中部署帶來難題。如何在保證模型識別精度的同時降低其復雜度,具有較高的研究價值。
(3)行為預測。旨在從實時視頻流中準確判別存在安全隱患的行為,遏制存在安全隱患的行為。這不僅對模型的識別速度、識別精度有一定的要求,同時要求模型對于行為的判斷要有一定的前瞻性,目前大多數算法只做到了事后識別,而未做到事前預防,因此對于該領域的研究還需要更為深入。
(4)少樣本學習模型。現實中許多場景對于樣本數據的采集始終是難以解決的問題,由于數據樣本的缺少,無法進行有效的訓練。目前以元學習與transformer為主的FSL 模型雖然極大地減少了模型對于數據樣本的依賴,但相較于其他模型其識別精度也有所下降。因此,如何在減少樣本數據的同時,提高模型的性能,保證其具有較高的識別精度,仍需要進一步探索。
概述了現有人體行為識別領域常用特征提取方法,以及3D卷積神經網絡、雙流卷積神經網絡、FSL等算法在行為識別領域的發展與應用,對比了各類算法在UCF101和HMDB51數據集上的性能表現,對各類算法優缺點進行了總結,同時對基于深度學習的人體行為識別模型發展提出了幾點展望,以期在理論和實踐上對人體行為識別模型的發展提供參考。