摘 要:近年來各類人體行為識別算法利用大量標記數據進行訓練,取得了良好的識別精度。但在實際應用中,數據的獲取以及標注過程都是非常耗時耗力的,這限制了算法的實際落地。針對弱監督及少樣本場景下的視頻行為識別深度學習方法進行綜述。首先,在弱監督情況下,分類總結了半監督行為識別方法和無監督領域自適應下的視頻行為識別方法;然后,對少樣本場景下的視頻行為識別算法進行詳細綜述;接著,總結了當前相關的人體行為識別數據集,并在該數據集上對各相關視頻行為識別算法性能進行分析比較;最后,進行概括總結,并展望人體行為識別的未來發展方向。
關鍵詞: 人體行為識別; 深度學習; 弱監督; 少樣本學習
中圖分類號: TP391.4 文獻標志碼: A 文章編號: 1001-3695(2023)06-004-1629-07
doi: 10.19734/j.issn.1001-3695.2022.10.0506
Review of video action recognition under weak supervision and few-shot learning
Bao Zhenwei Liu Dana Mi Jinpeng
(a.Institute of Machine Intelligence, b.School of Optical-Electrical amp; Computer Engineering, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:In recent years, various human action recognition algorithms have achieved excellent recognition performance based on a large number of labeled samples. However, in practical applications, acquiring training samples and their corresponding labels is time-consuming and laborious, which limits the actual implementation of the algorithm. This paper summarized the deep learning algorithms for action recognition under weak supervision and few-shot learning. Firstly, in the case of weak supervision, it classified and summarized the semi-supervised action recognition methods and unsupervised domain adaptation video action recognition methods separately. Then, it reviewed video action recognition algorithms based on few-shot learning in detail. Further, it summarized the relevant human behavior datasets and analyzed and compared the performance of various relevant video action recognition algorithms on these datasets. Finally, the paper summarized the full text and discusses the future development trend of human action recognition.
Key words:human action recognition; deep learning; weak supervision; few-shot learning
0 引言
近年來,隨著互聯網和智能監控技術的發展,視頻數據量激增。如何利用算法自動地理解并識別視頻內容,已然成為計算機視覺領域研究的重點。其中,行為識別作為視頻理解的一項子任務,在人機交互[1,2]、視頻監控[3,4]以及智能安防[5]等領域具有廣泛的應用前景和研究價值。現有行為識別算法總體可分為傳統手工特征方法和基于深度學習的方法。以改進的密集軌跡法(improved dense trajectories,iDT)[6]為代表的傳統方法需要科研人員手工選取合適的行為特征,利用傳統機器學習進行行為分類。而深度學習方法則利用深度模型,自動地從視頻序列中提取行為特征,通過反向傳播算法更新模型權重,最終將學習好的模型用于推理預測。
最近的行為識別方法多為深度學習方法,這些方法在各大公開數據集上取得了良好的識別效果[7~9]。然而,鑒于上述深度學習模型的訓練模式,由訓練數據所帶來的學習瓶頸問題已經越來越突顯,這主要體現在如下兩個方面:
a)數據標注費時費力。行為識別模型的訓練需對海量訓練視頻進行精準的動作定位及人工標注,與圖片標注任務相比,工作量激增。
b)特定領域數據收集困難。考慮到隱私和數據安全等因素,工業、醫療、軍事等特定領域往往無法提供大量訓練樣本,嚴重限制了相關行為識別的發展。
許多學者針對弱監督和少樣本學習場景下的行為識別算法展開了研究。相對應地,出現了半監督行為識別、無監督域自適應下的行為識別以及少樣本行為識別等研究方向。大力發展這些研究將有助于行為識別模型擺脫訓練瓶頸,實現便捷高效的實際應用。國內外已有部分學者對行為識別的相關研究作出了綜述,但這些工作僅針對三維卷積算法[10]、深度學習方法[11,12]或人體關節點行為識別[13]等監督學習作出總結概括,對于弱監督和少樣本學習場景下的行為識別卻鮮有涉及。考慮到視頻是當前使用最廣泛的數據載體之一,本文基于視頻行為數據,綜述了半監督行為識別、無監督域自適應下的行為識別等弱監督行為識別方法和少樣本行為識別深度學習方法。同時,介紹了相關行為數據集,對比分析了主流模型性能。最后對行為識別未來的發展方向進行展望。本文介紹的弱監督以及少樣本場景下的深度學習行為識別方法分類如圖1所示。
1 弱監督下的視頻行為識別
1.1 半監督行為識別
半監督行為識別使用極少量標記數據(一般不多于傳統監督學習標記量的20%)以及大量未標記數據共同訓練網絡。這類方法旨在利用大量未標記數據輔助網絡訓練,從而減少網絡對標簽數據的需求量。由于無標簽數據一般能以較小的人力獲取,所以半監督學習帶來的任何性能提升都是低成本的。早期,Iosifidis等人[14]運用極限學習機(extreme learning machine)在小規模數據集上驗證了半監督人體行為識別的有效性。此后,半監督分類問題逐漸開始從圖片分類[15~17]拓展到視頻行為識別領域。
1.1.1 單視圖特征優化
對于大量無標記數據,半監督行為識別算法旨在運用多種策略從數據本身學習有效的行為特征。Zeng等人[18]將所有樣本輸入編碼器,對于標記樣本直接進行監督學習,對于未標記樣本則將其編碼后的特征再次輸入解碼器,期望網絡重構輸入特征。該方法基于編碼—解碼結構使得網絡隱式學習了未標記數據的行為語義,但無法充分利用未標記數據產生額外監督信息。后續的研究大多基于各類偽標簽技術,該過程中,模型一邊在少量標記數據中進行監督學習,一邊將會保留部分無標簽樣本的預測結果作為偽標簽,并將該樣本加入監督訓練。
如圖2所示,Jing等人[19]使用3D CNN進行監督學習和偽標簽預測的同時還額外產生一個高維特征,用于和單幀圖片特征計算軟標簽交叉熵損失,該方法充分利用單幀圖像包含的外觀信息來增強無標記樣本的行為特征。Singh等人[20]針對同一視頻,采樣得到幀數不相等的兩個序列,將其視為同一視頻的快慢版本,通過對比學習對大量未標記數據進行表征學習并產生高質量偽標簽。此外,FixMatch[21]算法充分利用數據增強技術通過模型預測出弱增強版本的無標記數據偽標簽,然后將偽標簽與對應強增強版本配對成為標記樣本,并加入網絡訓練。基于上述方法,Zou等人[22]對數據增強方式作出改進,通過隨機交換不同視頻樣本中的背景,有效減輕了算法對視頻背景等無效信息的關注,提升了模型在未標記數據中的泛化性能。
綜上,外觀輔助建模、數據增強以及對比學習等特征優化策略能有效從大量未標記數據中學習到有效的行為信息。但以上算法僅通過單一模態數據或單個模型學習未標記行為特征,在進行偽標簽預測時容易引入大量錯誤的標簽信息,直接影響識別精度。
1.1.2 多視圖學習在行為識別半監督學習算法中,一些學者嘗試從多模型表征以及多模態輸入等方面入手,學習未標記數據的多視圖特征,進而產生高置信度的偽標簽。
文獻[23,24]是將多模型表征應用于半監督行為識別的典型算法。如圖3所示,跨模型偽標簽(cross model pseudo labeling,CMPL)[23]在主干網絡之外還設計了一個輔助網絡,兩個網絡互相預測未標記數據的偽標簽。具體來說,其中一個模型使用弱增強片段作為輸入獲取偽標簽,隨后與該視頻的強增強版本配對形成標記樣本,輸入另一模型訓練。在該訓練模式中,不同模型的輸出構成多視圖特征,兩個網絡協作學習、優勢互補。文獻[24]則應用多個特征學習器組成基學習器集,在訓練過程中使用多個基學習器共同對未標記樣本生成偽標簽,該方法有效提升了行為識別系統的泛化能力。
文獻[25~28]嘗試從多模態輸入數據中獲取多視圖特征。多視圖偽標簽(multiview pseudo-labeling,MvPL)[25]將無標記數據的RGB圖、光流圖以及時間梯度圖組成互補視圖輸入權值共享的CNN,通過實驗發現融合三種視圖特征能大大提升未標記數據的偽標簽準確率。Terao等人[26]在壓縮視頻中拓展MvPL算法,訓練速度提升約8倍,但損失了一定的識別精度。唐超等人[27]將RGB數據與深度信息、關節點信息相融合,在識別精度和效率方面優勢明顯。Xiao等人[28]首先將無標記數據的RGB圖與時間梯度圖兩種視圖進行稠密對齊,使得RGB信息融合細粒度動作特征,之后將同個樣本的不同視圖特征作為正樣本對進行跨模態的對比學習,進一步提升算法性能。
多視圖訓練能明顯提升半監督學習算法性能,但其引入的額外模態或網絡結構也一定程度增加了計算負擔,限制了算法的發展。
1.2 無監督領域自適應的行為識別
無監督域自適應(unsupervised domain adaptation,UDA)是遷移學習的一個子問題,它完全免去了人工標注流程,實現無監督學習。在該任務設定中:源域是已存在的帶標簽數據,目標域是完全無標簽的目標數據集。源域和目標域數據內容相關,但由于背景、光照、視角等因素的差異導致跨域樣本的數據分布不同。因此,在源域中訓練好的模型往往無法很好地推理來自目標域的視頻。UDA的主要目標是盡可能縮小兩域間的數據分布差異,以便將帶標簽的源域中的知識遷移到無標簽目標域中,實現目標域數據的無監督學習。本節將對不同行為識別UDA方法分類總結。
1.2.1 基于對抗學習生
成對抗網絡[29]提出的對抗思想在UDA問題中被廣泛應用。其框架如圖4所示,生成器對兩域中的所有視頻樣本進行特征提取,梯度反轉層使得流經的梯度反相,判別器負責預測樣本所屬領域。該過程中,生成器將會不斷混淆域判別器,直至其無法預測出正確的領域標簽。通過這種方式,源域和目標域中的數據分布得到充分對齊,使得模型能較好地識別目標域中的未標記樣本,實現目標域數據的無監督學習。
文獻[30~33]是這類方法的代表:2018年Jamal等人[30]將對抗學習應用到人體行為識別,該方法僅使用單個域判別器,結構簡單。后續Chen等人[31]使用時間關系模塊推理多幀視頻特征間的時域關系,并且在該模塊前后添加了多個域判別器進行對抗學習,重點關注了時間維度上的領域差異。中山大學的研究團隊[32]認為文獻[31]中共享的域判別器容易導致錯誤的域對齊且存在對齊不充分的缺陷,其利用空洞卷積產生多層視頻語義,針對每層語義的每個特征采用獨立的域判別器,在跨域樣本間實現了語義級別的充分對齊。時序協同注意力網絡(temporal co-attention network,TCON)[33]在對抗學習的基礎上提出協同注意力模塊,充分利用注意力機制考慮了視頻序列內部以及跨域樣本間的相關性,實現更精準的域對齊。基于對抗學習的行為識別UDA方法應用廣泛,在減小域差異上有一定效果。但對抗學習只對所有樣本創建預測域標簽的二分類問題,無法對不同類別的視頻特征作出區分,在某些情況下甚至會對識別效果產生負面影響。因此,許多研究工作嘗試通過加入自監督任務來增強模型對目標域樣本特征的辨識度。
1.2.2 融合自監督任務
自監督學習(self-supervised learning,SSL)通常利用各類代理任務從未標記數據自身挖掘監督信息,融合SSL任務能幫助UDA模型獲取更健壯的無監督目標域行為特征。如圖5所示,Munro等人[34]除了在RGB特征和光流特征上分別進行對抗學習外,還增加了預測RGB和光流特征是否匹配的自監督任務。該方法融合時空動作特征進行端到端學習,針對細粒度行為識別UDA問題效果較好。文獻[35]在對抗學習基礎上引入預測亂序視頻片段順序的代理任務,增強了網絡的時間推理能力。Song等人[36]引入RGB和光流兩個模態作為網絡輸入,進行跨模態及跨語義層級的時空對比學習,并利用聚類算法針對無標簽的目標域數據產生偽標簽,性能較文獻[35]有所提升。文獻[37]在領域內及領域間進行多種對比學習,在各大領域遷移數據集中性能提升明顯。
由于SSL任務無須監督信息就能增強時空行為特征,已逐漸發展為解決行為識別UDA問題的輔助手段之一。
1.2.3 基于數據增強以上行為識別UDA方法致力于運用多種手段在樣本特征層面減少有監督源域和無監督目標域樣本間的領域差異。不同于以上方法,近年來有部分學者嘗試使用數據增強技術構造額外的訓練樣本,進而從網絡輸入層面減少領域差異。
文獻[38]指出同類別的跨域樣本往往在背景信息上存在較大不同,一定程度上擴大了領域差異。于是,Sahoo等人[38]首先使用中值濾波器提取視頻序列中的背景信息,而后依據源域數據的真實標簽與目標域樣本偽標簽,混合同類別跨域樣本的前景(動作主體)與背景,從而構造新的訓練樣本。新構造的訓練樣本與原始視頻構成一對正樣本加入對比學習任務來減小領域差異。如圖6所示,Wu等人[39]針對具有相同標簽(偽標簽)的跨域視頻樣本直接按照一定的比例進行像素級別融合。在網絡訓練過程中,融合的比例將會逐漸偏向目標域,使得整個網絡逐漸從源域數據向無標簽的目標域數據遷移。
基于數據增強的行為識別UDA方法能從輸入層面直接減少領域差異,從而提升模型在目標域數據上的識別精度。然而,源域和目標域視頻數據往往擁有不同的幀數及尺寸大小,這給跨域樣本間的數據融合帶來了困難和挑戰。
2 少樣本學習下的視頻行為識別
在工業、醫療等特殊場景,大量訓練樣本的獲取面臨巨大的困難和挑戰。2003年少樣本學習(few-shot learning,FSL)的有關概念被提出[40],并在圖片分類領域得到了飛速發展[41~43]。FSL研究的基本問題是如何從少量樣本(在行為識別相關研究中一般每個類別不超過五個樣本)中去學習,其能有效減少數據密集型應用的數據收集,具有較高研究價值[44]。在行為識別領域,由于視頻數據相較于普通圖像來說更加復雜,現階段對于行為識別FSL的研究依舊處于起步階段。現有的行為識別FSL算法主要是在元學習的基本框架下,運用度量學習來實現少樣本分類。
這類方法的基本思想是訓練網絡從大量的先驗任務中學習到元知識,進而利用已有的先驗知識來指導模型在新任務(即少樣本任務)中更快地學習。在該任務設定下,基礎類別集Dbase表示已有的舊類別數據集,它將為少樣本學習任務提供足夠的先驗知識;新類別數據集Dnovel代表只含有少量訓練樣本的目標數據集(即少樣本數據集),Dnovel與Dbase類別互不重合。FSL算法旨在Dbase中學習到一個較好的模型,并且期望該模型能有效識別Dnovel中的新類別樣本,最終實現少樣本分類的目的。
在元學習框架下,基于度量學習的行為識別FSL方法通常遵循如下訓練及測試過程:在元訓練階段,學習器將從一系列訓練任務中學習通用性強的相似性度量網絡。在每一個任務內,首先從Dbase中采樣N個類別,每個類別取K個樣本來組成支持集(support set),然后在這些類別余下的樣本中隨機選取一批數據作為查詢集(query set),最終通過計算查詢集與支持集樣本之間相似度的方法對查詢樣本進行分類,并學習網絡權重。在元測試階段,將按照相同的模式從Dnovel中采樣支持集與查詢集,并使用Dbase中學習得到的模型對查詢集測試樣本依據相似程度分類。像這種FSL配置模式被稱為n-way k-shot問題。圖7展示了行為識別2-way 3-shot元訓練過程。
本章依據度量學習方式的差異,將現有行為識別FSL算法分為基于聚合特征度量的方法和基于時間序列匹配的方法兩大類,并進行詳細介紹。
2.1 基于聚合特征度量的少樣本學習
基于聚合特征的FSL方法聚合視頻樣本中的幀級特征,在視頻級特征上進行相似性度量。復合記憶網絡(compound memory network,CMN)[45]是早期探索視頻FSL的工作,其聚合一系列幀級特征得到固定大小的支持集和查詢集視頻特征,并基于鍵值記憶網絡設計了一個復合記憶結構,通過尋找與查詢樣本最相似的記憶庫支持集信息實現分類。然而在少樣本學習場景下,單個視頻樣本往往無法精確地包含所有類別信息。如圖8所示,后續方法為了豐富支持集特征中的類別信息,在每個元訓練任務中一般會針對每個支持集類別中的少量樣本產生一個具有代表性的類原型特征,用來與查詢樣本計算相似度并分類。
Tan等人[46]將視頻序列壓縮為動態圖像并提取視頻級特征,該方法通過對同類別支持集樣本取平均的方式計算類原型。文獻[47,48]通過引入多模態特征豐富了少量樣本的語義信息,其將RGB圖與深度圖或光流圖融合得到視頻級特征,并針對支持集視頻計算類原型。文獻[49]則利用條件生成模型生成更多新類別視頻特征,增強了類原型特征的代表性。
以上方法大多直接通過對同類別支持集特征求平均的方式獲得類原型。然而在少樣本學習中,可供網絡參考的支持集樣本極少,類原型的計算極易受到支持集中部分邊緣樣本的影響而產生較大偏移。文獻[50~52]使用注意力機制緩解以上問題。原型為中心的注意力網絡(prototype-centered attentive learning, PAL)[50]在支持集內部使用自注意力機制減輕外圍孤立樣本對原型特征的影響。Perrett等人[51]以查詢樣本和所有支持集樣本的相似程度為注意力權重計算類原型。Thatipelli等人[52]在文獻[51]注意力機制的基礎上又增加時空增強模塊,進一步提升了算法性能。基于特征聚合的方法在進行相似性計算的時候重點關注了視頻樣本的整體語義信息,沒有考慮單個視頻內部的動作變化。在較少訓練樣本的條件下,視頻序列間的相似度度量不夠準確,影響算法性能。
2.2 基于時間序列匹配的少樣本學習
在行為識別FSL算法中,用于訓練的支持集樣本往往僅有極少數,所以運用多種手段更精準地計算少量樣本對之間的相似程度對行為識別FSL問題至關重要。基于時間序列匹配的行為識別FSL方法充分考慮了視頻序列內部的時序變化,彌補了前文所述基于聚合特征度量所存在的缺陷。基于序列匹配的方法擯棄了計算原型特征的模式,這類方法將序列視頻幀或多個視頻片段映射為一系列的特征,進而直接計算支持集和查詢集特征序列之間的相似性。時間感知嵌入網絡(temporal aware embedding network,TAEN)[53]將支持集中每個視頻的多個子動作映射為度量空間中的一系列軌跡點,通過衡量動作軌跡間的相似性進行分類。文獻[54]將每個樣本的多個時序片段組成集合,計算集合間的豪斯多夫距離作為相似性度量依據。但如圖9所示,視頻序列間不同的動作起始位置、錯位的動作演化過程等使得序列相似性度量成為難題。
對此,許多研究者嘗試通過多種方法,重新匹配兩個視頻序列間的相似幀或片段。時間注意力關系網絡(temporal attentive relation network,TARN)[55]為支持和查詢樣本間高相似度的片段賦予高權重,通過片段級注意力機制進行序列匹配。Cao等人[56]從語音識別領域獲得啟發,使用動態時間規整算法(dynamic time warping,DTW)[57]對時序信息中的幀級特征重新配對。Li等人[58]首先運用時間轉移模塊對錯位的動作序列進行仿射變換,接著通過時間重排列以及空間偏移預測,有效匹配樣本間動作模式相似的視頻幀。文獻[59]打破以上方法中只允許幀與幀匹配或片段與片段匹配的限制,該方法增加了幀與片段之間跨語義的匹配,使得時域對齊更加精準。文獻[60]則將時域對齊視為兩個分布間的最優傳輸(optimal transport)[61]問題,使用Sinkhorn[62]算法實現高效的時域對齊。大量研究工作表明,在少樣本學習場景下,設計更精準的度量學習算法,在一定程度上提升了行為識別FSL算法的性能。
3 相關行為數據集及性能評估
隨著行為識別技術的發展,各類開源數據集不斷涌現,這些數據集在數據來源和數據體量等方面不盡相同,為各算法在不同場景下的橫向對比提供了有力依據。本章將全面介紹行為識別在弱監督及少樣本場景下常用的行為數據集,并對前文提及的主要算法進行性能對比。
3.1 公共數據集
3.1.1 半監督行為識別常用數據集
表1總結了半監督行為識別常用數據集的總體規模,也展示了在半監督行為識別算法常用任務設定下,各數據集帶標簽的數據量大小。HMDB51[63]數據集內容多來自電視頻道、視頻網站等途徑,其規模很小,只取1%的標簽量無法為每個類別分得一定數量的標記樣本。UCF101[64]數據集大小適中,獲取方便,其中大約包含了9 500個訓練視頻和4 000個測試視頻。Kinetics-400[65]數據集數據規模很大,是半監督行為識別領域使用較為廣泛的行為數據集,表中展示的Kinetics-100[19]是挑選自Kinetics-400的一個子集。Mini-SS-V2[20]數據集是從Something-Something V2[66]數據集中挑選出的子集,其內容多為人與物的交互,識別難度大。Jester[67]是一個規模較大的手勢識別數據集,其包含了119 000個訓練視頻,15 000個測試視頻。
3.1.2 領域遷移數據集對
在UDA任務設定下,源域和目標域數據必須具有相關性,因此研究者們通常直接從行為識別數據集中篩選出兩組具有相似類別的數據組成數據集對,兩組數據將輪流作為源域和目標域使用。目前,主流的UDA數據集對總結如表2所示。其中2014年提出的UCF→HMDB[68]small數據集類別和樣本數目較少。Kinetics→Gameplay[31]與Mixamo→Kinetics[37]包含了虛擬與現實間的變換,Charades-Ego[69]與Kinetics→NEC-Drone[70]包含了視角間變換,這些數據集對包含的領域差異較大。
3.1.3 少樣本行為識別常用數據集
在FSL模式下,數據集將被按照類別重新劃分為訓練集、驗證集和測試集三組數據,三者所含類別互不重疊。其中驗證集只在訓練過程中作驗證用,訓練集會被當做基礎類別集Dbase使用,FSL模型先在其中按照n-way k-shot的元訓練模式進行網絡學習,最終將按照相同的模式在測試集上評估算法性能(計算測試集上大量元測試任務的平均精度)。在常用行為識別FSL數據集的設定中,HMDB51中的51個類別被劃分為31、10和10類分別存入訓練集、驗證集和測試集[59]。UCF101按照同種模式劃分為70、10和21類[59]。對于Kinetics數據集和Something-Something-V2數據集則首先隨機抽取100個類別,然后以64、12和24類的劃分方式放入訓練集、驗證集和測試集中[56]。表3總結了少樣本行為識別數據集的常用設定。
3.2 算法性能評估
3.2.1 半監督行為識別模型性能對比使用不同比例的標簽數據對半監督模型進行訓練,最終在測試集上的準確率能夠反映半監督算法的性能。表4總結了在不同比例監督信號下,各半監督行為識別算法在UCF101和Kinetics數據集中的性能。
在表4中,文獻[20]一共展示了兩種結果,其中帶星號的方法增加了對無標簽數據的對比學習過程并獲得性能提升,可見融合自監督學習有利于提升半監督算法的泛化性能。文獻[23,25]運用不同的多視圖學習策略取得了相當優異的識別精度,這兩種方法相較于單視圖學習[20,22]精度提升明顯,在UCF101數據集上僅使用10%的標簽信息就可達到80%左右的識別精度。由此可得,綜合運用多視圖、自監督訓練等手段提取魯棒的行為特征,再配合多樣化的偽標簽分配策略將有利于解決半監督學習任務。
3.2.2 無監督域自適應下行為識別算法性能對比
表5整理了行為識別UDA領域近幾年的研究成果。在表格中,各類數據集名稱被簡寫為首字母。因UCF-HMDBsmall規模較小,各大算法對該數據集的識別精度差距不大,表中UCF和HMDB數據集間的遷移均是指2019年提出的full版本。通過分析可知,合理設計對抗學習器能夠在一定程度上增加域對齊程度,如文獻[30~32]中,三種算法的精度逐步提高。Victor等人[37]將多種對比學習運用到UDA領域,該算法在多個數據集中的識別精度均達到當前最優。文獻[39]將源域和目標域數據進行像素級融合,在HMDB51→UCF101數據集上的識別精度大幅度領先于其他算法,達到了98.15%,可見進行跨領域的數據增強也是解決行為識別UDA任務的有效手段。總的來看,各類行為識別UDA方法在數據量少,域差異小的數據集上表現較好(如UCF、HMDB以及Olympic數據集),但當面對Kinetics→NEC-Drone等大型數據集的遷移學習時,對無標記目標域樣本的識別精度較差。
3.2.3 少樣本行為識別算法性能對比
表6列舉了主流行為識別FSL方法在四個常用數據集上的性能對比,這些實驗均按照5-way 5-shot的模式展開(即每個類別只含有五個樣本)。由表6數據可得,文獻[51,52]使用注意力機制產生支持集類原型,相較于文獻[45,46,49]獲得了精度提升,其中Thatipelli等人[52]的方法在各大數據集中都取得了相對優秀的結果,并且在極具挑戰性的SS-V2數據集上的識別精度也率先突破70%。此外,對于不同行為數據設計有針對性的時域匹配策略能夠提升行為識別FSL算法性能。如文獻[58,60]都包含了時域對齊過程,但Li等人[58]的工作在時域依賴性強的SS-V2中精度更高,Lu等人[60]的工作則更適合于外觀相關性更強的HMDB51數據集。總體來看,目前的行為識別FSL算法在Kinetics、UCF101以及HMDB51等數據集上表現良好,最優的算法準確率均超過80%。但針對SS-V2等時域特征更為明顯的行為數據集,更具針對性的高性能算法還有待被進一步研究。
4 結束語
本文分析總結了弱監督與少樣本學習場景下的視頻行為識別深度學習方法,同時介紹了目前常用的相關行為數據集,并對比分析了相關視頻行為識別算法在各公共數據集上的性能。總體來看,目前對于半監督、無監督以及少樣本行為識別算法的探索還處于起步階段。在弱監督與少樣本學習場景下,研究高效、精準的行為識別算法仍是未來研究的重點。考慮到實際應用需求,本文對行為識別算法的未來發展方向作出如下展望:a)零樣本學習。少樣本學習仍需少量支持集樣本幫助模型分類,而零樣本學習則試圖讓模型分類完全未出現的新類別樣本。該訓練模式模擬了人腦的認知過程,在未來的研究中極具發展潛力。b)無源無監督域自適應。現有的多數行為識別UDA算法在訓練時需要依靠源域監督數據進行知識遷移,過程煩瑣,且涉及到了數據隱私問題。無源無監督領域自適應任務僅依靠源域預訓練模型進行目標域無監督樣本的分類。這種訓練模式不僅保障數據安全,也避免了大量源域數據帶來的存儲開銷,具有較高研究價值。c)多模態學習。在弱監督與少樣本學習場景下,光流圖、時間梯度圖、紅外序列、點云、雷達以及語音等多模態信息能給網絡帶來同一行為的多種視圖,有助于模型全面理解行為動作的語義信息,實現更精準的行為識別。d)模型輕量化。在算法部署環節,受限于嵌入式設備的算力,計算量大、參數多的行為識別算法無法滿足實際應用要求。如何設計輕量化網絡仍是未來研究的重難點之一。
參考文獻:
[1]Sahoo J P,Prakash A J,Plawiak P,et al. Real-time hand gesture reco-gnition using fine-tuned convolutional neural network[J]. Sensors,2022,22(3): 706.
[2]Malibari A A,Alzahrani J S,Qahmash A,et al. Quantum water strider algorithm with hybrid-deep-learning-based activity recognition for human-computer interaction[J]. Applied Sciences,2022,12(14): 6848.
[3]Liu Jiayu,Chen Ping. Abnormal behavior recognition based on key frame location and spatial-temporal graph convolution[J]. Machinery amp; Electronics,2022,40(2): 48-53.
[4]Khan M A,Javed K,Khan S A,et al. Human action recognition using fusion of multiview and deep features: an application to video surveillance[J/OL]. Multimedia Tools and Applications. (2020-04-14). https://doi.org/10.1007/s11042-020-08806-9.
[5]Hatirnaz E,Sah M,Direkoglu C. A novel framework and concept-based semantic search interface for abnormal crowd behavior analysis in surveillance videos[J]. Multimedia Tools and Applications,2020,79(25): 17579-17617.
[6]Wang H,Schmid C. Action recognition with improved trajectories[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2013: 3551-3558.
[7]Wang Limin,Xiong Yuanjun,Wang Zhe,et al. Temporal segment networks: towards good practices for deep action recognition[C]// Proc of European Conference on Computer Vision. Cham: Springer,2016: 20-36.
[8]Carreira J,Zisserman A. Quo vadis,action recognition? A new model and the kinetics dataset[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 6299-6308.
[9]Liu Ze,Ning Jia,Cao Yue,et al. Video swin transformer[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 3202-3211.
[10]黃海新,王瑞鵬,劉孝陽. 基于3D卷積的人體行為識別技術綜述[J]. 計算機科學,2020,47(S2): 139-144. (Huang Haixin,Wang Ruipeng,Liu Xiaoyang. Review of action recognition based on 3D convolution network[J]. Computer Science,2020,47(S2):139-144.)
[11]蔡強,鄧毅彪,李海生,等. 基于深度學習的人體行為識別方法綜述[J]. 計算機科學,2020,47(4): 85-93. (Cai Qiang,Deng Yi-biao,Li Haisheng,et al. Review of human action recognition based on deep learning[J]. Computer Science,2020,47(4): 85-93.)
[12]朱相華,智敏.基于改進深度學習方法的人體動作識別綜述[J]. 計算機應用研究,2022,39(2): 342-348. (Zhu Xianghua,Zhi Min. Review of human action recognition based on improved deep learning methods[J]. Application Research of Computers,2022,39(2): 342-348.)
[13]劉云,薛盼盼,李輝,等. 基于深度學習的關節點行為識別綜述[J]. 電子與信息學報,2021,43(6): 1789-1802. (Liu Yun,Xue Panpan,Li Hui,et al. Review of joint action recognition based on deep learning[J]. Journal of Electronics amp; Information Techno-logy,2021,43(6): 1789-1802.)
[14]Iosifidis A,Tefas A,Pitas I. Semi-supervised classification of human actions based on neural networks [C]// Proc of the 22nd Internatio-nal Conference on Pattern Recognition. Piscataway,NJ: IEEE Press,2014: 1336-1341.
[15]Zhang Bowen,Wang Yidong,Hou Wenxin,et al. FlexMatch: boosting semi-supervised learning with curriculum pseudo labeling[C]// Advances in Neural Information Processing Systems. 2021: 18408-18419.
[16]Xu Yi,Shang Lei,Ye Jinxing,et al. Dash: semi-supervised learning with dynamic thresholding[C]// Proc of International Conference on Machine Learning.Piscataway,NJ:IEEE Press,2021:11525-11536.
[17]Higuchi Y,Moritz N,Le Roux J,et al. Momentum pseudo-labeling: semi-supervised ASR with continuously improving pseudo-labels[J]. IEEE Journal of Selected Topics in Signal Processing,2022,16(6): 1424-1438.
[18]Zeng Ming,Yu Tong,Wang Xiao,et al. Semi-supervised convolutional neural networks for human activity recognition[C]// Proc of IEEE International Conference on Big Data. Piscataway,NJ: IEEE Press,2017: 522-529.
[19]Jing Longlong,Parag T,Wu Zhe,et al. VideoSSL: semi-supervised learning for video classification [C]// Proc of IEEE Winter Confe-rence on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2021: 1109-1118.
[20]Singh A,Chakraborty O,Varshney A,et al. Semi-supervised action recognition with temporal contrastive learning[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 10389-10399.
[21]Sohn K,Berthelot D,Carlini N,et al. FixMatch: simplifying semi-supervised learning with consistency and confidence[C]// Advances in Neural Information Processing Systems.2020: 596-608.
[22]Zou Yuliang,Choi J,Wang Qitong,et al. Learning representational invariances for data-efficient action recognition[J]. Computer Vision and Image Understanding,2023,227: 103597.
[23]Xu Yinghao,Wei Fangyun,Sun Xiao,et al. Cross-model pseudo-labeling for semi-supervised action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 2959-2968.
[24]唐超,王文劍,李偉,等. 基于多學習器協同訓練模型的人體行為識別方法[J]. 軟件學報,2015,26(11): 2939-2950. (Tang Chao,Wang Wenjian,Li Wei,et al. Multi-learner co-training model for human action recognition[J]. Journal of Software,2015,26(11): 2939-2950.)
[25]Xiong Bo,Fan Haoqi,Grauman K,et al. Multiview pseudo-labeling for semi-supervised learning from video[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 7189-7199.
[26]Terao H,Noguchi W,Iizuka H,et al. Compressed video ensemble based pseudo-labeling for semi-supervised action recognition[J]. Machine Learning with Applications,2022,9: 100336.
[27]唐超,王文劍,王曉峰,等. 基于多視圖半監督學習的人體行為識別[J]. 模式識別與人工智能,2019,32(4): 376-384. (Tang Chao,Wang Wenjian,Wang Xiaofeng,et al. Human action recognition based on multi-view semi-supervised learning[J]. Pattern Recognition and Artificial Intelligence,2019,32(4): 376-384.)
[28]Xiao Junfei,Jing Longlong,Zhang Lin,et al. Learning from temporal gradient for semi-supervised action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway,NJ: IEEE Press,2022: 3242-3252.
[29]Creswell A,White T,Dumoulin V,et al. Generative adversarial networks: an overview[J]. IEEE Signal Processing Magazine,2018,35(1): 53-65.
[30]Jamal A,Namboodiri V P,Deodhare D,et al. Deep domain adaptation in action space[C]// Proc of the 29th British Machine Vision Confe-rence. 2018: 444-459.
[31]Chen M H,Kira Z,AlRegib G,et al. Temporal attentive alignment for large-scale video domain adaptation[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 6321-6330.
[32]Chen Peipeng,Gao Yuan,Ma A J. Multi-level attentive adversarial learning with temporal dilation for unsupervised video domain adaptation[C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2022: 1259-1268.
[33]Pan Boxiao,Cao Zhangjie,Adeli E,et al. Adversarial cross-domain action recognition with co-attention[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2020:11815-11822.
[34]Munro J,Damen D. Multi-modal domain adaptation for fine-grained action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:122-132.
[35]Choi J,Sharma G,Schulter S,et al. Shuffle and attend: video domain adaptation[C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 678-695.
[36]Song Xiaolin,Zhao Sicheng,Yang Jingyu,et al. Spatio-temporal con-trastive domain adaptation for action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9787-9795.
[37]Da Costa V G T,Zara G,Rota P,et al. Dual-head contrastive domain adaptation for video action recognition[C]// Proc of IEEE Winter Conference on Applications of Computer Vision. 2022: 1181-1190.
[38]Sahoo A,Shah R,Panda R,et al. Contrast and mix:temporal contra-stive video domain adaptation with background mixing[C]// Proc of the 35th Conference on Neural Information Processing Systems. 2021: 23386-23400.
[39]Wu Han,Song Chunfeng,Yue Shaolong,et al. Dynamic video mix-up for cross-domain action recognition[J]. Neurocomputing,2022,471: 358-368.
[40]Li Feifei. A Bayesian approach to unsupervised one-shot learning of object categories[C]// Proc of the 9th IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2003: 1134-1141.
[41]Snell J,Swersky K,Zemel R. Prototypical networks for few-shot lear-ning[C]// Proc of the 31st International Conference on Neural Information Processing Systems. 2017: 4080-4090.
[42]Yu Mo,Guo Xiaoxiao,Yi Jinfeng,et al. Diverse few-shot text classification with multiple metrics [EB/OL]. (2018-05-19). https://arxiv.org/abs/1805.07513.
[43]余游,馮林,王格格,等. 一種基于深度網絡的少樣本學習方法[J]. 小型微型計算機系統,2019,40(11): 2304-2308. (Yu You,Feng Lin,Wang Gege,et al. Few-shot learning method based on deep network[J]. Journal of Chinese Mini-Micro Computer Systems,2019,40(11): 2304-2308.)
[44]趙凱琳,靳小龍,王元卓. 小樣本學習研究綜述[J]. 軟件學報,2021,32(2): 349-369. (Zhao Kailin,Jin Xiaolong,Wang Yuanzhuo. Survey on few-shot learning[J]. Journal of Software,2021,32(2): 349-369.)
[45]Zhu Linchao,Yang Yi. Compound memory networks for few-shot video classification [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2018: 782-797.
[46]Tan Shaoqing,Yang Ruoyu. Learning similarity: feature-aligning network for few-shot action recognition[C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press,2019:1-7.
[47]Fu Yuqian,Zhang Li,Wang Junke,et al. Depth guided adaptive meta-fusion network for few-shot video recognition[C]// Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press,2020: 1142-1151.
[48]Careaga C,Hutchinson B,Hodas N,et al. Metric-based few-shot learning for video action recognition[EB/OL]. (2019-09-14) [2022-12-02]. https://arxiv. org/abs/1909. 09602.
[49]Dwivedi S K,Gupta V,Mitra R,et al. ProtoGAN: towards few shot learning for action recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision Workshop. Piscataway,NJ: IEEE Press,2019: 1308-1316.
[50]Zhu Xiatian,Toisoul A,Perez-Rua J M,et al. Few-shot action recognition with prototype-centered attentive learning [EB/OL]. (2021-03-28). https://arxiv. org/abs/2101.08085.
[51]Perrett T,Masullo A,Burghardt T,et al. Temporal-relational crosstransformers for few-shot action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 475-484.
[52]Thatipelli A,Narayan S,Khan S,et al. Spatio-temporal relation mo-deling for few-shot action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 19958-19967.
[53]Ben-Ari R,Nacson M S,Azulai O,et al. TAEN: temporal aware embedding network for few-shot action recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 2786-2794.
[54]Wang Xiang,Zhang Shiwei,Qing Zhiwu,et al. Hybrid relation guided set matching for few-shot action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 19916-19925.
[55]Bishay M,Zoumpourlis G,Patras I. TARN: temporal attentive relation network for few-shot and zero-shot action recognition[EB/OL]. (2019-07-21) [2022-12-02]. https://arxiv.org/abs/1907.09021.
[56]Cao Kaidi,Ji Jingwei,Cao Zhangjie,et al. Few-shot video classification via temporal alignment[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10615-10624.
[57]Myuller M. Dynamic time warping[M]// Information Retrieval for Music and Motion. Berlin: Springer,2007: 69-84.
[58]Li Shuyuan,Liu Huabin,Qian Rui,et al. TA2N: two-stage action alignment network for few-shot action recognition[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 1404-1411.
[59]Wu Jiamin,Zhang Tianzhu,Zhang Zhe,et al. Motion-modulated temporal fragment alignment network for few-shot action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 9141-9150.
[60]Lu Su,Ye Hanjia,Zhan Dechuan. Few-shot action recognition with compromised metric via optimal transport[EB/OL]. (2021-04-08) [2022-12-02]. https://arxiv. org/abs/2104.03737.
[61]Peyré G,Cuturi M. Computational optimal transport[EB/OL]. (2018-05-01). https://arxiv.org/abs/1803.00567.
[62]Cuturi M. Sinkhorn distances: lightspeed computation of optimal transportation distances [EB/OL]. (2013-06-04). https://arxiv.org/abs/1306.0895.
[63]Kuehne H,Jhuang H,Garrote E,et al. HMDB: a large video database for human motion recognition[C]// Proc of IEEE Conference on Computer Vision. Piscataway,NJ: IEEE Press,2011: 2556-2563.
[64]Soomro K,Zamir A R,Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild [EB/OL]. (2012-12-03). https://arxiv.org/abs/1212.0402.
[65]Kay W,Carreira J,Simonyan K,et al. The kinetics human action video dataset[EB/OL]. (2017-05-19) [2022-12-02]. https://arxiv. org/abs/1705. 06950.
[66]Goyal R,Ebrahimi K S,Michalski V,et al. The ‘something something’ video database for learning and evaluating visual common sense[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 5842-5850.
[67]Materzynska J,Berger G,Bax I,et al. The Jester dataset: a large-scale video dataset of human gestures[C]// Proc of IEEE International Conference on Computer Vision Workshops. Piscataway,NJ: IEEE Press,2019: 2874-2882.
[68]Sultani W,Saleemi I. Human action recognition across datasets by foreground-weighted histogram decomposition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2014: 764-771.
[69]Sigurdsson G A,Gupta A,Schmid C,et al. Charades-Ego: a large-scale dataset of paired third and first person videos[EB/OL]. (2018-04-30) [2022-12-02]. https://arxiv.org/abs/1804.09626.
[70]Choi J,Sharma G,Chandraker M,et al. Unsupervised and semi-supervised domain adaptation for action recognition from drones [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2020: 1706-1715.