999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于選擇性融合及關系推理的群組行為識別

2023-01-01 00:00:00劉斯凡林國丞秦建偉王傳旭
計算機應用研究 2023年3期

摘 要:為解決如何選取更具辨別力的多模態人物特征,以及在進行人物關系推理時如何更加關注特定于個人的時空交互建模的問題,提出了基于選擇性特征融合的動態關系推理算法框架(SFDRI)。通過設計選擇性特征融合模塊,根據不同模態特征的隨機函數概率分布得分,添加重采樣方法以選取最相關的特征表示實現多模態特征的選擇融合,并采用動態關系推理模塊實現針對個人的復雜時空推理,通過在時空圖上初始化交互域,利用點積計算預測人物交互關系矩陣,并同時添加每個人物特征的動態偏移以形成特定于個人的交互圖,通過迭代更新交互圖上的特征進行最終的群組行為的識別。結合對比實驗,算法在公開的排球數據集(volleyball dataset,VD)和集體活動數據集(collective activity dataset,CAD)上分別提升了1.2%和1.5%的平均識別精度,證明了算法框架的有效性。

關鍵詞:群組行為識別;多模態融合;交互關系推理;行為識別

中圖分類號:TP301.6 文獻標志碼:A

文章編號:1001-3695(2023)03-045-0914-05

doi:10.19734/j.issn.1001-3695.2022.07.0346

Group activity recognition based on selective fusion and relational reasoning

Liu Sifan,Lin Guocheng,Qin Jianwei,Wang Chuanxu

(School of Information Science amp; Technology,Qingdao University of Science amp; Technology,Shandong Qingdao 266061,China)

Abstract:To address the problem of how to select more discriminative multimodal character features and how to pay more attention to individual-specific spatio-temporal interaction modeling when performing character relationship inference,this paper proposed an algorithmic framework for dynamic relationship inference based on selective feature fusion(SFDRI).It achieved the selective fusion of multimodal features by designing a selective feature fusion module that added a resampling method to select the most relevant feature representation based on the probability distribution scores of the random functions of different modal features.And it used the dynamic relationship inference module to achieve complex spatio-temporal inference for indivi-duals.By initializing the interaction domain on the spatio-temporal graph,it used the dot product to calculate the predicted character interaction matrix,and meanwhile added dynamic offsets of each character feature to form an individual-specific interaction graph,and iteratively updated the features on the interaction graph for the final group behavior recognition.Combined with the comparison experiments,the algorithm improves the average recognition accuracy by 1.2% and 1.5% on the publicly available volleyball dataset and collective activity dataset,respectively,demonstrating the effectiveness of the algorithmic framework.

Key words:group activity recognition;multi-modal fusion;interaction relation reasoning;behavior recognition

0 引言

群組行為識別旨在推斷場景中一群人執行的整體活動。其深入研究在監控、體育視頻分析、社會場景理解、異常行為監測等場景中有著重要的社會應用價值。

在研究中,對人物間復雜的時空相互作用進行建模是一項難題,通過精心設計的推理模塊提煉人物之間的高級語義關系,建模推斷視頻中的群體、事件或關鍵參與者[1,2],關乎識別最終的準確率。隨著神經網絡的出現,群組行為識別工作[3]成功地通過循環神經網絡(recurrent neural network,RNN)在人物動作和群體層面上建模了時間動態;文獻[4]的工作將RNN與注意力機制相結合,以捕獲人與人之間的空間或時間域中的關鍵特征以更好地進行識別。近年來,基于圖結構數據進行推理的方法引起了研究者的注意[5],包括基于圖卷積的變體網絡[6],它們在構建的語義圖上進行信息傳遞,取得了具有競爭力的結果[7]。Wu等人[8]最先提出使用圖卷積網絡(graph convolution network,GCN)來學習時空圖上人與人之間的交互;后來,一些工作[9]在建立關系模型和聚集特征時,將以前的全連通圖改進為縱橫交錯圖以進行群體成員之間的關系推理。然而,上述方法在預定義的圖上建立個體成員之間的交互,忽視了群組成員會根據自己的上下文關系與其他人物互動的問題。如圖1所示,左側視頻中第二個人與即將扣球的第四個人互動,右側視頻中的第四個人與即將發球的第五個人進行互動,灰色箭頭表示連接關鍵人物和重要語義人物的交互,可以明顯看出與特定成員互動的其他參與者應該是針對該成員的,預定義的圖方法不適合每一個成員的關系推理。針對上述問題,文章受可變形卷積[10]的啟發設計了動態關系推理模塊,包括人物間的關系學習和動態位置偏移兩個部分,通過結合兩個部分來預測特定于人物的交互圖,關系學習部分預測一個人特定的關系矩陣,動態位置偏移預測交互場內每個特征的位置偏移,將初始化的交互域形成一個圖,從而實現全局級別的互動,以更好地推理視頻中人物之間的關系從而進行群組行為識別。

另一個群組行為識別中常被忽略的問題則是多模態特征融合。在進行人物間關系提煉推理之前,單人特征提取階段有著給定視頻數據人物多、動作變化多樣的特點,單一模態的視覺特征提取方法不足以檢測到動作的細微變化,Simonyan等人[11]證明了通過融合包含互補信息的不同模態人物特征可以提高性能。因此在研究中傾向于提取多種模態的特征信息以增強人物表示、豐富互補的特征信息,為了減輕計算量去除冗余信息,就需要從多種模態特征中提取最具代表性的特征來增強人物表示[1]。在先前的工作中,一部分群組行為識別算法遵循后期融合策略,例如文獻[12]提出的多流架構與長短時記憶網絡模型,通過后期決策層融合多流得分進行預測,但無用信息的輸入增大了下游任務的計算量。另一部分群體行為識別算法選擇在前期進行多模態人物特征融合,文獻[13]中討論了將光流、姿態、RGB特征通過元素和、元素乘積等簡單地融合,雖然連接了不同模態的特征,但缺點是信息冗余,特征利用率低,各模態關鍵特征難以突出;雖然文獻[14]通過設計自適應融合的自動編碼器讓網絡決定如何更有效地組合多模態特征,但該方法對意外的數據損壞和缺失的狀態下缺少魯棒性。受變分自編碼器和重采樣算法[15]的啟發,文章設計選擇性融合模塊,以實現捕捉復雜跨模態的相互作用,有效利用額外的和相互信息的同時引入Gumbel擾動,期望從統計學角度指導選擇概率分布,直觀地學習保留最相關的特征表示,同時丟棄無用或誤導性信息。

1 方法

針對如何選取更具辨別力的多模態人物特征,以及在進行人物關系推理時如何更加關注特定于個人的時空交互建模的問題,設計了基于選擇性特征融合的動態關系推理算法框架(SFDRI)。該算法框架包括圖2所示的三個主要模塊,即多流人物特征提取、多模態特征融合和動態關系推理模塊。其中多流人物特征提取旨在克服單一模態提取特征信息的不全面問題,豐富個體特征;多模態特征融合模塊的目的是提煉各個模態中最具代表性的信息,去除冗余和無用信息,以減輕下游人物關系推理模塊的計算負擔;動態關系推理模塊則將重點聚焦于特定于人物的交互上下文,以克服以往在預定義圖上進行推理的局限性。各模塊具體設計架構本章將一一進行介紹。

1.1 多流人物特征提取

首先進行多流特征提取,具體通過姿態網絡和3DCNN主干網絡分別對連續視頻幀中的人物姿態、光流和RGB特征進行提取,以豐富個體特征。

1)姿態特征提取 視頻中人的動作都涉及身體關節運動,如手、胳膊和腿,人體姿態預測不僅適用體育活動中執行的精細動作識別,如volleyball數據集中的扣球和接球,也適用于日常動作,如CAD中的走路和談話。為了獲得人物的關節位置,文章應用了姿態估計模型高分辨率網絡(high-resolution net,HRNet)[16],接受視頻幀中人物的邊界框作為輸入,并預測關鍵節點位置,從而產生特征圖表示。在實驗中,本文使用該網絡的最后一層特征圖,即分類層之前,并使用在COCO數據集關鍵點上進行訓練的最小網絡pose_hrnet_w32,取得了良好的性能。

2)RGB與光流特征提取 研究表明[17],具有足夠可用數據進行訓練的3DCNN可以構建用于動作識別的強時空表示。由于靜態分支中單獨的姿態網絡不能從單個幀中捕獲關節的運動,所以本文采用Kinetics預訓練的雙流膨脹3D卷積網絡(two-stream inflated 3D convNet,I3D)為主干網[17],使用I3D網絡中的光流和RGB表示人物動態特征。RGB流以RGB視頻幀作為輸入Ft,t=1,…,T幀,而對于光流,本文將輸入序列幀轉換為連續光流幀,通過I3D進行處理。在實踐中,提取mixed-4f層中生成高分辨率的特征圖,RoIAlign[18]層將坐標投影到特征圖上,被用于提取輸入幀中每個人物邊界框的特征,然后將其嵌入到D維空間中。本文將人物特征堆疊起來形成a∈RT×N×D,其中T和N分別表示時間步長(即時間維度)和每幀中帶注釋的人的數量(即空間維度)。空間維度是按照文獻[8]的人物坐標排序的。

1.2 選擇性特征融合

在該模塊中,為了將多模態人物特征有效地組合和利用,本文不再使用以往僅元素和或元素積的特征簡單融合方法[13],而是在變分自編碼器和重采樣算法[15]的啟發下,設計跨不同模態的選擇性特征融合的方法,不再用一個連續的值對每個特征進行重新加權,而是學習一個隨機函數,生成特征概率分布,對最終最具辨別性得分最大的特征進行選擇性采樣,并希望通過加入Gumbel擾動增加模型魯棒性,選取各模態最具代表性的信息。

其中,1.1節多流主干網絡提取好的多模態特征數據由N個標記的人物特征組成,定義為a=(ar,ao,ap),其中ar,ao,ap∈RD,分別代表RGB、光流和姿態,D為特征維度。數據以N為索引a=(a1,a2,…,an),其中ai=(ari,aoi,api),1≤i≤N。隨機函數是由參數化的伯努利分布實現的隨機神經網絡。然而,在實驗過程中,由于反向傳播算法不能直接應用于非微分層,所以離散變量采樣步驟很難訓練。為了解決梯度下降以指導算法優化的問題,研究通常使用REIN-FORCE算法[19]構建梯度估計器來解決這個問題。本文則采用一種Gumbel-Softmax重采樣[15]的輕量級方法來處理離散變量。

2 實驗

2.1 數據集介紹

到目前為止,群體活動識別中有兩個廣泛使用的數據集,即集體活動數據集(CAD)[24]和排球數據集(VD)[25]。

排球數據集由3 493個訓練片段和1 337個測試片段組成,它們是從55個排球比賽視頻中剪裁出來的。對于每個短片,它提供三種注釋:a)給定剪輯幀中人物邊界框的坐標;b)個人動作標簽,即blocking、digging、falling、jumping、moving、setting、spiking、standing和waiting;c)給定的組活動標簽,包含四個主要活動(set,spike,pass,winpoint),它們分別分為兩個子組(left和right),總共八個組活動標簽。為了對整個剪輯執行特征提取,使用文獻[13]提供的數據。用于評估模型性能的指標,采用平均識別精度(mean per class accuracy,MPCA)。

集體活動數據集由44個視頻組成,其中包含194~1 814幀不等的幀數。與VD類似,它用三個級別的注釋進行標記:a)人物邊界框的坐標;b)帶注釋的人的個人動作標簽;c)組活動標簽,即crossing、waiting、queueing、walking和talking。本文按照文獻[26]將交叉和步行合并為移動,使用32個視頻進行訓練,12個視頻進行測試。

2.2 實驗細節設置

對于VD,使用分辨率為H×W=720×1 280的視頻圖像,對于CAD,使用分辨率為H×W=480×720的視頻圖像。對于兩個數據集,使用包含T=10幀的視頻片段。對于VD,場景中的最大人數為N=12,對于CAD,N=13。對于I3D網絡,該主干網絡由Kinetics-400預測模型初始化,使用在時間維度上進行平均池化后的Mixed-4f層獲得的特征圖。然后將特征圖調整為90×160并使用RoIAlign層提取輸入視頻中間幀的每個邊界框里大小為5×5的特征。之后將姿態、RGB和光流特征嵌入到具有相同維度D=128的向量空間中。選擇性融合中,溫度τ在開始時設置為1,并在訓練過程的每個epoch中逐漸降低到0.5。動態推理模塊的卷積操作由零向量初始化[30],在圖上應用卷積時,使用零填充來保持固定的交互域大小。對于VD的訓練,使用Adam優化器,其學習率從1×10-4開始,衰減率為每10個epoch降低1/3。對于CAD的訓練,使用相同的優化器,學習率保持在5×10-5。總共運行30個epoch,Adam的超參數為β1=0.9,β2=0.999和ε=10-8。

2.3 消融實驗

在該節中,本文在VD上進行定量實驗分析,以證明各個模塊的有效性。基線模型[Base model],由多流骨干網(在這里本文將RGB、光流和姿態人物特征簡單進行相加)、RoIAlign和最終分類層組成;[ours/F],包含骨干網、RoIAlign、選擇性融合模塊、分類層;[ours/R],包含骨干網、RoIAlign、動態推理模塊、分類層;[SFDRI],骨干網、RoIAlign、選擇性融合模塊、動態推理模塊、分類層,即整體架構。

添加各個模塊的實驗結果如表1所示,結合表中數據可以看出,文章設計的整體框架中的各個模塊都能夠顯著提高性能。單獨添加融合模塊和動態推理模塊都使平均識別精度分別提升了3.3%和3.8%。尤其是在推理人物交互關系時添加的動態偏移,雙線性采樣器通過雙線性權重重新定義了特征插值,這些權重由動態偏移量決定,在某種程度上可以看做是一種動態關系。

為了更直觀地比較模塊的性能,文章還分別將融合模塊、推理模塊與最近常用的方法進行了詳細的對比實驗,依然采用群體活動識別精度作為模型評估指標。對于選擇性融合,額外對比了相加和級聯兩類群組行為識別中常用的融合,實驗結果如表2所示。對于早期的簡單融合,例如級聯和相加對于模型的表現效果不佳,與單分支模型表現相似甚至更差。在訓練融合網絡時,遵循了諸多技巧以確保訓練的穩定性,其中一些幫助最大的包括激活函數以及Adam優化器。選擇性融合有效地組合多模態輸入,并對最具代表性的特征進行了選取提煉,比相加與直接連接分別提升了3.3%和2.4%,相比以往的淺層融合,效果得到了明顯改善。

對于交互關系推理模塊,本文在實驗中僅使用各單流分支模型,不使用動態交互關系推理模塊作為基線模型(base/single),并選取了近年來具有代表性的ARG[8]和activity map[32]方法對每個單分支模態分別建模推理對比,展示文中動態建模的優勢,實驗結果如表3所示。ARG使用關系圖來聚合參與者之間的信息,作者使用嵌入點積方法表示外觀關系,距離掩碼表示位置關系;而本文模型應用位置偏移替代位置掩碼,通過特定于人物的交互圖傳遞信息的方法表現出了優越的性能,各模態分支相較于ARG方法分別提升了1.3%、0.5%和2.9%。activity map是基于使用空間活動圖的多個細化階段,由于與本文使用的是相同的主干網I3D,所以直接將其與文獻[32]中得到的結果進行比較。本文與activity map在光流上的結果相差不大,在RGB上的結果略差,但是本文不需要將邊界框注釋轉換為分割掩碼,也不需要細化多個階段,就能實現這些結果。

圖5為left_pass活動的可視化,人物關系交互圖中總結了關于第2個人在不同時間步中的交互,這表明,本文雖然只設置了初始化交互域,但仍能模擬全局級別的交互優點,如交互圖5中黃色框(見電子版)是該人物與其他組群成員的兩個關鍵交互,他們可能會接替2號人物進行傳球。

2.4 與先進方法的比較

在該節中,將本文設計的多模態特征選擇與動態關系推理框架與先進的方法進行比較,使用預測小組活動的識別精度作為評價指標。

在VD上的實驗結果如表4所示,SFDRI對比其他方法有著大幅度的提升,比文獻[28]的方法提升了1.2%的平均識別精度,對于同樣利用圖結構進行建模推理人物關系[8]的方法相比提高了1.8%的識別精度。證明了增加人物模態特征并對重要信息進行提煉的重要性,以及動態偏移對于特定于人物動態上下文關系交互的有效性學習。

在CAD上的表現如表5所示,該框架比文獻[13]相同主干網方法提升了1.9%,體現了交互關系推理模塊的優越性,以及多模態特征融合的必要性。從表中,本文還可以關注到SFDRI優于其他基于GNN的方法。從而揭示了引入動態性的有點和融合互補性特征的重要性。

模型在CAD和VD上的混淆矩陣分別如圖6(a)和(b)所示。對于VD,動態空間遠程交互建模使得模型能夠區分左側活動和右側活動,與文獻[3]中的混淆矩陣相比,文章方法在pass和set活動方面表現優越。本文將其歸因于時空人物之間的動態交互,因為pass和set涉及一個人傳球和一個人接球。對于CAD,與文獻[25]的混淆矩陣相比,可以更好地區分waiting。以往方法因為沒有區分人物的時間變化而把waiting誤認為是moving,而動態推理模型很好地解決了這一點。

3 結束語

本文提出了針對多模態特征融合與人物關系推理的整體算法框架(SFDRI),通過選擇性融合解決了多模態特征冗余及重要特征選取的問題,并通過定義交互域添加動態偏移解決對預定義圖的推理問題。對比實驗證明了算法框架的有效性。更具挑戰性的融合策略和計算技巧留待以后的工作進行探索,后續研究可以通過添加人物軌跡特征并研究來自更多模態的特征融合方案,以及有效的數據增強方案;并在推理模塊更加注重特定于當前人物的上下文特征,并從節省計算開銷的角度對框架進行改進。

參考文獻:

[1]劉繼超,劉云,王傳旭.基于核心人物和交互關系建模的群組行為識別[J].青島科技大學學報:自然科學版,2022,43(3):98-106.(Liu Jichao,Liu Yun,Wang Chuanxu.Group activity recognition based on relationship network and core person modeling[J].Journal of Qingdao University of Science and Technology:Natural Science Edition,2022,43(3):98-106.)

[2]王傳旭,薛豪.基于GFU和分層LSTM的組群行為識別研究方法[J].電子學報,2020,48(8):1465-1471.(Wang Chuanxu,Xue Hao.Group activity recognition based on GFU and hierarchical LSTM[J].Acta Electronica Sinica,2020,48(8):1465-1471.)

[3]Bagautdinov T,Alahi A,Fleuret F,et al.Social scene understanding:end-to-end multi-person action localization and collective activity re-cognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4315-4324.

[4]Tang Jinhui,Shu Xiangbo,Yan Rui,et al.Coherence constrained graph LSTM for group activity recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(2):636-647.

[5]Pramono R R A,Chen Y T,Fang W H.Empowering relational network by self-attention augmented conditional random fields for group activity recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:71-90.

[6]張天雨,許飛,江朝暉.基于時空自注意力轉換網絡的群組行為識別[J].智能計算機與應用,2021,11(5):77-81,87.(Zhang Tianyu,Xu Fei,Jiang Chaohui.Spatio-temporal transformer network for group activity recognition[J].Intelligent Computer and Applications,2021,11(5):77-81,87.)

[7]孔瑋,劉云,李輝,等.基于圖卷積網絡的行為識別方法綜述[J].控制與決策,2021,36(7):1537-1546.(Kong Wei,Liu Yun,Li Hui, et al.A survey of action recognition methods based on graph convolutional network[J].Control and Decision,2021,36(7):1537-1546.)

[8]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9964-9974.

[9]Yan Rui,Xie Lingxi,Tang Jinhui,et al.Social adaptive module for weakly-supervised group activity recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:208-224.

[10]Zhu Xizhou,Hu Han,Lin S,et al. Deformable ConvNets v2:more deformable,better results[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9308-9316.

[11]Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems.2014.

[12]王傳旭,胡小悅,孟唯佳,等.基于多流架構與長短時記憶網絡的組群行為識別方法研究[J].電子學報,2020,48(4):800-807.(Wang Chuanxu,Hu Xiaoyue,Meng Weijia,et al.Research on group behavior recognition method based on multi-stream architecture and long short-term memory network[J].Acta Electronica Sinica,2020,48(4):800-807.)

[13]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:839-848.

[14]Sahu G,Vechtomova O.Adaptive fusion techniques for multimodal data[C]//Proc of the 16th Conference of the European Chapter of the Association for Computational Linguistics.2021:3156-3166.

[15]Jang E,Gu Shixiang,Poole B.Categorical reparametrization with Gumble-softmax[C]//Proc of International Conference on Learning Representations.2017.

[16]Sun Ke,Xiao Bin,Liu Dong,et al.Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2019:5693-5703.

[17]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2017:6299-6308.

[18]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway NJ:IEEE Press,2017:2961-2969.

[19]Mnih A,Gregor K.Neural variational inference and learning in belief networks[C]//Proc of International Conference on Machine Lear-ning.2014:1791-1799.

[20]Maddison C J,Tarlow D,Minka T.A sampling[EB/OL].(2014-10-31).https://arxiv.org/abs/1411.0030.

[21]Shen Chen,Qi Guojun,Jiang Rongxin,et al.Sharp attention network via adaptive sampling for person re-identification[J].IEEE Trans on Circuits and Systems for Video Technology,2018,29(10):3016-3027.

[22]Zhang Li,Xu Dan,Arnab A,et al. Dynamic graph message passing networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2020:3726-3735.

[23]Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[C]//Advances in Neural Information Processing Systems.2015.

[24]Choi W,Shahid K,Savarese S.What are they doing? Collective activity classification using spatio-temporal relationship among people[C]//Proc of the 12th IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2009:1282-1289.

[25]Ibrahim M S,Muralidharan S,Deng Z,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.

[26]Yan Rui,Xie Lingxi,Tang Jinhui,et al.HiGCIN:hierarchical graph-based cross inference network for group activity recognition[J/OL].IEEE Trans on Pattern Analysis and Machine Intelligence,2020.http://doi.org/10.1109/tpami.2020.3034233.

[27]Shu Tianmin,Todorovic S,Zhu Songchun.CERN:confidence-energy recurrent network for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5523-5531.

[28]王傳旭,劉冉.基于交互關系分組建模融合的組群行為識別算法[J].計算機與現代化,2022(1):1-9.(Wang Chuanxu,Liu Ran.Group activity recognition algorithm based on interaction relationship grouping modeling fusion[J].Computers and Modernization,2022(1):1-9.)

[29]Li Xin,Choo Chuah M.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2876-2885.

[30]Dai Jifeng,Qi Haozhi,Xiong Yuwen,et al.Deformable convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:764-773.

[31]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.2018:721-736.

[32]Azar S M,Atigh M G,Nickabadi A,et al.Convolutional relational machine for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2019:7892-7901.

收稿日期:2022-07-12;修回日期:2022-08-26 基金項目:國家自然科學基金資助項目(61672305)

作者簡介:劉斯凡(1998-),女,山東濟南人,碩士研究生,主要研究方向為計算機視覺;林國丞(1995-),男,浙江衢州人,碩士研究生,主要研究方向為計算機視覺;秦建偉(1996-),男,山東濰坊人,碩士研究生,主要研究方向為目標檢測;王傳旭(1968-),男(通信作者),山東濟寧人,教授,碩導,博士,主要研究方向為計算機視覺(Qust_wcx@163.com).

主站蜘蛛池模板: 亚洲综合经典在线一区二区| 亚洲无码熟妇人妻AV在线| 热久久这里是精品6免费观看| 中文无码影院| 亚洲一级无毛片无码在线免费视频| 亚洲一区无码在线| 欧美成人a∨视频免费观看| 手机在线免费不卡一区二| 欧美午夜在线观看| 国产真实二区一区在线亚洲| 欧洲亚洲欧美国产日本高清| 91精品国产91欠久久久久| 亚洲国产成人超福利久久精品| 国产精品久久久久鬼色| 亚洲精品手机在线| 久久这里只有精品免费| 成人字幕网视频在线观看| 亚洲a级在线观看| 国产精品天干天干在线观看| 人妻丰满熟妇AV无码区| 人妻丰满熟妇αv无码| 色婷婷亚洲综合五月| 91久久性奴调教国产免费| 亚洲欧洲自拍拍偷午夜色| 国产一区亚洲一区| 国产激情无码一区二区APP| 欧美另类视频一区二区三区| 思思99热精品在线| 国产又大又粗又猛又爽的视频| 午夜激情婷婷| 国产美女人喷水在线观看| 久久综合激情网| 亚洲一区网站| 免费一级无码在线网站| 青草视频在线观看国产| 国产福利不卡视频| 天天色天天综合网| 欧美va亚洲va香蕉在线| 91无码视频在线观看| 香蕉视频在线观看www| 就去色综合| 真实国产精品vr专区| 国产高清在线丝袜精品一区| 刘亦菲一区二区在线观看| 精品久久高清| www.91在线播放| 美女一区二区在线观看| 欧美另类图片视频无弹跳第一页| 国产综合网站| 伊伊人成亚洲综合人网7777 | 播五月综合| 亚洲中文字幕无码爆乳| 亚洲精品国产首次亮相| 好吊色国产欧美日韩免费观看| 色视频久久| 国产精品视频猛进猛出| 亚洲人免费视频| 亚洲欧美成人| 国产精女同一区二区三区久| 伊人色天堂| 久久精品人人做人人| 青青草原国产| 色婷婷视频在线| 欧洲成人在线观看| 欧美视频免费一区二区三区 | 97精品国产高清久久久久蜜芽 | 色欲色欲久久综合网| 精品一區二區久久久久久久網站| 国产精品亚洲综合久久小说| 色九九视频| 日韩a在线观看免费观看| 高潮毛片无遮挡高清视频播放| 99re这里只有国产中文精品国产精品| 重口调教一区二区视频| 免费毛片在线| 日韩天堂网| 91免费国产高清观看| 欧美精品伊人久久| 四虎国产精品永久在线网址| 国产精品9| 国产精品人人做人人爽人人添| 2021国产精品自产拍在线|