999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空自注意力轉換網絡的群組行為識別

2021-10-05 12:46:56張天雨江朝暉
智能計算機與應用 2021年5期
關鍵詞:特征模型

張天雨,許 飛,江朝暉

(合肥工業大學 計算機與信息學院,合肥230601)

0 引 言

群組行為識別是指對多個個體共同參與的活動進行識別,具有廣泛的應用領域。如:體育視頻分析、智能視頻監控、機器人視覺等。與傳統個體行為識別不同的是,群組行為識別需要理解個體之間的交互關系,而個體的位置、行為以及個體之間的交互關系隨時間不斷變化。

早期的方法使用概率圖模型處理手工提取的特征。近幾年,循環卷積神經網絡(Recurrent Neural Network,RNN)和長短時記憶網絡(Long Short-Term Memory,LSTM)憑借其強大的序列信息處理能力,被許多學者用于群組行為識別。Ibrahim M S等人[1]設計了一個層次LSTM模型,其中一個LSTM提取成員個體行為動態特征,另一個用于聚合個體層次信息作為場景表示,但在使用LSTM聚合個體層次信息時忽略了個體空間關系。Ibrahim M S等人[2]在之后的工作中引入一個關系層為每個人學習緊湊的關系表示,但這種關系層學習個體關系的方法不夠靈活。

為解決上述問題,本文提出時空自注意力轉換網絡模型用于群組行為識別。首先使用空間自注意力轉換模塊,靈活地建模個體間的空間關系,其次使用時序自注意力轉換模塊進行時序建模,最后將時空關系建模后的特征用于群組行為識別。

本文的主要貢獻是:提出了一種端到端的時空自注意力轉換模型,以及全局空間關注圖,改進空間自注意力轉換模塊;使用時序掩膜策略,優化時序自注意力轉換模塊。在兩個流行數據集上進行驗證,均取得了優秀的表現。

1 相關工作

1.1 群組行為識別

早期的研究人員采用概率圖模型處理手工提取的特征[3-4]。近期,深度學習網絡在各個領域取得優異的表現,一些學者將RNN以及LSTM引入群組行為識別任務中。Ibrahim M S等人[1]提出了基于LSTM的層次模型,將卷積神經網絡(Convolutional Neural Network,CNN)和LSTM作為骨干網絡,其中LSTM可以捕捉每個個體的時間動態特征。其后,許多基于CNN和RNN結合的群體活動識別方法涌現出來。

例如,Shu T等人[5]提出了能量層和LSTM結合的CERN網絡,能量層用于捕獲CERN內所有LSTM預測之間的依賴關系,并以這種方式通過能量最小化實現更加可靠的識別;Li X等人[6]使用一個LSTM為每個視頻幀生成一個標題,另一個LSTM根據這些生成的字幕,預測最終的活動類別;Ibrahim M S等人引入一個關系層模塊,該模塊可以編碼個體與其他個體的關系信息;Tsunoda T等人[7]設計了一個層次LSTM,在LSTM中引入了保持狀態作為一種外部可控狀態,并且擴展了分層LSTM的集成機制。

此外,一些方法采用注意力機制來確定與群組活動中的關鍵人物。例如Ramanathan V等人[8]結合雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BLSTM)和注意力(Attention)機制,提出注意力模型,給予事件中關鍵參與者更高的權重。Qi M等人[9]還利用注意機制同時從視覺域和語義域尋找關鍵人物。本文基于自注意力機制,提出時空自注意力轉換網絡進行群組行為識別。

1.2 自注意力機制(Self-Attention)

自注意力機制是自注意力轉換網絡(Transformer)的基礎模塊[10],用于為序列的所有實體之間的交互建模,在自然語言處理領域表現優異。原理上,自注意力層通過聚合來自完整輸入序列的全局信息,來更新序列的每個組成部分。其輸入由一組查詢(Queries,Q)、維度為D的鍵(Keys,K),和值(Values,V)組成,將這些輸入打包成矩陣形式實現高效計算。首先將Q與K的轉置矩陣相乘并除以再使用softmax層進行歸一化,以獲得注意力分數。序列中每個實體更新為序列中所有實體的加權和,其中的權重由注意力分數給出。其公式為:

這種自注意力機制被用于許多關系建模、目標檢測等計算機視覺任務。本文工作中利用基于自注意力機制的Transformer用于時空關系建模。

2 模型框架

2.1 總體框架

網絡由個體特征提取、基于Transformer的時空特征融合模塊和殘差連接特征融合模塊3部分組成。網絡框架如圖1所示。網絡輸入為視頻幀序列以及個體邊界框B;使用2D CNN網絡提取輸入視頻幀的特征圖;RoiAlign層[11]根據個體邊界框B提取個體外觀特征;使用FC層將每個個體成員特征映射為維度1×1 024,將其稱為原始個體特征;將提取的個體特征輸入時空Transformer模塊,進行時空信息建模。為了減少深度網絡退化問題,采用殘差鏈接將原始特征與時空信息建模后的成員特征融合,最后使用分類層進行分類。

圖1 時空自注意力轉換網絡結構Fig.1 Structure of Spatio-Temporal Transformer Network

2.2 空間Transformer

在將原始特征輸入該模塊之前,需根據個體邊界框為原始特征添加空間位置信息。對于個體i,根據其邊界框中心點使用Vaswani A等人[13]提出的PE位置編碼函數對其進行編碼。編碼得到的空間位置信息維度和個體i的特征維度相同,其前一半維度為xi的編碼,后一半為yi的編碼。編碼函數為:

其中,pos為個體的位置;i為空間位置編碼向量的維度;Din的值等于個體特征維度大小的一半。空間位置信息xi和yi均使用上述編碼,編碼后將其使用concatenate方式進行連接。空間位置編碼與個體特征具有相同的維度,將兩者相加得到具有空間位置信息的個體特征。

空間Transformer原理如圖2所示。Transformer由L層組成,每層有2個子層:一個多頭注意層和一個前饋層。其原始輸入為經空間位置信息編碼后的特征矩陣X∈RN×D。其中,N代表節點數量,D表示通道數。對于H個注意頭的第j個頭的注意層,計算其輸出Xj∈RN×d,d=D/H:

圖2 空間Transformer原理Fig.2 Principle of Spatio-Transformer Network

2.3 全局空間注意圖

如上所述,使用空間Transformer中多頭注意力為每個時刻個體計算空間關注度,這是一種隨時間變化的空間關注度。由于每個個體在群組活動中扮演特定的角色,可在整個群組活動過程中設定一個時序共享的全局空間注意力模塊,來強制模型學習更多不同時刻的一般關注。

如圖2所示,在多頭注意力和前饋層之間加入K全局注意圖∈RN×N,在這里K取N值。所有數據樣本共享全局注意圖,代表整個群組活動內在關系模式,多個圖構成全局注意圖增加網絡泛化能力。本文將其作為網絡的參數,并與模型一起進行優化。該模塊結構簡單、參數少,但消融實驗表明其效果顯著。全局空間關注度模塊使用殘差函數,增加該模塊后計算公式表示為:

2.4 時序Transformer

時序Transformer和空間Transformer具有相同的原理,其不同之處在于輸入特征為時序特征以及多頭注意層的計算方式。輸入的時序特征由各時刻空間特征在個體維度最大池化獲得。在時序特征經多頭注意層時,對多頭注意層中計算出的關注圖矩陣后,增加一個掩膜矩陣M∈RN×N。M矩陣為:

其中,m1、m2為矩陣的行和列,γ為時間窗口大小,設置為輸入單個視頻序列幀數的一半。增加掩膜后的注意力層計算為:

其中,°表示Hadamard乘積。因此,當為某個時序特征進行時序建模時,只考慮該時刻前后γ時刻內的時序特征,其它時刻的注意分數被設為零。采用這種策略,減少了時序建模時信息冗余,降低了時序建模難度。

2.5 損失函數

將時序Transformer的輸出與原始特征進行求和融合,形成最終場景表示,將場景表示送入分類層進行群組行為識別。使用空間Transformer的輸出特征與原始特征求和融合后計算個體損失。整個模型以反向傳播端到端方式訓練,損失函數由個體損失和群組損失組成,其公式如下:

其中,L為交叉熵損失函數;是群組行為和個體行為標簽;yG和yP是預測值。

3 實驗結果與分析

3.1 數據集

(1)Volleyball數據集。數據集由55個排球比賽視頻中截取的4 830個視頻片段組成[1]。每個視頻片段中間幀標注了個體邊界框、個體行為標簽以及群組行為標簽。其中個體行為標簽有9種,群組行為標簽共有8種。對于每個帶標注的幀,該幀周圍有多個未帶標注的幀可用。實驗中使用一個長度為T=10的時間窗口,對應于標注幀的前5幀和后4幀。未被標注的個體邊界框數據從該數據集提供的軌跡信息數據獲取。使用3 494個視頻片段作為訓練集,1 337個視頻片段作為測試集。

(2)Collective Activity數據集。數據集由低分辨率相機拍攝的44個視頻片段組成,總共約2500幀[3]。每個視頻片段每10幀有一個標注,標注包含個體行為和群組行為標簽,以及個體的邊界框。共5個群組活動標簽,6個個體行為標簽。實驗中2/3視頻用于訓練,其余的用于測試。

3.2 實驗細節及評價標準

對于Volleyball數據集,網絡超參設置如下:最小批量大小為8,Dropout參數為0.3,學習率初始設置為1E-4,網絡訓練180個周期,每30個周期學習率將為之前的0.5倍,學習率在4次衰減后停止衰減。空間自注意力轉換模塊層數為1,注意頭數為2,時序自注意力轉換模塊層數和注意頭數均為1。實驗采用ADAM(ADAptive Moment)優化器。

在Collective Activity數據集上,網絡超參設置為:最小批數據大小為16,Dropout參數為0.5,初始學習率為1E-3,每10個周期學習率將為之前的0.1倍,學習率在四次衰減后停止衰減。網絡共訓練80個周期。空間自注意力轉換模塊層數為1,注意頭數為2,時序自注意力轉換模塊層數和注意頭數均為1。實驗采用ADAM優化器。

3.3 消融實驗

3.3.1 基線模型設計

為通過消融實驗來證明本文模型中各個模塊的有效性,設計以下變體模型:

B1(Baseline):基于個體特征模型。在該模型中,采用Inception-v3來計算每個幀中個體的高維特征。將這些特征經平均池化,計算出群組行為的特征。這些特征被送到Softmax分類器中,以預測每個幀中群組行為的標簽。視頻的預測標簽為所有視頻幀的預測標簽,通過求和平均得到。

B2(Baseline+ST):該變體模 型 使用空間Transformer(Spatio-Transformer,ST)對Inception-v3提取的個體特征進行空間關系推理。

B3(Baseline+ST+TT):該變體在B2的基礎上增加無掩膜優化的時序(Temporal-Transformer,TT),對時序關系進行推理。

B4(Baseline+ST_Enhance+TT):在B3的基礎上增加全局空間注意圖增強,對空間關系的推理。

B5(Baseline+ST_Enhance+TT_Enhance):為本文的最優模型,在B4的基礎上增加掩膜對TT進行優化。

3.3.2 實驗結果分析

模型及其變體在Volleyball數據集上的識別準確率結果見表1。本文提出的B5模型取得了最好的性能。其達到92.52%的最高準確率,與基線模型B1相比準確率提升了3.37%。與B1相比,變體模型B2通過探索個體之間的空間交互,識別準確率提高了0.87%。B3被用來說明在時間和空間領域捕捉個體空間交互關系以及時序關系的重要性,B4和B3相比提高了0.9%的準確率,證明了全局空間注意圖這種不同時刻的一般關注對于識別群體活動的有效性。B5和B4相比,驗證了通過增加MASK減少在時序關系推理時的信息冗余,可以提高模型的性能。

表1 Volleyball數據集上的消融實驗結果Tab.1 Ablation results on Volleyball dataset

3.4 與各方法的對比分析

表2顯示了本文的最佳模型與各方法在Volleyball數據集上的比較結果。由表2可知,本文方法在Volleyball數據集上達到最好的表現。和HRN模型相比,雖然其模型包括個體之間的關系信息,但其方法提取空間關系未充分利用空間信息。因此,本文模型優于HRN模型。和ARG模型相比,雖然該模型充分探究了個體間空間位置和外觀關系,但在時序建模方面采用時序抽樣策略沒有完整利用時序信息,而本文模型采用了時序關系建模優化,因此本文模型優于ARG模型。

表2 各方法在Volleyball數據集上的準確率Tab.2 Accuracies of different methods on Volleyball dataset

在Collective Activity數據集上與其它先進方法進一步比較結果見表3。本文模型表現優于其它方法,達到91.24%的群體活動識別準確率。結果表明了該模型捕獲時空關系信息的有效性和通用性。

表3 各方法在Collective Activity數據集上的準確率Tab.3 Accuracies of different methods on Collective Activity dataset

3.5 數據可視化

(1)空間注意力可視化。在圖3中可視化了本文模型在Volleyball數據集上兩個空間注意頭生成注意力圖的例子。根據注意力圖,在圖像中使用紅星標出了關鍵個體。可視化結果表明本文模型能夠捕捉群體活動中關鍵關系信息。

圖3 空間注意力可視化Fig.3 Spatial attention visualization

(2)t-SNE可視化。圖4顯示了t-SNE可視化不同模型變體在Volleyball數據集上學習的視頻表示。使用t-SNE將排球數據集的驗證集上的視頻表示投射到二維空間。從圖上可以觀察到,本文的B5模型學習的群組場景表示具有較好的分離度,且全局空間注意力增強和時序掩膜優化結合,可以更好地區分群體活動。

圖4 不同變體模型視頻表示的t-SNE可視化Fig.4 t-SNE visualization of video representations of different variants of the model

4 結束語

本文提出一種靈活有效的方法對群組中個體進行時空關系推理,基于自注意力機制的時空Transformer關系網絡獲得用于群組行為識別的視頻表示。在當前流行數據集上的實驗表明,本文方法和當前優秀方法相比準確率更高。并可視化了部分網絡,可以更加了解網絡的工作原理。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲中文字幕在线观看| 国产一区成人| 国产在线观看人成激情视频| 久久一色本道亚洲| 亚洲视频色图| 国产免费人成视频网| 丁香六月综合网| 国产精品久久久久久搜索| 中文字幕调教一区二区视频| 国产精品欧美激情| 亚洲性视频网站| 亚洲一级毛片免费观看| 一本色道久久88亚洲综合| 国产swag在线观看| 中文字幕66页| 国产精品妖精视频| 色屁屁一区二区三区视频国产| 丁香婷婷久久| 日本成人一区| 亚洲AV无码乱码在线观看代蜜桃 | 亚洲AV一二三区无码AV蜜桃| 久视频免费精品6| 一级毛片在线播放免费| 国产亚洲高清视频| 欧洲高清无码在线| 99久久人妻精品免费二区| 熟妇人妻无乱码中文字幕真矢织江| 亚洲丝袜第一页| 色婷婷电影网| 日韩第九页| 欧美精品另类| 国产精欧美一区二区三区| 午夜不卡福利| 国产精品美女网站| 波多野结衣一区二区三区四区| 亚洲男人天堂网址| 国产成熟女人性满足视频| 亚洲视频二| 国产精品私拍99pans大尺度| 国产无人区一区二区三区| 亚洲天堂啪啪| 91极品美女高潮叫床在线观看| 亚洲国产中文精品va在线播放| 中日韩欧亚无码视频| 色网站在线免费观看| 人人爽人人爽人人片| 99热这里只有精品2| 亚洲午夜福利精品无码不卡| 免费人成视网站在线不卡| 国产精品七七在线播放| 无码一区18禁| 日韩 欧美 小说 综合网 另类| 5555国产在线观看| 最新国产高清在线| 色135综合网| 国产精品伦视频观看免费| 美女内射视频WWW网站午夜| 亚洲视频一区在线| 欧美不卡在线视频| 国产精品va| 国产杨幂丝袜av在线播放| 国产精品美女自慰喷水| 国产特级毛片aaaaaaa高清| 国产真实二区一区在线亚洲| 精品1区2区3区| 午夜少妇精品视频小电影| 国产成人精品男人的天堂下载 | 男女精品视频| 国产成人无码播放| 国产精品美女在线| 欧美一区精品| 中文无码精品a∨在线观看| 国产精品免费入口视频| 国产精品自在拍首页视频8| 91在线精品麻豆欧美在线| 欧美黄色网站在线看| 国产噜噜噜| 亚洲最猛黑人xxxx黑人猛交| 免费女人18毛片a级毛片视频| 亚洲色欲色欲www在线观看| 四虎永久免费网站| 亚洲床戏一区|