張天雨,許 飛,江朝暉
(合肥工業大學 計算機與信息學院,合肥230601)
群組行為識別是指對多個個體共同參與的活動進行識別,具有廣泛的應用領域。如:體育視頻分析、智能視頻監控、機器人視覺等。與傳統個體行為識別不同的是,群組行為識別需要理解個體之間的交互關系,而個體的位置、行為以及個體之間的交互關系隨時間不斷變化。
早期的方法使用概率圖模型處理手工提取的特征。近幾年,循環卷積神經網絡(Recurrent Neural Network,RNN)和長短時記憶網絡(Long Short-Term Memory,LSTM)憑借其強大的序列信息處理能力,被許多學者用于群組行為識別。Ibrahim M S等人[1]設計了一個層次LSTM模型,其中一個LSTM提取成員個體行為動態特征,另一個用于聚合個體層次信息作為場景表示,但在使用LSTM聚合個體層次信息時忽略了個體空間關系。Ibrahim M S等人[2]在之后的工作中引入一個關系層為每個人學習緊湊的關系表示,但這種關系層學習個體關系的方法不夠靈活。
為解決上述問題,本文提出時空自注意力轉換網絡模型用于群組行為識別。首先使用空間自注意力轉換模塊,靈活地建模個體間的空間關系,其次使用時序自注意力轉換模塊進行時序建模,最后將時空關系建模后的特征用于群組行為識別。
本文的主要貢獻是:提出了一種端到端的時空自注意力轉換模型,以及全局空間關注圖,改進空間自注意力轉換模塊;使用時序掩膜策略,優化時序自注意力轉換模塊。在兩個流行數據集上進行驗證,均取得了優秀的表現。……