張?zhí)煊?,許 飛,江朝暉
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230601)
群組行為識(shí)別是指對(duì)多個(gè)個(gè)體共同參與的活動(dòng)進(jìn)行識(shí)別,具有廣泛的應(yīng)用領(lǐng)域。如:體育視頻分析、智能視頻監(jiān)控、機(jī)器人視覺(jué)等。與傳統(tǒng)個(gè)體行為識(shí)別不同的是,群組行為識(shí)別需要理解個(gè)體之間的交互關(guān)系,而個(gè)體的位置、行為以及個(gè)體之間的交互關(guān)系隨時(shí)間不斷變化。
早期的方法使用概率圖模型處理手工提取的特征。近幾年,循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)憑借其強(qiáng)大的序列信息處理能力,被許多學(xué)者用于群組行為識(shí)別。Ibrahim M S等人[1]設(shè)計(jì)了一個(gè)層次LSTM模型,其中一個(gè)LSTM提取成員個(gè)體行為動(dòng)態(tài)特征,另一個(gè)用于聚合個(gè)體層次信息作為場(chǎng)景表示,但在使用LSTM聚合個(gè)體層次信息時(shí)忽略了個(gè)體空間關(guān)系。Ibrahim M S等人[2]在之后的工作中引入一個(gè)關(guān)系層為每個(gè)人學(xué)習(xí)緊湊的關(guān)系表示,但這種關(guān)系層學(xué)習(xí)個(gè)體關(guān)系的方法不夠靈活。
為解決上述問(wèn)題,本文提出時(shí)空自注意力轉(zhuǎn)換網(wǎng)絡(luò)模型用于群組行為識(shí)別。首先使用空間自注意力轉(zhuǎn)換模塊,靈活地建模個(gè)體間的空間關(guān)系,其次使用時(shí)序自注意力轉(zhuǎn)換模塊進(jìn)行時(shí)序建模,最后將時(shí)空關(guān)系建模后的特征用于群組行為識(shí)別。
本文的主要貢獻(xiàn)是:提出了一種端到端的時(shí)空自注意力轉(zhuǎn)換模型,以及全局空間關(guān)注圖,改進(jìn)空間自注意力轉(zhuǎn)換模塊;使用時(shí)序掩膜策略,優(yōu)化時(shí)序自注意力轉(zhuǎn)換模塊。在兩個(gè)流行數(shù)據(jù)集上進(jìn)行驗(yàn)證,均取得了優(yōu)秀的表現(xiàn)?!?br>