王奪魁
(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756)
為了理解現(xiàn)實(shí)場(chǎng)景中的信息,計(jì)算機(jī)需要識(shí)別人與周圍物體的交互方式,而人物交互(human-object interaction, HOI)檢測(cè)則是實(shí)現(xiàn)以人為中心的場(chǎng)景的更高層次語(yǔ)義理解的重要關(guān)鍵技術(shù),它在視頻理解、智能監(jiān)控、人機(jī)交互等方面發(fā)揮著重要作用。HOI 檢測(cè)的目標(biāo)是得到三元組<人,交互動(dòng)作,對(duì)象>,三元組的主體是人,對(duì)象包含人和物體,主體和對(duì)象的相互作用是動(dòng)作。
HOI 檢測(cè)的輸入數(shù)據(jù)類型包括圖像和視頻兩類。圖像主要應(yīng)用于人物交互時(shí)間較短的動(dòng)作,視頻涉及到時(shí)序信息,可以基于前序特征,更有利于檢測(cè)人物交互時(shí)間較長(zhǎng)的動(dòng)作。由于現(xiàn)實(shí)生活中人物交互過(guò)程主要是視頻信息,更具有社會(huì)應(yīng)用價(jià)值,并且需要聚合分析視頻在不同時(shí)序上各實(shí)例的動(dòng)態(tài)關(guān)系,難度大,更有研究?jī)r(jià)值,因此,本文做的是基于視頻的人物交互動(dòng)作的檢測(cè)工作。
視頻中人物交互動(dòng)作的檢測(cè)方法主要?dú)w納為三類:雙流網(wǎng)絡(luò)、3D 卷積網(wǎng)絡(luò)、計(jì)算高效的網(wǎng)絡(luò)。雙流網(wǎng)絡(luò)[1]是在一個(gè)卷積網(wǎng)絡(luò)提取空間特征的基礎(chǔ)上,新增一個(gè)卷積網(wǎng)絡(luò)分支利用光流信息提取視頻中人物運(yùn)動(dòng)的時(shí)序特征,最后融合兩個(gè)分支的時(shí)空特征。雙流網(wǎng)絡(luò)能夠有效提取短期的運(yùn)動(dòng)信息,但是無(wú)法很好地捕捉長(zhǎng)期運(yùn)動(dòng)的信息,并且光流計(jì)算量大,存儲(chǔ)空間大,時(shí)間成本高,不利于大規(guī)模訓(xùn)練和實(shí)時(shí)部署。因此,后續(xù)的工作主要針對(duì)于光流的改進(jìn)或者思考提出新的解決范式—3D 卷積網(wǎng)絡(luò)。3D卷積網(wǎng)絡(luò)主要使用3D 卷積核對(duì)時(shí)間信息進(jìn)行建模。I3D[2]根據(jù)Inception[3]網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)的,將原先的卷積核和池化核增加一個(gè)時(shí)間維度進(jìn)而從2D 擴(kuò)展到3D,并且有效地將2D 網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重遷移到3D 網(wǎng)絡(luò)中。然而3D 網(wǎng)絡(luò)仍具有較大的參數(shù)量,更難訓(xùn)練和優(yōu)化。近幾年,由于基于自注意機(jī)制的Transformer 模型在計(jì)算機(jī)視覺領(lǐng)域的性能顯著提升,涌現(xiàn)出許多優(yōu)秀的相關(guān)工作,Girdhar 等[4]設(shè)計(jì)Transformer 結(jié)構(gòu)來(lái)聚合人體周圍時(shí)空上下文的特征,并構(gòu)建動(dòng)作Transformer 模塊來(lái)識(shí)別和定位視頻片段中人物的交互動(dòng)作。
本文的主要工作包括以下四點(diǎn):
(1)為了豐富特征空間,提高對(duì)交互時(shí)長(zhǎng)較短動(dòng)作的檢測(cè)能力。本文提出了雙向時(shí)序增強(qiáng)模塊,引入了雙向視頻幀特征庫(kù)和雙向交互動(dòng)作適配器,用于存儲(chǔ)前向時(shí)序和反向時(shí)序的視頻幀特征以輔助提高當(dāng)前幀的表征能力,以及正確將反向特征唯一映射到正向特征空間內(nèi)。
(2)本文構(gòu)建了多交互類型模塊,包括人與人特征融合和人與物體特征融合兩個(gè)子模塊,細(xì)化了特征融合方式,針對(duì)性地自適應(yīng)實(shí)現(xiàn)人-人交互、人-物交互的建模,提高了檢測(cè)精度,而且這兩個(gè)子模塊并行運(yùn)作,提高了檢測(cè)速率。
(3)本文引入Transformer 編碼器對(duì)多種自建模塊的輸出特征進(jìn)行融合,含有豐富的上下文信息和全局人物位置信息,提高了檢測(cè)精度。
(4)本文模型在處理過(guò)的公開視頻數(shù)據(jù)集AVA-HOI 上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明本文方法的交互動(dòng)作檢測(cè)準(zhǔn)確度高于多個(gè)主流的模型,mAP@0.5IoU 為25.81%,較TubeR 方法[5]提升了1.29個(gè)百分點(diǎn)。證明了本文模型可以完成視頻中人物交互行為檢測(cè)任務(wù),具有不錯(cuò)的性能表現(xiàn)。
本文設(shè)計(jì)的總體網(wǎng)絡(luò)模型如圖1 所示,該模型主要包括三大部分:雙向時(shí)序增強(qiáng)模塊、多交互類型建模模塊、多頭注意力特征融合模塊。雙向時(shí)序增強(qiáng)模塊包括雙向視頻幀特征庫(kù)和雙向交互動(dòng)作適配器,這兩個(gè)子模塊是串聯(lián)起來(lái)的。多交互類型建模模塊包括人與人交互建模H-H 和人與物交互建模H-O,這兩個(gè)子模塊是并行處理的。
網(wǎng)絡(luò)模型的輸入可能含有人物交互行為的視頻片段中的關(guān)鍵幀,視頻幀的大小會(huì)調(diào)整成464 × 464,將視頻幀輸入到目標(biāo)檢測(cè)器和特征提取器分別獲取人體框和物體框以及特征圖,經(jīng)過(guò)ROI 將特征圖和目標(biāo)框進(jìn)行對(duì)齊得到準(zhǔn)確匹配的當(dāng)前幀的特征圖。該特征圖經(jīng)過(guò)兩個(gè)并行的處理操作:一是輸入到視頻幀序列長(zhǎng)度為64幀的雙向視頻幀特征庫(kù)中的前向特征存儲(chǔ)庫(kù),經(jīng)內(nèi)置的反向算法得到反向特征圖序列并實(shí)現(xiàn)雙向特征圖的張量拼接,通過(guò)雙向交互動(dòng)作適配器完成反向時(shí)序特征與前向時(shí)序特征的唯一映射;二是從整個(gè)特征圖中拆解出人體特征圖Ht和物體特征圖Ot,以及經(jīng)過(guò)mask 掩碼機(jī)制獲取到的空間位置特征St。然后將Ht和Ot輸入到多交互類型建模模塊得到融合后的特征HHt和HOt。再引入Transformer編碼器對(duì)上述多種自建模塊的輸出特征進(jìn)行融合,得到豐富的上下文信息和全局信息。最后輸入到人物交互分類器中進(jìn)行判別,即可輸出當(dāng)前視頻幀中含有的人物交互動(dòng)作類別。

圖1 總體網(wǎng)絡(luò)模型框架
在視頻中,人和物體的位置會(huì)隨著時(shí)間而發(fā)生移動(dòng),當(dāng)前視頻幀中的人物交互動(dòng)作會(huì)與前后幀之間存在時(shí)序上的關(guān)聯(lián)性,因此,模型在檢測(cè)當(dāng)前幀中的交互動(dòng)作類別時(shí)需要考慮到相鄰幀的特征以提高檢測(cè)精度。通常情況下,一個(gè)物體從a點(diǎn)運(yùn)動(dòng)到b點(diǎn),從相反角度可看成從b點(diǎn)運(yùn)動(dòng)到a點(diǎn)。借鑒這種思想,沿著時(shí)間順序進(jìn)行的交互動(dòng)作也可看成逆時(shí)間順序的交互動(dòng)作,以達(dá)到為視頻幀中的人和物體構(gòu)造出具有互補(bǔ)信息的時(shí)間運(yùn)動(dòng)軌跡信息。只要把反向的交互動(dòng)作正確映射到正向的交互動(dòng)作上,即實(shí)現(xiàn)雙向動(dòng)作匹配,便可以豐富視頻幀特征,將同一交互動(dòng)作的人物特征圖擴(kuò)充為原先的2倍,實(shí)現(xiàn)特征增強(qiáng),該模塊有利于提高對(duì)交互時(shí)間較短的動(dòng)作的檢測(cè)能力。
基于以上思考,本文首先構(gòu)建了雙向視頻幀特征庫(kù),用于存儲(chǔ)一定數(shù)量(本文設(shè)定的是64幀)的視頻幀的特征圖,并內(nèi)置了反向置換算法,將傳入的正向視頻幀逆向存儲(chǔ),因提前進(jìn)行了反向處理,則在模型訓(xùn)練過(guò)程可以直接加載反向視頻幀特征,以空間換時(shí)間的思想提高模型的訓(xùn)練速度。
雙向視頻幀特征庫(kù)的寫入和更新算法的主要步驟如下:
(1)模型數(shù)據(jù)加載器一次讀取指定幀數(shù)N的視頻幀送入網(wǎng)絡(luò)模型中,經(jīng)特征提取器和目標(biāo)檢測(cè)器之后進(jìn)行ROI 對(duì)齊獲取到當(dāng)前幀序列的特征圖,按照順序依次存儲(chǔ)到雙向視頻幀特征庫(kù)的前向特征內(nèi)存池(forward-feature memory pool,F(xiàn)FMP)中,并且按照次序給每一視頻幀特征圖標(biāo)記為
其中Ft表示當(dāng)前檢測(cè)的視頻幀。
(2)當(dāng)檢測(cè)到有新的視頻幀特征圖輸入到特征庫(kù)時(shí),則觸發(fā)反向置換算法,該算法將按照逆序依次存儲(chǔ)到反向特征內(nèi)存池(backwardfeature memory pool,BFMP)中,視頻幀特征圖序列標(biāo)記為
(3)因?yàn)樘卣鲙?kù)的長(zhǎng)度設(shè)置成64 幀,即最多只能存儲(chǔ)64 幀的時(shí)序特征圖,所以后續(xù)輸入的特征圖將采用滑動(dòng)窗口的機(jī)制,丟棄舊幀以替換成新幀的特征圖,始終保持特征庫(kù)中含有最新的特征圖。
雙向視頻幀特征庫(kù)的讀取算法的主要步驟如下:
(1)從特征庫(kù)中讀取當(dāng)前幀的相鄰m區(qū)間內(nèi)的視頻幀特征,組成前向時(shí)序特征序列FFm和反向時(shí)序特征序列BFm,見公式(3):
(2)雙向時(shí)序特征拼接:相鄰區(qū)間內(nèi)關(guān)鍵幀與當(dāng)前關(guān)鍵幀F(xiàn)t的距離遠(yuǎn)近意味著時(shí)序上的相關(guān)性程度,距離越近,則相關(guān)性越強(qiáng),越有助于當(dāng)前幀中交互動(dòng)作的檢測(cè)。因此,引入反距離加權(quán)函數(shù)來(lái)賦予其他關(guān)鍵幀對(duì)當(dāng)前幀的權(quán)重值,進(jìn)而確定在拼接后的特征中不同關(guān)鍵幀的影響程度。定義當(dāng)前幀F(xiàn)t在[t-m,t+m]區(qū)間內(nèi)每個(gè)關(guān)鍵幀F(xiàn)i對(duì)其影響權(quán)重值為Wi,則采用反距離加權(quán)函數(shù)可表示為
將特征庫(kù)中區(qū)間內(nèi)的正向時(shí)序特征和反向時(shí)序特征在時(shí)間序列上進(jìn)行張量的拼接,拼接后的特征分別為FFconcat和BFconcat,則表示如下:
因?yàn)槠唇雍蟮奶卣魍ǖ谰S度會(huì)增加,需要降維到與拼接前當(dāng)前幀特征相同的形狀,所以將FFconcat和BFconcat經(jīng)過(guò)3D 卷積和池化操作實(shí)現(xiàn)形狀的匹配,表示如下:
雙向時(shí)序特征拼接的過(guò)程如圖2所示。

圖2 雙向時(shí)序特征序列拼接
在設(shè)計(jì)雙向交互動(dòng)作適配器時(shí),還需要考慮到兩兩交互動(dòng)作類別之間是否與時(shí)序強(qiáng)相關(guān)的,避免由于某個(gè)交互動(dòng)作的反向特征與其他交互動(dòng)作的正向特征相似而產(chǎn)生的干擾。例如“開門”和“關(guān)門”是兩個(gè)相反的交互動(dòng)作,“開門”經(jīng)過(guò)反向特征置換后與“關(guān)門”的行為是相同的,因此需要制定一種策略使其產(chǎn)生的虛擬“關(guān)門”特征歸屬于“開門”類別,而不能錯(cuò)誤地歸類于實(shí)質(zhì)性的“關(guān)門”。
因此,在雙向交互動(dòng)作適配器中為每個(gè)交互動(dòng)作分配唯一的ID,將反向交互動(dòng)作綁定到對(duì)應(yīng)的正向交互動(dòng)作。根據(jù)其ID 便可將模型在反向特征空間內(nèi)檢測(cè)到的結(jié)果映射到正向特征空間,增強(qiáng)特征的表達(dá)能力,提高交互動(dòng)作檢測(cè)精度。
視頻幀經(jīng)過(guò)目標(biāo)檢測(cè)器和特征提取器后進(jìn)行ROI 對(duì)齊后,則會(huì)得到當(dāng)前幀的特征圖。以前大多數(shù)工作是直接使用這個(gè)特征圖經(jīng)過(guò)某些處理操作完成人物交互動(dòng)作的檢測(cè),這種特征圖的使用方式相對(duì)粗糙,沒有針對(duì)性,并且當(dāng)特征圖中僅有人的情況時(shí)不能較好地表征,檢測(cè)效果較弱。本文針對(duì)上述問(wèn)題并借鑒了Tang等[6]的交互模型思想,構(gòu)建了多交互類型模塊,該模塊包括兩個(gè)類似的子模塊:人與人特征融合模塊和人與物體特征融合模塊,記作H-H 和H-O。
多交互類型模塊首先根據(jù)特征圖中檢測(cè)框的類別,提取出人體特征Ht和物體的特征Ot。并且采用mask掩碼機(jī)制提取到空間位置特征St,即將含有人物目標(biāo)的特征像素賦值為二進(jìn)制的1,而其他位置賦值為0。H-H 模塊針對(duì)人與人之間的交互進(jìn)行自適應(yīng)的建模,查詢、鍵以及值的輸入都是人的特征Ht,經(jīng)過(guò)Linear 層、點(diǎn)積、Scale、Softmax 層、LayerNorm 層實(shí)現(xiàn)特征的融合,輸出增強(qiáng)后的特征HHt。H-O 模塊則針對(duì)人與物體之間的交互進(jìn)行自適應(yīng)的建模,查詢是人的特征Ht,而鍵和值是物體的特征Ot,通過(guò)與上述相同的處理操作完成特征的融合,輸出增強(qiáng)后的特征HOt。這兩個(gè)子模塊是并行運(yùn)作的,最后將HHt與HOt合并后輸入到Transformer編碼器模塊中。
本文模型采用含有多頭注意力機(jī)制的Transformer 編碼器[7]對(duì)其他模塊生成的特征進(jìn)行編碼增強(qiáng),包括雙向時(shí)序特征、多交互類型特征以及人物空間位置特征。編碼后的特征含有豐富的上下文信息以及全局信息。為了進(jìn)一步提高交互動(dòng)作的檢測(cè)精度,這里引入了N個(gè)Transformer編碼器,多次編碼會(huì)使得特征的表征能力更強(qiáng),最后將其輸入到人物交互分類器中,選擇置信度大于指定閾值的交互動(dòng)作類別作為當(dāng)前幀的結(jié)果輸出。
實(shí)驗(yàn)硬件和軟件環(huán)境參數(shù)見表1。

表1 實(shí)驗(yàn)軟硬件環(huán)境
每次迭代輸入骨干網(wǎng)絡(luò)中視頻幀數(shù)為64 幀關(guān)鍵幀,4 個(gè)數(shù)據(jù)加載進(jìn)程,初始學(xué)習(xí)率為0.0004,學(xué)習(xí)率偏置因子是2,優(yōu)化器采用隨機(jī)梯度下降算法SGD,權(quán)重衰減值是1e-7,衰減步長(zhǎng)位于(105000, 135000),最大迭代次數(shù)為165000,迭代次數(shù)前2000送入模型預(yù)熱調(diào)度器。模型訓(xùn)練階段選擇4張顯存為11 GB 的RTX2080 Ti顯卡進(jìn)行分布式訓(xùn)練,總共批量大小為8,即每張顯卡每次訓(xùn)練2個(gè)短視頻。候選框的閾值設(shè)定為0.8,網(wǎng)絡(luò)模型的Dropout值為0.2。輸入視頻幀的尺寸最小為256,最大為464。輸入數(shù)據(jù)增強(qiáng)包括旋轉(zhuǎn)、縮放和顏色抖動(dòng)。
實(shí)驗(yàn)數(shù)據(jù)集基于時(shí)空動(dòng)作檢測(cè)常用的AVA數(shù)據(jù)集[8]進(jìn)行改造,因?yàn)楸疚难芯康氖侨宋锝换?dòng)作的檢測(cè),所以刪除了前14 個(gè)單人姿勢(shì)動(dòng)作的標(biāo)簽,并且對(duì)相關(guān)標(biāo)注文件進(jìn)行了處理,提出了名為AVA-HOI 數(shù)據(jù)集。AVA-HOI 共有299 個(gè)標(biāo)注時(shí)長(zhǎng)為15 分鐘的視頻片段,其中235個(gè)作為訓(xùn)練視頻,64 個(gè)作為驗(yàn)證視頻。AVAHOI 具有66 種常見的人物交互動(dòng)作標(biāo)簽,標(biāo)注數(shù)量多達(dá)67 萬(wàn),涵蓋人與人的交互動(dòng)作和人與物體的交互動(dòng)作。
采用人物交互動(dòng)作檢測(cè)通用的mAP(mean average precision)@0.5IoU 作為評(píng)價(jià)指標(biāo),mAP表示模型在所有人物交互動(dòng)作上的檢測(cè)性能,mAP值越高表示檢測(cè)準(zhǔn)確率越高。mAP@0.5IoU的計(jì)算公式如下:
其中,HOI-C 表示AVA-HOI 的某個(gè)交互動(dòng)作類別,N(HOI-C)表示所有交互動(dòng)作類別總數(shù),表示某個(gè)交互動(dòng)作類別的檢測(cè)準(zhǔn)確率,計(jì)算公式如下:
其中:TP(true positive)表示正確預(yù)測(cè)的樣本數(shù)目,F(xiàn)P(false positive)表示錯(cuò)誤預(yù)測(cè)的樣本數(shù)目。
為了驗(yàn)證本文提出的算法模型的有效性及性能表現(xiàn),將本文方法與其他主流方法都在AVA-HOI 數(shù)據(jù)集上進(jìn)行了模型訓(xùn)練和測(cè)試,同時(shí),實(shí)驗(yàn)方法都采用參數(shù)量和計(jì)算量相近的骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。

表2 本文方法與其他主流方法的對(duì)比結(jié)果
通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,可知本文網(wǎng)絡(luò)框架模型較主流方法都有一定的提升,mAP@0.5IoU 為25.81%,較TubeR 方法提升了1.29 個(gè)百分點(diǎn)。原因是采用了雙向時(shí)序增強(qiáng)模塊,引入了反向特征及對(duì)應(yīng)的雙向動(dòng)作適配器,將同一人物交互動(dòng)作的特征圖擴(kuò)充到原先的2 倍,提高了模型訓(xùn)練過(guò)程中人物特征圖的表達(dá)能力,并且這一處理可以增加對(duì)人物交互時(shí)長(zhǎng)較短的動(dòng)作的識(shí)別能力,同時(shí)應(yīng)用了雙向視頻幀特征庫(kù),在檢測(cè)當(dāng)前幀的交互動(dòng)作類別時(shí)可以很好地參考前后幀的特征,利用到了視頻中交互動(dòng)作會(huì)存在時(shí)序相關(guān)性。此外,模型采用了多交互類型建模機(jī)制,分別針對(duì)人與人交互和人與物交互單獨(dú)進(jìn)行特征融合,提高了檢測(cè)精度和速度。最后引入Transformer 編碼器對(duì)空間位置特征、多交互類型融合特征、雙向時(shí)序增強(qiáng)特征進(jìn)行融合,生成最佳的人物交互特征送入人物交互分類器進(jìn)行判別。該對(duì)比實(shí)驗(yàn)證明了本文模型的有效性,性能表現(xiàn)不錯(cuò)。
此外,將基線模型和本文模型在AVA-HOI驗(yàn)證集上每個(gè)人物交互類別的AP@0.5IoU 結(jié)果進(jìn)行對(duì)比,結(jié)果如圖3所示。
通過(guò)圖3所示,可知本文模型相比基線模型在各個(gè)人物交互類別上都有所提升。對(duì)于不同的交互動(dòng)作類別,AP@0.5IoU 的相差較大,存在明顯的長(zhǎng)尾分布,部分交互動(dòng)作的AP@0.5IoU 較小是因?yàn)榻换ルp方實(shí)體不明顯、交互尺度差異大、交互存在遮擋以及交互行為弱依賴于時(shí)序關(guān)系。
為了確定本文模型的流程和訓(xùn)練過(guò)程是否正確,對(duì)經(jīng)過(guò)多頭注意力融合后的特征進(jìn)行可視化,結(jié)果如圖4所示。
圖4 中第一行是視頻幀,第二行是注意力圖可視化的結(jié)果,第三行是對(duì)應(yīng)的交互類別。由圖4分析可得以下三點(diǎn):
(1)多交互類型建模效果不錯(cuò),只關(guān)注存在交互行為的區(qū)域。
該模型適用于人和人之間的交互、人和物體之間的交互。見圖4 中的“舉杯”“抽煙”和“看電視”是人與物體間的交互,而“擁抱”是人與人之間的交互。針對(duì)于多人多物體等復(fù)雜場(chǎng)景,模型只關(guān)注真正存在交互行為的區(qū)域,如圖4第4列“擁抱(多人)”只關(guān)注到了存在擁抱行為的三個(gè)人,而不會(huì)將其他無(wú)關(guān)人員和物體的特征輸入到人物交互分類器中導(dǎo)致檢測(cè)干擾。
(2)本文模型也可以識(shí)別到非接觸式的交互行為。

圖3 基線模型和本文模型在AVA-HOI驗(yàn)證集上每個(gè)交互類別的結(jié)果

圖4 注意力圖可視化
非接觸式的交互行為的識(shí)別是業(yè)界的研究難點(diǎn)之一,雖然本文并沒有針對(duì)此點(diǎn)進(jìn)行深入研究,但模型仍可以較好地檢測(cè)出來(lái),原因是本文使用了掩碼機(jī)制對(duì)視頻幀中的人物的空間位置特征進(jìn)行表征,并輸入到多頭注意力模塊中進(jìn)行特征融合,因此考慮到了全局空間特征和人物之間的空間關(guān)系。見圖4 第5 列“看電視”,在視覺特征上人與電視并沒有接觸,但在空間關(guān)系上是存在實(shí)質(zhì)性的交互行為的,本文模型針對(duì)這種類型的交互也可以檢測(cè)出來(lái)。
(3)多頭注意力融合后的特征是有效的,進(jìn)而證明了本文網(wǎng)絡(luò)模型可以很好地完成視頻中人物交互行為檢測(cè)任務(wù)。
多頭注意力機(jī)制融合了模型處理過(guò)程中生成的多交互類型建模特征、空間位置特征以及雙向時(shí)序增強(qiáng)后的特征,這是輸入到人物交互分類器的最后一步。因此,如果融合后的特征是有效表征的,則說(shuō)明本文網(wǎng)絡(luò)模型的整個(gè)過(guò)程中涉及到的模塊都是有效且相互促進(jìn)的,整體是可以完成人物交互行為檢測(cè)任務(wù)的,而通過(guò)圖4 針對(duì)于融合后的特征進(jìn)行可視化正是驗(yàn)證了這一點(diǎn)的有效性。
為了驗(yàn)證本文提出的網(wǎng)絡(luò)模型中各模塊的有效性,使用同一個(gè)基準(zhǔn)模型,設(shè)計(jì)了多組消融實(shí)驗(yàn),結(jié)果見表3。

表3 模型中各模塊消融實(shí)驗(yàn)結(jié)果
由表3 可得,通過(guò)在基線模型上分別單獨(dú)添加雙向時(shí)序增強(qiáng)模塊、多交互類型建模模塊、多頭注意力特征融合模塊效果都是有提升的,提升約1.8個(gè)百分點(diǎn)。若同時(shí)引入其中的兩種模塊則可以提高約2 個(gè)百分點(diǎn),說(shuō)明這些模塊兩兩間是相互促進(jìn)的,并不會(huì)抑制干擾。若將三種模塊同時(shí)使用,則效果最佳,性能為25.81%,提升約2.8個(gè)百分點(diǎn),這也是本文所采用的最終的模型架構(gòu)。因此,通過(guò)上述消融實(shí)驗(yàn),可以得到本文模型使用的各模塊都是有效的,對(duì)人物交互檢測(cè)任務(wù)都存在促進(jìn)作用,相互間不存在干擾。
本文采用了多頭注意力Transformer 編碼器進(jìn)行特征的融合,為了確定合適的特征融合次數(shù),進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

表4 多頭注意力融合消融實(shí)驗(yàn)結(jié)果
其中,N是圖1中Transformer 編碼器的數(shù)目,經(jīng)實(shí)驗(yàn)可得多次進(jìn)行特征融合可以增強(qiáng)人物交互動(dòng)作識(shí)別的準(zhǔn)確度,當(dāng)融合次數(shù)為3 時(shí),性能最佳為25.81%,相較于單個(gè)多頭注意力融合提升了0.95 個(gè)百分點(diǎn),這是因?yàn)楫?dāng)?shù)谝淮芜M(jìn)行特征融合后,可能無(wú)法準(zhǔn)確推斷出交互動(dòng)作類別,但在第二次或更多次特征融合時(shí),已經(jīng)對(duì)上次的多交互類型特征、人物空間位置特征和雙向動(dòng)作時(shí)序特征進(jìn)行了融合,交互信息得到了增強(qiáng),進(jìn)而提高了交互動(dòng)作的檢測(cè)能力。此外,并不是融合次數(shù)越高,模型性能越好,原因是更多的融合次數(shù)會(huì)引入更多的網(wǎng)絡(luò)參數(shù),增大計(jì)算成本,降低模型的訓(xùn)練速度,可能引起過(guò)擬合而導(dǎo)致性能下降。
本文針對(duì)視頻中人物交互動(dòng)作的檢測(cè)任務(wù)進(jìn)行研究,交互動(dòng)作在時(shí)序上存在關(guān)聯(lián)性,因此,本文設(shè)計(jì)了雙向時(shí)序增強(qiáng)模塊以存儲(chǔ)時(shí)序特征并進(jìn)行唯一映射,豐富了視頻幀的特征空間,解決了交互時(shí)長(zhǎng)較短的動(dòng)作的檢測(cè)效果差的問(wèn)題。此外,構(gòu)建了多交互類型模塊以針對(duì)性的自適應(yīng)實(shí)現(xiàn)人與人交互和人與物交互的建模,提高了檢測(cè)精度和速率。還引入了Transformer編碼器對(duì)特征進(jìn)行融合增強(qiáng),提高檢測(cè)精度,并且具有全局性人物關(guān)系位置信息,解決了非接觸式的交互動(dòng)作的識(shí)別問(wèn)題。最后通過(guò)多組對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)證明了模型的有效性并且有較大的性能提升。該研究可對(duì)監(jiān)控視頻下人物交互行為進(jìn)行智能化檢測(cè),提高安防水平,達(dá)到實(shí)際應(yīng)用價(jià)值。