Conditional HOTR:基于Transformer的人物交互檢測

2023-08-15 02:02:04張詩凡葉海波

計算機技術與發展 2023年8期

張詩凡,葉海波

(南京航空航天大學計算機科學與技術學院,江蘇南京 211106)

0 引言

人物交互檢測(HOI)是一項視覺關系檢測任務,旨在將一幅圖片中所有具有交互關系的人和物體成功配對,識別出人和物體的位置和類別,以及交互動作的類別,以幫助更好地理解場景。這可以表示為檢測一組<人,動作,物>的HOI三元組。

目前主要有兩類HOI檢測方法,一類是順序HOI檢測,也叫做兩階段方法,另一類是并行檢測,即一階段方法。兩階段方法將HOI檢測任務解耦為目標檢測任務和交互分類任務,可想而知這種方法比較耗時、昂貴。在一階段方法中,人類通過先驗知識預先定義交互檢測的規則,有些工作借助交互點[1-2]、交互框[3]來定位交互關系。因為目標檢測可以和交互分類并行,所以這類一階段方法更加高效,但它們仍然需要手工后處理階段來對匹配規則進行匹配。

最近,因為NLP領域transformer[4]的火熱應用,以及受到一些將transformer運用到CV領域的工作——如DETR的啟發和影響,一些基于transformer的端到端HOI檢測算法被提出。如DETR[5]一樣,它們將HOI檢測看作是一個集合預測問題,因此消除了對額外的手工后處理階段的需要。利用transformer強大的建模能力,它們提取圖片的全局信息,transformer的解碼器通過交叉注意力模塊中的query來查詢與交互相關的特征,之后解碼器的輸出結果通過檢測頭,以端到端的方式得到HOI關系。這些方法解決了一階段算法的問題,即不需要手工后處理而是直接端到端檢測,取得了較好的效果,但仍然面臨新的挑戰。

在目標檢測領域,DETR[5]和Conditional DETR[6]模型都利用transformer來實現端到端的目標檢測,它們發現,在transformer的交叉注意力模塊中,內容嵌入起主要作用,而位置嵌入對mAP的貢獻很小。然而,交叉注意力的內容嵌入必須同時匹配key的內容嵌入和位置嵌入,并且其所定位的區域對于檢測物體的位置和類別非常重要,因此高質量的內容嵌入是非常必要的。因此,筆者認為在基于transformer的HOI領域,同樣需要高質量的內容嵌入來識別和定位,要減少對內容嵌入的依賴。

受Conditional DETR[6]的啟發,針對交叉注意力層,該文提出了條件交互查詢,它作為位置嵌入縮小了搜索范圍以幫助顯式地定位與交互相關的區域。這樣,對于內容嵌入方面的要求便沒那么高了,因為它可以更專注于內容方面來進行識別,而定位則交由條件交互查詢。雖然HOI檢測任務與目標檢測任務類似,但兩者存在一定的差異。HOI檢測的關鍵是正確匹配人物對,而不僅僅是檢測物體實例,因此需要根據HOI檢測任務的特點來設計條件交互查詢。該文實現了基于HOTR[7](一種基于transformer的HOI檢測模型)的條件交互查詢。與Conditional DETR不同的是,通過交互query來預測生成人和物體的參考點,以此來表示人和物體在交互中的位置,并且讓它們參與檢測頭的最終預測過程。

然后,根據設計的公式由人和物體參考點生成交互參考點,可以理解這些交互參考點定位了與交互相關的區域。對于設計條件交互查詢,包含了兩部分內容:交互參考點和當前解碼器的輸出,因為它們都包含了與定位相關的信息,所以要將這些信息都考慮進去。將該模型稱為Conditional HOTR,它改進了transformer的注意力機制,以便更好地適應HOI檢測任務。與基線方法HOTR對比,Conditional HOTR的mAP在V-COCO上提高了2.13百分點,在HICO-DET上提高了8.33百分點,并且在V-COCO數據集上精度達到了目前最優。

1 相關工作

1.1 傳統人物交互檢測

傳統人物交互檢測算法可以劃分為兩階段和一階段方法。

1.1.1 兩階段HOI檢測

在兩階段方法中[8-21],首先會執行目標檢測任務,預訓練的目標檢測器首先檢測人和物體的邊框及其對應的類別,然后將所有檢測出的人和物體兩兩組合配對,將所有成對的組合傳入一個單獨的神經網絡進行訓練和交互分類。一些工作利用人類姿態[9,14,17,20]來檢測HOI關系,這有助于細粒度交互類別的檢測。還有一些工作提出了以實例為中心[11,18]的注意力機制、面向動作[15]的關系推理網絡進行HOI檢測。ACP[13]的目的是解決HOI的長尾分布問題。還有一些方法用圖結構表示HOI關系[10,16,19]。還有方法[21]基于關系推理的交互實例推薦網絡來進行HOI檢測。

1.1.2 一階段HOI檢測

由于兩階段方法受到其冗余推理結構的限制,一些工作提出了一階段方法,它意味著交互分類檢測可以與目標檢測并行,而無需再等待其結果才能進入下一階段。在這些方法中,設計一個合理的匹配模式是將目標檢測與交互檢測結果匹配的關鍵。IPNet、PPDM[1-2]將HOI檢測視為交互點檢測問題,通過將目標檢測器檢測到的人和物體與交互點關聯來完成匹配。除交互點外,Uniondet[3]將人與物體的聯合框看作是交互區域來定位交互。由于不需要訓練全部的人物組合對,一階段方法的時間復雜度得到了很大程度的降低,但是它們仍然需要為HOI檢測手工設計匹配策略。

1.2 基于transformer的人物交互檢測

隨著transformer在NLP領域的廣泛應用,它最近也被用來解決計算機視覺領域的一些任務,如目標檢測。transformer擅長捕捉遠距離依賴關系,這正是HOI檢測所需要的,transformer幫助聚合圖片中的全局上下文信息。

作為目標檢測領域的一項創新性工作,DETR[5]利用transformer以端到端的方式來檢測物體,許多工作[7,22-24]都受其啟發,并將其改進為HOI檢測器以簡化檢測管道。這些方法將HOI檢測視為一個集合預測問題,并通過匈牙利算法執行二部匹配來將預測結果和真實值進行一一對應,然后根據匹配的結果計算損失。QPIC[24]設計了query,每個query最多可以捕獲一個人物對,所以即使不同HOI關系的實例距離很近,也可以單獨提取每個HOI實例的特征。CDN[22]在分析和總結一階段和兩階段HOI檢測方法優缺點的基礎上,提出了一種新的方法,即以級聯的方式分離目標檢測和交互分類。HOTR[7]為HOI檢測設計了一個共享編碼器和兩個并行解碼器,分別是實例解碼器和交互解碼器。

1.3 CV領域對于transformer的改進

隨著transformer在CV領域的廣泛應用,許多研究不再僅僅滿足于transformer的基本結構,因為圖像的注意力權重計算量很大,而且一些基于transformer的工作的訓練收斂速度較慢。在目標檢測領域,對于DETR進行改進的一些工作[6,25-26]致力于解決上述transformer的問題。Deformable DETR[26]提出了一種新的注意力模塊,它只關注目標物體參考點周圍少量的關鍵采樣點,而不是所有像素點。SMCA[25]通過預測物體區域的高斯映射,加快了檢測的收斂速度。Conditional DETR[6]提出了條件位置嵌入,它可以明確地定位物體的邊緣,縮小搜索的范圍,從而解決檢測依賴高質量內容嵌入的問題。

而在HOI檢測領域,尚未有研究考慮transformer結構的缺點,受Conditional DETR[6]的啟發,設計了條件交互查詢,以改進transformer的結構更好地用于HOI檢測。

2 文中方法

2.1 概述

在本節中,詳細了介紹基于改進transformer結構的HOI檢測方法,幫助顯式定位與交互相關的區域并縮小搜索范圍。該方法的整體實現框架如圖1所示(其中虛線框即為圖2所示的條件交互查詢的生成方法)。

圖1 Conditional HOTR整體框圖

圖2 條件交互查詢pq的生成

Conditional DETR[6]認為解碼器中的自注意力模塊的主要功能類似于非極大值抑制(NMS),它不涉及查詢交互區域,所以只在交叉注意力模塊中設計了條件交互查詢。設計條件交互查詢如圖2所示。

2.2 相關知識回顧

2.2.1 HOTR

HOTR[7]是基于transformer的HOI檢測模型,它主要由四個部分組成:骨干網絡、transformer結構、檢測頭和組合配對。首先CNN網絡提取圖片特征,接著將這些特征與映射到正弦編碼空間的位置編碼相加,結果輸入transformer結構,做進一步的特征增強。transformer結構由一個共享的編碼器和兩個并行解碼器構成,其中一個是負責生成實例表示的實例解碼器,一個是交互解碼器,它負責生成交互表示信息。只在交互解碼器上應用條件交互查詢,因為在實例解碼器上進行目標檢測的改進是Conditional DETR所做的工作。實例解碼器的檢測頭預測物體的邊框和類別,而交互解碼器的檢測頭負責預測人指針表示、物指針表示和交互類別,而不是直接回歸人和物體的邊界框。在最后的組合配對部分,對于之前得到的human指針表示和object指針表示,分別尋找與其相似度最高的實例表示(實例表示即實例解碼器的輸出結果),找到的索引即為相應的human指針和object指針,通過這種方法將具有HOI關系的人物進行匹配,完成HOI檢測。

人和物的指針表示向量定義為:

(1)

(2)

其中,fi表示解碼器輸出的第i個交互表示,給定N個interaction query則得到N個交互表示。

2.2.2 Conditional DETR

為了解決DETR訓練收斂速度慢的問題,Conditional DETR提出了條件交叉注意力機制,通過條件位置查詢嵌入直接尋找物體的邊緣區域,以此來縮小搜索物體的范圍。簡要介紹下它是如何生成條件位置查詢的。

Conditional DETR是基于解碼器嵌入f(即當前解碼器層的輸出)以及參考點信息s(由object query生成,有多少個query就生成多少個參考點,代表了每個query所定位的區域)這兩部分信息來進行邊框預測的。因此,Conditional DETR認為,條件位置查詢的生成也應該考慮這兩部分,因為它們包含了與位置相關的信息。即,條件位置查詢pq:

(s,f)→pq

(3)

2.3 檢測頭

檢測頭部分內容見圖1。對于交互解碼器,最終的檢測頭不直接回歸人和物體的邊框,而是像HOTR一樣,預測human指針和object指針的表示,回歸實例邊框的部分由實例解碼器完成。為Conditional HOTR設計了一種新的預測方法來生成指針表示信息:

(4)

(5)

其中,f表示解碼器嵌入,即當前解碼器層的輸出,h_reference_point和o_reference_point是human參考點和object參考點,它們是由interaction query經過兩層MLP預測得到的2D坐標,并且N個interaction query分別生成N個human參考點和N個object參考點。這些坐標用于表示人和物體的參考位置。FFN{h,o}1由三層MLP組成,作用于解碼器嵌入f得到初步的human指針表示和object指針表示。這正是公式(1)和(2)所表示的。然后,通過FFN{h,o}2將human參考點和object參考點映射到與FFN{h,o}1(f)相同的維度(設置為256),并且將兩者的結果相加。normalize意味著對結果進行L2標準化操作。

對于動作類別預測,則保持不變。

a=FFNa(f)

(6)

2.4 條件交互查詢設計

提出的條件交互查詢有助于交互解碼器的交叉注意力模塊定位交互相關區域,因此在設計它時,考慮所有與位置相關的組件。在2.3節中,詳細描述了Conditional HOTR的檢測頭,它利用解碼器嵌入f以及人和物的參考點來預測得到人和物體的指針表示。由于指針表示不僅包含實例的類別信息,還包含了位置信息,因此在設計條件交互查詢時,將這兩部分考慮在內,即f以及人和物體的參考點。

那么,如何利用人和物體的參考點呢?根據HOI檢測的特點,設計了公式,使用人和物體參考點來計算出交互參考點,定義交互點位于人和物體的參考點中間連線上,這也符合真實世界的邏輯。交互參考點a可以表示為:

(7)

ratio是一個超參數,它的值應該在[0,1]之間。不同的交互點定位不同的HOI三元組。使用交互點生成條件交互查詢有助于顯式地定位與交互相關的區域。

然后,遵循Conditional DETR的步驟,將pointa映射到256維的正弦編碼空間,使得它與key的位置嵌入編碼方式保持一致:

ps=sinusoidal(pointa)

(8)

對于另一個包含位置相關信息的成分:解碼器嵌入f,還遵循Conditional DETR的操作,即f通過一個兩層的MLP,形成可學習的轉換T。因此,最終的條件交互查詢pq的組成是:

pq=Tps

(9)

最終,pq(即位置查詢嵌入)與自注意力層的輸出(即內容查詢嵌入)相加作為交叉注意力模塊的query,參與最后的注意力計算,即,query與key進行點乘得到注意力權重。

3 實驗

為了證明Conditional HOTR是有效的,在本節中展示了比較全面的實驗。

3.1 數據集和評估指標

3.1.1 數據集

在HICO-DET[8]和V-COCO[27]這兩個被HOI檢測任務廣泛使用的數據集上進行了實驗,以驗證文中方法的有效性。HICO-DET包含了47 776張圖片(38 118張用于訓練,9 658張用于測試),并且包括超過150 K對的人物對。它有117個動作類別和80個物體類別,構成600個HOI三元組,其中138個是稀少類別(即少于10個訓練實例),其余462個類別為非稀少類別。V-COCO是MS-COCO[28]的一個子集,其中包括10 346張圖片(2 533張用于訓練,2 867張用于驗證,以及4 946張用于測試)。它包含29個動作類別,每個都是一個二進制標簽,還包含了80個物體類別。

3.1.2 評估指標

與HOTR一樣,使用mAP作為評估指標。對于檢測結果,僅當預測的邊框和對應的真實邊框的交并比(IOU)大于0.5,并且物體類別和動作類別都預測正確時,HOI檢測結果被視為正確的正樣本。對于V-COCO,報告了兩個場景的mAP:場景1需要報告沒有物體的情況,而場景2則忽略這種情況。對于HICO-DET,評估默認情況下的性能,即根據所有測試圖像來計算AP。報告了三種類型的mAP:所有類別(Full)、稀少類別(Rare)和非稀少類別(Non-Rare)。

3.2 實現細節

因為只修改了HOTR中交互解碼器的交叉注意模塊及其最終的檢測頭部分,其他的都遵循原始的模型結構,所以訓練過程與HOTR幾乎相同。使用AdamW[29]對模型進行訓練,將主干網絡的學習率設置為1e-5,權重衰減為1e-4。對于V-COCO,將transformer的初始學習率設置為1e-4,對于HICO-DET設置為1e-5。與HOTR一樣,主干特征提取網絡、編碼器以及實例解碼器加載在MS-COCO上預訓練的模型,這些權重在模型訓練期間被凍結。增強機制和損失函數與HOTR相同,并且,對模型訓練100個周期,其中學習率在80個周期時衰減一次。

3.3 實驗結果

在V-COCO和HICO-DET上進行實驗。表1展示了在V-COCO數據集上的實驗結果,以及基線方法HOTR和最近的SOTA方法的結果。表2是在HICO-DET數據集上的結果。將ResNet-50作為主干網絡。對于HICO-DET數據集,目標檢測器在MS-COCO上進行預訓練。與基線方法HOTR進行比較時,為了體現出與其結果比較提升的程度,采用提升了多少百分比的形式;而與其他SOTA方法比較時,直接利用表格中mAP的值進行相減得到差值來直觀對比mAP。

表1 在V-COCO數據集上的結果

表2 在HICO-DET數據集上的結果

3.3.1 與基線HOTR比較

考慮到不同gpu設備對實驗結果的影響,重新跑了一遍HOTR的源碼,并將此結果作為文中方法的基線,以此來體現公平。可以看到,在V-COCO測試集上,比HOTR提高了2.13百分點(61.0→62.3),在HICO-DET上提高了8.33百分點(21.73→23.54)。表明文中方法在兩個基準上都得到了明顯的提升,尤其是在HICO-DET上,這驗證了Conditional HOTR的有效性。

3.3.2 與SOTA方法比較

在V-COCO測試集上,Conditional HOTR優于所有的兩階段方法和普通的一階段方法。對于基于transformer的HOI檢測方法,它優于大多數方法,例如相比于HOI Transformer,超過其9.4 mAP,超過QPIC 3.5 mAP。與目前的SOTA方法CDN相比,在同等條件的ResNet50為主干網絡的情況下,Conditional HOTR與其具有相同的精度。值得一提的是,文中方法在場景2上達到了SOTA。

對于HICO-DET數據集,Conditional HOTR優于所有兩階段方法和普通一階段方法。此外,文中方法優于基于transformer的HOI檢測方法——HOI Transformer。在基線HOTR的結果和QPIC結果之間差距2.48 mAP的情況下,文中方法最終僅比QPIC低0.67 mAP。QAHOI利用多尺度特征進行HOI檢測,這對檢測結果有利,文中方法沒有使用多尺度,比它低了0.81 mAP。

3.4 消融實驗

為了驗證設計的條件交互查詢的有效性,設置成不同的超參來觀察其對結果的影響,不同的參數設置會導致交互點處于不同的位置。從表3可以看出,不同的ratio檢測精度不同,但在兩個數據集上結果都優于基線HOTR,因此文中方法是有效的。

表3 不同的ratio值的結果

此外,還做了一些額外的實驗,通過改變設計的Conditional HOTR的結構來深入探討其有效性。所有實驗均在V-COCO上進行,并使用ResNet50作為主干,ratio設置為0.5。表4是實驗的結果。Conditional HOTR-Q表示取消了人和物的參考點的設計,并直接生成一個可學習的向量作為圖1中的ps。Conditional HOTR-P表示在最終的檢測頭中,公式(4)和(5)中的FFNh1(f)和FFNo1(f)直接加上交互點的信息,而不是分別與人和物的參考點信息相加。從結果可以推斷,參考點和檢測頭的設計是有效的。

表4 在V-COCO上進行消融實驗

4 結束語

提出了條件交互查詢,旨在優化基于transformer的HOI檢測方法,并在HOTR上驗證了其有效性,稱它為Conditional HOTR。在解碼器中充當交叉注意的位置查詢嵌入,顯式地定位與交互相關的區域,減少了對高質量內容查詢的依賴。使用交互點和當前解碼器層的輸出來生成條件交互查詢,因為它們包含與位置相關的信息。通過人和物體的參考點來生成交互參考點,其表示HOI三元組的定位區域。文中方法在兩個基準數據集上都比HOTR有顯著改進,并且超過了大多數的HOI檢測方法。