999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖的人-物交互識別

2021-02-04 14:16:10劉澤宇
計算機工程與應用 2021年3期
關鍵詞:特征方法模型

吳 偉,劉澤宇

中南大學 自動化學院,長沙410075

目前,目標檢測[1]、分割[2]以及動作識別[3]等圖像視覺檢測與識別技術已經取得了長足的進展。這些任務的發展為許多相關領域奠定了堅實的基礎,包括醫療、自助零售、安防等。然而,這些應用的成功實現不僅需要實例級的檢測和識別,還需要對圖像內容進行有效的理解。現有的圖像理解研究主要集中在視覺關系檢測[4]領域。人與物體交互作用(Human-Object Interactions,HOIs)的檢測與識別便是視覺關系檢測的一個重要分支。其目的是對給定一幅圖像,在檢測到一個人和一個物體的同時,識別出二者之間的相互作用(interaction),可以定義為檢測圖像中人類、交互行為以及物體組成的三元組,形如[5-6]。對于HOIs檢測的方法可以分為兩類:基于傳統特征(SIFT、HOG[7]等)的聯合建模方法和基于深度學習的方法。

早期對HOIs檢測與識別的研究多基于傳統圖像手工特征。受人類感知心理學研究的推動,Gupta等人[5]首先提出了一種貝葉斯方法,該方法整合了參與理解人與物體相互作用的各種感知任務,可以同時對場景類型、場景對象、人類動作和可操作對象的概率進行估計,在提高人-物體交互作用識別效果的同時也促進了相關感知任務的性能。Yao等人[8]使用名為“grouplet”的全局圖像特征來識別HOIs,以捕獲HOIs的結構化信息。通過應用數據挖掘算法找尋出具有判別作用的grouplet 特征,并通過SVM 對其進行識別。Desai 等人[9]提出了一種基于模擬人體和附近物體之間的上下文相互作用的識別方法。通過同時學習對象模板,基于姿勢的模板及其上下文關系,生成了一個簡單而又準確的HOIs 判別模型。由于上述方法需要對于訓練圖像樣本進行細粒度的標注,工作量巨大。因此,Prest 等人[10]提出一個弱監督學習方法,通過對圖像中人的檢測估計出人與物體空間關系的概率分布,大大縮小了交互對象的搜索范圍。受困于較小的數據集規模,以及手工構建的低精度目標檢測器,這些早期工作的識別效果非常有限。

近年來,由于深度學習的成功和大規模HOIs 數據集的出現,一些基于深度學習的HOIs 檢測與識別模型應運而生[6,11]。Chao等人[6]認為人與物體的空間位置會對交互作用的識別提供線索。其使用卷積神經網絡CNN 對由人與物體的邊框信息bounding boxes 組成的雙通道二值圖像進行編碼,取得了不錯的效果。受到Prest 等人工作的啟發,Gkioxari 等人[12]基于人類的外觀特征使用混合密度網絡(Mixture Density Network)來預測潛在交互物體對象的空間位置分布。采用類似于Chao等人的多流網絡預測得分融合方式對HOI類別進行打分。隨著注意力(Attention)機制在自然語言處理和計算機視覺領域的廣泛應用,Fang等人[13]將注意機制引入HOIs 識別中,提出了一種新的成對身體注意模型(Pairwise Body-Part Attention),對與物體交互的身體部位給予更多的關注。Qi 等人[14]提出了一種完全不同的基于圖解析神經網絡(GPNN)的端到端解析圖推理方法。圖像中的所有HOIs 都可以同時預測,無需像以前的方法那樣成對預測。與Prest 等人的思路相似,為了解決樣本不均造成的長尾(long tail)問題,Shen 等人[15]提出了一種弱監督模型,將零樣本學習(zero-shot learning)擴展到HOIs 識別中,實現對數據集中未出現過的HOIs類別的識別。

本文提出了一種基于圖注意力網絡的HOIs識別方法。將輸入圖像以HOI 圖(graph)的形式進行表示,圖的節點(nodes)表示圖像中的實例,圖的邊(edges)表示圖像中人類對象與物體對象的交互關系。圖的節點特征通過引入注意力機制的特征處理網絡(Feature Processing Network,FPNet)聯合Faster R-CNN[16]生成并嵌入。最后利用圖注意力網絡(GAT)對HOI 圖中所含的真實的人-物交互關系進行推理。本文提出的方法框架如圖1所示。

圖1 本文方法框架示意圖

1 HOI圖的構建與圖節點特征表示

1.1 HOI圖的構建

當前主流的方法通常采用獨立的人與物體對(human-object pairs)來檢測與識別圖像中的HOIs。然而,由于全局信息的缺乏,當諸如遮擋等客觀因素存在時,它們的性能常常受到干擾。為了解決這個問題,試圖找到一種能夠充分表達圖像中對象之間交互關系的數據結構。在文獻[17]中,對于視覺問答(Visual Question Answer,VQA)任務,提出了利用圖對圖像以及文本問題分別進行描述的新思路,并通過實驗證明了圖可以捕獲單詞之間以及圖像中對象之間的關系。文獻[18]利用時空圖對視頻中的人與物體的交互關系進行捕捉,借助循環神經網絡(RNN)完成幀級的交互推理。在上述文獻的啟發下,本文最終采用了圖來對圖像中的對象之間的關系進行描述。

1.2 圖節點的特征表示

在生成圖像的圖結構表示后,還需要利用對圖中的每個節點嵌入一個特征向量。在本文中為了對每個節點構造一個強有力的特征表示,采用了基于注意力機制的特征處理網絡FPNet(如圖3)對特征圖上的對象特征進行了加工,將其與上下文(context)信息進行融合,提高特征的表達能力。

圖2 HOI圖構建過程

圖3 基于注意力機制的特征處理網絡

在計算機視覺領域,上下文信息已被證實對于圖像理解、目標檢測以及動作識別等多個領域的發展有著非常明顯的促進作用。因此本文在構建節點特征時考慮將對象的上下文信息融入以提高其魯棒性。與直接將整個圖像區域作為對象的上下文不同,受到人類視覺系統注意力特性的啟發,且應該選擇性地獲取更有意義的上下文信息,盡可能地忽略一些無關信息。于是在本文FPNet網絡的結構設計時,以Hu等人[19]提出的輕量級注意力模塊SENet(如圖4)為基礎,進行了修改。SENet的設計思想是以輸入特征張量為條件,通過全局平均池化(Global Average Pooling,GAP)結合兩個全連接層(Fully Connected layer,FC)將其映射得到一組特定的通道注意力權重,將權重向量與輸入張量進行通道乘法得到更有表達能力的特征。本文借鑒其設計思想,選擇以對象區域卷積特征為條件,通過與SENet計算注意力權重方法類似的結構(如圖3 虛線框部分)計算得到特定的注意力權重,接著與經過降維得到的特征圖進行通道乘法得到以對象為條件的注意力特征圖,實現對對象所在上下文信息進行有選擇地利用。

圖4 注意力模塊SENet框圖

對圖3 所示整個FPNet 的網絡結構可進行如下描述。輸入圖像在經過Faster R-CNN后得到目標對象的具體位置,接著在backbone 輸出的大小為H×W×512的特征圖上,提取對應區域特征圖,通過感興趣區域池化(ROI pooling)操作得到大小為7×7×512 的特征圖。為了在不影響網絡性能的前提下減少參數量,降低訓練過程中的內存消耗,本文在此處采用與SENet 相同的GAP操作將該特征圖轉換為512維的特征向量。接著,通過兩個FC層配合得到一個128維的注意力權重向量,以此對原特征圖進行通道加權(channel-wise attention)操作,這一過程可以有效地提取目標對象的上下文信息。對得到的引入注意力的特征圖再次執行GAP 操作,通過一個FC 層得到對象的上下文特征向量xcontext。最后,將目標對象特征xinstance與其上下文的特征向量xcontext進行拼接(concatenate),得到256 維的節點特征向量表示。

2 基于圖注意力網絡的人-物交互識別

圖神經網絡(Graph Neural Network,GNN)的概念最早由Gori等人[20]提出,主要用于處理圖結構數據。隨著越來越多的圖形結構數據出現在社交網絡、三維網格、電信網絡等各個領域,應用于這類不規則數據的GNN 變體層出不窮,在相應的任務中表現出了優異的性能。文獻[21]提出了一種多層圖卷積網絡(Graph Convolutional Network,GCN),將卷積思想引入到了GNN 中。然而,和大多數GNN 變體一樣,GCN 需要在卷積之前知道圖的結構。這意味著它只能處理固定的圖結構。在人-物交互識別中,不同訓練樣本的圖結構不同。因此需要固定圖結構的網絡如GCN不適合本文的任務。Velickovic 等人[22]提出的圖注意力(GAT)網絡可以更好地解決上述問題,它放松了對圖結構的要求,可以通過自注意機制從數據中完全學習或改進。于是在本文中,采用GAT來挖掘圖中的人-物交互作用。

2.1 圖注意力網絡

圖注意力網絡作為圖神經網絡的一個重要變體,其核心是將注意機制融入節點信息的傳播過程中。通過一種自注意力(self-attention)策略對每個節點的鄰居節點施以不同的注意力權重來計算每個節點的隱藏狀態。圖注意力網絡基本構成單元為圖注意層(GAT Layer),可以通過堆疊注意力層來搭建任意的圖注意力網絡。

圖注意力層是圖注意力網絡的基石,其輸入是一組節點特征向量其中N表示節點的數量,F是節點特征的維數。輸出是一組的新的節點特征向量為節點特征的維數。的映射過程是整個圖注意力層的核心所在,其工作原理主要由注意力系數的計算以及節點信息的加權聚合兩部分構成。

(1)注意力系數的計算。首先,為了獲取更有力的特征表達,需要對輸入的節點特征采取至少一次線性變換[22]。本文在此處參考文獻[22]采取一次線性變換,權重矩陣為接著對每個節點使用一個共享的注意力機制計算其對鄰居節點的注意力系數。a(·)采用的是一個權重向量為的單層前饋神經網絡,其以經過線性變換的節點特征向量為輸入,輸出每個節點對其鄰居節點的初始注意力系數。并對其結果利用LeakyReLU 激活函數進行了非線性化。具體公式如下:

為了更好地觀察比較對鄰居節點的注意力,利用softmax函數對計算出的注意系數進行標準化處理:

其中,Ni是節點i的所有鄰居節點。

(2)節點信息的加權聚合。在完成節點i對其鄰居節點Ni的注意力系數αij的計算后,對節點i的輸出特征可由參數W與注意力系數αij根據式(3)計算得到:

其中,K表示head的個數,即獨立的注意力機制的個數;表示第k個注意力機制計算出來的相應的注意力系數;Wk表示第k個注意力機制中相應的線性變換矩陣。

2.2 基于圖注意力網絡的人-物交互識別

當前許多方法主要是對由目標檢測器得到的所有對象按照<人,物體>這樣的二元組進行組合后,再進行交互作用的一一識別。這樣的做法引入了過多的人為因素,缺乏模型對<人,物體>匹配的推理能力。而本文以使模型自行推理出真實交互的人、物雙方并實現交互作用的識別為目的,采取以圖的形式對圖像中的所有對象進行表示,并借助GAT 進行圖中人與物體交互關系的推理。在2.1 節圖注意力網絡的介紹中可以發現,GAT的輸出考慮了圖中不同節點的信息,通過加權聚合的形式得到表現力更強的節點特征表示。在本文中,節點特征來自于通過FPNet 得到的包含有對象的外觀與相應上下文信息的特征向量,其本身已具有很強的表達能力,再經過GAT后會得到魯棒性更強的特征表示,這對于最終的分類任務十分重要。除此而外,GAT的核心是引入了注意力機制,實現了圖中某一節點對其鄰居節點信息的選擇性利用。本文借助其這一特質,利用在模型輸出層得到的人類節點對其鄰居節點的注意力系數來自動推理出交互的雙方。實驗結果也證明了GAT具備挖掘人-物交互作用的能力。

2.2.1 損失函數

本文采用兩層GAT模型來對HOI圖中的人-物交互作用進行識別。在最后的輸出層,利用sigmoid 函數對所有更新后節點特征進行處理,得到n維概率向量,其中n是交互動作類別的數量??紤]到一些節點可能同時有多個標簽。例如發生如圖1中的情況,一個人同時與兩個物體都發生了真實的交互,則對應人類的圖節點標簽將同時被標記為“carry”和“hold”,鑒于此,本文選擇了多標簽軟間隔損失函數,基本公式如下:

其中,C表示交互動作的類別數,如HICO-DET 數據集中交互動作的類別數為117。為損失函數的輸入向量的元素。為標簽向量的元素。在損失函數的優化上,本文選擇了Adam 算法[23]來最小化模型的損失函數。

2.2.2 算法流程

本文方法的識別流程可概述為:

(1)輸入RGB圖像,通過2.1節進行HOI圖的構建。

(2)利用FPNet對HOI圖進行節點特征嵌入。

(3)通過GAT 對HOI 圖上真實的人與物體的交互關系進行推理。

(4)通過GAT 輸出層得到節點分類結果標(actionlabel),同時通過保留GAT 模型輸出層的高注意力系數(即公式(2)中的α)來確定發生交互動作的雙方(human,object),即得到對應的HOI 三元組。

(5)最終的人-物交互得分是通過human 節點和交互object節點的動作概率(action label probability)相乘得到。

3 實驗與結果

3.1 實驗數據集與評價指標

為了評估本文方法的有效性,本文在“Human and Common Object Interaction Detection”(HICO-DET)數據集[6]和“Verb in COCO”(V-COCO)數據集[11]上進行了實驗。

3.1.1 實驗數據集

HICO-DET 數據集是用于HOI 研究的一個大型基準數據集,它對圖像中每對發生交互的人、物體雙方的空間位置都進行了詳細的標注。HICO-DET 數據集中有47 776 幅圖像,標注了600 種人-物交互類別(如“喂貓”“清洗小刀”),117個動作類別(如“喂”“清洗”)和80個對象類別(如“貓”“小刀”)。共有151 276個實例注釋(annotation)。整個數據集中有38 118 幅圖像(80%)用于訓練,9 558幅圖像(20%)用于測試。

V-COCO數據集是微軟目標檢測數據集MS COCO(Microsoft COCO:Common Objects in Context)的一個子集,共有10 346幅圖像,其中5 400幅圖像用于訓練和驗證,4 946 幅圖像用于測試。數據集共注釋了26 個常用的動作類,以及人和交互對象的邊界框。在該數據集中,一個人不僅可以在同一個物體上執行多個動作(例如,邊滑雪邊握滑雪板),還可以在不同類型的物體上執行相同的動作。數據集示例如圖5所示。

3.1.2 評價指標

本文針對人-物交互檢測問題采用了平均精度(mean Average Precision,mAP)作為衡量方法的標準,并對判斷準則進行了適當的修改,以適應本文的研究內容。在目標檢測領域,如果算法預測的目標邊框與真實邊框(ground truth)的重疊的交并比(Intersection over Union,IoU)大于0.5,就會被認為是真陽性(True Positive,TP)。在具體實驗中,本文對TP的判斷做了一定的修改,規定只有滿足以下三個條件,對于人-物交互的檢測才能被認為是真陽性:(1)預測到人類邊框和其真實邊框(ground truth)之間的IoU大于或等于0.5;(2)預測到的物體邊框與真實的物體邊框之間的IoU 大于或等于0.5;(3)對人與交互物體之間交互動作的預測與真實發生的交互動作應一致。在本文所使用的兩個數據集上對模型的性能評估均采用此評價標準。

3.2 實驗細節

在本文的實驗中,對于Faster R-CNN 的特征提取網絡采用牛津大學提出的VGG16[24]網絡。因為MS COCO 與HICO-DET 和V-COCO 數據集具有相同的對象類別,為了簡化整個模型的訓練過程,縮短訓練時間,直接使用了在MS COCO 數據集上訓練好的模型。實驗中根據特定任務,本文對文獻[22]中提出的GAT模型進行了調整。主要有兩處調整:(1)與文獻[22]中的模型設置不同,本文使用的隱藏層神經元數量是1 024。在選用此參數前,分別將其設置為256、512 以及2 048進行了測試,發現隨著數量的上升,雖然模型效果有一定的提升,但相應的內存占用巨大,訓練十分緩慢。在確保一定的模型效果下,折中選擇了1 024,本文還在圖注意網絡層的線性變換運算之后加入了批處理規范化(Batch Normalization,BN)層,在提高模型收斂速度的同時也降低了過擬合的風險。(2)由于本文的目標是進行人-物交互識別,在此過程中會出現一人同時與多個物體交互的情況,這時對交互動作的識別就是一個多分類問題,對應到本文的圖模型就是對圖節點進行多標簽分類,所以在圖注意力網絡輸出時,用Sigmoid函數來代替原始的Softmax函數。并將原文獻的交叉熵損失函數改為了如式(5)的多標簽軟間隔損失函數。

整個實驗使用PyTorch 框架實現,并部署在一臺帶有Nvidia TITAN GPU 的機器上。設定的初始學習率為1E-3,每6 個階段學習率下降0.7,批處理大小batch size為10,整個訓練過程持續30 h逐漸收斂。

3.3 實驗結果

3.3.1 與其他方法的比較

為了驗證所提出的方法的有效性,本文與近年來在HICO-DET 和V-COCO 數據集上有較好效果的方法進行了比較。對于HICO-DET 數據集,遵循文獻[6]的設置,將數據集劃分為三個子集:完整(Full)、稀有(Rare)和非稀有(Non-Rare)。Full 表示使用整個數據集樣本,Rare表示包含138類較少出現的人-物交互類別的集合,Non-Rare表示包含462類較常出現的人-物交互類別的集合。對于HICO-DET與V-COCO數據集,都以平均精度mAP為評價指標。本文方法在兩個數據集的測試集上的結果分別呈現在表1與表2中,部分可視化結果如圖6。

圖5 數據集樣本示例

圖6 數據集測試樣本可視化結果示例

表1 與其他方法在HICO-DET數據集上的平均精度均值mAP比較 %

表2 與其他方法在V-COCO數據集上的平均精度均值mAP比較%

表1 與表2 的結果表明,本文方法利用圖結構對圖像中對象進行表示,在捕捉到人與物體之間關系的同時也能很好地利用圖像上下文信息,相對其他單一地使用對象外觀信息性能更好。除此而外,本文還對主要算法在數據集上的平均測試時間進行了比較,如表3。從表3可以看出本文基于圖的方法的平均測試時間較低,主要是其他方法采用成對的人-物組合去預測,當圖像中人、物體數量較多時,推理時間會劇增,且這些方法采用的網絡較深,參數量很大,計算耗時。

表3 主要方法的計算復雜度

3.3.2 模型相關因素考察

為了進一步探究本文方法的有效性,通過實驗對整個模型的重要影響因素進行了分析。主要考慮四個方面:(1)本文提出的利用HOI 圖代替全連接圖的觀點的必要性;(2)本文提出的FPNet 中注意力機制的必要性;(3)FPNet 的必要性;(4)GAT 層數對模型性能的影響。實驗結果如表4,表中“W/o FPNet”表示去除FPNet網絡后的模型,“W/o Attention”表示模型中FPNet不引入注意力機制,“FC Graph”表示采用全連接圖的模型,“Single layer”表示使用單層注意力網絡的模型,“Three layer”表示使用三層注意力網絡的模型。所用評價指標同上。

表4 模塊有效性測試%

從表4 中可看出,(1)使用全連接圖的模型總體性能由于受到過多無關信息的干擾,性能反而較原模型有所下降。(2)未在FPNet 中引入注意力的模型由于其節點特征構造過程中直接將對象外觀及背景的特征直接通過拼接,缺少對重點信息的提取,引入了噪聲,導致節點特征的魯棒性不好。(3)去除了FPNet 模塊,將對象ROI pooling 后的特征調整到256 維后直接送入圖注意力網絡中。相比于完整模型其性能有了明顯的下降,由此可以看出特征處理網絡提供的上下文信息對模型的性能提升有很大的促進作用,能夠幫本文的模型提取到更為健壯的特征表示。(4)除此以外還探索了圖注意力層(GAT Layer)對整個框架性能的影響。從實驗結果可以看出,無論層數是低于兩層還是高于兩層,模型的性能都產生了不同幅度的下降。

4 結語

本文針對靜態圖像中人與物體的交互識別問題,提出了一種具有雙重注意力的檢測與識別框架,利用圖結構對圖像中潛在的HOIs 進行建模,并通過引入注意力機制的FPNet 將圖像上下文信息融入到圖節點的特征表示中去,最后聯合GAT 對真實的HOIs 加以推斷。為了驗證該方法的性能,本文在HICO-DET與V-COCO數據集上與其他方法進行了實驗比較,結果證明了該方法的有效性。在下一步工作中,會嘗試將知識圖譜與本文方法進行結合,改進模型效果。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲aaa视频| 久久精品国产91久久综合麻豆自制 | 国产在线观看精品| 国产精品视频观看裸模| 国产簧片免费在线播放| 国产激情无码一区二区三区免费| 波多野结衣一区二区三区四区视频 | 久久精品只有这里有| 91精品久久久久久无码人妻| 国产美女在线观看| 亚洲一区二区三区国产精品| 免费亚洲成人| 亚洲最新地址| 黄色网在线免费观看| 亚洲欧美人成人让影院| 久久综合丝袜日本网| 99ri国产在线| 亚洲天堂在线视频| 人妻21p大胆| 国产18在线播放| 欧美一区日韩一区中文字幕页| 女人18毛片久久| 欧美一级一级做性视频| 精品国产aⅴ一区二区三区| 久久国产精品国产自线拍| 精品一区二区三区无码视频无码| 成人夜夜嗨| 婷婷色丁香综合激情| 成年人免费国产视频| 久久6免费视频| 丝袜无码一区二区三区| 国产精品久久久久久久久kt| 亚洲精品视频免费看| 无码电影在线观看| 日韩中文精品亚洲第三区| 日韩欧美国产中文| 精品91视频| 久久综合丝袜长腿丝袜| 成年人视频一区二区| 亚洲婷婷丁香| 老司国产精品视频| 国产一区二区三区精品久久呦| 久久综合干| 亚洲无码A视频在线| 国产xxxxx免费视频| 免费xxxxx在线观看网站| 成人午夜亚洲影视在线观看| 中国黄色一级视频| 欧美性爱精品一区二区三区| 亚洲日韩AV无码一区二区三区人| 国产亚洲成AⅤ人片在线观看| 91极品美女高潮叫床在线观看| 婷婷综合在线观看丁香| 国产69囗曝护士吞精在线视频| 国产91导航| 青青青国产精品国产精品美女| 日本a∨在线观看| 日本人又色又爽的视频| 久久99热66这里只有精品一| 久久99国产乱子伦精品免| 国国产a国产片免费麻豆| 99热这里只有精品免费国产| 国产福利大秀91| 毛片在线播放网址| 日韩一区二区三免费高清| 亚洲开心婷婷中文字幕| 免费观看三级毛片| 99久久99这里只有免费的精品| 国产又粗又爽视频| 天堂成人av| 亚洲精品动漫在线观看| 亚洲乱伦视频| 91精品国产情侣高潮露脸| 成人免费网站久久久| 亚洲水蜜桃久久综合网站| 无码人妻免费| 999国产精品| 国产门事件在线| 毛片手机在线看| 国产黄色免费看| 亚洲国产精品日韩av专区| 性激烈欧美三级在线播放|