999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合全局-局部上下文信息的小目標多人姿態估計

2024-04-23 10:04:04龍辰志陳平李傳坤
計算機工程 2024年4期
關鍵詞:關鍵點特征信息

龍辰志,陳平,李傳坤

(中北大學信息探測與處理山西省重點實驗室,山西 太原 030051)

0 引言

多人姿態估計旨在預測圖像中所有人體目標各個重要關鍵點的位置,在許多視覺應用中對理解人體行為至關重要[1]。多人姿態估計通常有自頂向下和自底向上2種實現方法。自頂向下的方法[2-4]把多人姿態估計分解為多個單人姿態估計:首先利用目標檢測模型預測圖像上的人體檢測框,然后根據檢測框從圖像中裁剪出對應區域,并作為單人姿態估計模型的輸入得到對應的所有關鍵點輸出。自底向上的方法[5-7]直接預測所有人體目標的關鍵點:首先檢測出圖像中所有目標的關鍵點,之后采用關鍵點匹配算法把所有的關鍵點進行分組,從而獲得每個人體目標對應的關鍵點。自頂向下方法相比于自底向上方法最大的優勢在于顯式地解耦了圖像中的不同目標,使得姿態估計模型只需要預測關鍵點位置而不用考慮關鍵點和目標之間的相關關系。雖然2種多人姿態估計方法都能夠有效地識別正常尺度大小的目標,但對于小尺度的目標,由于像素信息有限,因此2種方法均難以有效識別。自底向上的方法不依賴于目標檢測模型,一次性得到所有目標的關鍵點,但無法有效處理尺度變化問題以及目標信息冗余問題,導致小目標的姿態丟失或預測錯誤。而自頂向下方法因存在目標檢測框,能夠從圖像中裁剪出不同目標對應的圖像區域,并通過仿射變換和插值實現不同目標的尺度統一,使得該方法的識別精度更高。盡管如此,自頂向下方法嚴重依賴于人體目標檢測,而當前的目標檢測模型在識別小目標上仍是1個難點。

為此,本文提出一種融合全局-局部上下文信息的多人姿態估計方法。采用自底向上的方法實現小目標的多人姿態估計,無須額外的目標檢測階段,結合多解剖中心和可變形采樣對多尺度目標進行精確定位,同時從聚類的角度,利用交叉注意力機制融合全局-局部上下文信息,實現高效準確的小目標多人姿態估計。

1 相關工作

1.1 多人姿態估計

自頂向下的方法首先利用目標檢測模型得到人體檢測框,然后對檢測框裁剪的區域執行單人姿態估計。自底向上的方法直接預測所有可能的關鍵點,再將不同目標的關鍵點進行組合。文獻[8]提出的高分辨網絡(HRNet)在整個過程中保持多分支多分辨率表示,并通過融合多分辨率特征來豐富高分辨率特征表示。文獻[9]提出的上下文實例解耦(CID)通過每個目標的中心位置線索來構建不同目標的空間和通道特征,實現不同目標的特征解耦。文獻[10]提出的對偶解剖中心(DAC)采用多尺度訓練的方法以及多解剖中心的姿態偏置回歸,實現小目標姿態估計。文獻[11]通過結構化空間學習和中途時間評估來學習豐富的特征結構信息和時序一致性信息,確保視頻數據下姿態的連貫性和穩定性。文獻[12]提出的Bi-Pose通過圖像輔助的3D偏移預測和雙向2D-3D轉換策略提出一種利用圖像信息和2D姿態進行3D姿態估計的方法,并利用2D誤差和反投影網絡進一步提高3D姿態的精度。

1.2 小目標識別

現有的姿態估計算法缺乏對小目標的研究,小目標識別多見于目標檢測領域。文獻[13]通過生成對抗網絡學習大目標與小目標之間的殘差表示,為小目標生成媲美大目標的超分辨率特征。文獻[14]針對小目標像素區域小的問題,對包含小目標的圖像進行過采樣,并在保證沒有重疊的情況下復制粘貼小目標數量來增加小目標的像素。文獻[15-16]采用多尺度特征學習的方式,通過逐層上采樣融合淺層特征和深層特征以獲得空間定位能力和目標表征能力更強的特征。其他方法[17]利用環境和物體之間的關系以及物體與物體之間的關系來識別目標,通過1組對象的外觀特征和幾何特征實現關系建模,實現目標上下文信息的提取。

1.3 注意力機制

隨著注意力機制[18-19]的發展,直接基于Transformer的模型已被廣泛應用于多人姿態估計領域[20-23]。TokenPose[20]利用Transformer模塊解碼卷積神經網絡(CNN)特征,并引入關鍵點Token從圖像中學習視覺線索和關鍵點約束。PETR[21]利用Transformer編碼器細化CNN提取的多尺度特征,并采用Transformer解碼器直接捕捉關鍵點與目標之間的關系。GCEHNet[22]采用雙分支輸入把Transformer模塊編碼的全局上下文信息與CNN特征進行融合,擴大了CNN網絡的感受野。CAPose[23]利用交叉注意力模塊實現高分辨率特征和不同尺度低分辨率特征的有效融合,提高了Transformer編碼器的學習效率。

2 本文方法

對于1張包含多人的RGB圖像I,多人姿態估計的目的在于定位出M個人體實例以及對應的K個關鍵點位置。本文通過多中心點對小目標進行定位,并利用注意力機制提取有效的小目標上下文信息,實現小目標的姿態估計,模型的整體架構如圖1所示。

圖1 模型整體架構Fig.1 Overall architecture of model

2.1 多中心監督

考慮到小目標所占圖像的像素區域小,不容易進行定位,本文通過設置多個解剖中心對小目標樣本進行數據增強,保證在1個中心點無法定位的情況下通過多中心點對小目標進行定位。同時,多中心點的結果可以互相修正小目標的定位精度。在定位過程中可以不需要精確的結果,但必須定位出所有可能存在小目標的位置。中心點劃分策略如圖2所示,以COCO數據集為例,采用3種關鍵點劃分方式。對于中等目標和大目標,只設置了1個中心點進行監督,圖2(a)、圖2(b)和圖2(c)對小目標分別設置了1個、3個和5個中心點進行監督。對于不同的關鍵點劃分方式,本文通過計算其內部的所有關鍵點坐標的均值點來表示監督的中心點坐標信息。

圖2 中心點劃分策略Fig.2 The strategies of center point partition

2.2 上下文信息提取

基于CenterNet等方法[9,24-25]的啟發,本文通過回歸中心點熱圖來定位目標的中心點坐標,并利用中心點的坐標從多尺度的特征中采樣目標對應的局部上下文信息。

假設HRNet網絡提取的第l級尺度特征為F(l)∈Cl×Hl×Wl。不同尺度的特征首先通過1×1卷積和上采樣操作實現尺度和特征通道數的統一,然后把所有特征沿通道維度進行拼接,并通過1×1卷積頭輸出通道數量為K+C的關鍵點熱圖H∈(K+C)×H×W,額外的C個通道表示中心點數量,H和W表示輸入圖像高和寬的1/4。上下文信息提取的結構如圖3所示。

圖3 上下文信息提取結構Fig.3 Structure of contextual information extraction

模型在訓練過程中需要計算K+C個熱圖,K個多人關鍵點熱圖用于輔助訓練,在推理階段可以直接舍棄,只保留C個中心點的熱圖。熱圖的標簽通常根據平滑的高斯分布生成,對于第k類關鍵點坐標(xk,yk),由式(1)計算其在熱圖標簽H*∈(K+C)×H×W上的響應:

(1)

其中:σ表示人體目標的標準差,采用文獻[9]中的方法,通過計算目標所有關鍵點的最小外接矩陣自適應地計算目標標準差,以緩解不同目標的尺度變化問題。

在訓練階段,對模型生成的多人熱圖采用Focal loss[26]進行監督訓練,以平衡熱圖回歸中前景點和背景點之間數量的不平衡。Focal loss的計算如式(2)所示:

(2)

由于教育教學督導和評價機制的主要目的是督促和引導教學良性發展,使教師的教學工作和學生的學習效果都有提升,所以,教育教學督導和評價機制的建立、發展和完善都與學校和學院的教學質量保障和建設息息相關。因此針對教師的教育教學督導和評價機制提出以下的改進辦法:

小目標通常包含較少的像素區域,在網絡下采樣的過程中很可能會進一步丟失小目標的空間信息。而上下文信息提供了除目標區域以外的信息,能夠彌補小目標缺少的信息,有效提高小目標的識別精度。對于1個人體目標,其形狀通常是不規則的,用完全包裹的矩形框進行采樣可能會引入無關的背景信息或其他目標信息。為此,基于可變形卷積[28]的思想,以中心點向量v∈D為輸入,利用全連接網絡輸出1個S×S大小的中心點采樣偏置,用中心點坐標加上偏置得到的坐標對不同尺度的特征進行雙線性插值采樣,得到S×S長度的目標局部上下文信息。圖4所示為可變形采樣的實現過程。

圖4 可變形采樣的實現過程Fig.4 The implementation process of deformable sampling

為了獲取可區分的目標上下文信息,本文采用對比學習中的InfoNCE[29]損失函數,通過最小化第m個目標向量與其他目標向量之間的余弦相似度,推斷不同目標局部上下文信息之間的距離。對比損失如式(3)所示:

(3)

其中:sim(·,·)表示計算輸入之間的余弦相似度;vm∈D表示采樣第m個目標的平均局部上下文信息;τ=0.07表示模擬退火參數,用于控制輸出的平滑程度,該值越趨近于0,輸出越接近于獨熱編碼的形式。

2.3 交叉注意力解耦

受圖像分割[30]工作的啟發,Transformer模型可以解釋為帶參數的聚類過程,Query可作為初始化的聚類中心,Query與Key計算注意力權重的過程相當于計算簇分配矩陣,注意力權重與Value的計算實現了聚類中心的更新,多層Transformer模型的堆疊相當于多次迭代的聚類過程。以采樣的局部上下文信息作為初始化的聚類中心即Query,圖像的全局上下文信息作為Key和Value,通過Transformer模型的聚類過程,實現局部和全局上下文信息的融合,即聚類中心的迭代更新,最終的聚類中心作為增強的目標上下文信息用來解耦得到不同目標對應的關鍵點熱圖。目標上下文信息與多尺度特征的計算實現了隱式的聚類過程,即通過計算上下文信息與每個空間像素特征之間的距離實現聚類,無須采用任何關鍵點后處理分組方法,實現自底向上的多人姿態估計。

采用ViT[31]方法添加可學習分類Token的思想,本文增加1個可學習的姿態TokenP∈K×D來表示最終融合的K個D維關鍵點上下文信息,把局部上下文信息Q∈L×D和姿態TokenP的拼接結果當作Transformer解碼模塊的輸入Query。對于HRNet提取的深層低分辨率特征經過傅里葉位置編碼[19]后直接鋪平為1維的圖像塊,作為全局上下文信息G∈(H×W)×D,用于映射為Transformer解碼模塊中交叉注意力的Key和Value。圖5所示為Transformer解碼器結構。

圖5 Transformer解碼器結構Fig.5 Structure of Transformer decoder

整個Transformer解碼模塊共3層,注意力頭設置為8,交叉注意力計算式如下:

(K+L)×(H×W)

(4)

Z=A*(G*Wv),Z∈(K+L)×D

(5)

其中:Wq,Wk,Wv∈D×D為映射矩陣,把輸入映射為Query、Key、Value;*表示矩陣乘法;Z作為注意力的輸出,當作新的Query作為下一層Transformer的輸入。

最后,根據多層Transformer輸出的姿態TokenP,從全局特征F中解耦得到不同的實例熱圖,如式(6)所示:

Hk=σ(Norm(pk)*Norm(F))

(6)

其中:σ表示Sigmoid激活函數;Hk∈1×H×W表示解耦的第k類熱圖;Norm表示對特征維度進行L2歸一化;F∈D×H×W表示降維后的多尺度特征;pk∈1×D表示經過多層Transformer解碼模塊得到的姿態Token。模型根據不同目標的上下文信息生成不同的關鍵點熱圖,無須采用后處理方法對關鍵點進行分組,輸出熱圖中只包含1個目標對應的關鍵點。該輸出結果同樣采用Focal loss進行監督訓練,模型的整體損失如式(7)所示:

=λ1multi+λ2contrastive+λ3single

(7)

其中:λ1、λ2、λ3表示不同損失的權重系數;multi表示多目標中心點熱圖的Focal loss;contrastive表示上下文信息之間的對比損失;single表示單目標關鍵點熱圖的Focal loss。

3 實驗結果與分析

本文在COCO多人姿態估計數據集上訓練和驗證模型。COCO關鍵點數據集包含64 000張帶有270 000個人體實例標注的圖像,每個實例標注17個關鍵點。

實驗平臺采用Ubuntu 18.04.5 LTS,顯卡為NVIDIA Tesla V100,顯存32 GB,CUDA 11.4,cudnn470.57.02,實驗代碼采用PyTorch1.7.1和Python3.6.9實現。優化器采用Adam,初始學習率設置為0.000 5,學習率衰減系數為0.1,共訓練140個周期,在90個和120個周期時進行學習率衰減。本文采用包含隨機旋轉[-30°, 30°],隨機縮放[0.75,1.50],隨機平移[-40,40]和隨機水平翻轉(0.5)等數據增強方式進行訓練。

3.1 評價指標

本文對于COCO數據集采用平均精度(AP)進行評估,并采用目標關鍵點相似度(OKS)來計算預測關鍵點和真實關鍵點的相似度,并比較不同相似度下的AP值。OKS計算式如下:

(8)

根據不同的OKS值計算不同的AP,AP50表示當OKS=0.5時的平均精度,同理AP75表示當OKS=0.75時的平均精度,AP表示OKS=0.5∶0.05∶0.95之間的平均精度均值,APM表示像素區域32×32像素96×96像素范圍內目標的平均精度。

3.2 結果分析

本文對比所提的方法與其他自底向上多人姿態估計方法在COCO test-dev2017和COCO val2017數據集上的結果,如表1所示。本文方法在COCO test-dev2017數據集上實現了69.0%的AP,比DEKR方法提高了1.7個百分點,在APM上提高了3.3個百分點,比SWAHR方法的AP提高了1.1個百分點,在APM上提高了2.4個百分點。盡管本文方法的AP結果比CID方法提高了0.1個百分點,但是對比中等目標,APM實現了1.6個百分點的提升。與同樣針對小目標姿態的DAC方法相比,本文方法的AP提高了0.5個百分點,APM也提高了1.4個百分點,與基于Transformer的PETR方法相比,本文方法的AP提高了0.5個百分點,但APM顯著提高了2.3個百分點。實驗結果證明了融合全局-局部上下文信息方法的有效性。

表1 不同方法在COCO test-dev2017和COCO val2017上的性能比較Table 1 Performance comparison among different methods on COCO test-dev2017 and COCO val2017

3.3 消融實驗

為了詳細說明不同模塊對模型性能的影響,本文在COCO val2017數據集上進行消融實驗,分別探究了中心點數量、可變形采樣、對比學習損失、Transformer數量、損失函數權重系數的影響,并對算法效率進行分析。

表2所示為不同Transformer層數對模型性能的影響。隨著Transformer層數的增加,模型的性能先提高后降低,可能的原因是隨著層數的增加,模型開始過擬合。考慮到模型的計算效率和性能,本文最終選擇3層的Transformer,后續的消融實驗同樣采用3層Transformer進行測試。

表2 Transformer層數的消融實驗結果Table 2 Ablation experiment results of Transformer layers number

表3所示為不同的中心點數量對模型性能的影響。從表3可以看出,1個中心點取得68.7%的AP,而3個中心點取得69.3%的AP。因為小目標的單一中心點容易被遮擋,多中心點保證在有部分中心點遮擋的情況下還可以利用可見的部分對小目標進行姿態估計。隨著中心點數量的增加,模型的AP開始降低,AP50卻進一步增加,表明多中心點的確利于預測被遮擋的目標,但因引入了冗余的上下文信息,反而降低了模型的性能。

表3 中心點數量的消融實驗結果Table 3 Ablation experiment results of center point number

表4所示為不同的損失權重系數對模型性能的影響。由于對比損失的數量級遠小于熱圖損失,且模型的輸出結果更容易受到單目標熱圖損失single的影響,因此本文固定λ1=1,λ2=1,僅改變λ3的大小。實驗結果表明,隨著λ3的變大,模型的精度在穩步提升,直到λ3=3之后精度開始飽和,進一步增大λ3的值反而導致精度降低。

表4 損失權重系數對模型性能的影響Table 4 Influence of loss weight factors on model performance

表5所示為本文方法與其他自底向上方法的參數量大小和浮點運算量,以及在Tesla V100 GPU上對比了batch size=1下的算法推理速度。從表5可以看出,本文方法在引入額外的多層Transformer的情況下,推理速度媲美其他方法。本文方法并行計算效率高,因此在參數量和計算量都不占優的情況下,仍能在GPU上取得很快的推理速度。圖6所示為在不同人員數量下的推理時間。隨著圖像中人員數量的增加,本文方法的推理時間增長緩慢。

表5 算法效率分析Table 5 Analysis of algorithms efficiency

圖6 在不同人員數量下的推理時間Fig.6 Inference time under different numbers of person

表6所示為消融實驗結果。第1組實驗在不采用任一種模塊的情況下AP只有68.0%,加入對比損失后的AP相比第1組實驗有0.7個百分點的提升,加入多中心監督后的AP有0.9個百分點的提升,同時加入對比損失和多中心監督后的AP有1.3個百分點的提升,同時加入上述3種模塊后的AP有2.2個百分點的提升,APM甚至有3.0個百分點的提升。消融實驗結果表明本文提出的多個模塊均能有效提高模型的性能。

表6 消融實驗結果Table 6 Ablation experiment results %

3.4 可視化分析

對于訓練好的模型,本文在COCO test-dev2017數據集上選取了部分帶有小目標的圖像進行測試。本文方法在COCO test-dev2017數據集上的可視化結果如圖7所示。本文方法在一定程度上提高了小目標的姿態估計性能,對于512×512像素的輸入圖像,如圖7中第1行的第2列所示,模型最小能識別19×19像素的目標(用矩形框標出)。然而,在圖7中,對于擁擠場景下的目標,本文方法無法得到滿意的結果,面對嚴重遮擋的情況也只能對未被遮擋的部分進行預測。

圖7 本文方法在COCO test-dev2017數據集上的可視化結果Fig.7 Visualization results of the proposed method on COCO test-dev2017 dataset

4 結束語

本文提出一種融合全局-局部上下文信息的多人姿態估計方法。利用多中心監督信息來增強小目標的定位能力,基于粗糙的定位結果,采用可變形的雙線性插值采樣方式有效提取小目標的上下文信息,結合HRNet提取的全局上下文信息和Transformer解碼器對不同小目標的上下文信息進行聚類增強,實現了準確的小目標多人姿態估計。在COCO test-dev2017和COCO val2017公開數據集上的實驗結果表明,本文方法有效改善了小目標的識別精度。下一步將針對遮擋和擁擠場景下的多人姿態估計,在保持小目標檢測性能的同時實現對遮擋目標的有效識別。

猜你喜歡
關鍵點特征信息
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
今日農業(2021年8期)2021-11-28 05:07:50
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
醫聯體要把握三個關鍵點
中國衛生(2014年2期)2014-11-12 13:00:16
鎖定兩個關鍵點——我這樣教《送考》
語文知識(2014年7期)2014-02-28 22:00:26
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美区一区二区三| 国产在线精彩视频论坛| 欧美A级V片在线观看| 亚洲国产欧美国产综合久久| 高清国产va日韩亚洲免费午夜电影| 成年人免费国产视频| 欧美日韩久久综合| 91香蕉视频下载网站| 在线毛片免费| 91九色国产porny| www.av男人.com| 亚洲娇小与黑人巨大交| 欧美三级不卡在线观看视频| 欧美性久久久久| 91视频免费观看网站| 久久亚洲精少妇毛片午夜无码| 欧美日韩精品在线播放| 特级毛片免费视频| 99热国产这里只有精品9九| 久久免费成人| 在线观看亚洲精品福利片| 一区二区三区在线不卡免费| 凹凸精品免费精品视频| 国产精品成人第一区| 国产午夜福利亚洲第一| 亚洲中文无码h在线观看 | 国产三级韩国三级理| 一级毛片无毒不卡直接观看| 亚洲综合第一区| 亚洲欧美另类色图| 国产在线观看一区精品| 日本黄色a视频| 永久天堂网Av| 成人午夜亚洲影视在线观看| 中日韩欧亚无码视频| 国产女人水多毛片18| 婷婷五月在线| 日本精品影院| a级毛片免费网站| 麻豆国产在线观看一区二区| 国产欧美日韩综合一区在线播放| 久久狠狠色噜噜狠狠狠狠97视色| 中文字幕免费在线视频| 欧美激情综合| av午夜福利一片免费看| 亚洲欧洲一区二区三区| 99爱视频精品免视看| 国产迷奸在线看| 欧美日韩国产精品va| 日韩视频福利| 四虎国产永久在线观看| 欧美日韩中文国产va另类| 国产麻豆va精品视频| 精品视频一区二区三区在线播| 香蕉综合在线视频91| 2020最新国产精品视频| 亚洲国产精品日韩欧美一区| 黄色网页在线播放| 国产aaaaa一级毛片| 国产欧美日韩在线一区| 天堂va亚洲va欧美va国产| 高清乱码精品福利在线视频| 久久久久久尹人网香蕉| 国内精品久久久久鸭| 亚洲人视频在线观看| 亚洲AⅤ无码日韩AV无码网站| 一级一级一片免费| www.精品视频| 亚洲三级a| 国产激情无码一区二区APP| 亚洲国产精品日韩av专区| 福利一区三区| 精品国产一区91在线| 无码一区18禁| 91成人精品视频| 91香蕉视频下载网站| 亚洲最黄视频| 国产乱子伦视频三区| 免费观看精品视频999| 亚洲欧州色色免费AV| 韩日午夜在线资源一区二区| 九九久久精品国产av片囯产区|