999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進堆疊沙漏網絡的動物姿態估計

2023-02-20 09:39:24張雯雯徐楊白芮陳娜
計算機工程 2023年2期
關鍵詞:特征信息模型

張雯雯,徐楊,2,白芮,陳娜

(1.貴州大學 大數據與信息工程學院,貴陽 550025;2.貴陽鋁鎂設計研究院有限公司,貴陽 550009)

0 概述

人體姿態估計作為計算機視覺領域的主要研究方向[1],應用范圍十分廣泛。目前,姿態估計存在2 個方面的難點[2]:不同攝影機角度和遮擋目標的檢測與識別以及運算效率。姿態估計最初基于圖像結構[3],即使用樹形結構來模擬身體各部分之間的空間關系。但是當身體存在遮擋時,會導致重復計算。隨著機器視覺的快速發展,研究者開始采用卷積神經網絡的方法進行計算,大幅提高了姿態估計的準確性[4]。近年來,動物姿態估計在動物學、生態學、生物學和農業等領域廣泛應用[5]。動物姿態估計的基本目標是定位并解析動物關鍵點,如下巴、腿和臀部等。目前,用于研究動物姿態估計的網絡主要是深度卷積神經網絡,其按階層結構對輸入信息逐層提取抽象特征并學習計算,最終得到動物關鍵點。

現有包含動物圖像的數據集多數都是為分類和檢測而構建的,只有極少數是為解析動物關鍵點而構建的[6],而為動物標注大量數據集代價非常高。目前,采用深度學習方法進行人體姿態估計已經獲得了顯著的成果,但由于缺乏大量動物標注數據集,深度學習方法并不適合解析動物,將現有的深度學習方法直接應用于動物姿態估計是不可行的。由于合成動物數據集[7]的成本較低,產生具有豐富真實地面的合成動物數據集也更容易,因此許多研究者在進行實驗時使用合成數據。然而,合成數據和真實數據之間存在很大的域間隙[8],從而使得在合成數據上訓練的模型不能很好地應用到真實數據上。

研究者經實驗發現,通過聯合使用合成動物數據集和真實動物數據集,可使成本最小而效果達到最優[9]。CHANG等[10]創建了包含多種3D 模型的ShapeNet,但其中SMPL 是為人類構建的;CAO等[11]提出一種跨域自適應方案來學習人類和動物圖像之間的共享特征空間,從現有的人類姿勢數據集中進行學習,此外,還根據置信度得分選擇偽標簽進入訓練;ZUFFI等[12]為了恢復更詳細的動物三維形狀,提出從真實動物復制紋理,并以端到端的方式預測動物的3D 網格;VAROL等[13]為研究可變形對象的解析,渲染了真實的合成人體模型以縮小合成數據和真實數據之間的差距;TOSHEV等[14]提出深度姿態DeepPose 估計網絡,針對人體關鍵點進行深度神經網絡回歸學習,但該網絡很難檢測到精確的小目標;CHEN等[15]提出的級聯金字塔網絡(Cascaded Pyramid Network,CPN),使人體被遮擋關鍵點的檢測性能得到改善,但因缺乏關節間的結構信息,該方法對多尺度的姿態估計泛化性能較差;NEWELL等[16]提出用于姿態估計的堆疊沙漏網絡(Stacked Hourglass Network,SHN),其改進版本在人體姿態估計領域得到了成功應用[17],但在高低分辨率恢復過程中會產生誤差,導致檢測精確度不高。

本文將堆疊沙漏網絡作為動物姿態的基本網絡框架并進行改進,聯合使用合成動物數據集和真實動物數據集訓練模型,解決動物姿態估計缺乏數據標簽的問題。設計基于SE(Squeeze-and-Excitation)注意力機制的多尺度最大池化模塊 MMPM-S,融合4 種不同尺度下的圖像特征,解決池化操作后特征信息大量丟失的問題。針對沙漏網絡在編碼-解碼過程中丟失網絡淺層定位信息的問題,設計基于 CBAM(Convolutional Block Attention Module)注意力機制的改進沙漏模塊IHNM-C,并進行多級特征融合,從而提高網絡對多通道信息的提取能力,優化需要融合的特征信息,以最小的參數代價有效提高網絡精度。

1 堆疊沙漏網絡

堆疊沙漏網絡(SHN)利用多尺度特征來識別姿態,其由多個沙漏模塊(Hourglass Module,HM)串聯而成,能夠在多尺度空間中進行特征提取及融合,解決模型參數量大和計算量大的問題[18]。如圖1 所示,HM 形狀呈沙漏狀,結構類似鏡像結構(彩色效果見《計算機工程》官網HTML版,下同)。

圖1 沙漏模塊結構Fig.1 Structure of hourglass module

HM 使用編碼-解碼(encode-decode)的結構,主要由下采樣和上采樣操作構成。下采樣的目的是降低分辨率和計算的復雜度,上采樣通過最近鄰插值法進行,目的是提高圖像特征的分辨率,這種自上而下和自下而上的設計使得網絡在每個尺度上都能提取關節點特征,層層疊加后得到最后一層特征圖,既保留了所有層的信息,又能和原圖的大小一致。

本文使用的堆疊沙漏網絡由4 個主要的沙漏網絡構成。由于沙漏網絡整合了局部和全局的信息,因此SHN 對每個沙漏網絡的輸出熱圖和真實熱圖都進行了損失計算,通過級聯結構的沙漏網絡和多階段中間監督對整個圖像的初始特征和檢測結果進行預測,如圖2 所示。

圖2 中間監督過程Fig.2 Process of intermediate supervision

2 本文模型

本文以SHN 作為基礎網絡進行改進,設計多尺度最大池化模塊MMPM-S,解決模型容易丟失網絡淺層信息的問題;同時設計單個沙漏模塊IHNM-C,提高網絡對多通道信息的提取能力,對需要融合的特征信息進行優化。此外,本文還提出一種多級特征融合方法,將深淺層的特征進行融合,以獲得更準確的特征信息。本文總體網絡模型如圖3 所示,通過聯合使用未標記的真實動物數據集和合成動物數據集訓練該網絡模型,從而實現動物的姿態估計。

圖3 總體模型Fig.3 The overall model

2.1 多尺度最大池化模塊MMPM-S

2.1.1 SE 注意力模塊

SE 注意力模塊[19]通過明確建模通道之間的相互依賴,自適應地重新校準通道方面的特征響應,從而提高網絡生成的表示的質量,其中分為Squeeze 壓縮和Excitation 激發兩個步驟,如圖4 所示。

圖4 SE 注意力模塊Fig.4 SE attention module

在SE 注意力模塊中,將輸入X∈RH′×W′×C′特征映射為U∈RH×W×C,將U經過Squeeze 壓縮,實際操作就是全局平均池化,將特征圖壓縮為1×1×C向量,得到統計量z∈RC,z的第c個元素計算公式為:

為利用壓縮操作中聚合的信息,在壓縮之后進行Excitation 激發操作,目的是完全捕獲與通道相關的依賴關系。通過兩層全連接的bottleneck 結構得到特征圖中每個通道的權值,并將加權后的特征圖作為下一層網絡的輸入,如式(2)所示:

為限制模型復雜性,在得到1×1×C向量后,對原來的特征圖進行Scale 操作:

2.1.2 MMPM-S 模塊

本文提出基于SE 注意力機制的多尺度最大池化模塊MMPM-S,融合4 種不同尺度下的圖像特征,如圖5 所示。

圖5 MMPM-S 模塊Fig.5 MMPM-S module

在MMPM-S 模塊中,對輸入特征F進行4 個不同尺度的最大池化操作,得到不同尺度的圖像特征,以防止池化后特征信息的大量丟失。該模塊能夠聚合不同區域的上下文信息,提高獲取全局信息的能力。MMPM-S 生成的不同級別的特征圖,經過卷積(Conv)、上采樣(Upsample)操作,最終通過特征融合(Concat)拼接在一起。MMPM-S 獲取了多尺度特征信息,最后能夠融合合適的全局特征,將局部和全局信息融合到一起。最后,為減小卷積池化過程中因特征圖的不同通道所占的重要性不同帶來的損失,引入SE 注意力模塊,通過卷積還原特征圖通道數,得到提取后的特征圖F′。

2.2 多級特征融合模塊

2.2.1 堆疊沙漏網絡的特征融合

深度卷積神經網絡淺層特征包含較多的位置信息,但是語義信息不足;網絡深層特征蘊含豐富的語義信息,有利于熱圖中心點回歸預測,但是定位信息很粗略,并且在堆疊沙漏網絡編碼-解碼過程中容易丟失網絡淺層定位信息。因此,本文提出對深淺層特征進行融合。將原始圖像經過圖像預處理后輸入到每個沙漏模塊中進行特征傳遞,以獲得更準確的特征信息。由于每一階段的熱圖都是對整個圖像的初始特征和檢測結果進行評估的全局特征信息,因此本文將每個沙漏模塊的熱圖結果作為下一個沙漏模塊卷積層的輸入,從而使下一階段的熱圖估計結果更加準確。

2.2.2 單個沙漏模塊的特征融合

堆疊沙漏網絡疊加了多個沙漏模塊,每個沙漏模塊又疊加了多個上采樣、下采樣和殘差模塊,這會使得局部特征信息大量丟失,不利于更細致地提取動物關節部位紋理和形狀等特征,并且隨著網絡訓練的進行,網絡會更加傾向于識別的動物關節,而動物被遮擋的關節部分更容易被忽略,不利于提取被遮擋部分的特征信息。因此,本文在沙漏模塊進行編碼-解碼的過程中,將輸入的特征信息疊加在最外層的輸出,避免丟失大量的局部特征信息。

2.3 改進沙漏模塊IHNM-C

2.3.1 CBAM 注意力模塊

CBAM 注意力模塊[20]分為通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)。CBAM 是一個輕量級的通用模塊,可以集成到任何CNN 架構中與基本CNN 一起進行端到端的訓練。CBAM 注意力模塊如圖6 所示。

圖6 CBAM 注意力模塊Fig.6 CBAM attention module

假設輸入的特征F∈RC×H×W發送到通道注意力模塊,通道注意力模塊將最大池化(Maxpool)和平均池化(Avgpool)并行連接能夠減少信息的丟失,與單一的池化相比,丟失的信息更少,得到的效果更好。得到兩個一維向量RC×1×1經過共享多層感知機(Shared MLP)處理后相加,再經過Sigmoid 激活后得到一維通道注意力Mc∈RC×1×1,所得的Mc與輸入特征F按元素相乘得到新的特征F′,如式(4)所示:

其中:F為輸入特 征;Mc∈RC×1×1為一維通道注意力;σ表示Sigmoid函數;MLP 為多層感知機;W0∈RC/r×C和W1∈RC×C/r為MLP 兩個隱藏層的參數;為兩種池化在每個通道上聚合空間信息得到的特征表示符。

空間注意力模塊的輸入就是通道注意力模塊的輸出,假設輸入特征是F′∈RC×H×W,按空間進行最大池 化(Maxpool)和平均池化(Avgpool)產生兩個R1×H×W的通道描述,經過拼接后進行7×7 卷積和Sigmoid 激活,最后得到二維空間注意力Ms∈Rc×1×1,如式(5)所示:

其中:F′為輸入特征;Ms∈Rc×1×1為二維空間注 意力;f7×7為濾波器尺寸為7×7 的卷積運算;F′savg和F′smax為兩種池化在每個空間位置上聚合通道信息得到的特征表示符。

將所得的Ms與特征圖F′按元素相乘得到提取后的特征圖F′,如式(6)所示:

其中:?表示逐個元素相乘的符號;F′為注意力模塊內部優化的特征圖;F′為注意力模塊優化后輸出的特征圖。

2.3.2 IHNM-C 模塊

由于深度卷積神經網絡淺層特征包含更豐富的信息,而原始的沙漏模塊定位信息粗略,因此本文設計基于CBAM 注意力機制的改進沙漏模塊IHNM-C,如圖7 所示。

圖7 IHNM-C 模塊Fig.7 IHNM-C module

在IHNM-C 的編碼階段,每層網絡通過Residual block[21]及Maxpool操作,最終得出分辨 率逐漸降低的特征圖。在IHNM-C 的解碼階段,網絡通 過Interpolation block、Residual block 和多次特征融合,逐漸恢復出高分辨率的特征圖。同時,IHNM-C跳躍層經過逐步提取關節特征,向IHNM-C 后半部分傳遞,將跳躍層保留的各尺度特征與后半部分特征進行融合,聯合網絡低層次和高層次的特征圖,實現網絡淺層特征和深層特征的融合,從而減少定位信息的丟失,提高動物姿態的檢測精度。在跳躍層向IHNM-C 后半部分傳遞時,以拼接的方式融合獲得的多尺度特征,容易將無效的特征輸入到最終的特征圖中,影響檢測精度。因此,本文使用CBAM 模塊學習特征融合權重,從而抑制無效特征,提高檢測精度。

2.4 損失函數

本文將損失函數L(n)定義為源數據集(Xs,Ys)和目標數據集Xt熱圖的均方誤差,如式(7)所示:

其中:f(n)為訓練的模型;為訓練生成的偽標簽。

從僅使用合成數據訓練模型開始,獲得初始模型f(0),然后重復迭代訓練n次,當第n次迭代時,用(Xs,Ys)和(Xt,)聯合使用L(n)訓練模型。

3 實驗

3.1 實驗數據集

本文采用堆疊沙漏網絡作為實驗的基礎網絡,使用合成動物數據集和TigDog 真實動物數據集對網絡進行訓練、驗證以及測試。

TigDog 數據集為馬和老虎提供關鍵點注釋,其中馬的圖像取自YouTube,訓練集與測試集比例為5∶1,8 380 幅圖像用于訓練,1 772 幅圖像用于測試;老虎的圖像取自國家地理紀錄片,訓練集與測試集比例為4∶1,6 523 幅圖像用于訓練,1 765 幅圖像用于測試。

合成動物數據集包含5 種動物類別的圖像,包括馬、老虎、羊、狗和大象,每種動物類別有10 000 幅圖像,8 000 幅圖像用于訓練,2 000 幅圖像用于驗證。

此外,本文還在VisDA2019 數據集上測試網絡的泛化能力,該數據集涉及6 個領域,包括真實圖像、素描、剪貼畫、繪畫、信息圖表和快速繪圖。采用草圖、繪畫以及剪貼畫進行泛化能力測試,并驗證本文方法的先進性和有效性。

3.2 評估標準

本文使用正確關鍵點百分比(Percentage of Correct Keypoints,PCK)作為評價指標,即計算檢測的關鍵點與其對應的groundtruth 間的歸一化距離小于設定閾值的比例。PCK@0.05 是指閾值為0.05 時的正確關鍵點百分比,計算公式如下:

其中:i表示id為i的關鍵點;k表示第k個閾值的Tk;p表示第p個動物;dpi表示第p個動物中id為i的關鍵點預測值與人工標注值的歐式距離;表示第p個動物的尺度因子;Tk表示人工設定的閾值;表示Tk閾值下id為i的關鍵點的PCK 指標;表示Tk閾值下算法的PCK 指標。

3.3 實驗環境與實驗設置

本文實驗使用的軟件平臺是Python3.8,服務器的系統是Ubuntu 20.04 版本,顯卡是NVIDIA GeForce GTX 3090,使用PyTorch1.7.0 構建基礎網絡。

堆疊沙漏網絡的堆疊次數為4。在本文實驗中,選用 RMSProp[22]優化器對模型進行優化。訓練周期epoch 為200,batchsize 大小為10,初始學習率 為2.5×10-4,學習率衰減系數為0.1,分別在120 和180 周期時進行一次學習率衰減,每次衰減學習率將會減少10倍。輸入圖像被裁剪為256×256 像素,通過縮放、旋轉、翻轉和顏色擾動進行數據增強。

3.4 實驗結果與分析

通過上述的實驗環境和實驗設置中的參數,在TigDog 數據集和合成數據集上進行實驗,對比本文模型與其他先進的動物姿態估計網絡模型的實驗結果。圖8 所示為訓練后得到的熱圖結果。在訓練過程中,對圖像進行隨機旋轉和翻轉,以增強數據。

圖8 熱圖結果Fig.8 Heatmap results

在TigDog 數據集上進行實驗,當動物分別為馬和老虎時本文模型與其他模型的PCK@0.05 精度對比分別如表1 和表2 所示。其中:加粗數據表示最優值;Real 表示僅用真實動物數據集訓練的模型;Syn 表示僅用合成數據訓練的模型;Eye、Chin、Shoulder、Hip、Elbow、Knee 和Hooves 分別代表眼睛關節點平均值、下巴關節點平均值、肩膀關節點平均值、臀部關節點平均值、肘關節點平均值、膝蓋關節點平均值和蹄關節點平均值;Mean 代表所有關節點平均值。實驗結果表明,本文方法相比于CycGAN[24]、BDL[25]、CyCADA[9]、CC-SSL[23]性能得到了較大提升。相較于有較好表現的CC-SSL,本文模型在對于馬的實驗上PCK@0.05 提高了4.6%,在對于老虎的實驗上PCK@0.05 提高了3.5%,結果與直接在真實圖像上訓練的結果接近。由于老虎通常生活在森林中,經常會被周圍的生物遮擋,而用于訓練的合成動物數據集沒有這種遮擋,因此導致模型很難適應遮擋比較嚴重的場景,這使得表1和表2 中所有模型對于老虎的精度都沒有達到和馬一樣的效果。

表1 不同模型的PCK@0.05 精度對比結果(馬)Table 1 Comparison results of PCK@0.05 accuracy of different models(Horse)

表2 不同模型的PCK@0.05 精度對比結果(老虎)Table 2 Comparison results of PCK@0.05 accuracy of different models(Tiger)

圖9 是本文模型的姿態估計以及局部分割可視化結果。可以看出,即使對于一些極端的姿勢,如趴下和騎馬等,本文模型也能產生準確的預測結果。此外,如圖10 所示,本文模型可以對其他動物類別進行很好的姿態估計,如羊、大象和狗。

圖9 TigDog 數據集上的可視化結果Fig.9 Visualization results on TigDog dataset

圖10 其他動物的可視化結果Fig.10 Visualization result of other animals

3.5 VisDA2019 上的泛化測試

本文采用來自視覺領域適應性挑戰數據集(VisDA2019)的圖像進行模型泛化能力的測試,該數據集包括6 個模塊:真實圖像,草圖,剪貼畫,繪畫,信息圖,快速繪圖。本文采用草圖、繪畫以及剪貼畫進行泛化能力測試,可視化結果如圖11 所示。

圖11 VisDA2019 的可視化結果Fig.11 Visualization results of VisDA2019

不同模型在VisDA2019 數據集上的PCK@0.05精度對比如表3 所示。其中:Visible Kpts 精度表示只考慮直接可見的關鍵點的精度;Full Kpts 精度表示還包括自遮擋的關鍵點;加粗數據表示最優值。可以看出:CC-SSL 和本文模型都優于在真實圖像上訓練的模型,從而證明了聯合使用合成數據集和真實數據集訓練模型的重要性;此外,本文模型性能也優于CC-SSL 模型。

表3 VisDA2019 數據集上的PCK@0.05 精度Table 3 PCK@0.05 accuracy on VisDA2019 dataset

3.6 消融實驗

本文模型以堆疊沙漏網絡作為基礎網絡進行改進,設計多尺度最大池化模塊MMPM-S,從而解決模型容易丟失網絡淺層信息的問題;設計基于注意力機制CBAM 的改進沙漏網絡模塊IHNM-C,從而提高網絡對多通道信息的提取;同時還提出多級特征融合方法,以獲得更準確的特征信息。為證明模型中每個關鍵模塊的有效性和先進性,以馬為實驗對象對TigDog 數據集和合成動物數據集進行消融實驗,同時與CC-SSL 進行比較,實驗結果如表4 所示。其中:“ √ ”表示模型包含這一模塊。

實驗結果表明:相較于目前取得較好表現的CC-SSL,分析PCK@0.05 指標可知,添加多尺度最大池化模塊使精度提高3.28%,而添加多級特征融合模塊提升0.69%,在此基礎上添加注意力機制提升0.13%,這是由于學習了特征融合權重,突出了有效特征;最終模型比基線CC-SSL 提升4.6%,證明了本文方法的可行性。

4 結束語

本文以堆疊沙漏網絡為基礎網絡并進行優化,提出多尺度最大池化模塊,提高模型獲取全局信息的能力,同時設計一種多級特征融合方法,使網絡充分提取和融合特征信息。此外,通過使用注意力機制學習特征融合權重,突出有效特征,從而提升總體網絡模型的識別效果。在TigDog 數據集上的實驗結果表明,本文模型相比于CC-SSL 模型PCK@0.05提高了4.58%。下一步將在保證精度的前提下降低模型參數量和復雜度,并提高其在動物被遮擋情況下的效果。

猜你喜歡
特征信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日韩毛片视频| 99视频在线免费观看| 国产精品99久久久久久董美香 | 青青久视频| 精品国产香蕉伊思人在线| 中文字幕va| 久久精品丝袜高跟鞋| a国产精品| 日韩乱码免费一区二区三区| 国产精品亚洲专区一区| 婷五月综合| 男女性色大片免费网站| 伊人成色综合网| 亚洲男人的天堂在线观看| 国产福利免费在线观看| 夜夜爽免费视频| 日韩AV无码一区| 成人91在线| 日韩精品成人网页视频在线| 国产在线专区| 国产黄色免费看| 亚洲Av激情网五月天| 国产成人精彩在线视频50| 人人澡人人爽欧美一区| 国产精品三级av及在线观看| 天天色天天综合| 精品国产网| 国产成人精品一区二区| 国产精品视频观看裸模| 91综合色区亚洲熟妇p| 亚洲精品色AV无码看| 97se亚洲综合不卡| 四虎永久免费在线| 成人午夜视频免费看欧美| 免费在线一区| 国产成人禁片在线观看| 国产永久免费视频m3u8| 97成人在线视频| 秋霞午夜国产精品成人片| jijzzizz老师出水喷水喷出| 狼友视频一区二区三区| 亚洲精品片911| 欧美日韩国产综合视频在线观看 | 亚洲综合九九| 全午夜免费一级毛片| 亚洲免费毛片| 久久精品最新免费国产成人| 国产精品一区二区久久精品无码| 国产成人久视频免费| 欧美在线三级| 国产小视频在线高清播放| 日韩欧美网址| 亚洲AV无码久久天堂| 国产理论精品| 一级成人a毛片免费播放| 日韩在线网址| 亚洲另类第一页| 亚洲Va中文字幕久久一区| 国产黄色免费看| 日韩高清中文字幕| 欧美午夜网| 国产男女免费完整版视频| 啪啪啪亚洲无码| 午夜视频免费一区二区在线看| 免费一级毛片在线播放傲雪网 | 国产综合在线观看视频| 日韩无码视频播放| 黄色免费在线网址| 五月天香蕉视频国产亚| 成人免费黄色小视频| 国产chinese男男gay视频网| 亚洲美女一区二区三区| 亚洲第一视频网| 国产91视频免费| 欧美一区二区精品久久久| 成人在线视频一区| 免费三A级毛片视频| 久久久91人妻无码精品蜜桃HD| 毛片在线播放网址| 国产福利微拍精品一区二区| 免费视频在线2021入口| 日本免费精品|