999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合卷積與多頭注意力的人體姿態(tài)遷移模型

2023-11-29 10:05:06楊紅張賀靳少寧
計算機應用 2023年11期
關鍵詞:機制特征融合

楊紅,張賀,靳少寧

融合卷積與多頭注意力的人體姿態(tài)遷移模型

楊紅*,張賀,靳少寧

(大連海事大學 信息科學技術學院,遼寧 大連 116026)( ? 通信作者電子郵箱yanghong@dlmu.edu.cn)

對于給定某個人物的參考圖像,人體姿態(tài)遷移(HPT)的目標是生成任意姿態(tài)下的該人物圖像。許多現(xiàn)有的相關方法在捕捉人物外觀細節(jié)、推測不可見區(qū)域方面仍存在不足,特別是對于復雜的姿態(tài)變換,難以生成清晰逼真的人物外觀。為了解決以上問題,提出一種新穎的融合卷積與多頭注意力的HPT模型。首先,融合卷積與多頭注意力機制構建卷積-多頭注意力(Conv-MHA)模塊,提取豐富的上下文特征;其次,利用Conv-MHA模塊構建HPT網(wǎng)絡,提升所提模型的學習能力;最后,引入?yún)⒖紙D像的自我重建作為輔助任務,更充分地發(fā)揮所提模型的性能。在DeepFashion和Market-1501數(shù)據(jù)集上驗證了基于Conv-MHA的HPT模型,結果顯示:它在DeepFashion測試集上的結構相似性(SSIM)、感知相似度(LPIPS)和FID(Fréchet Inception Distance)指標均優(yōu)于現(xiàn)有的HPT模型DPTN (Dual-task Pose Transformer Network)。實驗結果表明,融合卷積與多頭注意力機制的Conv-MHA模塊可以提升模型的表示能力,更加有效地捕捉人物外觀細節(jié),提升人物圖像生成的精度。

人體姿態(tài)遷移;圖像生成;生成對抗網(wǎng)絡;多頭注意力;卷積

0 引言

圖像生成是計算機視覺領域的一個重要分支,而人體姿態(tài)遷移(Human Pose Transfer, HPT)是圖像生成任務的重要實例。HPT又可以稱為姿態(tài)引導的人物圖像生成(Pose-Guided Person Image Generation, PGPIG),它是指給定某個人物的參考圖像作為外觀條件,合成任意姿態(tài)下該人物的圖像。HPT在虛擬現(xiàn)實、電影制作、數(shù)據(jù)增強等領域中具有極大的應用價值。例如,行人重識別問題中可以利用HPT獲取更多人物數(shù)據(jù)。盡管生成對抗網(wǎng)絡[1]、變分自編碼器[2]等深度生成模型發(fā)展迅速,但HPT任務仍面臨挑戰(zhàn)。姿態(tài)變化會導致圖像中人物的紋理細節(jié)和幾何形狀發(fā)生變化,特別是復雜的姿態(tài)變化,其中還存在人體自遮擋問題。成功的HPT要求模型具有很好的人物姿態(tài)與外觀表示能力。為保持生成圖像的逼真度,模型需要推測不可見區(qū)域,捕捉人物外觀細節(jié),比如形狀、衣服紋理、面部。

早期研究[3-4]利用普通卷積網(wǎng)絡構建生成器,難以執(zhí)行復雜的姿態(tài)變換。為此,引入光流估計[5-6]、人體語義分割圖[7-8]和注意力機制[9-10]以提升模型的轉換能力,其中借助光流估計和人體語義分割圖會大幅增加數(shù)據(jù)預處理和模型的復雜度,且光流估計和人體語義分割圖的預測偏差會誤導生成器。此外,這些方法僅僅聚焦于參考圖像到目標圖像的轉換任務,這對于訓練一個魯棒的生成器較為困難。最近,Zhang等[11]提出利用一個輔助任務來提升參考圖像到目標圖像的轉換效果,即讓生成器以參考圖像和參考圖像本身具有的原始姿態(tài)為輸入重構該人物的參考圖像,并利用Transformer[12]塊構建模塊解析輔助任務與主任務之間的相關性以增強目標圖像的生成效果。但是,此項工作使用普通卷積實現(xiàn)特征轉換,在捕捉紋理細節(jié)、生成清晰準確的形狀輪廓方面表現(xiàn)不佳。

注意力機制可以選擇性地突出重要的特征信息,抑制不必要的特征。一些研究[13-16]在卷積神經(jīng)網(wǎng)絡加入注意力機制,提升模型的表征能力,在視覺識別任務中取得了不錯的效果。隨著利用注意力機制實現(xiàn)的Transformer在自然語言處理領域取得巨大成功,視覺Transformer(Vision Transformer, ViT)[17]提出將Transformer架構應用到計算機視覺任務中。并有一些研究[18-20]對ViT進行改進,提出了不同方式的局部自注意力機制,以降低自注意力機制導致的計算復雜度,但也一定程度上減弱了模型捕捉全局表示的能力。此外,Transformer未引入與卷積網(wǎng)絡一樣豐富的歸納偏置,它的泛化性比卷積網(wǎng)絡差。Transformer的核心在于注意力機制,為了融合卷積與注意力機制的優(yōu)點,CoTNet(Contextual Transformer Network)[21]提出將普通卷積與局部自注意力機制融合,但忽略了全局表示。普通卷積擅長局部特征提取,但是難以捕捉全局特征;全局注意力機制可以獲取全局表示,但是可能會丟失特征細節(jié)。CoAtNet[22]和ACmix(a mixed model of self-Attention and Convolution)[23]分析卷積與自注意力機制的相似點,提出了卷積與自注意力機制的并行融合方式,提升了視覺識別效果;但這種并行融合方式不利于發(fā)揮二者的互補優(yōu)勢。

本文借鑒CoTNet[21]的思想,構建了一種新穎的網(wǎng)絡模塊——卷積-多頭注意力(Convolution-Multi-Head Attention, Conv-MHA)模塊,通過融合卷積與全局多頭注意力機制來融合局部特征表示和全局特征表示,改善HPT模型的細節(jié)保留,提升生成圖像的保真度。Conv-MHA模塊利用普通卷積提取局部特征,利用多頭注意力機制提取全局特征,二者以串行方式處理輸入,并采用一種動態(tài)選擇機制[14]融合局部特征與全局特征。考慮到全局注意力機制中全局交互導致的平方級計算復雜度,在模型構建中,本文采用普通卷積網(wǎng)絡構建編碼器和解碼器,使用若干個Conv-MHA模塊以級聯(lián)的方式實現(xiàn)中間轉換。進一步地,本文引入?yún)⒖紙D像的自我重建作為輔助任務[11],并利用Conv-MHA構建解析模塊解析輔助分支和主分支之間的相關性,以對主分支進行特征增強,提升圖像生成質(zhì)量。

1 相關工作

1.1 人體姿態(tài)遷移

Ma等[3]采用二階段生成器以由粗到細的方式生成人物圖像;Esser等[4]利用變分自編碼器獲得人物外觀的潛在表示,以此作為U-Net[24]的條件輸入進行圖像生成。但是這些基于普通卷積網(wǎng)絡的方法難以有效處理復雜姿態(tài)變換。為解決這個問題,Zhu等[10]提出了姿態(tài)注意力轉移網(wǎng)絡(Pose Attention Transfer Network, PATN),通過原始姿態(tài)與目標姿態(tài)的相關性漸進式地生成人物圖像。此外,XingGAN[9]對PATN進一步改進,利用具有交叉連接的兩個分支漸進式地生成人物形狀與外觀,并利用基于注意力的方法融合人物形狀與外觀以生成人物圖像。盡管如此,這些基于注意力機制的方法仍不能有效建模不同姿態(tài)間的變換,會導致紋理細節(jié)的丟失與不恰當?shù)男巫儭?/p>

為了改進姿態(tài)遷移效果,DIAF(Dense Intrinsic Appearance Flow)[5]、DIST(Deep Image Spatial Transformation)[6]提出借助光流估計更好地指導姿態(tài)轉移。這種方式需要首先預測光流,但是對于復雜的姿態(tài)變換和存在遮擋的情況,這種方式難以產(chǎn)生準確的光流,進而誤導圖像生成。除此之外,SPIG(Semantic Person Image Generation)[7]、PISE(Person Image Synthesis and Editing)[8]借助人體語義分割圖輔助HPT。這些是二階段的方法,它們首先預測目標姿態(tài)下的人體語義分割圖,然后以此提供語義信息,提升圖像生成質(zhì)量。但是預測目標姿態(tài)下的人體語義分割圖通常是不穩(wěn)定的,會誤導人物圖像生成;而且這些方法前期數(shù)據(jù)預處理更復雜,不利于此類模型的應用。DPTN(Dual-task Pose Transformer Network)[11]提出引入?yún)⒖紙D像的自我重建作為輔助任務,并構建連體結構,利用Transformer模塊探究輔助任務與主任務的相關性,以更好地建模不同姿態(tài)下的圖像變換;但是,該模型的主干使用的是普通卷積網(wǎng)絡,難以有效處理復雜的形變特征。

1.2 計算機視覺中的注意力機制

ViT提出將Transformer架構應用到計算機視覺任務中,但由于自注意力機制的平方級計算復雜度,原始Transformer架構難以處理高分辨率圖像。為了降低復雜度,Swin-Transformer[18]、HaloNet[20]、CSwin-Transformer[19]借鑒普通卷積中的滑動窗口思想,構建局部自注意力機制,將注意力的計算限制在窗口內(nèi);但這在一定程度上削弱了模型捕捉全局特征表示的能力。對于圖像生成任務,Jiang等[25]構建了一個基于純Transformer架構的生成對抗網(wǎng)絡;Hudson等[26]提出了GANsformer(Generative Adversarial Transformers),利用潛在變量中的信息細化圖像特征。但是這兩種方法并不適合復雜的有條件圖像生成,比如HPT。DPTN[11]基于Transformer構建解析模塊用于探究雙任務的相關性,提升圖像生成質(zhì)量。然而,ViT未引入與卷積網(wǎng)絡一樣豐富的歸納偏置,導致泛化性比卷積網(wǎng)絡差。因此,有研究者提出將二者融合。CoTNet融合了靜態(tài)卷積與局部自注意力機制,但忽略了全局表示;CoAtNet和ACmix提出了卷積與自注意力機制的并行結合方法,在視覺任務上取得了不錯的表現(xiàn);但這種并行結合方式不利于發(fā)揮二者的互補優(yōu)勢,限制了模型性能。

綜上所述,現(xiàn)有HPT方法在建模不同姿態(tài)間的變換、捕捉人物外觀細節(jié)方面仍有不足,特別是對于復雜的姿態(tài)變換。與現(xiàn)有方法不同,本文借鑒CoTNet的思想,構建了一種新型的融合卷積與多頭注意力機制的網(wǎng)絡模塊——Conv-MHA,并將它應用到HPT任務中,旨在提升模型的表示能力,以更好地捕捉人物外觀細節(jié),提升人物圖像生成質(zhì)量。最后通過實驗驗證了所提方法對于HPT任務的有效性。

2 模型設計

本文通過構建的Conv-MHA模塊獲得更加豐富的特征表示。為了充分發(fā)揮該模塊的潛力,參考文獻[11]構建生成器網(wǎng)絡,引入?yún)⒖紙D像的重建作為輔助,并構建相關性解析模塊解析參考圖像重建與目標圖像生成之間的相關性,以生成更清晰、更高保真度的對應人物圖像。模型的整體架構如圖1所示。

圖1 本文模型架構示意圖

2.1 生成器網(wǎng)絡

本文模型基于生成對抗網(wǎng)絡框架構建,其中,生成器網(wǎng)絡參考DPTN,除了生成目標圖像的主分支外,額外構建了一個參考圖像的自我重建作為輔助分支,并且在主分支中利用輔助分支的中間特征信息增強主分支的轉換。與之不同的是,本文采用Conv-MHA模塊實現(xiàn)特征轉換和相關性解析模塊構建。

2.1.1Conv-MHA模塊

卷積和注意力機制是獲取特征表示的兩種有效方法,它們在本質(zhì)上截然不同。普通卷積利用重要的歸納偏置,通過權值共享和局部感受域進行圖像處理,擅長提取底層特征和視覺結構,但是難以捕捉遠距離依賴信息,缺乏對數(shù)據(jù)本身的整體把握;而注意力機制通過全局交互可以挖掘遠距離依賴關系,獲取全局信息,對于高層語義特征的提取更具有優(yōu)勢。

圖2 Conv-MHA模塊結構

2.1.2相關性解析模塊

相關性解析模塊在輔助分支與主分支之間起連接作用。與文獻[11]的方法不同,本文采用Conv-MHA模塊構建相關性解析模塊,解析主分支與輔助分支的內(nèi)在相互關聯(lián),并以此增強主分支中的特征轉換。相關性解析模塊如圖3所示。

圖3 相關性解析模塊結構

2.2 損失函數(shù)

該模型的損失函數(shù)可以表述為:

具體來說,L1損失利用L1距離懲罰生成圖像和實際真實圖像之間的差異:

感知損失[27]計算真實圖像與生成圖像之間的特征距離,懲罰內(nèi)容差異:

風格損失[27]比較真實圖像與生成圖像間的風格相似度,懲罰風格差異:

對抗損失利用判別器D懲罰生成圖像與真實圖像之間的分布差異,本文采用了PatchGAN[29]的方法,將圖像輸入全卷積網(wǎng)絡得到一個概率矩陣,矩陣中的每一個值對應圖像中的一塊區(qū)域,這樣可以更加細致地判別,使模型更關注圖像細節(jié)。為了使訓練更穩(wěn)定,本文使用WGAN-GP[30]中的對抗損失函數(shù):

3 實驗與結果分析

3.1 數(shù)據(jù)集

3.2 評估指標

參考之前的工作[7,10-11],本文采用結構相似性(Structural SIMilarity, SSIM)指數(shù)[34]、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、FID (Fréchet Inception Distance)[35]、感知相似度(Learned Perceptual Image Patch Similarity, LPIPS)[36]作為評估指標。SSIM從結構、亮度、對比度三個方面評估生成圖像與真實圖像的相似程度;PSNR計算生成圖像與真實圖像的像素差異;FID計算生成圖像與真實圖像數(shù)據(jù)分布間的距離,衡量圖像的真實程度;LPIPS衡量生成圖像與真實圖像在感知層面上的距離。

3.3 實驗細節(jié)

本實驗的硬件環(huán)境:CPU是AMD EPYC 7551P,GPU是RTX 3090-24G。軟件環(huán)境是Ubuntu 20.04,CUDA 11.1,使用Python 3.8進行編程,采用PyTorch 1.8深度學習框架實現(xiàn)。

3.4 消融實驗

此外,還分別用CoT[21]模塊和Transformer模塊替換模型中的卷積-多頭注意力模塊進行了對比,對比結果如表1和圖5所示,最優(yōu)和次優(yōu)結果分別通過粗體和下畫線表示。

依據(jù)評估結果對比,采用CoT的生成結果容易產(chǎn)生形變和細節(jié)缺失 ,并且衣服顏色存在略微的差別。CoT融合普通卷積與局部自注意力機制,雖然在圖像分類上取得了不錯的效果,但是并不適合HPT任務。采用Transformer模塊取得了相較于CoT更優(yōu)的指標,且能夠生成更加準確的形狀輪廓。結合卷積與多頭注意力機制的方案,在量化指標上表現(xiàn)更優(yōu),生成結果中具有更完善的細節(jié),表明將二者結合對于提升HPT是重要且有效的。方案(b)和(c)相較于方案(a)表現(xiàn)進一步提升,串行結構優(yōu)于并行結構,基于動態(tài)選擇機制的融合方式優(yōu)于逐元素相加的融合方式。通過比較方案(b)和(c)可以看出,串行結構帶來的性能提升明顯大于基于動態(tài)選擇機制的融合方式。方案(a)、(b)、(c)的生成結果存在一定程度的形變。而方案(d)通過串行結構和動態(tài)選擇機制可以使卷積和多頭注意力機制相互作用,互補短板,提升整體性能,使模型能夠生成更加清晰準確的形狀和輪廓,更加接近于真實圖像的顏色和紋理圖案。

3.5 與現(xiàn)有方法對比

將本文模型與幾個先進的方法進行了比較,包括:PG2[3]、PATN[10]、ADGAN[38]、DIST[6]、PISE[8]、SPIG[7]和DPTN[11]。表3展示了對比結果,最優(yōu)和次優(yōu)結果分別通過粗體和下畫線表示。由表3數(shù)據(jù)可知,在DeepFashion數(shù)據(jù)集上,改進后的模型在SSIM和LPIPS兩項指標上均優(yōu)于其他模型,相較于DPTN,SSIM指標提升了0.206%,LPIPS指標下降了1.073%,F(xiàn)ID指標下降了2.882%,也取得了優(yōu)于DPTN的表現(xiàn),在PSNR指標上也有較優(yōu)的表現(xiàn)。在Market-1501數(shù)據(jù)集上,本文方法在SSIM和PSNR兩項指標上優(yōu)于DPTN,且在PSNR指標上表現(xiàn)最優(yōu),在LPIPS指標上具有次優(yōu)表現(xiàn)。上述結果對比驗證了本文方法對于生成高質(zhì)量圖像的有效性,且更適合較高分辨率的圖像生成。

圖4 四種不同的Conv-MHA模塊設計方案

圖5 不同模塊的定性比較

表1 不同模塊的量化評估

定性比較如圖6所示。PATN、ADGAN容易產(chǎn)生模糊扭曲的結果。DIST借助光流估計改善生成圖像中的人物外觀細節(jié),但是對于復雜的姿態(tài)變換,容易產(chǎn)生細節(jié)丟失。PISE和SPIG通過預測語義分割圖輔助HPT,但是語義分割圖的預測容易產(chǎn)生誤差,會誤導人物圖像生成,如圖6中的前5行,生成圖像中有與真實圖像明顯不符的衣服形狀。DPTN借助輔助任務改進了HPT模型,但模型的上下文表示能力限制了圖像生成質(zhì)量。本文方法通過融合卷積與多頭注意力機制的方式,能更好地捕捉上下文特征,生成更貼近真實圖像的形狀輪廓和紋理細節(jié)。

表2 注意力頭數(shù)量的量化評估

表3 不同模型的結果對比

圖6 不同模型的定性比較

4 結語

為了提高HPT模型的圖像生成精度,本文構建了一種新穎的融合卷積與多頭注意力機制的網(wǎng)絡塊,并利用該網(wǎng)絡塊參與實現(xiàn)了HPT模型。該網(wǎng)絡塊既可以提取局部上下文信息,也可以提取全局上下文信息,并以自適應的方式將二者融合。實驗結果表明,本文方法可以更好地捕捉不同姿態(tài)下的外觀映射,生成更加真實的人物細節(jié)。姿態(tài)的變換可能會導致人物圖像發(fā)生較大的形狀變化和紋理細節(jié)變化,特別是對于復雜的姿態(tài)變換。如果僅考慮局部范圍內(nèi)的特征交互,容易產(chǎn)生不恰當?shù)男巫兒图毠?jié)丟失,而融入全局特征交互可以解決這一問題。然而本文方法仍然存在一定的局限性,比如在生成較為復雜的衣服紋理方面表現(xiàn)出不足。未來的研究中,將尋求方法對生成圖像中人物的不同區(qū)域部位進行細化處理。

[1] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems — Volume 2. Cambridge: MIT Press, 2014: 2672-2680.

[2] KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2022-12-10) [2023-03-17].https://arxiv.org/pdf/1312.6114.pdf.

[3] MA L, JIA X, SUN Q, et al. Pose guided person image generation[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 405-415.

[4] ESSER P, SUTTER E. A variational U-Net for conditional appearance and shape generation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8857-8866.

[5] LI Y, HUANG C, LOY C C. Dense intrinsic appearance flow for human pose transfer[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3688-3697.

[6] REN Y, YU X, CHEN J, et al. Deep image spatial transformation for person image generation[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 7687-7696.

[7] LV Z, LI X, LI X, et al. Learning semantic person image generation by region-adaptive normalization[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 10801-10810.

[8] ZHANG J, LI K, LAI Y K, et al. PISE: person image synthesis and editing with decoupled GAN[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 7978-7986.

[9] TANG H, BAI S, ZHANG L, et al. XingGAN for person image generation[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12370. Cham: Springer, 2020: 717-734.

[10] ZHU Z, HUANG T, SHI B, et al. Progressive pose attention transfer for person image generation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2342-2351.

[11] ZHANG P, YANG L, LAI J, et al. Exploring dual-task correlation for pose guided person image generation[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 7703-7712.

[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[13] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.

[14] LI X, WANG W, HU X, et al. Selective kernel networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 510-519.

[15] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.

[16] SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck Transformers for visual recognition[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 16514-16524.

[17] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03) [2022-06-17].https://arxiv.org/pdf/2010.11929.pdf.

[18] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Tansformer using shifted windows[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 9992-10002.

[19] DONG X, BAO J, CHEN D, et al. CSWin Transformer: a general vision Transformer backbone with cross-shaped windows[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 12114-12124.

[20] VASWANI A, RAMACHANDRAN P, SRINIVAS A, et al. Scaling local self-attention for parameter efficient visual backbones[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12889-12899.

[21] LI Y, YAO T, PAN Y, et al. Contextual Transformer networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 45(2): 1489-1500.

[22] DAI Z, LIU H, LE Q V, et al. CoAtNet: marrying convolution and attention for all data sizes[C]// Proceedings of the 35th Conference on Neural Information Processing Systems (2021) [2022-06-17].https://proceedings.neurips.cc/paper_files/paper/2021/file/20568692db622456cc42a2e853ca21f8-Paper.pdf.

[23] PAN X, GE C, LU R, et al. On the integration of self-attention and convolution[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 805-815.

[24] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.

[25] JIANG Y, CHANG S, WANG Z. TransGAN: two pure transformers can make one strong GAN, and that can scale up[C]// Proceedings of the 35th Conference on Neural Information Processing Systems (2021) [2022-06-17].https://proceedings.neurips.cc/paper_files/paper/2021/file/7c220a2091c26a7f5e9f1cfb099511e3-Paper.pdf.

[26] HUDSON D A, ZITNICK C L. Generative adversarial transformers[C]// Proceedings of the 38th International Conference on Machine Learning. New York: JMLR.org, 2021: 4487-4499.

[27] JOHNSON J, ALAHI A, LI F F. Perceptual losses for real-time style transfer and super-resolution[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Cham: Springer, 2016: 694-711.

[28] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10) [2022-06-17].https://arxiv.org/pdf/1409.1556.pdf.

[29] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5967-5976.

[30] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.

[31] LIU Z, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1096-1104.

[32] ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1116-1124.

[33] CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1302-1310.

[34] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[35] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6629-6640

[36] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 586-595.

[37] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2022-06-17].https://arxiv.org/pdf/1412.6980.pdf.

[38] MEN Y, MAO Y, JIANG Y, et al. Controllable person image synthesis with attribute-decomposed GAN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 5083-5092.

Human pose transfer model combining convolution and multi-head attention

YANG Hong*, ZHANG He, JIN Shaoning

(,,116026,)

For a given reference image of a person, the goal of Human Pose Transfer (HPT) is to generate an image of that person in any arbitrary pose. Many existing related methods fail to capture the details of a person’s appearance and have difficulties in predicting invisible regions, especially for complex pose transformation, and it is difficult to generate a clear and realistic person’s appearance. To address the above problems, a new HPT model that integrated convolution and multi-head attention was proposed. Firstly, the Convolution-Multi-Head Attention (Conv-MHA) block was constructed by fusing the convolution and multi-head attention, then it was used to extract rich contextual features. Secondly, to improve the learning ability of the proposed model, the HPT network was constructed by using Conv-MHA block. Finally, the self-reconstruction of the reference image was introduced as an auxiliary task to make the model more fully utilized its performance. The Conv-MHA-based human pose transfer model was validated on DeepFashion and Market-1501 datasets, and the results on DeepFashion test dataset show that it outperforms the state-of-the-art human pose transfer model, DPTN (Dual-task Pose Transformer Network), in terms of Structural SIMilarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS) and FID (Fréchet Inception Distance) indicators. Experimental results show that the Conv-MHA module, which integrates convolution and multi-head attention mechanism, can improve the representation ability of the model, capture the details of person’s appearance more effectively, and improve the accuracy of person image generation.

Human Pose Transfer (HPT); image generation; generative adversarial network; multi-head attention; convolution

1001-9081(2023)11-3403-08

10.11772/j.issn.1001-9081.2022111707

2022?11?18;

2022?12?25;

楊紅(1977—),女,遼寧葫蘆島人,副教授,博士,主要研究方向:數(shù)據(jù)挖掘、行為識別; 張賀(1998—),男,山東臨沂人,碩士研究生,主要研究方向:圖像生成、深度生成模型; 靳少寧(1996—),女,甘肅靜寧人,碩士研究生,主要研究方向:步態(tài)識別、人工智能。

TP183

A

2022?12?28。

YANG Hong, born in 1977, Ph. D., associate professor. Her research interests include data mining, behavior recognition.

ZHANG He, born in 1998, M. S. candidate. His research interests include image generation, deep generative models.

JIN Shaoning, born in 1996, M. S. candidate. Her research interests include gait recognition, artificial intelligence.

猜你喜歡
機制特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
破除舊機制要分步推進
注重機制的相互配合
主站蜘蛛池模板: 欧洲高清无码在线| 亚洲乱伦视频| 97国产在线视频| 国产女人爽到高潮的免费视频| 国产男女XX00免费观看| 国产精品综合色区在线观看| 美女一区二区在线观看| 女人18毛片久久| а∨天堂一区中文字幕| 国产成人凹凸视频在线| av性天堂网| 欧美在线天堂| 2048国产精品原创综合在线| 国产正在播放| 中国国产一级毛片| 午夜爽爽视频| 色哟哟国产成人精品| 黄色a一级视频| 久久99这里精品8国产| 中文字幕2区| 极品性荡少妇一区二区色欲| 污视频日本| 99久久精品国产综合婷婷| 国产精品永久在线| 亚洲高清中文字幕| 国产精品无码AV片在线观看播放| 亚洲国产精品无码AV| 国产爽歪歪免费视频在线观看| 操美女免费网站| 国产青青操| 无码人妻热线精品视频| 91在线播放国产| 无码啪啪精品天堂浪潮av| 情侣午夜国产在线一区无码| 日韩AV手机在线观看蜜芽| 国产成人h在线观看网站站| 日韩无码黄色| 亚洲精品桃花岛av在线| 中文字幕欧美日韩| 精品久久综合1区2区3区激情| 91成人在线观看| 国产午夜福利亚洲第一| 无码人妻免费| 亚洲手机在线| 亚洲性一区| 久久久久国色AV免费观看性色| 国产www网站| 色爽网免费视频| 在线欧美一区| 女同久久精品国产99国| 亚洲天堂啪啪| 国产精品99久久久| 国产在线专区| 亚洲色中色| 成人看片欧美一区二区| 日韩东京热无码人妻| 在线精品亚洲一区二区古装| 中文字幕亚洲另类天堂| 亚洲高清无在码在线无弹窗| 狂欢视频在线观看不卡| 国产免费久久精品99re丫丫一| 国产精品美人久久久久久AV| 在线中文字幕日韩| 激情亚洲天堂| 久久99热66这里只有精品一 | 一级毛片免费的| 91av成人日本不卡三区| 亚洲视屏在线观看| 国产精品污污在线观看网站| 亚洲国产综合第一精品小说| 亚洲精品高清视频| 中日无码在线观看| 国产无码网站在线观看| 99re在线免费视频| 国产精品久线在线观看| 日韩av无码DVD| 99ri精品视频在线观看播放| 在线观看国产网址你懂的| 日韩精品久久无码中文字幕色欲| 亚洲人成日本在线观看| 99视频在线免费| 成人福利一区二区视频在线|