999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合CoT Block的人物圖像生成算法

2023-06-25 07:42:18姚星月
現代信息科技 2023年7期

摘? 要:目前,學者們對人物圖像生成技術的研究主要集中在對人物姿勢的編輯方面,忽略了身體的外觀特征,導致所生成人物圖像的質量不夠理想。鑒于此,提出一種融合CoT Block的人物圖像生成方法,即在已有PG2模型的基礎上,將改進后的CoT Block引入到生成對抗網絡中,通過對上下文語義信息的挖掘以及結合自注意力學習機制,更好地捕獲人體姿態(tài)特征;然后利用PGGAN中的鑒別器進一步增強對圖像真?zhèn)蔚蔫b別能力。實驗結果表明,改進后的算法有效提高了人物圖像的生成質量。

關鍵詞:圖像生成;生成網絡;CoT Block;PGGAN

中圖分類號:TP391? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)07-0090-04

Abstract: At present, scholars' research on the generation technology of character image mainly focuses on the editing of character posture, ignoring the appearance characteristics of the body, resulting in the quality of the generated character image is not ideal. In view of this, a character image generation method fused with CoT Block is proposed, that is, based on the existing PG2 model, the improved CoT Block is introduced into the generative adversarial network, and the human posture features are better captured through the mining of context semantic information and the combination of self-attention learning mechanism; Then the discriminator in PGGAN is used to further enhance the ability to identify the authenticity of the image. Experimental results show that the improved algorithm can effectively improve the generation quality of character image.

Keywords: image generation; generative network; CoT Block; PGGAN

0? 引? 言

人物圖像生成的目的是在保留源圖像外觀細節(jié)的同時,傳輸具有任意姿勢的人物圖像。這項任務現如今已成為計算機視覺中的一個新興熱門話題。它在許多任務中都有巨大的潛在應用,如視頻生成、虛擬服裝試衣、個人相關視覺人物的數據增強等。

深度學習在人物姿勢轉換方面取得了顯著成果,其中生成對抗網絡[1]是比較常用的方法。早期研究直接采用全局預測策略并通過U-Net結構傳播低級特征,然而基于U-Net結構的全局方法往往無法解決源姿勢與目標姿勢之間的空間錯位問題,這導致生成的圖像存在各方面的細節(jié)缺陷。文獻[2]提出兩階段姿勢引導圖像合成的方法(PG2),能夠達到任意姿勢的轉換效果,并且首次提出了掩碼損失,但是在生成圖像的細節(jié)處理方面還存在不足。文獻[3]將變分自動編碼器(VAE)和U-Net相結合對人體姿態(tài)展開研究,通過跳躍連接和最近鄰損失來優(yōu)化GAN模型,但是U-Net中的跳躍連接容易引起空間位置上的特征錯位,從而影響生成圖像結果。文獻[4]為了解決U-Net中跳躍連接所產生的特征錯位現象,將其改為變形的跳躍連接,但可變形的跳躍連接需要提前進行預處理工作,在許多方面存在一定的局限性。文獻[5]使用姿勢注意力轉換模塊,將源姿勢和目標姿勢進行深度連接,然后再經過一系列級聯更新操作,使網絡能夠關注這些姿態(tài)特征,之后在無監(jiān)督的情況下生成帶有姿態(tài)特征的人物圖像。但是該方法僅僅關注了人體姿態(tài),忽略了人物的外觀、衣服的紋理細節(jié)等方面。文獻[6]為了提供對各個區(qū)域中樣式的詳細控制,提出聯合全局和局部的區(qū)域編碼,空間感知規(guī)范化,達到解耦樣式和形狀,以及保留空間上下文信息,并且使用門控卷積,將源解析圖重組,動態(tài)選擇學習每個空間位置。但是所提出的門控卷積生成的目標解析圖效果往往不穩(wěn)定,這就會影響最終生成的圖像質量。雖然上述的方法在一定情況下都取得了不錯的效果,但在生成圖像屬性,包括紋理和風格方面仍然存在一系列的困難。

基于以上的討論,在已有的兩階段姿勢引導圖像合成方法PG2模型上提出了一種融合上下文轉換模塊(CoT Block)[7]的人物圖像生成算法。通過在Market-1501數據集和DeepFashion數據集上進行實驗驗證,并與之前存在的方法相比較,進一步驗證了提出的方法在圖像生成方面有較高的魯棒性和較低的耦合性。

1? 模型分析

模型在已有的兩階段姿勢引導圖像合成方法PG2的基礎上,將改進后的CoT模塊引入生成對抗網絡中,提出了一種融合CoT Block的人物圖像生成算法。

1.1? 兩階段姿勢引導圖像生成模型

PG2模型首次提出了兩階段姿勢引導圖像合成方法來解決姿勢轉移問題。在第一階段,利用變體U-Net生成一幅學習了目標姿勢的粗糙人物圖像,該圖像僅含有少量紋理細節(jié)特征,然后在第二階段通過生成網絡PG2對源圖像和上一步生成的粗糙人物圖像進行融合細化,生成了帶有紋理細節(jié)特征的目標圖像,最后在鑒別網絡D的作用下對生成圖像的真假進行判斷。PG2具體結構如圖1所示。

1.2? 改進的上下文轉換模塊

傳統(tǒng)的自注意力僅在空域進行信息交互,依賴于輸入自身,忽視了近鄰間豐富的上下文語義信息,嚴重限制了二維特征圖的自注意力學習能力。并且由于圖像中相鄰像素之間具有很強的關聯性,引入自注意力訓練圖像時,可能會造成圖像輸入信息冗余,影響生成圖像的質量。為緩解該問題,在生成網絡G2中引入改進后的CoT模塊來降低相鄰像素之間的冗余,如圖2所示,進一步提升輸出特征的表達能力,為了獲取圖像中相鄰像素之間的強關聯性,降低其輸入冗余造成的影響,對特征圖進行白化操作,得到圖像的靜態(tài)上下文信息,對捕捉到的圖像進行白化計算為:

其中,f (xi)為i像素的特征值,μf為普遍像素特征的平均數,g(xj)為j像素的特征值,μg為全局像素特征的平均數,σ為像素的協方差矩陣歸一化,αj,i為像素i、j之間的成對關系。

為保證生成圖像具有更多的紋理細節(jié)特征,對其增加一個像素顯著性操作,并與其他分支的特征圖進行跨維度特征融合,得到圖像的動態(tài)上下文信息。該相似度計算為:

其中? 是非剛性的注意力計算公式解耦后αj,i后余下的單項,以Wg xj計算g(xj)得到像素j的特征值,采用獨立線性變換Wm替代Wg,將? 近似于mj,代表新提取的像素j的顯著特征信息。

將經過白化操作得到的靜態(tài)上下文語義信息與上述生成的動態(tài)上下文語義信息進行相加融合,得到一個新的CoT模塊。

1.3? 引入上下文轉換模塊的生成對抗網絡

1.3.1? 生成網絡G2

G1生成的圖像中包含了目標圖像的大量姿態(tài)信息,但在人物姿態(tài)方面的特征信息學習不足,因此要進一步加強對源圖像的細節(jié)特征提取。與PG2方法相比,第二階段的生成網絡仍采取U-Net結構,但是將網絡中3×3的卷積替換成1.2中改進的CoT Block,可以降低模型復雜度,減少計算量。為了將源圖像的更多紋理細節(jié)特征保留下來,去掉U-Net的全連接層,在上下采樣層之間通過跳躍連接的空間位置增加感受野。具體結構如圖3所示。

1.3.2? 鑒別網絡D

為更好地增強生成圖像的外觀、紋理等細節(jié)特征,鑒別器結構采取了PGGAN設計,加快訓練網絡的收斂性,確保模型的穩(wěn)定性。PGGAN鑒別器是將傳統(tǒng)鑒別器和PatchGAN鑒別器相結合,一個分支用于判斷生成圖像是真圖還是假圖,另一個用來確定圖像局部紋理特征的相似度,這樣就可以讓鑒別器在區(qū)分生成圖像和真實圖像的同時更加關注圖像的全局和局部特征信息。

1.4? 損失函數

為了比較生成圖像y*和目標圖像y,采用L1距離作為第一階段G1的生成損失。L1原始的圖像重建損失為:

為了降低條件圖像背景不同造成的損失,在L1損失中添加了姿勢掩碼My,所以生成器G1階段的損失函數為:

其中,G2(x, y1)為第二階段生成的圖像,D(x, y)為源圖像和目標圖像經過真假判斷的結果,D(x,G2(x, y1)為源圖像和生成器G2生成的圖像經過真假判斷的結果,Lbce為二元交叉熵損失。

其中是損失的權重,它控制生成在低頻下與目標圖像的相似程度。

2? 實驗分析

實驗模型框架采用PyTorch編寫,GPU為NVIDIA Quadro P4800。實驗在DeepFashion和Market-1501數據集上均采用了Adam優(yōu)化器,設置β1為0.5,β2為0.999,初始學習率均為2exp(-5)。

2.1? 數據集

實驗在DeepFashion數據集和Market-1501數據集上進行驗證。DeepFashion包含52 712張分辨率為256×256的高清圖片,其中含有大量帶有各種姿勢和外觀的服裝圖像特征;Market-1501數據集包含32 668張分辨率為128×64的圖像,其中有豐富的背景、姿勢、視角和照明的變化。實驗在預訓練中使用人體姿態(tài)估計器來獲取每張圖像的人體關鍵點數據,并且為了更好地表征網絡通用化能力,對訓練集和測試集進行了身份識別不重疊。

2.2? 評價指標

實驗采用Inception Score(IS)和Structural Similarity(SSIM)對生成圖像的性能和生成圖像的質量進行評估。值得注意的是,在Market-1501數據集中,由于源圖像和生成圖像的背景可能存在差異,所以采用另一組mask-SSIM和mask-IS掩碼評價指標來減少Market-1501數據集對背景的影響,掩碼評價指標是在計算SSIM和IS之前,將姿勢掩碼添加到源圖像和目標圖像中,進一步對生成圖像的質量進行評估。

2.3? 消融實驗

為了驗證提出模型的有效性,分別使用基礎模型(baseline:PG2)、改進鑒別器模型(baseline+D)、融入CoT Block的完整模型(all)在Market-1501數據集和DeepFashion數據集上進行定性和定量測試。定性測試結果如圖4所示,定量測試結果如表1所示。

從圖4可以看出,雖然基礎模型生成了較完整的圖像,但是在圖像的清晰度和細節(jié)特征方面存在很多不足,而在改進判別器的模型中,生成的圖像明顯比基礎模型的輪廓更清晰,但是在外觀、衣服紋理方面仍然不完整,而引入改進CoT Block的完整模型,生成了較為真實的服裝結構,在局部和全局特征都表現出較好的效果,證明了改進后模型的可行性。

從表1中可以看出,改進鑒別器D和融入CoT模塊的完整模型在性能上都有了明顯提升,各項評價指標均優(yōu)于基礎模型PG2,從另一角度證明了改進模型在圖像生成方面的魯棒性。DeepFashion數據集上圖像的SSIM和IS取得了最好的結果,證明了(all)模型在圖像生成方面更優(yōu)越,而Market-1501數據集上圖像的SSIM和mask-SSIM的值較PG2模型分別有了0.043和0.095的提升,雖然在IS和mask-IS上卻沒有取得最佳效果,但相比較基礎模型PG2也有了0.018和0.002的提升。

3? 結? 論

在兩階段姿勢引導人物圖像合成PG2的基礎上,提出了一種融合CoT Block的人物圖像生成算法。在生成網絡G2中引入改進后的CoT模塊,通過把上下文信息挖掘與自注意力學習集成到統(tǒng)一架構中,使得近鄰間的上下文信息以一種高效方式提升自注意力學習,最終提升輸出特征的表達能力;同時,在判別網絡中使用PGGAN判別器,使得圖像真假判斷的準確性得到提升。在兩個數據集上的實驗表明,該模型較PG2方法在定性和定量結果上都有了明顯的提升。

參考文獻:

[1] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Generative Adversarial Nets [EB/OL].[2022-10-29].https://arxiv.org/pdf/1406.2661v1.pdf.

[2] MA L Q,JIA X,SUN Q R,et al. Pose guided person image generation [J/OL].arXiv:1705.09368 [cs.CV].[2022-10-29].https://arxiv.org/abs/1705.09368v3.

[3] ESSER P,SUTTER E. A Variational U-Net for Conditional Appearance and Shape Generation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8857-8866.

[4] SIAROHIN A,SANGINETO E,LATHUILIERE S,et al. Deformable GANs for Pose- Based Human Image Generation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:3408-3416.

[5] ZHU Z,HUANG T T,SHI B G,et al. Progressive pose attention transfer for person image generation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:2342-2351.

[6] ZHANG J S,LI K,LAI Y K,et al. PISE: Person Image Synthesis and Editing with Decoupled GAN [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:7978-7986.

[7] LI Y H,YAO T,PAN Y W,et al. Contextual Transformer Networks for Visual Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(2):1489-1500.

作者簡介:姚星月(1998—),女,漢族,安徽蚌埠人,碩士在讀,研究方向:圖像處理。

主站蜘蛛池模板: 99精品免费欧美成人小视频| 中文字幕 日韩 欧美| 亚洲第一精品福利| 日韩国产欧美精品在线| 日韩美一区二区| 免费无码又爽又黄又刺激网站| 精品国产欧美精品v| 日韩A∨精品日韩精品无码| 亚洲天堂伊人| 久久久噜噜噜| 精品无码国产一区二区三区AV| 亚洲无码精彩视频在线观看| 亚洲成人高清无码| AV无码无在线观看免费| 欧美激情视频一区二区三区免费| 99视频免费观看| 久久99精品久久久久纯品| 国产精品美女网站| 久久美女精品国产精品亚洲| 精品三级在线| 久久永久视频| 无码中文字幕乱码免费2| 精品久久香蕉国产线看观看gif | 欧美日韩亚洲国产| 日韩精品毛片人妻AV不卡| 就去吻亚洲精品国产欧美| 欧美视频在线第一页| 免费看a级毛片| 免费观看精品视频999| 国产精品永久在线| 欧美成人午夜视频免看| 国产网站免费| 亚洲视频欧美不卡| 亚洲va在线∨a天堂va欧美va| 一本大道视频精品人妻 | 亚洲熟女中文字幕男人总站| 中字无码精油按摩中出视频| 刘亦菲一区二区在线观看| 九色91在线视频| 孕妇高潮太爽了在线观看免费| 国产成人高清在线精品| 40岁成熟女人牲交片免费| 美女被狂躁www在线观看| 91国内视频在线观看| 国产成人精品一区二区秒拍1o| 99re66精品视频在线观看 | 久草视频精品| 看国产一级毛片| 久久久久亚洲精品成人网| 国产区精品高清在线观看| 精品久久久久成人码免费动漫| 国产欧美日韩资源在线观看| 国产一区二区网站| 免费A级毛片无码免费视频| 精品超清无码视频在线观看| 日本高清在线看免费观看| 99久久99视频| 91精品啪在线观看国产| 成人字幕网视频在线观看| 久操线在视频在线观看| 99视频国产精品| 国产三级a| 久久久久国色AV免费观看性色| 日韩中文字幕亚洲无线码| 欧美精品另类| 18禁黄无遮挡网站| 国产在线精品99一区不卡| 日韩在线网址| 亚洲婷婷在线视频| 欧美高清三区| 青草视频免费在线观看| 91色国产在线| 99久久成人国产精品免费| 五月婷婷导航| 毛片网站观看| 亚洲成av人无码综合在线观看| 91成人免费观看在线观看| 久热这里只有精品6| 一本久道热中字伊人| AV熟女乱| 欧美无遮挡国产欧美另类| 久热re国产手机在线观看|