999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于姿勢引導與屬性分解的人物圖像生成

2023-01-09 14:29:00張戰成
計算機工程 2022年11期
關鍵詞:模型

殷 歆,張戰成

(蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009)

0 概述

人物圖像生成在圖像編輯、圖像重建、動畫制作、短視頻虛擬特效等領域[1]得到廣泛應用。姿勢遷移的目標是以目標姿勢引導模型生成出具有相同姿勢的真實人物圖像,其為人物圖像生成領域一個具有挑戰性的任務,尤其是不同視角下人物不同姿勢圖像在外觀上存在較大差異時,要求生成器能夠捕獲圖像分布所具有的較大變化。

早期的人物圖像生成方法直接對整個源人物圖像進行編碼,然后解碼生成圖像,這種整體編碼在面對具有復雜多樣衣服的多種人物圖像時,難以針對詳細的紋理對整個人物進行正確編碼,細節失真較為嚴重。屬性分解的生成對抗網絡(Attribute-Decomposed Generative Adversarial Network,ADGAN)[2]提出一種將源人物圖像分解為多個部件并分別編碼再重組構建完整樣式碼的編碼方式DCE(Decomposed Component Encoding),其只針對人物一個組成部分的特征進行編碼,使編碼難度降低,同時也加快了模型的收斂速度,所生成圖像的細節更為逼真,但是,這種單純的先分解人物組件編碼再拼接的編碼方式相對于整體編碼方式遺漏了人體各部分之間的關聯性,當源人物的姿勢和衣服紋理過于復雜時,該編碼方式容易出現紋理和顏色編碼混亂,進而導致所生成的人物丟失源人物的紋理特征。

針對上述問題,本文提出一種姿勢引導分解組件編碼器P-DCE(Pose Guided Decomposed Component Encoding),為每一個分解的源人物組件增加源人物完整的人體姿勢關鍵點信息,確保在任何復雜人物圖像的編碼中都不會丟失人物各個部件之間的關聯性。同時,在網絡中加入循環一致性約束,用來約束生成圖像與源圖像之間的紋理編碼和人物姿勢的一致性,從而保證生成圖像與源人物圖像的整體外觀相一致。

1 相關工作

生成對抗網絡(Generative Adversarial Network,GAN)[3]在圖像生成領域發揮了重要作用,但是其難以控制生成器的輸出,生成內容極其依賴訓練數據集的分布。為了使GAN 的輸出變得可控,文獻[4]提出條件生成對抗網絡(Conditional Generative Adversarial Network,CGAN),在生成器輸入端增加一個標簽輸入,在鑒別器的輸入端也加入相同標簽,從而控制生成器輸出與標簽相關的內容,CGAN 的出現推動了圖像風格遷移的發展。文獻[5]結合CGAN 的思想同時在網絡中加入多鑒別器用于生成人物衣服的搭配圖像,文獻[6]在CGAN 的基礎上加入UNet 結構[7],提出一種新的鑒別器Patch GAN,稱為pix2pix,其實現了圖像到圖像的翻譯和圖像的風格遷移,擴展了CGAN 的應用范圍。隨后,文獻[8]提高了pix2pix 的圖像生成質量,生成的圖像達到了高分辨率的水平,但是pix2pix 系列方法依賴于訓練標簽間一一對應的關系,導致數據集的獲取比較困難。為了解決上述問題,使圖像風格遷移更易訓練,文獻[9]提出一種無監督的圖像風格遷移方法CycleGAN,該方法引入循環一致性約束,使用2 個包含未標注圖像的圖像域訓練生成圖像。文獻[10]使用CycleGAN 的循環約束結構設計用于雨天圖像中雨水去除的DerainCycleGAN 算法。文獻[11]提出一種結合變分自動編碼器(VAE)和生成對抗網絡的聯合生成模型,以生成高質量的不可見特征,有效解決了訓練數據集獲取困難或不可用的問題。文獻[12-13]基于pix2pixHD 對生成人物視頻進行研究,但是pix2pix 的特性使得生成人物圖像不具多樣性。

針對人物圖像生成問題,已經有許多基于生成對抗網絡合成任意姿勢的人體圖像生成算法被提出。文獻[14]提出一種雙階段的生成器結構以合成人物圖像,其中,第一階段對具有目標姿勢的人物進行粗略合成,隨后在第二階段對其進行細化,在生成過程中較好地分離了人物的姿勢和外觀。文獻[15]提出一種全新的生成器架構,通過自適應實例規范化AdaIN[16]控制生成器,合成比較逼真的人臉圖像,AdaIN 可實現任意風格遷移,其中也包括人物姿勢和紋理的遷移,被廣泛應用于許多人物圖像生成任務中。文獻[17]將級聯式姿勢注意模塊加入到生成器中,以逐步引導可變性傳遞過程,利用雙向策略在無監督的情況下合成人物圖像,但是該方法只將源人物的姿勢傳遞給目標人物,忽略了人物的外觀、衣服紋理、背景等信息,對于復雜紋理的生成效果不佳。文獻[2]提出的ADGAN 在PATN 級聯式模型的基礎上進行優化,采用級聯式姿勢注意力模塊完成姿勢引導,同時使用AdaIN 模塊將人物組件屬性(如頭部、上衣、褲子等)編碼注入到姿勢編碼中,可以生成紋理一致和姿勢一致的人物圖像,但是ADGAN缺少對姿態控制的引導條件,導致人物姿態失真。為了更精確地進行人體紋理解耦,文獻[18]提出聯合人物圖像的全局和局部逐區域編碼和標準化的方式來預測不可見區域的服裝的合理風格,使生成圖像的人物紋理更加精確。

2 姿勢引導和屬性分解的生成對抗網絡

本文在ADGAN[2]的基礎上增加姿勢引導紋理生成模塊,并設計一種新的融合模塊,加入循環一致性約束,在人體分解紋理編碼部分對每一個分解后的模塊(如頭部、上衣、褲子、肢體等)都在通道維上拼接人體姿勢信息,每個通道代表一個人體部位的關鍵點。

本文所提姿勢引導和屬性分解的生成對抗網絡的生成器結構是由姿勢路徑和紋理路徑這2 條路徑所組成的雙流結構,如圖1 所示。生成器需要3 個輸入,即需要生成的目標人物姿勢Pt∈R18×H×W、源(條件)人物圖像Is∈R3×H×W、源人物姿勢Ps∈R18×H×W,輸出為生成的圖像Ig∈R3×H×W,即源人物Is在目標姿勢Pt下的圖像。紋理編碼器的輸出通過若干個級聯模塊與解碼器連接,紋理路徑輸出的樣式碼被注入到級聯模塊中與姿勢編碼相結合,通過解碼器重構出目標人物圖像Ig。對于生成圖像Ig,添加了姿勢回歸和紋理回歸模塊。

圖1 雙流生成器結構Fig.1 Double stream generator structure

2.1 紋理路徑

紋理路徑的全稱為姿勢引導的人物紋理屬性分解編碼器,源人物圖像Is和源人物姿勢Ps通過該模塊被嵌入到隱空間中,編碼為樣式碼Cstyle。如圖1 所示,源人物圖像Is輸入到預訓練的語義分割算法Look into Person[19]中提取人物的語義映射,并按照不同的人物屬性(如頭部、衣服、四肢等)轉換為8 個通道的語義映射M∈R8×H×W,將每一個通道Mi∈RH×W(i∈[1,2,…,8])作為掩碼,與源人物圖像相乘得到當前人物屬性的分解人物組件掩碼。為了加強人體姿勢關鍵點與人體分解組件之間的位置對應關系,將計算出的3 通道的分解人物圖像與18 通道的源人物姿勢Ps在通道維堆疊成21 通道的矩陣,輸入到紋理編碼器Tgrain中,計算出每個分支i對應的樣式碼,最終將所有的分解樣式碼堆疊起來組成完整的人物樣式碼Cstyle,如下:

其中:⊙代表每個通道都逐元素相乘;?表示將2 個矩陣沿通道維堆疊;Tgrain為紋理編碼器。

紋理編碼器(Tgrain)是由一個固定權重編碼器和一個可學習權重的編碼器組合而成的全局編碼器。固定權重編碼器是在圖片風格轉換網絡AdaIN 上使用COCO 數據集[20]預訓練的VGG 網絡[21],該編碼器參數固定,由于預訓練的VGG 網絡在COCO 數據集中具有由各種紋理圖像訓練的權重,對復雜的紋理都具有強大的泛化能力,大幅提高了模型性能,但是,固定權重的編碼器針對的是任意圖像的風格轉換,為使編碼器可以更好地適應人物風格轉換,在每一個VGG 層的位置疊加一個輸出維度相同的可學習權重的卷積層,最終編碼器輸出的編碼為由可學習權重編碼器和固定權重編碼器的輸出所疊加的編碼,經過平均池化層得到組件樣式碼,如圖2所示。

圖2 紋理編碼器結構Fig.2 Texture encoder structure

2.2 姿勢路徑

姿勢路徑的目的是將紋理路徑輸出的樣式碼Cstyle表示的源人物紋理特征注入到目標姿勢Pt的特征中,由一個融合模塊將姿勢特征與樣式碼特征連接。姿勢路徑由姿勢編碼器、解碼器和t(t=8)個級聯式模塊組成,每個級聯式模塊由一個融合模塊、卷積層和AdaIN 模塊組成。

本文模型共采用8 個級聯式模塊,其中第一塊沒有前置塊輸入,其直接使用最初的目標人物姿勢Pt通過姿勢編碼器編碼后的輸出作為輸入,后續的每一個級聯式模塊的輸出都由當前模塊Ft的輸出與前一個級聯式模塊Ft-1的輸出相加所得,如圖1 所示。

輸入的參數通過融合模塊(Fusion Module,FM)從樣式碼Cstyle中提取,不同于ADGAN 中的融合模塊結構,本文模型中樣式碼Cstyle每一個組件的樣式碼都帶有人體關鍵點信息,最終構成的樣式碼帶有人體各部位的原始關聯性,不需要使用全連接層進行線性重組,融合模塊被設計成4 個下采樣卷積層進一步提取樣式碼的特征,最后一層使用全連接層將特征轉換為所需要的維度。在此基礎上,將最后一個級聯式模塊Ft的輸出輸入到由8 個反卷積層組成的解碼器中,得到最終的生成圖像Ig。

2.3 鑒別器

本文模型使用單個鑒別器,用于確保生成圖像Ig的外觀與源人物相似,鑒別器的輸入為生成圖像Ig。鑒別器結構設計時參考PatchGAN[4]的全卷積設計,原始的GAN 鑒別器僅針對整幅圖像輸出一個評價值,PatchGAN 輸出一個N×N大小的矩陣,矩陣中每一個元素對應圖像中的一個小區域的評價值,這種鑒別器相比普通鑒別器對整個圖像的關注更全面,得出的評價均值更準確,在一些圖像風格遷移任務[4,6,14]中取得了更好的效果。

2.4 循環一致性約束

模型生成圖像的隱空間信息應該與條件(源)圖像的隱空間信息保持一致[22]。針對本文模型的2 條路徑,網絡中添加2 種隱空間回歸、姿勢回歸和紋理回歸。

姿勢回歸使生成圖像Ig的姿勢關鍵點Pg與目標姿勢關鍵點Pt對齊,即Pg≈Pt,Pg由生成圖像Ig通過預訓練的人體姿勢關鍵點網絡(OpenPose)[23]計算得到。由于人體姿勢關鍵點信息容易計算與表示,無需為此設計專門的姿勢鑒別器,因此可使用式(3)直接計算Pg與Pt之間的L1 距離:

2.5 損失函數

模型的整體損失函數Lfull包含GAN 對抗損失Ladv、循環一致性損失Lp_cyc和Le_cyc、重建損失Lrec、感知L1 損失LpreL1,計算公式如下:

其中:λ1、λ2、λ3、λ4是損失函數對應的權重,實驗中λ1、λ2取3,λ3、λ4取2。

對抗損失來自模型中的生成器G 和鑒別器D,目的是幫助生成器生成具有與源人物圖像視覺外觀相似的目標人物圖像,如下:

重建損失用于引導生成圖像的外觀與目標圖像的外觀相似,從而避免人物顏色和紋理的失真,可達到加快收斂和提高生成精度的效果,重建損失為生成圖像與目標圖像之間的L1 距離。

感知L1 損失用于減少生成人物姿勢的扭曲和失真,且可以使生成圖像看起來更自然,該損失在一些超分辨率重建[24]、風格轉換[25]、姿勢遷移[26]任務中具有有效性。

3 實驗結果與分析

本文模型基于PyTorch 框架編寫,GPU 卡為NVIDIA Tesla-V100。超參數的設置使用動量為0.5的Adam 優化器對模型進行800 個epoch 的訓練,每一個epoch 進行17 000 次迭代,采用每隔80 個epoch將學習率下降20%的線性衰減學習率調整策略。

3.1 實驗設計

3.1.1 數據集

本文實驗在DeepFashion 數據集[27]上進行訓練和測試,該數據集包含52 712 張分辨率為256×256像素的高清且具有多人物、多姿勢和不同外觀的人物圖像,其中人物數量以及每個人物的姿勢和外觀豐富,使得該數據集被廣泛應用于人體姿勢遷移算法的訓練和測試中。為了盡量簡化輸入圖片的信息,在預處理階段把每張圖片切割為176×256 像素的分辨率,去除多余的背景,使用人體姿態估計算法OpenPose 獲取每張圖像的人體關鍵點數據。利用在數據集中隨機抽取的方法配對相同人物在不同姿勢下的101 967 個圖像對用于訓練,8 571 個圖像對用于測試,經預處理后的部分圖像如圖3 所示。

圖3 DeepFashion 數據集示例Fig.3 Example of DeepFashion dataset

3.1.2 評價指標

本文使用感知評分(IS)、結構相似性(SSIM)和峰值信噪比(PSNR)來評價生成模型的性能和模型生成圖像的質量。

IS 是用來評價GAN 生成圖像的質量和多樣性的常用指標,其無需跟真實圖像比較,只需生成多張圖像即可計算。IS 在ImageNet 中被提出,計算時需使用預訓練的Inception Net V3 生成圖像信息,IS 值越大,說明GAN 網絡生成圖像的質量和多樣性越好。SSIM 是一種用于衡量2 張圖像相似度的常用指標,用于計算的2 張圖像分別為真實圖像和生成圖像,該指標衡量2 個樣本間的亮度、對比度和結構,計算時每次從圖像上取一個分辨率為N×N的窗口單獨計算,然后滑動窗口依次計算,最后取平均值作為全局SSIM 值,SSIM 值越高,說明生成圖像與源圖像差異越小。PSNR 是使用最為廣泛的圖像畫質評價指標,其提供了衡量圖像失真或噪聲水平的客觀標準,PSNR 值越高,說明生成圖像的失真程度越低。為了比較各方法之間的差異性,本文對所有生成圖像的SSIM 和PSNR 指標進行成對t 檢驗(Paired ttest),該指標用于檢驗2 個樣本平均數與其各自所代表的總體的差異是否顯著,成對t 檢驗的p 值小于0.05,表示2 個樣本差異顯著,反之,則表示2 個樣本差異不明顯。IS 指標對多張圖像進行度量,無法進行成對t 檢驗,實驗僅報告全體測試樣本上的度量。

3.2 損失曲線

對比本文模型和ADGAN 在訓練時總損失Lfull的變化曲線,結果如圖4 所示,從中可以看出,本文模型增加的姿勢信息和循環一致性約束可以有效加快模型的收斂速度。

圖4 損失曲線比較Fig.4 Comparison of loss curves

3.3 消融實驗

為了測試網絡中加入的2 個隱空間回歸的有效性,設計2 組消融實驗,分別使用基礎網絡加姿勢回歸以及基礎網絡加紋理回歸,在DeepFashion 測試集中進行定性和定量測試,定性測試結果如圖5 所示,定量測試結果如表1 所示,最優結果加粗表示。

圖5 循環一致性約束對網絡影響的定性結果Fig.5 Qualitative results of the impact of cycle consistency constraints on networks

表1 循環一致性約束對網絡影響的定量結果Table 1 Quantitative results of the impact of cycle consistency constraints on networks

從圖5 和表1 可以看出:當刪除姿勢回歸之后,生成圖像質量稍有下降,人物的一些細節有一定的失真,IS、PSNR、SSIM 指標略微下降,但是差異顯著;當刪除紋理回歸之后,生成人物無法保持真實性,僅能看出姿勢略有一致,人物紋理外觀完全沒有保持,IS、PSNR、SSIM 指標均有較為明顯的下降,并且差異顯著,造成該現象的原因可能是人物紋理隱空間比較復雜,在網絡缺乏相應約束時,生成圖像的人物紋理想要保持與條件人物紋理一致將變得非常困難。該實驗結果表明,模型中加入紋理回歸和姿勢回歸具有有效性。

3.4 與其他模型的比較

給定一些從測試集中選取的源人物圖像和期望生成的目標姿勢,本文模型可以生成符合目標姿勢的自然且真實的結果,部分實驗結果如圖6 所示。

圖6 部分實驗結果示例Fig.6 Some examples of experimental results

為了評估本文模型在人體姿勢遷移圖像生成任務中的有效性,將其與ADGAN 和PATN 這2 個被廣泛使用的人體姿勢遷移模型進行對比實驗,分為定性比較和定量比較。ADGAN 和PATN 均使用原文作者發布的在DeepFashion 數據集上訓練出的預訓練權重進行測試,測試集使用預先從數據集中劃分出的8 571 個測試圖像對,3 個模型的輸入輸出圖像分辨率均設置為176×256 像素。

定性比較結果如圖7 所示,可以看出,在相同源人物下進行較為復雜的姿勢遷移時,本文模型生成圖像的效果在視覺上優于PATN,略優于ADGAN,在人體紋理(如衣服、發型等)方面本文模型更準確。定量比較結果如表2 所示,表中展示3 種指標在3 個模型上的表現,以及本文模型與其他2 個模型的SSIM 和PSNR指標t-test的p 值,從中可以看出,本文模型具有最高的IS 值,說明生成圖像服飾多樣性較好,在SSIM 值上與ADGAN 相當,從成對t 檢驗指標上可以看出差異不顯著,在PSNR 指標上本文模型最高,并且與其他模型相比差異顯著,說明本文模型生成的圖像效果失真度最小,能夠保證生成圖像的質量。

圖7 3 種模型的生成圖像比較Fig.7 Comparison of images generated by three models

表2 3 種模型的性能比較結果Table 2 Performance comparison results of three models

PATN 模型由于沒有在網絡中加入人體語義分割信息,僅對人體姿勢信息使用級聯式結構進行編碼,在訓練過程中損失了過多人體紋理信息,導致生成的人物圖像紋理失真比較嚴重,僅能較好地保證生成圖像人物姿勢的一致性。本文模型和ADGAN模型都加入了人體語義分割信息,并且采用分解組件編碼結構,在編碼時加強了人物紋理信息,最終生成圖像的質量都優于PATN。本文模型在分解組件編碼的基礎上又增加了源人物姿勢信息,在編碼后的特征中保留了人物紋理與源人物姿勢之間的對應關系,進一步提高了對人物紋理的編碼能力。此外,本文模型還添加了循環一致性約束,使生成人物圖像的紋理、姿勢信息與源人物圖像的紋理、姿勢信息更容易保持一致,對于具有復雜紋理的人物圖像依然可以保證紋理穩定性以及準確性。

4 結束語

本文提出一種姿勢引導分解組件編碼的姿勢遷移人物圖像生成對抗網絡。在生成人物分解樣式編碼時引入人體姿勢關鍵點的條件信息,將AdaIN 輸入處全連接結構的融合模塊替換為多層卷積結構,進一步提取人物姿勢分解組件的特征,從而加強模型中人物姿勢和紋理的關聯度。此外,對生成圖像和紋理編碼加入循環一致性約束,提高網絡生成圖像中人物紋理的精度和姿勢的一致性。DeepFashion數據集上的實驗結果表明,條件分解組件編碼較直接分解編碼具有更快的收斂速度,在IS、SSIM、PSNR 指標上本文模型較對比模型有明顯優勢,人物生成圖像質量有一定提升。

本文在訓練生成對抗網絡時提供更多的條件信息并增加更多的約束條件,使得網絡的生成圖像效果得到增強,但是,本文模型依然存在一些局限性,在生成具有復雜姿勢的人物時會有失真,這是由于DeepFashion 數據集中人物姿勢較為單一,具有復雜姿勢的人物訓練數據偏少,在模型中缺乏對生成人物姿勢的有效約束條件。下一步將擴充訓練集中的復雜姿勢人物圖像,在模型中增加針對生成人物姿勢的有效約束,從而解決上述問題。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲a级在线观看| 2020国产精品视频| 成人在线观看不卡| 青青操国产视频| 国产91九色在线播放| 欧美日韩一区二区在线播放| 欧洲一区二区三区无码| 九色视频一区| 国产91无码福利在线| 日韩精品久久久久久久电影蜜臀| 视频二区中文无码| 熟妇无码人妻| 国产网站黄| 亚洲性视频网站| 尤物在线观看乱码| 色综合五月婷婷| 丁香五月激情图片| 欧美亚洲另类在线观看| 免费人欧美成又黄又爽的视频| 中文毛片无遮挡播放免费| 2021国产乱人伦在线播放| 国产免费久久精品99re不卡 | 欧美午夜性视频| 一区二区在线视频免费观看| 日本三级精品| 无码免费视频| 又猛又黄又爽无遮挡的视频网站| 最新日本中文字幕| 在线中文字幕网| 欧美精品1区| 日本成人在线不卡视频| 亚洲欧美日韩中文字幕在线一区| 亚洲精品无码抽插日韩| 91成人免费观看| 青青操国产视频| 一级毛片免费不卡在线| 91视频精品| 亚洲一区精品视频在线| 丁香婷婷激情综合激情| 国产福利小视频高清在线观看| 成人精品视频一区二区在线| 国产午夜无码片在线观看网站 | 5555国产在线观看| 成人午夜久久| 国产成人综合久久精品尤物| 精品91视频| 超清无码一区二区三区| 三上悠亚精品二区在线观看| 四虎AV麻豆| 大香网伊人久久综合网2020| 高清不卡一区二区三区香蕉| 日韩精品中文字幕一区三区| 欧美va亚洲va香蕉在线| 91福利在线观看视频| 亚洲中文字幕23页在线| 国产黑丝一区| 日本免费福利视频| 国产日韩欧美在线播放| 国产男人天堂| 午夜不卡福利| 国产欧美精品一区二区| 啊嗯不日本网站| 毛片久久网站小视频| 福利在线一区| 亚洲制服中文字幕一区二区 | 国产69囗曝护士吞精在线视频| 香蕉久久永久视频| 波多野结衣一级毛片| 97精品伊人久久大香线蕉| 夜夜操天天摸| 国产三级国产精品国产普男人| 午夜欧美在线| 国产成人区在线观看视频| 无套av在线| 日韩精品一区二区三区大桥未久| 99视频在线免费看| 99免费视频观看| 日韩av手机在线| 午夜丁香婷婷| 国产十八禁在线观看免费| 国产浮力第一页永久地址| 亚洲欧美日韩成人高清在线一区|