生成對抗網絡在虛擬試衣中的應用研究進展

2021-01-03 14:11:13張穎劉成霞

絲綢 2021年12期

張穎劉成霞

摘要：生成對抗網絡（GAN）的出色性能，使得深度學習在虛擬試衣中的應用得到新的發展，可以應對虛擬試衣中諸多問題和需求。GAN能夠產生高度真實的輸出，與原始訓練分布非常接近，成為當下實現虛擬試衣不容忽視的工具。文章圍繞這一研究前沿與熱點問題，對GAN及其在虛擬試衣中的發展進行了簡單的回顧;其次從GAN生成虛擬試衣結果的特征類別出發，先后介紹了在2D圖像、3D模型及視頻的虛擬試衣上的應用，總結分析了它們的運作機制、優點、局限性及適用場景;最后，討論了GAN在虛擬試衣領域未來的研究方向。研究認為，未來可在增加試穿服裝件數、提高試穿圖像分辨率和準確性、提高視頻試穿速度3個方向開展研究。

關鍵詞：虛擬試衣;生成對抗網絡;深度學習;圖像翻譯網絡;自我監督

中圖分類號： TS941.19

文獻標志碼： A

文章編號： 1001-7003（2021）12-0063-10

引用頁碼： 121111

DOI： 10.3969/j.issn.1001-7003.2021.12.011（篇序）

Abstract： The excellent performance of Generative Adversarial Network （GAN） has facilitated the new development and application of deep learning in virtual fitting， which could deal with many problems and needs in virtual fitting. GAN is able to produce highly real output and is very close to the original training distribution， thus becoming a tool that can’t be ignored in the current virtual fitting. Firstly， focusing on this research frontier and hot issue， this paper briefly reviewed GAN and its development in virtual fitting; then， starting from the feature categories of virtual fitting results generated by GAN， the paper introduced its application in virtual fitting based on 2D image， 3D model and video， summarized and analyzed the operation mechanism， advantages， limitations and applicable scenarios; finally， it prospected the future development direction of GAN in virtual fitting. It is believed that future research can be carried out in three directions： increasing the number of fitting clothing， raising the resolution and accuracy of fitting image， and improving the speed of video fitting speed.

Key words： virtual fitting; generative adversarial network; deep learning; image-to-image translation network; self-supervision

生成對抗網絡（Generative Adversarial Network，GAN）是Goodfellow等[1]在2014年提出的深度學習模型，可以產生高度真實的輸出，非常接近原始訓練分布，甚至能達到肉眼無法區分的程度[2]，這種動態生成高質量圖像的能力為計算機圖形學[3-4]及虛擬[5-6]、增強[7-8]和混合現實[9-10]應用開辟了新的研究途徑。GAN是計算機視覺領域中最接近人眼判別水平的模型，其關鍵優勢是可以從圖像或視頻中重建目標對象的3D模型[11-12]，對實現服裝虛擬試衣具有重要的現實意義。基于圖像的視覺試穿技術[13-17]，根據參考人體的姿勢對服裝圖像進行變形處理將目標服裝轉移到人體上，輸出圖像可以很好地保持目標圖像的特征[18-19]，如紋理、刺繡、Logo等，因此在視覺圖像領域引起廣泛關注。與此同時，基于三維模型[20-25]和視頻[26-28]的虛擬試穿也迅速發展，可以多角度、動態地展示服裝試穿效果，建立真實場景的虛擬試穿系統成為可能。

在全球，電子商務占服裝銷售額的1/3[29]。然而，網購者在購買前無法準確預測其穿著效果，可能會因未達到期望效果而退貨，增加了制造、包裝和運輸環節的成本，產生了巨大浪費。虛擬試穿通過模擬人體真實的著裝效果，讓顧客沉浸式地感受服裝款式，可大幅降低退貨率，有效減少浪費。除此之外，試穿效果圖在服裝生產中也起著重要作用，既可以減少部門之間的重復溝通，又能降低生產環節所需樣衣的成本。本文將虛擬試穿的試用效果進行對比，對這幾種試穿方法進行了系統的分析比較，并對生成對抗網絡在虛擬試穿方面的研究發展方向做出了展望。

1?生成對抗網絡（GAN）

1.1?GAN結構

GAN[1]，也稱原始GAN（Vanilla GAN），是一種機器學習模型，由生成器（Generator，G）和鑒別器（Discriminator，D）兩個神經網絡組成，如圖1所示。使用GAN時需要為生成器提供輸入、確定輸出，生成器學習輸入圖像后生成假圖像，并欺騙鑒別器讓其信以為真，鑒別器負責判斷圖像的真假，訓練會不斷進行，直到兩者都達到平衡，這種雙組件的持續對抗使GAN產生了高質量的輸出圖像，因此被稱為生成對抗網絡。

生成器的目標是最小化函數，而鑒別器的目標是最大化函數。GAN的優化目標函數如下式所示：

式中：G是生成器，D是鑒別器，x是真實數據，Pdata是真實數據概率密度分布，z是隨機輸入的高斯噪聲。

1.2?CGAN結構

原始GAN在實際的訓練中會產生崩潰，不足以持續穩定地產生高質量輸出圖像。對此Mirza等[30]引入條件生成對抗網絡（Contradiction GAN，CGAN），用輸入條件來控制生成器和鑒別器，兩者的兩個輸入數據集和輸出數據集都是以y為條件的條件概率。例如，可以通過調整輸入條件（如服裝類別）來改變生成的圖像。CGAN的優化目標函數如下式所示：

式中：生成器和鑒別器都加入了約束項y。

Isola等[31]在CGAN的基礎上對GAN做出了根本性的修改，提出了基于條件對抗的圖像到圖像翻譯網絡（Image-to-Image Translation GAN），也稱為“Pix2Pix”，Pix2Pix在建立CGAN框架的基礎上，可以將引入的條件輸入圖像（如衛衣草圖）轉換為另一種表示形式（如全紋理衛衣圖像）。Pix2Pix為生成深度圖像奠定了基礎，如利用街道地圖生成衛星圖像;將黑白照片轉換成彩色照片;對3D網格進行完整渲染等。若輸入圖像是人體和服裝，則可以生成輸出是人體著裝的圖像，從而運用到虛擬試衣領域[32-33]。

Pix2Pix的第一個基本組件是U-Net架構生成器[34]，該組件在可視化時看起來類似于字母U，是一個卷積神經網絡模型。U-Net的架構如圖2所示，可視為由編碼器和解碼器組成。編碼器是架構圖中的左半部分，將輸入圖像編碼為多個不同級別的特征;解碼器是右半部分，目的是將編碼器學習到的低分辨率區分特征投影到高分辨率像素空間。

U-Net中的輸入和輸出圖像擁有相同的底層結構，即彼此共享底層信息，因此生成器的編碼器和解碼器之間可以實現對稱跳躍連接，使早期層的信息能有效地到達后期層，從而允許來自損失函數的梯度有效地反向傳播，避免梯度消失問題。

1.3?損失函數構建

L1和L2是機器學習中的兩個損失函數，用于最小化誤差。L1損失代表最小絕對偏差，也稱為LAD。L2損失函數代表最小二乘誤差，也稱為LS。

在大多數情況下應使用L2損失，但如果數據存在異常值，由于L2考慮了平方差，將導致更大的誤差，會使生成的輸出與真實目標更加偏離，而L1損失函數會刪除異常值，免受其影響。因此，在L2損失的基礎上，Pix2Pix提供了額外的L1損失，其目標函數如下式所示：

式中：y是預測值，G（x，z）是真實值。

L1損失能克服L2損失的缺點，使生成的輸出圖像與真實目標的整體結構和位置保持一致。在虛擬試衣中，L1損失用于保存用戶生成圖像的姿勢與狀態，沒有L1損失來維持結構，生成的圖像可能會被錯誤地縮放、旋轉或移動，無法實現所需圖像到圖像的直接轉換。不過，L1損失只能傳輸低層結構，不能傳輸高層結構，而虛擬試穿需要轉移的布料圖案、紋理、文字等均屬于高層結構，感知損失是解決這一問題的重要途徑。為解決這一問題，Gatys等[35]引入了樣式損失（Style Loss）來實現從草圖到照片（或反之）轉移過程中的細節保存。在樣式損失的基礎上，Johnson等[36]進一步引入了特征損失（Feature Loss），并將兩者一同歸類為感知損失，感知損失常被用于虛擬試衣網絡的目標圖像生成中。

1.4?引入監督學習的CGAN

引入監督信息可以增強鑒別器的魯棒性，由于原始GAN是一種無監督學習的生成式模型[37]，通常使用梯度下降法進行訓練，該訓練方法非常不穩定，在循環訓練中會發生分叉和崩潰。這是因為GAN訓練時生成器和鑒別器在非平穩環境中學習，隨著樣本分布的變化，鑒別器會發生遺忘，數據集復雜時這些問題尤為突出，自我監督[38]的作用就是阻止鑒別器發生遺忘。CGAN中引入了監督信息，但其缺點是必須要有標簽數據，生成標簽數據集成本又很高，無標簽的數據卻時刻在產生，而自我監督能從數據本身產生標簽，并用其創建監督損失函數來指導訓練過程，從而確保鑒別器學習到更有用的語義表征。

2?GAN在虛擬試衣上的應用

2.1?基于2D圖像的虛擬試衣

2.1.1?GAN在虛擬試衣的早期應用

早期的虛擬試穿系統主要應用三維人體掃描或計算機軟件建模[39]。前者數據量龐大、處理煩瑣，掃描過程中還會出現噪點，需要后期修復;后者主要依靠專業人員來進行模型構建，人工成本昂貴，且模型對象特定，局限性較大。為此，Lassner等[40]提出了ClothNet模型，應用GAN學習2D圖像來生成人體和服裝語義分割的圖像，且引入Pix2Pix[31]將服裝分割圖像轉換為高分辨率的全彩色圖像。這一技術后來經常被用于服裝虛擬試衣。

雖然ClothNet可以在指定的分割蒙版區域生成服裝，但是其外觀準確性無法控制。其次，ClothNet須使用分割的人體區域作為條件圖像，但圖像標注和分割都會產額外的成本，因此時裝公司很少會收集此類數據。針對以上問題，Jetchev等[41]提出條件類比生成對抗網絡（Condition Analogy Generative Adversarial Network，CA-GAN），使服裝模特可以自由換裝。CA-GAN的原理是把人體著裝模型看作圖像類比問題：生成器將穿著A服裝的圖像yi自動轉換成身著B服裝的圖像yj，且生成Alpha蒙版來合成原始圖像和生成圖像，使用蒙版還可以保持穿著者的原始特征（如面部表情），且只轉移目標服裝不會對其他物體造成影響。此外，CA-GAN是一種端到端的可訓練架構，可以使鑒別器掌握學習損失函數的能力，并以自我監督[38]的方式判斷結果，無需標簽數據監督，在服裝公司具有良好的應用前景。

2.1.2?虛擬試衣網絡

理論上CA-GAN模型可以將對抗性損失降到最低，從而使輸出圖像達到以假亂真的程度，但在實際應用中，該模型只能粗略變換服裝，生成的服裝圖像也無法適應姿勢變化，大幅限制了該模型在服裝虛擬試衣中的應用，因此還需經過細節轉移和真實變形的處理。為解決這些問題，Han等[13]提出了虛擬試穿系統VITON（Virtual Try On）。VITON是虛擬試衣研究領域的里程碑，隨后的許多方法都以其為基準。與CA-GAN相比，VITON采用了兩階段系統來解決服裝變形問題，如圖3所示。第一階段是多任務編碼-解碼生成器（Multi-task Encoder-decoder Generator），以人體模型和目標服裝為輸入條件進行圖像轉換，以過程結果和服裝蒙版為輸出，用靜態形狀-上下文匹配算法（Shape-context Matching Algorithm）[42]對服裝蒙版進行變形，將變形后的服裝蒙版傳遞給全卷積細化網絡，從而產生Alpha蒙版。第二階段是細化網絡，利用Alpha蒙版將變形后的服裝與粗糙的人體圖像合成參考圖像，并根據參考圖像計算感知損失[43]。

CA-GAN的Alpha蒙版經常將原始服裝和目標服裝混為一談，有時還會偏離用戶的中心，出現人體和服裝錯位的現象，VITON通過靜態變形算法和優化神經網絡解決了這個問題。此外，Han等[13]首次證明了感知損失可以用于服裝試穿中的紋理增強和細節轉移，相比僅靠一個對抗損失來生成服裝細節的CA-GAN更具優勢。

盡管VITON可以傳輸服裝整體變形，但在服裝細節傳遞上仍有很大的改進空間。Wang等[14]提出了可保留特征的虛擬試衣網絡CP-VTON，通過進一步改善紋理細節傳輸來擴展VITON。該網絡由幾何匹配模塊和試穿模塊組成：幾何匹配模塊學習衣服的變形，試穿模塊將渲染后的人物與扭曲后的布料融合在一起，使用合成蒙版生成最終效果，因此CP-VTON比VITON在細節保存方面質量更好。例如，在VITON中，Logo和文字會出現傳遞模糊的現象，而CP-VTON則可以更好地保存這些細節，形狀、顏色和文字也更加清晰。

2.1.3?不同監督機制的虛擬試衣

引入監督機制可以使訓練網絡更加穩定，從而克服模型訓練時，生成器遺忘導致的網絡崩潰。Raj等[32]采用了新型弱監督訓練模型SwapNet，在沒有監督信息的情況下，可對不同姿勢下的同一服裝進行變形和紋理模塊訓練。Roy等[15]提出了基于自我監督機制的虛擬試衣網絡LGVTON，解決了虛擬試衣場景中缺乏標簽數據集的問題。LGVTON能根據人體的形態和姿勢，采用人體和服裝兩種標志物對布料模型進行變形處理。Wu等[16]則應用非監督和自我監督的混合學習框架，引入非配對-配對聯合訓練的方法來完成這一任務，有效解決了缺乏成對訓練圖像（即目標人體和所需服裝模型）的問題。

2.1.4?多姿態引導的虛擬試衣

目前的許多虛擬試衣算法在人體姿勢變化較大時，會出現生成圖像欠擬合的問題，特別是在參考圖像的朝向和目標衣服相反時，合成圖像的偏差就更加明顯。針對這一問題，Dong等[17]試圖通過解決姿態變形和錯位問題來改進CP-VTON，提出了一種多姿態引導的虛擬試衣網絡MG-VTON（Multi-pose Guided Virtual Try-on Network），如圖4所示。這種對抗網絡分為三個階段：條件解析網絡用來同時匹配目標人體姿勢和服裝形態;Warp-GAN將期望的服裝變形合成到人體解析圖像中去，緩解輸入的人體姿勢和期望姿勢之間的錯位問題，減少不同姿態引起的失調，最終合成具有真實感的服裝圖像;細化渲染網絡恢復服裝的紋理細節，并去除人工痕跡。MG-VTON可以更好地擬合參考圖像與人體姿勢變形，同時保留目標服裝紋理，即使參考圖像的姿勢和人體朝向相反也不例外。

2.1.5?可選擇服裝的虛擬試衣

現有的服裝虛擬試衣模型大多只能轉移整體服裝，Li等[44]首次提出了可選擇服裝的虛擬試衣系統I-VTON，可根據用戶意愿有選擇地試穿上裝或下裝，還引入了皮膚損失來保持用戶膚色，提高了實用性和逼真程度。

在I-VTON的基礎上，Neuberger等[45]提出了Outfit-VTON，該方法可以從參考圖像中選取服裝組合與目標人體相融合，形成可視化的合成圖像，使用戶能實時控制最終呈現的服裝效果。此外，Outfit-VTON還引入了精確合成紋理、標志和文字等服裝特征的在線優化功能。

2.1.6?可保存服裝的虛擬試衣

在虛擬試衣網絡中，當人體軀干和四肢發生姿勢變化時，會導致服裝區域和人體部位間產生如遮擋、干擾和變形等相互作用。因此，需要算法能理解參考圖像中前景物體和背景的空間布局，并在試穿過程中自適應地保留這種關系。為此，Yu等[18]提出了可以保存人體和服裝特征的虛擬試衣網絡VTNFP（Virtual Try on Network with Feature Preservation），這種新的分割圖生成模塊可用于預測人體著裝部位，并將預測的人體部位分割圖像、服裝變形圖像和其他輔助人體信息融合在一起，且保存服裝和人體部位的細節信息。Yang等[19]繼續對VTNFP做出改進，提出了一種新的自適應內容生成和保存網絡（Adaptive Content Generation and Preservation Network，ACGPN）。首先預測參考圖像的語義布局，然后自適應地確定生成和保存內容，并且引入新的二階差分約束使訓練過程更加穩定，大幅提高了復雜服裝模型的處理能力。

2.2?3D模型的深度重建

除了利用2D圖像進行虛擬試衣外，GAN在3D模型的深度重建上也有廣泛應用。Lahner等[20]提出深度模型DeepWrinkles的試衣效果，如圖5所示。圖6為在法線圖上使用GAN對3D模型表面進行幾何變形優化的結果。能在分辨率較低的法線貼圖上生成精細的細節，增強了現實性和時間一致性。由于DeepWrinkles模型的整體形狀和細節褶皺可以完全由數據驅動進行控制，因此可以獲得前所未有的高質量服裝褶皺渲染效果。

Minar等[21]利用服裝與人體形狀的對應關系，提出了基于單個服裝圖像的三維服裝模型重建方法Cloth-VTON，使用SMPL人體姿勢和形狀參數將三維服裝模型轉移到目標人體模型，然后對轉移后的三維服裝模型進行渲染，合成目標圖像。Mir等[22]提出了一個簡單有效的模型Pix2surf，將電商網站上的服裝圖像映射到3D虛擬服裝模型表面，實現實時的虛擬試衣。利用這一模型可以自動地從網站上在線搜集到無數服裝圖像，繪制出紋理貼圖。此外，Pix2surf還支持VR/AR、游戲和3D內容生產等應用程序，具有良好的拓展性。Zhu等[23]建立了迄今為止最大的3D服裝模型數據集，從真實服裝重建了2 078個服裝模型，涵蓋10個不同類別和563個服裝實例，并且提供了豐富的注釋，包括三維特征線、三維身體姿勢和對應的多視圖圖像。

然而，上述模型均需要以真實服裝的照片或深度圖像為輸入，針對這一不足，Shen等[24]提出了可以應用GAN直接由服裝樣板和尺寸參數生成3D服裝模型的方法，且支持大多數服裝拓撲結構和人體尺寸，這意味著可以直接將服裝樣板轉換成人體試衣圖像，在服裝生產環節具有重要的現實意義，但該方法無法生成服裝細節。對此，Qian等[25]提出了Mesh-VAE-GAN模型，利用3D掃描中不同姿勢的SMPL著裝模型來學習生成服裝變形，使服裝成為SMPL中的附加項。為了保留褶皺細節，Mesh-VAE-GAN將補丁式分解器擴展到3D模型，再現服裝的全局形狀和局部細節，并能根據人體姿勢和服裝類型進行可控調節，使其可以在不同的人體體形和姿勢下試穿各種風格的服裝。

在實際應用中，GAN在3D模型的深度重建相比于2D圖像更加具有真實感，可以展示多維的試穿服裝試穿角度，表達出二維圖像中缺乏的復雜效果，與人類的視覺感知更匹配。但也存在不足，大多數GAN在3D模型深度重建研究仍然需要掃描人體姿勢和衣服來學習生成人體試穿服裝的網絡模型，這就增加了其獲取輸入信息的難度，因此沒有2D圖像在虛擬試穿領域的研究來得更加廣泛。

2.3?視頻呈現的虛擬試衣

視頻試穿可以讓用戶從多個角度方便地觀察服裝呈現在自身上的外觀效果，相比于借助單個圖像，這種方法取得了很大進步。視頻虛擬試衣面臨的最大挑戰是如何處理視頻幀之間的時間一致性。對此，Dong等[26]提出了一種基于流動導航的對抗網絡模型（Flow-Warping GAN），率先實現了包括服裝變形和紋理映射的全程視頻試穿處理。而FW-GAN加入了光流損失解決時間一致性問題，通過合成連貫自然的視頻，同時操縱人體姿勢和服裝變形，精確地將服裝轉移到人體上，如圖7所示。由圖7可以看出，FW-GAN能以任意角度和姿勢生成具有真實感的試穿視頻。由于視頻信息的存在，FW-GAN能夠合成比以往VITON和CP-VTON等生成的靜止試穿圖像更高質量的服裝變形。

為解決視頻虛擬試衣實時性受限的問題，Pumarola等[27]增加了一個物理存儲器，可以根據遮擋位置填充特定區域，以適應人體姿勢來合成新的服裝圖像，開啟了快速虛擬試衣階段。在人體模型合成的細節上，Kuppa等[28]提出了ShineOn算法，首先，應用Dense-Pose標注增強了人臉細節，且減少了占用內存和訓練時間;其次，引入了自注意力層改善人體面部和頸部質量，該方法可以在一定程度上改善人體輪廓的清晰度。ShineOn成為視頻虛擬試衣的關鍵技術，在試穿領域有很好的發展前景，但是在轉移速度上仍有改善空間，以便獲得更好的試穿效果。

3?典型虛擬試衣模型的效果對比分析

在GAN誕生以后，已經出現了很多虛擬試衣網絡模型。表1選取上述典型的GAN在虛擬試衣網絡上的應用效果作對照比較，總結分析了它們的運作機制、優點、局限性及適用場景，以便更好地理解并運用它們。

4?結?論

GAN在虛擬試衣領域的廣泛應用，使得無需傳統的人體掃描和計算機建模就可以生成服裝試穿圖像，從第一個應用于虛擬試衣的生成對抗網絡到實時視頻的虛擬試衣網絡，雖然生成的試穿圖像效果和質量已大幅提高，目前還存在許多問題，未來可從以下三個方向進行改進。

1）多層服裝的虛擬試衣。人們在實際試穿服裝時通常會多件著裝，但目前基于GAN的虛擬試衣研究主要集中在單件服裝，多層服裝的相互作用和復雜性使得GAN不能很好地生成試衣圖像。如果可以嘗試將每件服裝封裝在一個圖層中作為蒙版，在試穿模塊中進行融合，將會有助于促進多層服裝虛擬試穿的實現。

2）高精度的試穿圖像。目前的虛擬試衣生成圖像大多分辨率較低（128 dpi×128 dpi），僅約為人類習慣分辨率的1/10，試穿效果、質量和參考價值并不很高，可以考慮研發高分辨率圖像翻譯網絡，將其應用到虛擬試衣中，提高試穿效果，從而縮小虛擬試衣和實際著裝之間的差距。此外，目前的研究在提高傳遞服裝質量方面雖已取得了一定的進展，但距離實現消費者準確地從生成圖像感受服裝紋理與材質這一目標還有較大空間，可以考慮引入局部紋理損失來合成深度圖像網絡，有望生成更加真實的紋理材質圖像。

3）高速度實時視頻試穿。目前視頻虛擬試穿所生成的服裝主要依賴于人體姿勢，可以適應于大多數的慢運動，但還無法推廣到快運動，亟需引入更高效的架構來實現高速度的視頻試穿。

參考文獻：

[1]GOODFELLOW I J， POUGET-ABADIE J， MIRZA M， et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems， 2014， 3： 2672-2680.

[2]BRANDON J. Terrifying high-tech porn： Creepy "deepfake" videos are on the rise[N/OL]. Fox News， 2018-02-16. https：//www.foxnews.com/tech/terrifying-high-tech-porn-creepy-deepfake-videos-are-on-the-rise.

[3]YU J， LIN Z， YANG J， et al. Generative image inpainting with contextual attention[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City： IEEE， 2018： 5505-5514.

[4]VONDRICK C， PIRSIAVASH H， TORRALBA A. Generating videos with scene dynamics[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing System. Barcelona： NIPS， 2016： 613-621.

[5]WONG C. The rise of AI supermodels[N/OL]. CDO Trends， 2019-05-27. https：//www.cdotrends.com/story/14300/rise-ai-supermodels.

[6]ELGAMMAL A， LIU B， ELHOSEINY M， et al. CAN： Creative Adversarial Networks， generating "Art" by learning about styles and deviating from style norms[C]//ICCC 8th International Conference on Computational Creativity. Atlanta： ICCC， 2017： 96-103.

[7]WANG X， YU K， WU S， et al. ESRGAN： Enhanced super-resolution generative adversarial networks[C]//ECCV 15th European Conference on Computer Vision. Munich： ECCV， 2018： 63-79.

[8]SAJJADI M S M， SCHOLKOPF B， HIRSCH M. EnhanceNet： Single image super-resolution through automated texture synthesis[C]//IEEE International Conference on Computer Vision （ICCV）. Venice： IEEE， 2017： 4501-4510.

[9]WEI J. Generating shoe designs with machine learning[N/OL]. Medium， 2019-11-06. https：//towardsdatascience.com/generating-shoe-designs-with-deep-learning-5dde432a23b8.

[10]ANTIPOV G， BACCOUCHE M， DUGELAY J L. Face aging with conditional generative adversarial networks[C]//IEEE International Conference on Image Processing （ICIP）. Beijing： IEEE， 2017： 2089-2093.

[11]WU J， ZHANG C， XUE T， et al. Learning a probabilistic latent space of object shapes via 3D generative adversarial modeling[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing System. Barcelona： NIPS， 2016： 82-90.

[12]VONDRICK C， PIRSIAVASH H， TORRALBA A. Generating videos with scene dynamics[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing. Barcelona： NIPS， 2016： 613-621.

[13]HAN X， WU Z， WU Z， et al. VITON： An image-based Virtual Try-On network[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City： IEEE/CVF， 2018： 7543-7552.

[14]WANG B， ZHENG H， LIANG X， et al. Toward characteristic-preserving image-based Virtual Try-On network[C]//Proceedings of the European Conference on Computer Vision （ECCV）. Munich： ECCV， 2018： 589-604.

[15]ROY D， SANTRA S， CHANDA B. LGVTON： A landmark guided approach to Virtual Try-On[J/OL]. Computer Science， 2020-04-18. https：//arxiv.org/abs/2004.00562.

[16]WU Z， TAO Q， LIN G， et al. M2E-try on NET： Fashion from model to everyone[C]//Proceedings of the 27th ACM International Conference on Multimedia. Cornell： ACM， 2019： 293-301.

[17]DONG H， LIANG X， SHEN X， et al. Towards multi-pose guided virtual try-on network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul： IEEE/CVF， 2019： 9026-9035.

[18]YU R， WANG X， XIE X. VTNFP： An Image-Based Virtual Try-On network with body and clothing feature preservation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul： IEEE/CVF， 2019： 10510-10519.

[19]YANG H， ZHANG R， GUO X， et al. Towards photo-realistic virtual try-on by adaptively generating preserving image content[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE/CVF， 2020： 7850-7859.

[20]LANER Z， CREMERS D， TUNG T. DeepWrinkles： Accurate and Realistic Clothing Modeling[C]//European Conference on Computer Vision （ECCV）. Munich： IEEE/CVF， 2018： 698-715.

[21]MINAR R， THAI T， AHN H， et al. 3D reconstruction of clothes using a human body model and its application to image-based virtual try-On[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE/CVF， 2020： 853-862.

[22]MIR A， ALLDIECK T， PONS G. Learning to transfer texture from clothing images to 3D humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE/CVF， 2020： 7023-7034.

[23]ZHU H， CAO Y， JIN H， et al. Deep fashion 3D： A dataset and benchmark for 3D garment rconstruction from single images[C]//European Conference on Computer Vision （ECCV）. Glasgow： IEEE/CVF， 2020： 512-530.

[24]SHEN Y， LIANG J， LIN M C. Gan-based garment generation using sewing pattern images[C]//European Conference on Computer Vision （ECCV）. Glasgow： IEEE/CVF， 2020： 225-247.

[25]MA Q， YANG J， RANJAN A， et al. Learning to dress 3D people in generative clothing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE/CVF， 2020： 6469-6478.

[26]DONG H， LIANG X， SHEN X， et al. FW-GAN： Flow-navigated warping GAN for video Virtual Try-On[C]//IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul： IEEE/CVF， 2019： 1161-1170.

[27]PUNAROLA A， GOSWAMIV， VICENTE F， et al. Unsupervised image-to-video clothing transfer[C]//IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul： IEEE/CVF， 2019： 3181-3184.

[28]KUPPA G， JONG A， LIU V， et al. Shine on： illuminating design choices for practical video-based virtual clothing try-on[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision （WACV） Workshops. Waikola： IEEE/CVF， 2021： 191-200.

[29]JONG A， MOH M， MOH T. Virtual Try-On with Generative Adversarial Networks： A Taxonomical Survey[M]//Advancements in Computer Vision Applications in Intelligent Systems and Multimedia Technologies. IGI Global： San Jose， 2020： 76-100.

[30]MIRZAM， OSINDEROSIMON. Conditional generative adversarial nets[C]//NIPS Proceedings of advances in Neural Information Processing Systems. Montreal： NIPS， 2014： 5767-5777.

[31]ZHU J Y， PARK T， ISOLA P， et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision （ICCV）. Venice： IEEE， 2017： 2223-2232.

[32]RAJ A， SANGKLOY P， CHANG H， et al. SwapNet： image based garment transfer[C]//ECCV 15th European Conference on Computer Vision. Munich： ECCV， 2018： 679-695.

[33]楊佑國，徐平華，徐明慧，等. 基于虛擬試衣的著裝應力分布效應評價[J]. 現代紡織技術， 2021， 29（6）： 106-112.

YANG Youguo， XU Pinghua， XU Minghui， et al[J]. Evaluation of garment stress distribution based on virtual fitting[J]. Advanced Textile Technology， 2021， 29（6）： 106-112.

[34]RONNEBERGER O， FISCHER P， BROX T. U-Net： Convolutional networks for biomedical image Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham： Springer， 2015： 234-241.

[35]GATYS L A， ECKER A S， BETHGE M. Image style transfer using convolutional neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas： IEEE， 2016： 2414-2423.

[36]JOHNSON J， ALAHI A. Perceptual losses for real time style transfer and Super-Resolution[M]. Berlin： Springer International Publishing， 2016： 694-711.

[37]王晉宇，楊海濤，李高源，等. 生成對抗網絡及其圖像處理應用研究進展[J]. 計算機工程與應用， 2021， 57（8）： 26-35.

WANG Jinyu， YANG Haitao， LI Gaoyuan， et al. Research progress of generative adversarial network and its application in image processing[J]. Computer Engineering and Applications， 2021， 57（8）： 26-35.

[38]CHEN T， ZHAI X， RITTER M， et al. Self-Supervised GAN via auxiliary rotation loss[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach： IEEE/CVF， 2019： 12146-12155.

[39]吳義山，徐增波. 虛擬試衣系統關鍵技術[J]. 絲綢， 2014， 51（12）： 24-29.

WU Yishan， XU Zengbo. Key technologies of virtual fitting system[J]. Journal of Silk， 2014， 51（12）： 24-29.

[40]LASSNER C， PONS-MOLL G， GEHLER P V. A generative model of people in clothing[C]//IEEE International Conference on Computer Vision （ICCV）. Venice： IEEE， 2017： 853-862.

[41]JETCHEV N， BERGMANN U. The Conditional Analogy GAN： swapping fashion articles on people images[C]//IEEE International Conference on Computer Vision Workshops （ICCVW）. Venice： IEEE， 2017： 2287-2292.

[42]BELONGIE S J， MALIK J M， PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2002， 24（4）： 509-522.

[43]WANG T Y， CEYLAN D， POPOVIC J， et al. Learning a shared shape space for multimodal garment design[J]. ACM Transactions on Graphics， 2017， 36（4）： 1-13.

[44]YU L， ZHONG Y， WANG X. Inpainting-based Virtual Try-on network for selective garment transfer[J]. IEEE Access， 2019， 7： 134125-134136.

[45]NEUBERGER A， BORENSTEIN E， HILLELI B， et al. Image based Virtual Try-On Network from unpaired data[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE/CVF， 2020： 5184-5193.