李健,樊妍,何斌
(1.陜西科技大學 電子信息與人工智能學院,陜西 西安 710021;2.同濟大學 電子與信息工程學院,上海 201804)
近年來,隨著深度學習在服裝時尚領域的深入,基于二維圖像的服裝展示技術的研究在紡織服裝的設計、生產、商貿等領域都有著廣泛的應用前景。盡管在線購物給人們提供了便利,但消費者仍擔心在在線購買服裝時,商品穿在他們身上看起來如何。因此對于基于姿勢的服裝展示工作來說,合理且準確的目標服裝變形和服裝合成是服裝展示發揮其作用的必要前提。
基于姿勢的服裝展示任務將目標服裝轉移到目標人物身上,引起了越來越多的研究關注。由此出現了基于二維的服裝展示相關的研究與應用。現今主流工作之一主要集中在VITON[1],CP-VTON[2]等基于姿勢的虛擬試衣方法使用粗略的人體形狀和姿勢圖作為輸入來生成穿著衣服的人。VITON是一種基于圖像的虛擬試穿方法,僅使用2D信息。使用最新的人體姿勢檢測器[3]和人體分析器[4],此方法可以獲得良好的人體質量分割和關鍵點。其中利用基于薄板樣條(TPS)的變形方法,首先變形目標服裝,然后使用合成蒙版將紋理映射到經過優化的服裝展示結果中。形狀上下文是通過手工進行提取特征,兩個形狀的匹配是耗時的,這不利于實現用戶所需的實時性,并且生成的服裝細節不夠完善。CP-VTON采用了類似于VITON的結構,是在其工作上進行改進,使用空間變換網絡中的卷積幾何匹配器來學習目標人物服裝的特征和合成目標服裝特征之間的薄板樣條(TPS)變換,服裝細節相較于之前有所提升。因為它是對目標服裝的特征信息進行二次提取﹐來合成更加真實的試衣圖像,雖然相較于之前的算法服裝細節更加逼真,但是依然會在姿勢遮擋服裝的情況下,丟失合成后目標服裝細節和人物細節特征。VTNFP[5]通過簡單地串聯從身體部位和衣服中提取的高級特征來緩解此問題,從而產生比CP-VTON和VITON更好的結果。但是,模糊的身體部位和偽影仍然保留在結果中。之所以會出現這樣的情況,是由于在整個服裝合成過程中忽略了目標人物與目標服裝的語義布局,缺少了其約束導致變形后的目標服裝不足與更好的為服裝渲染過程提供準確的對齊約束,尤其對于款式不同、紋理復雜的服裝圖像,以及姿態復雜的目標人物圖像它并不總是能生成滿意的試衣效果。
針對上述問題,本文主要包括語義預測模塊和目標服裝的變形以及融合語義布局信息的服裝渲染模塊三個部分,主要工作如下:
(1)通過條件生成對抗網絡進行語義布局預測。首先利用條件生成對抗網絡對經過處理的公開的數據集進行訓練,僅通過目標人物圖像和姿勢圖,以及將要試穿的目標服裝得到能夠預測穿衣后目標人物的語義解析圖的模型。
(2)基于改進的空間變換網絡實現目標服裝的變形。根據得到語義解析圖和目標服裝,通過掩膜預測網絡通過得到換裝后目標服裝的掩膜,再通過空間變換網絡實現對目標服裝的變形。
(3)融合語義布局信息實現服裝渲染的構建。借助于換裝后的語義解析圖和變形后的目標服裝,將其服裝信息融入到局部渲染過程中,通過語義布局的約束,提高服裝渲染的準確度和真實度,從而實現完整的融合語義布局信息的服裝渲染方法。本文算法的總體框架如圖1所示。

圖1 算法總體框架
2.2.1 網絡架構
語義預測模塊采用有條件的生成對抗網絡,其中使用U-Net[6]結構作為生成器,同時使用pix2pix[7]中給出的鑒別器PatchGAN來區分生成的語義解析圖和真實語義解析圖。為了能夠將目標服裝的特征更好的與目標人物進行融合,本文使用OPENPOSE和SS-JPPNet[8]算法對目標人物進語義解析和姿勢估計得到相對應的語義解析圖Is和姿勢圖Ip,然后將提取的目標人物的語義解析圖和姿勢圖高維特征,與目標服裝c的新的特征相映射得以預測出穿衣后目標人物的語義解析圖It。
2.2.2 損失函數
我們融合了特征匹配損失[68]激勵生成器關注生成圖像與目標圖像之間的差異,來代替L1損失,避免圖像模糊,來得到更完善的語義解析圖。特征匹配損失可直接比較使用預先訓練的感知網絡(VGG-19)計算的生成圖像和真實圖像,激勵生成器關注生成圖像與目標圖像之間的差異,這樣對于處理目標衣服與原始衣服長短不一致時語義分割預測有著更好的效果。使用VGG19所提取出的圖像特征與如下公式可以計算感知損失:


故對于此階段采用的條件生成對抗損失可以表示為:

2.3.1 掩膜預測
所以服裝變形的目的是使服裝適應目標人物服裝區域的形狀,并根據人體姿勢在視覺上自然變形,并保留服裝的特征。CP-VTON方法僅僅通過粗糙的身體形狀來約束目標服裝的變形,在出現姿勢遮擋的情況下,目標服裝不能適應姿勢得到合理的變形。本文在其方法基礎上首先根據生成的語義解析圖和目標服裝進行預測目標服裝區域掩膜,在其約束下來改善目標服裝的變形。
本文使用的網絡結構以U-Net網絡為基礎,通過跳轉連接直接在各層之間共享信息,我們使用了10層U-Net結構,包括5個步長為2的下采樣卷積層,5個步長為2的上采樣層。上采樣使用雙線性插值層和步長為1的卷積層的組合,最后一層添加Sigmoid激活函數。具體參數如表1所示:

表1 U-Net各層參數
對于損失函數設計部分,我們使用監督學習來訓練掩膜預測,網絡對于生成掩膜部分并不涉及細節特征部分,這里僅僅使用L1損失來優化整個過程即可。如公式(3),其中c記為預測的目標服裝的掩模的真實數據,cM是掩膜預測網絡的輸出,我們采用了L1損失作為網絡的損失函數,定義如下:

2.3.2 基于空間變換網絡的服裝變形
空間變換網絡的幾何匹配方法使用CP-VTON的方法,但通過改變其輸入條件進行變形約束。如圖2所示,通過輸入目標服裝的掩膜和目標服裝,目標服裝結合服裝掩膜的幾何約束,一同作為空間變換網絡的輸入,首先通過對其特征提取然后在將其合并成一個張量,輸入到回歸網絡中。回歸網絡在進行仿射變換參數預測時,能夠在輪廓約束下更穩定的進行形變,從而得到最終得到變形后的目標服裝,其中代表真實目標人物的真實圖像。

圖2 空間變換網絡算法框架
故不難得出服裝變形的損失函數:

本章節使用基于U-Net的編碼器-解碼器網絡作為服裝渲染的網絡架構,如圖3所示,算法的框圖如下,為了防止產生棋盤格的偽影,進行卷積運算的使之用3×3的基礎上填充1的卷積操作,在進行服裝渲染過程之前,我們引入了與衣服無關的人表示,保留諸如臉部、膚色、發型、褲子等物理屬性。在此使用SS-JPPNet算法對目標人物圖像提取其人臉、頭發區域和褲子的RGB通道,以便在生成圖像時注入身份信息給新的穿衣后的合成圖像。將其調整為256192分辨率的圖像,進行卷積操作并對此關系進行建模。

圖3 融合語義布局信息的服裝渲染算法框架
為了達到我們保持特性的目標,我們通過應用L1正則化使合成遮罩M偏向于盡可能選擇變形的衣服。故服裝變形的總體損耗函數為:

式中,Io表示生成的最終服裝展示效果圖,It代表真實圖,M表示合成蒙版。
故本文對Han等人收集的現有的公開數據集[63]中目標人物進行語義解析和姿態估計,得到所需的新數據集進行實驗。它包含大約19,000個前視圖女性和頂級服裝圖像對,有16253個清洗對,分別分為訓練集和驗證集,分別具有14221和2032對。我們將驗證集中的圖像重新排列為未配對的對,作為測試集。
訓練過程中使用的目標衣服與參考圖像中的目標衣服相同,因為很難獲得試穿結果的真實圖像。在上述三個模塊的訓練過程中,通過設置損耗權重λ=λ=0.1,λ1=λ2=1和批處理大小8,將所提出方法中的每個模塊訓練20個單元。將學習率初始化為0.0002,并通過Adam優化器優化網絡其中超參數β1=0.5,β2=0.999。所有代碼均由深度學習工具包PyTorch實施。
3.2.1 定性
我們使用VITON、CP-VTON和VTNFP對我們提出的方法進行主觀分析評價。如圖4所示,從上到下,手臂與服裝的遮擋程度逐漸增加,VITON生成的圖像都顯示出許多視覺偽影,包括顏色混合,邊界模糊,紋理混亂等。與VITON相比,CP-VITON在手臂與服裝沒有咬合的情況下可獲得更好的視覺效果,但在有肢體遮擋的情況下,仍會導致不必要目標服裝和身體部位模糊。當手臂和軀干之間有交叉點時,也可以觀察到較差的情況,例如在生成的圖像中手臂細節消失乃至斷裂現象。綜上所述,VITON和CP-VTON將目標服裝扭曲到衣服區域并映射紋理和繡花,缺少相對應的語義布局的約束,從而可能導致對身體部位和下裝的編輯不正確。

圖4 各種算法對不同姿勢下實現的服裝展示效果圖
3.2.2 定量
上述定性比較是基于視覺層面上的結果對比。該部分為了更好地比較兩種方法的效果采取定量比較的方式,選取了3個評價指標對生成結果進行評測,其中PSNR 、SSIM、MSE分別表示兩幅圖像間的峰值信噪比、結構相似性以及均方誤差,評測結果如表2和表3所示。

表2 隨機選取100組實驗結果
表2是隨機選取100組實驗結果的數據,表3是全部測試結果(共14221組)的數據。從表中可以看出,本文方法的PSNR值略高于CP-VTON方法,表明了本文方法試衣后的圖像質量更好。SSIM值基本一致,表明兩種方法在圖像結構性保留方面都有著較好的效果。此外,本文方法的MSE值小于CP-VTON方法,說明了本文方法的圖像失真較小,更好地保留了原始圖像的結構特征,試衣后圖像更加保真。

表3 全部實驗結果
本文在目前已有的成果基礎上,通過融合目標服裝和目標人物的語義解析圖預測出換裝后的人的語義解析圖,語義布局不僅能夠約束目標服裝的變形,而且在指導完整的局部渲染的過程中占據了重要的因素,從而構建融合服裝信息的局部渲染構建方法,但是收到各方面資源的限制,本文目前只針對上衣服裝的常見姿勢的服裝展示效果的應用與研究。取得了一定的進展,但以下幾個方面還需作深入的研究:(1)融合深度學習的方法的局限性。目前的配準效果較為依賴訓練出的模型精度,對于不同的測試對象,學習訓練的數據集選擇應更具有普適性。(2)在服裝款式方面,本文只是針對上衣和目標人物之間語義解析和掩膜預測,從而實現較為完善的服裝展示效果,在以后的研究中,可以通過構建更多樣式的數據集,設計針對圖像中規則體的深度學習目標檢測與邊緣提取網絡,來提高檢測精度。未來的研究可以考慮將目標人物分位各個服裝區域的語義解析圖,實現更多的服裝搭配。