











摘 要:為快速生成特定服裝款式的成衣效果圖,采用擴散模型,應用ControlNet網絡實現虛擬試衣。首先將人體的關鍵點檢測圖與深度圖作為擴散模型的控制條件,生成姿態可控的虛擬模特;再通過Canny邊緣圖生成虛擬試衣效果圖。以3款連衣裙為例進行虛擬試衣實驗,并優化擴散模型控制條件的參數設置;最后將生成結果與三維建模虛擬試衣結果進行對比和評價。結果表明:結合ControlNet網絡的擴散模型能夠控制虛擬模特的姿態特征,通過服裝Canny邊緣圖可以生成特定服裝款式的虛擬試衣效果。該方法生成的虛擬試衣相較三維建模技術實現的虛擬試衣方法更具表現力,操作更加直觀快捷,能夠為設計師提供款式圖的成衣效果可視化參考,從而提高服裝設計效率。
關鍵詞:虛擬試衣;擴散模型;ControlNet網絡;虛擬模特;人體關鍵點檢測;服裝設計
中圖分類號:TS941.26
文獻標志碼:A
文章編號:1009-265X(2024)03-0118-11
收稿日期:20230730
網絡出版日期:20231025
基金項目:遼寧省教育廳科研項目(LJKFR20220220)
作者簡介:郭宇軒(2000—),男,河北邯鄲人,碩士研究生,主要從事人工智能服裝設計方面的研究。
通信作者:孫林, E-mail: Sunlinart@163.com
虛擬試衣能夠呈現直觀的成衣試穿效果,提高服裝設計效率,節約開發成本[1]。基于三維建模技術實現的虛擬試衣,可根據數字化服裝紙樣進行虛擬縫制,并在三維人體模型上呈現試衣效果[2],能夠較為準確、直觀地展現服裝的空間結構以及服裝與人體的貼合狀態。常用的三維建模虛擬試衣軟件有Vstitcher、CLO3D、Style3D等[3],但這些軟件需要大量建模成本,更換與調整模型需要重新繪制紙樣,更新大量參數,難以快速、高效地實現虛擬試衣。
隨著計算機技術與機器學習的發展,二維虛擬試衣技術成為研究熱點。Goodfellow等[4]提出的生成對抗網絡(Generative adversarial networks, GANs)在圖像生成領域取得了成功,為后續的虛擬試衣技術開發提供基礎。在條件式生成對抗網絡(Contradiction generative adversarial network, CGAN)[5]基礎上改進的條件類比生成對抗網絡(Condition analogy generative adversarial network, CA-GAN)[6]應用于虛擬試衣領域,實現簡單姿態的模特換裝,但生成的服裝無法適應模特的動作變化[7]。為解決這一問題,Han等[8]提出了VITON(Virtual try on)虛擬試衣網絡,將平鋪的服裝扭曲變形后合成到模特圖像的相應區域,實現了虛擬試衣;Wang等[9]在VITON網絡的基礎上,提出了保留特征的虛擬試穿網絡(CP-VITON)。Men等[10]提出的屬性分離生成對抗網絡"(Attribute decomposed generative adversarial network, ADGAN)實現了樣式可控的人像生成;張淑芳等[11]在ADGAN基礎上進一步提高了生成圖像質量。上述二維虛擬試衣技術傾向于解決線上購物的試衣難題,只能根據真實服裝生成虛擬試衣圖像,因此,在服裝設計階段如何利用二維虛擬試衣技術,為設計師提供服裝款式的成衣效果圖參考,提高設計效率,成為需要解決的問題。
近年來,擴散模型(Diffusion model)在圖像生成領域脫穎而出,成為解決上述問題的著力點之一。然而,基于該模型的虛擬試衣方法通常以文本提示作為生成條件,圖像生成具有隨機性,難以準確生成虛擬模特姿態和服裝款式。Zhang等[12]提出了ControlNet網絡,該網絡使得擴散模型的生成圖像更加可控,訓練后的ControlNet網絡能夠進一步根據Canny邊緣圖、深度圖、人體關鍵點圖等圖像信息調整擴散模型,控制生成圖像的人體姿態、邊緣特征、前后位置關系等,為實現快速虛擬試衣提供了新的思路。本文以連衣裙虛擬試衣為例,采用擴散模型,通過ControlNet網絡生成指定服裝款式的虛擬試衣,實現快速生成服裝款式的成衣效果圖,從而為設計師提供特定款式圖的可視化成衣效果,進而提高服裝設計效率。
1 擴散模型概述
Sohl-Dickstein等[13]受到非平衡熱力學的啟發,提出擴散概率模型(Diffusion probabilistic models),并利用不同數據集測試模型的實用性,但是與同時期的其他生成模型相比,擴散概率模型生成的圖像質量并不突出。此后,Song等[14]提出一種基于分數的生成模型(Score-based generative modeling),通過分數匹配 (Score matching)方法估計數據密度的梯度,再應用朗之萬動力學(Langevin dynamics)生成圖像,并提出通過噪聲條件分數網絡(Noise conditional score networks,NCSN)和退火朗之萬動力學(Annealed Langevin dynamics)采樣改進模型,實現高質量圖像的生成。 Ho等[15]基于Song的研究優化了擴散概率模型,提出去噪擴散概率模型(Denoising diffusion probabilistic models, DDPM),并證明擴散模型同樣能夠生成高質量圖像。去噪擴散概率模型模型分為前向的擴散過程(Forward process)和反向的逆擴散過程(Reverse process)。前向過程通過對初始圖像添加T次噪聲,將輸入的真實圖像x0漸近變換為純高斯噪聲的圖像xT,在每一步加噪過程中,xt-1添加一個高斯噪聲產生一個新的隱變量xt,從第t-1步到第t步的圖像加噪過程可以用高斯分布表示為:
q(xt|xt-1)=N(xt;1-βtxt-1,βtI),
其中:1-βtxt-1表示高斯分布的均值,βtI表示高斯分布的方差,βt是隨t逐漸增大的超參數,I表示與輸入樣本x0具有相同維數的單位矩陣。擴散模型的前向過程可以表示為從t=1到t=T時刻的馬爾科夫鏈:
q(x1:Tx0)=∏Tt=1q(xtxt-1)。
DDPM模型反向過程也是一個馬爾科夫鏈,通過神經網絡學習預測反向擴散過程的高斯分布方差和均值,對加噪圖像逐步去噪生成圖像。Dhariwal等[16]使用分類器引導模型進行采樣和生成,并提出使用對比語言圖像預訓練(Contrastive language-image pretraining,CLIP)網絡代替分類器,實現利用文本引導圖像生成。Rombach等[17]提出了隱含擴散模型"(Latent diffusion models),使用預訓練的自編碼器(Autoencoders)將圖像壓縮至隱含空間(Latent space),并在隱含空間中訓練擴散模型,從而能夠大大減少計算復雜度,同時也能實現高分辨率的圖像生成,為擴散模型的實際應用奠定基礎。本文使用的擴散模型為Stable diffusion模型。Stable diffusion模型是以隱含擴散模型作為基礎,在LAION-5B數據集訓練得到的用于圖像生成的大型擴散模型,支持文本轉圖像(Text-to-image)、圖像轉圖像(Image-to-image)等功能,自2022年發布以來成為用于圖像生成的主流模型之一。
2 ControlNet網絡
服裝設計師能夠通過文本提示詞(Prompt)與反向提示詞(Negative prompt)控制Stable diffusion模型生成圖像,實現靈感的快速可視化,文本描述對生成的圖像內容起決定性作用。然而,根據文本描述生成的圖像具有一定的隨機性,對于特定服裝的虛擬試衣任務,僅根據模特姿態、服裝款式、面料色彩的文本描述進行圖像生成,會導致生成的服裝與最初的設計存在差別。ControlNet網絡的應用大大提高了圖像生成的可控性,實現了在大型擴散模型中附加多種空間語義條件來控制圖像的生成[18]。ControlNet網絡通過復制一份可訓練的擴散模型參數副本在特定的數據集上學習條件控制,同時保留一份原本擴散模型從大型數據集中學習到的網絡參數,二者通過零卷積層連接,最終實現對擴散模型生成圖像的微調。特定控制條件的實現,需要使用對應的圖像數據集訓練ControlNet網絡,例如,使用Canny邊緣檢測算法[19]處理圖像得到的邊緣圖作為數據集,訓練出的ControlNet網絡能夠控制Stable diffusion模型按照指定的邊緣輪廓進行圖像生成。本文方法應用Canny邊緣圖、深度圖、人體關鍵點檢測圖(Openpose)[20]對應的數據集所訓練的ControlNet網絡,引導Stable diffusion模型對指定的服裝款式與虛擬模特進行生成,實現虛擬試衣。
3 本文方法
本文虛擬試衣方法包括虛擬模特生成和模特試衣效果圖生成兩部分,方法的流程框架如圖1所示。首先對真人服裝模特圖像進行采樣,提取模特的人體關鍵點圖與深度圖作為生成條件,應用ControlNet網絡控制Stable diffusion模型生成特定姿態的虛擬模特。此后,通過Canny邊緣檢測算法提取虛擬模特的邊緣圖,結合所需試衣服裝的款式圖對虛擬模特的邊緣圖進行編輯和修改,繪制虛擬模特穿著特定款式服裝的邊緣圖,最后將其作為生成條件,結合文本提示詞,控制Stable diffusion模型生成指定款式服裝的虛擬試衣效果圖。
4 連衣裙虛擬試衣生成實驗
通過設計虛擬試衣的實驗,驗證方法的可行性與實用性。選擇兩種模特姿態與3款連衣裙進行生成實驗,評估ControlNet網絡的輸入條件對Stable diffusion模型生成虛擬試衣圖像的控制效果,并對不同參數設置下的實驗結果進行比較分析。
4.1 實驗環境
本次實驗使用的計算機硬件配置:顯卡型號NVIDIA GeForce RTX 3080 Laptop GPU,CPU型號為11th Gen Intel(R) Core(TM) i7-11800H@2.30 GiHz,顯存16 Gi,內存16 Gi。編程語言:Python 310.6。擴散模型:Stable diffusion。ControlNet網絡版本:ControlNet v1.1.224。
4.2 虛擬模特生成
4.2.1 模特姿態生成
為展現服裝的虛擬試衣效果,首先需要對服裝模特進行設計和生成,通過對常見服裝模特展示服裝的姿態調查,選擇圖2(a)所示真人模特姿態進行采樣。使用預處理模型openpose_full對真人模特的肢體關鍵點、手指關鍵點、臉部輪廓以及五官分布進行識別和標注,獲得如圖2(b)所示人體關鍵點檢測圖,用于控制生成模特姿態以及五官分布;使用預處理模型depth_midas獲取如圖2(c)所示的深度圖像,深度圖能夠提供模特肢體的空間關系,控制生成
圖像的空間特征更加準確。實驗使用control_v11p_sd15_openpose_fp16模型識別并控制生成模特姿態,ControlNet網絡控制權重設置為1;control_v11f1p_sd15_depth_fp16模型控制生成模特圖像的深度信息,ControlNet網絡控制權重設置為0.8。附加關鍵文本提示詞為:亞洲女性、黑色頭發、黑色短袖短褲、高跟鞋,用于控制模特膚色、發型發色、著裝等細節特征;Stable diffusion模型的風格化微調模型使用LOFIv22。最終生成結果如圖2(d)所示。
4.2.2 模特細節特征控制
在姿態控制的基礎上進行細節特征控制實驗,主要以文本提示詞進行控制,如圖3所示。圖3(a)"使用提示詞為“金色頭發”,圖3(b)提示詞則為“紅色頭發”;同理,通過更換提示詞和風格化微調模型可以實現控制生成圖3(c)歐洲女性模特和圖3(d)非洲女性模特,為試衣提供多樣化、定制化的模特選擇。
4.3 虛擬試衣效果呈現
4.3.1 連衣裙款式設計
首先繪制三款連衣裙服裝款式圖作為試衣款式,如圖4所示。其中,款式A為基礎連衣裙款式,衣身兩側結構拼接設計,塑造立體感;款式B為非對稱設計,左肩設計吊帶,下擺開叉;款式C為長款禮服裙,并在腰間立體打褶設計,實驗主要以款式A的虛擬試衣效果說明繪制流程,并應用款式B與款式C進一步驗證方法的可行性與通用性。
4.3.2 虛擬試衣效果圖生成
虛擬試衣效果圖的生成需要以邊緣輪廓作為生成控制條件,以達到準確表現服裝款式的目的。將上文方法生成的亞洲模特作為試衣模特,利用Canny邊緣檢測算法處理虛擬模特圖像獲得模特邊緣圖;結合連衣裙款式A,使用Adobe Illustrator軟件對邊緣圖進行部分重繪,獲得模特著裝邊緣圖,將其作為生成最終試衣效果圖的邊緣控制條件。繪制流程如圖5所示。
以模特著裝邊緣圖作為控制條件進行虛擬試衣效果圖的生成,使用control_v11p_sd15_canny_fp16模型控制生成圖像的邊緣輪廓,ControlNet網絡控制權重為1;生成圖像大小為512×992像素,提示詞相關性(CFG Scale)設置為13.5,每張圖像的采樣迭代步數(Steps)設置為150步,實驗設備上每張圖像生成時間約為75 s,進行5到10次生成后,選擇表現效果較好的圖像作為最終結果。實驗發現,生成圖像能夠根據模特著裝邊緣圖較為清楚地表現服裝領型、廓形、衣身結構線,通過文本提示詞實現對服裝色彩的控制,例如提示詞為“黑色連衣裙”,生成效果為純黑色連衣裙,如圖6(a)所示;提示詞為“白色連衣裙”,效果如圖6(b)所示;提示詞為“黑色與黃色連衣裙(Black and yellow dress)”則能夠控制圖像在分界線處進行黑黃拼接設計,如圖6(c)所示。同時實驗還發現,根據邊緣圖的線條生成圖像可能會生成多余的元素,例如將領口線錯誤生成為項鏈配飾,可通過在反向文本提示詞中標注出多余元素的方法減少生成誤差;在提示詞控制色彩效果不明顯時,可適當提高提示詞相關性(CFG Scale)和提示詞權重以達到滿意的提示詞表現效果。
實驗通過設計面料提示詞更換同一款式連衣裙的面料,探究提示詞權重對生成效果的影響,關鍵提示詞設計為“綠色絲綢連衣裙(Green silk dress)”、“綠色針織連衣裙(Green knitted dress)”、“綠色皮革連衣裙(Green leather dress)”,將三組關鍵提示詞的權重由0.8逐漸增加至1.3,分別進行連衣裙生成實驗,實驗生成效果如圖7所示。實驗中發現,關鍵提示詞權重大于0.8時,綠色絲綢連衣裙與綠色針織連衣裙的面料、色彩特征能夠明顯呈現,綠色皮革連衣裙在提示詞權重小于1.1時僅能夠表現皮革面料特征,無法明顯表達色彩特征,服裝仍然為白色,提示詞權重大于1.1時,面料與色彩特征可以同時表達,因此,需要根據不同提示詞靈活調整權重,權重設置低容易造成部分語義信息表現能力弱,生成圖像的效果不佳。
同時,實驗發現生成服裝的面料特征隨著提示詞權重的增加不斷增強,權重設置過高容易覆蓋其他提示詞效果并出現語義雜糅、畫面混亂,如關鍵提示詞權重增加至1.4,服裝面料特征表現能力過強,生成圖像的模特背景會帶有面料質感的元素,同時服裝出現原本款式設計以外的結構,導致生成效果不佳,如圖8所示。通過實驗比較不同權重的生成效果,最終將絲綢面料權重設置為1,針織面料權重設置為0.9,皮革面料權重設置為1.2,使生成服裝的色彩和面料都達到較好表現效果,生成虛擬試衣效果如圖9所示。
本文通過連衣裙款式B與款式C進一步驗證上文方法控制生成虛擬試衣圖像的普遍適用性,選擇與款式A相同的服裝模特邊緣圖進行連衣裙款式編輯,獲得款式B與款式C的著裝效果邊緣圖,并作為生成姿態與款式的控制條件,款式B關鍵提示詞為“紅色針織短款連衣裙與黑色腰帶”,款式C關鍵提示詞為“藍色絲綢連衣裙”,通過上述方法生成虛擬試衣效果如圖10所示。
4.4 不同虛擬試衣方法的對比與評價
為比較不同虛擬試衣方法的操作與試衣效果的差異,本文選擇VITON虛擬試衣網絡、CLO3D、Style3D與本文方法進行對比,不同虛擬試衣方法的
技術原理與操作方法如表1所示。以VITON虛擬試衣網絡為代表的二維虛擬試衣方法,輸入為用戶與目標服裝圖像,輸出為用戶穿著目標服裝的試衣效果圖,合成的試衣效果圖保留用戶人體姿態與目標服裝的款式細節[21]。與本文方法相比,二維虛擬試衣方法側重于解決用戶線上購物的試衣問題[22],無法生成原創的虛擬模特與虛擬服裝,也不支持對輸入的用戶姿態與服裝款式進行控制和調整,難以在服裝設計階段為設計師提供虛擬服裝的試衣效果。
CLO3D與Style3D是服裝設計階段常用的三維虛擬試衣方法,在不制作服裝成衣的情況下,可通過服裝與人體建模的方法展示服裝虛擬試衣效果。文章使用兩種三維試衣方法與本文方法生成相同姿態虛擬模特穿著同一款式服裝的虛擬試衣效果圖,生成效果如圖11所示。3種方法都能夠較為準確地表現服裝的款式、面料與色彩特征。與三維建模方法相比,本文方法對虛擬模特姿態的控制更加簡化,不需要手動操作控制虛擬模特肢體位置,僅需要使用人體關鍵點圖像作為輸入條件即可控制模特姿態;同時本文方法對服裝款式的調整更加直觀,無需重新繪制服裝版型和虛擬縫合,只通過更改服裝邊緣輪廓并用擴散模型生成即可得到高質量圖像,減少3D建模成本以及模型渲染所帶來的設備壓力;在生成效果方面,本文方法生成的虛擬模特姿態與面部五官更加生動自然,虛擬模特皮膚質感與虛擬服裝的面料質感更加細膩,并且更接近真實效果,此外擴散模型生成的背景環境與光影效果使整體試衣圖像更具有美感和表現力。
5 結 論
本文提出了一種應用擴散模型與ControlNet網絡的生成式虛擬試衣方法,達到由服裝款式圖生成虛擬試衣效果圖的目的。通過3款連衣裙的虛擬試衣實驗,驗證了本文方法的實用性;生成的試衣效果圖能夠較為準確地表現款式圖中的服裝輪廓、結構、面料與色彩。本文方法能夠在不制作服裝成衣的前提下,快捷地為設計師提供款式圖的成衣效果參考,輔助設計師調整與完善設計,提高服裝設計效率。
本文提出的虛擬試衣方法仍然存在一些不足,如生成服裝的色彩和面料只能根據文本描述粗略定義,生成模型難以理解部分服裝設計與服裝工藝的專業術語等,需要在后續研究中進一步提高生成的可控性,為服裝設計的智能化提供更高效的手段。
參考文獻:
[1]"崔萌,陳素英,殷文,等.基于虛擬試衣技術的服裝設計與開發[J].毛紡科技,2020,48(6):58-61.
CUI Meng, CHEN Suying, YIN Wen, et al. Design and development of clothing based on virtual fitting technology[J]. Wool Textile Journal, 2020, 48(6): 58-61.
[2]"楊秀麗,謝子欣.基于3D虛擬試衣技術的服裝可視化結構設計[J].針織工業,2023(2):70-74.
YANG Xiuli, XIE Zixin.Visualized structure design of clothing based on 3D virtual fitting technology[J]. Knitting Industries,2023(2):70-74.
[3]"薛蕭昱,何佳臻,王敏.三維虛擬試衣技術在服裝設計與性能評價中的應用進展[J].現代紡織技術,2023,31(2):12-22.
XUE Xiaoyu, HE Jiazhen, WANG Min. Application progress of 3Dvirtual fitting technology in fashion design and performance evaluation[J]. Advanced Textile Technology, 2023, 31(2):12-22.
[4]"GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2014: 2672-2680.
[5]"MIRZA M, OSINDERO S. Conditional generative adversarial nets[C]NIPS Proceedings of advances in Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2014:5767-5777.
[6]"JETCHEV N, BERGMANN U. The conditional analogy GAN: Swapping fashion articles on people images[C]IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, Italy: IEEE, 2018: 2287-2292.
[7]"張穎,劉成霞.生成對抗網絡在虛擬試衣中的應用研究進展[J].絲綢,2021,58(12):63-72.
ZHANG Ying, LIU Chengxia.Research progress on the application of generative adversarial network in virtual fitting[J]. Journal of Silk, 2021,58(12):63-72.
[8]"HAN X T, WU Z X, WU Z, et al. VITON: An image-based virtual try-on network[C]IEEE CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE,2018:7543-7552.
[9]"WANG B C, ZHENG H B, LIANG X D, et al. Toward characteristic-preserving image-based virtual try-on network[M]Computer Vision (ECCV). Cham: Springer, 2018:607-623.
[10]"MEN Y F, MAO Y M, JIANG Y N, et al. Controllable person image synthesis with attribute-decomposed GAN[C]IEEECVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle, WA, USA: IEEE, 2020: 5083-5092.
[11]"張淑芳,王沁宇.基于生成對抗網絡的虛擬試穿方法[J].天津大學學報(自然科學與工程技術版),2021,54(9):925-933.
ZHANG Shufang, WANG Qinyu. Generative-adversarial-network-based virtual try-on method[J]. Journal of Tianjin University (Science and Technology),2021,54(9): 925-933.
[12]"ZHANG L M, RAO A Y, AGRAWALA M, Adding conditional control to text-to-image diffusion models[EBOL](2023-09-02)[2023-10-15]. https:arxiv.orgabs2302.05543.
[13]"SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]Proceedings of the 32nd International Conference on Machine Learning-Volume 37. Lille, France. New York: ACM,2015:2256-2265.
[14]"SONG Y, ERMON S. Generative modeling by estimating gradients of the data distribution[EBOL]. (2020-10-10)[2023-07-23]. https:arxiv.orgabs1907.05600.
[15]"HO J, JAIN A, ABBEEL P. Denoising diffusion proba-bilistic models[C]Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, BC, Canada. New York: ACM, 2020: 6840-6851.
[16]"DHARIWAL P, NICHOL A.Diffusion models beat GANs on image synthesis[EBOL]. (2021-05-11)[2023-07-23]. https:arxiv.orgabs2105.05233.
[17]"ROMBACH R, BLATTMANN A,LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]IEEECVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA: IEEE, 2022: 10674-10685.
[18]"余青龍.AI繪畫軟件的創作特征研究:以繪畫軟件Novel AI生成的動漫人物形象為例[J].信陽師范學院學報(哲學社會科學版),2023,43(3):127-132.
YU Qinglong. A study of the creative features of AI drawing software: Exampled by anime characters generated by Novel AI[J]. Journal of Xinyang Normal University(Philosophy and Social Sciences Edition), 2023, 43(3):127-132.
[19]"CANNY J.A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679-698.
[20]"CAO Z, SIMON T, WEI S H, et al. Realtime multiperson 2D pose estimation using part affinity fields[C]IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 1302-1310.
[21]"譚澤霖,白靜.二維圖像虛擬試衣技術綜述[J].計算機工程與應用,2023,59(15):17-26.
TAN Zelin, BAI Jing. Survey of two-dimensional image virtual try-on technology[J]. Computer Engineering and Applications,2023, 59(15):17-26.
[22]"花愛玲,余鋒,陳子宜,等.深度學習在二維虛擬試衣技術的應用與進展[J].計算機工程與應用,2023,59(11):37-45.
HUA Ailing, YU Feng, CHEN Ziyi, et al. Application and progress of deep learning in 2D virtual try-on technology[J]. Computer Engineering and Applications, 2023,59(11):37-45.
Abstract:
With the development and iteration of image generation models, models "like Stable Diffusion based on the diffusion model have become the mainstream image generation models, providing a new way for clothing design and rendering. The diffusion model usually uses the text prompt word as the image generation condition and the generated picture has randomness. It is difficult to accurately generate the virtual fitting effect of a specific style. The application of ControlNet neural networks makes the generation of images more controllable. The trained ControlNet network can use the image information such as Canny edge map, depth map, and Openpose map as additional generation conditions of the diffusion model to control the human body posture, edge features, front and rear position relationship of the generated image. This paper briefly describes the development history and principle of the diffusion model, and explores its feasibility for generating virtual fitting renderings. To achieve the purpose of visualizing the clothing style diagram as the garment effect and realize the rapid generation of virtual fitting effect, This paper attempts to use ControlNet neural network to control the diffusion model to generate virtual fitting effect of virtual models wearing specified clothing styles.
The virtual fitting of three dresses was taken as an example for experimentation. Firstly, the images of real clothing models with expected posture were sampled, and the key human body images and pose depth maps of real models were extracted as the generation conditions. Then, the Controlnet control Stable Diffusion model was used to generate a virtual clothing model image that matches the intended pose. Subsequently, the edge image of the virtual model was generated by the Canny algorithm, and the edge image was edited and modified in combination with the dress style diagram. The edge image of the virtual model wearing the specified style dress was drawn, and it was used as the edge generation condition. The virtual fitting effect of the dress conforming to"the specific style, color and fabric was generated by the text prompt-controlled diffusion model, and the style of the dress with the virtual fitting effect was changed in real time by modifying the edge image, so as to provide an intuitive reference for fashion designers to modify and adjust designs. In addition, the detailed feature control experiment of the virtual model was also carried out during the experiment; experiment on the control effect of text prompt word weight on clothing fabric and color was carried out. Finally, the generation effect of the proposed method was compared and evaluated with the effect of 3D modeling virtual fitting clothing.
The results show that the diffusion model combined with the ControlNet network can control the pose characteristics of the virtual model, allowing the virtual fitting effect of the expected clothing style to be generated by editing the Canny edge image control. Compared with 3D modeling, the virtual fitting effect is more expressive, the operation is more intuitive and faster, and it is more suitable for providing designers with intuitive clothing display in the style design stage, assisting designers to adjust the design style, color, fabric and process, and improving the efficiency of clothing design.
Keywords:
virtual fitting; diffusion model; ControlNet; virtual models; human keypoint detection; clothing design