祖雅妮 張毅











摘要: 現有的虛擬試穿技術需要用戶提供人體圖像和服裝圖像,且存在生成圖像質量低、泛化性差等缺點。為了解決現有問題,文章提出了一種基于文本圖像預訓練模型的虛擬試穿方法。用戶只需輸入描述服裝的文本,即可獲取試穿效果。此外,通過編輯GAN-Inversion優化生成的隱向量,能夠保障生成與輸入圖像質量上的一致性。定性實驗結果表明,文章提出的方法能夠有效地保留輸入人體圖像的特征,并生成與文本描述一致的服裝。在定量實驗中,該方法在語義信息、IoU和FID等評價指標上均優于現有方法。
關鍵詞: 虛擬試穿;GAN-反轉;預訓練模型;CLIP;GAN-編輯;文本圖像模型
中圖分類號: TS941.2 文獻標志碼: ?A
文章編號: 10017003(2023)080099-08
引用頁碼: 081201 DOI: 10.3969/j.issn.1001-7003.2023.08.012
虛擬試穿是一項利用計算機視覺和機器學習預測指定體型上服裝效果的技術。使用虛擬試穿技術能夠為消費者提供更個性化和交互性的購物體驗,同時降低了實體試穿的需求,具有廣泛的研究和應用價值。在現有的虛擬試穿研究中,有一種基于三維模型的方法,即通過采集人體數據模型來進行三維物理仿真,以此預測服裝在人體上的效果。該方法雖具備較高精度,但需要昂貴的三維采集設備,且在數據安全上存有一定風險[1]。相較而言,基于二維圖片的虛擬試穿技術具有使用方便、成本低廉等優點,但在精度上有所下降。針對這一問題,學界將深度學習技術廣泛應用至虛擬試穿領域。Han等[2]提出了VITON(virtual try-on network)框架,即生成與輸入人體位姿相適應的扭曲服裝圖像進行粗配準后,再進行紋理和細節的微調。基于此項工作,Minar等[3]在粗配準階段添加了幾何匹配模塊,提高了服裝與人體的貼合效果;Choi等[4]提出了VITON-HD,即在最終生成圖像時添加提升圖像質量的模塊,提高了圖像的分辨率和細節;Dong等[5]提出了MG-VTON,允許輸出多種位姿的試穿圖像。但上述工作基于“圖像+圖像”的輸入,即需要輸入指定的服裝圖像,限制了方法的應用范圍。
近年來,隨著深度學習的發展,大語言模型(Large Language Model,LLM)得到了廣泛應用,如對話模型ChatGPT[6]及對比語言圖像預訓練模型(Contrastive Language-Image Pre-Training,CLIP)[7]等。這些語言模型通過無監督或自監督學習的方式,使用了大量網絡直接獲取的數據進行訓練,在泛化能力上遠超過了在指定數據集上的傳統監督訓練。由此,語言模型被廣泛應用到各項研究中,如語音[8]和圖像生成[9]等。“本文+圖像”的訓練模式改變了傳統“圖像+圖像”的方法,即可同時生成描述的服裝及試穿效果,擴展虛擬試穿的應用范圍。在圖像生成領域,生成式對抗網絡(Generative Adversarial Network,GAN)[10]因其優異性能而得到普遍應用。Karras等[11]針對GAN的網絡架構進行了改進,提高了生成圖片的質量并降低了對數據量的需求。然而,如何更穩定和有效地控制生成的圖像一直是研究的難點。Tov等[12]提出了GAN反轉(GAN-Inversion)的概念,即構造一個編碼器結構,直接在GAN的隱空間中對隱向量進行編輯,從而提高了圖像效果。
相較于現有研究,本文基于CLIP將虛擬試穿的輸入范圍設定為“圖像圖像”擴展到“文本圖像”,并結合GAN-Inversion構造的編碼器,在Patashnik等[9]的工作基礎上,使用神經網絡直接對GAN-Inversion生成的隱向量進行優化,提高生成圖像的質量。然后,利用定性與定量實驗驗證現有方法的可行性。
1 虛擬試穿方法框架
1.1 現有虛擬試穿方法框架分析
現有的基于二維圖像輸入的虛擬試穿遵循以下主要流程:1) 輸入指定的人體圖片和服裝圖片;2) 進行人體位姿提取和人體區域分割;3) 根據人體位姿對服裝進行扭曲并與人體圖片進行粗配準;4) 精調服裝紋理和匹配細節。
本文以VITON為例,其流程如圖1所示。
在真實的使用場景中,虛擬試穿需要保持輸入的人體圖像位姿和其他外部特征(如臉部、頭發)不變,最終輸出的圖像與原始輸入的人體圖像除了在服裝上有所不同,其余特征均保持一致。首先,VITON對人體圖像進行位姿提取,并使用GAN網絡預測最終服裝效果。然后對輸入的衣物與人體進行粗配準,獲得大致的形態。最后通過卷積神經網絡進行精調,豐富紋理細節和姿態匹配。
1.2 基于文本圖像預訓練模型的虛擬試穿整體架構
本文提出的方法基于文本圖像預訓練模型CLIP,將虛擬試穿的輸入范圍擴展到文本+圖像。該方法的整體架構主要分為三步驟(圖2)。首先,對輸入的人體圖像(I)進行位姿提取(P)和圖像分割(S)。提取的位姿用于約束身體的各部分
尺寸、形態及最終生成服裝的形態。這一步驟的主要目的為保持輸入與輸出圖像的一致性。其次,為使用文本描述作為輸入,添加了用于提取文本和圖像特征的編碼器,分別為Ct及Ci。文本圖像編碼器將用于約束服裝圖像的生成,使其符合文本描述。再次,為了提高生成圖像的質量,采用GAN-Inversion,將原始的圖像輸入編碼器(E)得到隱向量wini,用映射模塊(M)生成相同維度的向量woffset,對得到的隱向量進行編輯。最后得到的隱向量w被輸入到生成器(G)中以生成最終圖像G(w)。本文的主要目標在于優化映射模塊(M),最小化文本轉圖像的誤差,即:
式中:W表示GAN隱空間。
1.2.1 文本圖像編碼(C)
文本圖像編碼模塊需要匹配輸入的文本和輸出的服裝圖像特征,使得最終的輸出圖像符合文本描述。本文直接使用了預訓練的視覺語言模型CLIP[7]用于特征提取。
輸入的文本t將通過CLIP的文本編碼器Ct輸出高維的特征向量vt=Ct(t);同樣,生成圖像G(w)將通過CLIP的圖像編碼器Ci輸出特征向量vw=Ci(G(w))。輸出的向量用于衡量文本圖像之間的匹配程度并構造誤差函數,其中特征向量的維度為dim(v)=640[7]。
1.2.2 位姿提取(P)
為確保輸入與輸出的人體圖像在位姿上保持一致,需要對原始人體位姿進行提取分析。本文采用了預訓練的基于ResNet50的Detectron2模型作為位姿提取模塊(P)。該模型最多可以解析人體24個獨立部位,如左小臂、右大臂等。本文僅提取上身14個獨立部分的位姿。經過解析后,可得到14個通道,長×寬為112×112的矩陣(長、寬分別為112像素的圖像)。為了更好地展示結果,本文將其轉化為熱力圖并進行可視化,如圖3所示。
1.2.3 圖像分割(S)
為了加強輸出圖像與輸入圖像的一致性,本文采用了圖像分割模塊(S),將人體圖像分成頭部(臉部+頭發)區域和身體區域。使用SegNet[13]作為圖像分割模塊,最終輸出2通道的二值圖像,尺寸與原圖像相同(256×256),如圖4所示。分割后的頭部區域將用于最終的圖像拼接,以進一步提高輸出與輸入圖像的吻合度。
1.2.4 編碼器(E)
近年來,GAN-Inversion[12]技術在圖像編輯領域備受關注。該技術可以直接編輯圖像對應的隱向量,較調整GAN網絡的整體模型參數更為高效和直接。本文將GAN-Inversion用于虛擬試穿中,將原始輸入圖像I通過編碼器(E)輸出為隱向量wini。在具體模型選擇上,采用了E4e[12]作為圖像的編碼器,輸出的隱向量的維度為dim(wini)=512。
1.2.5 生成器(G)
生成器(G)本身就是GAN網絡中的生成網絡,通常是一個卷積神經網絡。輸入隱向量w并輸出最終的圖像G(w)。具體來說,本文采用了預訓練的圖像生成模型StyleGANv2[14]。通過使用預訓練的生成器模型,可以減少訓練時間和計算資源,從而生成高質量的圖像。
1.2.6 映射模塊(M)
直接將編碼器(E)生成的隱向量winit輸出到生成器(G)中,得到的圖片效果通常很差。因為雖然編碼器可以將真實的圖像映射到隱空間W′中,但W′是一個刻意創造出來的空間,與GAN原始的隱空間并不一致。因此,為了保證生成圖像的質量,需要通過映射模塊(M)對生成的隱向量進行優化。映射模塊(M)是一個全連接層的神經網絡,層數與生成器(G)一致;映射模塊將輸出與隱向量wini相同維度的一個偏移向量woffset,用以優化隱向量并使其靠近真正的隱空間W,進而提升圖像質量。
2 損失函數設置
2.1 語義約束
為使生成的圖像符合文本的描述特征,需要優化圖像文本之間的特征誤差。輸入的文本及輸出的圖像分別經過CLIP編碼之后,得到特征向量Ci(G(w))及Ct(t)。衡量兩個向量之間的誤差通常采用余弦距離[9],語義約束的損失函數如下式所示:
2.2 位姿約束
輸入與輸出圖像的位姿是否一致直接影響了用戶的使用體驗。為保持整體的位姿一致,需要保證身體各個部位在尺寸、形狀及位置上前后不變。據此,構造位姿誤差函數為:
式中:NB表示提取出的獨立的人體部位的數目(本文中NB=14);Di()表示提取的第i個部位的特征表示。具體來說,Di()將輸出與原始圖像相同尺寸的二維矩陣。
對于衡量矩陣之間的誤差,通常采用逐元素平方誤差均值的形式,即假設A,B為兩個M×N的矩陣,A,B之間的誤差表示為:
2.3 圖像分割約束
雖然分割的圖像可用于最終的圖像拼接,但為了增強輸入與輸出圖像的一致性,同時為了保證進行圖像拼接時更加貼合,基于分割后的人體區域,定義了損失函數。具體如下式所示:
式中:Sbody()表示對圖像進行分割后的身體部分的區域;Shead()表示對圖像進行分割后的頭部(即面部與頭發)的區域。
body與head使生成圖像在整體形態上與輸入圖像保持一致。
2.4 隱向量正則化
雖然映射模塊(M)對原始的隱向量進行偏移操作,但是需要注意,最終生成的隱向量w不應與初始的隱向量winit偏差過大,否則生成的圖像將產生較大差異。為此,在對woffset進行優化時,需要對其自身添加正則化限制:
2.5 最終損失函數
基于上述分析,最終得到的映射模塊(M)的損失函數為:
式中:λ表示各項損失函數的權重系數。
3 結果與分析
3.1 實驗環境設置
3.1.1 數據集
雖然本文使用了多個預訓練模型,但考慮到服裝領域模型的預訓練數據集差異,因此還需要以下3種數據集對預訓練的模型進行微調以提升性能。1) 圖像生成數據集:使用VITON數據集對生成器(G)與編碼器(E)進行訓練。本文使用整個訓練集對StyleGANv2和E4e模型進行訓練,并取測試集中的100張圖片進行最終的性能評估。2) 圖像分割數據集:為使圖像分割模塊更適用于人體輸入,本文將預訓練的SegNet在DeepFashion[15]數據集上進行微調。為提升最終性能,在進行訓練時僅保留了與VITON中類似的數。在分割標簽的選擇上,僅保留了頭部、身體及背景。3) 文本測試數據集:對于文本數據,本文采用了Fashion-Gen[16]數據集用于測試文本圖像一致性誤差。Fashion-Gen包含了293 000個文本圖像對,類似地,本文僅選擇了與VITON類似風格的數據用于測試。此外,在文本的選擇上,剔除了非服裝類型的描述(如“黑色鱷魚紋雙層皮手鐲,采用針扣式扣合”);對于高度專業化的描述(如“黑色方形紋理皮革背心。前面帶有拉鏈口袋。后領口帶有掛環和按扣裝置。內里完全襯里,線跡色調一致”),CLIP模型難以有效提取特征,因此在進行測試時也進行了剔除,僅選擇了易于理解的文本數據。
3.1.2 參數設置
對于生成器StyleGANv2,在進行訓練時首先將VITON數據集中的數據裁剪為256×256大小的尺寸,訓練共迭代450 000次;對于編碼器E4e,設置學習率η=10-2;對于分割模型SegNet,設置學習率η=10-4,共訓練20輪模型收斂。對于映射模塊(M),為全連接的4層神經網絡,尺寸上與StyleGANv2的生成網絡相同,具體的各項誤差函數的權重系數設置為λclip=λoffset=1,λhead=λbody=λpose=10,學習率η=5×10-2;訓練過程使用Adam優化器[17]。
3.1.3 對比方法及評價指標
本文對最終收斂的模型進行多次、多種類的輸入,檢測其是否滿足使用要求。為探究方法的有效性,選擇了圖像生成模型ReStyle-E4e[18]作為比較基準。此外,為了探究映射模塊(M)的效果,對比了不添加映射模塊(M),即由編碼器(E)直接輸出隱向量生成圖像的方法。
在定性實驗中,主要進行以下兩方面的對比:1) 給定相同的人體輸入圖像,對比不同文本輸入下的輸出效果,探究不同模型對于文本的解析能力;2) 給定相同的文本輸入,對比不同人體圖像下的輸出效果,探究不同模型對于保持位姿一致性的能力。
在定量實驗中,本文對幾種方法進行了定量分析。具體的數量指標包括:1) 文本圖像語義一致性,即衡量輸出圖像的服裝描述與輸入文本的匹配程度。因圖像和文本通過CLIP編碼器后均生成一維的特征向量,因此可以通過余弦距離來衡量兩個向量的間距。2) 位姿一致性,即衡量輸入和輸出人體圖像所提取位姿的一致程度,采用計算機視覺中常用的交并比(IoU)進行衡量。3) 圖像質量,即衡量輸出圖像是否與輸入圖像在質量和風格上保持一致。本文采用了FID(Fr’echet Inception Distance)對輸入與輸出圖像的相似性進行衡量,即采用了預訓練的Inception-v3模型[19]對輸入與輸出圖像的數據分布一致性進行衡量。
3.2 實驗結果定性分析
在輸入時,將不同位姿的人體圖片及不同顏色、材質、類型的服裝文本描述納入測試范圍,最終的實驗結果如圖5所示。根據實驗結果,輸入圖像和輸出圖像在位姿上基本保持一致;輸出的服裝符合輸入的文本描述;輸出圖像并未發生嚴重的錯位或偽影。此外,本文的方法能夠較為有效地解析輸入文本的描述并生成符合要求的服裝。如圖5中第2行與第4行生成了對應顏色的服裝;第4行生成相應的款式和圖案。
需要注意到盡管大部分輸出符合描述,但是也存在錯誤的情況。如圖5中第2行第4列,第5行第5列等。這主要是由于預訓練模型的訓練數據分布與實驗使用的測試數據分布不是絕對一致,存在泛化性不夠的問題。
圖6、圖7分別展示了本文提出的方法與其他的方法的對比結果。圖6為給定相同人體輸入圖像,對比不同文本輸入條件下的結果;圖7為給定相同文本輸入,對比不同人體輸入圖像的結果。
通過對比研究,本文提出的方法能夠很好地匹配輸入文本的語義信息,并同時保持原有輸入人體圖像的位姿。而若直接使用E4e模型輸出隱向量而不進行優化,輸出的圖像會在語義信息上存在不匹配的情況。如在圖6第1行和第2行在直接使用E4e模型時,最終生成的服裝圖像顏色與描述不一致,即E4e與ReStyle-E4e無法保持與輸入圖像一致的位姿和外貌。由圖7可見,ReStyle-E4e輸出的圖像在膚色、發型上與原有圖像存在較大差異,而本文提出的方法在語義信息保留和位姿,外貌一致性上表現較好。
3.3 實驗結果定量分析
定量實驗的結果如表1所示。實驗結果表明,提出的方法在語義一致性,位姿一致性及圖像質量等方面均優于現有方法,與定性研究的結論一致。在圖像質量(FID)上,本文提出的方法與現有方法相比提升了77.3%及77.1%,表明了對生成的隱向量優化的有效性。
4 結 論
本文研究了基于文本圖像預訓練模型的虛擬試穿方法,通過輸入人體圖像和服裝的描述性文本生成相應的試穿圖像,與現有的基于圖像輸入的方法相比,具有更大的使用彈性。同時,本文在GAN隱空間內直接進行隱向量的優化,提高了輸出圖像的質量,并由定性和定量實驗證明了本文提出的方法的優越性。與此同時,本文提出的方法仍存有缺陷。首先,本文雖大量使用完成了預訓練的模型,但在實際部署時還需要在大數據集上進行再次訓練,否則容易出現偽影,即生成圖像與描述不一致的情況;其次,雖然在實驗展示中輸入了語言為中文的描述性文字,但由于所采用的訓練數據集的語言為英文,故在實際操作時需將文字轉為英文輸入。由此可見,時裝行業建立大規模中文數據集也是未來的工作之一。
參考文獻:
[1]張淑芳, 王沁宇. 基于生成對抗網絡的虛擬試穿方法[J]. 天津大學學報(自然科學與工程技術版), 2021, 54(9): 925-933.
ZHANG Shufang, WANG Qinyu. Generative-adversarial-network-based virtual try-on method[J]. Journal of Tianjin University (Science and Technology), 2021, 54(9): 925-933.
[2]HAN X T, WU Z X, WU Z, et al. VITON: An image-based virtual try-on network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Utah: IEEE, 2018.
[3]MINAR M R, TUAN T T, AHN H. Cloth-Vton: Clothing three-dimensional reconstruction for hybrid image-based virtual try-on[C]// Asian Conference on Computer Vision. Springer: Cham, 2020.
[4]CHOI S, PARK S, LEE M, et al. Viton-hd: High-resolution virtual try-on via misalignment-aware normalization[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Montreal: Computer Vision Foundation-CVF IEEE Computer Society, 2021.
[5]DONG H Y, LIANG X D, SHEN X H, et al. Towards multi-pose guided virtual try-on network[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019.
[6]OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[7]RADFORD, A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[J]. Computer Vision and Pattern Recognition, 2021, 26(2): 8748-8763.
[8]GUZHOV A, RAUE F, HEES J, et al. Audioclip: Extending clip to image, text and audio[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics. Singapore: Speech and Signal Processing (ICASSP), 2022.
[9]PATASHNIK O, WU Z, SHECHTMAN E D, et al. Styleclip: Text-driven manipulation of stylegan imagery[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021.
[10]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Conference on Neural Information Processing Systems (NIPS 2017). New York: Curran Associates, 2017: 1-15.
[11]KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: Curran Associates, 2019: 4396-4405.
[12]TOV O, ALALUF Y, NITZAN Y, et al. Designing an encoder for StyleGAN image manipulation[J]. ACM Transactions on Graphics, 2021, 40(4): 1-14.
[13]BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[14]KARRAS T, LAINE S, AITTALA M, et al. Analyzing and improving the image quality of StyleGAN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020.
[15]LIU Z W, LUO P, QIU S, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016.
[16]ROSTAMZADEH N, HOSSEINI S, BOQUET T, et al. Fashion-gen: The generative fashion dataset and challenge[J]. arXiv, 2018: 08317.
[17]KINGMA D P, BA J. Adam: A method for stochastic optimization[C]//International Conference on Learning Representations. New York: Computer Science, 2014.
[18]ALALUF Y, PATASHNIK O, COHENOR D. Restyle: A residual-based stylegan encoder via iterative refinement[C]//Computer Vision and Pattern Recognition. New York: Accepted to ICCV, 2020.
[19]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016.
A virtual try-on method based on the large-scale pre-training text-image model
ZHANG Chi, WANG Xiangrong
ZU Yani, ZHANG Yi
(School of Design, Jiangnan University, Wuxi 214122, China)
Abstract: Virtual try-on is a technology used to predict and visualize how clothing will look on a given body input. Traditional virtual try-on methods rely on expensive 3D body scanning devices and simulations to simulate how clothing appears on the human body. While these methods offer high-quality results, the cost of 3D scanning devices can be a barrier. In contrast, using 2D images provides a more convenient and cost-effective alternative. Users only need to input 2D images of the human body and clothing, and the try-on result can be visualized. This study builds upon previous 2D virtual try-on methods and extends them from image-image input to text-image input. This means that users can now input text descriptions of clothing instead of specific images. By utilizing text descriptions, the system can generate corresponding clothing that matches the provided text, expanding the range of use cases for virtual try-on.
To generate accurate try-on results based on the text-image input, this study introduces a comprehensive framework comprising six modules: the text-image encoder, pose extractor, image segmentation, GAN-encoder, GAN-generator, and a mapping module. The overall framework follows a GAN-inversion editing pipeline. First, the GAN encoder encodes the input body image, producing a latent vector that captures the essential characteristics of the image (such as the image style and the body shape). Second, the obtained latent vector is edited and then the GAN-generator is fed to the edited vector to generate the desired result.
Specifically, the obtained latent vector is edited by using the mapping module, which shares the same network structure as the GAN generator. The mapping module generates an additional offset latent vector of the same dimension as the one obtained from the GAN encoder. This offset vector is used to edit the latent vector, ensuring that the generated image fulfills the desired pose and text description requirements. The offset vector also helps constrain the latent vector within the GAN latent space, facilitating the generation of high-quality images by using the GAN generator. To maintain consistency in poses and appearances, the pose extractor and image segmentation modules are utilized to construct loss functions. These loss functions guide the optimization process of the latent vectors, enabling the generator to produce a final generated image that remains consistent with the input human body. To generate accurate clothing images based on the input text descriptions, the pre-training text-image model CLIP is employed. CLIP encodes both the text descriptions and the final output image and constructs a loss function that regulates the optimization process during training. In experimental evaluations, the proposed method successfully generates correct images corresponding to the input body image and text descriptions. Compared to existing methods, quantitatively, the proposed method outperforms existing methods, achieving improvements of 15% in IoU, 8% in semantics, and 77.1% in image quality evaluation.
Compared to traditional physical fitting methods, virtual try-on provides consumers with an economical and convenient way to try on clothes. With the rapid advancements in machine learning and computer vision, virtual try-on has achieved impressive results. Furthermore, as consumers increasingly seek personalized experiences, the proposed virtual try-on method can generate the desired clothing based on text descriptions and present the final fitting results. This further enhances the flexibility and application scope of virtual try-on to meet the diverse needs of consumers.
Key words: virtual try-on; GAN-inversion; pre-training model; CLIP; GAN-editing; text-image model
收稿日期: 20230307;
修回日期: 20230629
基金項目: 教育部人文社會科學研究一般項目(21YJA760096);中國非物質文化遺產傳承人群研修研習培訓計劃項目(文非遺發〔2017〕2號);江蘇省社會科學基金立項一般項目(19WMB040)
作者簡介: 祖雅妮(1998),女,碩士研究生,研究方向為服飾文化與藝術設計。通信作者:張毅,教授,zy519@foxmail.com。