



中圖分類號:TS106;TP18 文獻標志碼:A 文章編號:1673-3851(2025)07-0556-15
引用格式:,.基于生成對抗網絡與穩定擴散模型的花卉絲巾圖案生成方法[J].學報(自然科學),2025,53(4):556-570.
Abstract:With floral scarf patterns as the research objects, this study proposed a dual-stage collaborative generation method combining generative adversarial networks (GANs) and stable diffusion models for rapid scarf pattern generation. First,we constructed an SDXL model-based scarf pattern augmentation workflow,establishing a floral scarf pattern dataset through systematic patern collection, preprocessing,and data augmentation. Subsequently,in the first stage of pattern generation,we improved conventional GANs by integrating both self-atention and border-attention mechanisms into the StyleGAN framework,developing the SAB-StyleGAN model to generate base floral scarf patterns. Finall,in the second stage of pattern generation,we built an image-to-image workflow based on the SDXL model, effectively grafting the detailed rendering capabilities of stable difusion models onto GANs to produce refined floral scarf patterns with enhanced controllability and precision.Experimental results demonstrated that the generated refined floral scarf patterns exhibited superior clarity,achieving an FID value as low as 41.25,which closely resembled authentic designer samples.This method provides an eficient solution for rapid scarf pattern generation, significantly reducing enterprise design costs, enhancing production efficiency,and advancing digital transformation in the fashion industry.
Key words: silk scarf pattern; pattern generation method; generative adversarial networks (GANs); stable diffusion models; image-to-image translation; data augmentation
0引言
絲巾作為一種經典的配飾,在時尚界占據著重要地位。近年來,隨著全球時尚產業的快速發展和用戶個性化需求的增加,絲巾圖案的設計效率和質量已成為影響產品競爭力的重要因素。然而,當前企業在設計絲巾圖案時主要采用人工方式,圖案質量嚴重依賴設計師的經驗和創意,而且設計效率低,短時間內難以推出符合流行趨勢的產品,滿足快速變化的市場;另外,傳統設計方法人力成本高,導致企業難以在激烈的市場競爭中維持價格優勢,進而影響其市場競爭力。因此,亟需一種絲巾圖案的快速設計方法,而基于計算機圖像處理的圖案生成方法為此問題提供了一種解決思路。
目前常用的圖案生成方法主要分為2類,一類是基于生成對抗網絡(Generativeadversarialnetworks,GANs)的方法,另一類是基于擴散模型(Diffusionmodels)的方法。在基于生成對抗網絡的圖案生成方法中,Radford 等[1]提出了DCGAN(Deepconvolutional generative adversarial networks)模型,通過卷積層結構可以生成穩定圖像,但圖案質量受到訓練數據規模的限制,數據不足時易導致模式崩潰;任雨佳等2也提出了一種基于DCGAN的服裝款式設計方法,在訓練數據不足時生成圖案紋理重復混亂。Arjovsky 等[3]提出了 WGAN(Wassersteingenerativeadversarial network)模型,該模型可以通過Wasserstein距離提升訓練穩定性,但仍需充足數據支撐。田樂等[4發現,紡織圖案具有復雜結構與高頻細節,對模型和數據集的要求更為嚴苛,小數據集易引發特征學習失效和模式崩潰。Wu等[5]提出了基于生成對抗網絡的ClothGAN框架,采用這種方法生成的服裝圖案即使在充足數據下仍會出現刺繡紋理模糊甚至斷裂,難以生成高分辨率細節。劉康等[在基于生成對抗網絡的中式婚服設計方法中,采用高質量多標簽成對數據對模型進行訓練,發現生成對抗網絡存在缺陷,生成的圖案有邊緣鋸齒化和模糊等問題。田樂等[4通過理論分析發現,生成對抗網絡的對抗訓練機制本質是對數據分布的低維流形擬合,其在復雜紋理與高分辨率需求下存在理論局限。綜上所述,生成對抗網絡在織物圖案數據規模有限時,難以適應圖案的多樣性和復雜性,會出現模式崩潰的問題;即使數據充足,生成對抗網絡的架構缺陷仍制約其細節生成能力,難以滿足織物圖案的高質量要求。
Sohl-Dickstein等提出了擴散模型,后經Ho等[8]改進為去噪擴散概率模型(Denoisingdiffusionprobabilisticmodels)。在基于擴散模型的圖案生成方法中,Rombach等9提出了一種潛空間擴散模型(Latentdiffusionmodel),該模型在降低計算復雜度的同時支持高分辨率圖像生成,但其依賴文本隱式引導,易導致生成圖案的元素布局和風格隨機化。SD(Stable diffusion)及 SDXL(Stable diffusionXL)模型[10]在圖像分辨率與細節質量上取得了進步,但文本描述的模糊性問題仍然存在,難以精準生成符合特定需求的圖像。針對此問題,研究者提出通過Dreambooth[11]或LoRA[12]微調穩定擴散模型參數的方案。然而,此類方法微調的模型參數主要作用于通道注意力層以適配藝術風格[13-14],卻未有效作用于控制空間關系的空間注意力層,導致生成圖案存在元素位置偏移、比例失調等結構缺陷。冉二飛等[15提出了一種基于穩定擴散模型的藍印花布單紋樣生成方法,結合ControlNet控制網絡對圖案結構進行約束,但該方法依賴人工繪制深度圖作為輸入,單純使用微調模型生成的圖案仍存在色彩邊界模糊與美學表現力不足的問題。綜上所述,基于穩定擴散模型的文生圖模式因文本引導的模糊性,難以精準控制圖案元素的空間布局與風格;而微調技術主要適配于特定藝術風格,并不適配織物圖案。
為解決上述問題,本文以花卉絲巾圖案為研究對象,結合生成對抗網絡與穩定擴散模型,提出了一種雙階段模型協同生成絲巾圖案的快速方法。首先,構建絲巾圖案擴增工作流,聚焦絲巾圖案中的花卉主題,擴增數據構建花卉絲巾圖案數據集。在此基礎上,設計雙階段模型協同生成框架。第一階段,生成具有準確結構和風格的基模花卉絲巾圖案;第二階段,構建圖生圖工作流,生成兼顧結構風格準確性與細節清晰度的精繪花卉絲巾圖案。在本文中,基模花卉絲巾圖案是指由生成對抗網絡生成的圖案,其特點為結構準確、清晰度較低、細節不夠豐富完整;而精繪花卉絲巾圖案則是指穩定擴散模型生成的圖案,具有高清晰度和豐富的細節。該方法整合了兩類模型優勢,避免了單一模型的局限,為絲巾圖案的快速生成提供了一種高效解決方案;同時,該方法有助于降低企業設計成本、提高生產效率,為時尚產業的數字化轉型提供技術支持。
1 方法設計
1. 1 方法基本流程
本文提出的絲巾圖案生成方法的基本流程如圖1所示,主要包括數據集構建、基模花卉絲巾圖案生成、精繪花卉絲巾圖案生成等3個部分。首先,通過絲巾圖案擴增工作流構建數據集,解決絲巾數據不足的問題。收集現有絲市圖案,并進行標準化預處理,得到一組花卉絲巾圖案,并以此作為基準數據集;根據該基準數據集,進行圖案標注,得到花卉絲巾圖案提示詞;構建基于SDXL模型的絲巾圖案擴增工作流;將基準數據集和提示詞一起輸人圖案擴增工作流,得到花卉絲巾圖案數據集。然后,使用花卉絲巾圖案數據集,訓練改進的生成對抗網絡SABStyleGAN,得到具有準確構圖和風格的基模花卉絲巾圖案。最后,構建基于SDXL模型的圖生圖工作流,并使用該工作流對基模花卉絲巾圖案進行圖生圖處理,得到精繪花卉絲巾圖案。
數據集構建 基模花卉絲巾圖案生成 精繪花卉絲巾圖案生成收集現有 預處理花 輸入絲圖擴增 改進生對抗 圖生圖工作流標注 輸出 輸出 輸出花卉絲巾圖 花卉絲巾圖 訓練 基模花卉 輸入 精繪花卉案提示詞 輸入 案數據集 絲巾圖案 絲巾圖案
1. 2 數據集構建
1.2.1 絲巾圖案收集
基于京東、天貓、淘寶三大電商平臺公開的絲巾品類銷售榜單,整合形成涵蓋繡娘、萬事利、上海故事、寶石蝶等十大頭部品牌的樣本池。通過平臺內置搜索引擎,以“絲巾”“方巾\"“圍巾\"為關鍵詞,對這些品牌的官方店鋪進行全店鋪商品檢索,系統收集絲巾圖案。為確保數據質量,對收集的絲巾圖案進行人工篩選,剔除主題不符樣本,得到一批花卉絲巾圖案。
1.2.2 絲巾圖案預處理
在花卉絲巾圖案收集完成后,本文依據生產工藝對圖案樣本的嚴格要求,通過人工篩選剔除不符合要求的樣本,以保證絲巾圖案正面平鋪、畫面平整、無遮擋物、無折疊痕跡及無環境陰影干擾,滿足
生產工藝要求。
為進一步提升數據集的訓練適用性,為后續數據增強與模型訓練奠定基礎,本文對圖像進行標準化處理,具體步驟為:對色彩空間進行標準化轉換,消除采集差異;統一尺寸,采用自適應插值算法將所有圖像調整為同一像素分辨率,保持圖案比例一致。
1. 2. 3 花卉絲巾圖案擴增
1.2.3.1 花卉絲巾圖案擴增提示詞
選擇花卉絲巾圖案作為基準,利用圖像標簽器WD14對花卉絲巾圖案進行標注,獲取標注結果后,提取描述絲巾內容的高頻提示詞。將這些提示詞作為花卉絲巾圖案的關鍵提示詞,并結合通用的質量正向提示詞和質量反向提示詞,得到完整的花卉絲市圖案提示詞,見表1。

1. 2.3.2 絲巾圖案擴增工作流構建
SDXL模型是一個先進的兩階段級聯擴散模型,包含基礎模型和精細化模型兩個部分。基礎模型與基礎Stablediffusion模型類似,具有文本到圖像(txt2img)、圖像到圖像(img2img)和圖像修復(inpainting)等功能。精細化模型具有優化圖像細節的功能。
本文以SDXL模型為基礎構建絲巾圖案擴增工作流,SDXL模型的文本生成圖像流程如圖2所示。SDXL模型采用CLIP文本編碼器(CLIPtextencoder),將文本(Prompt)轉化為文本特征,這個過程也稱文本嵌人(Textembedding),以引導Baseu-net網絡在潛在空間逐步去除噪聲(Noise)。初步去噪后,將潛在特征(Unrefinedlatent)輸入精細化模型,使用Refineru-net網絡進行精細化去噪,以提升圖像質量。最終優化后的精細化特征(Refinedlatent)通過VAE解碼器(VAE-decoder)還原至像素空間,得到最終圖像(Finalimage)。

根據花卉主題絲巾的關鍵特征提示詞和質量提示詞,通過SDXL模型的文生圖技術,已能基本完成絲巾圖案的擴增任務。單純的文生圖存在生成隨機性過強、圖案美觀度和邏輯性較差等問題。為了解決這些問題,本文在SDXL模型文生圖的基礎上,采用ComfyUI構建了一個結合IP-Adapter-Plus節點的專用工作流進行絲巾圖案擴增
基于ComfyUI的絲巾圖案擴增工作流如圖3所示。該工作流以花卉絲巾圖案(Floralscarfpattern)、花卉紋樣圖案(Floralmotif pattern)、正向提示詞(Positiveprompt)和反向提示詞(Negativeprompt)作為輸人,生成新的花卉絲巾圖案(Newfloralscarf pattern)。本文選用花卉絲巾圖案作為構圖參考,花卉紋樣圖案作為內容素材和風格參考,花卉紋樣圖案來自網絡收集,共1000張。

IP-Adapter-Plus節點是一個專為SDXL圖像生成流程設計的ComfyUI組件,它能夠在該過程中整合額外的圖像特征作為參考,以提升圖像生成的多樣性和精準度。該節點通過預訓練的CLIP圖像編碼器(CLIPimageencoder)提取輸人圖像特征,采用解耦交叉注意力機制(Decoupledcrossattention)結合文本特征和圖像特征,構建文本與圖像雙通道獨立處理的注意力層結構。解耦交叉注意力可用式(1)表示:

其中: z 表示解耦交叉注意力的輸出,是圖像交叉注意力的輸出與文本交叉注意力的輸出相加; ξQ,K,V 分別表示來自文本特征的查詢向量、鍵向量和值向量:
分別表示來自圖像特征的查詢向量、鍵向量和值向量; d 表示鍵向量的維度。
文本特征維持原始文本交叉注意力層(Textcrossattention)的參數與計算路徑,而圖像特征則通過解耦交叉注意力機制新構建的圖像交叉注意力層(Imagecrossattention)進行處理。該技術將解耦的圖像交叉注意力層和文本交叉注意力層一起動態插入SDXL模型Baseu-net網絡,形成雙流注意力協同工作機制。這種架構使得SDXL模型在生成過程中能夠同步解析文本提示詞的語義約束與參考圖像的視覺特征。
圖3所示的絲巾圖案擴增工作流具體工作流程如下:一方面將輸入的正向提示詞和反向提示詞通過CLIP文本編碼器(CLIPtextencoder)轉換為文本特征;另一方面將輸入的花卉絲巾圖案和花卉紋樣圖案經過圖像裁剪(Imagecropping)后,輸人IP-Adapter-Plus節點。使用IP-Adapter-Plus節點,提取輸人圖像的圖像特征,借助解耦的交叉注意力機制,將圖像特征的交叉注意力層和文本特征的交叉注意力層插人Baseu-net網絡中。使用雙重特征共同引導Baseu-net網絡,在潛在空間對噪聲初步去噪。在完成初步去噪之后,由工作流中專門用于去噪的Refineru-net網絡進一步處理,經過VAE解碼器還原至像素空間,得到最終的絲巾圖案。
1.3 基模花卉絲巾圖案生成
為了生成結構完整和風格準確的絲巾圖案,本文選取 StyleGAN(Style-based generative adversarialnetwork)作為基礎模型,對此模型進行改進,集成了自注意力機制和邊框注意力機制。這一改進使模型能更專注于圖案的關鍵細節和圖案邊界,顯著提高了基模花卉絲巾圖案的結構完整度。
1.3.1 注意力機制簡介
自注意力機制是一種提升生成模型性能的技術,它能夠增強模型對圖像細節和結構特征的捕捉能力,從而提升生成圖像的清晰度和準確性。其工作原理如圖4所示。該機制通過3個并行的 1×1 卷積層 Wf?Wg 和 Wh ,將輸入特征圖 x 映射為三個子空間:查詢向量 f 、鍵向量
和值向量 h 。其中 f 與轉置后的
進行矩陣相乘,經Softmax歸一化生成注意力特征圖 β ,該權重揭示了空間位置間的依賴關系。然后通過 β 與 h 的加權融合實現特征重構,得到自注意力特征 σo 。自注意力特征
與卷積特征圖 x 引人可學習參數γ加權相加,得到最終輸出特征圖
。這種設計使模型能突破卷積核的局部感受野限制,從而捕捉像素間的結構關聯,提升生成圖像的細節連貫性與幾何合理性。

邊框注意力是一種本文自定義的簡化空間注意力機制,用于提升圖像邊框部分的生成質量。邊框注意力與空間注意力的主要區別在于權重的生成方式不同。空間注意力的權重是動態生成的,通常通過神經網絡學習得到,能夠根據輸入圖像的不同自動調整。而邊框注意力的權重是預先定義的固定權重,不隨輸入圖像的變化而變化,固定權重將注意力集中在圖像的邊緣部分,從而增強絲巾邊框的生成質量。
邊框注意力的工作原理示意圖如圖5所示。首先,從神經網絡的某一層中提取卷積特征圖 x ,接著定義一個邊框注意力映射 Wb ,該邊框注意力映射在中心 80% 區域的值為0,在邊緣 20% 區域的值為1。此映射與原始卷積特征圖 x 相乘,得到聚焦于邊框部分的邊框注意力特征圖
。邊框注意力特征圖
乘以一個可學習的縮放參數 α ,加上原始卷積特征圖 x ,得到最終輸出特征圖
。縮放參數α 用于調節邊框注意力特征對最終輸出結果的影響程度。

1.3.2 SAB-StyleGAN構建
本文將注意力機制融合到StyleGAN框架中,提出了一種基于注意力的StyleGAN模型,即SABStyleGAN,其結構圖如圖6所示。
典型的StyleGAN的生成流程以解耦式生成架構為核心,通過潛變量映射與漸進式合成實現高質量圖像生成。其工作流程為:首先,映射網絡接收來自潛空間 Z 的隨機向量 z 作為輸人,經過像素級歸一化(Normalize)消除幅值差異后,通過8層全連接網絡FC構建的非線性網絡進行非線性變換,將其映射至中間潛空間W,得到中間潛變量 w 。隨后, w 通過仿射變換 A 轉化為風格向量,用于控制后續生成網絡的風格屬性。生成網絡從固定的 4×4×512 維常數張量(Const 4×4×512) 開始,在每一層級執行以下操作:向特征圖添加經廣播運算 B ,調整維度的高斯噪聲(Noise)以增強細節多樣性;通過自適應實例規范化(AdaIN)將風格向量注人特征圖,利用3×3 卷積(Conv 3×3) 進行特征變換,并循環執行一次“噪聲注入-AdaIN風格控制”的雙階段調節。隨著網絡深度增加,通過上采樣(Upsample)逐步提升分辨率 (4×48×8…256×256) ,最終輸出高清合成圖像。與此同時,判別器采用反向對稱結構,通過堆疊卷積塊(ConvBlock)對生成虛假圖像與真實圖像(real/fakeimage)進行多尺度特征提取,逐步下采樣至 1×1 ,然后經全連接層FC輸出二值判別結果 D 。整個模型通過對抗訓練機制迭代優化:生成器力圖合成足以欺騙判別器的逼真絲巾圖案,而判別器持續提升對真偽圖像的鑒別能力,直至兩者達到動態平衡(納什均衡)。此時模型的生成器可輸出與真實數據分布高度一致的圖案。該流程通過分離風格控制與細節生成,實現了對絲巾花型結構穩定性與紋理復雜度的精準調控。
本文為增強StyleGAN在圖像生成中的細節表現力和風格精確度,在生成網絡的多個維度的最后一層自適應實例規范化后引入了自注意力機制,分別是 4×4.32×32 和 128×128 這幾個特征維度。該機制通過在不同層級集成自注意力模塊(self-attention),顯著提升了模型對圖像局部特征的敏感性和捕捉能力。自注意力機制通過特征圖間的點積運算和隨后的Softmax歸一化處理,幫助模型深入理解特征間的復雜關系,有效提高生成圖像的整體質量。
在絲巾設計中,邊框不僅是裝飾元素,更是強化圖案視覺效果和風格表達的關鍵。絲巾邊框的精細處理對圖像的整體自然度和視覺完整性至關重要。在生成網絡的最后一層自適應實例規范化之后和判別器的第一層卷積塊之后,本文分別集成了邊框注意力(border-attention)模塊。該模塊引導模型關注于圖案邊界部分,針對圖像邊界進行優化。使用前文構建的花卉絲巾圖案數據集對SAB-StyleGAN進行訓練,得到基模花卉絲巾圖案。

1. 4 精繪花卉絲巾圖案生成
改進后的StyleGAN模型成功生成了基模花卉絲巾圖案,該基模花卉絲巾圖案雖然已有絲巾圖案的基本結構和風格,但清晰度不足,細節也有待完善。為了進一步提升圖案的清晰度和細節完整度,本文提出了一個結合IP-Adapter-Plus節點的圖生圖工作流,將基模花卉絲巾圖案轉化為高質量的精繪花卉絲巾圖案,工作流示意圖如圖7所示。
圖生圖工作流從輸入一個基模花卉絲巾圖案(Base-generated floral scarf pattern)開始,一方面使用VAE編碼器(VAE-encoder)對輸入的基模花卉絲巾圖案進行編碼,將其轉換為潛在空間表示,并添加噪聲,得到噪聲圖像。另一方面使用IPAdapter-Plus節點處理基模花卉絲巾圖案,經由CLIP圖像編碼器處理,得到基模花卉絲巾圖案的圖像特征;使用CLIP文本編碼器處理正向提示詞和反向提示詞得到文本特征;再由IP-Adapter-Plus節點中的解耦交叉注意力結合文本特征和圖像特征,共同引導Baseu-net網絡,對噪聲圖像進行初步去噪。最后使用Refineru-net網絡進一步去噪,經過VAE解碼器還原至像素空間,得到精繪花卉絲巾圖案(Refined-generated floral scarf pattern)。

2 實驗結果
本文搭建了實驗平臺,硬件采用配備高性能運算能力的深度學習工作站,具有128GB內存和NVIDIA RTX 3090 Ti 24 GB GPU;軟件采用Windows1064位操作系統,PyTorch1.8.1深度學習框架,編程語言為Python3.8,計算平臺為CUDA 11.3。
2. 1 評估指標
本文采用FID、SSIM、PSNR、MBM和LPIPS等5個指標綜合評估生成圖像的質量。
SSIM(Structural similarity index measure,結構相似性):用于衡量生成圖像與參考圖的局部相似性,其值范圍在 0~1 之間,越接近1表示相似性越高。其計算公式如下:

其中: μx 和 μy 表示圖像 x 和圖像
的像素亮度均值; σx2 和 σy2 表示圖像 x 和
的像素值方差; σxy 表示圖像 x 和
的協方差; c1 和 c2 是為了避免除零錯
誤而加的小常數。
PSNR(Peak signal-to-noise ratio,峰值信噪比):用于比較生成圖像與參考圖的失真程度,值越高表明表示圖像質量越好,失真越小。具體計算公式如下:

其中: MAX 表示圖像的最大像素值(對于8位圖像,通常是255); MSE 表示兩幅圖像的均方誤差。
MBM(Meanblurmetric,平均模糊度):用于評估圖像清晰度,數值越低表示圖像邊緣和細節保留越好。具體計算公式如下:

其中: I 代表圖像; ablaI(i,j) 表示圖像在位置 (i,j) 的梯度; M 和 N 表示圖像的行數和列數。
FID(Frechet inceptiondistance,弗雷謝特初始距離):用于衡量生成圖案與訓練集的全局相似度。FID值越低,表示兩個圖像分布越接近,圖像間的相似度越高,生成圖像的質量也越佳。具體計算公式如下:FID=|μr-μg|2+tr[Σr+Σg-2(ΣrΣg)1/2] (204號其中: r 代表真實圖像; g 代表生成圖像; μr 和 μg 代表圖像 r 和
的特征向量的均值; Σr 和 Σg 代表圖像 r 和
的特征向量的協方差矩陣; tr 表示矩陣的跡。
LPIPS (Learned perceptual image patchsimilarity,學習型感知圖像塊相似度):用于評估圖像之間的感知差異,結果在 0~1 之間。其中0表示兩幅圖像完全一致,1表示兩幅圖像在語義感知層面完全不同。具體計算公式如下:
LPIPS(x,y)=

其中: x 和
分別代表輸入的兩幅圖像, l 代表預訓練網絡的特征層索引, ?ι(x) 代表圖像 x 第 l 層的特征, ?ι(y) 代表圖像
第 l 層的特征, wι 代表第 l 層通道的權重, Hι 和 Wι 分別代表第 l 層特征的高度與寬度。
2. 2 數據集構建結果
2.2.1 絲巾圖案數據預處理結果
經過預處理流程,最終得到一組高質量花卉絲巾圖案,共176張,樣例如圖8所示。由圖8可知:真實花卉絲巾圖案具有清晰的方形邊框,花卉元素均勻的分布在整個絲巾圖案。該組花卉絲巾圖案保證了視覺完整性和主題一致性,為后續的圖案擴增任務提供了優質基準數據。

2.2.2 花卉絲巾圖案擴增實驗結果
經由人工操作該絲巾圖案擴增工作流,選定花卉絲巾圖案,輸入花卉紋樣圖案和提示詞進行圖案擴增。人工調節兩類輸入圖案的參考權重配比,完成花卉主題絲巾圖案擴增,去除其中不符合絲巾圖案要求的部分。該擴增方法不僅豐富了圖案的多樣性,也保證了生成絲巾圖案的主題和構圖與真實圖像一致。本文生成的絲巾圖案在視覺上與市場上的熱門絲巾構圖保持一致,同時也融入了新的設計元素。擴增的絲巾圖案樣例如圖9所示,其中擴增花卉絲巾圖案的方形邊框清晰可見,花卉元素分布均勻,整體色彩搭配協調,藝術美觀度高。
擴增后的圖案與擴增前的花卉主題絲巾圖案組合,得到花卉絲巾圖案數據集,通過這種方法,構建了包含1000張圖案的花卉絲巾圖案數據集。

本文通過LPIPS指標來評估擴增數據集的多樣性,通過FID和SSIM指標來評估擴增數據集與原始數據的分布差異。其中SSIM值計算時以工作流輸入的原始花卉絲巾圖案作為基準,以工作流輸出的擴增圖案作為比較對象。花卉絲巾圖案擴增量化分析結果如表2所示,從表2可以看出:擴增數據集的LPIPS值為O.4126,屬于中等感知差異范圍,表明數據集中的圖像在人類視覺系統中既有可識別的差異,又保留了一定的相似性;對于花卉絲巾圖案來說,適度的形態與色彩變化避免了設計同質化,嚴謹的構圖規則有利于產品商業落地。擴增數據集與原始數據的FID值為75.22,SSIM值為0.4396,表明擴增數據集與原始數據有一定的分布相似度,且結構框架基本相似。綜上可知,擴增數據集與原始數據既有相似度也有多樣性,有利于后續生成高質量絲巾圖案。

2.3 基模花卉絲巾圖案生成結果
2.3.1 未擴增花卉絲巾圖案數據集結果使用未擴增的花卉絲巾圖案數據集訓練生成對抗網絡StyleGAN,訓練完成后,生成基模花卉絲巾圖案,結果如圖10所示。圖10顯示:176張的小規模絲巾圖案訓練集難以有效支持生成對抗網絡的穩定訓練,具體表現為生成的基模花卉絲巾圖案質量有重大缺陷,出現模式崩潰;圖案結構和色彩嚴重失真,模糊且缺失細節。

2.3.2擴增花卉絲巾圖案數據集實驗結果
在擴增后得到的1000張花卉絲巾圖案數據集的基礎上,分別采用DCGAN、WGAN、StyleGAN、StyleGANXL、StyleGANamp;self-Attention、StyleGANamp;borderAttention、SAB-StyleGAN模 型 進行訓練。DCGAN、WGAN、StyleGAN 和 StyleGAN-XL 是經典的生成對抗網絡模型,StyleGANamp;self-Attention是在StyleGAN模型的基礎上添加自注意力機制后得到的模型,StyleGANamp;border-Attention是在StyleGAN模型的基礎上添加邊框注意力機制后得到的模型,SAB-StyleGAN是在StyleGAN模型基礎上添加自注意力機制和邊框注意力機制后得到的模型
在模型訓練過程中,采用批量規模(Batch size)為4的樣本輸入配置,持續進行1000個完整訓練周期(Epoch)。優化器選用Adam方法,其動量參數設置為 β1=0,β2=0.99 ,初始學習率(Learningrate)固定為0.0025,并引入零動量自適應優化策略(Zero-momentum adaptive optimization)動態調節學習率。訓練完成后,各自生成1000張基模花卉絲巾圖案,用于后續對比生成效果和圖生圖處理。
2.3.2.1 對比實驗
花卉絲巾圖案的生成效果能直觀地反映了不同模型的性能差異。不同模型生成的基模花卉絲巾圖案如圖11所示。由圖11可見:WGAN模型和DCGAN模型生成的基模花卉絲巾圖案存在紋理模糊、色彩不協調結構失真等明顯問題;StyleGAN模型生成的基模花卉絲巾圖案較為真實,但在色彩還原和圖像結構上仍有失真,未能準確捕捉真實圖像的細微特征;StyleGAN-XL模型生成的基模花卉絲巾圖案邊框連貫清晰,色彩還原,但在花卉結構上出現嚴重扭曲,花卉邊緣出現羽化現象;SAB-StyleGN模型SAB-StyleGAN模型生成的基模花卉絲巾圖案表現最佳,結構和風格都與真實圖像最為接近,視覺效果自然,邊框連貫清晰。
對比圖11和圖10中StyleGAN模型生成的花卉絲巾圖案可以發現,擴增數據集后生成質量顯著提升,表明絲巾圖案擴增工作流有效。

表3為不同生成模型在生成基模花卉絲巾圖案時的FID值。DCGAN的FID值為130.80,WGAN的FID值為255.56,表明這2個模型生成圖像質量較低;StyleGAN-XL模型的FID值為61.29,StyleGAN模型的FID值為62.21,而 SAB-StyleGAN 模型的 FID 值為46.71,相比于基線模型StyleGAN降低了24.91% ,表明圖像生成質量提升,添加雙重注意力機制有效。綜上所述,SAB-StyleGAN模型效果最佳。

2.3.2.2 消融實驗
為直觀展示雙重注意力機制對模型生成效果的影響,本文對模型改進前后的生成效果進行了可視化對比,結果如圖12所示。圖12顯示:StyleGAN模型生成的花卉絲巾圖案在紋理和結構上存在一定失真,絲巾圖案邊框扭曲;StyleGANamp;self-Attention模型通過引入自注意力機制強化全局特征建模,生成的花卉絲巾圖案質量顯著提升,結構上接近真實圖像,紋理細膩,色彩漸變自然,但在絲巾圖案邊緣的處理上仍有不足,絲巾邊框凹凸不平且線條模糊斷裂;StyleGANamp;border-Attention模型在生成網絡和判別器中集成了邊框注意力模塊,更加專注于圖像的邊框區域,生成的花卉絲巾圖案在邊緣的處理上有所提升,邊框連貫清晰;SABStyleGAN模型融合雙重注意力機制,生成的花卉絲巾圖案表現最佳,結構和風格都與真實圖像最為接近,視覺效果自然,紋理細膩,色彩漸變自然,邊框連貫清晰。

表4為添加雙重注意力機制的不同生成模型在生成基模花卉絲巾圖案時的FID值,StyleGAN模型的FID 值為62.21,StyleGANamp;border-attention模型的FID值為58.37,相較于基線模型StyleGAN降低了3.84,表明圖像生成質量提升,添加的邊框注意力有效;StyleGANamp;self-attention模型的FID值為49.24,相較于基線模型StyleGAN降低了12.97,表明圖像生成質量提升,添加的自注意力模塊有效;SAB-StyleGAN模型的FID值為46.71,相比于基線模型StyleGAN降低了15.5,表明圖像生成質量提升,同時添加雙重注意力機制有效。

2.4精繪花卉絲巾圖案生成實驗結果
精繪花卉絲巾圖案的生成實驗結果包括兩部分,分別是客觀量化實驗和主觀評估實驗。這兩種實驗從客觀的圖像質量和主觀的圖像美感兩方面,綜合評估精繪花卉絲巾圖案。
2.4.1 客觀評估實驗
盡管SAB-StyleGAN模型生成的絲巾圖案結構和風格都與真實圖像接近,但仍有模糊和細節缺失的問題,需要進一步進行圖生圖處理,優化圖案以得到精繪花卉絲巾圖案。本文對比了不同方法生成的精繪花卉絲巾圖案(見圖13),其中,SABStyleGAN、img2img、img2imgamp;IP-Adapter-Plus、Dreambooth 和 SDXL 分別表示 SAB-StyleGAN生成的基模花卉絲巾圖案、基礎圖生圖工作流生成的精繪花卉絲巾圖案、集成IP-Adapter-Plus節點的圖生圖工作流所生成的精繪花卉絲巾圖案、利用Dreambooth技術微調后的SDXL模型所生成的精繪花卉絲巾圖案,以及SDXL模型生成的精繪花卉絲巾圖案。
圖14為兩種不同圖生圖處理工作流的效果對比圖。SAB-StyleGAN生成的基模花卉絲巾圖案僅用于對比。Dreambooth是一種用于SDXL模型的微調技術,允許用戶通過少量特定主題圖像個性化預訓練的擴散模型,適用于將自定義元素融入模型中,生成具有特定特征的圖像。利用該技術,本文使用花卉絲巾圖案數據集對SDXL模型進行微調,得到了一個能夠快速生成花卉絲巾圖案的微調SDXL模型。


由圖13和圖14可知:采用SDXL生成的精繪花卉絲巾圖案色調單一,結構混亂,無明顯的邊框,且生成圖案不穩定,時常出現一些人像和文字;采用Dreambooth技術微調的SDXL模型生成的精繪花卉絲巾圖案與訓練數據集有較大偏差,圖案風格過于寫實,缺少藝術感和裝飾性,色彩搭配沖突,視覺觀感單調,邊框呈現顯著的遮擋性破壞;SABStyleGAN模型生成的基模花卉絲巾圖案結構合理,風格美觀,但稍顯模糊,細節不足; img2img 工作流在基模花卉絲巾圖案的基礎上進行圖生圖處理,生成的精繪花卉絲巾圖案清晰度高,但風格和構圖與輸入圖案存在差異,整體視覺觀感上雜亂無章;img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案在風格和構圖上更貼近輸入圖像,該工作流應用IP-Adapter-Plus節點的圖像風格參考能力,結合圖生圖本身的色彩、構圖參考能力,進行圖生圖處理,大大提高了基模花卉絲巾圖案的清晰度,補全了圖案缺失的細節,在色彩、紋理、圖案布局及整體視覺效果上展現出更高的一致性,效果最佳。
表5展示了不同精繪花卉絲巾圖案生成方法的量化指標。其中SSIM值和PSNR值的計算以SABStyleGAN模型生成的基模花卉絲巾圖案為基準圖案,img2img工作流和img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案作為對比圖案。其他方法并無對應圖案,無法計算SSIM值和PSNR值。
SDXL模型的FID值為225.02,表明該方法生成的花卉絲巾圖案與訓練集花卉絲巾圖案存在較大差異,效果較差。Dreambooth微調方法的FID值達到168.37,表明該方法生成的花卉絲巾圖案與訓練集花卉絲巾圖案存在較大差異,效果較差。img2img工作流的FID值為63.14,相比于SAB-StyleGAN模型增加了16.4,表明該工作流生成的精繪花卉絲巾圖案質量降低。 img2imgamp;IP- Adapter-Plus工作流結合IP-Adapter-Plus節點,參考輸入圖案風格,FID值為41.25,相較于SAB-StyleGAN模型降低了5.5,降幅為 11.69% ,表明該工作流生成的精繪花卉絲巾圖案與訓練集更加接近,圖案質量提高。
觀察 SSIM值和 PSNR 值可知, img2imgamp;IP- Adapter-Plus工作流相比于img2img工作流的SSIM值提高了O.0271,PSNR值提高了0.38,表明加人IP-Adapter-Plus節點的工作流能夠更好地保留了輸入基模花卉絲巾圖案的構圖和風格,有更高的視覺相似度。MBM值表明,兩種圖生圖處理都使得圖案清晰度得到顯著提升。綜合對比,img2imgamp;IP-Adapter-Plus工作流的效果最佳。

2.4.2 主觀評估實驗
為了從美學表現、滿足絲巾圖案需求等角度綜合評估各種精繪花卉絲巾圖案生成方法的性能,本文設計了一份包含5個問題的問卷,分別對應前文所分析的5種精繪花卉絲巾圖案生成方法。該問卷從藝術美觀度與絲巾規范度兩個維度,對精繪花卉絲巾圖案進行主觀評估。藝術美觀度是指生成的圖案在視覺上的美感,給人帶來愉悅感和吸引力的程度。絲巾規范度是指生成的圖案在構圖和邊框設計上與真實絲巾圖案的符合程度,用于衡量生成圖案是否遵循真實絲巾圖案的設計規范和特征,高絲巾規范度意味著生成的圖案在視覺上更接近真實的絲巾設計,符合實際的使用標準。問卷的評分采用5分制,1分表示最低評價,5分表示最高評價。此次問卷調查共回收有效問卷118份,統計結果如圖15所示。由圖15可知,SAB-StyleGAN模型在藝術美觀度和絲巾規范度上表現均衡,兩個維度的4分和5分選擇人數占比均超過 80% ,顯示出較高的認可度。img2img工作流雖然4分以上的評分占比也較高,但5分評價的比例較SAB-StyleGAN模型降低,整體認可度不如SABStyleGAN模型。img2imgamp;IP-Adapter-Plus工作流表現最優,藝術美觀度71人給出5分,絲巾規范度75人選擇5分,是最受認可的方案。Dreambooth微調方法評分呈現中間集中趨勢,2分和3分的選擇人數占比較高,顯示出兩極分化較弱但整體認可度偏低的特點。SDXL模型表現最差,兩個維度均出現1分和2分占比過高的問題,明顯落后于其他方法。
表6展示了不同方法生成的精繪花卉絲巾圖案的量化評分,評分由所有問卷結果的平均計算得出。SDXL模型在藝術美觀度和絲巾規范度上的得分較低,表明其生成的圖案在藝術美觀度和絲巾規范度方面表現不佳。Dreambooth微調方法在藝術美觀度和絲巾規范度上的表現較SDXL有所提升,但在所有方法中仍處于較低水平,表明其生成的圖案在藝術美觀度和絲巾規范度方面表現不佳。SABStyleGAN模型在藝術美觀度和絲巾規范度上均取得了較高的分數,表明其生成的圖案在藝術美觀度和符合真實絲巾圖案構圖及邊框方面表現優異。img2img工作流在絲巾規范度上表現良好,但在圖生圖處理后破壞了SAB-StyleGAN模型所生成圖案的原有風格,在藝術美觀度上略低于SAB
StyleGAN。img2imgamp;IP-Adapter-Plus工作流在藝術美觀度和絲巾規范度上均取得了最高的分數,表明其在生成具有高藝術美感、符合規范的精繪花卉絲巾圖案方面具有顯著優勢,能夠同時滿足藝術美觀度和絲巾規范度的要求。綜上可知,在這些方法中img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案最佳。


2.5 計算效率與硬件成本分析
為了評估本文方法的計算效率和硬件成本,記錄了相同硬件環境下不同方法的訓練時間、推理時間和顯存占用。基模花卉絲巾圖案生成方法的計算效率與硬件成本見表7,精繪花卉絲巾圖案生成方法的計算效率與硬件成本見表8。其中,精繪花卉絲巾圖案生成方法除Dreambooth外,均采用預訓練的SDXL模型,無訓練時間。訓練時間受到超參數和訓練數據的影響,并不完全固定,因此僅作為參考。
表7顯示:SAB-StyleGAN模型在訓練時間、推理時間、顯存占用3個方面都比StyleGAN-XL模型表現更優異,表明SAB-StyleGAN模型在計算效率和硬件成本上均優于StyleGAN-XL模型;SAB-StyleGAN模型的訓練時間和推理時間在基準模型StyleGAN的基礎上略微增加,顯存占用不變;訓練時間增加 5h ,增加了 11.9% ,推理時間增加0.002s,增加了 6% ,增加幅度較小。綜上所述,本文采用的SAB-StyleGAN模型在計算效率方面和硬件成本方面符合實際應用要求。

表8顯示:img2imgamp;IP-Adapter-Plus工作流與img2img工作流相比,推理時間減少2s,降幅20% ,顯存占用提高O.8GB,增加了 4.8% (2號 img2imgamp; IP-Adapter-Plus工作流與SDXL模型和Dreambooth微調方法相比,推理時間減少1s,降幅10% ,顯存占用提高1GB,漲幅 6.1% ;綜上可以發現,與其他3種方法相比,本文采用的img2imgamp;IP-Adapter-Plus工作流推理時間明顯降低,占用顯存輕微提高,在計算效率方面和硬件成本方面符合實際應用要求。

3結語
為了提高絲幣圖案設計效率、降低人工成本,本文提出了一種結合生成對抗網絡和穩定擴散模型的花卉絲巾圖案生成方法。首先提出一種數據擴增工作流,工作流創新性的融合真實絲巾圖案的圖像特征和文本特征,構建了具有多樣性的花卉絲巾數據集。然后在此數據集基礎上,設計了“雙階段模型協同生成\"框架,形成“粗生成一細加工\"的完整流程,最后生成精繪花卉絲巾圖案。
實驗結果表明,該方法的FID值低至41.25,生成的精繪花卉絲巾圖案清晰且質量優異,與真實絲巾圖案高度接近。該方法的藝術美觀度平均得分為4.5分,生成的精繪花卉絲巾圖案具有較強的藝術美感。該方法的絲巾規范度平均得分為4.52,生成圖案遵循真實絲巾圖案的設計規范。該方法相較于其他精繪花卉絲巾圖案生成方法推理時間明顯降低,占用顯存輕微提高,在計算效率方面和硬件成本方面符合實際應用要求。該方法為絲巾圖案的快速生成提供了一種高效高質的解決方案,有助于降低企業的設計成本、提高生產效率,進而推動時尚產業的數字化轉型。
本文主要聚焦于花卉主題的絲巾圖案生成,在圖案多樣性和應用普適性方面有待后續研究,如幾何抽象、文化符號等多元主題絲巾圖案的生成,或跨品類的紡織圖案生成。
參考文獻:
[1]RadfordA,Metz L,Chintala S, et al.Unsupervisedrepresentation learning with deep convolutional generativeadversarial networks[EB/OL]. (2016-01-07)[2025-03-03].https://arxiv.org/abs/1511.06434v2.
[2]任雨佳,陳璐,陳郁.基于DCGAN算法的服裝款式交互設計[J].毛紡科技,2022,50(3):93-97.
[3]Arjovsky M,Chintala S,Bottou L. Wasserstein generativeadversarial networks[C]//Proceedings of the 34th InternationalConference on Machine Learning. Sydney,Australia. PMLR,2017:214-223.
[4]田樂,祝雙武,王茹,等.生成對抗網絡及其在紡織行業中的應用[J].紡織科技進展,2023(11):1-7.
[5]Wu Q,Zhu B,Yong B,et al. ClothGAN:Generation offashionable Dunhuang clothes using generative adversarialnetworks[J].Connection Science,2021,33(2):341-358.
[6]劉康,馬浩然,邢樂.基于生成對抗網絡的中式婚服設計[J].服裝學報,2024,9(3):208-214.
[7] Sohl-Dickstein J,Weiss E,Maheswaranathan N,et al. Deepunsupervised learning using nonequilibrium thermodynamics[C]/Proceedings of the 32nd International Conference on MachineLearning. Lille,France.PMLR,2015:2256-2265.
[8]Ho J,Jain A N,Abbeel P. Denoising diffusion probabilisticmodels[C]//Proceedings of the 34th International Conference onNeural Information Processing Systems. Red Hook, NY:Curran Associates,Inc.,2020:6840-6851.
[9]Rombach R,Blattmann A,Lorenz D,et al. High-resolutionimage synthesis with latent diffusion models[C]//2o22 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June18-24,2022,NewOrleans,LA,USA.IEEE,2022:10674-10685.
[10]Podell D,English Z,Lacey K,et al. SDXL:Improving latentdiffusion models for high-resolution image synthesis [EB/OL].(2023-07-04)[2025-03-03]. https:// arxiv. org/abs/2307.01952vl.
[11]Ruiz N,LiY Z,Jampani V,etal. DreamBooth:fine tuning text-to-image diffusion models for subject-driven generation[C]//2023IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).June 17-24,2O23,Vancouver,BC,Canada.IEEE,2023:22500-22510.
[12]HuEJ,ShenY,WallisP,etal.LoRA:Low-rankadaptationof large language models[EB/OL]. (202l-10-16)[2025-03-03].https://arxiv.org/abs/2106.09685? context = cs. LG.
[13]黃詩敏.STABLEDIFFUSION(SD)技術在廣繡創作中的應用[D].廣州:廣州大學,2024:30-64.
[14]李鋼.基于改進CycleGAN和穩定擴散模型的陶瓷圖案生成算法研究[D].景德鎮:景德鎮陶瓷大學,2024:45-56.
[15]冉二飛,賈小軍,王子祥,等.應用穩定擴散模型的藍印花布單紋樣自動生成[J].現代紡織技術,2024,32(12):48-57.
(責任編輯:康 鋒)