摘要: 傳統紋樣是中國優秀傳統文化的重要組成部分,傳統人工設計已經無法滿足紋樣的現代設計需求,生成式AI為傳統紋樣設計提供了新的設計路徑和方法。文章將生成式AI應用于傳統紋樣設計中,通過適配實驗優選基于GAN的Style GAN和基于Diffusion的Stable Diffusion兩種主流圖像生成模型進行實驗,采用技術分析與藝術分析相結合,對實驗結果進行多角度、多維度對比分析,為設計師選擇生成設計方法提供參照。實驗結果表明,兩個模型均能滿足基本的藝術設計需求。Style GAN模型生成的紋樣圖像更接近真實圖像的分布,具有更高的圖像質量和多樣性;Stable Diffusion模型能較好地傳承傳統紋樣的基因,藝術性與創造性兼具,更加符合傳統紋樣的藝術設計需求。
關鍵詞: GAN;Diffusion;傳統紋樣;評價指標;對比分析;實驗研究
中圖分類號: TS941.26
文獻標志碼: A
文章編號: 10017003(2024)08期數0009起始頁碼14篇頁數
DOI: 10.3969/j.issn.1001-7003.2024.08期數.002(篇序)
收稿日期: 20240330;
修回日期: 20240623
基金項目: 教育部人文社會科學研究規劃基金項目(22YJA760038);長沙理工大學研究生科研創新項目(CSLGCX23124)
作者簡介: 李莉(1981),女,副教授,主要從事民族紋樣研究、傳統文化數智化設計研究、跨學科視覺創新設計研究。
中國傳統紋樣是藝術文化中的瑰寶,承載著中國智慧與美學記憶,在現代的演繹中煥發出新的生命力。傳承與發展傳統紋樣助力優秀傳統文化的傳播是傳統紋樣設計之根本,紋樣設計方法的推陳出新是傳統紋樣創作的不竭動力,是傳統紋樣設計之指南。中國傳統紋樣已廣泛應用于建筑、繪畫、雕塑、平面設計、室內設計、工業設計等行業,藝術設計及相關人員均可從紋樣優美的圖形紋飾、豐富的形態意蘊、獨特的圖式造型中汲取養分、激發靈感[1]。但傳統單一的人工設計方法已經無法滿足紋樣多元高效的現代設計需求,科技助力設計方法的創新對傳承和發展傳統紋樣具有重要意義。
目前,計算機輔助紋樣設計的相關研究主要歸納為傳統方法研究與生成式AI方法研究。傳統方法包括分形幾何原理[2]、形狀文法理論[3]與幾何相似特征[4]等基于數學模型的圖像生成方法,這些方法主要通過模擬圖像形態特征和量化圖像組織特性來生成新的紋樣圖像。生成式AI紋樣設計方法包括神經風格遷移網絡[5]、生成式對抗網絡GAN[6]等基于深度學習的圖像生成方法,該類方法主要通過深度神經網絡進行遷移學習模擬圖像數據的分布,從而生成新的紋樣圖像。近年來,隨著計算機視覺、機器學習和人工智能等技術的不斷發展,生成式AI已成為藝術設計領域重要的創意源泉之一。目前,相關研究主要有以下4個方面:第一類是基于生成對抗網絡(Generative adversarial networks,GAN)[7-8];第二類是基于自編碼器(Auto-encoder,AE)[9];第三類是基于流模型(Flow-based model,FM)[10];第四類是基于擴散模型(Diffusion modle,DM)[11-14]。這些模型在部分藝術設計領域,如產品設計、服飾設計、字體設計、環境設計、交互設計及傳統文化數字化等方面已經取得了一定的應用成果。針對“傳統紋樣”這一文化創新專項的生成研究主要以神經風格遷移網絡(Convolutional neural network,CNN)、條件生成對抗網絡(Conditional generative adversarial nets,CGAN)等生成模型的應用研究為主,旨在對紋樣進行風格識別、紋樣修復[15]、圖像合成及圖像生成。
綜上,傳統紋樣的生成設計研究已具備一定的研究基礎,但尚存以下問題:一是生成技術應用研究存在單一性和局限性,缺乏推廣應用價值,僅針對某一個或某一類紋樣的生成,未從傳統紋樣通用性生成設計的角度展開研究;二是生成紋樣研究缺乏文化傳承性與藝術美觀性,強調技術的引領作用而忽視了傳統紋樣的文化根基和藝術特征,使紋樣設計流于形式表面;三是生成紋樣研究缺乏設計應用性與推廣性,重視紋樣圖像質量而忽視了紋樣的設計應用需求,使生成紋樣缺乏實用價值;四是對生成紋樣的評價缺乏綜合性,大多從生成技術、生成效率、圖像質量、紋樣應用等單一維度展開,缺乏多角度多維度的整體性和全面性評價。
本文從藝術設計的角度探討圖像生成模型在傳統紋樣創新設計領域中的潛力和應用,為藝術設計師拓展設計思路、提高設計效率,并進一步通過設計師與AI共創,探索新的紋樣設計方法,對傳統紋樣藝術的傳承與發展具有重要的研究價值和意義。本文通過傳統紋樣生成實驗,挑選了4種主流圖像生成模型,通過實驗、初篩、優選,選擇兩種圖像生成模型進行實驗與對比,分析生成實驗的數據集、實驗訓練、模型參數等實驗設置和技術手段對紋樣圖像質量和紋樣生成效果的影響,總結學習模式及訓練規律。通過對實驗結果從造型、色彩、美觀、創新、應用5個藝術設計要素進行藝術綜合評價,以及從設計需求出發對實驗結果進行驗證,實現對兩種生成設計方法的多維度、多層面對比分析,為設計師選擇和使用生成設計方法提供案例參照,從而為傳統紋樣設計研究提供新的視角。
1 實驗準備
實驗首先準備了1 000張侗族矢量化紋樣為傳統紋樣數據集,然后篩選出可訓練自有數據集的圖像生成模型。本文從以GAN、VAE為代表的“圖像生成圖像模型”和以Diffusion為代表的“文本生成圖像模型”兩大生成類型進行模型選擇。根據圖像生成目的與紋樣圖像特點,本實驗選擇了基于GAN的深度卷積對抗網絡(Deep convolutional generative adversarial networks,DCGAN)及風格生成對抗網絡(Style-generative adversarial network,Style GAN)、基于AE的變分編碼器模型(Variational auto-encoder,VAE)、基于Diffusion的穩定擴散模型(Stable diffusion,SD)共4種主流模型進行紋樣生成實驗。以生成紋樣圖像的“多樣性、清晰度、相似性、創新性”為原則對4種模型進行初步篩選,生成紋樣樣本如表1所示。由表1可以看出,DCGAN模型生成的紋樣多樣性及相似性較差,VAE模型生成的紋樣可以大致還原紋樣輪廓,但是清晰度較差。通過算力硬件、樣本數量、生成紋樣質量及藝術性等綜合考量,基于GAN的DCGAN模型與基于AE的VAE模型不符合傳統紋樣的藝術設計的基本要求,故優選基于GAN的Style GAN模型和基于Diffusion的Stable Diffusion模型為本次紋樣生成實驗所用。
2 算法原理
2.1 Style GAN 2模型
Style GAN模型是GAN的衍生網絡,是由NVIDIA公司2019年提出的一種基于生成對抗網絡的圖像生成技術,具有生成高質量、高逼真度圖像的能力,其顯著特征是模型的非常規生成器體系結構。目前,Style GAN廣泛應用于人臉合成[16]與圖像編輯[17]等場景。Style GAN模型主要通過改進歸一化過程、引入Alias-Free GAN概念和擴展高分辨率圖像生成能力等實現技術更新,最終演化出Style GAN 2、Style GAN 3和Style GAN-XL等更為先進高效的版本。從本實驗任務出發,綜合考慮圖像生成需求與計算成本,本文選用的版本為Style GAN 2,如圖1所示。其網絡架構主要包括4個組成部分:G_style(),G_mapping(),G_synthesis()和D_basic()。
由圖1可見,G_style為整個生成器的網絡架構,由映射網絡G_mapping和合成網絡G_synthesis兩個子網絡組成。為了解決Style GAN 1中的液滴偽像,將原有的AdaIN去掉并利用權重解調簡化模型設計,其權重表達式如下:
w″ijk=w′ijk/∑iw′ijk2+(1)
在訓練Style GAN 2的初始接口train.py下定義了一些主要的設置,包括生成網絡和判別網絡各自的架構、優化和損失的設置,以及訓練計劃、數據集和GPU的設置等。配置完成之后,通過調用dnnlib.submit_run(**kwargs)就能進入到訓練過程中。
在進行自定義訓練時,通常需要手動調整數據集設置(名稱和分辨率)、GPU設置(GPU數量和batch大小取決于GPU緩存大?。┘澳J設置(總迭代數和學習率),而網絡架構的設置則視情況而定。圖2為Style GAN 2算法流程。
為了獲得框架清晰、圖案豐富的圖像,本實驗對不同參數下的生成結果進行反復對比分析,不同輪次訓練所生成的紋樣樣本如圖3所示。由圖3可以看出,當Fakes=001000時生成的圖像質量較低,而Fakes=004000時生成的圖像因過擬合而雷同。故本實驗Style GAN模型最終的選擇輪次為network-snapshot-002000.pkl,設置自定義訓練及生成參數為:gpus=1,trunc=1,seeds=2,mirror=1,gamma=8.2,batch=16,訓練時長38 h。
2.2 Stable Diffusion v1模型
Stable Diffusion模型是基于潛在擴散模型(Latent diffusion models,LDMs)改進的文本生成圖像(text-to-image)模型,是由Stability AI公司2022年開源的AI文生圖擴散模型,使用了一種潛在擴散的深度學習技術來實現文本描述生成圖像。與其他文本到圖像模型不同,Stable Diffusion模型的代碼和模型權重是公開可用的,可以在大多數消費類硬件上運行。Stable Diffusion模型的提出,大力推動了文本生成圖像領域的發展,成為圖像生成的主流模型之一。Stable Diffusion模型通過優化模型架構、引入新的文本編碼器和采用優化版VAE等方式實現技術更新,逐步形成了Stable Diffusion v1.5、v2.0、v2.1及最新的XL等多個具有不同特點和優勢的版本。基于本次圖像生成需求與計算成本考慮,本文選用的版本為Stable Diffusion v1。圖4為Stable Diffusion v1模型的整體框架,共分為3個部分。
訓練(圖4中的①和②部分)過程如下:首先使用AutoEncoderKL自編碼器將圖像Image從pixel space映射到latent space,學習圖像的隱式表達,注意AutoEncoderKL編碼器已提前訓練好,參數是固定的。此時Image的大小將從[B,C,H,W]轉換為[B,Z,H/8,W/8],其中Z表示latent space下圖像的Channel數。這一過程在Stable Diffusion模型代碼中被稱為encode_first_stage。接著使用FrozenCLIPEmbedder文本編碼器對Prompt提示詞進行編碼,生成大小為[B,WK,E]的embedding表示(即context),其中K表示文本最大編碼長度max length,E表示embedding的大小。這一過程在Stable Diffusion模型代碼中被稱為get_learned_conditioning;然后進
行前向擴散過程(diffusion process),表達式如下:
q(xtxt-1)=N(xt;1-βtxt-1,βtI) q(x1︰Tx0)=∏Tt=1(x1︰Tx0)(2)
式中:{βt∈(0,1)}t=1在這個過程中,隨著t的不斷增大,最終數據分布x變成了一個各向獨立的高斯分布,該過程調用UNetModel完成。
UNetModel同時接收圖像的隱式表達latent image及文本embedding context,在訓練時以context作為condition,使用Attention機制來更好的學習文本與圖像的匹配。圖5為Stable Diffusion v1算法流程。
為了獲得框架清晰、圖案豐富的圖像,本實驗對不同參數下的生成結果進行分析,不同輪次生成的蝴蝶紋樣如圖6所示。由圖6可以看到,當epoch=120時生成的圖文匹配度較差,而epoch=430時生成的圖像達到了近擬合狀態,圖像清晰度較差。故本實驗Stable Diffusion模型優選epoch=256ckpt,訓練自定義參數為:batch=4,n_gpus=1,accymulate_batches=1,num_nodes=1,n_samples=8,訓練時長為28 h。
3 實驗過程
3.1 實驗數據收集與預處理
目前,關于傳統紋樣的圖像生成研究工作非常有限,缺乏標準的紋樣數據集。故本實驗數據集樣本采集自侗鄉收藏家張柏如的著作《侗族服飾藝術探秘》[18]、國家級絲綢專家錢小萍的著作《中國織錦大全》[19]、民間美術家左漢中的著作《湖湘傳統紋樣》[20]及織錦研究專家汪為義的著作《湖湘織錦》[21]等紋樣權威書籍與紋藏等紋樣數據庫。首先采集圖像數據,使用專業圖像編輯工具Adobe illustrator對侗族紋樣進行矢量化繪制,根據實驗需求將每張原始圖像調整為512 PX×512 PX、大小100~500 KB、分辨率300 dpi的透明位圖。然后建立實驗數據集,以紋樣圖像的清晰度、豐富性、典型性、傳承性為準則對原始樣本進行篩選,優選1 000張侗族紋樣構成實驗數據集,包含侗族刺繡紋樣540張、侗族織錦紋樣460張;并將數據集紋樣分為6大類,分別為動物紋樣、植物紋樣、景象紋樣、幾何紋樣、裝飾紋樣和其他紋樣。最后對實驗數據進行預處理。由于Stable Diffusion模型為文本生成模型,故需要進一步對紋樣進行文本分析。根據紋樣圖像的圖式特點,從“紋樣名稱”“主體圖案外觀特征”“是否對稱”“背景顏色”“紋樣內涵”共5個內容出發,對數據集的每張紋樣圖像進行一段文本描述,如表2所示。最后將圖像與對應描述詞上傳至Hugging Face網站上,形成語料庫。
3.2 實驗環境
本文Style GAN 2模型實驗的硬件配置為Intel(R) Xeon(R) Platinum 8350C,實驗使用的計算機系統采用Linux系
統,顯卡為RTX 3090,運行內存為24 GB;實驗使用的軟件Pytorch版本為Pytorch 1.8.1。Stable Diffusion v1模型對硬件需求較高,實驗硬件配置為AMD EPYC 7543,實驗使用的計算機系統采用Linux系統,顯卡為A40,運行內存為48 GB;實驗使用的軟件Pytorch版本為Pytorch 1.11.0。
4 實驗結果評價
首先對Style GAN模型(簡稱SGAN)與Stable Diffusion模型(簡稱SD)的實驗過程進行初步分析。從計算成本來看,SD對硬件配置要求更高,且圖像標記成本高。從訓練時間來看,SD所需時間更短,SGAN訓練時間為38 h,而SD訓練時間為28 h。從生成時間來看,SGAN所需時間較少,SGAN平均002 s生成一張,而SD平均20 s生成一張。從生成數量上看,SGAN與SD生成數量均無限制。
然后對實驗結果進行深入分析,技術評價和藝術評價相結合分析兩個模型生成紋樣各自的優勢和局限性,為傳統紋樣生成設計提供案例參考。
4.1 技術評價
技術評價是衡量圖像生成模型性能的重要手段,本文通過分析FID[22]和IS[23]數值對紋樣圖像的清晰度、多樣性和文圖匹配度三大技術指標進行客觀評價。
FID(Fréchet Inception Distance)是用于衡量生成圖像與真實圖像之間分布差異的指標。其計算方法涉及生成圖像和真實圖像在Inception網絡中的特征距離Fréchet,公式如下:
FID=μr-μg22+Tr(∑r+∑g-2(∑r∑g)1/2)(3)
式中:μr和∑r分別代表真實圖像的特征均值、真實圖像特征向量的協方差矩陣;μg和∑g則代表生成圖像的特征均值、生成圖像特征向量的協方差矩陣。
FID表示的是生成圖像的特征向量與真實圖像的特征向量之間的距離,該距離越近,FID越小,說明生成模型的效果越好,即圖像的清晰度高,且多樣性豐富。
IS(Inception Score)是用于衡量生成圖像多樣性和質量的指標。其計算方法涉及使用Inception網絡評估生成圖像的類別概率分布,公式如下:
I=exp(EX~PgDKL(p(y|x)p(y)))(4)
式中:KL、x和y分別代表Kullback-Leibler(KL)散度,生成的圖像和由inceptio V3網絡IS預測的圖像標簽。
利用條件分布p(y|x)和邊際分布p(y)來計算KL散度。具體來說,該網絡通過數值I來評估生成圖像的效果。數值I越大,圖像效果越好。
總之,FID用于度量生成圖像與真實圖像分布之間的差異,IS用于評估生成圖像的多樣性和質量,兩大技術指標在兩個模型中的表現如表3所示。
實驗數據顯示,SGAN的FID值為101.54,SD的FID值為115.07。這表明SGAN生成的圖像與真實圖像之間的分布差異較小,圖像清晰度較高,更接近真實圖像的分布,因此SGAN生成的圖像與真實圖像更相似。而SD生成圖像與真實圖像之間存在較大的分布差異,因此SD生成圖像與真實圖像相似度較低。SGAN的IS值為5.47,SD的IS值為513,這表明SGAN生成的圖像多樣性較強,圖像質量較高,因此SGAN生成的紋樣圖像更加多元化。SD生成的圖像多樣性不足,圖像質量較低,因此SD生成的紋樣圖像效果還需要進一步加強。
4.2 藝術評價
紋樣圖像的藝術性表達是實驗結果評價的核心內容。本文通過問卷調查對兩個模型生成的紋樣進行人工評價,評價指標和權重分析以設計藝術批評的三原則[24],即人文意識、文化性和市場性三個評價維度來制定標準。設計藝術批評是對一切設計現象和設計問題的科學評價和理論建構,是溝通設計與設計、設計與公眾、設計與社會的一個重要的環節,從而有效輔助設計師篩選設計方案,提升方案質量。經綜合評定,本問卷從紋樣的造型指標(Shape)、色彩指標(Color)得到紋樣外觀特征評價,從美觀指標(Artistic)、創新指標(Creativity)得到紋樣內在表現評價,從應用指標(Application)得到紋樣應用價值評價,通過這五大指標權重后的綜合得分獲取主觀評價。其中造型指標(S)用于評價是否體現了原始紋樣的造型特征,色彩指標(C)用于評價是否體現了原始紋樣的色彩特征,美觀指標(A)用于評價生成紋樣的美觀度和藝術性,創新指標(Cr)用于評價生成紋樣的創新度,應用指標(P)用于評價生成紋樣的推廣應用價值;以“紋樣的造型特征、色彩特征的權重大于美觀度、創新度與應用價值”為原則設計計算公式,從而得出每組的最終得分。
本文以∑ni=1wi=1,wi∈[0,1],n為指標數,設定評價指標的權重累加和為1,將五項指標所占比例依次設定為4︰3︰1︰1︰1。設定造型特征評分結果為a、色彩特征評分結果為b、美觀度評分結果為c、創新度評分結果為d,應用指標評分結果為e,將這些值代入下式,就可以得到加權平均分W。
W=(0.4+0.3+0.1+0.1+0.1)1× (a×0.4+b×0.3+c×0.1+d×0.1+e×0.1)(5)
本文以線上問卷開展調研,總題量為8題,收到有效反饋255份。其中從職業角度來看,藝術設計相關學生或從業者150人,約占66.67%;其他從業者75人,約占33.33%。從對侗族文化的了解程度來看,了解侗族文化的人51人,占2267%;不了解侗族文化的人174人,占77.33%。
將1 000張紋樣分類為簡潔抽象型紋樣組、復雜具象型紋樣組、單獨紋樣組、連續紋樣組及綜合紋樣組共5類,一類一題,共5大題。每類選取10張代表性紋樣生成對比圖放入問卷中,答題時每人每題隨機抽取3張對比圖,每張對比圖出現的平均次數為66次。受訪者需對這15張紋樣對比圖分組進行打分評價,每張紋樣對比圖包含三個紋樣,它們都是由同一描述文本或圖像生成的紋樣圖像,分別是原始紋樣、SGAN生成紋樣和SD生成紋樣。受訪者對每組紋樣從兩個維度共4個問題分別打分。對評分設置依據“李克特五點量表法”,李克特五點量表法評價分為五個等級并有其相應的分數(圖7),“1”代表消極絕對否定,“5”代表積極絕對肯定。
本次問卷旨在對比SGAN與SD在生成紋樣方面的性能表現。問卷面向藝術設計專業人員與非藝術設計專業人員發放,獲取專業群體與非專業群體對模型生成紋樣的主觀評價。表4為問卷主觀評估內容與單項指標均值。每一項的指標滿分都為5分,由表4可見得分均在3分以上,因此兩個模型生成的紋樣表現較好,都能滿足設計的基本需求。從單項數據可看出,SD在造型指標(S)、色彩指標(C)、美觀指標(A)和應用指標(P)的單項均值均高于SGAN,而創新指標(Cr)處于持平狀態。因此主觀評價結果表明,SGAN與SD均能較好完成紋樣設計,但SD整體表現更勝一籌。SD在生成紋樣的外觀特征上表現更優,生成紋樣的內在表現和實用價值也更優秀;而SGAN的主要優勢則是生成紋樣的創新度,其創新度分值與SD同為3.64分,說明兩個模型對于紋樣的理解與創新能力相當。
表5為了解侗族文化與不了解侗族文化受訪者評價分值及權重后分值對比,表6為藝術設計及相關從業者與其他職業受訪者評價分值及權重后分值對比。根據受訪者的不同文化背景及職業背景分別從紋樣外觀特征、紋樣內在表現及紋樣實用價值三個評估維度對SGAN與SD進行分析。從單項數據可看出,不同侗族文化背景的受訪者都認為SGAN的優勢在于生成紋樣的創新度(Cr),分別拿到了3.55分與3.67分單項最高分。SGAN在不了解侗族文化的受訪者中的創新指標(Cr)一欄分值為3.67,高于SD分值3.59,說明不了解侗族文化的受訪者認為SGAN的創新能力優于SD。而SD的優勢在于生成紋樣的美觀度(A),分別拿到了4.15分與403分的單項最高分,評分均超過了4.00分,表示對模型生成紋樣的美觀度非常滿意。從職業的角度來分析,不同職業背景的受訪者對SGAN生成紋樣的創新度(Cr)都表現出了較高的肯定,分別達到了3.54分及3.84分。根據數據可知,了解侗族文化的受訪者給出的總分值高于不了解侗族文化的受訪者給出的分值,說明了解侗族文化的受訪者對紋樣生成實驗效果更滿意。也能看到其他職業的受訪者對兩個模型生成的紋樣總體評分高于藝術設計及相關從業者的評分,從側面印證了設計師對于紋樣生成的要求更高。總的來看,不同背景受訪者都一致認為SD生成的紋樣效果優于SGAN。
5 實驗結果驗證
紋樣圖像已廣泛應用于文創產品設計、包裝設計、室內設計、建筑裝飾設計、服裝與服飾設計等藝術設計中。不同的應用情境對紋樣的形態、色彩、圖式需求各異,簡潔抽象或復雜具象,單色或彩色,單獨紋樣或連續復合紋樣等。本文根據上述應用需求將紋樣分成“簡潔抽象型紋樣”“復雜具象型紋樣”“單色紋樣”“彩色紋樣”“單獨紋樣”“連續紋樣”“綜合紋樣”共7大類。分別使用兩大圖像生成模型對7大類紋樣進行實驗驗證,在50張典型紋樣中,各類數量分布分別為復雜具象型紋樣樣本29個、簡潔抽象型紋樣樣本21個、單獨紋樣樣本23個、連續紋樣樣本10個、綜合紋樣樣本17個、單色紋樣樣本29個、彩色紋樣樣本21個。通過對藝術設計相關人員的問卷評估及實驗結果對比分析,驗證兩種生成設計方法在各方面取得的更優性能,為藝術設計相關從業者提供紋樣設計參考。圖8—圖14為7大類生成紋樣圖像對比,表7為藝術相關人員對于紋樣生成的主觀評價。
紋樣根植于“秩序”,并在這一范式中發展、變化、延續[25]。本文對兩個模型以7類不同范式紋樣的生成結果進行了比較,探討紋樣藝術與計算機技術的有機融合。圖8—圖14中SD在7大類紋樣的生成圖像綜合表現更優秀,紋樣傳承性與創造性兼備,構圖合理富有變化,整體與局部表達合理。表7中SD的單項分值和加權平均分均高于SGAN,故藝術相關人員認為SD更加符合藝術設計需求。表7中單項最高分值為SD的美觀度(A)4.03分,說明藝術設計人員對SD生成紋樣的美觀度高度認可;SD的應用價值(P)3.97分,得分僅次于美觀度,因此SD生成紋樣的應用價值也得到了較高評價;SGAN每組的單項最高分值均為創新度(Cr)3.54分,說明其創新能力得到了最佳認可;單項最低分值為SGAN的造型特征(S)3.02分,因此SGAN在綜合紋樣組和彩色紋樣組的造型特征評價為最低。
具體來說,在復雜具象型與簡單抽象型紋樣的生成中,SGAN與SD都能較好地還原不同造型的原始紋樣風格特征,從圖8—圖14紋樣的視覺表現上看SGAN在紋樣單線條生成的表現力上優于SD,但是SD更能還原復雜具象型紋樣的造型特征與色彩特征。在簡潔抽象紋樣的生成中,SGAN出現了紋樣扭曲及樣本分布不均的情況,而SD發揮穩定,生成的紋樣更準確、肌理結構更清晰且更符合形式美。表7中復雜具象和簡潔抽象型類SGAN的造型特征(S)的分值分別為3.11分和3.05分,為本組最低分,印證了圖8—圖14中SGAN造型能力弱的表現;這兩組SGAN的美觀度(A)的分值均為316分,因此紋樣的美觀度也需要加強。
在不同圖式的紋樣生成中,圖8—圖14中單獨紋樣與連續紋樣的視覺表現有較明顯的差距,SGAN對構圖的理解能力弱,生成的紋樣構圖存在偏離原圖、不完整、藝術性弱的現象,而SD表現出明顯的優勢,紋樣圖式、圖像特征都有很好的理解力,生成的紋樣構圖飽滿富有變化,紋樣造型延續原紋樣的同時不失創新。表7中SGAN的色彩特征分值分別為3.37分、3.24分,僅次于創新度(Cr)3.54分,由此推理SGAN的色彩特征評價較好。單獨紋樣與連續紋樣類SGAN的美觀度(S)的分值均為3.16分,為本組最低分,與圖8—圖14中SGAN藝術性表現不佳相符。
在單色紋樣與彩色紋樣的生成中,圖8—圖14中兩個模型整體表現較好,符合紋樣藝術設計的基本需求,但SD更勝一籌。SD生成的紋樣與藝術性強,趨向于完整,對造型和色彩的理解力都很好,有連續性,也有創新性;SGAN生成的紋樣線條精細,色彩風格獨特,但存在圖像扭曲、色彩偏離等現象。表7中,SD單項分值均在3.5分以上,分差值較小,說明SD表現持續向好,單項之間勢均力敵、無短板;SGAN仍然是色彩特征(C)和美觀度(A)表現最弱,分別為3.14分和3.16分,與圖8—圖14中SGAN色彩偏離原紋樣一致。而SD在單色紋樣與彩色紋樣組的色彩特征(C)分值分別為3.57分和354分,均為本組最低分,因此SD生成紋樣的色彩仍有提升空間。
圖8—圖14中兩個模型在綜合紋樣上的表現整體上都較好,SD在綜合紋樣類表現更突出,生成的紋樣特征鮮明、細節豐富、美觀性優、傳承性好,具有更高的多樣性和可控性;SGAN模型生成的紋樣造型獨特創新度較好,構圖飽滿,在本組的表現優于其他組,但存在色彩偏離、未體現傳承性等問題。表7綜合紋樣類加權平均分高于其他類為最高分3.79分,因此SD在綜合紋樣類的生成優勢尤為突出。SD、SGAN的創新度(Cr)分值分別為3.61分和3.54分,為兩個模型單項分值差最少的一組,因此在創新性方面兩個模型表現優良且相當。
總的來說,表7中得分均在3.00分以上,因此藝術相關人員對兩個模型生成的紋樣都基本滿意,能滿足基礎設計需求。綜合圖8—圖14的紋樣圖像視覺表現可得出,SGAN在單線條紋樣、單獨紋樣與連續紋樣的生成上具備了一定的優勢,具備靈活性和和諧性。但在整體造型與細節表達上較為粗糙,出現模糊變形等現象,清晰度較差,背景的偽影較為影響畫面美觀度。如SD雖然也有出現偽影的現象,但是該模型更能夠捕捉到復雜的圖像結構和細節信息,生成的紋樣整體上結構清晰、內容準確,在幾何化的線條和圖案元素生成方面與原始紋樣具有較高的匹配度。在色調的統一、色彩的整體美感和吸引力上明顯更勝一籌。但是也有些方面能看出明顯的不足,如SD雖然在文本引導之下具有較高的可控性與可解釋性,但有時也不能正確地生成物體對應的屬性,該模型無法生成線稿紋樣與單一層次的連續紋樣,色彩上在精準把握原始紋樣調性、拓展豐富等方面仍有待優化。
6 結 語
隨著人工智能的日益發展,將生成式AI技術應用于中華傳統優秀文化數字化保護和創造性轉化,已成為當前文化建設的重要途徑,藝術與科技融合、設計學與計算機學科交叉融合已成為藝術設計未來發展的重要方向之一。本文對圖像生成模型在傳統紋樣設計中的應用進行了實驗分析,為傳統紋樣藝術創作提供了新的研究視角和研究方法。本文分別對基于GAN的Style GAN模型與基于Diffusion的Stable Diffusion模型兩大主流圖像生成模型進行紋樣生成實驗,對實驗結果進行全面綜合分析,從多個角度和維度探討了模型的優劣勢以及實際應用的可行性。通過比較FID和IS技術指標的客觀分析,Style GAN模型生成的圖像更接近真實圖像的分布,具有更高的圖像質量和多樣性。然而通過問卷調查對紋樣進行藝術指標分析得出,Stable Diffusion模型在紋樣外觀特征、紋樣內在表現與紋樣實用價值方面均更符合專業人員的設計需求,在紋樣創新領域展現出巨大的發展潛力;但存在對計算配置要求更高、標記成本高、生成的紋樣構式多樣性差等不足之處。因此,根據具體的紋樣設計需求,研究人員可以選擇適合的模型,Style GAN模型適用于線稿紋樣、單獨紋樣和連續紋樣的快速生成需求,而Stable Diffusion模型適用于多元化精準化的生成需求、強調傳承與創新的文化內容需求。
由于研究成本的限制,本實驗仍然具有一定的局限性。一方面,因為模型訓練對數據集數量要求較高,本數據集由侗族織錦紋樣與侗族刺繡紋樣共同構成,未考慮兩種紋樣類型之間的風格差異,因此可能對模型的訓練會有影響,將兩類紋樣分開進行訓練后生成的紋樣可能更會具有針對性;另一方面,因篇幅暫未利用文本生成這一特性來探索Stable Diffusion模型的更多可能性,如使用語義生成、配色生成、構圖生成及小樣本生成等方面??傊粩喔碌纳墒紸I技術是未來紋樣設計創新領域的新質生產力,在后續研究中,可以探索更多專業、高效的紋樣生成工具,實現圖生圖、一對一的高質量生成。隨著生成式AI平民化,設計師將能夠更便捷熟練地操作圖像生成模型,從而獲取豐富的設計靈感,獲得更好的設計體驗。將圖像生成模型等生成式AI深度應用于民族紋樣等傳統紋樣設計中,設計師與AI共創是紋樣設計的必然趨勢,是推動文化創意產業進步的不竭動力。
參考文獻:
[1]胡欣蕊. 中國傳統紋樣[M]. 武漢: 華中科技大學出版社, 2021.
HU X R. Traditional Chinese Patterns[M]. Wuhan: Huazhong University of Science & Technology Press, 2021.
[2]TIAN G, YUAN Q, HU T, et al. Auto-generation system based on fractal geometry for batik pattern design[J]. Applied Sciences, 2019, 9(11): 2383.
[3]胡珊, 賈琦, 王雨晴, 等. 基于眼動實驗和可拓語義的傳統文化符號再設計研究[J]. 裝飾, 2021(8): 88-91.
HU S, JIA Q, WANG Y Q, et al. Redesign research of traditional cultural symbols based on eve-movement experiments and extensible semantics[J]. ZHUANGSHI, 2021(8): 88-91.
[4]裴卉寧, 邵星辰, 郭任哲, 等. 基于幾何相似特征的石窟造像裝飾圖案生成方法[J]. 計算機輔助設計與圖形學學報, 2023, 35(9): 1333-1343.
PEI H N, SHAO X C, GUO R Z, et al. A method for generating decorative patterns of grotto statues based on geometric similarity features[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(9): 1333-1343.
[5]侯宇康, 呂健, 劉翔, 等. 基于神經風格遷移網絡的民族圖案創新方法[J]. 圖學學報, 2020, 41(4): 606-613.
HOU Y K, L J, LIU X, et al. Innovative method of ethnic pattern based on neural style transfer network[J]. Journal of Graphics, 2020, 41(4): 606-613.
[6]CHEN S S, CUI H, DU M, et al. Cantonese porcelain classification and image synthesis byensemble learning and generative adversarial network[J]. Frontiers of Information Technology & Electronic Engineering, 2019, 20(12): 1632-1644.
[7]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63 (11): 139-144.
[8]KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4401-4410.
[9]RAMESH A, PAVLOV M, GOH G, et al. Zero-shot text-to-image generation[J]. PMLR, 2021, 139: 8821-8831.
[10]KINGMA D P, SALIMANS T, JOZEFOWICZ R, et al. Improving variational inference with inverse autoregressive flow[J]. Advances in Neural Information Processing Systems, 2016, 29: 1-9.
[11]KINGMA D P, DHARIWAL P. Glow: Generative flow with invertible 1×1 convolutions[M]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: Curran Associates Inc, 2018.
[12]SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHANN, et al. Deep unsupervised learning using nonequilibrium thermodynamics[J]. PMLR, 2015, 37: 2256-2265.
[13]HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.
[14]DHARIWAL P, NICHOL A. Diffusion models beat GANs on image synthesis[J]. Advances in Neural Information Processing Systems, 2021, 34: 8780-8794.
[15]沙莎, 魏宛彤, 李強, 等. 基于深度學習的楚國墓葬紡織品圖像復原[J]. 絲綢, 2023, 60(5): 1-7.
SHA S, WEI W T, LI Q, et al. Textile image restoration of Chu tombs based on deep learning[J]. Journal of Silk, 2023, 60(5): 1-7.
[16]ALALUF Y, PATASHNIK O, COHEN-OR D. Only a matter of style: Age transformation using a style-based regression model[J]. ACM Transactions on Graphics (TOG), 2021, 40(4): 1-12.
[17]LIU M, WEI Y, WU X, et al. Survey on leveraging pre-trained generative adversarial networks for image editing and restoration[J]. Science China(Information Sciences), 2023, 66(5): 28-55.
[18]張柏如. 侗族服飾藝術探秘[M]. 臺北: 漢聲雜志社, 1994.
ZHANG B R. Exploration of Dong Costume Art[M]. Taipei: Hansheng Magazine, 1994.
[19]錢小萍. 中國織錦大全[M]. 北京: 中國紡織出版社, 2014.
QlAN X P. Brocade of China[M]. Beijing: China Textile & Apparel Press, 2014.
[20]左漢中. 湖湘傳統紋樣[M]. 長沙: 湖南美術出版社, 2010: 78.
ZUO H Z. Huxiang Traditional Patterns[M]. Changsha: Hunan Fine Arts Publishing House, 2010: 78.
[21]汪為義, 田新順, 田大年. 湖湘織錦[M]. 長沙: 湖南美術出版社, 2008: 96.
WANG W Y, TIAN X S, TIAN D N. Hunan Brocade[M]. Changsha: Hunan Fine Arts Publishing House, 2008: 96.
[22]HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-12.
[23]SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. Advances in Neural Information Processing Systems, 2016, 29: 1-9.
[24]黃厚石. 設計批評[M]. 南京: 東南大學出版社, 2009.
HUANG H S. Design Criticism[M].Nanjing: Publishing House of Southeast University, 2009.
[25]鄧翔鵬, 賈榮林. 中國傳統服飾紋樣的程式與秩序[J]. 藝術設計研究, 2022(5): 38-43.
DENG X P, JIA R L. The stylization and order of Chinese traditional costume pattern[J]. Art and Design Research, 2022(5): 38-43.
An experimental study on the application of GAN and Diffusion models in traditional pattern design
ZHANG Chi, WANG Xiangrong
LI Lia, MAO Zihana, L Siqia, YUAN Chenxua, PENG Yuxub
(a.School of Design Art; b.School of Computer and Communication Engineering, Changsha University of Science & Technology, Changsha 410114, China)
Abstract: Traditional patterns come as one of the vital components of China’s rich cultural heritage, embodying the wisdom and aesthetic memory of China. These patterns have been extensively used in various design fields. Artists and designers can draw nourishment and inspiration from the beautiful graphic decorations, the rich implications of forms, and the unique pattern designs. However, traditional manual design methods can no longer meet the diverse and efficient demands of the modern pattern design. Current research on computer-aided pattern design primarily focuses on traditional methods and generative AI approaches. Traditional methods mainly generate new patterns by simulating image morphological features and quantifying image organizational characteristics. Generative AI methods, on the other hand, use deep neural networks for transfer learning to simulate the distribution of image data, thus creating new pattern images and offering new paths and methods for traditional pattern design. While there is already a certain foundational body of research on the generative design of traditional patterns, there are still issues in the field of generative technology application research. These include a lack of research from the perspective of universal generative design of traditional patterns, neglect of the cultural and artistic foundations of these patterns, insufficient attention to the practical application needs of generated patterns, and a lack of comprehensive evaluation of generated patterns.
To facilitate deep co-creation between designers and AI, this paper explores the potential and application of image generation models in the innovative design of traditional patterns from an artistic design perspective. Four mainstream image generation models were initially selected through preliminary experiments on traditional pattern generation. Among these, StyleGAN (based on GAN) and Stable Diffusion (based on Diffusion) were chosen for further experimentation. The technical aspects of the datasets, training processes, and model parameters were analyzed, and pattern images were evaluated based on diversity, clarity, and text-image matching. Additionally, a survey was conducted to assess the experimental results on five artistic design elements: form, color, aesthetics, innovation, and application. Combining technical and artistic analyses, the experimental results underwent comprehensive multidimensional evaluation. Finally, the experimental results were validated from the perspective of design requirements, and the superior performance of the two generative design methods in various aspects was explored. This provides case references for designers in selecting and using generative design methods and offers new research perspectives for traditional pattern design studies. The experimental results indicate that both models meet the basic requirements of artistic design. The StyleGAN model produces pattern images closer to the distribution of real images, with higher image quality and diversity, making it suitable for generating line patterns, individual patterns, and continuous patterns, and meeting the needs for quick generation emphasizing formal beauty. In contrast, the Stable Diffusion model better preserves the essence of traditional patterns, balancing artistry and creativity, and is more aligned with the artistic design needs of traditional patterns, suitable for diversified and precise generation requirements, and for cultural content emphasizing inheritance and innovation.
This study provides an experimental analysis of the application of image generation models in traditional pattern design, offering new research perspectives and methods for traditional pattern artistic creation. The findings will contribute to the deep application of generative AI in the design of ethnic and traditional patterns, so as to promote the modern transformation of traditional pattern design.
Key words: GAN; Diffusion; traditional patterns; evaluation metrics; comparative analysis; experimental study