摘要:生成式人工智能正廣泛應用于圖像生成領域,為解決傳統紋樣設計方法創作聯珠團窠紋耗時耗力的問題,研究擴散模型應用于聯珠團窠紋再生設計的方法。通過對聯珠團窠紋藝術結構特征的提取和擴散模型中交叉注意力模塊的研究,設計有效的描述文本并重構擴散模型,提出以結構相似度作為參考標準,采用高斯函數確定閾值進行篩選的再生設計方法。主客觀評價結果證明了運用重構的擴散模型進行紋樣再生設計的可行性。為聯珠團窠紋的再生設計提供了新的思路與方法。
關鍵詞:聯珠團窠紋;擴散模型;紋樣再生設計;結構相似度;生成式人工智能
中圖分類號:TS941.26 文獻標識碼:A
文章編號:1003-0069(2024)13-0052-04
引言
聯珠團窠紋是我國最具代表性的織錦紋樣之一,起源于波斯薩珊王朝時期,傳入中原后形成了具有本土文化特色的裝飾紋樣。作為中西交融的產物,聯珠團窠紋不僅蘊含著吉祥美好的寓意,而且呈現出一種和合之美,自傳入以來便廣泛流行,又因其便于各種裁剪形式使用的優勢,至今依然具有很高的審美屬性和應用價值[1-2]。目前,聯珠團窠紋的理論研究較為完善,但在紋樣傳承與創新方面依然停留在手工創意階段,不僅耗時耗力,而且重復性較強,難以滿足設計多樣化和個性化的時代需求[3]。應用計算機技術和深度學習模型生成傳統紋樣的研究大部分以風格遷移為主,將其他圖案的風格遷移到一種紋樣中,如邱雪琳等通過在掩碼圖上添加色彩損失的方式優化了VGG19 模型,實現了云錦圖案的局部風格遷移[4]。這類紋樣創新只能實現既定圖案的風格遷移,模型不具備圖案結構設計的能力。
近年來, 生成式人工智能(Artificial Intelligence GeneratedContent,AIGC)取得了井噴式的進步。最早在2014 年6 月被提出的生成對抗網絡(Generative Adversarial Networks,GAN)模型通過讓生成器和判別器相互對抗的方式實現了圖像的生成,但同時也存在訓練不穩定、數據需求量大等問題[5]。另一個重要的突破是Open AI 在2021年2 月推出了(Contrastive Language-Image Pre-Training,CLIP)多模態預訓練模型。CLIP 能夠同時理解圖像和自然語言,使模型能夠更好地理解和生成與語言相關的圖像內容[6]。最近,擴散模型(DiffusionModel)開始逐漸替代傳統的GAN 模型,這種新模型在生成高度逼真圖像方面取得了顯著的進展,但應用的重點是生成真實照片或插畫,少有針對傳統紋樣的研究[7]。針對上述問題,為了聯珠團窠紋的傳承與創新,彌補AIGC 在傳統紋樣生成方面的空缺,研究應用擴散模型生成聯珠團窠紋的方法,通過重構擴散模型的交叉注意力(cross attention)模塊解決了擴散模型無法生成“聯珠團窠紋”的問題,使模型能夠根據使用者的輸入文本生成多樣化的聯珠團窠紋,用以輔助設計過程。
一、聯珠團窠紋的藝術特征
“聯珠團窠紋”指在圓形單位紋周圍飾一圈圓珠,中心內置主題圖案的紋樣,其中“團”表示紋樣的整體樣貌為近圓形;“窠”指在連綴形成的紋樣中,一個封閉且獨立的單元,界定了紋樣的范圍[8]。
(一)聯珠團窠紋的豐富題材:根據中心主題圖案的不同,可以將聯珠團窠紋分為植物題材和動物題材。唐代以前,植物紋樣多被用作輔紋,盛唐時期,由于紡織技術的提高,花卉紋樣的地位顯著提高,是開放繁榮的一種象征[9]。植物題材以花卉為主,常用的花卉題材有牡丹、蓮花、菊花等,并在此基礎上融合發展為寶花,由簡單的幾何抽象圖形組成具有形式美的花卉或枝葉紋樣[10]。圖1 是聯珠團花紋錦圖案。
動物題材種類豐富,其中少數圖案中含有人物。波斯的動物紋樣以走獸為主,有翼馬、野豬、獅子、象等具有西域特色的動物,分別對應著不同的祆教寓意,隨著聯珠團窠紋的傳入和本土化,也出現了祥龍、鳳凰等具有中國傳統文化特色的動物。圖2 是飛馬馴虎聯珠紋錦,翼馬是太陽神密特拉和契約之神的化身,在古代波斯語中象征著和平與友誼[11]。
(二)聯珠團窠紋的均衡結構:聯珠團窠紋的構成具有鮮明特點,外層是由一串圓珠組成的聯珠圓環,內部填充圖案,具有形式美和對稱美。有時團窠的四角上配有賓花,二者鑲嵌交織,使織錦的整體效果更加豐富[12]。
構成聯珠圓環的圓珠通常為20 顆左右,不同紋樣的疏密略有差別。南北朝時期的聯珠團窠紋外圍為單層,隨著時代發展和文化融合,形式逐漸豐富,形成了復合聯珠圓環,組成圓環的單體也演變出空心和回字等多種形式[13]。
中心圖案不僅題材多樣,其布局從原來的單個圖案,演變出了對稱式和中心對稱式的布局,以對稱的動物為中心圖案的聯珠團窠紋又被稱之為陵陽公樣[13]。這是因為在我國的傳統文化和認知中,對稱的構圖方式有成雙成對的美意,陵陽公樣不僅象征著和諧、美滿,也是權力的代表。圖3 是對稱式的陵陽公樣布局,圖4 是中心對稱式的布局。
(三)聯珠團窠紋的典雅色彩:作為聯珠團窠紋最常見的載體,織錦的色彩也最為多樣化,尤其到了隋唐時期,染織技術不斷完善,圖案逐漸復雜的同時,色彩也趨于華麗。織錦底色大多為黃棕色,用黑色、藍色和綠色等較深的對比色呈現中心圖案,也有紅棕色與黃色的同色系暖色調搭配,二者均呈現出典雅大方和富麗堂皇的美感[14]。
二、模型構建
(一)Diffusion 模型:Diffusion 模型是一種生成模型,其中最具代表性的是Ramesh等人在2021年提出的去噪擴散概率模型(DenoisingDiffusion Probabilistic Models,DDPM)。該模型基于擴散過程,通過迭代應用離散化的擴散方程來模擬概率分布[15]。
1. Stable Diffusion 模型:DDPM 的前向過程,是一個從原始圖片分T 個步驟逐漸加高斯噪聲的過程,具體表示為(1)式,其中每一步t的加噪聲過程表示為(2)式。
(1)式中:q(xt|xt-1)每步加噪聲的高斯函數,q(x1:T|x0)是T步加噪聲的高斯函數組成的馬爾可夫鏈,β1,...βT 是每一步加高斯噪聲時,決定高斯噪聲分布具體形式的參數。
而恢復過程是把已經通過(1)式中q(x1:T|x0)馬爾可夫鏈轉化成包含高斯噪聲的圖片,通過馬爾可夫鏈逐步恢復成加入噪聲前的圖片。恢復過程中每一步的恢復函數也是一個高斯函數,表示為(3)式。
(3)式中:μθ(xt,t)是恢復過程中對應前向過程第t 步加噪聲過程的均值恢復函數,Σθ(xt,t)是恢復過程中對應前向過程第t 步加噪聲過程的方差恢復函數。
損失函數用于評價生成圖片和原圖片的差異程度,Diffusion 模型采用KL散度作為損失函數,衡量了生成圖與原圖兩個分布之間的分布距離,如(4)式。
(4)式中:c(text)是處理被引入的外部信息的模型模塊,s(^σ,c(text),t)代表估計p 分布的方差參數的模型。
s(^σ,c(text),t)采用U-Net 建模,其整體參數隨著訓練不斷被優化[16]。為了在模型的訓練中引入外部信息,例如prompt 文本向量,Stable Diffusion 模型在U-Net 的每一層添加一個cross attention 模塊來處理這些信息。
2.Custom Diffusion 模型:Custom Diffusion 模型是在StableDiffusion 模型的基礎上,針對需要把多種新概念融入模型的情況,提出的一種新訓練方式,即訓練時凍結模型除cross attention 模塊外的所有參數。訓練結束后為了防止該模型的原有生成能力產生災難性遺忘,Custom Diffusion 模型把新得到的cross attention 參數與Stable Diffusion 模型的cross attention 參數融合。這樣在保持StableDiffusion 強大生成能力的同時還幫助模型學習到新概念的圖像特征[17]。
3. 重構擴散模型:聯珠團窠紋結構特征的可描繪性為應用擴散模型提供了可能性。在自定義文本prompt 描繪紋樣時,基于圖形結構和色彩等藝術特征,采用“一個中心為(顏色)(圖案)的圓,被一層(顏色)的更小的圓包圍”的結構。在針對聯珠團窠紋進行擴散模型訓練時,重新構建(4)式中c(text)函數部分的模型結構,如圖5。
該模塊采用了多次跳躍連接來幫助模型在少量數據的訓練場景中充分學習到新概念的語義信息,減緩了由于神經網絡層數過多和訓練數據過少引起的梯度消失現象;同時,采用層歸一化代替批歸一化模塊來幫助模型更好地學習通道上的深層語義分布;最后的線性層為標準的全連接層,幫助把Transformer 模塊學習到的深層語義信息處理成和輸入圖像向量同樣的向量信息。
(二)評價指標
1. 客觀評價指標: 結構相似度(Structural Similarity Index,SSIM)是衡量兩幅圖像之間相似度的指標,用于比較圖像之間的結構相似性。通過將亮度、對比度和結構3 個方面的相似性指標綜合考慮,得出一個結構相似性評分[18]。評分取值范圍在-1 到1 之間,SSIM 越低,表示兩幅圖像差異性越大;SSIM 越高則越相似。在針對紋樣再生設計的研究中SSIM 可用作客觀參考指標,判定生成紋樣與標準紋樣的相似度。
2. 主觀評價指標:由于SSIM 僅能作為客觀定量評價指標,如果要調查生成的紋樣能否輔助設計過程,需要主觀定性評價對生成紋樣的效果打分。將生成紋樣以問卷形式發放,招募設計從業人員和學生參與調查,打亂順序讓參與者打分。其中分數設置為0 ~ 5 分,分別對應很差、差、一般、良好和優秀。分數越高則表明參與者對生成效果越滿意。
(三)聯珠團窠紋再生方法
1. 訓練模型:在準備擴散模型的訓練數據時,僅需收集和制作少量“聯珠團窠紋”的圖片,每張圖片匹配文本prompt。圖文數據集分為正則化集合和自定義集合兩部分輸入模型生成紋樣,正則化集合中的圖片帶有實體對象并有其他元素作為背景,自定義集合中的圖片僅有實體對象。
2. 篩選紋樣:得到輸出紋樣后,用高斯函數確定SSIM 的上下閾值來決定哪些紋樣可以用于下一輪的訓練,其中上閾值為本輪生成圖的SSIM 得分均值加上SSIM 的標準差,下閾值為SSIM 得分均值減去SSIM的標準差。低于下閾值的紋樣不參加下一輪訓練;高于上閾值的可視為標準紋樣,被使用者直接采用;SSIM 在二者之間的視為待定紋樣。
3. 擴充再生:將高于下閾值的具有繼續學習價值的紋樣利用Discord 頻道的Mid journey 中的MJ version5.1 模型優化并擴充數據集,進入下一輪訓練的正則化集合供模型學習。聯珠團窠紋再生設計方法如圖6。
三、聯珠團窠紋再生設計
(一)數據準備:由于聯珠團窠紋錦的年代久遠,褪色氧化和殘缺現象嚴重,相關復原圖數量較少,無法滿足模型訓練的需求并適應現代化設計的需要。因此在紋樣數據集的準備階段,采取了拼合聯珠圓環和中心圖案的方式,保證訓練數據集的多樣性。
1. 聯珠圓環:為了使模型生成的圖片色彩更加具有中國傳統韻味,挑選了20 組和諧典雅的中國傳統配色[19]。根據相鄰聯珠的間隔角度設置密、較密、較疏、疏4 種不同密度排布的聯珠圓環骨架,對應的間隔角度分別為18°、20°、24° 和30°。將這些色彩用在聯珠圓環上,制作了不同疏密程度的聯珠圓環。
2. 中心圖案:根據聯珠團窠紋的藝術特征和聯珠圓環的中國傳統配色方案,挑選了50 張單獨的團花圖案和50 張單獨的馬的圖案。團花因其幾何構成規律呈現出對稱或中心對稱的布局。馬的形態特征較為清晰,有半身的馬頭也有動作和姿勢豐富的全身圖,馬身和背景含有裝飾性元素。
3. 標準紋樣:原始的聯珠團窠紋清晰復原圖較少,在前期聯珠圓環和中心圖案的準備基礎上,將中心圖案與能夠與之色彩匹配的聯珠圓環進行排列組合,合成符合現代審美的標準聯珠團窠紋。
(二)實驗設置:訓練模型采用的設備是兩張32GB 顯存的V100顯卡,總計顯存需要64GB。模型參數設置圖像大小為64×64,學習率為3×10-5,圖像通道數為4,擴散模型推理時間步為1000,模型中間層隱變量維度為320,transformer block 模塊數量為2。實驗對象為中心圖案分別是動物題材的馬和植物題材的團花,每個對象設置5 個不同色彩中心圖案和聯珠圓環搭配的文本prompt,用于檢驗模型生成效果。由于實驗設備的限制,每個文本prompt 每次輸出的圖片數量為6 張,因此每輪實驗共可生成30 張新的紋樣,訓練3 輪來驗證是否起到了再生多樣化聯珠團窠紋的效果。
(三)訓練結果:將準備好的數據集輸入模型進行第一輪訓練,讓模型初步學習到“聯珠團窠紋”在圖像上的語義表示。第一輪生成的紋樣經過SSIM 篩選后,把高于下閾值的具有繼續學習價值的紋樣單獨輸入MJ version5.1 模型,模型無法矯正的內容則人為修改,如圖7,經過MJ version5.1 模型處理后,可以得到原始生成圖4 倍數量的擴充圖,提高了圖片質量的同時,也起到了提高數據集擴充效率的作用。
最后將生成圖和擴充圖加入之前的數據集進行第二輪訓練和推理,之后每輪的生成圖都重復上述操作,使數據集中不同聯珠團窠紋的數量不斷增加,表1 是聯珠團花紋在三輪實驗中的生成圖,表2 是聯珠馬紋的實驗生成圖。
四、評價結果與設計評估
(一)評價結果
1. 客觀評價結果:在實驗過程中,為了降低結構相似性測算的偶然性誤差,每一輪生成的每張紋樣都與三張標準紋樣分別比對結構相似性,取平均值作為此紋樣的SSIM。每一輪生成的30 張紋樣的SSIM 平均值和均方差以及由此得到的上閾值和下閾值如表3 和表4。
2. 主觀評價結果:兩種紋樣分別從每輪生成的紋樣中挑選3 幅紋樣,共計9 幅紋樣,邀請參與者根據聯珠團窠紋的藝術特征、個人審美偏好和紋樣輔助設計生產的價值對問卷中生成的聯珠團窠紋進行打分,共收集到30 份有效問卷,其中設計專業學生13 人,設計從業者17 人。取每輪分數的平均值進行比較,如圖8。
(二)設計評估
1. 保證結構特征的穩定性:從客觀評價結果上看,SSIM 的平均值和上下閾值保持理想數值的同時也較為穩定。從主觀評價結果上看,第一輪兩種紋樣的平均分均為3.63,已達到良好以上的效果,且隨著訓練輪數的增加得分逐輪穩定升高,第三輪的平均分已經達到優秀的標準。基于以上數據,結合生成圖的效果可以看出生成紋樣與標準紋樣有一定的結構相似性,模型基本掌握了聯珠團窠紋的結構特征。
2. 提高生成紋樣的多樣性:每輪生成的紋樣都經過MJ version5.1模型美化后用來擴充數據集,為下一輪生成提供了更廣泛的變化依據,保證模型能夠持續產出多樣性的聯珠團窠紋。客觀評價結果顯示,SSIM的平均值整體呈小幅度降低趨勢,方差隨著輪數的增加有變大的趨勢,聯珠團窠紋的多樣性得到一定程度的提升。
3. 改善模型對單一線性關系的學習:擴散模型是一種建立在概率分布函數基礎上的生成模型,由于聯珠團花紋由簡單幾何圖形構成,較為程式化和抽象化,存在豐富的數學線性關系,容易被模型大量學習到,從而受到聯珠的影響較大。第一輪生成的紋樣整體呈現出以圓圈構成花朵的效果,其他細節較少。因此需要經過模型美化和人工調整,減少紋樣中簡單數學線性關系再用于下一輪的訓練。由生成效果可以看出,后兩輪的聯珠團花紋構成更復雜,層次感隨著訓練輪數的增加有所提升。
4. 校準模型對實體真實性的學習:擴散模型對于常見事物有大量的訓練基礎,“馬”就是模型可以識別且經過大量訓練的,生成的完整度高且效果好,但聯珠圓環與之匹配仍需在下一輪訓練中將生成紋樣出現的錯誤進行矯正,逐漸校準模型對實體真實性的學習。首輪輸出的聯珠馬紋存在僅有聯珠圓環或僅有馬的現象,某些紋樣的中心圖案里摻雜了許多學習聯珠造成的圓圈,隨著數據集中標準紋樣的比重逐步提高,模型對聯珠圓環與中心圖案的色彩、位置關系有了更清晰的理解,成功學習到數據集中準備的不同馬的姿態和色彩,并能夠進行更多姿態的變化和創新,生成效果逐輪提升,達到可以直接應用的水平。
結論
為了解決傳統紋樣設計方法制作聯珠團窠紋耗時耗力的問題,提出運用AIGC 領域的擴散模型再生聯珠團窠紋的方法。聯珠團窠紋由外部的聯珠圓環和內部的中心圖案組成,色彩典雅大方,結構具有對稱均衡的特點。分別選擇動物題材中的聯珠馬紋和植物題材中的聯珠團花紋準備數據集進行實驗驗證。重新設計了擴散模型的cross attention 模塊,并且融合訓練前后該模塊的參數幫助模型用少量數據學習到新的概念。通過三輪訓練來驗證模型生成聯珠團窠紋的能力,在訓練優化的過程中應用SSIM 進行了優質紋樣篩選并利用MJ version5.1 模型不斷擴充數據集。
評價結果顯示隨著實驗的進行,主觀評價得分呈上升趨勢且均分在良好效果以上,客觀評價結果證明重構的聯珠團窠紋再生模型能夠在保持聯珠團窠紋基本結構的基礎上做多樣性創新。生成的紋樣可以在設計過程中為設計師提供靈感來源,輔助設計生產,應用于服裝與家居設計、數字藝術創作和傳承傳統文化等諸多領域。
在利用擴散模型進行紋樣再生設計領域仍然存在廣泛的研究機會和發展前景,未來的研究可以考慮開發具有用戶參與性的系統,允許用戶與AI 模型互動并定制生成紋樣。這將為用戶提供更多創意的自由,推動個性化紋樣的創作,為設計領域提供更多的工具和資源,同時需要平衡技術創新與倫理、文化等方面的考慮,以確保紋樣設計的可持續和有益發展。
參考文獻
[1]李雨來,李玉芳.中國傳統織繡實物考[M].北京:中國紡織出版社,2022:49-63.
[2]劉元風,趙聲良.敦煌服飾文化圖典初唐卷[M].北京:中國紡織出版社,2022:4-11.
[3]劉悅,胡潔,王伶羽等.基于形狀文法的敦煌藻井紋樣創新設計研究[J].設計,2023,36(10):14-17.
[4]邱雪琳,孫迎,劉正,等.基于色彩優化的云錦局部風格遷移[J].絲綢,2022,59(12):64-70.
[5]LEDIG C,THEIS L,HUSZAR F,et al. Photo-Realistic Single Image Super-Resolution Using a"Generative Adversarial Network.In:Computer Vision and Pattern Recognition[C].2017(1):105-114.
[6]RADFORD A,KIM JW,HALLACY C,et al. Learning Transferable Visual Models From Natura"Language Supervision.In:International Conference on Machine Learning[C].2021,139:8748-8763.
[7]DHARIWAL P,NICHOL A. Diffusion Models Beat GANs on Image Synthesis.In:Conference on"Neural Information Processing Systems[C].2021:8780-8794.
[8]中國文物學會專家委員會.中國文物大辭典下[M].北京:中央編譯出版社,2008:921.
[9]杭間.中國工藝美學史第3版[M].北京:人民美術出版社,2018:145-147.
[10]馬建棟.探究敦煌莫高窟唐代藻井團花紋在當代語境下的傳承與創新[J].設計,2022,35(11):46-49.
[11]趙豐,齊東方. 錦上胡風:絲綢之路紡織品上的西方影響4-8世紀[M]. 上海:上海古籍出版社,2011:18-20.
[12]王曉,初曉玲,孫素葉.唐朝聯珠紋的藝術特征分析及設計創新[J].服裝設計師,2022(07):134-144.
[13]劉春曉,單筱秋,張毅.絲綢之路打通前后陵陽公樣圖像形式的演變[J].絲綢,2019,56(08):93-98.
[14]趙豐.中國絲綢通史[M].蘇州:蘇州大學出版社,2005:238-246.
[15]HO J,JAIN A,ABBEEL P. Denoising Diffusion Probabilistic Models.In:Conference on Neural"Information Processing Systems[C].2020,33:6840-6851.
[16]ROMBACH R,BLATTMANN A,LORENZ D,et al. High-Resolution Image Synthesis with Latent"Diffusion Models.In:Computer Vision and Pattern Recognition[C].2022(1):10674-10685.
[17]KUMARI N,ZHANG BL,ZHANG R,et al. Multi-Concept Customization of Text-to-Image"Diffusion[J],Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition"CVPR),2022:1931-1941.
[18]蔣剛毅,黃大江,王旭等.圖像質量評價方法研究進展[J].電子與信息學報,2010,32(01):219-226.
[19]郭浩,李健明.中國傳統色:故宮里的色彩美學[M].北京:中信出版集團,2020:264-279.