999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從特征辨識(shí)到圖像生成:基于AIGC范式的苗族服飾設(shè)計(jì)

2024-03-07 08:06:30鵬,
絲綢 2024年3期
關(guān)鍵詞:特征內(nèi)容模型

于 鵬, 張 毅

(江南大學(xué) 設(shè)計(jì)學(xué)院,江蘇 無(wú)錫 214122)

科技的發(fā)展推動(dòng)設(shè)計(jì)的進(jìn)步,設(shè)計(jì)的進(jìn)步為市場(chǎng)帶來(lái)新的生機(jī)活力。苗族以其豐富的文化資源在文旅融合、深度發(fā)展的浪潮中迎來(lái)新機(jī)遇,但同質(zhì)化的產(chǎn)品使得苗族服飾在市場(chǎng)銷(xiāo)售中難以取得更大的發(fā)展[1]。紡織品的工業(yè)化將當(dāng)?shù)厝藦姆敝氐目棽贾埔禄顒?dòng)中解放出來(lái)的同時(shí),傳統(tǒng)苗族服飾的重要性逐漸消解。鄉(xiāng)村大部分青壯年選擇離開(kāi)家鄉(xiāng)外出務(wù)工[2],制作者和使用者的缺失,使苗族服飾文化資源流失嚴(yán)重[3]。苗服并非沒(méi)有受眾,當(dāng)?shù)啬贻p人沒(méi)有拒絕本民族文化,更不會(huì)排斥具有苗族元素的現(xiàn)代化服裝,游客也需要多樣化的民族服飾。然而普通設(shè)計(jì)師不能完全理解苗族文化的深邃,非物質(zhì)文化遺產(chǎn)的傳承人難以兼顧成衣設(shè)計(jì)的商業(yè)性,如何將苗族傳統(tǒng)服飾的特征遷移至現(xiàn)代服飾中成為值得思考的問(wèn)題。近年來(lái)人工智能在圖像生成技術(shù)中的發(fā)展似乎為解決這一問(wèn)題提供了新思路。

隨著人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)的發(fā)展,如對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型(Contrastive Language-Image Pre-Training,CLIP)、擴(kuò)散模型(Diffusion Models,DM)等多類(lèi)優(yōu)秀的圖像生成模型陸續(xù)問(wèn)世,它們根據(jù)訓(xùn)練邏輯的不同在文本-圖片生成領(lǐng)域各有優(yōu)勢(shì)。文本生成圖像預(yù)訓(xùn)練模型是一種在大規(guī)模圖像和語(yǔ)言數(shù)據(jù)集上進(jìn)行自我監(jiān)督訓(xùn)練的技術(shù),僅通過(guò)自然語(yǔ)言即可產(chǎn)出理想效果的內(nèi)容[4]。穩(wěn)定擴(kuò)散(Stable Diffusion,SD)是擴(kuò)散模型在圖像繪制和類(lèi)條件圖像合成方面取得的新成果,并在無(wú)條件圖像生成、文本到圖像合成等任務(wù)上具有競(jìng)爭(zhēng)力,同時(shí)顯著降低了計(jì)算需求[5]。擴(kuò)散模型在生成結(jié)果的多樣性上有著先天的優(yōu)勢(shì),能為設(shè)計(jì)提供靈感素材,而大型模型難以顧及單一領(lǐng)域特別是傳統(tǒng)文化的深度。龐大的訓(xùn)練集使大型模型無(wú)法靈活應(yīng)用于垂直領(lǐng)域內(nèi)容,因此Hu等[6]提出了大語(yǔ)言模型的低秩適應(yīng)方法(Low-Rank Adaptation of Large Language Models,Lora)的概念。將之引入圖像生成模型中,旨在通過(guò)少量素材為生成內(nèi)容添加特征。Zhang等[7]提出的精細(xì)控制方法“控制網(wǎng)(Control Net)”,將之運(yùn)用至圖像生成工作中,完成對(duì)畫(huà)面施加進(jìn)一步控制。

基于以上研究,本文通過(guò)對(duì)苗族服飾的特征與內(nèi)涵的分析,提取辨識(shí)元素并加以訓(xùn)練,以文本生成圖像的方式,將苗族傳統(tǒng)服飾特征遷移至現(xiàn)代服飾中,實(shí)現(xiàn)輔助苗族服飾成衣化設(shè)計(jì)的目的。

1 苗族服飾的可辨識(shí)特征分析

受感知壓縮模型(Perceptual Compression Model,PCM)原理的啟發(fā),本文提取苗族服飾中人類(lèi)感知系統(tǒng)容易分辨的元素,以此組建訓(xùn)練集內(nèi)容。服飾之間的不同是可辨識(shí)的,這種可辨識(shí)的特征來(lái)自款式、配飾、紋樣等元素。在模型訓(xùn)練中,服飾的辨識(shí)度影響生成內(nèi)容中服飾的特征表達(dá),在樣本有限的前提下,圖像需要選用最具辨識(shí)性的元素。本文以苗族服飾為例,從款式、配飾、紋樣與配色等角度分析其可辨識(shí)特征。

1.1 款 式

目前苗族尚無(wú)存在文字的證據(jù)[8],服飾在漫長(zhǎng)的歲月中承擔(dān)起傳遞歷史信息的作用。服裝既是辨別民族的憑據(jù),也是區(qū)分族寨的手段,傳統(tǒng)苗服最重要的社會(huì)功用是標(biāo)識(shí)統(tǒng)一婚戀集團(tuán),被稱(chēng)為“不同服不通婚”[9]。為了實(shí)現(xiàn)標(biāo)識(shí)類(lèi)別的功用,每種款式的苗族服飾都有獨(dú)特之處。苗族服飾種類(lèi)豐富,不僅村寨之間款式不同,同村寨、同款式之間也有區(qū)別。服飾承擔(dān)著區(qū)分婚姻集團(tuán)的社會(huì)功用,必須有一定的共性,但手工制作使每件服裝具備獨(dú)特之處。本文以表1中四款苗族服飾為例進(jìn)行對(duì)比,款式都應(yīng)用了交領(lǐng)的構(gòu)造,并且在領(lǐng)、肩、襟、袖均有裝飾,區(qū)別在于裝飾的樣式和工藝;袖部結(jié)構(gòu)主要區(qū)別在袖口位置、大小與裝飾品;門(mén)襟構(gòu)造亦類(lèi)似,兩襟胸前交叉,“交下式”結(jié)構(gòu)略有不同,在交叉處另系一挑花圍腰,上有彩珠下垂流蘇更顯俏皮;下裝多為深色百褶裙,只在長(zhǎng)短、裝飾與褶量中有所區(qū)別,“交下式”的百褶裙長(zhǎng)不過(guò)膝,在中國(guó)傳統(tǒng)服飾中是極為大膽的款式[10]144。苗族服飾中,共性占主要地位,但服飾之間又是多樣的,其個(gè)性主要體現(xiàn)在裝飾方式與位置的不同。漫長(zhǎng)的文化交流中,各村寨的苗族同胞相互吸取彼此優(yōu)秀的服裝元素,以至于款式逐漸接近。就苗服系統(tǒng)而言,不論是“交領(lǐng)”或是“闊袖”,這樣的形制對(duì)于苗服都不是必然的,具備“圓領(lǐng)”“窄袖”等特征的苗服也大量存在;對(duì)于中華服飾整體而言,此類(lèi)款式特征也在其他傳統(tǒng)服飾中發(fā)現(xiàn),這是苗族同胞與各民族交流的必然結(jié)果。

款式的辨識(shí)特征需要在苗族服飾的共性中選取,且這樣的特征不影響生成結(jié)果的自由度。將苗族服飾看作一個(gè)整體,其辨識(shí)特征的提取要盡量減少款式個(gè)性特征的干擾,模型的訓(xùn)練需要考慮其泛化性,如“交下式”中的圍腰。盡管此特征具有較高的辨識(shí)性,但也存在沒(méi)有圍腰的款式,如不將此元素剔除,則生成的所有服飾都存在圍腰。將款式的個(gè)性特征保留為辨識(shí)元素,降低了遷移模型的泛化能力。若在設(shè)計(jì)中需要針對(duì)某一款式的個(gè)性特征生成內(nèi)容,如“抬拱式”中的“斗紋布”這類(lèi)復(fù)雜的部分,則需要單獨(dú)建立屬于“抬拱式”的訓(xùn)練集,以此訓(xùn)練專(zhuān)屬于某一款式的遷移模型。

表1 苗服款式對(duì)比Tab.1 Comparison of Miao clothing styles

1.2 配 飾

苗族服飾的裝飾以銀飾為主,銀飾是苗族文化的載體,無(wú)論是盛大集會(huì),還是日常勞作,苗人都習(xí)慣佩戴銀飾[11]。銀制品代表的是鋒利,在苗族人民心中可以驅(qū)魔除惡,銀對(duì)于苗族人民來(lái)說(shuō)是原始精神信仰[12]。銀飾既是以富為美的外化,又是世代傳承從“女兒”到“母親”角色轉(zhuǎn)換的象征[13]。隨著新航路的開(kāi)辟,明朝中期大量白銀流入中國(guó),銀質(zhì)裝飾逐漸出現(xiàn)在苗族服飾中,銀制品不僅受苗族青睞,與苗族鄰近的侗族、彝族、羌族等服飾中均有佩戴銀飾的習(xí)慣。區(qū)別在于銀飾在苗族服飾中的廣泛性,從生命的開(kāi)始銀飾就已經(jīng)成為伴身之物,隨著年齡的增長(zhǎng)銀飾的數(shù)量在女性身上逐漸增加,在節(jié)日盛會(huì)中部分村落的姑娘們戴十余斤銀飾環(huán)佩叮當(dāng),展示審美情操與彰顯家世。如圖1[10]157,168所示,銀飾造型多樣,銀泡所代表的“點(diǎn)”元素、銀鏈所構(gòu)成的“線”元素和銀板所呈現(xiàn)的“面”元素,三種元素經(jīng)過(guò)苗族匠人之手組合成紛繁復(fù)雜的苗族銀飾體系,復(fù)雜精美的銀飾成了外人對(duì)苗族服飾最深刻的印象,可以說(shuō)銀飾是苗族服飾最明顯的可辨識(shí)特征。

圖1 苗族配飾辨識(shí)元素分析Fig.1 Element analysis for identifying Miao accessory components

1.3 紋樣與配色

中式圖案強(qiáng)調(diào)“圖必有意,意必吉祥”,其中“意”是傳統(tǒng)圖案的靈魂。這種特征在苗族服飾圖案中尤為突出,苗族圖案絕大多數(shù)具有特殊含義,如體現(xiàn)益壽延年、婚姻幸福、子嗣延綿及福氣吉祥等文化意蘊(yùn)的蝴蝶紋[14],又如代表了正直勇敢、樂(lè)于奉獻(xiàn)、勤勞善良等精神品質(zhì)的鳥(niǎo)紋等吉祥紋樣[15]。還有極具苗族特色的“龍紋”,當(dāng)?shù)厝藢⑸钪谐R?jiàn)的動(dòng)植物進(jìn)行“龍化”,或?qū)?dòng)植物繪出人臉,或?qū)⒛繕?biāo)四肢藝術(shù)化,或在龍化目標(biāo)身上增加花卉尾巴,這些紋樣是苗族構(gòu)建出來(lái)的精神世界[10]12,是重要的辨識(shí)特征。苗族傳統(tǒng)服飾善于運(yùn)用高純度配色,這種大膽的配色方式與傳統(tǒng)中式服裝樸素溫婉的色彩搭配不同,表現(xiàn)出鮮明的民族特色。苗族傳統(tǒng)繡品在色彩搭配上注重整體平衡,且色彩的深淺搭配巧妙協(xié)調(diào)。苗族紋樣中大量運(yùn)用補(bǔ)色關(guān)系,即使在強(qiáng)調(diào)整體色調(diào)一致性的情況下,也特別注重圖案內(nèi)部元素之間的主次和呼應(yīng)關(guān)系[16]。如圖2[10]150所示,紅綠兩種互補(bǔ)色生動(dòng)地勾勒出飛鳥(niǎo)與花草的形狀,補(bǔ)色的使用是有的放矢的,白色線條中和了兩種沖突的色彩,畫(huà)面豐富跳躍卻不失和諧,獨(dú)特的配色增加了苗族服飾的辨識(shí)度。

圖2 苗族刺繡Fig.2 Miao embroidery

苗族服飾中豐富且獨(dú)具特色的配色體現(xiàn)在苗族服飾的方方面面,訓(xùn)練集中的苗族服飾是苗族色彩的載體,因此在選擇訓(xùn)練集樣本時(shí)不需要做額外處理。然而苗族紋樣中豐富的意象表達(dá),在一定程度上成為遷移模型訓(xùn)練的難點(diǎn):文字的缺失加深了圖案中“意”的表達(dá),準(zhǔn)確表“意”的圖案,有著嚴(yán)格的形制,如“江河紋”的形制是三道橫線,代表的是黃河、長(zhǎng)江、平原[10]11,在生成時(shí)增減一道線條都不符合原本紋樣的含義;對(duì)于少樣本遷移模型的訓(xùn)練,紋樣的辨識(shí)度是不夠的,并非苗族紋樣不獨(dú)特,而是有限的樣本在有限的像素空間中難以提供足夠多的信息以供深度學(xué)習(xí)。因此,需要發(fā)揮傳承人自身的能動(dòng)作用,盡管生成圖案是不符合制式的,但其顏色與位置排布符合一定的美學(xué)特征。傳承人參考生成結(jié)果,對(duì)固有形制的圖案進(jìn)行二次創(chuàng)作,充分發(fā)揮人在非遺產(chǎn)品設(shè)計(jì)中的主導(dǎo)作用,為生成紋樣賦予新的含義。除此之外,還可通過(guò)大量分析苗族紋樣元素搭建苗族紋樣庫(kù),使用StyleGAN模型進(jìn)行大規(guī)模數(shù)據(jù)的訓(xùn)練,這種模型需要大量的圖案數(shù)據(jù),以便學(xué)習(xí)到足夠的圖像特征[17]。

2 輔助苗族服飾設(shè)計(jì)模型架構(gòu)

擴(kuò)散模型的隨機(jī)性使生成內(nèi)容的豐富性與差異性得到了保證?;诜€(wěn)定擴(kuò)散模型的輔助服飾設(shè)計(jì)架構(gòu)分為3個(gè)模塊,流程如圖3所示。首先構(gòu)想方案選定目標(biāo)民族服飾,繪制草稿并列出相應(yīng)提示詞(Prompts)。接著根據(jù)構(gòu)想內(nèi)容進(jìn)入數(shù)據(jù)采集模塊,分析目標(biāo)服飾中可供辨識(shí)的特征,以此為基礎(chǔ)選擇圖像素材進(jìn)行標(biāo)簽(Tag)寫(xiě)入,素材來(lái)源于書(shū)籍或互聯(lián)網(wǎng)中的圖像內(nèi)容。之后進(jìn)入訓(xùn)練模塊,將圖像素材結(jié)合標(biāo)簽訓(xùn)練為具有遷移特征功用的Lora,接著把最初繪制的草稿通過(guò)控制網(wǎng)中具有邊緣檢測(cè)功能的Canny模型進(jìn)行精準(zhǔn)控制,并與Lora共同作用于預(yù)測(cè)模塊,最終產(chǎn)出可供參考的靈感圖。

2.1 基礎(chǔ)模型的構(gòu)筑

潛在擴(kuò)散模型是生成圖像內(nèi)容的基礎(chǔ)模型,其生成內(nèi)容在多樣性方面有著顯著的優(yōu)勢(shì)。Stable Diffusion由路德維?!ゑR克西密利安大學(xué)研究團(tuán)隊(duì)在擴(kuò)散模型上的最新突破,通常擴(kuò)散模型會(huì)引入一個(gè)噪聲參數(shù),將初始的正態(tài)分布隨機(jī)變量逐漸轉(zhuǎn)化為目標(biāo)數(shù)據(jù)分布對(duì)應(yīng)的樣本。通過(guò)一系列的變換操作對(duì)當(dāng)前的隨機(jī)變量更新,這些變換操作會(huì)逐漸去除噪聲并逼近所要學(xué)習(xí)樣本的數(shù)據(jù)分布。Stable Diffusion架構(gòu)如圖4所示,首先通過(guò)訓(xùn)練獲得基于感知壓縮模型的編碼器(E)與解碼器(D),對(duì)輸入像素空間中的內(nèi)容X用編碼器(E)編碼,映射至潛空間(Latent Space)并添加固定長(zhǎng)度為T(mén)的馬爾科夫鏈(Markov Chain)使噪點(diǎn)隨機(jī)正態(tài)分布,再由條件去噪自動(dòng)編碼器(Conditional Denoising Autoencoder)以語(yǔ)義映射、文本和圖像含義為條件,利用交叉注意力機(jī)制獲得適合數(shù)據(jù)輸入到 U-Net 中間層的表示,以實(shí)現(xiàn)降噪的目的,最后通過(guò)解碼器(D)將潛空間中的內(nèi)容還原成像素圖像。感知壓縮模型可以將高頻率但對(duì)人眼不太重要的細(xì)節(jié)信息從數(shù)據(jù)中抽離出來(lái),從而得到一個(gè)低維的潛空間,這大大提高了訓(xùn)練效率[5]。

擴(kuò)散模型的底層邏輯決定了其生成內(nèi)容的隨機(jī)性,同一文本在生成參數(shù)相同的情況下生成內(nèi)容是不同的,因此在使用擴(kuò)散模型生成服裝設(shè)計(jì)參考圖時(shí),往往能得到意想不到的圖像內(nèi)容,在實(shí)際設(shè)計(jì)中具有一定的啟發(fā)性。本文潛在擴(kuò)散模型選擇Stable Diffusion官方推出的模型SD 1.5,其中訓(xùn)練數(shù)據(jù)取自LAION-5B[18],訓(xùn)練集的廣泛性基本滿足常規(guī)服飾內(nèi)容的生成,但面對(duì)下游應(yīng)用特別是傳統(tǒng)文化領(lǐng)域力有不逮,故需要一種對(duì)應(yīng)的解決方法,將傳統(tǒng)服飾特征遷移至生成內(nèi)容中。

圖4 穩(wěn)定擴(kuò)散模型架構(gòu)Fig.4 Model architecture of Stable Diffusion

2.2 遷移模型的構(gòu)筑

大語(yǔ)言模型的下游應(yīng)用通常是通過(guò)微調(diào)(Fine-tune)實(shí)現(xiàn)的[19],潛在擴(kuò)散模型也不例外。在Fine-tune時(shí),擴(kuò)散模型中的數(shù)據(jù)量往往是龐大的,然而微調(diào)只是針對(duì)部分?jǐn)?shù)據(jù)調(diào)整,在應(yīng)對(duì)少量數(shù)據(jù)遷移任務(wù)時(shí),重復(fù)的訓(xùn)練無(wú)疑是浪費(fèi)的,并且大部分個(gè)人電腦無(wú)力負(fù)擔(dān)大模型訓(xùn)練所需的龐大算力,因此出現(xiàn)了Lora訓(xùn)練方式。

2.2.1 低秩方式

低秩方式Lora的引入使Stable Diffusion能夠快速靈活地實(shí)現(xiàn)民族服飾特征的遷移。預(yù)先訓(xùn)練過(guò)的語(yǔ)言模型具有較低的“學(xué)習(xí)維度”,將之隨機(jī)投影到更小的子空間,也可以有效地學(xué)習(xí)[6]。假設(shè)通過(guò)Fine-tune更新模型為h=W0+ΔW,通過(guò)低秩(Low-Rank)的方式約束模型更新為W0x+ΔWx=W0+BAx,其中B屬于原模型矩陣中秩與行的積,A屬于原模型矩陣中秩與列的積,秩的參數(shù)量遠(yuǎn)小于原始模型中需要更新的參數(shù),則h可表示為:

h=W0x+ΔWx=W0x+BAx

(1)

Lora架構(gòu)如圖5所示,通過(guò)這個(gè)方式在訓(xùn)練潛在擴(kuò)散模型訓(xùn)練時(shí),凍結(jié)預(yù)訓(xùn)練(Pretrained Weights)的模型權(quán)重,將需要訓(xùn)練的分解矩陣注入轉(zhuǎn)換模型(Transformer)中,分解矩陣相較于原模型矩陣中的參數(shù)量是極小的。在實(shí)際應(yīng)用中,對(duì)潛在擴(kuò)散模型某一領(lǐng)域特征的調(diào)整僅需要一個(gè)包含十幾張圖像的訓(xùn)練集,極大地降低訓(xùn)練時(shí)間。

圖5 低秩方式架構(gòu)Fig.5 Low-rank adaptation architecture

2.2.2 損失函數(shù)

在生成式模型的設(shè)計(jì)中,損失函數(shù)通過(guò)評(píng)價(jià)模型預(yù)測(cè)值(Observed)與觀察值(Predicted)的差異從而優(yōu)化模型,通常潛在擴(kuò)散模型適用于交叉熵?fù)p失函數(shù)(Cross-entropy)。因?yàn)檫\(yùn)用對(duì)數(shù)運(yùn)算差異值,從而避免了指數(shù)爆炸的問(wèn)題,在數(shù)值上更加穩(wěn)定,并且擅長(zhǎng)應(yīng)對(duì)單一樣本多標(biāo)簽(Tag)的訓(xùn)練。對(duì)于擴(kuò)散模型這樣一張圖像多個(gè)標(biāo)簽的訓(xùn)練樣本,交叉熵函數(shù)是合理選擇,但對(duì)于Lora的訓(xùn)練則不然。Lora訓(xùn)練集中圖像素材相較整個(gè)潛在擴(kuò)散模型少得多,Lora的迭代步數(shù)與原模型相比也少很多,選擇損失函數(shù)需考慮在少量素材的前提下目標(biāo)特征的表現(xiàn)力。Lora的目的是通過(guò)少量數(shù)據(jù)的調(diào)整,使生成結(jié)果呈現(xiàn)明顯的特征,因此在Lora訓(xùn)練時(shí)選擇均方誤差損失函數(shù)(Mean Squared Error, MSE)更適合,其對(duì)預(yù)測(cè)值與觀察值的敏感性使之適用于Lora訓(xùn)練集的訓(xùn)練,公式如下:

通常生成模型的魯棒性與損失函數(shù)值負(fù)相關(guān)。

2.3 控制模型的構(gòu)筑

Stable Diffusion在生成內(nèi)容時(shí)僅依賴(lài)提示詞,難以實(shí)現(xiàn)如姿勢(shì)固定、款式固定等特定需求,因此斯坦福大學(xué)研究團(tuán)隊(duì)提出了名為“控制網(wǎng)”的控制架構(gòu),這是一種端到端神經(jīng)網(wǎng)絡(luò)架構(gòu),控制擴(kuò)散模型學(xué)習(xí)特定任務(wù)的輸入條件??刂凭W(wǎng)架構(gòu)如圖6所示,即將一個(gè)大型擴(kuò)散模型的權(quán)重克隆為一個(gè)“可訓(xùn)練副本”和一個(gè)“鎖定副本”,其中“鎖定副本”不變,“可訓(xùn)練副本”受特定訓(xùn)練集中訓(xùn)練條件控制,二者通過(guò)“零卷積(Zero convolution)”連接;“零卷積”是一種卷積核初始為零的卷積操作,通過(guò)訓(xùn)練逐漸使其收斂至最優(yōu)值并動(dòng)態(tài)調(diào)整其更新權(quán)重,將基于圖像的條件轉(zhuǎn)換為64×64的特征空間,以適應(yīng)卷積操作的大小,并與完整的模型一起進(jìn)行訓(xùn)練[7]。

圖6 控制網(wǎng)架構(gòu)Fig.6 Model architecture of Control Net

控制網(wǎng)通過(guò)條件任務(wù),限定了擴(kuò)散模型圖像的隨機(jī)生成,本文從服裝設(shè)計(jì)角度出發(fā),選擇邊緣檢測(cè)模型Canny,此模型可以檢測(cè)參考圖中物體的邊緣,以此為條件指導(dǎo)圖像生成。在非遺服裝設(shè)計(jì)中,Canny能通過(guò)手繪稿生成成品參考圖,也能通過(guò)成衣圖為其賦予非遺服飾特色。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 模型訓(xùn)練準(zhǔn)備

3.1.1 實(shí)驗(yàn)環(huán)境與訓(xùn)練參數(shù)設(shè)置

本文應(yīng)用于模型訓(xùn)練與圖像生成的實(shí)驗(yàn)環(huán)境為CPU:12th Gen Intel(R) Core(TM) i5-12490F 3.00 GHz,GPU: NVIDIA GeForce RTX 3060 12G,系統(tǒng):Windows 10,編程語(yǔ)言:Python,版本:Python 3.10.8。選擇SD 1.5模型為基本模型,其訓(xùn)練集是基于512×512像素的圖像素材,因此與之匹配的Lora模型訓(xùn)練也應(yīng)使用同等像素的素材,最大訓(xùn)練周期Max Train Epoches=15,每3個(gè)周期保存一次,學(xué)習(xí)率lr=1e-4,訓(xùn)練集圖片數(shù)量15,由于Lora樣本較少故batch size設(shè)置為1。

3.1.2 遷移模型訓(xùn)練集素材整理

Lora訓(xùn)練方法僅需要十幾張圖像素材即可實(shí)現(xiàn)對(duì)大模型生成內(nèi)容的遷移,相對(duì)較小的訓(xùn)練集使其訓(xùn)練與應(yīng)用中快速且靈活,但缺點(diǎn)是信息承載量少,因此對(duì)于辨識(shí)元素的選取需要慎重。根據(jù)Lora訓(xùn)練方法的特性,結(jié)合前文對(duì)苗族服飾辨識(shí)元素的分析,可知銀飾是苗族服飾中最明顯的特征,因此在訓(xùn)練集素材收集時(shí),需重點(diǎn)選用含有銀飾的苗族服飾圖像材料。如圖7[10]149所示,本文苗族服飾圖像選用《中國(guó)苗族服飾圖志》中的傳統(tǒng)苗族服飾,將人物部分通過(guò)Photoshop軟件去除背景以減少不必要的信息干擾,裁剪圖片至512×512像素,并為訓(xùn)練集中圖像素材寫(xiě)入標(biāo)簽。 標(biāo)簽在擴(kuò)散模型中的作用是用來(lái)幫助模型理解圖像的語(yǔ)義,同時(shí)也是生成內(nèi)容時(shí)的觸發(fā)詞,使用Deepbooru提取與圖像相關(guān)聯(lián)的文本標(biāo)簽,并通過(guò)人工方式對(duì)標(biāo)簽調(diào)整[20]。

圖7 傳統(tǒng)苗服Fig.7 Traditional Miao clothing

3.2 實(shí)驗(yàn)變量與結(jié)果分析

除了訓(xùn)練素材,影響Lora模型訓(xùn)練的因素還有標(biāo)簽寫(xiě)入和訓(xùn)練深度。本文通過(guò)控制變量法驗(yàn)證標(biāo)簽寫(xiě)入方法對(duì)生成內(nèi)容的影響,并以此為基礎(chǔ)對(duì)比迭代次數(shù)與訓(xùn)練周期對(duì)生成內(nèi)容的影響。

3.2.1 標(biāo)簽寫(xiě)入方法對(duì)遷移的影響

本文通過(guò)控制變量法對(duì)比標(biāo)簽與生成圖片結(jié)果之間的關(guān)系,根據(jù)標(biāo)簽寫(xiě)入方法不同分為三組:LoraA,為所有圖片添加以“苗族服飾”拼音縮寫(xiě)“MZFS”命名的服飾特征標(biāo)簽,刪除標(biāo)簽包含內(nèi)容,也就是所有包含于苗族服飾中的文本標(biāo)簽,如項(xiàng)鏈、手環(huán)等,以保持添加標(biāo)簽語(yǔ)義的唯一性;LoraB,僅添加服飾特征標(biāo)簽,其他不做修改;LoraC,直接應(yīng)用提取內(nèi)容,作為對(duì)照組。以下為生成內(nèi)容共同提示詞:“masterpiece,ultra detailed, realistic, sharp focus, RAW photo,1girl,full body, model figure,detailed skin texture, detailed hair, long hair style, detailed eyes, big eyes,glistening skin,white and black clothes, complex detailed clothes,blank background,standing?!?/p>

如圖8所示,添加標(biāo)簽 “MZFS”的LoraA、LoraB兩款模型,在使用提示詞 “MZFS”時(shí),生成內(nèi)容中苗族服飾元素明顯,但提示詞內(nèi)容不能完全體現(xiàn)。在不使用提示詞時(shí),能表現(xiàn)出一定的苗族服飾特征,但更好地反映了提示詞中的語(yǔ)義信息。LoraC因?yàn)闆](méi)有添加相應(yīng)標(biāo)簽,所以對(duì)此提示詞無(wú)反應(yīng),生成內(nèi)容依然在保留苗族服飾特征的基礎(chǔ)上,且有效地生成與提示詞語(yǔ)義內(nèi)容相符的結(jié)果。這是因?yàn)榧幢悴惶砑犹卣鳂?biāo)簽,Lora訓(xùn)練集在擴(kuò)散中為“服飾”這一語(yǔ)義提供了新的信息,致使生成內(nèi)容中殘留有苗族服飾特征,不改動(dòng)標(biāo)簽的方法對(duì)復(fù)現(xiàn)訓(xùn)練集內(nèi)容是不利的,但因其能有效反應(yīng)提示詞信息,在啟發(fā)苗族服飾成衣設(shè)計(jì)方面是有優(yōu)勢(shì)的。對(duì)照表明,在訓(xùn)練Lora時(shí)是否保留標(biāo)簽語(yǔ)義的唯一性,對(duì)生成內(nèi)容無(wú)明顯影響,添加統(tǒng)一標(biāo)簽會(huì)提高生成內(nèi)容中苗族服飾的特征,但相應(yīng)地會(huì)降低模型的靈活性。為了保證特征遷移的同時(shí)生成結(jié)果的靈活性,本實(shí)驗(yàn)對(duì)標(biāo)簽不做改動(dòng)。

圖8 標(biāo)簽寫(xiě)入方法對(duì)比Fig.8 Comparison of tag writing methods

3.2.2 圖像迭代與訓(xùn)練周期對(duì)遷移的影響

訓(xùn)練集圖像的迭代(Iteration)可以提高模型對(duì)特定樣本敏感性,通常情況下迭代次數(shù)越多訓(xùn)練周期越長(zhǎng),損失函數(shù)值越小模型魯棒性越好。但對(duì)于應(yīng)用了均方差損失函數(shù)的Lora模型來(lái)說(shuō)并非如此。如圖9所示,對(duì)于訓(xùn)練集Iteration=20的Lora模型,其生成結(jié)果隨著訓(xùn)練周期的遞增,苗族服飾特征逐漸增加;在Epoches=3時(shí)畫(huà)面主要反映提示詞的語(yǔ)義信息,而苗族服飾特征不明顯,但隨著訓(xùn)練周期的深入苗族服飾的特征逐漸增多;在Epoches=15時(shí),生成服飾以苗族服飾特征為主。隨著迭代次數(shù)的增加,至Iteration=40時(shí)模型對(duì)提示詞的反饋能力逐漸不足,除了Epoches=3時(shí)能反映提示詞語(yǔ)義,其他生成周期均無(wú)法獲得有效生成內(nèi)容。最后當(dāng)Iteration=60時(shí)模型的泛化能力失效,在高周期的生成內(nèi)容中出現(xiàn)了訓(xùn)練集圖像的復(fù)現(xiàn),延長(zhǎng)訓(xùn)練周期反而不利于Lora模型的訓(xùn)練。

圖9 迭代與周期數(shù)量生成內(nèi)容對(duì)比Fig.9 Comparison of content generation between iteration and epoches

從各階段損失函數(shù)值分析也能得出相似的結(jié)論,在表2中隨著模型的迭代,損失函數(shù)逐漸收斂,降低的數(shù)值沒(méi)有帶來(lái)更好的遷移效果,過(guò)低的損失函數(shù)表現(xiàn)為訓(xùn)練集內(nèi)容出現(xiàn)在生成圖像中,模型呈現(xiàn)泛化能力不足的缺點(diǎn),降低迭代步數(shù)與訓(xùn)練周期能避免這一問(wèn)題。從以上對(duì)比實(shí)驗(yàn)可以看出,在圖像數(shù)量為15的訓(xùn)練集中,每張圖像素材迭代20次,訓(xùn)練周期在6~12,最能體現(xiàn)苗族服飾特征且能有效表現(xiàn)提示詞內(nèi)容。

表2 迭代次數(shù)與損失函數(shù)對(duì)比Tab.2 Comparison of iteration count and loss function

3.3 模型靈活性與造型控制

3.3.1 遷移模型靈活性分析

服飾類(lèi)Lora的靈活性表現(xiàn)為應(yīng)對(duì)不同的服飾類(lèi)提示詞時(shí),在準(zhǔn)確反映提示詞內(nèi)容的基礎(chǔ)上實(shí)現(xiàn)服飾風(fēng)格遷移。如圖10所示,本文方法訓(xùn)練的Lora模型,在基本提示詞不變的前提下,僅更換服裝品類(lèi)詞語(yǔ),可實(shí)現(xiàn)對(duì)多種成衣品類(lèi)內(nèi)容的生成,并且不同批次生成內(nèi)容是多樣的。以關(guān)鍵詞為“毛衣”的生成內(nèi)容為例,苗族服飾圖案元素以類(lèi)似費(fèi)爾島紋樣的方式表現(xiàn)出來(lái),銀飾則是表現(xiàn)為類(lèi)似拉夫領(lǐng)的領(lǐng)部結(jié)構(gòu),這種形式的組合沒(méi)有額外的指令干預(yù),僅通過(guò)Lora對(duì)基礎(chǔ)模型SD 1.5的修改實(shí)現(xiàn)的。

圖10 不同提示詞生成內(nèi)容比較Fig.10 Comparison of content generation using different prompts

3.3.2 造型控制

控制網(wǎng)中的Canny模型可以有效檢測(cè)輸入圖像中的“線”,包括服飾中的輪廓線、結(jié)構(gòu)線、分割線等,以此為條件控制內(nèi)容的生成。如圖11所示,本文以四款傳統(tǒng)苗族服飾款式圖為例,在高權(quán)重下,款式圖對(duì)生成結(jié)果有較強(qiáng)的控制效果,圖像中服裝形制接近傳統(tǒng)苗族服飾。隨著控制模型權(quán)重逐漸下降,擴(kuò)散模型的特點(diǎn)逐漸凸顯,生成內(nèi)容不再完全受限于款式圖的形制,在保留一定款式圖形制的基礎(chǔ)上開(kāi)始發(fā)散。對(duì)于傳承人而言,在高權(quán)重控制下僅需繪制線稿或草稿,即可模擬成衣效果;降低控制權(quán)重可以為傳承人提供多樣化的設(shè)計(jì)靈感。

圖11 苗服款式圖在不同控制權(quán)重下生成效果對(duì)比Fig.11 Comparison of generated effects of Miao clothing images under different control weights

4 結(jié) 論

本文通過(guò)對(duì)苗族服飾中辨識(shí)元素的分析,選擇最具辨識(shí)性的特征,以此為條件篩選具備相應(yīng)特征的苗族服飾圖像,組成訓(xùn)練集并將之訓(xùn)練為遷移模型。在Stable Diffusion中應(yīng)用此模型可實(shí)現(xiàn)生成服飾內(nèi)容包含苗族服飾特征,此模型對(duì)于降低訓(xùn)練集圖像素材需求量、迭代步數(shù)和訓(xùn)練時(shí)長(zhǎng)等方面有一定的優(yōu)勢(shì),且模型的靈活性得到驗(yàn)證,在不同種類(lèi)服飾的生成結(jié)果中均有效果,對(duì)豐富苗族非遺服飾的成衣化設(shè)計(jì)有一定輔助作用。此方法同樣適用于輔助其他非遺服飾的成衣化設(shè)計(jì)。

猜你喜歡
特征內(nèi)容模型
一半模型
內(nèi)容回顧溫故知新
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 天天躁夜夜躁狠狠躁躁88| 亚洲午夜福利精品无码| 久久99国产精品成人欧美| 97视频精品全国免费观看| 国产毛片基地| 亚洲第一黄色网| 色香蕉网站| 国产精品三级av及在线观看| 国产精品一区二区无码免费看片| 亚洲欧美日韩色图| 在线国产综合一区二区三区| 久久综合九九亚洲一区| 亚洲欧洲日产国产无码AV| 欧美一区二区人人喊爽| 日韩午夜福利在线观看| 日本道综合一本久久久88| 萌白酱国产一区二区| 欧美a在线看| 九九久久精品国产av片囯产区| 99re视频在线| 天天躁狠狠躁| 色网站在线视频| 国产成人亚洲日韩欧美电影| 中文毛片无遮挡播放免费| 国产精品va| 欧美精品高清| 天天综合亚洲| 呦视频在线一区二区三区| 亚洲欧美人成电影在线观看| 99视频在线免费| 国产精品一区在线麻豆| 尤物特级无码毛片免费| www.99在线观看| 91网红精品在线观看| 亚洲国产天堂久久综合| 国产高清精品在线91| 动漫精品中文字幕无码| 午夜国产精品视频| 久久男人视频| 女人18毛片久久| 亚洲国产天堂久久综合226114| 欧美日韩在线国产| 国产国产人在线成免费视频狼人色| 精品一区二区无码av| 国产手机在线观看| 亚洲av无码片一区二区三区| 91极品美女高潮叫床在线观看| 日本中文字幕久久网站| 亚洲成人免费看| 国产在线视频自拍| 国产精品大白天新婚身材| 国产精品欧美亚洲韩国日本不卡| 97se亚洲| 亚洲欧美综合另类图片小说区| 97国产精品视频人人做人人爱| 午夜福利无码一区二区| 人人91人人澡人人妻人人爽| 无码免费的亚洲视频| 欧洲亚洲一区| www.日韩三级| 人与鲁专区| 一级福利视频| 91探花国产综合在线精品| 性欧美精品xxxx| 无码区日韩专区免费系列| 精品国产成人av免费| 国产色婷婷| 国产在线观看一区二区三区| 国产成人精品2021欧美日韩| 一级毛片基地| 72种姿势欧美久久久大黄蕉| 国产精品视频a| 久久久久亚洲Av片无码观看| 国产精品欧美在线观看| 国产成人AV综合久久| 天天躁夜夜躁狠狠躁躁88| 一级爱做片免费观看久久| 久久青草免费91线频观看不卡| 日本国产在线| 天天综合网在线| 日本高清免费一本在线观看| 另类专区亚洲|