中圖分類號(hào)TP391.41文獻(xiàn)標(biāo)志碼A
0 引言
隨著深度學(xué)習(xí)技術(shù)和自然語(yǔ)言處理技術(shù)的快速發(fā)展,文本生成圖像的任務(wù)需求量以及任務(wù)難度也在不斷增加.所謂的文本生成圖像是指建立圖像空間與文本語(yǔ)義空間的可解釋映射,將低維的文字語(yǔ)義信息轉(zhuǎn)換為高維圖像信息.
傳統(tǒng)的文本生成圖像模型,例如 Zhu 等[1]提出的文字到圖像(text-to-picture)合成系統(tǒng),以及生成對(duì)抗網(wǎng)絡(luò)[2](GenerativeAdver-sarialNetwork,GAN)、自回歸模型[3(AutoRegressive,AR)等,雖然可以有效實(shí)現(xiàn)文本生成圖像,但會(huì)出現(xiàn)模型訓(xùn)練不穩(wěn)定、生成的圖像質(zhì)量不佳等問(wèn)題.新型的擴(kuò)散模型(Diffusion Model,DM)[4-7]是一種高效的生成模型,可以通過(guò)輸入特定的文本提示符來(lái)創(chuàng)建高質(zhì)量的圖像.得益于擴(kuò)散模型的出現(xiàn),生成高質(zhì)量、高貼合度的圖像成為可能.
對(duì)于文本生成圖像任務(wù),現(xiàn)有的先進(jìn)方法雖然取得了令人印象深刻的結(jié)果,然而在不同程度上都存在如下問(wèn)題:1)大部分生成模型在控制圖像的空間組成方面有所欠缺,無(wú)法僅通過(guò)文本提示來(lái)精確表達(dá)復(fù)雜的圖像布局、姿勢(shì)和形狀,生成一個(gè)和主觀意向準(zhǔn)確匹配的圖像通常需要無(wú)數(shù)次的循環(huán)試錯(cuò),極大地增加了操作時(shí)間;2)無(wú)論是傳統(tǒng)的生成模型還是新型的擴(kuò)散模型生成圖像都需要大量的訓(xùn)練,不僅耗費(fèi)巨大算力、浪費(fèi)大量時(shí)間,而且隨著實(shí)際需求的不斷變化,模型訓(xùn)練周期會(huì)變得更長(zhǎng);3)擴(kuò)散模型的主干網(wǎng)絡(luò) U-Net[8] 模型通過(guò)疊加卷積和池化操作來(lái)逐步減少特征圖的大小,模型運(yùn)行效率較低,無(wú)法在訓(xùn)練深度較深的同時(shí)保持較高的準(zhǔn)確率,且模型無(wú)法有效識(shí)別的特征圖中包含有意義的通道信息與位置信息.
為了解決上述問(wèn)題,本文提出一種基于改進(jìn)后擴(kuò)散模型添加條件控制的文本圖像生成方法,通過(guò)提供指定所需圖像組成的附加圖像來(lái)實(shí)現(xiàn)更細(xì)顆粒度的空間控制.針對(duì)主干網(wǎng)絡(luò)存在的問(wèn)題,重新設(shè)計(jì)殘差塊結(jié)構(gòu),解決了模型梯度消失的問(wèn)題,加深了模型表達(dá)能力從而提高模型性能;在噪聲估計(jì)網(wǎng)絡(luò)中添加注意力模塊CBAM,通過(guò)強(qiáng)化特征注意力和空間注意力,讓模型可以更好地關(guān)注圖像的重要區(qū)域以及捕捉到不同通道之間的關(guān)系;同時(shí),結(jié)合條件控制網(wǎng)絡(luò),通過(guò)有效的微調(diào)將空間局部化的輸入條件添加到預(yù)訓(xùn)練的擴(kuò)散模型中,有效地實(shí)現(xiàn)了特定姿勢(shì)生成圖像.
1相關(guān)工作
高質(zhì)量、高貼合度的文本圖像生成是一項(xiàng)具有挑戰(zhàn)性的任務(wù),目前主流的深度學(xué)習(xí)方法基本分為三種:基于生成對(duì)抗網(wǎng)絡(luò)的文本圖像生成;基于自回歸模型的文本圖像生成;基于擴(kuò)散模型的文本圖像生成.
1.1基于生成對(duì)抗網(wǎng)絡(luò)的文本圖像生成
生成對(duì)抗網(wǎng)絡(luò)(GAN)最早在2014年被提出,在文本生成圖像領(lǐng)域具有開(kāi)創(chuàng)性地位,它為這一領(lǐng)域帶來(lái)了重要的技術(shù)突破.為了解決生成對(duì)抗網(wǎng)絡(luò)模型分辨率較低問(wèn)題, Wu 等[9]提出了StackGAN模型,該方法采用雙層嵌套的形式提升模型分辨率.同時(shí),還提出了顏色一致性正則化項(xiàng),可以最小化不同生成器輸出的顏色和結(jié)構(gòu)差異,提升生成圖像質(zhì)量.HfGAN[10]在多個(gè)生成器層次融合的體系結(jié)構(gòu),只用一個(gè)判別器就可以判別真實(shí)度和匹配程度.
AttnGAN[11] 中的注意力機(jī)制允許網(wǎng)絡(luò)在全局句子向量的基礎(chǔ)上,根據(jù)詞來(lái)合成細(xì)節(jié),實(shí)現(xiàn)文本圖像對(duì)齊.Control GAN[12] 可以通過(guò)描述,在不影響其他圖像內(nèi)容的情況下對(duì)紋理等進(jìn)行修改生成.SEG-AN[13] 使用孿生網(wǎng)絡(luò)的思路,訓(xùn)練利用真實(shí)圖像進(jìn)行語(yǔ)義對(duì)齊的連體結(jié)構(gòu).然而,GAN的訓(xùn)練過(guò)程是一個(gè)博弈過(guò)程,這一過(guò)程是不穩(wěn)定的,有時(shí)會(huì)出現(xiàn)訓(xùn)練崩潰或者模式崩潰,造成生成的結(jié)果缺乏多樣性且難以生成特定任務(wù)的目標(biāo)圖像.
1.2基于自回歸模型的文本圖像生成
自回歸模型(AR)起初應(yīng)用于生成數(shù)據(jù),在圖像生成上的應(yīng)用晚于生成對(duì)抗網(wǎng)絡(luò),該模型生成圖像質(zhì)量較高,且和文本較為一致.2021年,OpenAI發(fā)布DALLE- ?E[14] 模型,其生成圖像的質(zhì)量和速度引領(lǐng)全球.百度研究的自回歸雙向生成模型ERNIE-ViLG[15]將注意力層的最后一層的特征向量通過(guò)多層感知機(jī)映射為圖像特征.CogView[16]將文本信息轉(zhuǎn)變?yōu)槲谋咎卣飨蛄浚賹D像輸人到內(nèi)部的圖像解碼器中提取圖像特征向量,拼接后作為輸入,學(xué)習(xí)圖像和文本之間的關(guān)聯(lián).香港大學(xué)和字節(jié)跳動(dòng)研究團(tuán)隊(duì)提出新型圖像生成模型LlamaGen[17],將大型語(yǔ)言模型中的自回歸預(yù)測(cè)范式應(yīng)用到視覺(jué)生成領(lǐng)域,實(shí)現(xiàn)了先進(jìn)的圖像生成性能,
但是,基于自回歸模型的方法在先驗(yàn)學(xué)習(xí)過(guò)程中采用文本特征到離散特征空間的映射,導(dǎo)致難以生成高質(zhì)量圖像,且訓(xùn)練過(guò)程中需要不斷推演巨量參數(shù),使得訓(xùn)練極其困難.
1.3基于擴(kuò)散模型的文本圖像生成
擴(kuò)散模型在理論上具有強(qiáng)大的生成能力,但在早期由于圖像生成質(zhì)量和采樣速度上的不足,并未受到廣泛關(guān)注.2020年以后,一些基于擴(kuò)散模型的文本圖像生成方法被提出,并具有良好的效果.擴(kuò)散概率模型[18](Diffusion Probabilistic Model,DPM)可以不斷地迭代破壞數(shù)據(jù)的分布,再通過(guò)逆向過(guò)程恢復(fù)分布,從而訓(xùn)練模型,被廣泛應(yīng)用于圖像生成.在擴(kuò)散模型的噪聲優(yōu)化方面,Nichol等[19]在正向過(guò)程中添加余弦噪聲,在反向去噪中添加可學(xué)習(xí)的方差,減少了采樣步驟.
針對(duì)特殊數(shù)據(jù),Sehwag等[20]在低密度數(shù)據(jù)中采樣;Austin等[21]則使用離散狀態(tài)空間生成模型;Joli-coeur-Martineau等[22]使用一種穩(wěn)定的一致性退火采樣方案,提出一個(gè)由去噪分?jǐn)?shù)和對(duì)抗目標(biāo)組成的混合訓(xùn)練公式; Kim 等[23]提出一種非線性擴(kuò)散模型,使用可訓(xùn)練的標(biāo)準(zhǔn)化流與擴(kuò)散模型相結(jié)合的模型,通過(guò)流網(wǎng)絡(luò)在潛在空間中進(jìn)行線性擴(kuò)散來(lái)學(xué)習(xí)噪聲的分布,再將其用在數(shù)據(jù)空間上進(jìn)行非線性擴(kuò)散.
潛在擴(kuò)散模型[24](LatentDiffusion Model,LDM)在潛在空間中執(zhí)行擴(kuò)散步驟,可以在降低計(jì)算成本的同時(shí)提高生成圖像質(zhì)量.文本到圖像擴(kuò)散模型通過(guò)預(yù)訓(xùn)練的語(yǔ)言模型,比如模型CLIP(ContrastiveLanguage-ImagePretraining)將文本輸人編碼為潛在向量,從而獲得最先進(jìn)的圖像生成結(jié)果.如圖1所示,CLIP模型同時(shí)理解學(xué)習(xí)文本以及圖像兩種不同模態(tài)的信息,并在它們之間建立聯(lián)系.CLIP模型通過(guò)在向量空間中計(jì)算圖像和文本的相似性,實(shí)現(xiàn)跨模態(tài)理解,從而指導(dǎo)擴(kuò)散模型實(shí)現(xiàn)文本圖像生成.
2改進(jìn)噪聲估計(jì)網(wǎng)絡(luò)結(jié)合條件控制的擴(kuò)散模型
擴(kuò)散模型通過(guò)模擬擴(kuò)散過(guò)程,將數(shù)據(jù)逐步轉(zhuǎn)化為噪聲,然后學(xué)習(xí)逆向過(guò)程,從噪聲中逐步恢復(fù)出原始數(shù)據(jù),實(shí)現(xiàn)高質(zhì)量的生成效果,近年來(lái)在文本圖像生成領(lǐng)域取得了顯著的效果.
2.1 正向擴(kuò)散過(guò)程
擴(kuò)散模型作為一類基于概率生成模型的深度學(xué)習(xí)方法,分為正向和逆向兩種擴(kuò)散過(guò)程.正向過(guò)程是一個(gè)逐漸加噪的過(guò)程.模型添加的是高斯噪聲,高斯噪聲是一種具有正態(tài)分布的噪聲,其均值通常為0.通過(guò)逐步加噪,將圖像轉(zhuǎn)換為完全的高斯噪聲圖.正向擴(kuò)散和逆向擴(kuò)散過(guò)程如圖2所示.
圖1擴(kuò)散模型文本生成圖像原理
Fig.1Schematic of text-to-image generation using diffsion model

圖2正向擴(kuò)散與逆向擴(kuò)散
Fig.2Forward diffusionandbackward diffusion

擴(kuò)散模型中的加噪過(guò)程是在圖像中不斷添加噪聲,噪聲的添加方式是重中之重.其中, xt 與 xt-1 的關(guān)系式為

擴(kuò)散模型基于馬爾可夫定理, t 時(shí)刻的分布只和t-1 時(shí)刻有關(guān),所以式(1)中僅出現(xiàn) xt-1 ,沒(méi)有 xt-2 等. αt 為經(jīng)驗(yàn)常量,且 αt 會(huì)隨著 t 的增大而減小. z1 是服從標(biāo)準(zhǔn)高斯分布的噪聲.也就是說(shuō), xt 等于前一時(shí)刻的分布 xt-1 和標(biāo)準(zhǔn)高斯分布 z1 的權(quán)重之和.隨著步數(shù)的增大, αt 會(huì)逐漸變小,所以, xt-1 的權(quán)重會(huì)逐漸變小, z1 的權(quán)重會(huì)逐漸變大.因此,隨著步數(shù)的增大,噪聲的比重越來(lái)越大,前一時(shí)刻的分布占比越來(lái)越小.
隨著加噪步數(shù)的增加,如果想得到加噪步數(shù)為 Ψt 的分布,就需要計(jì)算 t-1 次,較為繁瑣

將式(2)代入式(1)可得:

再整理為

式(4)中
為兩個(gè)高斯分布相加,計(jì)算可得:


推導(dǎo)可得相加之后的高斯分布為
N(0,σ12I)+N(0,σ22I)~N(0,(σ12+σ22)I).
將式(5)(6)代人式(7)可得:

其中:

由式(9)可得:

綜上所述,可得:

其中:

q(x0) 是真實(shí)數(shù)據(jù)分布(即大量的真實(shí)圖像),從該分布中采樣可以得到一張真實(shí)的圖像 x0~ q(x0) .定義正向過(guò)程為 q(xt∣xt-1) ,將隨機(jī)產(chǎn)生的且服從高斯分布的噪聲樣本添加到其中可得:

根據(jù)上述公式推理可得:

2.2 逆向過(guò)程
擴(kuò)散模型的逆向擴(kuò)散過(guò)程是去除噪聲的過(guò)程,前文已經(jīng)推導(dǎo)如何計(jì)算出 q(xt∣xt-1) ,并且可以得到任意步數(shù)下的 xt .現(xiàn)需要計(jì)算 pθ(xt-1∣xt) ,可以使用貝葉斯公式:

引入新的變量 x0

化簡(jiǎn)可得:

其中:





又知高斯分布的概率密度函數(shù)為

其中: μ 表示方差; σ 為均值.
將式(18)—(20)代入式(15)可得:


已知:

根據(jù) αt 分別可以計(jì)算出均值和方差,分別為


由式(11)可得:

代人整理可得:

其中, zt 是一個(gè)噪聲,用神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合.在正向擴(kuò)散過(guò)程的每次迭代中,以高斯噪聲分布中采樣得到的噪聲記錄為標(biāo)簽來(lái)訓(xùn)練模型,讓模型根據(jù) xt 來(lái)預(yù)測(cè) zt ,根據(jù) zt 來(lái)計(jì)算t-1時(shí)刻分布的均值,其中方差為定值,則可以根據(jù) χt 時(shí)刻求得t-1時(shí)刻的分布.
2.3 改進(jìn)噪聲估計(jì)網(wǎng)絡(luò)
2.3.1改進(jìn)殘差塊
在擴(kuò)散模型的訓(xùn)練流程中,梯度消失或爆炸的問(wèn)題時(shí)常會(huì)出現(xiàn).為了有效規(guī)避這類問(wèn)題,模型通常會(huì)引人ResBlock[25]作為網(wǎng)絡(luò)傳遞的“橋梁”,它正是構(gòu)建ResNet的核心組件.在模型導(dǎo)人并處理訓(xùn)練數(shù)據(jù)的過(guò)程中,通過(guò)對(duì)數(shù)據(jù)的精準(zhǔn)擬合與合理的正則化手段,可以確保模型在未見(jiàn)過(guò)的數(shù)據(jù)上同樣展現(xiàn)出強(qiáng)大的泛化能力.
由此可見(jiàn),模型的擬合能力與泛化能力之間存在著密切的關(guān)聯(lián).具體而言,模型的擬合能力由其容量所決定:容量越大,擬合能力自然越強(qiáng).然而,當(dāng)模型容量過(guò)高,尤其是在處理復(fù)雜任務(wù)時(shí),雖然訓(xùn)練誤差會(huì)持續(xù)下降,但泛化誤差卻可能不降反升,這一現(xiàn)象如圖3所示.
圖3模型誤差與模型容量關(guān)系
Fig.3Relationship between model errorand model capacity

圖3所顯示的最優(yōu)容量點(diǎn)左邊模型容量小,處于欠擬合狀態(tài),右邊模型容量大,處于過(guò)擬合狀態(tài).一般來(lái)說(shuō),模型的參數(shù)量越大,模型的容量就越大,對(duì)于兩個(gè)由相同基礎(chǔ)網(wǎng)絡(luò)層構(gòu)建的模型而言,層數(shù)較深的模型相較于層數(shù)較淺的模型有著更大的模型容量.這也意味著層數(shù)較深的模型在訓(xùn)練過(guò)程中的訓(xùn)練誤差是較低的.事實(shí)上,深層模型相較于淺層模型更難被優(yōu)化,所以導(dǎo)致深層模型對(duì)比淺層模型有著更高的訓(xùn)練誤差.
假設(shè)淺層模型是在該數(shù)據(jù)集上的最優(yōu)網(wǎng)絡(luò),用深層模型去訓(xùn)練,訓(xùn)練開(kāi)始時(shí)將淺層模型的參數(shù)復(fù)制給了深層模型,那么優(yōu)化算法能夠?qū)⑸顚幽P偷钠渌矸e層訓(xùn)練成恒等映射以達(dá)到在該數(shù)據(jù)集上的最優(yōu)結(jié)果.可以用式(28)(29)表達(dá).
將某一層網(wǎng)絡(luò)的映射記為 H(x) ,由參數(shù) θ 控制,使得 H(x)=x ,將其改寫成:
H(x)=F(x)+x.
ResBlock假設(shè)學(xué)習(xí)的是一個(gè)等于0的函數(shù),因此 H(x)=F(x)+x 可以更好地優(yōu)化深層模型, F(x) 可表達(dá)為
F(x)=H(x)-x.
如圖4所示,傳統(tǒng)的ResBlock塊的跳躍鏈接使用了恒等映射的方式,即直接將輸入與輸出相加.這樣設(shè)計(jì)的ResBlock塊通常會(huì)出現(xiàn)內(nèi)部協(xié)變量偏移(internalcovariateshift)的問(wèn)題,即每一層的輸入分布會(huì)在訓(xùn)練過(guò)程中發(fā)生變化.
為此,本文設(shè)計(jì)了一種新的殘差塊.選擇在ResBlock塊中增加了BN(BathNormalization),在網(wǎng)絡(luò)的每一層對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理,使得數(shù)據(jù)的分布具有相同的均值和方差,后層網(wǎng)絡(luò)不必適應(yīng)底層網(wǎng)絡(luò)中的輸入變化,實(shí)現(xiàn)層與層之間的解耦,這樣網(wǎng)絡(luò)中每層輸入數(shù)據(jù)的分布變得更穩(wěn)定,從而增加學(xué)習(xí)速度.添加了BN的模型更容易收斂,泛化能力也更強(qiáng).
圖4殘差塊 Fig.4 Residual block

新型殘差塊保留原本的卷積層以提取特征、保持空間結(jié)構(gòu)和減少模型參數(shù)量.選擇ReLU函數(shù)作為模型的激活函數(shù),它是一個(gè)分段線性函數(shù) F(x)= max(0,x) ,其結(jié)構(gòu)較為簡(jiǎn)單,計(jì)算非常高效,能在一定程度上加速訓(xùn)練,而且比較容易地插入到模型中.選擇將BN和激活函數(shù)放在卷積之前,新型殘差塊的具體結(jié)構(gòu)如圖5所示.
圖5改進(jìn)后的殘差塊 Fig.5Improved residual block

改進(jìn)的殘差塊在反向傳播中,梯度可以完全往回傳導(dǎo),不會(huì)出現(xiàn)梯度消失的情況.用式(30)驗(yàn)證,定義 xL 是深層 L 層的單元,損失函數(shù)是 ε ,公式如下:

根據(jù)鏈?zhǔn)椒▌t,損失函數(shù)回傳到 L 層可以拆分為
以及
可以保證損失函數(shù)返回 L 層,
可以保證損失函數(shù)傳遞到 L 層時(shí)梯度不會(huì)為0.
在網(wǎng)絡(luò)預(yù)測(cè)噪聲過(guò)程中,將其與時(shí)間 χt 對(duì)應(yīng)的正弦位置編碼一起送入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,計(jì)算 χt 時(shí)刻的噪聲圖像,可以預(yù)測(cè)噪聲,并且和實(shí)際噪聲進(jìn)行擬合,不斷更新權(quán)重.
2.3.2 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)
為了提高噪聲估計(jì)網(wǎng)絡(luò)性能,提高生成圖像的質(zhì)量,選擇在噪聲估計(jì)網(wǎng)絡(luò)中引入輕量化卷積注意力模塊CBAM(ConvolutionalBlock Attention Mod-ule)[26],它是一種用于卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊,可以增強(qiáng)模型對(duì)圖像特征的建模能力.在網(wǎng)絡(luò)中間層添加CBAM,同時(shí)考慮了通道注意力和空間注意力,有選擇地調(diào)整不同通道和空間位置的特征響應(yīng),從而提高模型的性能.同時(shí),CBAM可以使網(wǎng)絡(luò)更好地理解圖像的特征,提升對(duì)重點(diǎn)部分的關(guān)注度,且在處理時(shí)保留圖像的細(xì)節(jié)信息.由于CBAM設(shè)計(jì)得非常靈活,可以很容易地加到模型中去.
CBAM核心組成部分包括兩個(gè)模塊:通道注意力模塊和空間注意力模塊.通道注意力模塊通過(guò)學(xué)習(xí)通道間的關(guān)聯(lián)性來(lái)調(diào)整通道特征的權(quán)重,而空間注意力模塊則通過(guò)學(xué)習(xí)特征圖中不同空間位置的關(guān)聯(lián)性來(lái)調(diào)整空間特征的權(quán)重.這兩個(gè)模塊的結(jié)合使得CBAM注意力機(jī)制能夠更全面地關(guān)注圖像中的重要信息.
在訓(xùn)練過(guò)程中,CBAM首先對(duì)輸入的特征進(jìn)行特征壓縮,也就是通過(guò)最大池化以及平均池化,將每個(gè)通道壓縮成一個(gè)單獨(dú)的值,分別代表最大值和平均值.接著通過(guò)一個(gè)兩層的MLP將通道數(shù)降維以減少參數(shù)量,再升維恢復(fù).最后將最大池化和平均池化得到的特征圖相加并計(jì)算得到每個(gè)通道的權(quán)重系數(shù),得到的特征圖通過(guò)通道壓縮和特征卷積計(jì)算出每個(gè)空間上的權(quán)重系數(shù).CBAM的結(jié)構(gòu)如圖6所示.
假設(shè)輸人是 F∈?{Rc×H×W} Mc∈{Rc×1×1} 是通道注意力模塊的一維卷積,輸出的通道權(quán)重?cái)?shù)據(jù)為c×1×1 ,則有:

其中: F′ 是通道注意力輸出; MS∈{R1×H×W} 是空間注意力模塊的二維卷積.將通道注意力輸出結(jié)果與空間注意力結(jié)果進(jìn)行集合的交運(yùn)算后得到輸出結(jié)果F′′ :CBAM作為一個(gè)輕量化模塊可以直接嵌入到網(wǎng)絡(luò)結(jié)構(gòu)中,不需要額外的參數(shù)或者計(jì)算,可以有效提升模型性能.改進(jìn)后的噪聲網(wǎng)絡(luò)估計(jì)結(jié)構(gòu)如圖7所示.
2.4結(jié)合條件控制
在實(shí)際文本生成圖像中,如果單從文本提示出發(fā),很難精確地表達(dá)復(fù)雜的空間布局、人物姿勢(shì)或者物品形狀,因此生成一個(gè)符合預(yù)期的圖像需要大量的嘗試.為此,在改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)上加入Control-Net[27] 模型,提前鎖定預(yù)訓(xùn)練的噪聲預(yù)測(cè)網(wǎng)絡(luò)的參數(shù),克隆到控制網(wǎng)絡(luò)的可訓(xùn)練副本中,在已經(jīng)鎖定的網(wǎng)絡(luò)上引入條件信息,可以達(dá)到對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)優(yōu)化的作用.
為了擴(kuò)散模型的深層特征中不會(huì)加入有害噪聲,以及可訓(xùn)練副本在訓(xùn)練中不被噪聲所破壞,將可訓(xùn)練副本和鎖定模型用零卷積層連接,權(quán)值初始化為零,可以在訓(xùn)練過(guò)程中持續(xù)增長(zhǎng).具體結(jié)構(gòu)如圖8所示.
圖8中, x 與 y 是二維特征圖, x∈Rh×w×c ,其中,h 為長(zhǎng)度, w 為寬度, c 為通道數(shù).將ControlNet添加到預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)塊中,且不改變?cè)猩窠?jīng)塊中的參數(shù) θ ,函數(shù) f 表示神經(jīng)網(wǎng)絡(luò)塊操作,對(duì)于殘差塊,有公式如下:

函數(shù) z 為權(quán)重和偏置初始化為零的 1×1 卷積層,構(gòu)建 θz1 與 θz2 為參數(shù)的卷積層, θc 為可訓(xùn)練副本的參數(shù),可得:
yc=f(x;θ)+z(f(x+z(c;θz1);θc);θz2).
式中,“ + ”表示特征相加
在初始化訓(xùn)練中,由于零卷積層的權(quán)重和偏置參數(shù)都被初始化為零,因此

圖6CBAM結(jié)構(gòu)Fig.6 CBAM structure

圖7改進(jìn)后的噪聲估計(jì)網(wǎng)絡(luò)結(jié)構(gòu) Fig.7Improved noise estimation network structure

圖8條件控制結(jié)構(gòu)Fig.8Conditional control structure

同時(shí),由于上述設(shè)置,前饋過(guò)程中不受任何影響,有害噪聲不會(huì)影響神經(jīng)網(wǎng)絡(luò)層.又因?yàn)?z(f(x+ z(c;θz1):θc):θz2) 為零,添加后的神經(jīng)網(wǎng)絡(luò)可以接受圖像為輸入條件.
在經(jīng)過(guò)反向傳播后,模型中的零卷積層通過(guò)學(xué)習(xí)過(guò)程逐漸變?yōu)閮?yōu)化值,變?yōu)榉橇悴⒂绊戄敵?假設(shè)零卷積層為
y=ωx+b.
其中: w 和 b 分別是權(quán)重和偏差; x 是輸入特征.每一項(xiàng)的梯度

分別表示零卷積層 y 對(duì)權(quán)重求偏導(dǎo)數(shù) ?y 對(duì)輸人特征的求偏導(dǎo)數(shù),以及 y 對(duì)偏差求偏導(dǎo)數(shù),結(jié)果分別為輸入特征、權(quán)重以及1.如果權(quán)重 w 為零且輸入特征 x 不為零,則

如果權(quán)重為零且輸入特征不為零,則輸入特征的梯度為零,權(quán)重和偏差的梯度不為零,利用梯度下降和鏈?zhǔn)椒芍谝徊接?xùn)練之后,輸入特征的梯度也為非零.這樣可以避免在訓(xùn)練的數(shù)據(jù)集過(guò)小時(shí)發(fā)生過(guò)擬合.由于鎖定了模型的參數(shù),不需要對(duì)模型進(jìn)行訓(xùn)練,在加快訓(xùn)練速度的同時(shí)不會(huì)對(duì)模型有任何影響,且每次優(yōu)化都會(huì)讓模型的性能提升.引入ControlNet后模型推理流程如圖9所示.
3實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集
本文在CelebA- ?HQ[28] 數(shù)據(jù)集中部分?jǐn)?shù)據(jù)上進(jìn)行訓(xùn)練,驗(yàn)證文本生成圖像任務(wù)的有效性.該數(shù)據(jù)集有超過(guò)3萬(wàn)張人臉圖像,包含不同的姿態(tài)、表情、光照等多種條件變量,且每張圖像都有對(duì)應(yīng)的標(biāo)簽.與目前的領(lǐng)先方法 KNN-Diffsuion[29]、 CogView2[30] 、text-StyleGAN[31]、Simple diffusion[32]進(jìn)行對(duì)比實(shí)驗(yàn),并且對(duì)實(shí)驗(yàn)結(jié)果做了定性與定量分析.
圖9改進(jìn)后模型流程
Fig.9Improved model processes

3.2 實(shí)驗(yàn)細(xì)節(jié)
本文使用較為先進(jìn)的LatentDiffusion模型作為預(yù)訓(xùn)練的基礎(chǔ)模型.為了讓模型的訓(xùn)練速度和收斂速度處于較高水準(zhǔn)且保證模型在訓(xùn)練過(guò)程中不會(huì)發(fā)散或者出現(xiàn)局部最小的問(wèn)題,將模型的學(xué)習(xí)率設(shè)置為0.0003,添加標(biāo)準(zhǔn)差為0.35的高斯噪聲,擴(kuò)散步長(zhǎng)選定為 t=500 為了保證模型最優(yōu),選擇批次樣本數(shù)量為8.實(shí)驗(yàn)選擇深度學(xué)習(xí)框架Pytorch(1.7.0),使用的cuda版本為11.0,Python版本為3.8.5.
3.3 定性分析
本文從3個(gè)方面對(duì)原有的LatentDiffusion模型進(jìn)行改進(jìn),分別是改進(jìn)殘差模塊、改進(jìn)噪聲估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)以及結(jié)合條件控制網(wǎng)絡(luò).為了保證公平性,對(duì)比實(shí)驗(yàn)將不采用ControlNet結(jié)構(gòu).
從可視化角度對(duì)改進(jìn)后的模型效果與現(xiàn)有的先進(jìn)方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖10所示.
從圖10可以看出,KNN-Diffusion生成圖像的細(xì)節(jié)不清晰,顯得虛假不真實(shí).例如:第2列第1行,生成小狗臉部形狀怪異,嘴巴處明顯和實(shí)際不吻合;第2列第4行,生成小貓的條紋怪異,細(xì)節(jié)處光影做得不好.Simplediffusion同樣如此,第3列第1行生成小狗姿勢(shì)奇怪,出現(xiàn)多足;第3列第3行生成玫瑰花質(zhì)量遠(yuǎn)低于真實(shí)圖像;第3列第5行,生成熊貓腰部出現(xiàn)不明異常黑條,與實(shí)際不符.CogView2生成的圖像質(zhì)量普遍較低,特別是第4列第1、第5行.text-StyleGAN生成圖像質(zhì)量不穩(wěn)定,第5列第3行的玫瑰花、第5列第4行的小貓,生成質(zhì)量都較差.而改進(jìn)后的方法,無(wú)論是光影效果、圖像質(zhì)量,還是細(xì)節(jié)特征,都優(yōu)于對(duì)比方法.
3.4 定量分析
為了客觀分析文本生成圖像的質(zhì)量,采用弗雷謝特感知距離FID(FrechetInceptionDistance)和感知得分IS(InceptionScore)以及結(jié)構(gòu)相似性指數(shù)SSIM(StructuralSimilarity)這三種度量標(biāo)準(zhǔn),來(lái)比較生成圖像和真實(shí)圖像之間的相似程度以及多樣性.
簡(jiǎn)單來(lái)說(shuō),生成圖像相似度越高,表示圖像包含的細(xì)粒度信息越多,生成的圖像就更加真實(shí).在計(jì)算FID時(shí),首先從真實(shí)數(shù)據(jù)分布和生成模型中分別抽取一組樣本,通過(guò)預(yù)訓(xùn)練Inception網(wǎng)絡(luò)中的中間層特征之間的距離,以及協(xié)方差矩陣之間的距離來(lái)度量?jī)烧叩南嗨贫?FID計(jì)算公式如下:

IS則是對(duì)生成的圖像進(jìn)行分類,在計(jì)算每個(gè)類別預(yù)測(cè)概率的均值和方差,加權(quán)平均后就會(huì)得到IS值.IS值越高,表示生成圖像的質(zhì)量和多樣性越好,具體公式如下:

SSIM更符合人眼的直觀感受,SSIM的值越大,表示生成的圖像越接近真實(shí)圖像,具體公式如下:

如表1所示,與目前主流模型相比,本文方法的FID平均下降 36.4% ,IS和SSIM分別平均提高了11.4% 和 3.9%
3.5結(jié)合條件控制
從圖11可以看出,引入ControlNet模型的擴(kuò)散模型有效地實(shí)現(xiàn)了定向動(dòng)作的圖像生成,極大地方便了特定動(dòng)作的文本生成圖像任務(wù),避免了生成特定圖像的多次循環(huán)試錯(cuò).但生成后的圖像質(zhì)量還有很大改進(jìn)空間.
圖105種模型生成圖像對(duì)比
Fig.10Comparison of images generated by five models

表15種模型生成效果的定量對(duì)比
Table1 Quantitative comparison of generation performancebetween fivemodels

3.6 消融實(shí)驗(yàn)
本文從2個(gè)維度對(duì)噪聲估計(jì)網(wǎng)絡(luò)進(jìn)行改進(jìn).為了確保每個(gè)維度都有效,針對(duì)不同的維度進(jìn)行消融實(shí)驗(yàn).首先將僅增加CBAM的擴(kuò)散模型與原有的La-tentDiffusion模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖12所示.
如圖12所示,第1行為僅添加CBAM的擴(kuò)散模型,第2行為未改動(dòng)的原始模型,可以看到,在輸入文本引導(dǎo)信息相同的情況下,添加CBAM的模型在生成圖像細(xì)節(jié)、光影效果、整體構(gòu)圖上都明顯處于較高水平,生成圖像中斑馬的形態(tài)、條紋等都與真實(shí)圖像相差不大.反觀原始模型,如第2行第1列,近景生成斑馬有黑白條紋,遠(yuǎn)景則沒(méi)有;第2行第2列,斑馬腿部上半部分有條紋,下半部分沒(méi)有;第2行第3、第4列,會(huì)出現(xiàn)多足以及腿部模糊、連接等情況.這表明添加CBAM的擴(kuò)散模型,通過(guò)運(yùn)用通道注意力和空間注意力,有效地提高了生成圖像的質(zhì)量,避免了一些細(xì)節(jié)錯(cuò)誤.
圖11結(jié)合條件控制的生成圖像

Fig.11Generatingimageswith conditional control
圖12添加CBAM與原模型對(duì)比
Fig.12Comparison of models with and without CBAM

為了嚴(yán)謹(jǐn)可靠,防止主觀看法影響結(jié)果,對(duì)上述2組數(shù)據(jù)進(jìn)行定量分析,結(jié)果如表2所示.可以看出,添加CBAM后,F(xiàn)ID、IS、SSIM指標(biāo)均有優(yōu)化
將改進(jìn)殘差塊的擴(kuò)散模型與原有的LatentDiffusion模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖13所示.
表2消融實(shí)驗(yàn)生成效果的定量對(duì)比
Table2Quantitative comparison of generation performanceinablationexperiments

如圖13所示,第1行為僅改進(jìn)殘差模塊的擴(kuò)散模型,第2行為未改動(dòng)的原始模型.可以看到,在輸入文本引導(dǎo)信息相同的情況下,改進(jìn)了殘差模塊的模型在生成圖像細(xì)節(jié)、光影效果、整體構(gòu)圖上都明顯處于較高水平,如第1行第2、第5列的光影效果幾乎可以假亂真,第1行第2列生成圖像,皮毛紋理較為真實(shí).反觀原始模型,如第2行第1列,北極熊爪子個(gè)數(shù)形態(tài)都出現(xiàn)扭曲變形,第2行第2列整體形態(tài)怪異,第2行第3、第4列會(huì)出現(xiàn)多趾,以及腿部姿勢(shì)怪異等情況.這表明改進(jìn)殘差模塊的擴(kuò)散模型,能讓模型提取出輸人數(shù)據(jù)中更豐富的特征信息,提高模型的性能,讓模型在進(jìn)行深層訓(xùn)練時(shí)可以生成較好質(zhì)量的圖像,更符合實(shí)際.
圖13改進(jìn)殘差模塊模型與原模型對(duì)比
Fig.13Comparison between diffusion model with improved residual block and original model

定量分析結(jié)果如表3所示,可以看出,改進(jìn)后模型的FID、IS、SSIM指標(biāo)均有優(yōu)化.
表3消融實(shí)驗(yàn)生成效果的定量對(duì)比
Table3Quantitative comparison of generation performance inablation experiments

4 結(jié)束語(yǔ)
本文針對(duì)文本生成圖像任務(wù),提出一種基于擴(kuò)散模型改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合條件控制的生成方法.設(shè)計(jì)新型結(jié)構(gòu)的殘差模塊并且在噪聲估計(jì)網(wǎng)絡(luò)中添加輕量級(jí)的注意力模塊CBAM,提高了生成圖像的能力和效果.改進(jìn)后的殘差塊可以有效避免模型在進(jìn)行深層訓(xùn)練時(shí)性能下降,同時(shí)解決了梯度消失或梯度爆炸的問(wèn)題.通過(guò)應(yīng)用通道注意力與空間注意力模塊,讓模型更好地關(guān)注到圖像中的重要信息,提高了模型的性能.結(jié)合ControlNet網(wǎng)絡(luò),有效地實(shí)現(xiàn)了特定人物姿勢(shì)、空間布局的文本生成任務(wù).對(duì)比實(shí)驗(yàn)結(jié)果表明,算法有效地實(shí)現(xiàn)了特定姿勢(shì)控制,并且生成圖像的結(jié)構(gòu)更加合理,圖像也更加真實(shí).
擴(kuò)散模型的主干網(wǎng)絡(luò)仍有很大的改進(jìn)空間,未來(lái)將思考是否將原有的U-Net模型與當(dāng)前比較熱門的 Transformer結(jié)合,進(jìn)一步提高模型生成速度與生成圖像質(zhì)量.另外,現(xiàn)有的模型優(yōu)化基本沿用標(biāo)準(zhǔn)的MSEloss,可以考慮借鑒NLP社區(qū)在強(qiáng)化學(xué)習(xí)方面的經(jīng)驗(yàn).
參考文獻(xiàn)References
[1]Zhu XJ,Goldberg AB,Eldawy M,et al.A text-to-picture synthesis system for augmenting communication [C]// Proceedings of the 22nd National Conference on Artificial Intelligence.July22-26,2007,Vancouver,British Columbia,Canada.ACM,2007:1590-1595
[2]陳培培,邵曦.基于生成對(duì)抗網(wǎng)絡(luò)的音樂(lè)標(biāo)簽自動(dòng)標(biāo) 注[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2018, 10(6) :754-759 CHEN Peipei, SHAO Xi. Music auto-tagging based on generative adversarial networks[J]. Journal of Nanjing Universityof Information Scienceamp; Technology(Natural Science Edition),2018,10(6):754-759
[3]Michalczak M,Ligas M. Short-term prediction of UT1- UTC and LOD via dynamic mode decomposition and combination of least-squares and vector autoregressive model[J]. Reports on Geodesy and Geoinformatics, 2024,117(1) :45-54
[4]YiXP,Tang L F,ZhangH,et al.Diff-IF:multi-modality image fusion via diffusion model with fusion knowledge prior[J].Information Fusion,2024,110:102450
[5]杜洪波,袁雪豐,劉雪莉,等.基于擴(kuò)散過(guò)程的生成對(duì) 抗網(wǎng)絡(luò)圖像修復(fù)算法[J].南京信息工程大學(xué)學(xué)報(bào), 2024,16(6) :751-759 DU Hongbo,YUAN Xuefeng,LIU Xueli,et al.Generative adversarial network image restoration algorithm based on diffusion process[J]. Journal of Nanjing University of Information Science and Technology,2024,16(6) :751-759
[6]郝文月,蔡懷宇,左廷濤,等.基于擴(kuò)散模型的自監(jiān)督 預(yù)訓(xùn)練血管內(nèi)超聲圖像分割方法[J].激光與光電子 學(xué)進(jìn)展,2024,61(18):365-373 HAO Wenyue,CAI Huaiyu,ZUO Tingtao,et al. Self-supervised pre-training for intravascular ultrasound image segmentation method based on diffusion model[ J].Laser amp; Optoelectronics Progress,2024,61(18) :365-373
[7] 錢楓,胡桂銘,祝能,等.基于改進(jìn)擴(kuò)散模型的圖像去 雨方法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2024,38 (1) :59-66 QIANFeng,HU Guiming,ZHU Neng,etal.Researchon image de-raining method based on improved diffusion model[J].Journal of Chongqing University of Technology (Natural Science),2024,38(1) :59-66
[8]Zeng Y Y,Chen X Y,Zhang Y,et al. Dense-U-Net: densely connected convolutional network for semantic segmentation with a small number of samples[C]//Tenth International Conference on Graphics and Image Processing(ICGIP 2018).December 12-14,2018,Chengdu, China. SPIE,2019:159
[9]Wu F,Qi Z. Multi-layer stacks of GaN n -Al GaN self0.5 assembled quantum dots grown by metal-organic chemical vapor deposition[C]//SPIE Conference on Applied Optics and Photonics.July 7-9,2019,Beijing,China.CSOE amp; SPIE,2019:84-92
[10]Han JY,Liu JW.HfGAN-CN:T2I model via text-image hierarchical attention fusion[C]//2022 34th Chinese 2022,Hefei,China. IEEE,2022:6112-6117
[11]Xu T,ZhangPC,HuangQY,et al.AttnGAN:finegrained text to image generation with atentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Patern Recognition. June 18-23,2018,Salt Lake City,UT, USA. IEEE,2018: 1316-1324
[12]LiB,Qi X,Lukasiewicz T,et al. Controllable text-to-image generation[J].Advances in Neural Information Processing Systems,2019,32(18) :2065-2075
[13] Tan H C,Liu XP,Li X,et al. Semantics-enhanced adversarial nets for text-to-image synthesis[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea. IEEE,2019:10500-10509
[14] Zhang H,Yang S Y,Zhu H Q. CJE-TIG: zero-shot crosslingual text-to-image generation by Corpora-based joint encoding[J].Knowledge-BasedSystems,2022, 239 :108006
[15] Zhang H, Yin W,F(xiàn)ang Y,et al. ERNIE-ViLG: unified generative pre-training for bidirectional vision-language generation[J].arXiv e-Print,2021,arXiv:2112.15283
[16] Ding M,Yang Z,Hong W,et al. CogView:mastering textto-image generation via transformers[J].Advances in Neural Information Processing Systems,2021,34: 19822-19835
[17]Sun P Z,Jiang Y,Chen S F,et al. Autoregressive model beats diffusion:Llama for scalable image generation[J]. arXiv e-Print,2024,arXiv:2406.06525
[18] Sohl-Dickstein J,Weiss E A,Maheswaranathan N,et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning.July6-11,2015,Lille,F(xiàn)rance.ACM,2015: 2256-2265
[19] Nichol A,Dhariwal P,Ramesh A,et al. Glide: towards photorealistic image generation and editing with textguideddiffusion models[J].arXive-Print,2021, arXiv:2112. 10741
[20]Sehwag V,Hazirbas C,Gordo A,et al.Generating high fidelity data from low-density regions using diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 18-24, 2022,New Orleans,LA,USA.IEEE,2022:11482-11491
[21]Austin J,Johnson D D,Ho J,et al. Structured denoising diffusion models in discrete state-spaces[J].arXiv e-Print,2021,arXiv:2107.03006
[22] Jolicoeur-Martineau A,Piché-TailleferR,desCombesR T,et al. Adversarial score matching and improved sampling for image generation[J].arXiv e-Print,2020,arXiv : 2009. 05475
[23] KimD,Na B,Kwon SJ,etal.Maximum likelihood training of implicit nonlinear diffusion models[J].arXiv ePrint,2022,arXiv:2205.13699
[24] Rombach R,Blattmann A,Lorenz D,etal.High-resolution image synthesis with latent diffusion models[C]// Proceedings of the IEEE/CVF Conference on Computer VisionandPatternRecognition.June18-24,2022,New Orleans,LA,USA.IEEE,2022:10684-10695
[25] ZhangSC,ShenHC,DuanSK,etal.Positionadaptive residual block and knowledge complement strategy for point cloud analysis[J].Artificial Intelligence Review, 2024,57(5):129
[26] Mekruksavanich S,Jitpattanakul A.Deep residual networkwith a CBAMmechanismfortherecognition of symmetricand asymmetric human activity using wearable sensors[J].Symmetry,2024,16(5):554
[27] Qin Z.A multimodal diffusion-based interior design AI with ControlNet[J].Journal ofArtificial Intelligence Practice,2024,7(1):25-27
[28] KarrasT,AilaTM,LaineS,etal.Progressivegrowingof GANs forimproved quality,stability,and variation[J]. arXive-Print,2017,arXiv:1710.10196
[29] SheyninS,AshualO,PolyakA,etal.KNN-diffusion:imagegenerationvialarge-scale retrieval[J].arXiv e-Print,2022,arXiv:2204.02849
[30] DingM,ZhengWD,HongWY,etal.CogView2:faster andbetter text-to-image generation via hierarchical transformers[J].arXive-Print,2022,arXiv:2204.14217
[31] Zhang Y,Lu H C.Deep cross-modal projection learning forimage-text matching[C]//Proceedings of the EuropeanConference on Computer Vision 2O18.Cham:Springer International Publishing,2018:707-723
[32] HoogeboomE,HeekJ,SalimansT,etal.Simplediffusion [C]//Proceedings of the 4Oth International Conference onMachineLearning.July23-29,2023,Honolulu,Hawaii,USA.ACM,2023:13213-13232
Text-to-image generation based on improved diffusion model combined with conditional control
DU Hongbo1XUE Haoyuan1ZHU Lijun2 1School of Science,Shenyang University of Technology,Shenyang 11O870,China 2Schoolof InformationandComputing Science,Northern Universityfor Nationalities,Yinchuan75oo21,China
AbstractAnoveltext-to-image generation method based on difusion model is proposed toaddress the problems of lowimage fidelity,complex generationoperation,and narrow applicability tospecifictask scenarios inexisting textto-image generation methods.Thisapproach takes adifusion model as the backbone networkand designs a novel residual block structure to enhance generation performance.Additionally,a CBAM(Convolutional Block Attention Module)is integrated intothe noise estimation network to improve themodel'sabilitytoextractkeyimage information,thereby improving output quality.By combining conditional control networks,the approach achieves precise text-to-image generation with user-specific poses.Qualitative and quantitative analyses,along with ablation experiments,were conducted on the CelebA HQ dataset against methods such as KNN-Difusion,CogView2,textStyleGAN,and Simple difusion.Evaluation metrics and generation results demonstrate that,the proposed method effectively improves generation quality,with an average decrease of 36.4% in FID(the Frechet Inception Distance),average increases of 11.4% in IS(Inception Score)and 3.9% inSSIM(Structural Similarity).These results validate theeffctivenessof theproposed approach.Furthermore,by integrating the ControlNet framework,the model enables text-to-image generation with controllable directional poses.
Key wordsdifusion model;text-to-image generation;conditional control;residual block ;convolutional block at.tention module(CBAM)