






摘要:針對現有方法在段落生成圖像任務中存在的圖文不一致、語義準確度不足的問題,提出一種融合語義重構約束的序列圖像生成框架。首先,該方法采用基于Transformer的文本注意力機制和時間卷積網絡,以增強對段落上下文特征的捕捉。其次,引入空間語義感知卷積網絡(SSACN) ,融合歷史圖像信息以指導當前圖像的生成。最核心的是,設計了一個語義重構約束,將生成的序列圖像解碼回文本描述,并與原始輸入文本進行比對,從而強制模型在語義層面保持高度一致。實驗結果表明,該方法在生成結果的圖像連貫性和視覺真實性方面有顯著提升,同時有效增強了文本描述與生成圖像之間的語義對齊度。
關鍵詞:文本生成序列圖像;生成對抗網絡;語義一致性;語義重構;文本注意力編碼器
中圖分類號:TP391" " " 文獻標識碼:A
文章編號:1009-3044(2025)21-0004-04
開放科學(資源服務) 標識碼(OSID) :
0 引言
文本生成圖像是計算機視覺領域的一個熱門研究問題,指的是將給定的文本描述生成與描述內容相對應的圖像。文本生成圖像已廣泛應用于文本分析、圖像處理、數據擴充、人機交互等領域。目前,常見的文本生成圖像方法有擴散模型[1]、自回歸模型[2]和生成對抗網絡模型[3]等。
生成對抗網絡受到了廣泛關注,通過鑒別器對圖像信息的約束,使生成對抗網絡模型能夠生成更逼真、更自然的圖像,其進展帶來了新的圖像生成方法和思想。
Reed等[4]提出了GAN-INT-CLS,在輸入中增加了文本描述用于指導生成器和判別器,首次將GAN應用于文本生成圖像任務,生成64×64的圖像。Li等[5]提出了StoryGAN,首次引出文本生成序列圖像的任務,學習從一段連續的文本描述生成序列圖像,但該任務仍然面臨時序連貫性不足、語義與圖像信息不匹配等問題。
為了提高單幀圖片生成質量,Johnson等[6]提出了一種利用場景圖生成圖像的Sg2im模型,解決了生成復雜場景圖像時變得混亂的問題。Takahiro等[7]提出了NoiseCollage,當利用文本和布局信息生成匹配度高的多對象圖像時,通過預估每個對象的噪聲并對其合并,實現對多對象圖像生成過程的布局控制。為了提高語義一致性,Hu等[8]提出了語義空間感知生成對抗網絡(SSA-GAN) 。Axel等[9]提出了StyleGAN-T,解決了大規模文本到圖像的穩定生成問題。
然而,面對連續文本描述輸入時,現有方法生成的圖像序列仍面臨兩大核心挑戰:一是對象間關系表征的精確度不足,二是序列圖像跨幀語義連貫性的缺失。因此,本文在SGGAN[10]的基礎上,提出了一種基于語義重構約束的段落生成序列圖像方法(SRCGAN,Semantic Reconstruction Constraint Generative Adversarial Networks) 。本文通過引入基于Transformer的文本注意力編碼器,增強上下文語義的建模能力;加入空間語義感知卷積網絡(Spatial-Semantic Aware Convolutional Network,SSACN) ,將歷史視覺特征與當前文本特征融合,提高序列圖像之間的連貫性;構建語義約束鑒別器,通過生成的圖像再次生成文本信息,并與原文本信息進行語義重構約束計算,實現跨模態語義的端到端對齊。
本文方法在CLEVR[11]數據集和CoDraw[12]數據集上進行測試,定量和定性實驗分析結果表明,所提出方法增強了生成模型的信息預測能力,改善了生成結果與文本描述的語義對齊度。
1 語義重構約束生成對抗網絡
1.1 網絡框架
基于語義重構約束的生成對抗網絡旨在創建一系列圖像來描述輸入的段落S。其模塊主要由兩部分組成:1) 圖像生成器基于時間卷積網絡、場景圖和空間語義感知卷積網絡,將段落S處理為上下文特征并傳入,進一步通過級聯細化網絡與空間語義感知卷積網絡融合,生成語義一致的序列圖像;2) 段落鑒別器和語義約束鑒別器,引導圖像生成過程,確保生成圖像序列的真實性和語義一致性。
SRCGAN的總體架構如圖1所示。給定段落[S=[s1, s2, s3, …, sn]],n為可變化的句子數量。首先,通過文本注意力編碼和時間卷積網絡,提取上下文相關的句子級特征信息[T=[t1, t2,t3, …, tn]]。隨后,對于序列中的每一步[k],句子特征[tk]被輸入場景圖生成器,產出場景布局[lk]。同時,句子特征[tk]與前一時刻生成的圖像特征一同輸入7個空間語義感知卷積網絡模塊(SSACN) ,生成圖像[gk]。最后,將布局信息[lk]輸入CRN,與圖像信息[gk]融合,生成當前時刻的圖像[ik]。整個生成過程由段落鑒別器和語義約束鑒別器共同監督。
1.2 文本注意力編碼器
如圖2所示,段落S的文本信息可由文本注意力編碼器提取。通過Transformer模塊,采用全局注意力機制,實現全局語義的關聯。編碼器能夠建立字符級的語義關聯網絡,輸出經過上下文增強的文本特征表示[fT]([1≤T≤n]) 。
將段落[S]輸入編碼器中,通過正弦位置編碼作為固定位置編碼器(FPE) ,解決并行處理導致的時序缺失問題。
編碼器模塊由三個組件組成:1) 多頭自注意力(MSA) 層,實現跨元素的全局語義關聯;2) 層標準化(LN) ,以穩定特征分布;3) 前饋網絡(FFN) 層,進行非線性變換。各組件間通過殘差連接實現梯度優化,最終得到計算后的文本特征向量。
1.3 時間卷積網絡和場景圖網絡
段落S經過編碼器處理后,可將信息按順序輸入時間卷積網絡(Temporal Convolutional Networks,TCN) 中,沿時間維度處理文本特征,模擬段落之間的時間關系,得到上下文特征[T=[t1, t2,t3, …, tn]]。如圖3所示,TCN由殘差塊和全連接層組成,可以根據每句文本在段落中的固定位置依次向后一句話傳遞前一句話的信息,從而極大限度地關聯不同文本間的信息。
接下來,對于序列中的每一步[k],TCN將處理后的上下文特征[tk]通過場景圖網絡獲得關系感知表示,解析為場景圖,其中每個節點表示不同區域和對象,邊表示區域之間的聯系。進而計算出每個區域的邊界框和分割掩膜,轉化為場景布局信息[lk]。
級聯細化網絡[13](Cascaded Refinement Networks,CRN) 是一種端到端的網絡。當給定場景布局[lk]時,經CRN能夠不斷輸入當前序列的信息,通過逐步細化圖像來生成高分辨率、逼真的圖像。
1.4 空間語義感知卷積網絡
本文方法的核心模塊為空間語義感知卷積網絡(SSACN) 。如圖4所示,SSACN的主要功能是動態地將當前文本特征與歷史視覺信息相融合,為圖像生成器提供空間感知的引導。
在當前時間步[k],SSACN的輸入包括:1) 當前時刻[k]的上下文特征[tk];2) 前一時刻[k-1]生成的圖像特征[gk-1](若[k=1],則為初始噪聲) ;3) 前一次迭代圖像[gr-1k]([r]為SSACN模塊數,[1≤r≤7]) 。其最終輸出為一個增強的、具有空間語義信息的256×256的圖像。
每次輸入的信息會經過7個SSACN塊處理,該SSACN模塊采用四級結構設計,包含:
1) 上采樣塊。采用雙線性插值算法對特征圖進行空間維度擴展,實現分辨率的提升。
2) 掩膜預測器。如圖4左側所示,輸入上采樣后的圖像特征圖,通過計算后輸出預測掩膜[mk]。[mk]標識出當前特征圖中需要文本信息增強的部分,提高了后續步驟生成圖像與文本的語義一致性。
3) 語義空間條件規范化層。如圖4右側所示,將預測掩膜[mk]分別與預處理的上下文特征逐元素相乘,得到更符合語義的圖像特征。同時,將其與前一時刻圖像[gk-1]和前一次迭代圖像[gr-1k]共同計算,生成結合歷史信息的當前迭代圖像[grk]。
4) 殘差塊。通過跨層特征復用機制,在文本引導的圖像生成過程中保持原始視覺內容的完整性,避免文本無關區域的語義失真。
第一個SSACN塊不存在前一時刻圖像,輸入的[gk-1]為噪聲向量經全連接層投影后的初始特征圖4×4×512。經過SSACN塊多次上采樣后,圖像特征圖的分辨率為256×256。段落S的上下文特征經SSACN模塊處理后,輸出的圖像信息與CRN輸出信息拼接,再經過卷積對齊維度,最終得到生成的序列圖像[I=[i1, i2, i3, …,in]]。
2 鑒別器結構
本文的鑒別器結構包括兩個部分:
1) 段落鑒別器。該鑒別器通過對抗性損失函數,評估生成圖像與真實圖像的分布差異。
2) 語義約束鑒別器。引入語義約束鑒別器,結合由卷積—LSTM架構構建的語義重構模塊,將生成圖像反向解碼為文本描述,確保生成圖像與輸入文本的語義對齊,并通過交叉熵損失函數量化兩個關鍵的一致性:①圖像—文本一致性,驗證重構后的文本與生成圖像內容的匹配度;②文本—文本一致性,驗證重構后的文本與原文本的語義對齊度。
語義重構模塊先通過生成的序列圖像[ik]重新生成對應語義的文本信息[wk],再將其與初始信息[sk]進行比較計算。若生成圖像與輸入文本的語義匹配時,其解碼后的結果應較好地保留高層語義特征,例如實體、屬性和空間關系等。該損失函數可表示如下:
[LRTA=-j=0L-1logpj(sj)] (1)
其中,[sj]為句子[s]中的第j個單詞,[pj]為預測概率分布,L為句中的單詞數。
該鑒別器通過分階段語義對齊策略計算重構損失,具體流程為:在生成過程的每個階段,基于當前輸入的文本描述計算階段語義重構損失[LRTAi],最終通過累加所有[i]個階段的損失值得到總體的語義重構損失。該損失函數可表示如下:
[LDMMAC=-t=0n-1LRTAi] (2)
其中,n表示序列的長度(即段落中句子的數量) ,[LRTAi]表示第i個階段的損失函數。
3 實驗與分析
3.1 實驗環境與數據集
本文基于PyTorch框架構建訓練和測試平臺,操作系統為Ubuntu 22.04 LTS,計算設備采用NVIDIA Tesla V100。實驗分別在CLEVR-SV和CoDraw-SV兩個標準數據集上完成模型的訓練和驗證。
3.2 實驗結果
在段落生成序列圖像任務中,本文通過編碼器對段落進行解析,檢測語義信息構建場景圖與預測區域,同時結合歷史序列圖像控制當前時刻的圖像生成。如圖5所示,以第二行圖像為例,SSACN模塊通過多模態特征融合機制,將[t-1]時刻的生成圖像與當前文本描述進行跨模態對齊,輸出包含空間語義關系的特征表示及區域預測掩膜。該特征進一步與場景圖編碼進行融合,最終通過級聯細化網絡生成時序連貫的時刻目標圖像。
表1為SRCGAN與主流方法(DF-GAN和SSA-GAN) 在CLEVR-SV數據集中的量化對比結果。與DF-GAN相比,SRCGAN的FID降低了0.43%,IS提高了0.86%,SSIM提高了3.84%,Acc評分提高了6.70%。與SSA-GAN相比,SRCGAN的FID降低了0.25%,IS提高了0.39%,SSIM提高了2.63%,Acc評分提高了3.33%。實驗數據表明,本文方法SRCGAN在CLEVR-SV數據集中的跨模態對齊能力、序列一致性和生成質量均有所提高。
表2為SRCGAN與主流方法(DF-GAN和SSA-GAN) 在CoDraw-SV數據集中的量化對比結果。與DF-GAN相比,SRCGAN的FID降低了0.55%,IS提高了1.45%,SSIM提高了4.44%,Acc評分提高了6.66%。與SSA-GAN相比,SRCGAN的FID降低了0.31%,IS提高了0.85%,SSIM提高了3.99%,Acc評分提高了6.66%。實驗數據表明,本文方法SRCGAN模型的結構相似性、準確度和精確度均有明顯提高。
如圖6所示,為SRCGAN模型在CoDraw數據集上的可視化結果。實驗結果顯示,模型能夠基于前序圖像特征和當前文本描述共同計算,準確生成符合語義要求的圖像內容,且生成結果在目標物體的空間位置關系方面表現出良好的連續性。
4 結論
本文提出了一種名為SRCGAN的新型段落到序列圖像生成方法,其核心貢獻在于引入了一種語義重構約束機制。首先,基于Transformer的文本編碼器有效提升了上下文語義的建模能力;其次,設計的SSACN模塊能夠生成更貼合文本描述的圖像序列;并且,在訓練過程中引入語義重構約束,通過將生成圖像反向解碼為文本并與原始文本描述進行對比,顯著提升了跨模態語義一致性。實驗結果表明,該約束與本文設計的文本注意力編碼器和空間語義感知模塊相結合,在CLEVR和CoDraw數據集上能夠有效提升生成圖像的真實性和語義一致性。
然而,當前方法在處理包含復雜場景或抽象概念的文本時仍有局限,這部分受限于現有訓練數據集的規模與多樣性。未來研究將探索更大規模、更多樣化的訓練數據,并研究如何將常識知識庫融入模型,以提升對復雜場景的理解與生成能力。
參考文獻:
[1] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text-conditional image generation with CLIP latents[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2022.
[2] YU J, XU Y, KOH J Y, et al. Scaling autoregressive models for content-rich text-to-image generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 14369-14379.
[3] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems,2014: 2672-2680.
[4] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]//Proceedings of the 33rd International Conference on Machine Learning, 2016: 1060-1069.
[5] LI Y T,GAN Z,SHEN Y L,et al.StoryGAN:a sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019.Long Beach,CA,USA.IEEE,2019:6322-6331.
[6] JOHNSON J,GUPTA A,LI F F.Image generation from scene graphs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1219-1228.
[7] SHIRAKAWA T,UCHIDA S.NoiseCollage:a layout-aware text-to-image diffusion model based on noise cropping and merging[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 16-22,2024,Seattle,WA,USA.IEEE,2024:8921-8930.
[8] LIAO W T,HU K,YANG M Y,et al.Text to image generation with semantic-spatial aware GAN[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:18166-18175.
[9] SAUER A, SCHWARZ K, KARRAS T, et al. StyleGAN-T: Unlocking the power of GANs for fast large-scale text-to-image synthesis[C]//Proceedings of the 40th International Conference on Machine Learning,2023: 30054-30075.
[10] 張瑋琪.基于生成對抗網絡的文本生成序列圖像方法研究[D].蘇州:蘇州科技大學,2022.
[11] JOHNSON J,HARIHARAN B,VAN DER MAATEN L,et al.CLEVR:a diagnostic dataset for compositional language and elementary visual reasoning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1988-1997.
[12] KIM J H,KITAEV N,CHEN X L,et al.CoDraw:collaborative drawing as a testbed for grounded goal-driven communication[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence,Italy.Stroudsburg,PA,USA:ACL,2019:6495-6513.
[13] CHEN Q F,KOLTUN V.Photographic image synthesis with cascaded refinement networks[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:1520-1529.
[14] LI W B,ZHANG P C,ZHANG L,et al.Object-driven text-to-image synthesis via adversarial training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019.Long Beach,CA,USA.IEEE,2019:12166-12174.
【通聯編輯:唐一東】