摘 要:為解決現有文本引導圖像修復模型在處理文本圖像融合時模態間信息缺乏高效融合導致修復結果不真實且語義一致性差的問題,提出一種通過條件批量歸一化融合圖像文本特征實現文本引導的圖像修復模型BATF。首先,通過空間區域歸一化編碼器對破損和未破損區域分別歸一化,減少了直接特征歸一化對均值方差偏移的影響;其次,將提取的圖像特征與文本特征向量通過深度仿射變換進行融合,增強了生成器網絡特征圖的視覺語義嵌入,使圖像和文本特征得到更有效的融合;最后,為增強修復圖像的紋理真實性及語義一致性,設計了一種高效鑒別器并引入了目標感知鑒別器。在CUB bird這個帶有文本標簽的數據集上進行定量和定性實驗表明,提出模型在PSNR(peak signal-to-noise ratio)、SSIM (structural similarity)以及MAE(mean absolute error)度量指標分別達到了20.86、0.836和23.832。實驗結果表明,BATF模型對比現有的MMFL和ALMR模型效果更好,修復的圖像既符合給定文本屬性的要求又具有高度語義一致性。
關鍵詞:文本引導;圖像修復;文本圖像融合;批量歸一化;語義一致性
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2023)07-046-2223-06
doi:10.19734/j.issn.1001-3695.2022.10.0528
Text-guided image inpainting with deep fusion of image text features
Lan Hong,Guo Fucheng?
(College of Information Engineering,Jiangxi University of Science amp; Technology,Ganzhou Jiangxi 341000,China)
Abstract:In order to solve the problem that the existing text guided image inpainting models lack efficient fusion of information between modes when dealing with text image fusion,resulting in unreal repair results and poor semantic consistency,this paper proposed a text guided image inpainting model BATF,which integrated image text features through conditional batch normalization.Firstly,it normalized the damaged and undamaged regions respectively by the spatial region normalization encoder to reduce the influence of direct feature normalization on the mean variance shift.Secondly,through the depth affine transformation,it fused the extracted image features and the text feature vectors to enhance the visual semantic embedding of the generator network feature map,so that the image and the features could be fused more effectively.Finally,it designed an efficient discriminator and introduced a target perception discriminator in this paper to enhance the texture authenticity and semantic consistency of the repaired image.Quantitative and qualitative experiments on CUB bird,a text-labeled dataset,show that the proposed model achieves 20.86,0.836,and 23.832 for PSNR,SSIM,and MAE,respectively.BATF model is better than the existing models MMFL and ALMR,and the repaired images both meet the requirements of given text attributes and have high semantic consistency.
Key words:text guidance;image inpainting;text image fusion;batch normalization;semantic consistency
0 引言
圖像修復旨在重建破損或遮掩圖像的同時具有真實性和一致性。作為一個重要且極具挑戰性的工作,圖像修復已經能夠做到多樣化修復高保真圖像[1,2],修復的圖像人眼很難辨別出修復的痕跡,但當前的圖像修復方法大多還是漫無目的非多樣可控修復[3,4],且對大面積破損圖像修復不友好[5,6]?;谌粘I钪懈鶕D像的描述還原圖像的聯想下,對此本文提出利用自然語言描述中的準確信息對圖像修復過程進行指導。
文本導向的圖像修復可以通過簡單的自然語言描述完成用戶對圖像的修復偏好。如圖1所示,展示了本文模型與文獻[7,8]通過自然語言描述實現圖像修復的過程。
文本導向的圖像修復任務相較于傳統的基于深度學習的圖像修復任務更具可控性;相較于文本導向的圖像生成任務限制性更強,不僅需要生成自然語言描述的內容,而且生成內容與原始圖像內容需要連貫,語義上保持一致性。所面臨的挑戰主要有以下三個方面:a)模型如何將自然語言的描述內容與生成圖像的語義進行共享;b)模型如何保證生成圖像與原始圖像的空間位置和特征相對齊;c)模型如何避免冗余的文本信息可能對修復的干擾。
針對上述問題,Zhang等人[9]提出了一種文本引導的雙重注意力對偶修復網絡TDANet模型,該模型通過相互注意比較描述性文本和互補圖像區域來提取有關損壞區域的顯式語義信息;Lin等人[7]提出了一種多模態融合的生成對抗網絡MMFL模型,該模型通過構建圖像自適應詞需求模塊過濾有效文本信息,引入的文本引導的注意力損失更加關注文本描述中的實體,并使用文本—圖像—文本訓練模式來生成視覺上和語義上一致的圖像;Wu等人[8]提出了一種兩階段雙注意力生成對抗網絡ALMR模型,該模型通過雙注意力模塊將單詞級和句子級文本特征結合起來作為兩階段生成粗細粒度紋理的指導,引入的掩碼重建模塊使用關于對象的給定文本描述來懲罰感興趣對象的恢復,使缺失部分生成的圖像的語義性更強,修復的圖像整體上更加真實且符合要求。
但上述模型要么忽視了視覺上語義的一致性,要么直接使用跨模態注意力計算圖像中每個子區域的單詞上下文向量,實現單詞與圖像對應區域的映射。使用高級語義的自然語言控制低級語義的圖像子區域,修復圖像通常在視覺上存在不夠真實的問題。
本文模型bimodal affine transform fusion for text-guided image inpainting(BATF)將仿射變換用于融合文本和圖像特征進行圖像修復,改進了僅使用跨模態注意力融合文本圖像特征導致修復圖像不理想的問題[7,8]。針對未靈活處理缺失區域和未缺失區域信息的問題[10],采用空間區域歸一化編碼器對圖像的破損和未破損區域分別進行特征歸一化。為了使生成的圖像紋理更加逼真,改進傳統的PatchGAN[11]鑒別器,提出GLSM-PatchGAN鑒別器,能有效解決修復圖像不夠真實的問題;同時為了給生成器提供足夠的訓練反饋引入目標感知鑒別器(target-aware discriminator)[12],目標感知鑒別器關注文本描述與修復圖像的語義一致性,可以解決修復區域與整體圖像的語義完整性問題。
通過在CUB bird[13] 這個帶有文本標簽的數據集上進行相關實驗均證明了本文模型的可行性和優越性,最終的實驗結果表明本文模型無論是在定性和定量上都優于MMFL[7]模型和ALMR[8]模型。
1 相關知識介紹
1.1 文本圖像融合
現實世界的信息以各種模態形式存在,在文本引導圖像編輯的研究中最常見的問題是文本模態與圖像模態的有效融合。早期的文獻[14,15]采用堆疊架構,提出將文本模態進行線性變換,然后將圖像和文本進行特征拼接,但是這種融合不能充分利用文本信息且融合不是有效的;為增強模態之間的特征融合,文獻[16~18]將跨模態注意力用于文本圖像特征的融合,利用跨模態注意力在每個細化階段為圖像子區域重復選擇文本中重要的單詞,通過計算圖像每個子區域的單詞上下文向量,實現單詞在圖像上的映射,同時為確保文本與生成圖像的語義一致性常常引入深度注意力多模態相似度模型(DAMSM)網絡[16]、循環一致性[19]網絡和孿生神經網絡[20]。這種跨模態注意力生成圖像被強制在語義上與文本一致,生成過程中生成與最相關單詞對應的子區域特征。隨著生成圖像的尺度增加,計算成本也顯著增加,同時由于文本圖像之間語義的差異,自然語言控制相對復雜的圖像生成效果往往欠佳。
最近的一些模型提出使用條件批量歸一化進行文本圖像的深度融合。DF-GAN[12]通過在每個階段學習文本向量的仿射變換參數,將圖像的特征圖堆疊仿射進行文本圖像之間的融合;DE-Net[21]通過使用兩個MLP來預測卷積核的縮放參數和位移參數,將通道和空間動態組合;SSA-GAN[22]通過仿射變換在空間上由基于當前文本圖像融合過程預測的語義掩碼引導文本圖像之間的融合。這些文本生成圖像模型能夠生成與文本描述相符的圖像,生成圖像與文本能夠有效深度融合對齊。將文本引導圖像生成的仿射變換引入到圖像修復實現文本引導圖像修復。
1.2 文本引導圖像修復
隨著Pathak等人[23]提出上下文編碼器網絡將對抗性訓練用于修復并實現破損孔洞的語義填充,基于深度學習的圖像修復方法逐漸成為圖像修復的主流方法;Liao等人[24]在上下文編碼器基礎上提出基于邊緣的上下文解碼器,通過提取圖像的邊緣信息,利用全卷積網絡修復缺失區域的邊緣信息,最后將修復的邊緣信息與原始破損圖像用Context-Encoder進行修復;Zeng等人[25]基于U-Net結構提出了一種金字塔上下文編碼網絡PEN-Net,通過對全分辨率輸入上下文語義進行編碼,并將學習到的語義特征解碼為圖像信息用于圖像的修復;Zeng等人[3]基于GAN模型提出了一種聚合上下文轉換GAN模型,通過捕獲信息豐富的遠程上下文以增強上下文推理;Zhao等人[1]提出UCTGAN模型,通過優化編碼特征和N(0,1)分布之間的KL散度將原始破損圖像與目標圖像投影到一個公共空間,以實現圖像修復的多樣性。
上述圖像修復模型能夠使修復的圖像在視覺上符合語義一致性,并且修復的圖像具有多樣性。不過現有的多元圖像修復[2,26,27]往往缺乏可控性,如果缺失區域與非缺失區域沒有較強的關聯性,傳統的修復模型很難得到滿意的修復結果。為了使圖像修復更加可控且獲得更多已知信息,最近有一些工作提出使用文本引導圖像修復[7~9,28],這種文本引導圖像修復的方法需要同時處理文本與圖像兩種模態數據,通過從文本描述中提取有效的單詞和文本語義信息,并將自然語言描述與原始破損圖像信息進行融合。
2 BATF模型構建
針對當前文本引導圖像修復存在的模態間特征不能充分融合以及修復圖像缺乏細粒度的問題,本文提出一種文本導向的圖像修復模型。BATF的系統結構如圖2所示。首先使用空間區域歸一化編解碼器對輸入圖像的特征進行提取,提取的圖像特征與文本編碼器編碼的文本特征向量一同輸入到融合模塊,在融合階段圖像特征先與詞進行注意力融合,再與文本向量使用堆疊的仿射變換塊進行深度融合;然后將融合結果返回空間區域歸一化編解碼器,經過解碼后得到粗修圖像,再將粗修圖像輸入一對編解碼器得到最后輸出的圖像;最后將輸出的圖像輸入到全局和局部軟掩碼PatchGAN(GLSM-PatchGAN)鑒別器和目標感知鑒別器中進行鑒別。
2.1 基于空間區域歸一化的編解碼器
針對現有的圖像修復模型對破損圖像編碼大多數是使用特征歸一化[2,3,25,26],往往忽略了破損區域對歸一化均值和方差造成偏移影響的問題。借鑒文獻[4]的方法,本文采用空間區域歸一化,其能夠通過輸入的破損圖像和破損部分掩碼將圖像完整部分和缺失部分劃分為不同的區域,并分別對每個區域的均值和方差進行歸一化。
通過仿射變換增強損壞區域和未損壞區域的融合,空間區域歸一化編碼器的結構如圖3所示。空間區域歸一化的目的是將損壞區域與未損壞區域分開進行歸一化。假設具有掩碼區域的最大像素值為255,將損壞圖像直接進行歸一化會使未損壞區域的均值向-255移動,與完整圖像歸一化和分開歸一化相比,直接歸一化會使得未損壞區域的分布變窄,從0向-255移動,它的方差也會增加。進行空間區域歸一化是將圖像的特征分布轉移并且縮放到一個小的區域中,使得均值為0,方差為1??臻g區域歸一化的分開歸一化策略能夠減少內部的協變量偏移影響,分別對每個區域進行歸一化??臻g區域歸一化的公式如式(1)所示。
2.2 基于深度仿射變換的生成器
在文本引導的圖像修復研究中,關鍵是如何將現有的破損圖像信息與文本描述信息相互融合,即文本描述指導破損區域的重建。如圖4所示是BATF模型的生成器結構,它的目標是根據融合的文本、圖像兩種模態信息對輸入圖像的破損區域進行內容修復,即I^=G(Im,t)。其中:Im表示輸入的原始破損圖像;t表示與原始破損圖像相匹配的文本描述;I^表示生成器根據原始破損圖像和文本描述生成的修復圖像。
文本引導的圖像修復需要從給定的文本描述中獲取豐富的文本語義信息,利用預訓練的文本編碼器模型將輸入的文本描述編碼為語義表示,得到的句子級特征指導破損區域完成修復,得到的詞級特征用于增強修復的細節。為了能夠充分利用文本信息,文本編碼器使用文獻[16]提供的文本編碼器預訓練模型,該文本編碼器是一個雙向的LSTM[29],由于其強大的編碼能力在文獻[7,8,12,16,18,21]中被廣泛使用,通過最小化深度注意力多模態相似度模型(DAMSM)[16]損失,并使用文本與真實的圖像對進行預訓練。此外對編碼后的文本使用條件增強方法[14]平滑文本表示,確保修復圖像的多樣性。
在輸入圖像的處理通道,使用空間區域歸一化編碼器獲取原始破損圖像的特征,再將得到的圖像特征與文本特征進行仿射變換融合,融合后再經過解碼器重構輸出圖像。在修復過程中,生成器根據輸入的文本描述指導圖像的破損區域重建,同時保留了輸入的破損圖像中與文本描述不相關的內容。
對原始破損圖像特征的提取和圖像文本特征的融合均使用仿射變換進行歸一化。相較于特征拼接和跨模態注意融合圖像文本特征修復圖像,條件批量歸一化通過一系列的仿射變換來進行通道的縮放和移動,通過文本描述調節批量歸一化,增強了生成器網絡特征圖的視覺語義嵌入,使圖像和本文特征得到更有效的融合。文獻[22]將語義空間條件批量歸一化用于文本到圖像的生成中,生成的圖像質量優于文獻[12,18]。
條件批量歸一化通過兩個MLP層分別學習調制參數γ和β,從給定的文本中學習調制參數的過程如式(6)所示。
2.3 GLSM-PatchGAN鑒別器
BATF模型的鑒別器如圖2所示,通過訓練鑒別器為修復圖像的掩碼內容生成器提供反饋,保證圖像生成內容的真實性和多樣性。同時,對于文本導向的圖像修復任務,應該確保三點:圖像修復的掩碼內容生成是否足夠真實;修復完成的圖像是否與文本描述相互匹配;修復完成后的圖像是否符合全局一致性。為此本文提出采用全局和局部軟掩碼PatchGAN(GLSM-PatchGAN)鑒別器增強圖像修復的細粒度,同時為確保生成器生成的圖像內容更加逼真、圖像和文本語義更加一致,引入目標感知鑒別器,對于全局和局部軟掩碼鑒別器,如圖5所示,當圖像缺失區域面積較大且填充區域有多種可能的結果,深度修復模型根據重建損失重建原始破損圖像往往生成解決方案的平均值,導致圖像的修復區域紋理模糊。PatchGAN鑒別器網絡由幾層標準卷積組成,通過輸入原始圖像或者真實圖像來輸出預測圖像,用于區分真實圖像的補丁和合成圖像的補丁,這種評判機制忽略了未破損圖像區域就是真實圖像這一事實,將修復完成的圖像中所有補丁預測為假。提出的模塊在PatchGAN[11]的鑒別器網絡架構基礎上改進,將修復掩碼向下采樣作為掩碼預測任務的基本事實,軟掩碼通過高斯濾波獲得,將真實上下文與圖像缺失區域合成的補丁區分開來,只對缺失區域的合成補丁預測來優化生成器,通過激勵鑒別器從缺失區域之外的真實上下文中分割缺失區域的合成補丁,反過來促進生成器合成更加逼真的紋理。此外,使用全局和局部鑒別器既考慮了整個圖像是否真實,也用于區分局部合成圖像區域是否真實。
對于目標感知鑒別器(target-aware discriminator),它是由單向輸出(one-way output)和匹配感知梯度懲罰(MA-GP)組成,用于促進合成逼真且具有語義一致性的圖像。one-way output 將圖像特征與文本向量連接,對生成器進行優化,MA-GP是一種用于增強圖像文本語義一致性的策略。對真實數據的梯度懲罰會降低真實數據點及其周圍的梯度,對真實數據點周圍的損失函數表面進行平滑處理,有助于修復圖像合成的數據點收斂到真實數據點,在文獻[12,22]中被證明簡單且有效。將文本向量與修復后的圖像中提取的特征進行連接,再通過兩個卷積層計算對抗性損失。在文本導向的圖像修復任務中能夠有效地指導修復模型修復破損或遮掩的圖像,并使修復后的圖像更好地與文本描述相匹配。為確保圖像文本的一致性,對文本匹配的真實數據應用梯度懲罰,將真實圖像與對應的文本描述應用梯度懲罰,通過使用MA-GP損失作為鑒別器的正則化,模型能夠有效地收斂到文本匹配的真實數據。
2.4 損失函數
文本引導的圖像修復任務修復模型的生成器損失和鑒別器損失函數,均通過優化函數最小化來訓練。
3 實驗及結果分析
本文模型BATF在CUB bird[13]數據集上與基線模型MMFL和ALMR進行對比實驗。MMFL是一種詞注意力監督的文本圖像融合模型,該模型提出了一種文本指導注意力損失來監督文本和圖像的融合;ALMR是一種具有雙注意的文本圖像融合的模型,為使修復的圖像結構完整語義一致,該模型使用了一種語義分割掩碼指導圖像的修復。
3.1 數據集
實驗使用的是文本引導圖像修復中常用的帶文本標簽的CUB bird數據集,包含8 855張訓練圖像和2 933張測試圖像,每張圖像有10個相應的文本描述。BATF模型參照文獻[8]對數據集進行了預處理。
3.2 實驗設置
本文基于PyTorch 1.71框架對提出的BATF模型進行了訓練和測試,使用的顯卡型號為NVIDIA GeForce RTX3090,顯存為24 GB。對于輸入的原始圖像,將圖像的尺寸設置為256×256,在輸入圖像的正中間生成一塊占圖像四分之一面積大小的矩形掩碼用于遮蔽圖像信息。對于輸入的文本描述,使用一個雙向的LSTM[29]編碼器進行文本信息處理,并對編碼后的文本使用條件增強方法[14]進行平滑處理。
本文模型使用Adam優化器[31]對參數進行優化,學習率設置為0.000 2,β1設置為0.5,β2設置為0.999,批量大小設置為4,迭代數設置為300。在修復的過程中同時使用到圖像的翻轉、旋轉和隨機裁剪以及文本數據增強等技術。在實驗中發現將λrec的值設置為0.5,λG的值設置為0.002,λDAMSM的值設置為0.001,λTGA的值設置為1,能夠提高圖像的收斂速度。
3.3 定量實驗
圖像修復結果的好壞是一個主觀的問題,特別是文本引導的圖像修復可以根據文本描述生成任何合理的描述內容,更增加了修復圖像質量評判的主觀性。為了對修復圖像的結果有更加客觀的度量,除了傳統的圖像修復評價指標,文本導向的圖像修復還需要評估圖像文本是否對齊,修復圖像是否保留了與文本描述無關的內容不變。
為此本文引用了傳統的圖像修復評估指標進行規則掩碼的定量對比實驗。其中,峰值信噪比(peak signal-to-noise ratio,PSNR)能夠反映真實圖像和修復圖像在紋理以及像素層面的差別。使用結構相似度(structural similarity,SSIM)用于說明真實圖像和修復圖像在結構、亮度以及對比度上的差別。平均絕對誤差(mean absolute error,MAE)能夠反映預測值與真實值之間的吻合程度,用于比較圖像質量誤差。
如表1所示,本文算法在PSNR、SSIM以及MAE這三個評估指標上均優于基線算法。本文算法在PSNR上相較于MMFL和ALMR分別提升了5.14%和7.14%,在SSIM上相較于MMFL和ALMR分別提升了3.21%和2.70%,在MAE上相較于MMFL和ALMR分別降低了11.98%和11.87%。實驗數據表明,本文算法在局部紋理細節、全局結構以及語義感知層面均優于對比的基線算法。
3.4 定性實驗
圖像修復效果的優劣除了客觀的評價指標,也能從實際的圖像修復效果中反映, 為了更直觀地展現本文模型與兩個基線模型的差異,如圖6所示,展示了本文BATF模型和MMFL、ALMR在CUB bird數據集上的一些對比結果。通過對比修復后的圖像可以看出,MMFL和ALMR都能將圖像與文本描述進行融合,修復部分的內容與文本描述的內容相一致。但是這兩種基線方法對圖像的修復都存在一定的缺陷,相較于本文算法修復的圖像缺乏真實感和細膩度。例如,MMFL模型修復的圖像內容上不夠細膩,觀感上不夠真實;ALMR模型修復的圖像存在內容殘缺和細節模糊的問題。
3.5 消融實驗
提出的BATF算法引入的融合模塊顯著提高了文本圖像融合性能。另外,為了進一步地提升修復圖像的紋理結構,設計了一種全局和局部軟掩碼PatchGAN(GLSM-PatchGAN)鑒別器,同時為了保證生成圖像具有語義一致性引入了目標感知鑒別器。為了驗證它們的有效性,本文分別評估了它們對BATF的影響,包括僅使用GLSM的BATF(BATF_GLSM),以及使用目標感知鑒別器和普通全局和局部鑒別器的BATF(BATF_TAD_GL)。表2展示了它們在CUB bird數據集上進行定量評估的結果。圖7展示了它們的一些定性比較實驗效果。定量實驗和定性實驗都表明了組件的重要性以及能夠使模型更好地修復圖像。
如表2所示,分別在PSNR、SSIM以及MAE這三個定量指標上評估了消融的結果。完整模型的PSNR、SSIM相較于BATF_GLSM和BATF_TAD_GL都得到了提升,且完整模型的MAE相比BATF_GLSM和BATF_TAD_GL降低得比較顯著。實驗數據表明,GLSM-PatchGAN鑒別器和target-aware discriminator都對模型的性能提升有效,同時使用對模型性能的提升效果最好。
為進一步驗證GLSM-PatchGAN鑒別器的有效性及target-aware discriminator一起使用對圖像的整體修復提升效果,圖7比較了它們單獨使用和一起使用的效果。可以觀察到完整的模型能夠根據文本描述顏色如brown、white、orange等,以及部位如breast、wing、beak等準確糾正細節屬性,且完整模型修復的圖像更具細粒度,具有較好的語義一致性。
4 結束語
本文提出了一種條件批量歸一化融合圖像文本特征的文本導向的圖像修復模型BATF。首先通過空間區域歸一化分別對原始破損圖像的缺失區域和非缺失區域進行歸一化,避免了缺失區域對歸一化均值和方差造成偏移的影響,實現了對非缺失區域的編碼語義提?。唤又褂谜Z義空間感知批量歸一化使模型在圖像和文本兩種模態信息的融合上更加有效。此外,為了解決修復的圖像重建部分不夠真實的問題,BATF模型設計了全局和局部軟掩碼PatchGAN(GLSM-PatchGAN),該鑒別器模型能夠為生成器提供足夠精細的反饋,從而有效提高了修復圖像的質量。通過大量的實驗證明,BATF模型可以根據文本描述信息與破損圖像高效融合準確修復圖像破損區域的內容,使得修復的圖像具有高語義性,同時修復后的圖像與基線模型相比內容更豐富且紋理更逼真。本文希望在下一步的工作中,對如何高效處理不同階段的圖像特征信息以及如何將提取的文本關鍵特征信息與對應圖像特征更好融合等問題進行研究,以期待得到更好的修復效果。
參考文獻:
[1]Zhao Lei,Mo Qihang,Lin Sihuan,et al.UCTGAN:diverse image inpainting based on unsupervised cross-space translation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5740-5749.
[2]Zheng Chuanxia,Cham T J,Cai Jianfei.Pluralistic image completion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1438-1447.
[3]Zeng Yanhong,Fu Jianlong,Chao Hongyang,et al.Aggregated contextual transformations for high-resolution image inpainting[J/OL].IEEE Trans on Visualization and Computer Graphics,2022,29(7):3266-3280.
[4]Yu Tao,Guo Zongyu,Jin Xin,et al.Region normalization for image inpainting[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12733-12740.
[5]鄔開俊,單宏全,梅源,等.基于注意力和卷積特征重排的圖像修復[J].計算機應用研究,2023,40(2):617-622.(Wu Kaijun,Shan Hongquan,Mei Yuan,et al.Image restoration based on attention and convolutional feature rearrangement[J].Application Research of Computers,2023,40(2):617-622.)
[6]王倩娜,陳燚.面向圖像修復的增強語義雙解碼器生成模型[J].中國圖象圖形學報,2022,27(10):2994-3009.(Wang Qianna,Chen Yi.An enhanced semantic dual decoder generation model for image restoration[J].Chinese Journal of Graphics,2022,27(10):2994-3009.)
[7]Lin Qing,Yan Bo,Li Jichun,et al.MMFL:multimodal fusion learning for text-guided image inpainting[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1094-1102.
[8]Wu Xingcai,Xie Yucheng,Zeng Jiaqi,et al.Adversarial learning with mask reconstruction for text-guided image inpainting[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:3464-3472.
[9]Zhang Lisai,Chen Qingcai,Hu Baotian,et al.Text-guided neural image inpainting[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1302-1310.
[10]陳曉雷,楊佳,梁其鐸.結合語義先驗和深度注意力殘差的圖像修復[J/OL].計算機科學與探索.(2022-11-28).http://kns.cnki.net/kcms/detail/11.5602.TP.20221021.1739.002.html.(Chen Xiaolei,Yang Jia,Liang Qiduo.Combining semantic prior and deep attention residuals for image restoration[J/OL].Computer Science and Exploration.(2022-11-28).http://kns.cnki.net/kcms/detail/11.5602.TP.20221021.1739.002.html.)
[11]Isola P,Zhu J Y,Zhou Tinghui,et al.Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1125-1134.
[12]Tao Ming,Tang Hao,Wu Fei,et al.DF-GAN:a simple and effective baseline for text-to-image synthesis[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:16494-16504.
[13]Wah C,Branson S,Welinder P,et al.The Caltech-UCSD birds-200-2011 dataset,CNS-TR-2011-001[R].Pasadena,CA:California Institute of Technology,2011.
[14]Zhang Han,Xu Tao,Li Hongsheng,et al.StackGAN:text to photo-realistic image synthesis with stacked generative adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5908-5916.
[15]Zhang Han,Xu Tao,Li Hongsheng,et al.StackGAN+:realistic image synthesis with stacked generative adversarial networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(8):1947-1962.
[16]Xu Tao,Zhang Pengchuan,Huang Qiuyuan,et al.AttnGAN:fine-grained text to image generation with attentional generative adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1316-1324.
[17]Li Bowen,Qi Xiaojuan,Lukasiewicz T,et al.Controllable text-to-image generation[EB/OL].(2019-12-19).http://doi.org/10.48550/arxiv.1909.07083.
[18]Zhu Minfeng,Pan Pingbo,Chen Wei,et al.DM-GAN:dynamic memory generative adversarial networks for text-to-image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:5795-5803.
[19]Qiao Tingting,Zhang Jing,Xu Duanqing,et al.MirrorGAN:learning text-to-image generation by redescription[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1505-1514.
[20]Yin Guojun,Liu Bin,Sheng Lu,et al.Semantics disentangling for text-to-image generation[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2322-2331.
[21]Tao Ming,Bao B K,Tang Hao,et al.DE-Net:dynamic text-guided image editing adversarial networks[EB/OL].(2022-08-20).http://doi.org/10.48550/arxiv.2206.01160.
[22]Liao Wentong,Hu Kai,Yang M Y,et al.Text to image generation with semantic-spatial aware GAN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:18187-18196.
[23]Pathak D,Krahenbuhl P,Donahue J,et al.Context encoders:feature lear-ning by inpainting[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2536-2544.
[24]Liao Liang,Hu Ruimin,Xiao Jing,et al.Edge-aware context encoder for image inpainting[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:3156-3160.
[25]Zeng Yanhong,Fu Jianlong,Chao Hongyang,et al.Learning pyramid-context encoder network for high-quality image inpainting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:1486-1494.
[26]Cai Weiwei,Wei Z.PiiGAN:generative adversarial networks for pluralistic image inpainting[J].IEEE Access,2020,8:48451-48463.
[27]Wan Ziyu,Zhang Jingbo,Chen Dongdong,et al.High-fidelity pluralistic image completion with transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:4672-4681.
[28]李海燕,陳杰,余鵬飛,等.雙重模態文本引導的圖像修復算法[J/OL].北京航空航天大學學報.(2022-12-08).https://doi.org/10.13700/j.bh.1001-5965.2021.0720.(Li Haiyan,Chen Jie,Yu Pengfei,et al.Dual modal text-guided image restoration algorithm[J/OL].Journal of Beijing University of Aeronautics and Astronautics.(2022-12-08).https://doi.org/10.13700/j.bh.1001-5965.2021.0720.)
[29]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Trans on Signal Processing,1997,45(11):2673-2681.
[30]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:1440-1448.
[31]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).http://doi.org/10.48550/arxiv.1412.6980.