李啟航,馮龍,楊清,王雨,耿國華*
基于多尺度密集特征融合的單圖像翻譯
李啟航1,馮龍1,楊清1,王雨2,耿國華1*
(1.西北大學 信息科學與技術學院,陜西 西安 710127;2.西北大學 數學學院,陜西 西安 710127)
為了解決現有的單圖像翻譯模型生成的圖像質量低、細節特征差的問題,本文提出了基于多尺度密集特征融合的單圖像翻譯模型。該模型首先借用多尺度金字塔結構思想,對原圖像和目標圖像進行下采樣,得到不同尺寸的輸入圖像。然后在生成器中將不同尺寸的圖像輸入到密集特征模塊進行風格特征提取,將提取到的風格特征從原圖像遷移到目標圖像中,通過與判別器不斷的博弈對抗,生成所需要的翻譯圖像;最后,本文通過漸進式增長生成器訓練的方式,在訓練的每個階段中不斷增加密集特征模塊,實現生成圖像從全局風格到局部風格的遷移,生成所需要的翻譯圖像。本文在各種無監督圖像到圖像翻譯任務上進行了廣泛的實驗,實驗結果表明,與現有的方法相比,本文的方法訓練時長縮短了75%,并且生成圖像的SIFID值平均降低了22.18%。本文的模型可以更好地捕獲源域和目標域之間分布的差異,提高圖像翻譯的質量。
單圖像翻譯;圖像風格遷移;生成對抗網絡;密集特征融合;多尺度結構
無監督圖像到圖像的翻譯(Unsupervised Image-to-Image Translation, UI2I)旨在學習源圖像域向目標圖像域轉換的映射函數,在改變源圖像域風格特征的同時保持其幾何形狀不變。例如,馬到斑馬的轉換,風景照到藝術畫的轉換等等。UI2I在醫學圖像[1]、超分辨率[2]、圖像上色[3]、風格遷移[4-5]、圖像遙感[6]等應用上具有出色表現,因此受到了機器學習和計算機視覺領域研究人員的廣泛關注。
近年來,隨著人工智能的興起,生成對抗網絡(Generative Adversarial Network, GAN)的出現推動了UI2I領域的進一步發展。GAN[7]由一個生成器和一個判別器組成,其本質是生成器和判別器的相互對抗與博弈。雖然GAN可以成功地用于生成視覺逼真的圖像,但仍存在一些挑戰。例如,在沒有成對訓練樣本的UI2I任務中,GAN存在對抗損失無約束的問題,即源域和目標域之間可能存在多個映射,導致模型訓練不穩定、圖像翻譯不能成功,這些問題限制了其實際的應用。針對這個問題,CycleGAN[8]、DiscoGAN[9]和DualGAN[10]引入了循環一致性損失,學習從目標域到源域的反向映射,并度量重建圖像與輸入圖像是否相同。循環一致性損失能夠確保翻譯后的圖像具有與目標域相似的紋理信息,且不會發生幾何變化。
盡管CycleGAN等[8-10]方法成功地解決了在UI2I任務中損失無約束的問題,但是這些方法仍需要大量的未配對圖像進行訓練。在實際使用中收集大量的未配對圖像難度較大,所以此方法不具有普適性。為了解決數據集的問題,One-Shot無監督學習通過使用源域和目標域的單幅圖像實現風格的轉換,在UI2I中得到了廣泛的應用。最近提出的SinGAN[11]研究表明,因為圖像信息駐留在構成圖像補丁的內部統計信息中,所以可以僅從單個自然圖像中提取大量信息。但它僅限于學習單個圖像分布,不適合UI2I中一組圖像之間的轉換。而Lin等人[12]提出的TuiGAN,通過在同一尺度上使用循環一致性損失[8]來約束兩幅圖像之間的結構差異,實現了兩幅未配對圖像的翻譯。然而,這種僅僅依靠連續改變感受野來提取兩幅圖像之間潛在關系的方案,并不能有效地在不同尺度上捕捉源域和目標域之間分布的差異,這通常伴隨著大量噪聲的產生,導致生成圖像質量低,出現偽影、扭曲等不符合人類視覺的部分。所以現有的One-Shot方法在圖像風格的提取中存在著特征提取不準確、風格轉換不全面等問題。因此,如何在少樣本條件下保證翻譯圖像幾何形狀不發生改變并實現風格的準確遷移是目前UI2I任務的最大挑戰。
針對以上問題,本文提出了一種新的單圖像翻譯模型。該模型基于密集特征[13]的多尺度融合[14],同時引入漸進式增長生成器[15],通過端到端的并行訓練方式將生成的圖像從全局結構逐漸細化到局部細節,并在訓練過程中不斷進行密集特征模塊的迭代增長,從而實現不同尺度上特征信息的細粒度提取。實驗分析表明,在多個具有挑戰性的圖像翻譯任務中,與最新的UI2I方法相比,本文的方法可以更好地保留圖像細節,使生成圖像的SIFID值[11]平均降低22.18%,同時減少75%模型訓練時間。

如圖1所示,為了更精確地捕捉不同尺度的原圖像和目標圖像之間分布的差異,本文利用密集特征模塊[13]來進行圖像特征的提取和融合,加強了圖像特征的復用,進而不斷優化翻譯圖像的細節特征。其次,本文引入了漸進式增長生成器[15],在訓練過程中不斷添加新的密集特征模塊來增加生成器的大小,同時共享上一階段訓練得到的權重,以端到端的方式并行訓練,從而加速了模型的收斂速度。最后,本文通過對抗損失約束生成器生成與目標圖像在視覺上相似的翻譯圖像,采用空間相關性損失[16]來有效地保持原圖像與翻譯圖像場景結構的一致性,采用循環一致性損失[8]解決模式崩潰問題。

圖1 A圖像域轉換到B圖像域的網絡結構
與傳統UI2I方法不同的是,本文的方法僅需兩幅未配對的圖像即可完成各種UI2I任務且圖像翻譯質量高、模型訓練速度快、能夠保留更多的圖像細節特征、生成更加真實的圖像。
研究表明[17],低維特征對于保持圖像結構貢獻較大,高維特征對于保持圖像紋理和顏色非常重要。盡管高維特征擁有較為豐富的細節信息,但是其所包含的語義信息較為匱乏。并且在深度學習網絡中,隨著網絡深度的加深,梯度消失問題會愈加明顯[18],從而導致低維特征不能得到有效地利用。
針對以上問題,本文基于DenseNet設計了一種密集特征融合模塊。首先,采用三個3×3卷積從輸入圖像提取特征。其次,將各個階段提取到的圖像特征進行拼接融合,并利用這些特征將原圖像的特征向量轉換為目標圖像的特征向量。同時為了避免拼接操作造成輸出特征維度過大的問題,采用1×1卷積降低輸出特征維度。最后通過一個3×3卷積輸出翻譯圖像。整體過程如圖2所示。

圖2 特征提取及融合示意圖
由圖2可以看出,與DenseNet不同的是,本文針對單圖像翻譯任務設計的密集特征模塊僅由三個卷積塊及一個轉換層組成,以防止網絡的卷積層數過多導致訓練過擬合。同時為了保證在多階段訓練過程中每階段的圖像尺度不變,本文去掉了DenseNet轉換層中平均池化操作。最后,由于數據僅有兩幅圖像,能夠提取的圖像特征有限,因此本文將每一層輸出的特征數設置為16。






本文一共使用了四種損失函數,分別為對抗損失、循環一致性損失、空間相關性損失、總變差損失。詳細描述如下。
241總損失

242對抗損失


243循環一致性損失


244空間相關性損失


245總變差損失


本文以CycleGAN、SinGAN、TuiGAN為基線,使用圖像質量評價指標Single Image Fréchet Inception Distance (SIFID)在Monet2Photo、Horse2Zebra、GrumpifyCat數據集上,評估所提出的方法。SIFID[11]通過計算原圖像和翻譯圖像深度特征之間的Fréchet Inception Distance (FID)[21]來評估翻譯圖像的質量,SIFID分數越低,兩幅圖像風格越相似,翻譯圖像質量越高。

Monet2Photo數據集由1 193幅莫奈繪畫和7 038張風景照片組成,該數據集由CycleGAN[8]發布。Horse2Zebra數據集包含1 067幅馬圖像、1 344幅斑馬圖像作為訓練圖像,120幅馬圖像、140幅斑馬圖像作為測試圖像,該數據集在CycleGAN[8]中收集。GrumpifyCat數據集包含88幅藍貓圖像和214幅貓圖像,該數據集在CUT[5]中收集。
331實驗結果
為確保實驗結果準確,本文使用CycleGAN、SinGAN、TuiGAN的官方代碼和默認配置訓練。其中,CycleGAN使用源域和目標域完整的數據集訓練,SinGAN使用源域僅有一幅圖像訓練,TuiGAN和本文使用源域和目標域都有一幅圖像訓練。
分別應用訓練得到的CycleGAN、SinGAN、TuiGAN和本文的模型在3個具有挑戰性的任務上進行圖像翻譯實驗,這3個任務包括馬?斑馬、風景?莫奈畫、藍貓?貓,部分實驗結果如圖3所示。圖3中第一列是原圖像,第二列是目標圖像,第三列到第六列分別為CycleGAN、SinGAN、TuiGAN和本文的圖像翻譯結果。

圖3 圖像翻譯實驗結果比較
從實驗結果對比可以發現,本文的方法總體上優于SinGAN和TuiGAN,在某些情況下甚至比使用完整數據集訓練的CycleGAN效果更好。本文從以下三個實驗結果進行詳細分析對比:
(1)在馬→斑馬翻譯任務上,CycleGAN生成的圖像雖然具有斑馬的紋理,但沒有斑馬的顏色特征。SinGAN僅改變了背景中草的顏色,無法學習斑馬的整體風格特征。TuiGAN雖然捕捉到斑馬的紋理特征及顏色特征,但其生成細節較差,如斑馬頭部和腹部條紋紊亂。本文方法生成的圖像同時具有斑馬的紋理特征和顏色特征,且紋理更加細致,生成的斑馬條紋更加接近于目標圖像。
(2)在莫奈畫→風景翻譯任務上,CycleGAN生成的圖像結構完整、清晰、不含噪聲,圖像質量較高,而在生成圖像的風格特征方面,由于其使用完整的數據集進行訓練,因此生成圖像的風格特征是目標圖像域的整體風格特征,而不是目標圖像的風格特征,例如目標圖像的天空是淺藍色、樹木是棕色,生成圖像的天空是藍色、樹木是綠色。SinGAN和TuiGAN雖然都傳遞了目標圖像的整體顏色特征,但生成圖像的空間結構發生了改變,如山的輪廓不完整。本文方法生成的圖像能夠準確地遷移目標圖像的整體風格特征,且空間結構完整。
(3)在藍貓→貓翻譯任務上,由于該數據集較少,CycleGAN容易發生過擬合現象,導致訓練不穩定,如生成的圖像僅保留了目標圖像的顏色特征,但空間結構發生了較大的變化,圖像噪聲過多。SinGAN在翻譯結果上改變了原圖像的全局顏色,不能傳遞高級語義信息,無法學習目標圖像的風格特征。TuiGAN生成的圖像雖然具有目標圖像的整體風格特征,但圖像偽影過多,圖像質量較差。本文方法生成的圖像具有目標圖像的風格特征,同時幾乎不存在偽影,圖像質量高,能夠取得更加逼真的風格遷移的效果。
332圖像質量評估
表1給出了用SIFID、SSIM、PSNR圖像質量評價指標對CycleGAN、SinGAN、TuiGAN和本文所提出方法在3個翻譯任務上結果的比較。
從表1可知,在風景?莫奈畫翻譯任務上,CycleGAN的各項質量評價指標更好,這是由于CycleGAN使用的是完整的數據集訓練,相比單圖像翻譯模型,其生成的翻譯圖像通常質量更高且風格遷移效果更好。
表1SIFID,SSIM和PSNR指標的實驗

Tab.1 Experiment evaluation by SIFID, SSIM and PSNR
在馬?斑馬和藍貓?貓這兩個翻譯任務上,本文的方法都取得了更好的SIFID、SSIM、PSNR評分,這說明本文的模型成功地捕捉了原圖像和目標圖像之間分布的差異,能夠生成質量更高、結構更加完整、風格遷移效果更加逼真的翻譯圖像,在某些情況下甚至比使用完整數據集訓練的CycleGAN效果更好。相比TuiGAN,本文模型在馬?斑馬、風景?莫奈畫、藍貓?貓這三個翻譯任務上,SIFID平均降低22.18%,SSIM平均提高28.33%,PSNR平均提高17.12%。
333模型參數評估
因CycleGAN需要使用完整的數據集訓練,故不參與本節的模型參數評估。在評估實驗中,按照SinGAN和TuiGAN官方代碼的默認配置訓練模型。圖4給出了SinGAN、TuiGAN以及本文的模型參數總量和在馬?斑馬翻譯任務上的訓練時長。

圖4 模型參數及訓練時長
由圖3和圖4可知,本文模型在馬?斑馬翻譯任務上取得了比SinGAN、TuiGAN更好的實驗結果,并且參數量遠遠少于SinGAN和TuiGAN模型。此外,在訓練模型時間上,本文模型較TuiGAN縮短了約3/4,這表明本文端到端的訓練方式可以有效地加快模型收斂速度,結合密集特征模塊的優點,大幅度地減少了模型的參數量。
334模型通用性評估
為了進一步驗證本文的模型在單圖像翻譯任務上的通用性,本文展示了在三項對象轉換任務上的結果,這三項任務是:狗對象互換、狐貍對象互換、貓對象互換。實驗結果如圖5所示。
從圖5可以看出,本文的模型在許多情況下都具有良好的性能,可以生成內容真實、質量較高、風格遷移效果較好的翻譯圖像,這表明本文的模型在單圖像翻譯任務中具有一定的通用性。

圖5 本文模型在對象轉換任務上的實驗結果
為了驗證本文所提出的方法在單圖像翻譯任務上的有效性,本文基于馬?斑馬、風景?莫奈畫、藍貓?貓翻譯任務共設置了5個消融實驗。部分實驗結果如圖6所示。實驗在本文模型的基礎之上:(Ⅰ)剔除密集特征模塊,改用ResNet模塊;(Ⅱ)剔除漸進式增長生成器,同時不共享每階段訓練的權重;(Ⅲ)剔除空間相關性損失;(Ⅳ)剔除循環一致性損失;(Ⅴ)剔除總變差損失;(Ⅵ)本文方法。

圖6 消融實驗結果比較
從圖6可以看出:(Ⅰ)用ResNet替換密集特征模塊,各尺度的圖像特征不能得到有效地利用,容易造成翻譯圖像出現偽影等不符合人類視覺的部分。(Ⅱ)若不漸進式增加生成器的大小,生成器不能更好地傳遞圖像特征,同時訓練時長增加。(Ⅲ)如果沒有空間相關性損失,生成的結果會受到顏色和紋理不準確的影響。(Ⅳ)在沒有循環一致性損失的情況下,本文的模型不能保證翻譯圖像的完整性。(Ⅴ)如果沒有總變差損失,本文的模型可能會產生一些噪聲,如生成結果中左側部分的粉色。
如表2所示,通過計算本文模型不同變體的SIFID、SSIM、PSNR來評估消融實驗結果。本文的完整模型仍然獲得了最好的三項圖像質量評價指標,這證明了本文所提出的方法在單圖像翻譯任務上的有效性。
表2SIFID,SSIM和PSNR指標的消融實驗評估

Tab.2 Ablation experiments evaluation by SIFID, SSIM and PSNR
本文提出了一種基于多尺度密集特征融合的單圖像翻譯模型,適用于僅有兩幅未配對圖像的數據集。該模型在循序遞增的圖像尺度上多階段訓練,首先學習圖像的全局結構,再學習圖像的紋理和風格特征。本文設計的密集特征模塊在不同尺度的圖像上進行特征提取和融合,加強了圖像特征的復用,解決了梯度消失的問題,提高了圖像翻譯的質量。同時本文引入了漸進式增長生成器,使模型以端到端的方式訓練,加速了網絡的收斂,改善了融合不同尺度特征時直接維度拼接帶來的信息損失。實驗結果表明,在數據極其有限的圖像翻譯任務中,本文的方法能夠生成細節更加豐富、內容更加逼真的高質量圖像。在馬?斑馬、風景?莫奈畫、藍貓?貓這三個翻譯任務上,本文方法的圖像質量評價指標相比TuiGAN都更好,SIFID平均降低了22.18%,SSIM平均提高了28.33%,PSNR平均提高了17.12%。此外,本文模型的訓練時長較TuiGAN減少了約75%。
[1] 呂曉琪,吳涼,谷宇,等. 基于三維卷積神經網絡的低劑量CT肺結節檢測[J]. 光學精密工程, 2018, 26(5): 1211-1218.
LV X Q, WU L, GU Y,. Detection of low dose CT pulmonary nodules based on 3D convolution neural network[J]., 2018, 26(5): 1211-1218.(in Chinese)
[2] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]. 20162730,2016,,,IEEE, 2016: 1646-1654.
[3] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization[C].2016, 2016: 649-666.
[4] 杜振龍,沈海洋,宋國美,等. 基于改進CycleGAN的圖像風格遷移[J]. 光學精密工程, 2019, 27(8): 1836-1844.
DU Z L, SHEN H Y, SONG G M,. Image style transfer based on improved CycleGAN[J]., 2019, 27(8): 1836-1844.(in Chinese)
[5] PARK T, EFROS A A, ZHANG R,. Contrastive learning for unpaired image-to-image translation[C].2020, 2020: 319-345.
[6] 李宇,劉雪瑩,張洪群,等. 基于卷積神經網絡的光學遙感圖像檢索[J]. 光學精密工程, 2018, 26(1): 200-207.
LI Y, LIU X Y, ZHANG H Q,. Optical remote sensing image retrieval based on convolutional neural networks[J]., 2018, 26(1): 200-207.(in Chinese)
[7] GOODFELLOW I, POUGET A J, MIRZA M,. Generative adversarial nets[J]., 2014, 27.
[8] ZHU J Y, PARK T, ISOLA P,. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. 20172229,2017,,IEEE, 2017: 2242-2251.
[9] KIM T, CHA M, KIM H,. Learning to discover cross-domain relations with generative adversarial networks[C]., 2017: 1857-1865..
[10] YI Z L, ZHANG H, TAN P,. DualGAN: unsupervised dual learning for image-to-image translation[C]. 20172229,2017,,IEEE, 2017: 2868-2876.
[11] SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: learning a generative model from a single natural image[C]. 2019()272,2019,,(). IEEE, 2019: 4569-4579.
[12] LIN J X, PANG Y X, XIA Y C,. TuiGAN: learning versatile image-to-image translation with two unpaired images[C].2020, 2020: 18-35.
[13] HUANG G, LIU Z, MAATEN LVAN DER,. Densely connected convolutional networks[C]. 20172126,2017,,,IEEE, 2017: 2261-2269.
[14] KARRAS T, AILA, LAINE S,. Progressive growing of GANs for improved quality, stability, and variation[EB/OL].:: 1710.10196[cs.NE]. https://arxiv.org/abs/1710.10196
[15] HINZ T, FISHER M, WANG O,. Improved techniques for training single-image GANs[C]. 202138,2021,,,IEEE, 2021: 1299-1308.
[16] ZHENG C X, CHAM T J, CAI J F. The spatially-correlative loss for various image translation tasks[C]. 2021()2025,2021,,,IEEE, 2021: 16402-16412.
[17] LEE H Y, TSENG H Y, HUANG J B,. Diverse image-to-image translation via disentangled representations[C].2018, 2018: 35-51.
[18] HE K M, ZHANG X Y, REN S Q,. Deep residual learning for image recognition[C]. 20162730,2016,,,IEEE, 2016: 770-778.
[19] GULRAJANI I, AHMED F, ARJOVSKY M,. Improved training of wasserstein gans[J].:1704.00028, 2017.
[20] PUMAROLA A, AGUDO A,MARTINEZ A M,. GANimation: anatomically-aware facial animation from a single image[J].-::, 2018, 11214: 835-851.
[21] HEUSEL M, RAMSAUER H,UNTERTHINER T,. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[J]., 2017.
[22] NEWEY W K. Adaptive estimation of regression models via moment restrictions[J]., 1988, 38(3): 301-339.
[23] DEMIR U, UNAL G. Patch-based image inpainting with generative adversarial networks[EB/OL].:: 1803.07422[cs.CV]. https://arxiv.org/abs/1803.07422
Single-image translation based on multi-scale dense feature fusion
LI Qihang1,FENG Long1,YANG Qing1,WANG Yu2,GENG Guohua1*
(1,,’710127,;2,,’710127,),:1925995331
To solve the problems of low image quality and poor detail features generated by the existing single image translation models, a single image translation model based on multi-scale dense feature fusion is proposed in this paper. First, in this model, the idea of multi-scale pyramid structure is used to downsample the original and target images to obtain input images of different sizes. Then, in the generator, images of different sizes are input into the dense feature module for style feature extraction, which are transferred from the original image to the target image, and the required translation image is generated through continuous game confrontation with the discriminator. Finally, dense feature modules are added in each stage of training by means of incremental growth generator training, which realizes the migration of generated images from global to local styles, and generates the required translation images. Extensive experiments have been conducted on various unsupervised images to perform image translation tasks. The experimental results demonstrate that in contrast to the existing methods, the training time of this method is shortened by 80%, and the SIFID value of the generated image is reduced by 22.18%. Therefore, the model proposed in this paper can better capture the distribution difference between the source and target domains, and improve the quality of image translation.
single-image translation; image style transfer; GAN; dense feature fusion; multi-scale structure
TP391
A
10.37188/OPE.20223010.1217
1004-924X(2022)10-1217-11
2021-12-22;
2022-01-18.
國家自然科學基金資助項目(No.61731015);國家重點研發計劃資助項目(No. 2019YFC1521103,No.2020YFC1523301);陜西省重點產業鏈資助項目(No.2019ZDLSF07-02);青海省重點研發計劃資助項目(No.2020-SF-142)
李啟航(1997),男,河南鄭州人,西北大學信息科學與技術學院2020級碩士研究生在讀,現主要從事計算機視覺、圖像風格遷移方面的研究。Email: liqihang@stumail.nwu.edu.cn

耿國華(1955),女,山東萊西人,教授,博士生導師,1976 和1988 年于西北大學分別獲得學士和碩士學位,主要從事虛擬現實、可視化技術、圖像處理和智能信息處理等領域的理論及應用工程創新研究。E-mail: 1925995331@qq.com