999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制和隨機(jī)像素擦除的雙判別器單圖生成對(duì)抗網(wǎng)絡(luò)

2024-01-01 00:00:00彭星鴻劉玲袁平

摘要:針對(duì)單一自然圖像生成模型的梯度消失和模式崩潰問題,提出了基于注意力機(jī)制和隨機(jī)像素擦除的雙判別器單圖生成對(duì)抗網(wǎng)絡(luò)模型。具體方法為:在生成器中引入CBAM模塊以增強(qiáng)特征表示;采用多樣性損失優(yōu)化損失函數(shù)提高生成圖像多樣性;在圖像上采樣及過渡到下一階段前增加隨機(jī)像素擦除進(jìn)一步豐富輸出的多樣性;在判別器中集成自注意力機(jī)制捕獲更加全面的依賴關(guān)系;實(shí)施雙判別器設(shè)計(jì)減輕模式崩潰問題。實(shí)驗(yàn)結(jié)果表明:與單一自然圖像生成模型相比,本文方法在圖像質(zhì)量、多樣性和訓(xùn)練穩(wěn)定性方面均有顯著提升。

關(guān)鍵詞:單一自然圖像生成模型 注意力機(jī)制 雙判別器 隨機(jī)像素擦除

中圖分類號(hào):TP18" 文獻(xiàn)標(biāo)志碼:A" 文章編號(hào):1671-8755(2024)02-0100-09

Dual Discriminator Single-image Generative Adversarial Networks Based on Attention Mechanism and Random Pixel Erasure

PENG Xinghong, LIU Ling, YUAN Ping

(School of Computer Science and Technology, Southwest University of Science and Technology, Mianyang 621010, Sichuan, China)

Abstract:" In addressing the issues of gradient vanishing and mode collapse in the generative model from a single natural image, we proposed the dual discriminator single-image generative adversarial networks based on attention mechanism and random pixel erasure (ADRE-SinGAN). The specific methods employed include introducing the CBAM module in the generator to enhance feature representation, optimizing the loss function with diversity loss to improve image diversity, incorporating random erasing before up-sampling and transitioning to the next stage to enrich the output diversity further, integrating self-attention mechanism in the discriminator to capture more comprehensive dependency relationships, and implementing a dual discriminator design to alleviate mode collapse issues effectively.

Keywords:" Generative model from a single natural image; Attention mechanism; Dual discriminator; Random pixel erasure

2014年Goodfellow等[1]提出的生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network, GAN)在超分辨率重建、圖像修復(fù)和編輯[2]等視覺處理應(yīng)用中具有顯著優(yōu)勢。與傳統(tǒng)圖像處理技術(shù)相比,GAN在處理復(fù)雜的紋理和結(jié)構(gòu)方面表現(xiàn)出更好的效果和更自然的圖像質(zhì)量。GAN的訓(xùn)練通常依賴于大量數(shù)據(jù),但Shaham等[3]于2019年提出的SinGAN模型(Learning a generative model from a single natural image)通過從單張自然圖像進(jìn)行無條件生成,不需要依賴大量相同類型的圖像,展示了GAN在數(shù)據(jù)受限情況下的巨大潛力。SinGAN引發(fā)了圖像處理領(lǐng)域研究者對(duì)深度學(xué)習(xí)中的內(nèi)部自學(xué)習(xí)機(jī)制的關(guān)注,通過在單一圖像上進(jìn)行模型訓(xùn)練,深度內(nèi)部學(xué)習(xí)能夠在無需依賴大規(guī)模數(shù)據(jù)集的情況下解決圖像處理問題,其不僅體現(xiàn)在圖像生成領(lǐng)域的應(yīng)用上,在相關(guān)領(lǐng)域也有應(yīng)用潛力。ExSinGAN[4]在圖像真實(shí)性方面取得了顯著進(jìn)步,這不僅加強(qiáng)了SinGAN在圖像編輯、超分辨率和視頻生成等傳統(tǒng)領(lǐng)域的應(yīng)用,也推動(dòng)了其在更多領(lǐng)域的探索。例如,Awiszus等[5]通過SinGAN 生成了超級(jí)瑪麗奧的游戲關(guān)卡,而Gur等[6]結(jié)合變分自編碼器使用SinGAN生成視頻。此外,SinGAN在環(huán)境科學(xué)和醫(yī)學(xué)成像等領(lǐng)域也展現(xiàn)出應(yīng)用潛力。Wang等[7]成功應(yīng)用SinGAN模型生成高分辨率的氣候降水?dāng)?shù)據(jù),顯示了其在環(huán)境科學(xué)領(lǐng)域的應(yīng)用價(jià)值。Pengyi等[8]將SinGAN運(yùn)用到醫(yī)學(xué)成像中,提出 CoSinGAN,通過從單個(gè)放射學(xué)圖像中學(xué)習(xí),CoSinGAN能夠合成多樣化的高分辨率放射學(xué)圖像,為COVID-19診斷提供了新的視角。此外SinGAN 的另一種變體SinGAN-Seg[9]能夠?qū)W習(xí)生成符合分割掩模定義的特定語義約束的圖像,已被應(yīng)用于圖像分割的增強(qiáng),對(duì)自動(dòng)駕駛等應(yīng)用具有重要意義。

SinGAN采用金字塔結(jié)構(gòu)的生成對(duì)抗網(wǎng)絡(luò),有效捕獲單張圖像內(nèi)部的分布,實(shí)現(xiàn)了自然圖像的無條件生成。該模型從較低分辨率開始,逐層逐步生成圖像,每個(gè)尺度的生成器和判別器都按金字塔順序從粗糙到精細(xì)進(jìn)行訓(xùn)練,直至達(dá)到最高分辨率。這種結(jié)構(gòu)使得生成器在低尺度負(fù)責(zé)圖像的整體布局和主要結(jié)構(gòu),而在高尺度細(xì)化紋理和細(xì)節(jié)[10]。由于SinGAN 獨(dú)特的金字塔多尺度模型架構(gòu),每一尺度都有一組生成器和判別器,容易出現(xiàn)新生成的圖像與訓(xùn)練圖像極度相似的情況,即模式崩潰。

解決模式崩潰的方法主要分為兩類:模型結(jié)構(gòu)的創(chuàng)新,損失函數(shù)和正則化策略的優(yōu)化。第一類是模型結(jié)構(gòu)的創(chuàng)新。例如DCGAN[11]通過引入深度卷積網(wǎng)絡(luò)增強(qiáng)特征學(xué)習(xí)能力,proGAN[12]采用逐層漸進(jìn)策略逐步提高圖像分辨率,而Re-GAN[13]則在生成器中融入ResNet結(jié)構(gòu),提高了訓(xùn)練的穩(wěn)定性,D2GAN[14]通過引入兩個(gè)判別器在一定程度上解決了模式崩潰問題。第二類是損失函數(shù)和正則化策略的優(yōu)化。例如:文獻(xiàn)[15]引入Wasserstein距離作為損失函數(shù),有效緩解模式崩潰;WGAN-GP[16]通過加入梯度懲罰項(xiàng)解決了WGAN中梯度爆炸問題;SN-GAN[17]使用譜范數(shù)歸一化穩(wěn)定訓(xùn)練過程,而GraN-GAN[18]則通過輸入梯度的正則化提高GAN訓(xùn)練的穩(wěn)定性。

盡管這些方法在處理模式崩潰問題上取得了顯著進(jìn)展,但在處理復(fù)雜圖像時(shí)仍存在很多限制。具體來說,這些方法在重新生成圖像的細(xì)節(jié)和保持圖像整體結(jié)構(gòu)的一致性方面存在挑戰(zhàn)。例如,在高度紋理化或具有復(fù)雜幾何結(jié)構(gòu)的圖像生成中,這些模型往往難以精確重現(xiàn)細(xì)微的紋理變化和結(jié)構(gòu)細(xì)節(jié),導(dǎo)致生成圖像可能出現(xiàn)模糊或不自然的紋理及與原始圖像結(jié)構(gòu)不一致的問題。

針對(duì)SinGAN在處理復(fù)雜圖像時(shí)可能遇到的梯度消失和模式崩潰問題,本文提出了一種基于SinGAN的新模型——基于自注意力機(jī)制[19]、雙判別器和隨機(jī)像素擦除[20]的SinGAN模型(Dual discriminator single-image generative adversarial networks based on attention mechanism and random pixel erasure,ADRE-SinGAN)。該模型以SinGAN為基礎(chǔ)模型,通過引入多種改進(jìn)方法,使對(duì)抗網(wǎng)絡(luò)在生成圖像質(zhì)量、多樣性以及訓(xùn)練穩(wěn)定性等方面都有一定的提升。

1 GAN及SinGAN模型簡介

1.1 GAN模型

GAN是一種無監(jiān)督學(xué)習(xí)范式,能夠直接從數(shù)據(jù)集中估計(jì)潛在的數(shù)據(jù)分布,無需對(duì)該分布進(jìn)行顯式建模。GAN由兩個(gè)主要組成部分構(gòu)成:生成器(Generator, G)和判別器(Discriminator, D)。生成器G負(fù)責(zé)從一個(gè)潛在空間中采樣,并根據(jù)這些樣本生成一組與目標(biāo)數(shù)據(jù)分布相近的偽圖像。同時(shí),判別器D旨在準(zhǔn)確區(qū)分其接收到的圖像是來自生成器的偽圖像還是來自真實(shí)數(shù)據(jù)分布。在訓(xùn)練過程中,生成器和判別器以一種博弈論的方式進(jìn)行相互對(duì)抗,目標(biāo)是最小化生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的分布差異,直至達(dá)到納什均衡狀態(tài)。整體訓(xùn)練目標(biāo)可以形式化為一個(gè)最優(yōu)化問題,以減小生成圖像與真實(shí)圖像之間的分布差異。傳統(tǒng)的GAN網(wǎng)絡(luò)結(jié)構(gòu)參見文獻(xiàn)[1]。

1.2 SinGAN模型

對(duì)GAN而言,大規(guī)模且高質(zhì)量標(biāo)注的訓(xùn)練數(shù)據(jù)集通常是實(shí)現(xiàn)有效學(xué)習(xí)的關(guān)鍵要素。然而,數(shù)據(jù)收集和標(biāo)注的過程常常需要巨大的時(shí)間和資源投入。針對(duì)這一問題,Shaham等[3]提出了單圖像生成對(duì)抗網(wǎng)絡(luò)(SinGAN),這是一種專為從單一訓(xùn)練圖像中進(jìn)行學(xué)習(xí)和生成新圖像而設(shè)計(jì)的模型。SinGAN的創(chuàng)新性主要體現(xiàn)在其多尺度的網(wǎng)絡(luò)架構(gòu)上。該架構(gòu)由一系列逐級(jí)遞增的生成器和判別器組成,每一個(gè)單元都負(fù)責(zé)學(xué)習(xí)和模擬圖像在特定尺度上的紋理和模式特性。

該模型的訓(xùn)練過程從最粗糙的尺度開始,在每一次迭代中,后續(xù)生成器接受前一個(gè)生成器的輸出作為其輸入,從而在更高的分辨率上添加更豐富的細(xì)節(jié)信息。通過這種逐尺度遞進(jìn)的方法,SinGAN能夠在不同分辨率水平上有效地捕獲和再現(xiàn)圖像的紋理和模式,從而實(shí)現(xiàn)新圖像的逼真生成。標(biāo)準(zhǔn)SinGAN 網(wǎng)絡(luò)結(jié)構(gòu)參見文獻(xiàn)[3]。

2 ADRE-SinGAN模型

ADRE-SinGAN模型是一種基于金字塔結(jié)構(gòu)的多尺度生成對(duì)抗網(wǎng)絡(luò),其全局架構(gòu)如圖1所示。這一模型與SinGAN在總體結(jié)構(gòu)上具有高度的相似性,每一階段都包括一組生成器和雙判別器。ADRE-SinGAN 由N+1個(gè)階段組成,每兩個(gè)相鄰階段之間的縮放比例為r(rgt;1)。此處N的值是由原始圖像x的尺寸和設(shè)定的縮放比例r決定的。

在模型的第i(i=0,1…N)階段中,圖像xi是通過對(duì)原始輸入圖像x執(zhí)行rN-i 倍的下采樣操作得到的,該下采樣過程為模型提供了多尺度的信息,以便生成器和判別器更有效地學(xué)習(xí)不同級(jí)別的圖像特征。生成器Gi負(fù)責(zé)學(xué)習(xí)圖像xi的內(nèi)在數(shù)據(jù)分布,從而生成相應(yīng)的圖像 fi,而判別器Di的任務(wù)則是學(xué)習(xí)如何區(qū)分生成器Gi所生成的圖像 fi與真實(shí)圖像xi。

2.1 生成器結(jié)構(gòu)

ADRE-SinGAN的生成器Gn是一個(gè)基于殘差的結(jié)構(gòu),如圖2所示。殘差結(jié)構(gòu)直接將淺層網(wǎng)絡(luò)輸出與深層網(wǎng)絡(luò)輸出合并,而關(guān)于生成器網(wǎng)絡(luò)部分,主要由5個(gè)卷積層和最后一層卷積層之前的CBAM注意力模塊構(gòu)成,并且由生成器生成的圖像fn不會(huì)直接作為下一尺度生成器的輸入,而是經(jīng)過一個(gè)隨機(jī)像素擦除模塊處理之后再輸入到下一層網(wǎng)絡(luò)。從圖2可以看到,生成器網(wǎng)絡(luò)接收來自前一尺度的上采樣圖像 fn-1 和輸入噪聲zn融合作為當(dāng)前尺度下生成器的輸入。fn-1 被上采樣并與zn結(jié)合,之后輸入到網(wǎng)絡(luò)中。經(jīng)過5個(gè)卷積層和CBAM模塊的處理,網(wǎng)絡(luò)輸出一個(gè)殘差圖像,該圖像與上采樣的(fn-1)↑r進(jìn)行相加,生成n尺度下的輸出圖像fn。隨后,該輸出通過一個(gè)新的隨機(jī)像素清除模塊,以供下一尺度網(wǎng)絡(luò)使用。

2.2 判別器結(jié)構(gòu)

在傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)中,因?yàn)樵谟?xùn)練初期判別器的能力不強(qiáng),可能會(huì)對(duì)生成器進(jìn)行錯(cuò)誤引導(dǎo),從而導(dǎo)致模式崩潰等現(xiàn)象發(fā)生。為了有效解決該問題,本文采用了雙判別器設(shè)計(jì),該設(shè)計(jì)充當(dāng)了生成器的共同指導(dǎo)機(jī)制。通過這種方式,兩個(gè)判別器協(xié)同工作,進(jìn)一步優(yōu)化和引導(dǎo)生成器的訓(xùn)練過程,從而提高模型的整體性能和穩(wěn)定性。在雙判別器模型中,其中一個(gè)判別器用于對(duì)真實(shí)圖像以及生成器生成的圖像進(jìn)行判定,而另一個(gè)判別器的輸入則是生成器圖像與真實(shí)圖像經(jīng)過同一圖像簡單處理后(如上下鏡像翻轉(zhuǎn)等)的圖像。理想情況下,偽圖像與真實(shí)圖像經(jīng)過同一簡單處理后,判別器無法判別其來自哪個(gè)分布。為了進(jìn)一步增強(qiáng)判別器對(duì)圖像特征的敏感性并提高其鑒別能力,在SinGAN的判別器基礎(chǔ)上添加了自注意力機(jī)制,自注意力模塊通過查詢(Query)、鍵(Key)和值(Value)的機(jī)制來計(jì)算每個(gè)特征的注意力權(quán)重,從而允許模型在全局范圍內(nèi)進(jìn)行特征重標(biāo)定,這個(gè)設(shè)計(jì)使得模型能夠在更高層次上關(guān)注圖像的重要部分,并提供更準(zhǔn)確的分類決策。ADRE-SinGAN判別器結(jié)構(gòu)如圖3所示。

該網(wǎng)絡(luò)首先通過4個(gè)卷積層序列來提取輸入圖像的多層次特征,每個(gè)卷積層后都配有批標(biāo)準(zhǔn)化和LeakyReLU激活函數(shù)以優(yōu)化網(wǎng)絡(luò)性能。在最后一個(gè)卷積層之前,插入了一個(gè)自注意力模塊,用于捕獲圖像中的全局依賴關(guān)系,并將這些信息重新分配給各個(gè)特征,從而實(shí)現(xiàn)更加精細(xì)的特征判別。在自注意力模塊后,使用一個(gè)最終的卷積層來進(jìn)一步提煉特征。

2.3 損失函數(shù)

在本文提出的模型結(jié)構(gòu)中,引入了一個(gè)雙判別器來增強(qiáng)網(wǎng)絡(luò)的判別能力,這兩個(gè)判別器表示為D1和D2。對(duì)于第一個(gè)判別器D1,它接受生成器的輸出和真實(shí)圖像作為輸入,第二個(gè)判別器D2接收真

實(shí)圖像和生成圖像的變換版本。這種變換可以是簡單的操作,例如垂直翻轉(zhuǎn)。

本文是對(duì)SinGAN進(jìn)行優(yōu)化,所以其中部分損失函數(shù)將維持SinGAN的原始損失函數(shù)。本文將采用一個(gè)在SinGAN的原損失函數(shù)基礎(chǔ)上經(jīng)過優(yōu)化的新型損失函數(shù),該函數(shù)由生成對(duì)抗性損失、重構(gòu)損失以及多樣性損失3部分構(gòu)成。

2.3.1 生成對(duì)抗性損失

采用WGAN-GP[16]的梯度損失項(xiàng)作為本文判別器損失函數(shù)部分的參考,其計(jì)算方法如下:

τgp=Exr~P(xr)[(‖xrD(xr)‖2-1)2](1)

xr=εx+(1-ε)f(2)

式中:τgp為梯度懲罰項(xiàng);xr表示隨機(jī)樣本;‖·‖2表示L2范數(shù);表示求梯度;ε是一個(gè)服從[0,1]均勻分布的隨機(jī)數(shù);隨機(jī)樣本xr是對(duì)原始樣本x和生成樣本 f 進(jìn)行隨機(jī)插值所得。

在ADRE-SinGAN的雙判別器架構(gòu)中,需要分別對(duì)兩個(gè)不同的判別器進(jìn)行損失計(jì)算。本文的判別器依然采用了分塊判別器設(shè)計(jì)。判別器的損失函數(shù)LD通過式(3)-式(5)計(jì)算:

LD1=Ex~PgD1(f)-Er~P(r)D1(x)+λgpτgp(3)

LD2=Ex~PgD2(f′)-Er~P(r)D2(x′)+λgpτgp(4)

LD=LD1+LD2(5)

式中:f為生成器產(chǎn)生的生成樣本;x為原始圖像下采樣后的真實(shí)樣本;f′和x′為經(jīng)過圖像變換后的對(duì)應(yīng)樣本;τgp 為梯度懲罰項(xiàng),計(jì)算方法如式(1)所示;λgp 是超參數(shù),為梯度懲罰項(xiàng)的權(quán)重。

生成器的對(duì)抗損失函數(shù)LGad 如下:

LGad1=-Ex~PgD1(f)(6)

LGad2=-Ex~PgD2(f′)(7)

LGad=LGad1+LGad2(8)

2.3.2 重構(gòu)損失函數(shù)

為保證生成模型對(duì)單張圖像的學(xué)習(xí)能力,希望有一組特定的輸入噪聲,生成器能夠生成原始圖像,而其他噪聲則是隨機(jī)生成,因此選擇了一組特定的噪聲作為對(duì)原始圖像重構(gòu)的噪聲{z0rec,z1rec…zNrec}={z*,0…0},其中z*是訓(xùn)練前隨機(jī)選取的一個(gè)值,之后將在整個(gè)訓(xùn)練過程中保持不變[4]。重構(gòu)損失將參與生成器的梯度計(jì)算,使生成器在面對(duì)重構(gòu)噪聲時(shí)能夠?qū)W習(xí)生成原始圖像。重構(gòu)損失Lrec如式(9)所示:

Lrec=‖Gi(0,(f reci-1)↑r)-fi‖2,igt;0

‖G0(z*)-f0‖2,i=0(9)

式中:‖·‖表示L1范數(shù); f reci 表示使用重構(gòu)噪聲在第i個(gè)階段所生成的圖像。

2.3.3 多樣性損失

為了解決模式崩潰問題并進(jìn)一步增強(qiáng)生成圖像的多樣性,新引入了多樣性損失。在每次訓(xùn)練迭代中,使用不同的噪聲樣本z1,z2…zn來同時(shí)生成多張圖像。然后通過這些生成圖像之間的歐氏距離來計(jì)算多樣性損失,具體的多樣性損失Ldiv如式(10)所示:

Ldiv=-1n(n-1)ni=1nj≠i‖G(zi)-G(zj)‖22(10)

綜上,生成器的損失函數(shù)如式(11)所示:

LG=LGad+λrecLrec+λdivLdiv(11)

式中:LGad為對(duì)抗損失;Lrec為重構(gòu)損失;Ldiv為多樣性損失。

2.4 ADRE-SinGAN的優(yōu)化與改進(jìn)

ADRE-SinGAN在SinGAN基礎(chǔ)上進(jìn)行了優(yōu)化和改進(jìn)。第一,在生成器中本文方法引入了CBAM注意力模塊。CBAM模塊通過空間和通道注意力機(jī)制顯著提高了網(wǎng)絡(luò)對(duì)輸入圖像的關(guān)鍵特征的識(shí)別和響應(yīng)能力。空間注意力機(jī)制關(guān)注圖像中的哪些部分更為重要,而通道注意力則確定哪些顏色通道包含更多有用信息。這種細(xì)粒度的注意力調(diào)整使得生成器在重構(gòu)圖像時(shí)能夠更準(zhǔn)確地模擬細(xì)節(jié)和紋理,從而提高生成圖像的質(zhì)量和多樣性。此外,本文方法還加入了SinIR[20]中的隨機(jī)像素擦除模塊。該模塊通過在訓(xùn)練過程中隨機(jī)遮擋部分像素,引入了一種模擬的噪聲和不確定性。這種人為引入的隨機(jī)性不僅模擬了自然圖像中的隨機(jī)變化,而且有助于防止模型對(duì)特定圖像特征的過擬合,增強(qiáng)了模型的泛化能力,使得生成的圖像能夠覆蓋更廣泛的數(shù)據(jù)分布,從而增強(qiáng)生成圖像的多樣性和視覺豐富性。第二,本文方法對(duì)判別器網(wǎng)絡(luò)引入了自注意力模塊和雙判別器設(shè)計(jì)。與傳統(tǒng)卷積層不同,自注意力模塊不僅關(guān)注局部特征,還能捕捉圖像中遠(yuǎn)距離區(qū)域間的依賴關(guān)系。這意味著判別器在評(píng)估生成圖像時(shí)能夠更加全面地考慮圖像中的上下文信息,識(shí)別出更加精細(xì)和復(fù)雜的模式。例如在處理具有復(fù)雜背景或細(xì)節(jié)豐富的圖像時(shí),自注意力模塊能夠幫助判別器更準(zhǔn)確地辨識(shí)真實(shí)圖像和生成圖像之間的細(xì)微差異,從而提高判別的準(zhǔn)確性和模型的整體性能。雙判別器設(shè)計(jì)則進(jìn)一步增強(qiáng)了模型的判別能力。在這種設(shè)計(jì)中,兩個(gè)判別器分別從不同的角度評(píng)估生成圖像。一個(gè)判別器專注于評(píng)估原始圖像與生成圖像之間的直接相似性,而另一個(gè)則評(píng)估經(jīng)過簡單圖像變換的圖像。這種多角度評(píng)估策略使得判別器不僅能夠更全面地評(píng)估圖像的真實(shí)性,而且還能夠更有效地引導(dǎo)生成器優(yōu)化生成策略。特別是在生成復(fù)雜或多樣化的圖像時(shí),雙判別器設(shè)計(jì)能夠提供更加豐富和細(xì)致的反饋,幫助生成器更好地模擬和再現(xiàn)多種圖像特性,減少模式崩潰的發(fā)生,并提升生成圖像的整體質(zhì)量。第三,為了進(jìn)一步解決模式崩潰和訓(xùn)練不穩(wěn)定性問題,本文方法在損失函數(shù)中加入了多樣性損失項(xiàng)。加入的多樣性損失項(xiàng)通過計(jì)算一批生成圖像之間的歐氏距離,鼓勵(lì)模型產(chǎn)生視覺上不同的圖像。這一策略不僅增加了生成圖像的多樣性,還提高了模型在復(fù)雜或多變環(huán)境下的適應(yīng)性。通過這種方式,模型能夠避免生成高度相似或重復(fù)的圖像,從而在整體上提升生成圖像的質(zhì)量和多樣性。

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)與評(píng)估

為了全面評(píng)估ADRE-SinGAN模型的性能,除了與基準(zhǔn)模型SinGAN比較外,選擇了ExSinGAN[4]作為另一對(duì)比模型。 ExSinGAN同樣在SinGAN的基礎(chǔ)上進(jìn)行了一些關(guān)鍵的改進(jìn),目的是提高生成圖像的質(zhì)量和多樣性。使用的圖像數(shù)據(jù)來自伯克利語義分割數(shù)據(jù)集[21]、Places[22]以及網(wǎng)絡(luò)公開圖像。主要評(píng)估生成圖像的質(zhì)量和多樣性。

3.1.1 生成圖像質(zhì)量評(píng)估

采用了單圖像Fréchet初始距離(SIFID)[3]評(píng)估生成圖像的質(zhì)量。SIFID與傳統(tǒng)的Fréchet初始距離(FID)有所不同,它通過使用Inception V3模型中特定層次的輸出來更準(zhǔn)確地衡量單張圖像的特征分布。較低的SIFID值通常表示生成圖像具有更高的質(zhì)量。

3.1.2 生成多樣性評(píng)估

使用學(xué)習(xí)感知圖像塊相似度(LPIPS)[23]和多尺度結(jié)構(gòu)相似度指數(shù)(MS-SSIM)[24]評(píng)估生成圖像的多樣性。LPIPS通過預(yù)訓(xùn)練網(wǎng)絡(luò),計(jì)算圖像特征的距離,從而評(píng)估生成圖像的相似性。一般來說,更高的LPIPS值意味著生成圖像具有更大的多樣性,與之相反,MS-SSIM是一種綜合性的評(píng)估指標(biāo),它考慮了圖像在亮度、對(duì)比度和結(jié)構(gòu)等方面的相似性,在這個(gè)指標(biāo)下,更低的MS-SSIM值表示生成圖像具有更強(qiáng)的多樣性。通過LPIPS和MS-SSIM能夠準(zhǔn)確了解生成圖像的質(zhì)量和多樣性。

3.2 訓(xùn)練過程

ADRE-SinGAN遵循SinGAN的分層逐步訓(xùn)練方案。首先,用作訓(xùn)練的單張圖像會(huì)經(jīng)過多次下采樣,生成一系列不同分辨率的圖像,從而形成一個(gè)圖像金字塔。然后進(jìn)行逐層訓(xùn)練,從最底層即最低分辨率的圖像開始訓(xùn)練,當(dāng)訓(xùn)練次數(shù)達(dá)到事先設(shè)置的值,就會(huì)鎖定這一層的參數(shù),這些參數(shù)會(huì)被用作初始化下一層模型的參數(shù)。在每一層,生成器和判別器都會(huì)采用異步迭代訓(xùn)練的策略進(jìn)行訓(xùn)練。最后,當(dāng)所有尺度的模型都訓(xùn)練完畢并達(dá)到收斂時(shí),整個(gè)訓(xùn)練過程就完成了。在每一層的訓(xùn)練過程中,生成器不僅會(huì)接收隨機(jī)噪聲作為輸入,還會(huì)接收來自上一層生成器的輸出,這有助于模型逐漸優(yōu)化并細(xì)化生成的圖像。

具體地,對(duì)于每個(gè)尺度的生成器Gi與判別器Di,先對(duì)判別器進(jìn)行訓(xùn)練,用真實(shí)的圖像xi和生成的圖像fi計(jì)算判別器Di1的損失函數(shù)LD1,然后將真實(shí)圖像xi和生成的圖像fi經(jīng)過圖像變換后作為判別器Di2 的輸入計(jì)算判別器Di2 的損失函數(shù)LD2,最終得到判別器總損失LD之后,更新判別器參數(shù)。然后對(duì)生成器進(jìn)行訓(xùn)練,生成器的輸入除最初尺度為噪聲外,其余尺度的輸入為上一尺度生成器輸出的圖像上采樣到當(dāng)前尺度時(shí)所得(fi-1)↑r與隨機(jī)噪聲zi構(gòu)成,然后生成該階段新的假圖像fi,再計(jì)算生成器的損失函數(shù)。生成器的聯(lián)合損失函數(shù)LD由對(duì)抗損失LGad、重構(gòu)損失Lrec以及本文加入的多樣性損失Ldiv構(gòu)成,最后更新生成器的參數(shù)。重復(fù)以上步驟多次,完成該階段的訓(xùn)練。

3.3 實(shí)驗(yàn)結(jié)果

測試時(shí)選擇多張相同的訓(xùn)練圖像,分別在基礎(chǔ)模型SinGAN, ExSinGAN和本文所提出的ADRE-SinGAN上做相同測試,對(duì)每張訓(xùn)練圖像選擇多種尺寸縮放比例并生成相同數(shù)量的隨機(jī)圖像,統(tǒng)計(jì)所有圖像的SIFID的平均值作為模型性能的評(píng)價(jià)指標(biāo),統(tǒng)計(jì)所有圖像的LPIPS的平均值和MS-SSIM的平均值作為生成圖像多樣性的評(píng)價(jià)指標(biāo),結(jié)果如表1所示(最優(yōu)結(jié)果加粗顯示)。從表1可以看出,在圖像生成質(zhì)量和多樣性的評(píng)價(jià)指標(biāo)上,ADRE-SinGAN 相對(duì)于原始的SinGAN和ExSinGAN均有一定提升。

在SIFID指標(biāo)上,使用相同的訓(xùn)練數(shù)據(jù)時(shí),ADRE-SinGAN生成的圖像質(zhì)量要優(yōu)于SinGAN和ExSinGAN。筆者認(rèn)為圖像質(zhì)量的提升歸因于CBAM模塊和自注意力模塊的引入。 CBAM模塊通過增強(qiáng)網(wǎng)絡(luò)對(duì)圖像關(guān)鍵特征的關(guān)注,有助于生成更精細(xì)和高質(zhì)量的圖像,而自注意力機(jī)制能夠幫助模型更好地理解圖像的全局內(nèi)容和復(fù)雜的上下文關(guān)系,通過捕捉圖像中的長距離依賴關(guān)系,幫助生成器更準(zhǔn)確地重構(gòu)細(xì)節(jié)和紋理,從而提高生成圖像的整體質(zhì)量。同時(shí),雙判別器設(shè)計(jì)在評(píng)估圖像真實(shí)性時(shí)提供了更細(xì)致的反饋,促進(jìn)了生成器產(chǎn)生更高質(zhì)量的輸出。ExSinGAN在SIFID上的表現(xiàn)雖然優(yōu)于SinGAN,但略遜于ADRE-SinGAN,可能是因?yàn)镋xSinGAN雖然在圖像的細(xì)節(jié)和紋理處理上有所改進(jìn),但在全局內(nèi)容的理解和長距離依賴關(guān)系的捕捉上不如ADRE-SinGAN。

在多樣性評(píng)價(jià)指標(biāo)LPIPS上,ADRE-SinGAN的表現(xiàn)優(yōu)于SinGAN和ExSinGAN,顯示出在感知圖像多樣性方面的提升。這可能是由于隨機(jī)像素擦除模塊的引入,該模塊通過在訓(xùn)練過程中引入噪聲和不確定性,增強(qiáng)了生成圖像的多樣性。然而,在MS-SSIM 指標(biāo)上,ADRE-SinGAN的表現(xiàn)略遜于SinGAN和ExSinGAN。這可能是由于ADRE-SinGAN引入的自注意力模塊和雙判別器設(shè)計(jì)在保持圖像的全局一致性方面發(fā)揮了作用,增強(qiáng)了模型在重建圖像細(xì)節(jié)和紋理方面的能力,同時(shí)也可能導(dǎo)致生成的圖像與原圖像保持較高程度的結(jié)構(gòu)相似性,而SinGAN 因?yàn)樵谏梢恍┚哂袕?qiáng)結(jié)構(gòu)的圖像時(shí)沒有完整地將原圖像的結(jié)構(gòu)全部“記住”,導(dǎo)致SinGAN在以亮度、對(duì)比度、結(jié)構(gòu)等方面來衡量相似性和多樣性的MS-SSIM指標(biāo)上表現(xiàn)更好,這在一定程度上也表明了在追求圖像多樣性的過程中模型可能在維持與原始圖像的結(jié)構(gòu)相似性方面有所“妥協(xié)”,所以筆者認(rèn)為ADRE-SinGAN在提高圖像質(zhì)量和多樣性方面取得了平衡。

本文對(duì) SinGAN, ExSinGAN 和 ADRE-SinGAN 在同一訓(xùn)練圖像上的生成能力進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如圖4所示。

觀察圖像 a 和圖像 d 對(duì)應(yīng)的生成圖像,可以發(fā)現(xiàn) SinGAN 在生成過程中有時(shí)會(huì)遺漏或錯(cuò)位部分內(nèi)容。例如,圖像 a 中的天空出現(xiàn)了不符邏輯的森林區(qū)塊,而圖像 d 顯示,水下反射與其上方的實(shí)體不匹配。而 ADRE-SinGAN 在圖像 a 的生成中,雖然天空的明亮部分和云霧的分布看起來不太自然,但其生成圖像的總體結(jié)構(gòu)仍然是符合邏輯的。當(dāng)使用圖像 b 作為訓(xùn)練圖像時(shí), ADRE-SinGAN 不僅能夠維持火山的完整性,還可以復(fù)制山體形成兩個(gè)噴發(fā)口或者形成更大的熔巖柱,這與 SinGAN 生成的有缺失部分的山體和空中懸浮的噴發(fā)口相比顯得更為真實(shí)。而對(duì)于像圖像 c 中的人造建筑如房屋和橋梁, SinGAN 所生成的圖像往往會(huì)重復(fù)某些部分,而 ADRE-SinGAN 盡管在某些地方比如橋墩的生成表現(xiàn)得不夠好,但仍然保留了原始結(jié)構(gòu)的完整性。

進(jìn)一步觀察由 ExSinGAN 生成的圖像,可以明顯看出,在圖像質(zhì)量方面,其生成結(jié)果相比于 SinGAN 有顯著提升,與 ADRE-SinGAN 相當(dāng),甚至在部分圖像,如圖像a的細(xì)節(jié)和紋理處理方面, ExSinGAN 的表現(xiàn)還略勝一籌。這一結(jié)果可能歸因于 ExSinGAN 在處理圖像細(xì)節(jié)和紋理方面的特定優(yōu)化。然而,進(jìn)一步細(xì)致的觀察也造成了 ExSinGAN 在生成圖像多樣性方面的局限性。具體來說, ExSinGAN 生成的圖像與其對(duì)應(yīng)的訓(xùn)練圖像在視覺相似度上高于 SinGAN 和 ADRE-SinGAN ,這表明其在生成圖像的多樣性上稍差。這一發(fā)現(xiàn)與本文通過 SIFID, LPIPS 和 MS-SSIM 值獲得的量化結(jié)果吻合。因此,盡管 ExSinGAN 在視覺質(zhì)量上表現(xiàn)出色,但在生成與原始訓(xùn)練圖像在視覺上顯著不同的新圖像方面能力有限,這一點(diǎn)在與 SinGAN 對(duì)比時(shí)尤為明顯。

綜合來看,與 SinGAN 和 ExSinGAN 相比,ADRE-SinGAN 模型生成的圖像質(zhì)量更高,圖像內(nèi)容更符合邏輯且生成的圖像更具多樣性。因此 ADRE-SinGAN 的性能更好。

3.4 消融實(shí)驗(yàn)

為驗(yàn)證本文所提出的優(yōu)化措施的有效性,進(jìn)行了消融試驗(yàn)。在SinGAN的基礎(chǔ)上,分別做以下內(nèi)容改動(dòng),形成4種不同的模型,對(duì)包括SinGAN在內(nèi)的5種模型分別進(jìn)行相同的訓(xùn)練和測試。消融實(shí)驗(yàn)的內(nèi)容包括:

(1)在判別器中添加自注意力模塊(Add-sa);

(2)在生成器中添加CBAM模塊(Add-cbam);

(3)采用雙判別器結(jié)構(gòu)(Add-dd);

(4)上采樣前添加隨機(jī)像素擦除模塊(Add-rpe)。

消融試驗(yàn)結(jié)果如表2所示。相比于基礎(chǔ)模型SinGAN,在判別器中添加自注意力模塊和在生成器中添加CBAM模塊的效果近似,SIFID指標(biāo)有所下降,MS-SSIM指標(biāo)有所上升,LPIPS指標(biāo)變化不大。采用雙判別器結(jié)構(gòu)后,SIFID指標(biāo)略微下降,LPIPS指標(biāo)有所下降,MS-SSIM指標(biāo)有所上升。添加隨機(jī)像素擦除模塊后,SIFID指標(biāo)和LPIPS指標(biāo)均有所上升,MS-SSIM指標(biāo)有所下降。盡管這4項(xiàng)改動(dòng)起到的效果都不相同,但它們都在生成圖像質(zhì)量或生成圖像多樣性的某一方面超過了基礎(chǔ)模型SinGAN,表明本文提出的改進(jìn)措施是有效的。ADRE-SinGAN在保證生成圖像質(zhì)量的條件下,有效提升了生成圖像的多樣性,解決了模型的模式崩潰現(xiàn)象。

4 結(jié)論

本文提出的基于注意力機(jī)制和隨機(jī)像素擦除的雙判別器單圖生成對(duì)抗網(wǎng)(ADRE-SinGAN),有助于更細(xì)致地捕獲圖像特征,有效解決SinGAN在模式崩潰和訓(xùn)練不穩(wěn)定方面的問題,同時(shí)提高生成圖像的質(zhì)量和多樣性。實(shí)驗(yàn)證實(shí)ADRE-SinGAN在圖像質(zhì)量和多樣性等關(guān)鍵評(píng)估指標(biāo)上均優(yōu)于原始SinGAN模型,表明其在圖像生成任務(wù)上性能顯著提升。需要注意的是,由于引入了多個(gè)注意力模塊和雙判別器設(shè)計(jì),模型復(fù)雜度有所增加,訓(xùn)練速度相對(duì)原始SinGAN較慢,這在未來的研究中需要進(jìn)一步優(yōu)化。總體來看,ADRE-SinGAN模型不僅發(fā)展和改進(jìn)了SinGAN的已有理論和技術(shù),而且為單圖像生成任務(wù)提供了一種新的解決方案,在理解和應(yīng)用生成對(duì)抗網(wǎng)絡(luò)方面提供了新的視角,對(duì)解決實(shí)際視覺處理問題具有潛在的應(yīng)用價(jià)值。

參考文獻(xiàn)

[1] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL]. (2014-06-10)[2023-09-08]. https:∥doi.org/10.48550/arXiv.1406.2661.

[2] 鄭明. 基于GAN的單圖生成研究[D]. 武漢: 武漢郵電科學(xué)研究院, 2022.

[3] SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: learning a generative model from a single natural image[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019: 4569-4579.

[4] ZHANG Z, HAN C, GUO T. ExSinGAN: Learning an explainable generative model from a single image[EB/OL]. (2022-01-06)[2023-09-05]. https:∥doi.org/10.48550/arXiv.2105.07350.

[5] AWISZUS M, SCHUBERT F, ROSENHAHN B. TOAD-GAN: coherent style level generation from a single example[J]. Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment, 2020, 16(1): 10-16.

[6] GUR S, BENAIM S, WOLF L. Hierarchical patch VAE-GAN: generating diverse videos from a single sample[EB/OL]. (2020-12-20). https:∥doi.org/10.48550/arXiv.2006.12226.

[7] WANG Y, KARIMI H A. Generating high-resolution climatological precipitation data using SinGAN[J]. Big Earth Data, 2023, 7(1): 81-100.

[8] ZHANG P Y, ZHONG Y X, TANG X Y, et al. Learning diagnosis of COVID-19 from a single radiological image[EB/OL]. [2023-09-14]. https:∥doi.org/10.48550/arXiv.2006.12220.

[9] GOMEDE E. SinGAN-Seg: Enhancing image segmentation with SinGAN [EB/OL]. (2023-06-29)[2023-09-08]. https:∥cash-ai.news/2023/06/29/singan-seg-enhancing-image-segmentation-with-singan-by-everton-gomede-phd-jun-2023.

[10]李彥. 基于生成對(duì)抗網(wǎng)絡(luò)的圖像生成模型研究[D]. 成都: 電子科技大學(xué), 2022.

[11]RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2016-01-07)[2023-09-15]. https:∥doi.org/10.48550/arXiv.1511.06434.

[12]KARRAS T, AILA, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. (2017-10-26)[2023-09-15]. https:∥doi.org/10.48550/arXiv.1710.10196.

[13]史彩娟, 涂冬景, 劉靖祎. Re-GAN: 殘差生成式對(duì)抗網(wǎng)絡(luò)算法[J]. 中國圖象圖形學(xué)報(bào), 2021, 26(3): 594-604.

[14]NGUYEN T D, LE T, VU H, et al. Dual discriminator generative adversarial nets[EB/OL]. (2017-02-12)[2023-09-11]. https:∥doi.org/10.48550/arXiv.1709.03831.

[15]ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[EB/OL]. (2017-12-06). https:∥doi.org/10.48550/arXiv.1701.07875.

[16]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[EB/OL]. (2017-12-25)[2023-09-21]. https:∥doi.org/10.48550/arXiv.1704.00028.

[17]MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[EB/OL]. (2018-12-16)[2023-09-21]. https:∥doi.org/10.48550/arXiv.1802.05957.

[18]BHASKARA V S, AUMENTADO-ARMSTRONG T, JEPSON A, et al. GraN-GAN: piecewise gradient normalization for generative adversarial networks[C]∥2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2022: 2432-2441.

[19]祁宣豪, 智敏. 圖像處理中注意力機(jī)制綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2024, 18(2): 345-362.

[20]YOO J, CHEN Q F. SinIR: efficient general image manipulation with single image reconstruction[EB/OL]. (2021-06-14)[2023-09-26]. https:∥doi.org/10.48550/arXiv.2106.07140.

[21]MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]∥Proceedings Eighth IEEE International Conference on Computer Vision. ICCV. IEEE, 2001: 416-423.

[22]ZHOU B L, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[J]. Advances in Neural Information Processing Systems, 2014, 1: 487-495.

[23]DOSOVITSKIY A, BROX T. Generating images with perceptual similarity metrics based on deep networks[C]∥Proceedings of the 30th International Conference on Neural Information Processing Systems(NIPS 2016). 2016: 658-666.

[24]WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]∥The Thrity-seventh Asilomar Conference on Signals, Systems amp; Computers. IEEE, 2003: 1398-1402.

作者簡介:第一作者,彭星鴻(1996— ),男,碩士研究生; 通信作者,劉玲(1978— ),男,碩士,講師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用,E-mail: lingliu@swust.edu.cn; 通信作者,袁平(1963— ),男,博士,教授,研究方向?yàn)橛?jì)算機(jī)應(yīng)用,E-mail: yuanping@swust.edu.cn

主站蜘蛛池模板: 成人一级黄色毛片| 国产成人三级| 亚洲国产综合精品中文第一| 亚洲国产精品VA在线看黑人| 亚洲免费人成影院| 亚洲天堂视频在线免费观看| 精品国产香蕉伊思人在线| 伊人中文网| 国产xx在线观看| 一本久道热中字伊人| 尤物特级无码毛片免费| 亚洲天堂视频在线观看免费| 亚洲综合婷婷激情| 亚洲IV视频免费在线光看| 亚洲91精品视频| 欧美精品另类| av天堂最新版在线| 五月天久久婷婷| 一级毛片无毒不卡直接观看| 99国产在线视频| 亚洲性日韩精品一区二区| 播五月综合| a毛片免费观看| 欧美yw精品日本国产精品| 99精品免费欧美成人小视频| 一级不卡毛片| 99精品久久精品| 国产在线观看99| 久久久亚洲色| 国产主播在线一区| 福利视频99| a毛片在线| 亚洲国产一区在线观看| 无码日韩人妻精品久久蜜桃| 波多野结衣一区二区三区88| 伊人婷婷色香五月综合缴缴情| 中文字幕亚洲精品2页| 国产精品林美惠子在线观看| 亚洲激情99| 91精品啪在线观看国产| 一级看片免费视频| 国产成人h在线观看网站站| 国产成人亚洲无吗淙合青草| 国产精品99在线观看| 国产欧美中文字幕| 久久国产精品麻豆系列| 欧美在线一级片| 99视频国产精品| 久久久久久久蜜桃| 精品成人一区二区三区电影| 67194亚洲无码| 漂亮人妻被中出中文字幕久久| 中文精品久久久久国产网址 | 亚洲高清无码久久久| 欧美精品三级在线| 国产激爽大片在线播放| 亚洲中文在线视频| 亚洲性色永久网址| 18禁高潮出水呻吟娇喘蜜芽| 亚洲第一视频免费在线| 欧美a在线| 毛片大全免费观看| 国产免费久久精品99re丫丫一| 色精品视频| 三上悠亚精品二区在线观看| 久久综合伊人 六十路| www.youjizz.com久久| 亚洲人成影视在线观看| 国产xx在线观看| 五月激情婷婷综合| 99热这里只有精品5| 中文字幕在线观看日本| 亚洲色图欧美激情| 真实国产精品vr专区| 女人18毛片一级毛片在线 | 九九免费观看全部免费视频| 亚洲精品大秀视频| 欧美日韩91| 久久男人资源站| 久久精品国产精品一区二区| 国产99精品久久| 国产欧美日韩精品综合在线|