999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度注意力的面部屬性編輯歸一化

2022-11-07 08:19:42朱嘉琪阮振平
關鍵詞:語義信息模型

朱嘉琪, 陶 然, 阮振平, 詹 曙

(1.合肥工業大學 計算機與信息學院,安徽 合肥 230601; 2.安徽醫科大學第二附屬醫院,安徽 合肥 230601)

面部屬性編輯的任務在深度學習中已經引起了廣泛的關注,并且隨著生成對抗網絡[1]的出現而取得了顯著進展。該任務的目的是根據給定的域標簽來操縱源圖像,以擁有單個或多個目標屬性。生成的結果不僅應包括所需要的屬性,還應包括背景區域和其他屬性。面部屬性編輯實際上是一個多領域圖像到圖像的翻譯任務。現有的大多數方法[2-5]只專注于2個域之間圖像到圖像的轉換,盡管這些方法可以從成對的圖像中準確捕獲目標屬性,但實際上成對圖像很難獲得,而且為每個特定屬性編輯任務學習單個翻譯模型也只能獲得不完全的成功。為了克服這些問題,最近提出了幾種多域方法[6-8],這些方法通常結合編碼器和解碼器網絡,并將源圖像和目標屬性矢量作為輸入。

隨著編解碼器體系結構的出現,已經實現了各種各樣的圖像到圖像轉換任務,并產生了大量令人矚目的結果。這些網絡通過逐步對輸入圖像進行下采樣并將其壓縮為靜態表示形式以獲得圖像的抽象屬性和內容。文獻[7-9]使用自動編碼器網絡;文獻[4]、文獻[6]采用帶有殘差塊的淺層編解碼器網絡,但是這樣的體系結構容易在各種面部成分上產生模糊的效果和較大的失真,導致合成圖像的感覺不真實。為了避免信息丟失,可以在編碼器和解碼器層之間[2,7]添加跳過連接以組合特征。雖然跳過連接的部署可以在輸入圖像中保留上下文和紋理信息,但是它不能處理比例和方向差異,并且不利于屬性編輯。

此外,現有的大多數方法通常不會顯式地利用圖像中的語義結構信息。具體來說,StarGAN[6]使用單個生成器將圖像及其對應的二進制屬性標簽作為輸入來執行多域圖像轉換,但是該模型缺乏有效地對屬性建模的能力,無法解開多個屬性之間的相關性。與StarGAN相似,AttGAN[7]依據目標屬性向量執行面部屬性編輯,但是無法將屬性向量連接到圖像潛在表示來有效地構造屬性信息。另外,AttGAN和StarGAN的重建結果不盡人意,如圖1所示。一個可能的原因是它們過度使用了常規的卷積層和批處理歸一化,導致網絡傳播過程中極大地溶解了圖像有效信息。

為了克服這些問題,本文從選擇性細化的角度研究了面部屬性編輯,并提出了新的面部屬性編輯生成對抗網絡(facial attribute editing generative adversarial networks,FAE-GAN)模型。從選擇性角度來說,FAE-GAN在每個解碼器層上提供一個全局上下文,為低層網絡提供指導,以選擇屬性的詳細信息,從而獲得具有不同感受野的多尺度特征,可以有效地在整個網絡中傳播語義信息。從細化角度來說,FAE-GAN不僅考慮了需要編輯的屬性,以避免歸一化層“沖走”目標屬性中的信息,而且有效地訓練了難以生成的面部成分和精致的面部結構。

借助多尺度注意力歸一化(multi-scale attention normalization,MAN),生成器可以通過特定尺度的修改來控制面部屬性的編輯。FAE-GAN允許模型根據需要專注于圖像和屬性的最相關部分,并且不會帶來大量的計算開銷。本文的主要貢獻如下:

(1) 提出了多尺度注意力歸一化或簡稱MAN模塊,以提高屬性處理能力和圖像質量。在模塊內部,MAN采用殘差學習來改善特征提取,從而防止了原始信息丟失。

(2) 設計了一個緊湊的網絡,該網絡可以有效利用深層的語義特征來合成更好的實驗結果。實驗結果表明,FAE-GAN的性能優于最新技術。

1 相關理論

1.1 生成對抗網絡

生成對抗網絡(generative adversarial networks,GAN)[1]是一種強大的無監督生成模型,已廣泛用于圖像生成任務,如圖像合成[10-11]、圖像到圖像翻譯[2,4,12-13]、圖像超分辨率[14]等。通常,GAN模型包括生成器G和判別器D這2個部分。在GAN的訓練階段,生成器G嘗試根據先驗分布從隨機噪聲中合成模仿訓練樣本的假樣本,判別器D學會區分生成的樣本和訓練樣本。通過交替訓練使生成的樣本與訓練樣本無法區分,并最終達到平衡狀態。

1.2 圖像到圖像翻譯

圖像到圖像的翻譯旨在學習一種在有監督或無監督條件下映射圖像的功能。文獻[2]提出了一種基于條件GAN的框架,該框架使用成對的圖像作為輸入。基于此工作,CycleGAN[4]引入了循環一致性損失,并利用跨域映射進行未配對的圖像到圖像轉換。但是,以上方法是為單域翻譯設計的,為了解決此局限性,MUNIT[15]和DRIT[16]將圖像分解為域不變的內容和樣式2個部分,以捕獲特定域的屬性,但仍僅限于包含原始域和目標域之間對齊良好的圖像數據集。

1.3 面部屬性編輯

面部屬性編輯是未配對的多域圖像到圖像轉換的問題。盡管已經有幾種方法[2-5]專注于2個域之間的特定屬性編輯的單個轉換模型,但是這些方法對于多屬性場景是不靈活的。因此單個模型的多域翻譯逐漸引起重視。IcGAN[8]將GAN和編碼器組合到一個模型中,該模型可以處理多個屬性,但是生成的圖像通常包含不真實的部分和不想要的紋理。FaderNetworks[9]以端到端的方式訓練編碼器-解碼器網絡,以學習屬性不變的表示形式,但會導致信息的丟失。StarGAN[6]和AttGAN[7]通過將目標屬性向量作為轉換模型的輸入并引入屬性分類損失來實現面部屬性編輯。但是,當簡單地將屬性融合到不同層時,StarGAN和AttGAN都會發生不同特征圖之間的沖突和信息丟失。為了獲得淺層的豐富語義信息并同時保留背景區域和其他屬性,本文提出了一種新的多尺度注意力歸一化模型,該模型利用高層特征圖中的語義信息作為上下文提示來增強較低層特征圖的語義信息。

1.4 歸一化層

歸一化層已成為深度神經網絡必不可少的組成部分。針對不同的任務已經提出了多種歸一化方法。批處理歸一化(batch norm,BN)[17]通過最小批處理信息對輸入進行歸一化。具體來說,首先將網絡層的激活標準化為零均值和單位方差;然后從外部數據中推斷所需的縮放參數和位移參數并用于調制激活以對其進行歸一化。對于語義圖像合成任務,SPADE[18]可以學習一個空間變化函數,該函數將任意分割圖映射到歸一化層的適當參數圖。對SPADE的訓練需要一個包含帶注釋的分割圖的數據集。但是,在帶注釋的分割圖的數據集上訓練感興趣的特定圖像內容是一項艱巨的任務,基于沒有帶注釋的分割圖的數據集則更加困難。相比于從分割圖上學習縮放參數和位移參數,FAE-GAN學習注意力圖和偏差從深層網絡提取信息,從而將目標屬性與語義信息相結合。而且,與SPADE中的SPADE ResBlk相比,FAE-GAN具有更緊湊的結構,且占用的計算資源更少。

2 本文方法

2.1 多尺度注意力歸一化

MAN可以看作是條件歸一化的一種變體,可以將特定于類別的語義信息編碼為BN層的參數。對于需要局部更改的圖像屬性,MAN通過推斷高級特征圖中的仿射變換來逐步細化每個解碼器層的特征,同時通過將仿射變換用作上下文線索來調制低層特征圖的語義,并選擇殘差塊優化已經調制好的低級特征圖的語義。

FAE-GAN模型框圖如圖2所示。考慮神經網絡1個批次的輸入Xi∈RB×C×H×W,其中,i、B、C、H、W分別代表第i層、批次大小、通道數量、高度和寬度。首先網絡開始學習產生1個注意力圖和偏差參數圖;然后用學習到的參數調制歸一化后的激活Xi;最后調制好的激活通過一個殘差模塊去細化原始的特征并拼接到深層網絡上。FAE-GAN最后在深層拼接函數為:

(1)

(2)

為了獲得面部屬性編輯中必不可少的語義信息,在調制后,利用殘差塊將低級特征圖添加到調制后的特征圖。本文使用殘差塊的動機與ResNets的動機不同[19]。ResNets的目的是通過增加網絡深度來提高準確性。在本文中,由于增加了跳過連接,通過學習輸入特征的殘差來優化網絡比優化基礎映射更容易,只需要從原始特征中學習補充信息,同時保留原始信息即可。MAN的性能取決于其固有特性。MAN可以避免歸一化層“沖走”輸入屬性目標中的信息,這是由于學習到的仿射參數在空間上是變化的,允許淺層根據給定任務相關的空間區域進行更新。此外,MAN不僅可以適應轉置卷積過程中的各種激活程度,而且還可以從深層提取不同尺度的語義信息,從而更精確地指導面部屬性編輯。

2.2 網絡架構

圖2中,MAN過濾特征并傳遞有效信息到跳過連接層。通過在粗尺度上提取上下文信息,實現面部的選擇性細化。圖2a所示為去除劉海、改變性別和增加濃密的眉毛的轉換。FAE-GAN包含生成器G和判別器D 2個組件。G的網絡結構由編碼器Ge和解碼器Gd組成。在主干的編碼器Ge中,輸入由核大小為4和步幅為2的5個卷積層進行下采樣,而解碼器Gd具有5個轉置的卷積層用于上采樣,并用層歸一化替代批處理歸一化。此外,MAN已集成到生成器中,以通過跳過連接傳遞有效特征。D的網絡結構有2個分支Dadv和Dcls。Dadv包含5個卷積層,以及2個完全連接的層以區分圖像是生成圖像還是真實圖像。Dcls具有類似的體系結構,并與Dadv共享所有卷積層,但是可以預測屬性向量。

2.3 損失函數

給定一張輸入圖像x,每一層編碼器Ge將x依次編碼為潛在表示,如下所示:

l=Ge(x)

(3)

(4)

用M表示MAN模塊,MAN模塊被部署到4層編解碼器中作為跳過連接,將MAN模塊與Gd模塊結合,即

(5)

(6)

整個模塊的過程如下:

y=Gd(Ge(x),v)

(7)

其中,y為編輯后擁有期望屬性的圖片。

接著,詳細描述對抗、屬性分類和重建損失,FAE-GAN利用這些損失函數來幫助訓練。

2.3.1 對抗損失

本文利用對抗損失使生成的圖像看起來與真實樣本相似。此外,本文用Wasserstein GAN[10]和WGAN-GP[20]創建一個穩定的生成器,將生成結果與具有高頻細節的真實圖像區分開,表示如下:

(8)

(9)

(10)

其中:G(x,v)為生產的假樣本;ε為配對的真實和生成樣本之間均勻采樣。

2.3.2 屬性分類損失

即使沒有真實的生成樣本,FAE-GAN的生成結果也需要不僅真實而且很好地對應目標屬性。為此,本文添加了一個輔助分類器Dcls,Dcls訓練真實圖像的屬性分類損失定義如下:

(11)

此外,屬性分類損失也用于約束生成器,保證生成的圖像具有判別器監督的目標屬性,表示如下:

(12)

2.3.3 重構損失

生成器在學習屬性的相關部分時應保留輸入面部紋理的一些不相關內容。當目標屬性與源屬性相同時,生成器應學習通過對潛在表示進行解碼來編輯輸入圖像以近似于源圖像,因此將重建損失表示為:

(13)

2.3.4 總損失

結合上面討論的損失來優化G和D的總損失函數如下:

(14)

(15)

其中,λ1、λ2、λ3、λ4為平衡損失的超參數。

3 實驗結果與分析

本文在擁有一塊1080Ti圖像處理器的電腦上執行實驗,使用了ADAM[21]優化器去優化網絡框架訓練模型,(14)式和(15)式中的超參數設置為λ1=λ3=10、λ2=1、λ4=100,初始化的學習率設置為2×10-4并微調到2×10-5,訓練和微調的迭代次數分別為200和100。

3.1 數據集

CelebFaces屬性數據集CelebA[22]包含來自10 177名名人的202 599張對齊的面部圖像,每張照片都具有40個屬性注釋。本文將這些圖像分為訓練集、驗證集和測試集,并從驗證集中選擇1 000張圖像來評估訓練過程,剩下的驗證集和訓練集按照AttGAN[7]的分割策略進行訓練以進行公平比較。本文選擇以下13個屬性進行實驗,即禿頭、劉海、黑發、金發、棕發、濃密的眉毛、眼鏡、性別、嘴巴略張、胡子、胡須、皮膚和年齡,它們在外觀和視覺上對于比較實驗有意義。在實驗中,所有對齊的圖像被居中裁剪為178×178,并調整為128×128。

3.2 視覺質量比較

本文在CelebA數據集上與IcGAN[8]、FaderNet[9]、AttGAN[7]、StarGAN[6]進行了對比。首先,在單屬性面部屬性編輯任務上評估本文的方法,5種方法的人臉單屬性編輯結果如圖3所示。

IcGAN和FaderNet的結果通常模糊不清,導致不夠真實的感覺。這主要是由于這些方法對潛在表示施加了屬性無關的約束,損害了它們的表現能力并產生了平滑的結果。相反,FAE-GAN的結果看起來更加自然和真實,并保留了輸入圖像原本的信息。對于StarGAN和AttGAN,它們都可以準確地編輯屬性,但是它們的某些結果沒有被充分修改,例如光頭和胡須。此外,某些背景區域可能被錯誤地轉移。相反,FAE-GAN可以準確地編輯局部和全局屬性,同時可以很好地保留屬性(不包括面部識別、照明和背景等細節),充分表明了MAN有助于生成更高的視覺質量圖像。

此外,對于多個面部屬性編輯評估,本文與StarGAN[6]和AttGAN[7]進行了比較,這2種方法是同時學習和傳遞多個屬性的代表性方法。FAE-GAN、AttGAN和StarGAN的多種面部屬性編輯比較結果如圖4所示。對于StarGAN,面部細節失真。與FAE-GAN相比,AttGAN產生的清晰結果的圖片較少。造成這些不良結果的主要是因為StarGAN和AttGAN將語義和目標屬性向量以其他方式融合時會發生沖突,從而導致無法有效地解耦不同屬性的信息。相比之下,即使在多個屬性的復雜組合下,FAE-GAN仍然表現良好。通過組合高級和低級信息,可以對圖像屬性和背景進行顯式且單獨地建模,從而確保屬性不被糾纏并保留細節。

3.3 屬性增強控制和定性評估

直接運用屬性增強控制是FAE-GAN特點之一。盡管FAE-GAN是用二值屬性訓練,但是在不改變原始的結構設計上,測試階段能生成連續的屬性結果。屬性強度控制結果如圖5所示,將0~1之間的連續值作為屬性輸入,生成的圖像具有平滑和自然的過渡。

為了定性評價人臉屬性編輯的性能,本文從屬性編輯精度和圖像視覺質量2個方面進行了分析。為了評估屬性編輯的準確性,本文在訓練集上設計了一個分類器,通過判斷編輯后的圖像是否具有期望的屬性來衡量13個屬性編輯的準確性。屬性生成準確度見表1所列,除性別屬性外,FAE-GAN在所有屬性中準確率最高。主要原因是IcGAN[8]嚴重改變了其他不包含屬性的細節,尤其是面部身份,因此在性別屬性上表現得更好。此外,對于禿頭、黑發、棕發、眉毛和胡子等屬性,FAE-GAN比其他方法的準確率提高了20%。

至于圖像視覺質量,采用結構相似指數(structural similarity index,SSIM)、峰值信噪比(peak signal-to-noise ratio,PSNR)評價指標定量分析結果。在所有屬性不變,即目標屬性向量與源屬性向量相同的情況下,采用這些評價措施來評價輸入圖像與重建圖像之間的性能,以表明FAE-GAN能更好地保留不變的屬性。IcGAN[8]、FaderNet[9]、StarGAN[6]、AttGAN[7]、FAE-GAN的比較結果如見表2所列。與其他競爭方法相比,FAE-GAN獲得了更好的結果,主要得益于如下2個方面:一方面,利用MAN結構,在進行屬性編輯的同時,很好地保留了語義信息;另一方面,在解碼器中用層歸一化替代了批處理歸一化,減少了傳播過程中輸入的草圖和顏色信息的分解。

表1 屬性生成準確度

表2 5種方法重構損失比較

4 結 論

本文介紹了編解碼器網絡在面部屬性編輯中的缺點,從選擇性細化的角度出發,提出了一種多尺度注意力歸一化模型,該模型可以在保留圖像身份信息的同時編輯屬性。

通過利用學習到的仿射變換來指導較低層并結合殘差學習,FAE-GAN可以通過更改感興趣的特定屬性來修改圖像,同時保留其他不變的 屬性。

面部屬性編輯的實驗表明,在圖像重建質量和屬性的靈活翻譯方面,FAE-GAN優于目前其他一些方法的性能。

猜你喜歡
語義信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲天堂.com| 夜色爽爽影院18禁妓女影院| 五月天久久综合| 亚洲 欧美 偷自乱 图片 | 凹凸国产分类在线观看| 91精品啪在线观看国产60岁 | 亚洲开心婷婷中文字幕| 国产成人一区在线播放| 人人妻人人澡人人爽欧美一区 | 91福利免费视频| 五月激激激综合网色播免费| av一区二区三区高清久久| 成人国产三级在线播放| 国产91精品调教在线播放| 色窝窝免费一区二区三区| 国产精品无码翘臀在线看纯欲| 亚洲一区第一页| 欧美人与性动交a欧美精品| 99re这里只有国产中文精品国产精品 | 国产69囗曝护士吞精在线视频| 国产在线专区| 成人精品视频一区二区在线| 午夜精品区| 97国内精品久久久久不卡| 思思99思思久久最新精品| 综合久久久久久久综合网| 青青青草国产| 91精品aⅴ无码中文字字幕蜜桃| 国产日韩精品欧美一区喷| 亚洲人成影视在线观看| 亚洲欧美国产视频| 久草中文网| 美女啪啪无遮挡| 免费无码网站| 亚洲天堂精品视频| 国产乱人免费视频| 国产高清不卡| 亚洲精品天堂自在久久77| 亚洲自偷自拍另类小说| jizz在线观看| 亚洲乱伦视频| 99精品在线视频观看| 黄色网页在线播放| 91精品久久久无码中文字幕vr| 伊伊人成亚洲综合人网7777| 国内精品免费| 日韩区欧美国产区在线观看| 欧美另类图片视频无弹跳第一页| 制服丝袜一区二区三区在线| 亚洲天堂网在线视频| 亚洲女同欧美在线| 午夜不卡福利| 67194亚洲无码| 精品国产免费观看| 国产色爱av资源综合区| 香蕉久人久人青草青草| 国产精品福利一区二区久久| 欧美日韩综合网| 伊人激情久久综合中文字幕| 免费精品一区二区h| 亚洲欧美天堂网| 天堂成人在线视频| 国产在线观看99| AV老司机AV天堂| 久久精品人人做人人| 国产成在线观看免费视频| 国产丝袜91| av色爱 天堂网| 成人精品视频一区二区在线 | 国产网站黄| 狠狠亚洲五月天| 国产一级毛片在线| 亚洲天堂伊人| 免费av一区二区三区在线| 国产精品护士| 88av在线看| 91丝袜乱伦| 国产成人资源| 久久精品国产亚洲麻豆| 热久久国产| 一级毛片在线播放免费| 欧美另类第一页|