魏子凱,辛經緯,楊 恒,王楠楠
(1.西安電子科技大學 通信工程學院,陜西 西安 710071; 2.深圳愛默科技有限公司,廣東 深圳518109)
隨著科技的發展,手機、無人機、監控攝像頭等非限制場景圖像采集設備越來越普及,而由于物理成像系統和成像條件的限制,非限制場景下采集中的噪聲和模糊等降質因素導致采集的人臉圖像的區分度和信息量都大大降低。當面對一些實際應用如人臉識別等高級視覺任務時,這些低分辨率人臉圖像很難滿足要求。因此為滿足實際應用,需要對這些低質人臉圖像進行人臉超分辨率重建(face super-resolution,FSR)。
人臉超分辨率重建是指從低分辨率(low-resolution,LR)人臉圖像重建出高分辨率(high-resolution,HR)人臉圖像的技術。目前主流的FSR算法以深度學習算法為主。
早期人臉超分辨率重建主要使用現有的一般圖像超分辨率重建方法,如SRCNN[1],但是其在恢復人臉高頻信息上效果并不好。于是,HUANG等提出了一種優化算法SRCNN-IBP,可以提高算法的重建效果[2]。后來,隨著注意力機制的廣泛應用,許多整合注意力機制的FSR方法也相繼被提出[3-5]。
由于人臉具有一些特定的先驗信息可以用來幫助FSR網絡恢復出面部結構細節更清晰的人臉圖像,因此基于先驗指導的FSR方法是目前人臉超分辨率重建領域的一個主要研究熱點。
先驗引導的 FSR 方法是指通過提取人臉先驗信息并利用它來促進高分辨率人臉重建的方法。ZHU等設計了一種級聯雙網絡CBN,通過估計人臉密集對應場先驗信息并聯合FSR重建網絡進行訓練[6]。CHEN等提出FSRNet方法,利用人臉熱力圖和人臉解析圖兩種先驗信息進行人臉超分辨率重建[7]。YIN 等提出JASRNet,利用共享的編碼器同時提取超分辨率重建和先驗估計所需要的特征[8]。HU等提出由3D面部先驗引導的FSR方法FSRG3DFP,通過估計3D先驗信息來學習3D面部細節信息,幫助進行人臉超分辨率重建[9]。隨后,由于生成式對抗網絡(generative adversarial networks,GAN)[10]具有生成圖像清晰度高,細節豐富的優勢,研究人員開始研究基于GAN的FSR算法。YU等提出UR-DGN實現了大尺度的人臉超分辨率重建[11]。隨后,HSU等提出了基于身份信息保留的SiGAN,利用人臉識別網絡來定義身份損失,從而生成更加真實的高分辨率人臉圖像[12]。結合GAN和人臉先驗信息,CHEN等提出PSFR-GAN方法,將面部解析圖先驗信息與GAN網絡進行融合,進一步提高模型性能[13]。MENON等提出基于生成先驗的FSR方法PULSE,將FSR作為一個生成問題來生成高質量的SR人臉圖像[14]。
人臉先驗指導的方法雖然取得了較好的重建效果,但是大多數現有方法僅對單一類型的面部先驗信息進行探索,人臉先驗信息沒有得到充分利用。此外,許多以前的FSR方法復雜且難以在現實場景中進行應用。在圖像退化嚴重的非限制場景中,這些方法會出現先驗估計不精確的問題,制約了FSR性能的提升。而基于GAN的FSR方法重建的圖像質量雖然比較高,但是這種類型的網絡模型很難訓練。因此,設計出可以充分利用人臉的先驗信息并且適用于退化圖像的噪聲人臉圖像超分辨率重建方法是本文的研究重點。
針對上述問題,本文在人臉圖像降質的過程中引入噪聲和運動模糊來模擬現實場景,并提出一種多信息融合的方法來進行噪聲人臉圖像超分辨率重建工作。該方法融合了人臉解析圖和人臉屬性2種先驗信息,采用基于GAN的訓練方式進行訓練。本文方法將像素級先驗信息和語義級先驗信息進行充分融合利用,可以從含噪聲的低分辨率人臉圖像中重建出細節豐富的高分辨率人臉圖像。
本文所提出的基于多信息融合的FSR網絡由3部分組成:粗超分辨率重建網絡、解析圖估計網絡與屬性分析和重建網絡。網絡結構如圖1所示。

圖 1 基于多信息融合的FSR網絡結構
圖1中,首先將LR圖像輸入到由殘差模塊構成的粗超分辨率重建網絡中,重建出粗略的HR人臉圖像。隨后將粗略的HR人臉圖像輸入到解析圖估計網絡進行人臉解析圖估計,然后合并粗略的HR人臉圖像和估計的人臉解析圖并輸入到屬性分析和重建網絡中進行人臉屬性估計和最終的HR人臉圖像的重建。
輸入的低質人臉圖像由于存在噪聲并且分辨率非常小,直接實現到高質量人臉圖像的映射過程十分困難。因此,本文首先構造一個粗超分辨率重建網絡來對輸入的含噪聲的低質人臉圖像進行一次粗略的超分辨率重建操作,重建的粗略超分辨率圖像可以緩解估計先驗信息的困難。
設x表示LR輸入圖像,y表示網絡重建的粗略的HR人臉圖像,粗超分辨率重建網絡SRcoarse(·)的重建過程可以表示為y=SRcoarse(x)。粗超分辨率重建網絡的結構如圖1左上角所示。其從一個3×3卷積開始,然后通過12個殘差塊進行殘差學習,最后經過上采樣模塊重建出粗略的超分辨率圖像。殘差塊的有效性已經在近年來的各種圖像超分辨率重建方法中得到了驗證,網絡所重建出的粗略超分辨率圖像將用于下一步的人臉先驗信息估計和高分辨率人臉圖像的重建工作。
不同的人臉圖像在其形狀和紋理上都有著不同的分布,當圖片的分辨率下降時,圖像的形狀信息相比紋理信息可以更好地得到保留,同時圖像噪聲對于圖像形狀信息的影響也比紋理信息更小,因此本文提出一種解析圖估計網絡來對表征人臉形狀信息的人臉解析圖進行估計,其結構如圖2所示。

圖 2 解析圖估計網絡結構
從圖2可以看出,解析圖估計網絡由編碼器和解碼器組成。具體地,編碼器不斷對圖像進行下采樣以去除紋理信息,而解碼器將形狀特征恢復到與輸入圖像相同的大小,該結構可以在多個不同的圖像尺度上捕獲重要信息。同時為了將不同尺度的圖像進行空間信息的保留,解析圖估計網絡還使用了跨層的跳躍連接的機制,并在跳躍連接中使用了1×1卷積進行處理來使得特征具有相同的通道數。
解析圖估計網絡估計人臉解析圖先驗信息(p)的過程表示為p=Decp(Encp(y)),其中,Encp和Decp分別是編、解碼模型,y為粗超分辨率重建網絡的輸出。最終,網絡生成和真實人臉解析圖監督信息通道數量一致的人臉解析圖估計。
與自然圖像相比,人臉圖像具有更多的先驗信息可以利用,例如人臉屬性信息。本文考慮各種先驗信息間的相關性,提出一種屬性分析和重建網絡,該網絡通過對人臉的屬性信息進行估計,在人臉解析圖的像素先驗信息的基礎上引入了語義表征的屬性信息來對人臉超分辨率重建進行進一步的約束。屬性分性和重建網絡的結構如圖3所示。

圖 3 屬性分析和重建網絡結構
從圖3可以看出,網絡首先將粗超分辨率重建網絡輸出的特征圖和解析圖估計網絡輸出的人臉解析圖估計進行合并操作來作為屬性分析和重建網絡的輸入,編碼器通過堆疊多個卷積層來提輸入圖像的高級特征表征(a):a=Enc(concat(y,p)),其中,concat(·)表示合并操作,其作用是將2張圖片在通道維度進行合并,Enc(·)表示網絡的編碼器。對于編碼器輸出的特征表征信息a,本文選取其中一部分來作為人臉屬性信息的估計,并在網絡訓練期間通過真實人臉屬性信息對其進行監督。隨后,網絡將屬性表征信息a送入解碼器進行重建操作,網絡最終重建出的高分辨率人臉圖像(z):z=Up(Dec(Enc(a))),其中,Dec(·)表示網絡的解碼器,Up(·)表示上采樣網絡。編解碼器由一系列3×3卷積構成,編碼器將大小為64×64的特征下采樣至2×2大小,并通過1個全連接層得到人臉屬性表征a;解碼器則將a恢復至原始特征大小64×64,同時編解碼器之間通過跳躍連接來減少圖像輪廓信息的丟失,最后通過一個上采樣網絡重建出128×128大小的高分辨率人臉圖像。

1.5.1 像素損失
在圖像超分辨率重建中使用均方誤差(mean square error,MSE)損失可獲得較高的客觀指標,如PSNR和結構相似性(structural similarity,SSIM),但是其通常會丟失高頻紋理信息,導致圖像的過度平滑。為避免以上問題,本文使用Lpixel損失作為像素損失函數:
(1)

1.5.2 人臉先驗損失
為了約束人臉先驗信息的估計過程,充分利用人臉先驗信息,本文采用人臉先驗損失分別對解析圖估計網絡與屬性分析和重建網絡進行優化:
(2)
(3)

1.5.3 對抗損失
基于GAN的方法為圖像超分辨率重建提供了良好的視覺效果,因此本文同時將GAN合并到FSR網絡框架中,通過加入判別網絡來區分SR圖像和真實高分辨率圖像,同時訓練FSR網絡以欺騙判別器。訓練GAN的對抗損失表示為
(4)
式中:D(·)為判別網絡。該損失有助于使重建圖像的紋理更清晰逼真,提高圖像的感知質量。
1.5.4 總損失
本文對各個損失函數進行加權組合,最終得到用于模型訓練的總損失函數:
L=Lpixel+λ1Lp+λ2Lattr+λ3Ladv
(5)
式中:權重參數λ1、λ2、λ3設置為1、10、0.005。
本節首先介紹實驗采用的數據集和數據退化模型,然后介紹具體的實驗細節;之后將本文模型與7個主流FSR方法進行比較,以評價本文方法性能;最后通過消融實驗來驗證本文模型的有效性。
本文使用公開的人臉數據集CelebA[15]進行實驗。本文取前36 000 張圖像進行訓練,并取接下來的 1 000 張圖像進行測試。本文根據人臉區域粗略地裁剪圖像,并在沒有任何人臉對齊操作的情況下將圖像大小調整為128×128。每張圖像有40個屬性標注。此外,由于CelebA沒有原始的人臉解析圖,因此本文借鑒FSRNet[7]中的解決方法,使用GFC[16]模型來生成圖像的人臉解析圖來作為網絡訓練時的人臉解析圖監督信息。
為了檢測網絡對含噪聲的退化圖像的有效性,本文仿照FACN方法[17]使用3個退化模型(噪聲強度n分為0、10、30)對HR圖像圖4(a)進行處理來模擬LR圖像,8倍下采樣的3個退化模型的LR圖像效果如圖4(b)、(c)、(d)所示。

(a) 高分辨率人臉 (b) n=0 (c) n=10 (d) n=30
圖4(b)使用雙三次插值下采樣來模擬縮放因子為8的LR圖像(簡稱為Bic)。圖4(c)是在Bic模型的基礎上添加噪聲級別為10的高斯噪聲(簡稱為BicN),其中噪聲級別n表示[0, 255]像素強度范圍內的標準偏差。圖4(d)首先通過標準差為1.6、大小為7×7的高斯核對圖4(a)進行模糊,然后進行雙三次插值下采樣并添加噪聲級別為30的高斯噪聲(簡稱為BBicN)。
本文的相關實驗均在配置Nvidia 2080ti GPU的服務器上通過Pytorch深度學習框架實現。其中,網絡學習率設置為1×10-4,批訓練大小設置為16,梯度優化器采用Adam[18]優化器,優化器參數β1=0.5和β2=0.99;本文在圖像的Y通道(YCbCr顏色空間)上使用PSNR和SSIM 2個客觀評價指標來對噪聲人臉超分辨率重建的效果進行客觀評價。
在本節中,將本文方法與Bicubic、GLN[19]、EDSR[20]、FSRNet[7]、AEUN[21]、SPARNet[5]和EIPNet[22]等7種方法進行對比實驗。為了進行公平比較,所有方法的訓練數據處理保持一致并對模型進行重新訓練,并在經過3種不同降質模型的CelebA測試數據集上進行測試。對比方法中除SPARNet方法為基于GAN的方法外,其他6種方法均為未使用GAN方法訓練的常規FSR方法。常規FSR方法的PSNR、SSIM指標值較好,但圖像容易過度平滑;而基于GAN的方法是在常規FSR方法的基礎上使用了對抗訓練的方式,生成圖像更符合人眼視覺,但是PSNR、SSIM指標會有所下降。表1展示了各方法在8倍超分辨率重建下的平均PSNR和SSIM值,PSNR和SSIM的值越大,表示效果越好。

表 1 不同降質下的CelebA數據集上的超分辨率重建結果指標對比
表1中,由于本文方法為基于GAN的方法,為驗證本文方法的有效性,避免GAN對抗訓練對客觀指標的影響,方便和其他常規FSR方法進行比較,本文進行了2種實驗設置:不使用GAN對抗訓練的常規FSR訓練方式和使用GAN方法進行對抗訓練的方式,分別用“本文1”和“本文2”表示。
本文首先比較不加噪聲時圖像的超分辨率重建的定量結果。根據表1第2、3列的結果可知,在常規FSR方法中,本文方法在各項指標上都顯著優于其他現有方法,PSNR相比指標最好的EIPNet方法提升了0.21 dB。在基于GAN的方法中,本文方法也優于SPARNet方法。然后,本文再比較添加噪聲后的超分辨率重建結果。如表1第4、5列和第6、7列所示,可以看到在噪聲的影響下,所有方法的性能都有所降低,但是相比其他方法,本文方法依舊有著最好的客觀評價指標,PSNR相比最好的方法平均提升了0.2 dB。這說明了本文方法對含噪聲的低分辨率圖像依舊有著很強的適應性。
此外,本文還對不同方法的高分辨率人臉重建圖像進行了主觀評價,以驗證本文方法的有效性。圖5展示了不同方法在3種降質圖像下8倍超分辨率重建的主觀視覺效果。

目標圖像 輸入圖像 Bicubic EDSR[20] GLN[19] FSRNet[7] AEUN[21]SPARNet[5]EIPNet[22] 本文1 本文2
從圖5可以看出,常規FSR方法均存在圖像過度平滑的問題,在圖像不添加噪聲時,方法“本文1”相比于其他在常規FSR方法所重建出的人臉圖像更接近于目標圖像。而圖像加入噪聲后,所有方法的重建效果有所降低,但本文方法仍然可以重建出清晰的面部,尤其是眼睛和鼻子部位。對上述結果進行分析,一般圖像超分辨率重建方法EDSR由于沒有考慮人臉圖像的特殊性,重建人臉會出現紋理細節的缺失,在圖像添加噪聲之后尤為明顯。其他幾種對比方法均為FSR方法,故性能相對EDSR都有所提高。其中,方法AEUN在TEAD[23]方法的基礎上引入人臉屬性信息來幫助生成人臉圖像的各個組成部分;方法EIPNet利用人臉邊緣特征對圖像進行約束,以減輕模糊效應,但是其在圖像添加噪聲后也會出現五官紋理細節丟失的問題。
如圖5所示,基于GAN的方法相比于常規FSR方法有著更高的感知質量,重建出的圖像更清晰,細節紋理更豐富。本文2的方法和同樣是基于GAN的SPARNet方法相比,重建出的紋理更細膩,偽影更少,所重建出的圖像也更接近真實圖像。
對比其他同樣利用人臉先驗信息的方法,本文方法無論圖像是在不加噪聲還是添加噪聲時都具有更高的客觀指標和更好的主觀質量,這充分證明了本文方法對人臉的先驗信息進行了有效且充分的利用,并對圖像中的噪聲有著較強的魯棒性。
為了驗證本文方法是否有效利用人臉的先驗信息,本文進行了消融實驗,實驗結果如圖6所示。

圖 6 消融實驗結果
圖6中,本文分別將不同的先驗信息監督去除并對網絡進行重新訓練,然后測試網絡的超分辨率重建性能。具體的,本文分別去除了人臉解析圖先驗信息的監督和人臉屬性先驗信息的監督并對網絡重新進行訓練來觀察不同先驗信息對模型重建結果的影響以及網絡對不同先驗信息的利用情況。可以看出,分別去除人臉解析圖和人臉屬性的先驗信息監督后,重建結果的PSNR值平均下降了0.3 dB和0.1 dB。這表明本文方法充分利用了人臉先驗信息,其中人臉解析圖先驗相比人臉屬性先驗可以為噪聲人臉超分辨率重建帶來更大的性能提升。而使用2種先驗信息的原始網絡有著最好的性能,這表明更豐富的先驗信息可以帶來更多的提升,也證實了本文所提出的多信息融合方法的有效性。
本文提出了基于多信息融合的噪聲人臉圖像超分辨率重建方法。該方法首先將含噪聲的低分辨率人臉圖像輸入到粗超分辨率重建網絡中獲得粗略的高分辨率重建圖像,然后將其輸入到解析圖估計網絡中進行人臉解析圖估計,之后在屬性分析和重建網絡中估計人臉屬性,通過融合人臉解析圖和人臉屬性這2種先驗信息,最終重建出高分辨率人臉圖像。實驗結果表明,本文方法無論在定性的視覺質量還是在定量的評價指標上,均克服了噪聲對圖像的影響,獲得了良好的重建性能。在今后的研究中,可以在此基礎上探究多類別噪聲對人臉圖像超分辨率重建的影響,使其能在真實場景下更好地應用。