王鑫瑋,朱希安,張本奎,杜康寧,郭亞男
(1.北京信息科技大學 光電測試技術及儀器教育部重點實驗室,北京 100101; 2.北京信息科技大學 信息與通信工程學院,北京 100101; 3.中國科學院空天信息創新研究院 地理與賽博空間信息技術研究部,北京 100080)
素描人臉合成旨在根據輸入的光學人臉圖像合成一張素描人臉圖像。在進行素描人臉合成時,若輸入光學人臉圖像分辨率較低、質量較差,合成圖像的質量會顯著降低。若能對輸入的低分辨率光學圖像在進行素描人臉合成的同時恢復其高頻信息,則能顯著提升素描人臉合成圖像的質量。因此根據低分辨率光學圖像合成高分辨率素描圖像有著重要的實際意義。
目前的素描人臉合成算法在處理低分辨率圖像方面的能力較差,在僅有低分辨率光學圖像的條件下無法合成高質量素描圖像。為了解決上述問題,本文提出了一種超分辨率素描人臉合成方法。具體地,在輸入低分辨率光學人臉圖像后,根據低分辨率圖像特征預測高分辨率圖像的小波包分解系數,通過該系數重建一張高分辨率光學人臉圖像,并通過重建圖像合成相應的高分辨率素描人臉圖像。實驗結果表明,本文方法合成的素描圖像的質量較高,合成圖像的噪聲較少,合成高質量圖像的能力更強。
目前最先進的素描人臉合成算法大體可分為兩類:基于數據驅動的素描人臉合成方法和基于模型驅動的素描人臉合成方法。基于數據驅動的方法首先從訓練的光學圖像塊中搜索相似的候選塊,并通過對候選塊進行線性組合重構目標光學圖像,再通過同樣的方式組合對應的素描塊獲得最終的素描圖像。基于數據驅動的素描人臉合成方法可分為貝葉斯推理、稀疏表示和子空間學習等方法。
基于貝葉斯推理的方法使用概率圖形模型對候選圖像進行融合。Zhang等[1]提出了一種魯棒的素描人臉合成網絡,該網絡能通過一個素描模板合成任意風格的素描人臉圖像。然而,由于融合時去除黑色區域的能力有限,當輸入光學人臉圖像存在多余的陰影時,輸出圖像會產生多余的偽影。在稀疏表示領域[2],Zhang等[3,4]提出了基于稀疏表示素描人臉合成方法,該方法的特點是在搜索過程中用稀疏系數代替照片塊的像素值。然而,由于缺少局部約束,合成的素描人臉圖像往往會丟失部分信息。基于子空間學習的方法[5]側重于候選圖像融合。Zhang等[6]提出了一種基于低秩表示(DLLRR)的方法,該方法通過挖掘潛在的素描信息,能在訓練數據較少時穩定地恢復圖像基本結構。然而,當輸入光學人臉圖像存在多余的陰影時,輸出圖像也會產生多余的偽影。
基于模型驅動的方法學習光學人臉圖像和素描人臉圖像之間的映射關系,并使用學習到的映射將光學人臉圖像轉換為素描人臉圖像。在基于模型驅動的方法中,基于深度學習的相關算法研究最為廣泛。Gatys等[7]提出了一種素描生成器,能生成特定風格的素描圖像,但是網絡容易丟失細節信息。Zhang等[8]提出了一種具有生成損失的全卷積網絡。由于神經網絡的結構過于簡單,當輸入圖像的光照條件較差時,輸出圖像包含了大量的噪聲。具有生成器和判別器的生成對抗網絡[9]能在進行素描合成時減少部分輸出圖像的噪聲,但是當訓練圖像和測試圖像的光照條件相差較大時,輸出圖像的面部會產生扭曲。Zhu等[9]提出了一種CycleGAN,在光學圖像與素描圖像不配對的情況下實現素描合成。Wang等[10]將多對抗性網絡引入了CycleGAN合成素描圖像,稱為PS2MAN。由于基于條件生成對抗網絡(cGAN)在素描人臉合成任務中的出色表現,許多研究人員對cGAN進行了進一步的研究。例如,Zhang等[11]提出一種基于多領域對抗性學習的素描人臉合成方法。該方法沒有建立光學域和素描域之間的映射關系,而是利用cGAN來學習光學域和素描域的內在聯系。Zhu等[12]通過將協同損失與cGAN結合提出了協同cGAN(Col-cGAN)。Zhang等[13]將cGAN引入雙傳輸框架,將高頻信息從光學域傳輸到素描域。
單幅圖像超分辨率重建技術主要分為3類:第一類是基于差值的方法,該類方法由于操作簡單、速度快的特點被廣泛應用于圖像處理領域。但是,簡單的插值規則會使重建圖像出現不同層次的鋸齒效應,導致重建質量較差。第二類是基于重建的方法,該類方法雖然可以重建相對清晰的圖像,但存在計算量大、高頻細節易丟失等問題。第三類是基于學習的方法,基于學習的圖像超分辨率算法通過研究低分辨率圖像與對應高分辨率圖像間的映射關系對輸入圖像進行超分辨率重建。Dong C等[14]通過一個卷積網絡直接學習低分辨率圖像與對應的高分辨率圖像之間的映射,根據學習到的映射實現圖像的超分辨率重建。目前基于深度學習的超分辨率重建算法性能已有較大提升,Kim J等[15]參照VGG網絡提出了VDSR算法,網絡層數達到了20層。DRRN[16]在超分辨率算法中引入RNN[17],由于其網絡層共享參數,網絡深度進一步增加到52層。Tong T等結合DenseNet[18]的網絡結構提出了64層的SRDenseNet[19]。Lim B等[20]提出增強型網絡EDSR,網絡層數達到65層。RDN算法[21]通過將ResNet[22]和DenseNet結合到一起,提出了一個網絡深度為149層的網絡,大大改善了網絡的性能。對于超分辨率問題,已經有許多基于小波的方法被提出[23-25]。在單幅圖像的超分辨率重建方面,Gao等[26]提出了一種混合小波卷積網絡,他們使用小波來提供一組稀疏編碼[27]和一個用于稀疏編碼的卷積網絡,Mallat等[28]的研究表明使用小波變換來分離數據在不同尺度下的變化能保證數據的線性化和可分離性。
本文提出了一種端到端的超分辨率素描人臉合成網絡,整體網絡架構如圖1所示。整個網絡結構由4個模塊組成,其中嵌入模塊提取輸入圖像的特征,小波預測模塊根據提取特征預測輸入圖像對應的高分辨率圖像的小波包分解系數,重建模塊將預測得到的小波包分解系數重建為高分辨率圖像,最終通過素描合成模塊得到最終輸出的高分辨率素描人臉圖像。

圖1 網絡結構
2.2.1 嵌入模塊

2.2.2 小波預測模塊
由于小波變換[30]在處理多分辨率圖像的高度直觀性和高效性,本文選擇在小波域對圖像進行處理。本文方法使用Haar小波包變換[30,31],在計算復雜度最低時充分描述不同頻率的面部信息。
在小波包分解等級為n(放大倍數為2n)的條件下,可以將小波預測模塊分為多個獨立的小波預測子模塊。每個子模塊將嵌入模塊的輸出的特征作為輸入,生成相應的小波系數。與嵌入模塊相同,所有卷積層的卷積核大小為3×3,stride為1,pad為1,因此預測出的每個小波系數都與輸入大小相同。另外,由于Haar小波變換系數之間的高度獨立性,使得信息不允許在每兩個子模塊之間流動,使得模塊具有可擴展性。預測模塊中子模塊數目的不同,對應實現不同超分尺度的放大。例如,Nw=4和Nw=16分別表示放大2倍和4倍。
在該模塊中采用小波損失對網絡進行優化。小波損失包括小波預測損失和紋理損失。
小波預測損失定義如式(1)所示

(1)

紋理損失定義如式(2)所示
(2)
該損失應用于原始光學小波包分解系數和預測光學小波包分解系數的高頻系數之間,用來保證高頻小波系數不隨訓練衰減到0,從而防止紋理細節信息的丟失。其中γi是平衡權重,用于平衡紋理損失對不同等級小波包分解系數的影響。α和ε為松馳因子,用于控制紋理損失的大小。在實驗中,參數設置為γi=1,α=1.2和ε=0。
2.2.3 重建模塊
重建模塊能根據預測網絡的輸入得到最終重建的高分辨率光學人臉圖像。它包括一個卷積核大小為2n×2n,stride為2n的反卷積層(r為放大倍數),雖然反卷積層的大小取決于放大倍數2n,但它可以通過恒定的小波重構矩陣進行初始化,并在訓練中固定。因此,它對整個網絡的可擴展性沒有影響。
2.2.4 素描合成模塊

在訓練過程中使用素描合成損失對網絡進行約束。素描合成損失包括對抗損失和循環一致性損失。對抗損失定義如式(3)、式(4)所示
lGp2s=Ey~Pdata(y)[logDs(y)]+Ex~Pdata(x)[log(1-Ds(Gp2s(x)))]
(3)
lGs2p=Ex~Pdata(x)[logDp(x)]+Ey~Pdata(y)[log(1-Ds(Gs2p(y)))]
(4)
其中,x和y分別為原始光學圖像和原始素描圖像,Gp2s(·)和Gs2p(·)分別表示素描生成器和光學生成器,Dp(·)和Ds(·)分別表示光學判別器和素描生成器。對抗損失應用在光學圖像映射為素描圖像的過程,本文采用的對抗損失為原始的交叉熵損失。由于僅使用對抗損失會使生成網絡中存在多余映射問題,從而導致生成數據的穩定性降低。為了減少其它多余映射關系,提高重建圖像與輸入圖像之間的匹配程度,因此引入循環一致性損失。
循環一致性損失定義如式(5)所示

(5)
素描合成損失最終定義如式(6)所示
lfeature=lGp2s+lGs2p+σlcyc
(6)
σ為循環一致性損失權重,用于控制生成圖像的結構一致性。
合成完成后,在輸出素描圖像和原始素描圖像間引入圖像MSE損失,用以平衡重建圖像的平滑與銳化程度,提高生成圖像的質量。
圖像MSE損失定義如式(7)所示
(7)
綜上,總損失函數定義為如式(8)所示
ltotal=lwavelet+μltexture+υlfeature+ρlfull-image
(8)
其中,μ、υ、ρ為控制相關損失項重要性的權重參數。
由于本文方法用于實現高分辨率的素描合成,因此本文采用經典素描人臉數據集CUHK學生數據集來評估本文方法的性能。
CUHK學生數據集由香港中文大學(CUHK)學生數據庫的188張面孔的光學素描圖像對構成,包含134名男性和56名女性。其中88對圖像作為訓練集,剩余的100對圖像作為測試集。
本網絡采用端到端的訓練方式,數據集原始圖像大小為256×256,訓練時根據超分倍數分別獲取其對應等級的小波包分解低頻分量和雙三次差值下采樣圖像作為輸入進行聯合訓練。該訓練方式可以提高網絡應對不同下采樣方法得到的低分辨率圖像的魯棒性。設置迭代周期為500,初始學習率為0.0002,從第100個周期開始線性衰減,到最后一個周期衰減到0。采用參數設置為beta1=0.5,beta2=0.999的Adam優化器更新網絡參數。在網絡初始化方面,卷積層權重采用正態分布隨機初始化,bias初始化為0。訓練時,網絡批處理大小設置為1。為了客觀評價生成圖像的質量,本文采用圖像質量評價標準結構相似性(structural similarity index,SSIM)和峰值信噪比(peak signal to noise ratio,PSNR)對圖像整體進行質量評估。PSNR用于評價生成圖像著色的真實程度,其值越大,表示失真越少;SSIM用于衡量目標間結構的相似程度,SSIM測量值越大,表示兩張圖像相似度越高。
3.3.1 消融實驗
為了驗證本文方法各個模塊在超分辨率素描人臉圖像合成的有效性,在CUHK學生數據集進行消融實驗。首先,使用Bicubic對低分辨率素描人臉圖像進行放大,然后通過CycleGAN網絡對放大的低分辨率光學人臉圖像進行素描合成得到素描人臉圖像;其次,在非端到端的框架下,先使用小波超分網絡對輸入低分辨率光學人臉圖像進行超分辨率重建,再使用CycleGAN網絡對超分辨率重建結果進行素描合成。
在進行實驗結果對比時,首先對比小波超分網絡+CycleGAN和Bicubic+CycleGAN的實驗結果,驗證在素描合成過程中引入超分辨率重建網絡是否能夠提升素描合成圖像的質量。其次,對比本文方法與小波超分網絡+CycleGAN的實驗結果,驗證端到端條件下進行超分辨率素描合成能否進一步改善素描合成圖像的效果。
圖2表示超分倍數為4時高分辨率素描人臉圖像的消融實驗結果,其中圖2(a)為輸入光學圖像,圖2(b)為Bicubic+CycleGAN結果,圖2(c)為小波超分網絡+CycleGAN結果,圖2(d)為本文方法結果,圖2(e)為原始素描圖像。圖2結果表示,圖2(b)、圖2(c)方法輸出結果的視覺效果較為雜亂,邊界整體較為模糊,部分五官細節信息丟失,眼睛和嘴部等結構信息也存在一定扭曲,圖像面部和背景區域相較圖2(e)生成了過多陰影。因此,僅通過素描合成網絡或通過非端到端的方法合成的高分辨率素描人臉圖像質量較差。而圖2(d)方法輸出結果邊界清晰,細節完整,面部結構信息與原始素描較為相似,整體質量較高。

圖2 超分倍數為4時消融實驗結果對比
此外,通過計算圖像的峰值信噪比(PSNR)和結構相似度(SSIM)對消融實驗結果進行了定量分析,結果見表1。表1結果表明,僅引入超分辨率重建網絡在非端到端條件下合成素描圖像雖然可以提升合成圖像的質量,但提升效果有限。而本文方法提升合成圖像質量的效果較好,驗證了本文方法的有效性。

表1 消融實驗性能指標
3.3.2 對比實驗
為了進一步驗證本文方法的高分辨率素描合成效果,本文使用CUHK學生數據集在超分倍數為2和4時的條件下進行了兩組對比實驗。首先,超分辨率對比實驗使用不同超分網絡對低分辨率光學人臉圖像進行超分辨率重建,然后通過CycleGAN網絡對重建的低分辨率光學人臉圖像進行素描合成得到對比實驗結果;其次,素描合成對比實驗使用小波超分網絡對低分辨率光學人臉圖像進行超分辨率重建,然后使用不同素描合成網絡進行素描合成得到對比實驗結果。對比實驗過程中,除本文方法外,均在非端對端框架下,使用經現有超分辨率重建方法重建后的高分辨率光學圖像作為輸入圖像,使用素描合成網絡進行素描合成得到最終的對比圖像。對比實驗用以驗證不同超分辨率重建網絡和不同素描合成網絡在非端到端時參與高分辨率素描人臉圖像合成的效果。
超分辨率對比實驗結果如圖3和圖4所示。圖3為超分倍數為2時不同超分辨率重建網絡合成圖像,圖4為超分倍數為4時不同超分辨率重建網絡合成圖像,圖(a)為光學輸入圖像,圖(b)為EDSR合成圖像,圖(c)為MetaSR合成圖像,圖(d)為RCAN合成圖像,圖(e)為RDN合成圖像,圖(f)為本文方法合成圖像,圖(g)為原始素描圖像。在圖3和圖4結果中,由于圖(b)~圖(e)方法均是非端到端的,與消融實驗類似,輸出結果同樣存在邊界較為模糊,面部和背景區域存在較多的陰影和偽影,嘴部和眼睛等位置出現結構扭曲等問題。圖(f)方法生成圖像則較為清晰,細節與結構信息完整,整體視覺效果較好。

圖3 超分倍數為2時不同超分辨率方法實驗結果對比

圖4 超分倍數為4時不同超分辨率方法實驗結果對比
表2定量分析了超分辨率對比實驗結果的峰值信噪比(PSNR)和結構相似度(SSIM),結果表明本文方法性能在多個超分倍數上優于其它超分辨率對比方法。
素描合成對比實驗結果如圖5和圖6所示。圖5為超分倍數為2時不同素描合成網絡合成圖像,圖6為超分倍數

表2 超分辨率對比實驗性能指標

圖5 超分倍數為2時不同素描合成方法實驗結果對比

圖6 超分倍數為4時不同素描合成方法實驗結果對比
為4時不同素描合成網絡合成圖像,圖(a)為光學輸入圖像,圖(b)為FSW合成圖像,圖(c)為MDAL合成圖像,圖(d)為PS2MAN合成圖像,圖(e)為本文方法合成圖像,圖(f)為原始素描圖像。圖5和圖6結果顯示,圖(b)~圖(d)方法生成的圖像大多邊緣模糊,且在背景和面部等信息量較少的位置存在偽影。圖(b)方法合成的素描風格與原始素描不匹配,圖(c)方法結果存在較多偽影,圖(d)方法結果存在細節失真的問題,圖(e)方法生成結構清晰,細節完整,對比其它方法整體質量較高。
表3定量分析了對比實驗結果的峰值信噪比(PSNR)和結構相似度(SSIM),結果表明本文方法性能在多個超分倍數上優于其它素描合成對比方法。

表3 素描合成對比實驗性能指標
此外,在對比實驗中統計了對不同性能指標下不同方法合成圖像的分布,統計結果如圖7、圖8所示。橫軸代表性能指標大小,縱軸代表圖像數量占比,曲線上點的縱坐標表示合成圖像中性能指標(PSNR或SSIM)大于其橫坐標數值的圖像數量與總合成圖像數量的比值。分布圖表明,本文方法在不同超分倍數的條件下,合成的高質量圖像數量占比高于其它對比方法,合成高質量圖像的能力更強。
本文提出了一種超分辨率素描人臉合成方法,根據低分辨率光學人臉圖像合成一張高分辨率素描人臉圖像。該方法在素描合成網絡中引入了超分辨率重建模塊,通過預測高分辨率圖像小波包分解系數的方式提高了圖像的分辨率的功能。以端對端的方式統一訓練多個模塊,并使用小波預測損失、素描合成損失和圖像MSE損失對網絡進行整體約束,實驗結果表明,本文方法較其它方法在主觀視覺和客觀量化等方面都取得了更好的評價,能夠獲得細節完整,輪廓清晰的高分辨率素描人臉圖像。

圖7 超分辨率對比實驗圖像分布

圖8 素描合成對比實驗圖像分布