


摘要:針對現(xiàn)有深度學習圖像修復算法在結構特征利用上的局限性,文章提出了一種基于多層結構特征融合的人臉圖像修復算法。該方法首先對由邊緣預測網(wǎng)絡生成的邊緣圖像進行金字塔式卷積處理,提取不同層級的結構特征,之后通過文章設計的特征融合模塊,將多層結構特征與主修復網(wǎng)絡中編碼器所產(chǎn)生的特征進行融合,以增強對人臉全局與局部結構的一致性約束。實驗結果證明,文章方法所產(chǎn)生的修復圖片具有更好的視覺效果,在結構保真度和細節(jié)恢復方面展現(xiàn)了更優(yōu)性能。
關鍵詞:圖像修復;人臉修復;深度學習;結構特征;特征融合
中圖分類號:TP18" "文獻標識碼:A
文章編號:1009-3044(2025)24-0016-04
開放科學(資源服務) 標識碼(OSID)
0 引言
圖像修復是計算機視覺領域中的重要研究方向,其核心功能在于根據(jù)原始圖像中已知區(qū)域的信息,重建出缺失的內容,從而構成完整的修復圖像。應用圖像修復算法可以實現(xiàn)破舊照片的數(shù)字化恢復、消除臉部瑕疵、移除遮擋物等功能。隨著人工智能技術的飛速發(fā)展,基于深度學習的圖像修復算法成了業(yè)界中的主流方法。深度學習技術可以利用卷積神經(jīng)網(wǎng)絡架構捕捉到圖像中深層次的特征信息[1]。經(jīng)過在大規(guī)模數(shù)據(jù)集上的訓練,卷積神經(jīng)網(wǎng)絡可以根據(jù)已有信息推理出缺失內容,保證重建圖像中的語義正確性。生成對抗網(wǎng)絡的引入,則通過生成網(wǎng)絡與鑒別網(wǎng)絡間的博弈框架,進一步提升了圖像修復模型的生成效果[2]。
盡管卷積神經(jīng)網(wǎng)絡與生成對抗網(wǎng)絡在通用圖像修復中取得了顯著進展,但人臉圖像的修復仍是極具挑戰(zhàn)性的一類修復目標。由于人臉圖像具有較復雜的生物屬性,導致在網(wǎng)絡推理過程中容易產(chǎn)生面部特征錯位和五官輪廓失真等現(xiàn)象。因此,許多研究開始探索利用圖像的結構特征來提升修復質量。Nazeri等[3]提出的EdgeConnect模型采用雙階段設計,首先進行邊緣輪廓恢復,隨后將修復好的邊緣圖與待修復圖像進行通道級聯(lián)后輸入修復網(wǎng)絡以重建出完整圖像。該模型對邊緣結構信息的利用存在單一局限性,未能充分挖掘多層級結構特征的作用。Li等[4]提出的PRVS模型,通過逐步交錯重建結構和視覺特征以提升修復效果,但該方法并未先獲取修復完整的邊緣圖像,導致缺乏可靠的結構先驗信息進行引導。
本文提出了一種基于多層結構特征融合的人臉圖像修復算法。該算法通過對修復目標的邊緣圖像進行金字塔式卷積處理,提取從局部細節(jié)到整體面部輪廓的不同層級的結構特征。本文設計了特征融合機制,將提取的層級結構特征注入主修復網(wǎng)絡編碼器各對應階段,實現(xiàn)結構與紋理兩方面特征信息的有效結合,促進最終修復結果在視覺質量與指標得分上的提升。
1 算法模型網(wǎng)絡設計
本文所提出的人臉圖像修復算法框架如圖1所示。整體算法模型由邊緣預測網(wǎng)絡、結構特征提取網(wǎng)絡、融合結構特征的編碼器網(wǎng)絡、深度殘差網(wǎng)絡以及解碼器網(wǎng)絡構成。首先,本框架采用EdgeConnect中提出的邊緣預測網(wǎng)絡從輸入邊緣圖像和輸入灰度圖像中得到高保真的修復邊緣圖像,然后通過結構特征提取網(wǎng)絡對邊緣圖像進行金字塔編碼,提取出從局部邊緣細節(jié)到全局面部輪廓的多層級特征作為先驗信息。
融合結構特征的編碼器網(wǎng)絡、深度殘差網(wǎng)絡與解碼器網(wǎng)絡三者組成了主修復網(wǎng)絡。融合結構特征的編碼器網(wǎng)絡對輸入的待修復圖像進行下采樣編碼,同時融合前一階段提取的多層級結構特征;深度殘差網(wǎng)絡通過堆疊殘差快,強化對深層特征的重構;解碼器網(wǎng)絡對深層特征進行上采樣,從而產(chǎn)生最終完整的修復圖像。本節(jié)將重點對算法實現(xiàn)的核心網(wǎng)絡模塊進行介紹。
1.1 結構特征提取網(wǎng)絡
本文基于Dong[5]等提出的ZITS模型中的結構特征編碼模塊進行了改進并提出結構特征提取網(wǎng)絡。網(wǎng)絡的輸入為邊緣預測網(wǎng)絡恢復的完整邊緣圖像,網(wǎng)絡首先調用多層卷積對邊緣圖進行下采樣,獲取初級的結構特征。之后,為克服傳統(tǒng)卷積操作感受野受限的問題,網(wǎng)絡中引入了Transformer架構,使用其中的自注意力機制(MSA)對結構特征進行重構,以加強對遠距離依賴關系的建模利用[6]。其公式表示為:
[MSA(E)=softmaxEWq(EWk)Td(EWv)]" (1)
式中,Wq,Wk和Wv分別表示用于產(chǎn)生自注意力機制中的查詢(Query) 、鍵(Key) 、值(Value) 所需的卷積矩陣,E表示經(jīng)過序列化處理后的結構特征,[d]為縮放因子,保證梯度穩(wěn)定性,softmax函數(shù)用于產(chǎn)生注意力權重。
在特征映射階段,網(wǎng)絡采用三級反卷積層構建的多尺度結構特征金字塔,輸出三種結構特征張量,尺寸大小分別為64×64,128×128,256×256。這些特征將通過融合模塊與主修復網(wǎng)絡中編碼器網(wǎng)絡的對應層級特征相融合,從而提升修復結果質量。
1.2 主修復網(wǎng)絡
主修復網(wǎng)絡由融合結構特征的編碼器網(wǎng)絡、深度殘差網(wǎng)絡和解碼器網(wǎng)絡三者構成。此網(wǎng)絡以待修復圖片與掩碼圖片為輸入,經(jīng)編碼器進行下采樣,并與前一階段提取的多層級結構特征實現(xiàn)融合后,送入深度殘差網(wǎng)絡,強化對特征的學習提取,最后由解碼器網(wǎng)絡通過反卷積操作逐步進行上采樣,最終映射為原始尺寸的修復圖像。
1.2.1 融合結構特征的編碼器網(wǎng)絡
融合結構特征的編碼器網(wǎng)絡采用三層級聯(lián)架構組成。每個層級包含卷積模塊與特征融合模塊。其中,卷積模塊由2D卷積層、實例歸一化層(Instance Normalization) 以及ReLU激活函數(shù)構成。卷積層負責對輸入尺寸為256×256的待修復圖像進行漸進式采樣,以捕獲圖像中多尺度的紋理特征信息;實例歸一化層,在每個樣本自身的通道維度上計算均值與方差,從而保留更多的樣本特征;ReLU激活函數(shù)作為分段線性函數(shù),計算簡單,可以在提高模型表達能力的同時,加快訓練收斂的速度。
在編碼器網(wǎng)絡中,本文提出了一種特征融合模塊。該模塊通過將前文所述的多層結構特征與對應的卷積模塊輸出圖像特征相融合,以實現(xiàn)結構先驗信息在主修復網(wǎng)絡中的注入。具體而言,給定編碼器第k層卷積模塊輸出圖像特征為Fimg_k和對應的結構特征Fstr_k,融合過程表示為:
[Ffus_k=LeakyReLU(Conv(Cat(Fimg_k,F(xiàn)str_k)))]" (2)
式中,Cat表示通道拼接操作;Conv表示卷積操作,其所用卷積核大小為4×4,步長為1;LeakyReLU表示所選用的激活函數(shù),相比于傳統(tǒng)ReLU,該函數(shù)可以保留部分負值信息流,提高模型對特征融合學習的靈活性。
1.2.2 深度殘差網(wǎng)絡
算法采用8級殘差網(wǎng)絡塊架構組成了深度殘差網(wǎng)絡,作為主修復網(wǎng)絡的中間層。每個殘差網(wǎng)絡塊包含兩個3×3卷積層。該網(wǎng)絡充分利用了殘差網(wǎng)絡ResNet的特點,在加深網(wǎng)絡層數(shù),提高對特征的重構能力的同時,有效避免梯度消失或梯度爆炸等問題。
1.2.3 解碼器網(wǎng)絡
本算法的解碼器網(wǎng)絡負責對低維特征圖進行重構映射,以產(chǎn)生原始尺寸大小的修復圖像。該網(wǎng)絡通過反卷積層逐步進行上采樣,同時配合實例歸一化層與ReLU激活函數(shù)。模型采用了Tanh作為最后輸出層的激活函數(shù),該函數(shù)以0為中心輸出,有助于提升輸出數(shù)據(jù)的穩(wěn)定性。
1.3 損失函數(shù)
本算法采用了由像素重建損失、感知損失、風格損失以及生成對抗損失組成的聯(lián)合損失函數(shù)對模型進行訓練。完整的損失函數(shù)定義為:
[L=λrecLrec+λpercLperc+λstyleLstyle+λadvLadv]" (3)
式中,Lrec,Lperc,Lstyle和Ladv分別表示像素重建損失、感知損失、風格損失和生成對抗損失。λrec,λperc,λstyle和λadv分別表示各損失的權重值,設置為λrec=1,λperc=0.1,λstyle=250和λadv=0.1。
1.3.1 像素重建損失
像素重建損失采用了L1損失函數(shù)直接計算模型輸出圖像與真實圖像在每個像素點之間的差異,其表示為:
[Lrec=Iout-Igt1] (4)
式中,Iout表示模型輸出的修復圖像,Igt為真實圖像。
1.3.2 感知損失
感知損失基于預訓練的VGG16網(wǎng)絡模型,提取輸出圖像與真實圖像的深層特征,并計算兩者差異,表示為:
[Lperc=i=0N-1?i(Iout)-?i(Igt)1] (5)
式中,[?i(*)]表示VGG16網(wǎng)絡中的第i層所產(chǎn)生的激活特征圖。
1.3.3 風格損失
風格損失同樣利用VGG16網(wǎng)絡提取的深層特征,其通過格拉姆矩陣(Gram matrix) 對特征圖進行運算,以衡量模型輸出與目標之間在分布上的相似性,計算表示為:
[Lstyle=i=0N-1G?i(Iout)-G?i(Igt)1] (6)
式中,[G?i(*)]表示由VGG16網(wǎng)絡中的第i層的激活特征圖所構建的格拉姆矩陣。
1.3.4 生成對抗損失
本文采用了非飽和損失函數(shù)實現(xiàn)生成對抗訓練,定義為:
[Ladv=-log[D(Igt]-log[1-D(Iout)]-log[D(Iout)]] (7)
式(7) 的上半部分用于訓練D(*)表示的鑒別器網(wǎng)絡,下半部分則用于訓練主模型中的生成器網(wǎng)絡。
2 實驗結果與分析
本文算法基于Python 2.7.5和深度學習框架PyTorch 1.7.0進行實現(xiàn),采用了六塊NVIDIA Tesla T4 GPU完成模型的訓練。算法使用了CelebA-HQ[7]數(shù)據(jù)集,該數(shù)據(jù)集共包含了30 000張高清人臉圖像。本文采用了其中的27 000張作為訓練集,剩下的3 000張圖片作為測試集。本文使用了Liu等[8]在PConv修復模型中提供的不規(guī)則掩碼數(shù)據(jù)集產(chǎn)生掩碼圖片,該掩碼集共包含了12 000張掩碼圖片。本文采用了Adam優(yōu)化器進行訓練,對整體數(shù)據(jù)集共訓練了100次輪回。模型采用了1×10-4的學習率進行前50次輪回的訓練,在后50次中使用了余弦衰減策略使學習率逐漸減小為0。
2.1 定量比較
本文采用了峰值信噪比(Peak Signal-to-Noise Ratio,PSNR) ,結構相似性(Structure Similarity Index Measure,SSIM) 與弗雷歇距離(Fréchet distance,F(xiàn)ID) 三種指標對提出的修復算法進行定量評估,定量比較對象為部分卷積修復算法PConv,門控卷積修復算法GConv[9],雙階段修復算法EdgeConnect,局部細化和全局細化網(wǎng)絡框架組成的LGNet[10]四種方法。表1中所展示的數(shù)據(jù)為比較方法與本文方法分別在10%~20%、20%~30%、30%~40%三種掩碼比例下所得到的各指標結果。從表中數(shù)據(jù)可以看出,本文方法取得了更高的PSNR與SSIM分數(shù),表明其修復結果在像素級精度和結構保真度上更具優(yōu)勢。同時,本文方法的FID指標更低,證明修復結果在特征空間分布上與原始圖像更接近。
2.2 定性比較
圖2展示了本文所進行的定性比較實驗結果,并在第一組結果中對重點比較區(qū)域進行了放大顯示。由圖可見,PConv與GConv的修復結果質量較差,在圖像上存在較多的偽影和顏色混亂等情況;EdgeConnect雖然先進行了邊緣修復,但未能充分提取出結構先驗信息,導致結果中仍有輪廓偏移的問題;LGNet引入局部細化和全局注意力機制,整體視覺效果有所提高,但其在局部紋理細節(jié)的恢復上仍存在模糊痕跡。相比之下,本文方法取得了最佳的視覺效果,其產(chǎn)生的修復圖像具有清晰合理的人臉輪廓,在眼睛、鼻子等位置上擁有更細致的紋理,整體上也更接近原始圖像。
3 結束語
本文提出了一種基于多層結構特征融合的人臉圖像修復算法,通過金字塔式卷積處理將修復完整的邊緣圖像轉化為多層結構特征,并設計了特征融合機制將結構特征與主修復網(wǎng)絡中編碼階段相應特征有效結合,漸進式地將結構先驗信息注入修復過程中。定量實驗結果證明,本文所提出的修復算法在各項指標上的表現(xiàn)均優(yōu)于對比方法;定性實驗則展示出本文方法修復所得的人臉圖像輪廓清晰,五官自然,紋理細節(jié)更為豐富。本文未來工作將重點探究特征融合機制與語言大模型的修復應用,前者將圍繞設計新的結構特征與紋理特征的融合方法,提升性能的同時保證較少的計算開銷;后者將探索語言大模型的應用,嘗試以文本指令來提供更加準確的先驗信息,引導對大面積缺損圖像的正確修復。
參考文獻
[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[2] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial nets[J]. Advances in Neural Information Processing Systems,2014(27):2672-2680.
[3] NAZERI K,NG E,JOSEPH T,et al.EdgeConnect:structure guided image inpainting using edge prediction[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW).October 27-28,2019.Seoul,Korea.IEEE,2019:3265-3274.
[4] LI J Y,HE F X,ZHANG L F,et al.Progressive reconstruction of visual structure for image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019.Seoul,Korea.IEEE,2019:5961-5970.
[5] DONG Q L,CAO C J,F(xiàn)U Y W.Incremental transformer structure enhanced image inpainting with masking positional encoding[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022.New Orleans,LA,USA.IEEE,2022:11348-11358.
[6] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017(30):6000-6010.
[7] KARRAS T,AILA T,LAINE S,et al.Progressive Growing of GANs for Improved Quality, Stability, and Variation[C]//International Conference on Learning Representations,2018:88-90.
[8] LIU G L,REDA F A,SHIH K J,et al.Image inpainting for irregular holes using partial convolutions[C]//Computer Vision – ECCV 2018.Cham:Springer,2018:89-105.
[9] YU J H,LIN Z,YANG J M,et al.Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019.Seoul,Korea.IEEE,2019:4470-4479.
[10] QUAN W Z,ZHANG R S,ZHANG Y,et al.Image inpainting with local and global refinement[J].IEEE Transactions on Image Processing,2022,31:2405-2420.
【通聯(lián)編輯:朱寶貴】