許若波,李平,張梓楚,李陽
(1.江蘇信息職業技術學院物聯網工程學院(信息安全學院),江蘇 無錫 214153;2.荊楚理工學院機械工程學院,湖北 荊門 448000)
人臉超分辨率重建技術是指將模糊不清的低分辨率人臉圖像生成細節豐富的高分辨率人臉圖像。目前人臉超分辨率重建技術應用在多個領域,例如人臉識別、目標檢測、智能安防等領域,尤其為刑偵破案提供了諸多的便利,進一步提高了破案率。近年來,廣大研究學者采用基于深度學習技術的圖像超分辨率算法重建低分辨率圖像,例如,Dong等人[1]提出了使用淺層的神經網絡重建高分辨率圖像(Image Super-Resolution using Deep Convolutional Networks,SRCNN),相對于傳統的圖像超分辨率算法而言,獲得了更好的主、客觀效果,但是其只能恢復圖像的基本輪廓以及少量的高頻細節信息;Kim 等人[2]提出了使用深層的殘差網絡提取低分辨率圖像的高頻細節信息(Accurate Image Super-Resolution Using Very Deep Convolutional Networks,VDSR),獲得了較好的主、客觀結果。Song 等人[3]考慮到人臉的結構特性,提出通過組件生成和增強學習的人臉圖像重建算法(Learning to Hallucinate Face Images via Component Generation and Enhancement,LCGE),也獲得了良好的重建效果;Dai等人[4]提出了一種深度二階注意力網絡(Second-order Attention Network for Single Image Super-Resolution,SAN),用于更強的特征表達和特征相關度學習,在網絡中嵌入非局部操作來獲取長距離依賴和結構信息,通過全局協方差池化來學習特征之間的相互依賴關系,以獲得更有判別力的特征表達;Zhang等人[5]提出了一種基于混合高階注意力網絡(Remote Sensing Image Super-Resolution via Mixed High-Order Attention Network,MHAN),該算法包含兩個組件,分別是用于特征提取和恢復細節的具有高階注意力機制的特征細化網絡。
本文算法利用雙分支并行網絡的輸出結果進行加權融合重建,其中深層特征網絡提取人臉圖像的高頻細節信息,多尺度淺層網絡提取詳細的人臉基本輪廓特征信息,融合重建網絡重建出高分辨率人臉圖像,在融合的過程中采用了加權融合的方式,最終重建出更多細節的高分辨率人臉圖像。
近年來,基于深度學習技術的圖像超分辨率算法得到許多研究學者的廣泛關注,Dong 等人[1]提出了使用淺層神經網絡重建低分辨率圖像,Kim 等人[2]在SRCNN的基礎上采用了加深網絡層數的策略,用于提取人臉圖像的殘差信息,恢復了更多的細節信息,但是還有大量的高頻信息尚未恢復;Zhang等人[3]提出了一種基于混合高階注意力網絡,可以專注于特征提取和恢復高頻細節。為此受到啟發,采用多分支并行網絡完成不同的重建任務,并讓每個分支網絡的輸出結果起到相互促進的作用。其中,使用深層網絡提取人臉高頻細節信息,多尺度淺層網絡采用多尺度的方式獲取更豐富的人臉基本輪廓信息,然后采用融合重建網絡,將并行網絡的輸出結果進行加權融合重建,最終獲得細節豐富的高分辨率人臉圖像。
本文提出的基于多源融合的人臉圖像超分辨率網絡結構如圖1所示。該網絡結構分為兩條并行的重建網絡和一條融合重建網絡。其中雙分支并行重建網絡包含深層特征提取網絡和多尺度淺層網絡,融合重建網絡采用加權融合的方式來進一步重建出更多的人臉細節信息。
在本文中,訓練集為{xi,yi}N i=1,其中,i表示單個圖像的索引序號,N表示訓練集的總數量,低分辨率圖像表示為xi∈Rm×n,高分辨率圖像表示為yi∈Rmt×nt,t表示采樣因子。
基于多源融合的人臉圖像超分辨率網絡輸入的是RGB彩色低分辨率人臉圖像,第一層由1個卷積層和1 個ReLU 激活函數層組成,卷積層的輸入通道數為3,輸出通道數為256。其輸出作為后續深層特征提取網絡和多尺度淺層網絡的輸入。深層特征提取網絡和多尺度淺層網絡的輸入特征圖像為:
其中,f DMI(·)表示輸出特征圖操作,用作深層特征提取網絡和多尺度淺層網絡的輸入特征圖像表示深層特征提取網絡和多尺度淺層網絡的輸入特征圖像。
為了提取人臉的高頻細節信息,本文采用了深層的殘差網絡。深層殘差網絡可以解決在訓練過程中的梯度消失和梯度爆炸的問題,隨著網絡層數的不斷增加,深層殘差網絡的性能也會不斷提升,從而可以有效地提取低分辨率人臉圖像中的高頻細節信息。深層特征提取網絡分支如圖1左半部分所示。
深層特征提取網絡專注于恢復低分辨率人臉圖像的高頻信息,其網絡結構由12 個殘差塊、1 個卷積層和1 個ReLU 激活函數層組成,為了節省網絡的訓練時間,因此在低分辨率空間進行訓練。在深層特征提取網絡分支使用了12個殘差塊恢復低分辨率人臉圖像的高頻信息,殘差塊由卷積層、ReLU 激活函數層、卷積層和ReLU 激活函數層疊加組成,其中,卷積核大小為3 × 3,步長為1,為了獲取更豐富的特征,進一步提升網絡的重建性能,故將卷積核數量全設置為256。為了防止出現深層網絡的梯度爆炸或梯度消失的問題,故在每個殘差塊中使用了短跳躍連接,并采用長跳躍連接的方式,讓深層特征提取網絡最終輸出的高頻殘差特征圖像與低頻信息特征圖像進行相加,以此來促進深層特征提取網絡的收斂,增強網絡訓練過程中的穩定性,最終獲取深層特征提取網絡輸出的人臉特征圖像。深層特征提取網絡提取人臉高頻信息特征圖像操作為:
其中,f DF(·)表示深層特征提取網絡,表示深層特征提取網絡的輸入,表示深層特征提取網絡輸出的具有高頻信息的人臉特征圖像。
為了更精準地提取人臉圖像基本輪廓信息,本文算法設計了多尺度淺層網絡結構,多尺度淺層網絡由3 個不同大小卷積核的卷積層和ReLU 激活函數層、4個殘差塊、1 個卷積層和1 個ReLU 激活函數層組成,多尺度淺層網絡結構如圖1右半部分網絡分支所示。不同大小的卷積核感受野不同,因此可以提取不同尺度的特征。在淺層網絡的第一層采用了3個并行的提取多尺度特征的網絡層,該網絡層由卷積層和ReLU激活函數層組成,它們的卷積核大小分別設置為3 ×3、5 × 5、7 × 7,卷積核個數全設置為256。然后將3個并行的多尺度特征提取網絡層輸出的特征圖像進行相加融合,來獲取不同尺度的人臉圖像基本輪廓特征信息。最后采用4個殘差塊來進一步提取豐富的人臉基本輪廓特征信息,多尺度淺層網絡的殘差塊網絡結構與深層特征提取網絡所使用的網絡結構相同。多尺度淺層網絡提取人臉基本輪廓特征圖像操作為:
其中,f MF(·)表示多尺度淺層網絡表示多尺度淺層網絡輸出的人臉基本輪廓特征圖像。
融合重建網絡由加權融合模塊、特征提取模塊和上采樣模塊組成,融合重建網絡如圖1下半部分所示。其中,加權融合模塊首先將深層特征提取網絡的輸出與多尺度淺層網絡的輸出進行加權相乘操作,然后進行相加操作;特征提取模塊由2個殘差塊組成,卷積核大小3 × 3,卷積核數量為256;上采樣模塊由卷積層和子像素卷積層疊加組成,從而形成兩個串聯的上采樣子模塊。首先將深層特征提取網絡的輸出與多尺度淺層網絡的輸出分別進行加權相乘操作,加權系數分別設置為α= 0.8和β= 0.2,然后將兩者加權相乘后的特征圖進行相加,接著將融合后的特征圖輸入至特征提取模塊,進一步提取融合后的特征細節信息,然后進入上采樣模塊,每次上采樣2倍,共上采樣2次,從而將低分辨率人臉特征圖像上采樣至高分辨率空間,最后輸入至卷積核個數為3的卷積層,融合重建出最終的高分辨率人臉圖像。最終融合重建圖像為:
其中,ffusion(·)表示融合重建網絡,α設置為0.8,β設置為0.2,Yi表示最終重建的高分辨率人臉圖像。
為了使網絡有更好的收斂能力,采用了L1損失函數,L1 損失函數比L2 損失函數具有更好的網絡收斂能力。因此,本文算法使用了L1損失函數,基于多源融合的人臉圖像超分辨率網絡損失函數為:
其中,yi表示原始高分辨率人臉圖像,Yi表示最終重建的高分辨率人臉圖像,Loss表示多源融合網絡的損失。
本文使用了FEI(FEI Face Database)人臉數據集進行實驗,FEI數據集共含有400張人臉正面圖像,其中選出360張人臉圖像作為訓練集,40張人臉圖像作為測試集,原始高分辨率人臉圖像大小為260 × 360像素,使用雙三次插值算法將原始的高分辨率人臉圖像下采樣4倍作為訓練、測試的低分辨率人臉圖像,低分辨率人臉圖像大小為65 × 90像素。本文算法與多個對比算法均使用FEI數據集。
實驗采用NVIDIA GTX 1080Ti 顯卡進行訓練,在訓練過程中,本文算法將低分辨率人臉圖像和高分辨率人臉圖像數據集進行了分塊,從而形成相對應的低、高分辨率人臉圖像塊訓練集,所輸入的低分辨率圖像塊大小為48 × 48像素,批量大小設置為16,本文算法共訓練300個時期,為了使算法能夠快速的收斂,學習率設置為0.000 1。優化器采用隨機梯度下降法,動量設置為0.9。
本文算法采用了峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性(Structural SIMilarity,SSIM)作為客觀評價指標,PSNR 和SSIM 從圖像的角度刻畫了重建圖像與原始圖像之間的相似性。本文算法與目前現有的流行算法在主觀視覺效果和客觀評估方面進行了比較,其中與本文算法作比較的算法包括雙三次插值算法(Bicubic)、SRCNN、VDSR、SAN和MHAN算法,這些算法均屬于目前比較流行的圖像超分辨率重建算法。
為了證明本文算法的有效性,與多個對比算法在主觀視覺效果和客觀評估值兩個方面作出了比較。在主觀視覺效果方面,本文算法與Bicubic、SAN 和MHAN算法作出了比較,通過放大人臉圖像中的眼睛區域,如圖2所示,Bicubic算法重建的人臉圖像,高頻細節完全丟失,只能重建出基本的人臉輪廓信息;SAN 算法重建的高分辨率人臉圖像與原始高分辨率人臉圖像相比較,SAN算法重建的人臉圖像在眼睛區域的部分高頻細節信息并未完全恢復,甚至部分細節出現了模糊不清的現象;MHAN算法重建的人臉高分辨率圖像的眼睛區域與本文算法相比,本文算法生成的圖像清晰度更高。
在客觀評價方面,分別采用了PSNR和SSIM作為客觀評價指標,它們可以評價圖像的恢復程度,用量化的指標來評價本文算法的優越性。本文算法與其他算法的PSNR、SSIM 值如表1 所示,表1 中顯示的數據為40 張重建后的測試圖像的平均PSNR 值和SSIM值。本文算法的PSNR、SSIM 分別超越SAN 和MAHN算法0.12dB/0.001、0.26dB/0.0023。實驗結果表明,本文算法在主觀視覺效果和客觀評估值方面均超越了對比算法。

表1 實驗結果
本文提出了一種基于多源融合的人臉圖像超分辨率算法,采用了兩條并行的分支網絡,它們分別專注于深層人臉特征提取和多尺度人臉基本輪廓特征提取,最終通過融合重建網絡進行加權融合重建,讓兩條并行的分支網絡起到了相互促進的作用,進一步提升了網絡的重建性能。