一種Enlighten-GAN網絡的指紋超分辨率重建方法

2022-11-12 01:17:02余曉玫

激光與紅外 2022年10期

關鍵詞：方法

高飛,余曉玫

(重慶移通學院通信與信息工程學院,重慶 401520)

1 引言

指紋圖像超分辨率重建方法已應用于刑事偵查、門控系統、保衛系統等領域。為了更好地利用這些指紋圖像并提高圖像分辨率,研究人員已將注意力轉向超分辨率重建(SR)方法,該方法將低分辨率(LR)圖像轉換為高分辨率(HR)圖像[1-2]。

李等人[3]提出的SRNN首次將CNN引入SR領域。SRNN僅使用三層網絡提取特征,并使用均方誤差(MSE)作為損失函數。實驗結果良好,證明了深度學習的有效性。隨著網絡深度的增加,培訓結果將變得越來越準確,但深度網絡也會給培訓帶來困難。梯度消失或梯度爆炸問題阻礙了更深層次網絡的設計。2016年,Dong等人[4]提出了一種可以跳躍連接的網絡ResNet,其網絡深度可以達到152層。有效解決梯度消失或爆炸問題,使網絡向更深層次發展。深度網絡和剩余塊的組合已經出現,如EDSR[5]、WDSR[6]、DBPN[7]。EDSR超分辨率重建效果較好,但網絡層數越深,參數數越大,用于超分辨率重建的時間越長。與EDSR相比,WDSR采用了重量標準化,消除了許多冗余的卷積層,提高了結構和性能。DBPN與前面的方法不同。DBPN使用投影單元執行上下迭代采樣。提取的特征更全面,超分辨率重建效果更好,但網絡復雜度更高。從抽樣方法來看,SISR可分為四類:預先確定的向上抽樣、單次向上抽樣、逐步向上抽樣和迭代升降。預先定義的上采樣是為了了解LR和HR之間的非線性映射[8]。在輸入網絡之前,首先對LR圖像進行插值,以放大圖像大小以匹配目標圖像大小。但該方法容易產生噪聲,影響重建質量。為了解決這個問題,只進行一次上采樣,取消預先定義的上采樣插值操作,并在最后一層(如FSRCNN[9]或ESPCN[10])上執行LR反卷積,但CNN學習能力不足,重建效果差。漸進式上采樣使用拉普拉斯金字塔網絡逐步預測SR圖像,類似于單個上采樣堆棧。增強了學習復雜映射的能力,減少了參數,縮短了運行時間,并且對大規模因素更有效。迭代上下采樣DBPN有上投影和下投影兩個單元,實現了迭代上采樣和下采樣。網絡復雜度較高,但超分辨率重建效果較好。從損失函數來看,基于深度學習的模型通常通過最小化真實圖像和網絡輸出圖像之間的均方誤差來訓練參數,但這并不代表人類真實的視覺體驗[11]。然而,感知損失可以帶來更好的視覺效果,Hong等人[12]證明了感知損失對網絡訓練的有效性。例如,感知損耗用于生成性對抗網絡(GAN)[13],引入了對抗損耗,并最小化了真實值和網絡輸出值之間的感知相關距離,但基于GAN的感知損耗方法基于失真。其代價是提高感知圖像質量,因此感知損失函數對于超分辨率重建任務仍有一定的局限性。

針對上述問題,本文提出了一種稱為 Enlighten-GAN 的圖像超分辨率重建方法,該方法主要關注中分辨率指紋圖像。Enlighten-GAN通過多種方式控制網絡收斂到穩定可靠的點。本文主要工作如下：

(1)設計了一個新穎的 Enlighten-GAN 和一個啟發塊。啟發塊通過設置一個更簡單的目標來確保網絡獲得有效的梯度,從而提高模型的性能。由于不同尺度的重建結果,啟發塊獲得更高泛化能力。提出的 Enlighten-GAN 在本文數據集的比較實驗驗證中,超過了最先進的方法。

(2)引入并采用自我監督的分層感知損失進行訓練,而不是使用 VGGNet[14]定義的傳統感知損失,并進行消融實驗以驗證其有效性。

(3)為了解決合并問題,提出了一種基于學習的批量內部不一致損失的裁剪和合并方法,通過該方法可以消除預測的大規模指紋圖像中的接縫線。

2 方法

2.1 生成對抗網絡架構

GAN由一個生成模型(也稱為G)組成,用于合成圖像,以及一個判別模型(也稱為D)用于確定給定圖像是否被合成,它們作為對抗相互改進。隨著D確定無論圖像是合成的還是真實的,G都會產生具有欺騙性的真實圖像。GAN的SRR應用如圖1所示,給定一張LR圖像,我們從G合成SR結果并將其與真實的HR進行比較。D負責區分真假,從而為G的訓練提供對抗性損失。然而,由于G和D之間的非飽和對抗的原因,GAN可能會陷入模式崩潰,即G傾向于產生重復圖像的現象,形成聚類假數據分布。給定一張LR圖像，從G合成SR結果并將其與真實的HR進行比較。D負責區分真假，從而為G的訓練提供對抗性損失。

2.2 模型模塊結構

ESRGAN在應用于自然圖像時優于其他超分辨率重建方法[15]。因此,在設計 Enlighten-GAN時將其作為提出方法的基線網絡。使用啟發塊和1-Lipschitz度量對其進行了修改,以在指紋圖像SRR任務中獲得穩定的結果。提議的 Enlighten GAN包含一個生成模型如圖2所示,判別模型如圖3所示。

圖1 本文GAN的架構圖Fig.1 The demonstration of our GAN structure

圖2 G的架構Fig.2 The architecture of the G

生成模型采用LR圖像作為輸入,并獲得2倍和4倍HR圖像作為輸出。在一個卷積層之后,安排了23個名為Residual in-Residual Dense Block(RRDB)的基本單元來遞歸地從圖像中學習細節。每個RRDB包含三個密集塊,具有密集跳過連接且沒有批量歸一化。隨后,基于殘差學習[7]的思想,跳躍連接將來自高層和低層的特征提取到特征圖中。到目前為止,采用了與ESRGAN類似的結構來提取高維特征圖。應用這個特征圖通過最近鄰插值和卷積運算來預測SR圖像。除了4倍輸出之外,還提出了啟示塊來產生2倍上采樣結果作為一個更容易的目標。該塊使從跳過連接獲得的特征圖能夠接收有意義的梯度,并以更容易和更困難的模式交替學習高頻信息。由于其多輸出結構,它優先考慮網絡具有更多的泛化能力。因此，從 G 生成的 HR 圖像真實自然。網絡底部通過遞歸學習和殘差學習提取特征圖，而頂部利用這些特征圖來預測多級HR圖像。“Conv”是指具有3×3大小內核的卷積層，而RRDB是簡稱Residual-in-Residual Dense Block。 RRDB中的β是殘差縮放參數，設置為0.2。

判別模型區分圖像真假,為生成網絡提供對抗性損失,從而提高生成圖像的質量。D的架構簡潔而有效。來自G的合成圖像和真實世界的圖像都被輸入到這個網絡中。受VGGNet的啟發,該管道涉及順序卷積層和批量歸一化層,以全連接層結束,以預測給定圖像為真的可能性。為了追求穩定的收斂,采用非激活的1-Lipschitz度量fω作為輸出,而不是直接預測可能性,受WGAN[20]的啟發。這種修改指導真實世界的樣本為本文的網絡貢獻梯度,從而獲得更好的性能。值得注意的是,在計算對抗性損失時,專注于4倍的優化結果而不是兩個結果,因此只需要訓練一個判別網絡。架構的更多細節如圖3所示。D負責激發G生成與現實世界HR數據足夠相似的圖像。“BN”是batch normalization的簡稱，“Conv”是指卷積層，“FC{N}”代表一個全連接層，輸出N個元素的數組。

圖3 D的架構Fig.3 The architecture of the D

2.3 模型優化

為了優化本文設計模型,收集了多組中分辨率指紋圖像,并將它們下采樣4次以獲得LR和HR圖像對作為訓練和驗證數據集。用于優化提出網絡的損失函數包括生成損失和判別損失。

由于結果有兩個SR圖像,分別表示為Isr×2和Isr×4,應該分別優化它們,從而形成生成損失函數如下:

LossG=θ(Losspixel(Isr×2,Ihr)+λLossperc(Isr×2,Ihr))+

Losspixel(Isr×4,Ihr)+λLossperc(Isr×4,Ihr))-

αLossadver

(1)

其中,Losspixel和Lossperc分別代表像素損失和感知損失。像素損失被定義為真實圖像和假圖像之間的L2距離,而由λ參數化的感知損失是指通過它們的特征圖計算的距離。雖然有些人發現L2距離像素損失傾向于忽略細微的差異,從而導致網絡在CNN網絡中產生模糊但安全的結果,但觀察到它在GAN結構中表現良好,補充了對抗性損失和感知損失。值得注意的是,2 次輸出部分的損失由θ參數化,以平衡多輸出之間的權重。生成損失函數以對抗性損失結束,Lossadver參數化為α。它指的是 D 預測的 1-Lipschitz 度量fω,并激發 G 產生更多誤導性從而獲得更好的結果。實驗表明,由 1-Lipschitz 指標預測的 Wasserstein 損失進行了穩定的訓練過程。

構建并訓練了一個新穎而簡短的自動編碼器,由卷積層和 ReLU 層構建,沒有批量歸一化層。自編碼器由編碼器和解碼器組成。編碼器通過最近鄰插值將輸入池化為小尺寸和高維特征圖。使用雙線性插值,解碼器將特征圖恢復為與輸入相同的圖像。自編碼器的重構輸出應該與輸入盡可能相似。自編碼器的整體架構如圖4所示。

圖4 用于提取特征圖的自動編碼器的結構Fig.4 The architecture of autoencoder for extracting feature maps

盡管替換了部分丟棄位置信息的最大池化層,但自編碼器網絡仍然保留了一個池化層以節省內存占用。因此,總結了來自不同層的特征以分層構成感知損失。具體來說,在自編碼器中選擇第 3、8、17、34 層的特征,這些特征已用綠色標記為感知特征。這確保了提議的感知損失包含語義和像素級信息。由于每個特征圖的方差應該描述圖像與層之間的差異,將每層感知特征的偏差歸一化為 1,并將它們相應的感知損失相加。

至于D的優化,希望它能正確區分真實和虛假數據。此外,由于樣本的多樣性,G的權重由于其高梯度而發生顯著變化,因此利用梯度懲罰[20]的優點避免了一批中的完全變化,形成了如下的判別性損失:

(2)

其中,Lossdist|fake當樣本為假時,fake 指的是預測的 1-Lipschitz 度量fω,而Lossdist|real指的是其他情況。最后一項指的是梯度懲罰,其中gWi指損失函數的每個權重參數的梯度流。總之,每個圖像對通過上述生成和判別損失函數貢獻梯度。

2.4 裁剪合并方法

由于深度學習網絡只能接受受內存限制的小尺寸圖像,因此經常將圖像裁剪成補丁以適應網絡。為了確保補丁之間的接縫線自然逼真,像大多數指紋深度學習應用程序一樣裁剪重疊的補丁。預測的 SR 塊應該在其原始區域構成整個 SR 圖像,這為如何處理重疊中的像素值帶來了多樣性。高級語義任務選擇取每個補丁的平均值。但是,平均操作會影響圖像的清晰度,不利于提高圖像質量。另一方面,由于重疊涉及來自兩個補丁的信息,因此重疊和非重疊區域之間存在像素值不連續性。當重疊時,這兩種現象會變得更糟相鄰的補丁變得更加不一致,并且隨著它們變得相同而消失。只要差異存在,粗略地改變重疊率或以加權的方式合并它們并不能同時解決它們。

因此,設計了具有批量內部不一致損失的裁剪和合并方法來處理大規模指紋圖像。首先,由于發現補丁不一致是圖像拼接問題的根源,鼓勵網絡產生批量一致的結果。將25 %作為重疊率,它可以引導兩個相鄰的補丁在重疊中獲得相似的感受野。具體來說,將168×168大小的圖像裁剪成2×2部分,即96×96大小的補丁,形成四個24像素的重疊。將這4個補丁批量處理到網絡中。此外,本文引入了不一致損失,因此該批次的生成損失為:

Lossbatch=Lossimage+δ∑Lossincons

(3)

其中,Lossimage指的是公式(1),用于測量 SR 圖像和 HR 圖像之間的距離。不一致損失Lossincons,表示每個重疊中的L2距離在補丁之間,并用δ參數化。這種損失促使網絡根據設計的類似感受野來預測類似的結果。

為了完全消除平均操作產生的模糊現象的風險,采用裁剪和合并方法來預測大規模指紋圖像。如上所述,將圖像裁剪為具有重疊的補丁,分別恢復 SR 補丁,并在合并之前裁剪這些補丁,直到沒有重疊為止,如圖5所示,每個補丁通過我們的網絡上采樣4倍,即384×384 像素。每個補丁中一半的重疊被剪掉,因此補丁的大小為 336×336像素,即結果的四分之一,輸入圖像被裁剪成四個重疊的塊。因此,由上述方法預測的四個補丁組成了整個上采樣結果。具體來說,每個裁剪補丁中重疊的外半邊被裁剪和丟棄,而可靠的一半保留。預測結果中的重疊部分由兩個相鄰的補丁各半組成。實驗表明,預測的圖像方法不留目視接縫線。每個補丁通過網絡上采樣4倍，即384×384像素。每個補丁中一半的重疊被剪掉，因此補丁的大小為336×336像素，即結果的四分之一。因此，由上述方法預測的四個補丁組成了整個上采樣結果。

圖5 裁剪合并方法的流程Fig.5 The pipeline of clipping-and-merging method

3 實驗

3.1 實施細節

實驗數據集由 NIST指紋圖像數據庫包含2000個8位灰度指紋圖像對,每個圖像均為512×512像素。指紋圖像平均分為5類,每個類別有400個指紋對(弓形、左環、右環、帳篷形弓形、螺旋形)。

因此,在兩個具有豐富紋理和細節信息的 10980×10980 大小的RGB圖像上訓練模型。這些圖像被裁剪成 423張大小為672×672像素的圖像。在這些圖像中,將它們分成323張用于訓練的圖像和100張用于測試的圖像。

這些圖像被下采樣4倍到168×168像素,從而構成 LR和HR圖像對。如前所述,應用cropping-and-clipping方法將圖像裁剪為4個重疊率為0.25的patch,即96×96像素補丁與G的輸入大小相同,并將它們作為批處理輸入網絡。測試時,直接將168×168大小的圖像輸入網絡并獲得SR圖像,因為測試過程比訓練花費更少的內存占用。此外,利用數據集上的在線數據增強操作來提高模型的泛化性,例如隨機旋轉90°數次。

3.2 圖像質量評估

盡管視覺質量有最終決定權,但仍然需要一個穩健可靠的圖像質量評估指標來衡量 SRR 方法評估中的細微變化。之前的一些工作將峰值信噪比(PSNR)作為指標。在對范圍從0到1的圖像進行歸一化后,PSNR 形成為：

PSNR=-10×log(MSE)

(4)

其中,MSE是指假圖像和真實圖像之間的均方誤差。然而，面向 PSNR 的方法，例如基于像素損失的方法，會導致前面提到的平滑結果。直觀地，如圖 6 所示，像素幾何誤差較小的預測會導致較低的 PSNR，而平滑的地圖獲得較高的分數。在不適定的圖像超分辨率重建方法中，具有不可避免的幾何誤差的真實肖像比模糊輪廓更有意義，這意味著 PSNR 的不可靠性。第二個和第三個補丁是兩個 SR 結果，而第一個是基本事實。值得注意的是，第二個補丁保留了基本形狀，但由于信息丟失，它引入了幾何誤差并在預測時交換了白色和黑色區域，從而獲得了比第三個更低的 PSNR。

圖6 PSNR中的缺陷Fig.6 The flaws in PSNR

其他人選擇感知指數(PI),這也是 PIRM SR Challenge比賽的官方指標。分別是像素級質量評估和非參考感知評估。計算公式為:

PI=0.5×((10-Ma)p+NIQE)

(5)

其中,較低的 PI意味著更豐富的紋理。然而,像素級質量與感知質量相沖突。因此,較低的 PI 度量不一定同時描述較高的像素級質量和感知質量。事實上,發現在實驗中,具有致命偽影的 ESRGAN 結果獲得的 PI 低于真實值,如下小節所示。盡管較低的 PI 意味著更豐富的紋理,但不能保證是真實的紋理,因為 PI 是一個非參考指標。

因此,參考相關工作,發現梯度相似度度量(GSM)[16]的稀疏編碼和重建信道中具有更好的性能。GSM 加權梯度的相關系數,定義為:

(6)

其中,gx和gy指的是圖像x和y的梯度。

為了更好地證明提出方法的優越性,進一步引入了學習感知圖像塊相似度(LPIPS)來測量塊之間的感知差異。它被定義為:

(7)

3.3 評估結果

對提出的方法以及來自雙三次上采樣、SRCNN、SRGAN[1]、ESRGAN和 EEGAN方法的輸入LR圖像和SR圖像進行了評估實驗。因此,獲得了這些 SRR 方法前面提到的指標中所有補丁的結果。計算了每種方法的所有補丁的平均值和基準偏差,并在表1 中列出了定量結果。為了更好地比較,還在表中列出了真實情況的評估作為參考。作為基于 CNN方法在等效于 PSNR 的像素損失上進行訓練,因此更有可能獲得高 PSNR 和過度平滑的結果,假設基于 GAN 的方法中 PSNR 的最佳分數描繪了最好的結果。最接近真實情況的 PI 表明結果是與地面實況相似的信息熵。值得注意的是,GSM 是其中最可靠的指標,因此它具有最終決定權。如表1 所示,Enlighten-GAN 在基于 GAN 的方法中獲得了最好的 PSNR、最接近地面實況的 PI,以及最好的 GSM和LPIPS。值得注意的是,本文提出方法Enlighten-GAN的結果在GSM方面的基準偏差最低。

表1 來自不同方法的 SR 和 HR 圖像的度量Tab.1 The metrics of SR and HR images from varied method

定性結果進一步描述了提出方法相較于其他方法的優越性,如圖7所示。

圖7 不同方法重建指紋質量結果對比Fig.8 Comparison of fingerprint quality reconstructed by different methods

雙三次上采樣結果和SRCNN 結果是模糊的,而SRGAN的結果是剝離的偽影,在每個補丁中都有描述。盡管EEGAN是為指紋圖像而設計的,但它不能勝任中分辨率指紋并產生斑點偽影。在最先進的方法中,ESRGAN 獲得了相對令人滿意的結果,但仍然存在不穩定的問題收斂。ESRGAN的結果是平坦區域的點噪聲,例如第一排和第二排的湖泊和機場跑道。

3.4 消融研究

為了驗證并支持上面提到的觀點,列出了一些消融研究實驗的結果,進行分層感知損失對比。分別將訓練的模型與提出的自監督分層感知損失、傳統的基于 VGGNet 的感知損失和無感知損失進行了比較，結果如表2所示。

表2 不同感知損失對比Tab.2 Comparison of different perceived losses

VGG-感知獲得了最好的LPIPS,因為它們都是在VGG-Net上設計的。然而,就提出的最可靠指標GSM而言,它被沒有感知損失訓練的模型打敗了。相比之下,我們的結果獲得了最好的GSM,證實了自監督分層感知損失的優越性。由于比VGG-感知考慮更多的低級特征,本文的PI雖略有下降,但它更接近真實情況。

由于GAN有很多變體,在WGAN上進行了測試,它已被證明是有效的,如表3所示,WGAN達到了其中最令人滿意的結果,即最好的GSM,最好的PSNR,合格的LPIPS,以及接近真實情況的PI。在綜合考慮下,本文中應用WGAN。

表3 GAN不同變體比較Tab.3 Comparison of different variants of GAN

4 結論

本文提出了一種針對指紋圖像超分辨率重建任務的 Enlighten-GAN 方法。為了克服不穩定的收斂,利用包括啟發塊的各種方法來指導生成特征圖,自監督分層感知損失來優化生成模型,以及 WGAN 結構來穩定訓練過程。通過實驗驗證,本文方法的整體性能相比對比方法具有優越性,性能更佳。