一種基于有限數據的改進DCGAN圖像生成方法

2023-10-31 12:02:38王士斌高梓雕劉棟

河南師范大學學報(自然科學版) 2023年6期

王士斌,高梓雕,劉棟

(河南師范大學 a.計算機與信息工程學院;b.“教育人工智能與個性化學習”河南省重點實驗室,河南新鄉 453007)

近年來,生成對抗網絡(GAN)在合成高保真圖像方面取得了巨大的進展.然而,GAN框架的不穩定性極大影響了模型的性能.為了解決上述問題,RADFORD等[1]首次提出了將CNN與GAN相結合的深度卷積生成對抗網絡模型(DCGAN).在圖像生成的任務中,與其他無監督生成模型相比,DCGAN利用CNN來增強模型提取圖像特征的能力[2],不僅提高了模型生成圖像的保真度,并且在更深層的網絡中,模型依然可以穩定地訓練.

但是,DCGAN模型的穩定訓練依賴于大量的訓練數據.當數據稀缺時,DCGAN依然會出現模型訓練的不穩定[3]、生成圖像的保真度低[4]和模型崩潰[5]等問題.因此在訓練數據稀少、類型單一的條件下,如何設計構造一個可以穩定訓練并能生成高質量圖像的GAN模型至關重要.現有的方法利用數據增強技術[6-7]來增加有限數據的多樣性,從而防止GAN模型出現過擬合.

本文從不同的角度來處理DCGAN在有限數據上的生成任務:模型正則化.目前,雖然有很多正則化技術[8-9]來提高GAN生成圖像的保真度,但是很少有旨在提高GAN在有限數據集下生成圖像質量.為此,在DCGAN中引入一種新的正則化技術[10]來控制判別器的預測,進而提高模型的生成能力.具體來說,在對當前真實圖像的預測和追蹤生成圖像的歷史預測的移動平均變量之間施加一個L2范數.理論證明在溫和的假設下,正則化將WGAN公式轉換為最小化的f-散度稱為LeCam散度.通過實驗證明,在有限的訓練數據下,LC-DCGAN模型可以更好地學習圖像的語義信息來生成高質量的圖像,并且提高了模型的穩定性.

1 相關工作

目前,GAN在計算機視覺領域取得了顯著性的成就.自2014年原始GAN提出后迅速與全卷積網絡進行融合,并且繼承了CNN最成功的設計,例如池化層[11],批量歸一化[12],Leaky ReLU[13]等.隨著GAN技術的發展,GAN在風格遷移[13]和超分辨率[14]等領域被廣泛應用.與此同時,為了GAN的穩定訓練,許多相關技術相繼產生,例如數據增強[15]和對抗損失[16]等.

生成對抗網絡的正則化:GAN的穩定訓練離不開正則化方法的引入.大多數現有的正則化方法都是為了解決模型的穩定訓練和緩解模型崩潰的問題.如BERA等[17]提出了一種新的稱為譜歸一化的權重標準技術來穩定判別器的訓練.具體來說是使用第一奇異值的運行估計對參數進行歸一化操作,在判別器上強制保持Lipschitz連續性.ODENA等[18]研究了GAN中生成器的雅可比行列式奇異值的分布,發現性能依賴于生成器的訓練.

有限數據下的生成對抗網絡:當在數據樣本有限的情況下訓練GAN模型時,會導致網絡模型訓練動態不穩定、生成圖像的質量差等問題.為此LI等[19]提出了一種簡單的正則化損失,提高了DCGAN模型架構的性能,解決了網絡模型訓練不穩定和模型缺失的問題.ZHAO等[20]提出了一種改進的一致性正則化(ICR)將潛在一致性正則化(zCR)和平衡一致性正則化(bCR)結合起來,提高網絡模型的穩定性和生成圖像的質量.KARRAS等[21]提出一種自適應的判別器增強機制,使網絡模型在有限的數據樣本下穩定地訓練,并提高了模型的泛化能力.

2 預備知識及模型架構

2.1 生成對抗網絡

GAN是一種無監督深度學習的模型,主要是由生成器和判別器兩部分組成,GAN訓練過程中通過相互博弈來逐步提高模型的學習能力.其中,生成器主要通過模型學習真實數據的特征分布規律生成虛假數據,而鑒別器的主要作用是鑒定數據是真實數據還是新生成的虛假數據.GAN訓練的最終目標是鑒別器輸出的概率值為0.5,達到納什平衡.GAN模型架構如圖1所示.

GAN的目標函數如下所示:

其中,x表示真實數據,z表示隨機高斯噪聲,pdata表示真實數據概率分布.令VD和LG分別表示判別器和生成器的訓練目標函數,則GAN模型的訓練可以描述為:

(1)

其中,fD,fG和Gx表示映射函數.

2.2 模型架構

為了提高DCGAN模型在有限數據下的性能,通過在DCGAN的判別器上引入兩個指數移動平均變量αR和αF(即稱為錨點),用以跟蹤判別器對真實圖像和生成圖像的預測,其目的是減少小批量之間的方差,并且穩定RLC正則化項,使其判別器的預測逐漸收斂到平穩點. LC-DCGAN整體結構圖如圖2所示.

αR和αF的計算公式如下所示:

α(t)=γ×α(t-1)+(1-γ)×ν(t),

(2)

其中,α是指數移動平均變量(即αR和αF),ν(t)是訓練步驟t的當前值,γ是衰減因子.使用式(1)中描述的相同的目標函數LG來訓練生成器,并最小化判別器的正則化目標函數LD:

(3)

(4)

2.3 LeCam-divergence

將正則化項與f-divergence之間的關系稱為LeCam-divergence.對于兩個離散分布Q(x)和P(x),f-divergence的定義為如下所示:

(5)

如果f是一個凸函數,則f(1)=0.對于WGAN正則化目標為式(3)所示,其中RLC是一個單錨并且λ>0.假設對于一個固定的生成器,錨點收斂于一個平穩值α(α>0).當固定最優判別器D時,生成器的目標函數用C(G)表示,如下所示:

(6)

Δ(P‖Q)是LeCam散度,三角形判別公式如下所示:

(7)

(8)

其中α>0是真實圖像的單錨.由于D(G(z))≤0,所以當使用單錨時,αR=-αF=α.

判別器的正則化目標:

最優判別器D*計算公式如下所示:

當固定判別器D,則生成器的目標函數如下所示:

由于正則化項只添加到判別器上,生成器保持不變,所以C(G)的表達式如下所示:

3 實驗

3.1 數據集

在實驗中采用磁瓦表面缺陷數據集作為該模型訓練的數據,該數據集是中國科學院自動所收集的6種常見磁瓦缺陷的圖像,共含有1 344張圖像,其中包含5種缺陷類型(破損、裂紋、磨損、表面不均勻、氣孔),1種無缺陷類型.磁瓦表面缺陷類型如圖3所示.

3.2 分類算法

在機器學習中,ELM-LRF是一種分類速度快、效率高的分類算法,該分類算法將卷積層和池化層融合到ELM中,通過卷積對輸入圖像進行特征提取,使用ELM的權重輸出公式對輸入圖像進行分類.因此本文中采用ELM-LRF分類算法對生成圖像和真實圖像進行分類,根據分類的準確率來評判生成圖像質量.ELM-LRF網絡架構如圖4所示.

輸入K個不同的輸入權重,輸出K個不同的特征圖,該過程的實現細節如下所示.

1)隨機生成初始權重Ainit.假設圖像的寬和高均為d,局部感受野的寬和高均為r,則特征圖的高和寬為d-r+1.其具體的計算公式為:

求出Ainit后,利用奇異值分解(singular value decomposition,SVD)算法將Ainit正交化.Ci,j,k表示為第k個特征圖的節點,其計算公式如下:

2)平方根池化.其計算過程如下所示:

其中,e代表邊到池化中心之間的距離,即池化大小.池化圖的高和寬均為(d-r+1).

3)計算輸出權重矩陣.其具體的計算公式如下所示:

3.3 實驗結果分析

由于數據集里的圖像大小不一致,不同缺陷類型的感興趣區域(Rogin of interest,ROI)也不相同,所以在該模型訓練之前,先將數據集重塑為64×64的圖像(圖5(a)),在實驗的過程中發現所生成圖像質量(圖5(b))并不能滿足實驗要求.本文使用Wellner自適應閾值的二值化算法,將圖像轉換為二值圖(圖5(c)).將經過轉換的二值圖輸入至LC-DCGAN模型后可以生成更高質量的圖像(圖5(d)).

因此,通過將5種磁瓦缺陷原圖(圖6(a)),使用Wellner自適應閾值的二值化算法,將磁瓦缺陷原圖轉換為二值圖(圖6(b)),將其作為改進后模型的輸入,輸出的生成磁瓦缺陷圖像如圖6(c)所示.為了驗證改進模型的性能,本文將轉換后的二值圖分別輸入至DCGAN和GAN模型中進行訓練,網絡模型生成的圖像分別如圖6(d)、圖6(e)所示.

通過圖6的實驗對比圖可以看出,使用相同數據集作為模型的訓練樣本時,LC-DCGAN模型生成圖像的噪聲雜質是最少的,并且生成圖像更接近原圖像二值圖的缺陷特征.

為了檢測LC-DCGAN模型生成的圖像質量是否符合數據集中的圖像,本實驗中采用ELM-LRF分類算法對生成圖像和原始圖像分類.在分類的對比實驗中共進行了4組對比實驗,每組實驗重復50次,分別計算每種實驗的平均分類準確率并將平均分類準確率作為測量生成圖像質量的評價指標.在第1組實驗中,磁瓦缺陷原圖像作為LC-DCGAN模型的訓練集和測試集.其圖像數量設置如表1所示.

表1 第1組訓練集和測試集的數量設置

第2組實驗,將原樣本作為模型的訓練集,選擇同種類型相同數量的生成樣本作為測試集.第3組實驗,選擇與原圖像數據類型相同且數量相同的生成圖像作為訓練集,將所有的原圖像作為測試集.第4組實驗,將所有原圖像和與原圖像類型相同數量相同的生成圖像進行堆積混合,選取前50%的圖像數據作為訓練集,后50%的圖像數據作為測試集.按照以上的訓練設置來依次進行分類實驗.

使用ELM-LRF分類算法分別對以上4種數量設置的訓練集和測試集進行對比實驗,每組的平均分類準確率如表2所示.

表2 ELM-LRF分類實驗平均分類準確率

由表2可知,在4組分類實驗中平均分類準確率分別為88.93%、88.69%、87.47%、91.49%.第3組在實驗中的分類結果最差,第4組的分類結果最好.在第1組實驗中,模型的訓練集和測試集數據,均來自磁瓦缺陷的原圖像,并且訓練樣本和測試樣本的數量與其他3組實驗均不相同,因此將第一組實驗的分類準確率作為其他3組實驗的參考.第2組實驗中,將原圖像作為訓練集,模型學習原圖像的缺陷類型,然而生成的圖像含有其他缺陷類型的圖像,當把生成圖像作為訓練集時,平均分類準確率不會太高也不會太低.第3組實驗中,將生成圖像作為訓練集,模型可以學習到更多缺陷類型的特征,所以當把原圖像作為測試集時,平均分類準確率將會是4組中最低的.在第4組實驗中,因為將生成圖像與原始圖像隨機混合后提高了圖像缺陷類型的多樣性,因此在模型訓練的過程中,模型具有更高的泛化性能,則該組的分類準確率最高.

由4組實驗的分類準確率可知,其他3組的平均分類準確率與第1組的平均分類準確率十分接近,由此證明,改進的深度卷積生成對抗網絡模型生成的磁瓦缺陷圖像可以滿足ELM-LRF磁瓦缺陷分類的實驗要求.

4 結束語

在這項工作中,針對數據有限的情況下,生成對抗網絡容易出現訓練不穩定和生成圖像樣本質量低的問題,提出了一種基于DCGAN的模型,加入了一種在訓練數據稀少情況下訓練DCGAN模型的正則化方法.在模型訓練階段,提高模型的穩定性和生成圖像的保真度.實驗結果證明LC-DCGAN在樣本稀少的情況下,不僅可以生成高保真度的圖像,而且可以使得模型訓練時更加穩定.在未來的研究中,將進一步在提高生成圖像的保真度和高分辨率的生成任務上努力.