李洪均,李超波,張士兵
(1.南通大學信息科學技術學院,江蘇 南通 226019;2.計算機軟件新技術國家重點實驗室(南京大學),江蘇 南京 210093;3.南通大學智能信息技術研究中心,江蘇 南通 226019;4.南通大學通科微電子學院,江蘇 南通 226019)
深度學習[1]作為一種訓練深層神經網絡的機器學習算法,被廣泛應用于圖像[2-4]、語音[5-6]、自然語言處理[7-8]、大數據特征提取[9-10]等方面。生成式網絡是深度學習的重要組成部分,在無監督情況下可以獲取數據的高階特性,主要包括深度置信網絡[11]、受限玻爾茲曼機[12]、自編碼器[13]和生成對抗網絡(GAN,generative adversarial network)[14]等。
GAN 不同于其他生成式模型,其避免了馬爾可夫計算、變分下限和近似推斷的復雜性,大大提高了應用效率;GAN 通過對抗學習生成逼真樣本,在圖像合成[15-17]、修復[18-20]、分類[21-23]、轉換[24-26]等任務中表現出色。但是GAN 在訓練和優化過程中存在著一些問題[27-28]。例如,對抗訓練過程中生成器與判別器之間需要很好的平衡,如果生成器退化且判別器誤判,會導致模式崩塌問題,使生成的圖像單一;梯度下降在非凸函數的情況下很難達到納什均衡;當真實樣本分布和生成樣本分布沒有重疊或重疊可忽略時,延森-香農(JS,Jensen-Shannon)散度接近定值,容易出現梯度消失問題。
針對GAN 存在的問題,研究者們提出了有效的改進方法[29-30]。Radford 等[31]采用卷積和解卷積的方式代替全連接結構,并使用歸一化提升訓練的穩定性,可以生成多樣化圖像,但是仍需要平衡訓練生成器和判別器。Salimans 等[32]提出增加判別器中間層的輸出作為優化目標之一,雖然不能保證達到均衡,但提高了網絡的穩定性。Arjovsky 等[33]通過理論分析說明了JS 散度判斷2 個無重疊或重疊可忽略分布的功能受限問題。因此,Wesserstein生成對抗網絡(WGAN,Wesserstein GAN)[34]引入Wesserstein 距離,在連續的約束下改進損失函數,解決了梯度消失等訓練不穩定問題,從而生成豐富多樣的樣本。為了解決模式崩塌問題,Ghosh 等[35]提出了包含多個生成器和一個判別器的多主體、多樣化生成對抗網絡,在判定真假樣本的同時找到制造假樣本的生成器并優化。Mao 等[36]提出了最小二乘生成對抗網絡(LSGAN,least squares GAN),使用最小二乘損失函數代替交叉熵損失,使圖像分布盡可能地接近決策邊界,提高圖像質量。Chen 等[37]提出了一種基于感知損失函數的生成對抗網絡,使用密集塊構建生成器,生成更自然、更真實的圖像。Tan 等[38]提出了一種提高圖像質量的新策略,將損失函數的梯度從分類識別器反向傳播到生成器,同時反饋標簽信息,使生成器能夠更有效地學習,生成高質量的圖像。Kancharla 等[39]提出了基于多尺度結構相似度指標的生成對抗網絡,將結構相似度作為GAN 中鑒別器損失函數的約束,保證局部結構的完整性,提高生成樣本的視覺質量。
以上基于生成對抗網絡的改進方法大致上可以分為2 類:一類是為了緩解網絡訓練中出現的梯度消失、模式崩塌等問題,另一類是針對提高圖像生成的質量進行改進。但是,很少研究工作考慮到不同輸入噪聲對圖像生成質量的影響。文獻[40]表明不同分布在數據擬合效果上具有一定的差異性,因而不同的噪聲分布對生成樣本質量有一定的影響。不同度量方法對計算分布間差異的準確性有直接影響,歐氏距離、L1 范數等只考慮絕對距離,忽視了相對距離。對于反映不同分布之間的距離,相對距離更有實際意義,卡方散度和熵可以有效反映相對距離。相比于熵,卡方散度沒有對數和指數運算,其計算復雜度小,運算速度較快。此外,卡方散度還具有稀疏不變性和量化敏感性[41],利于衡量不同分布間細微的差異。因此,有必要將卡方散度用于生成對抗網絡中展開研究。
為了解決不同分布噪聲下網絡生成樣本質量差異明顯、穩健性差的問題,本文提出了一種噪聲穩健性的卡方生成對抗網絡(CSGAN,chi-square generative adversarial network)。該網絡結合卡方散度稀疏不變性和量化敏感性的優勢,構建網絡優化的目標函數,引入卡方散度值作為評估生成樣本和真實樣本分布差異的依據,促進生成器和判別器在對抗中不斷優化,使不同噪聲下的生成樣本分布能夠盡量擬合真實樣本分布,增強網絡的穩健性。
在大數據背景下,無監督的生成對抗網絡得到廣泛關注。同時,許多基于生成對抗網絡的改進方法被提出,例如條件生成對抗網絡[42]、深度卷積生成對抗網絡[43]、能量生成對抗網絡[44]等。下面詳細介紹經典生成對抗網絡和Wasserstein 生成對抗網絡。
經典生成對抗網絡是一種典型的生成式網絡,通過對抗學習并使用隨機梯度下降法進行優化。這有效避免了馬爾可夫鏈的反復使用,不需要進行變分下限和近似推斷,改善了生成式模型的訓練難度和效率。如圖1 所示,生成對抗網絡由以下兩部分組成:生成器G 和判別器D。生成器獲取真實樣本的分布,并根據所獲取的分布重構樣本;判別器相當于二分類器,用于判斷輸入數據來自真實樣本還是由生成器產生的樣本。GAN 的基本思想是訓練生成器G 和判別器D,通過討論極小極大化博弈問題尋求全局最優解,達到納什均衡。
圖1 生成對抗網絡
生成器學習真實樣本x 的分布 pd,輸入服從分布 pz(z)的噪聲z,該噪聲通過生成器映射到一個新的數據分布 pg,得到 G(z)。然后,將真實樣本x 與G(z)共同輸入判別器D 中,通過 D(x)表示輸入的2 個數據屬于真實樣本的概率并輸出。初始狀態下,真實樣本的 D(x)值趨近于1,而生成樣本的 D(x)值趨近于0;訓練D 最大限度地正確區分生成樣本和真實樣本,同時訓練G 混淆判別器D,使其不能區分數據的來源。D 和G 的訓練是關于值函數V(G,D)的極小極大化博弈問題,如式(1)所示。
訓練初期,當生成器G 的效果較差時,生成樣本與真實訓練的樣本明顯不同,判別器D 可以輕松判別生成樣本為假圖像。為了增加梯度信息,生成器G 選擇最大化log D(G(z))代替最小化log(1-D(G(z)))進行訓練。當訓練樣本足夠多時,對抗問題的全局最優解為 pd=pg,D*(x)=,即真實樣本分布與生成樣本分布重合,網絡達到納什均衡狀態。
經典的GAN 模型通過計算JS 散度,比較pg和pd之間的距離,要求2 個分布有重疊,但低維與高維之間有微小重疊或完全沒有重疊的可能性非常大。因此,生成器存在無法逼近真實樣本和模型崩塌的問題。Arjovsky 等[34]從數據分布相似性度量入手對GAN 進行改進,提出Wasserstein 生成對抗網絡。通過將經典GAN 中對概率分布的距離度量JS 散度替換為Wasserstein 距離,對于GAN 算法進行部分調整,優化了經典GAN 訓練過程不穩定、訓練后期生成器梯度消失、模型崩潰的問題,如式(2)所示。
WGAN 與經典GAN 相比做了部分調整,具體如下。生成器和判別器的目標函數不取對數形式,采用RMSProp 優化算法,判別器最后一層去掉Sigmoid 激活函數;判別器參數更新后,通過截斷方式將權重限定在一個固定區間,避免梯度消失。
不同評估方法會對計算不同分布間差異的準確性造成直接影響。歐氏距離、L1 范數等考慮生成樣本分布和真實樣本分布之間的絕對距離,忽視了相對距離;卡方散度和熵可以有效反映不同分布之間的相對距離。對于計算不同分布之間的差異,相對距離往往更有實際意義。
卡方散度是F 散度的一種形式,衡量2 個分布,即P=(p1,p2,…,pn)和Q=(q1,q2,…,qn)差異的大小,其被定義為
此外,卡方散度具有量化敏感性和稀疏不變性[41]。量化敏感性表現為卡方距離對不同輸入與標準模板之間的細微差異是敏感的。由于不同噪聲服從不同的概率分布,當z 服從參數為λ 的泊松分布,且λ充分大時,z 漸近服從正態分布 N(λ ,λ);當z 服從參數為α 和β 的伽馬分布,且α 趨于無窮大時,z漸近服從正態分布。雖然不同分布在極限條件下存在一定的關系,但是一般情況下很難達到極限條件。因此,不同輸入噪聲擬合出的生成樣本分布具有一定的差異,即其與真實樣本分布的距離也各不相同;卡方散度的量化敏感性可以度量不同噪聲下生成樣本分布與真實樣本分布的差異,有利于減小不同噪聲對生成樣本分布的影響,因此使用卡方散度有助于緩解不同輸入噪聲下的穩健性問題。
卡方散度的稀疏不變性的定義是整體距離等于局部最優距離。由于真實樣本中可能存在一些質量較差或不服從整體分布的獨立樣本,如果生成樣本分布無限擬合真實樣本分布,會產生獨立樣本,影響判別器和生成器的訓練。此時,卡方散度的稀疏不變性有利于從整體數據中忽略獨立樣本,使用局部最優樣本分布來代替整體分布。所以,將卡方散度作為樣本分布差異的評價依據,可以降低對真實樣本質量的要求,同時避免生成一些質量較差的獨立樣本。
因此,基于卡方散度構建卡方生成對抗網絡的目標函數,如式(4)所示。根據極大極小值原理,判別器D 希望生成器生成的圖像質量較差,從而輕易地判別出真實樣本和生成樣本。生成器G 根據判別器的反饋優化自身,直到可以混淆判別器的判斷。
其中,任意輸入噪聲z 服從分布pz,且真實樣本x 服從分布pd,噪聲經過生成器后形成生成樣本 G(z)。判別器以卡方散度為衡量依據,當生成器生成樣本與真實樣本的卡方距離為0 時,生成樣本分布擬合真實樣本分布,網絡達到最優。
下面詳細說明本文提出的卡方生成對抗網絡中目標函數和卡方散度之間的關系,主要分為以下2 個步驟:1)假設生成器參數固定,尋找最優的判別器,且確定判別器的最優判別概率,目標函數取得最小值;2)當判別器狀態最優時,存在最優生成器使判別器可依據卡方散度計算得出生成樣本分布和真實樣本分布的距離為0,目標函數取得最大值。因此,通過相互博弈,以卡方散度為評價依據,網絡的判別器和生成器均可達到最優狀態。
一方面,以最小化目標函數為指導,先尋求最優判別器。假設生成器固定,真實樣本為x 且服從分布 pd。對于任意輸入噪聲z 服從分布 pz,噪聲z經過生成器后得到服從分布 pg的生成樣本 G(z)。當生成樣本和真實樣本同時輸入判別器D 時,目標函數可以寫為
因此,根據生成樣本分布和真實樣本分布求目標函數的最優解,可得到定理1。
定理1給定生成器,最優判別器為
當目標函數取最小值時,判別器達到最優。
證明訓練判別器的判別能力時,最小化目標函數 K(D,G),即
對于任意分布的pg和pd,二次凸函數pg(x)D2(x)-pd(x)D(x)在時取最小值,目標函數 K(D,G)取得最小值。即生成器固定時,判別器最優為D*(x)=。證畢。
另一方面,當判別器達到最優時,以最大化目標函數為目的,尋找最優生成器。將最優判別器的表達式代入目標函數,可以寫為
從式(8)可以看出生成樣本分布和真實樣本分布的關系,最優的生成器希望目標函數取最大值,因此,可以得到定理2。
定理2當判別器達到最優時,存在最優生成器使 pg=pd,目標函數取得全局最大值。
證明
1)充分性。當 pg=pd時,D*(x)=D*(G(z))=;代入目標函數,可得。
2)必要性。當判別器達到最優時,目標函數可以寫為T(G)=K(D*,G),可得
根據卡方散度的定義,將式(9)轉換為卡方散度的表示形式,如式(10)所示。
其中,χ2表示卡方散度。最大化式(9)的值就等同于最大化式(10)的值,由于2 個分布之間的距離非負,當 pg和 pd的卡方距離為0 時,T(G)取最大值,即當 pg=pd時,最大,生成器學習到了真實樣本的分布,網絡達到最優。證畢。
因此,在判別器與生成器相互博弈過程中,以卡方散度為評價依據可以降低網絡對真實樣本質量的要求,有利于生成樣本分布擬合真實樣本分布,找到最優的生成器使生成樣本逼近真實樣本,直到判別器難以辨識,網絡達到最優。
網絡設計主要包括生成器和判別器2 個部分,結構如圖2 所示。生成器相當于解碼器,主要利用解卷積實現每一層特征圖像的獲取,生成最終圖像。在圖像生成過程中,首先輸入噪聲z,經過全連接將噪聲轉換到張量空間;然后通過3 層解卷積,每一層的輸出作為下一層的輸入,設置卷積核大小為5×5,步長為2×2,除最后一層卷積后使用Tanh激活外,其他網絡層獲取的特征都進行歸一化處理后使用ReLU 函數激活;最后生成樣本。
判別器相當于編碼器,對生成樣本進行評估,其輸入為真實樣本和生成樣本,通過3 層卷積提取特征,設定卷積核為5×5,步長為2×2。與生成器不同,判別器中的激活函數采用Leakly ReLU 函數。第一層卷積后采用Leakly ReLU 激活函數,其他兩層卷積后的特征歸一化后再進行Leakly ReLU 激活;卷積后學習到的特征經過全連接輸出判別概率,判別圖像的真實性。
生成器、判別器對抗的目標函數基于卡方散度,生成器的目標是最小化生成樣本分布和真實樣本分布的卡方距離,而判別器則相反。因此網絡優化的損失函數可以根據目標函數進行確定,定義為
圖2 CSGAN 結構
優化過程中生成器和判別器的目標均為最小化損失函數的值。判別器判定輸入真實樣本的概率D(x)∈[0,1],判定生成樣本的概率 D(G(z))∈[0,1]。判別器在訓練過程中希望 D(G(z))盡可能小,那么可以對其進行縮小,因此判別器損失中使用D2(G(z)),而判斷真實樣本的概率 D(x)不變。生成器希望 D(G(z))的值盡可能大,因此在生成器優化時 D(G(z))的值不進行縮放。這樣主要有以下2 個優勢。1)D2(G(z))作為生成樣本屬于真實樣本的概率,相當于對 D(G(z))自動按比例進行縮小,如果 D(G(z))較大,即判別器判定生成樣本接近真實樣本,縮小的比例較小;反之,生成樣本和真實樣本差異大,縮小的比例較大,促使判別器分辨真實樣本和生成樣本的能力更強。2)判別器分辨真實樣本和生成樣本能力強,避免了在生成樣本質量較差時判別器給生成器錯誤的反饋;同時減少計算量,加快網絡訓練速度。由于自適應優化器的超參數一般不需要調整,且自動調整學習率,適用于梯度存在很大噪聲的優化,因此生成器和判別器都采用RMSProp 自適應優化器,初始化優化器的學習速率為5×10-5。
訓練時根據輸入的真實樣本優化判別器,生成器生成樣本后輸入判別器,判別器更新并向生成器反饋信息更新生成器,網絡參數不斷更新優化,實現生成器和判別器的相互對抗。
卡方生成對抗網絡算法流程如下。
迭代次數為m。
1)生成器
輸入噪聲z 服從分布 pz(z)
輸出生成樣本 G(z)
2)判別器
輸入噪聲z 服從分布 pz(z),真實樣本x 服從
pd,生成樣本 G(z)服從 pg
輸出真假圖像判別概率
更新生成器和判別器參數。
重復m 次1)和2),實現對抗,可視化生成樣本。
實驗在深度學習框架TensorFlow 上實現。實驗的硬件環境為英特爾酷睿i7 6800K 處理器,主頻為3.40 GHz,英偉達GTX 1080 顯卡;軟件環境為Windows 10 操作系統,Anaconda3 軟件下的Python3.5 平臺,Cuda 9.0 和Cudnn 6.0 支撐。該配置是目前深度學習計算的主流配置之一。在仿真實驗中,算法采用相同的參數配置。在CIFAR-10 和MNIST[46]數據集上驗證算法的有效性。
MNIST 是深度學習領域常見的數據集,共70 000 張大小為28 像素×28 像素的手寫數字圖像,有60 000 張訓練圖片和10 000 張測試圖片,一部分來自人口普查局員工,另一部分從高中學生中收集。本次實驗將標準高斯噪聲作為輸入,使用所有訓練集圖像進行訓練,對比GAN、LSGAN、WGAN和CSGAN 在相同迭代次數下生成樣本的質量,比較網絡的性能。訓練和測試過程中網絡參數設置均相同,即學習率為5×10-5,批處理大小為50,最大迭代次數為30 000 次,生成樣本大小為28 像素×28像素,經過不同迭代間隔,使用1 000 張測試集圖像對網絡進行測試。圖3 展示了不同算法在不同迭代次數下生成的手寫數字圖像。
在不同迭代次數下可視化生成樣本,圖3 坐標軸外是從測試數據集中隨機抽取的真實樣本,坐標軸內是生成樣本,橫坐標為迭代次數,縱坐標為使用不同的對抗網絡。圖3 中可準確辨識圖像用方框進行標記,從上到下依次是GAN、LSGAN、WGAN和CSGAN 的生成樣本。從圖3 中可以看出,迭代初期4 個網絡均生成無法辨識的圖像,CSGAN 在迭代2 000 次左右可以生成可辨識數字,而WGAN在迭代3 000 次左右才開始生成可辨識數字,經典GAN和LSGAN需要更多次迭代才能生成可辨識數字。本文所提CSGAN 在判別器的判別能力增強后給予生成器反饋,引入卡方散度評估生成樣本分布和真實樣本分布的差異,有利于增強生成器的對抗能力,可更快生成可辨識的樣本。因此在相同迭代次數條件下,CSGAN 生成的可辨識數字多于其他網絡,也就是說如果達到相同數量的可辨識圖像,CSGAN 需要較少的迭代次數,有利于節約計算資源。
圖3 在不同迭代次數下不同方法的生成樣本對比
除了可視化圖像外,網絡中訓練損失值和測試損失值的變化趨勢也反映了網絡的收斂情況。因此為了進一步比較網絡的性能,本節分析了不同迭代次數下網絡損失值的變化趨勢。
理論上,GAN 在達到最優時判別器和生成器損失分別為ln4 和ln2[14];LSGAN 中網絡達到最優時,判別器損失值為1.25 且生成器損失值為-0.125[36];WGAN 中網絡最優時判別器的損失值為0,生成器的損失值為-0.5[34];所提CSGAN 達到最優時判別器的損失值為-0.25,生成器的損失值為-0.5。為了更直觀地比較不同網絡損失值的變化趨勢,將GAN的判別器損失和生成器損失分別向下平移1.4和1.2個單位、LSGAN 的判別器損失向下平移1 個單位后繪圖。此時如果網絡收斂,GAN 判別器和生成器損失分別趨近于0 和-0.5;LSGAN 判別損失趨近于0.25。圖4(a)反映了訓練過程中4 個網絡判別器損失值整體的變化趨勢,均為先減小再增大最后趨于平緩。產生這種趨勢的原因是,訓練初期相比于生成器,判別器的優化能力更強;隨著迭代次數的增加,生成器的優化能力逐漸提升,提高了與判別器對抗的能力;直到最后生成器和判別器都達到最優。當損失趨于平緩時,CSGAN 的判別器損失趨近于-0.3,與理論值接近,網絡收斂;而WGAN的判別器損失值仍存在小幅度上升趨勢,說明WGAN 沒有達到完全收斂;LSGAN 和GAN 的損失值都穩定在-0.1 左右,并沒有收斂到理論值0.25和0。這是由于WGAN 需要權重裁剪而導致收斂速度較慢,LSGAN 和GAN 在實際情況下受到網絡優化的影響難以達到理論效果。其中,圖4(a)中局部放大圖反映了迭代前100 次判別器損失值的下降過程,可以直觀地看出GAN 的下降趨勢與其他3 種網絡略有不同,判別器損失值并沒有達到最小值,原因在于GAN 判別器優化的速度較慢;相比于LSGAN 和WGAN,雖然CSGAN 下降的幅度略小,但是判別器開始下降的時間較早。圖4(b)和圖4(c)是圖4(a)中虛線框內曲線的局部放大圖,圖4(b)反映了判別器損失達到最小后CSGAN 的判別器損失值保持一段時間后才開始上升,這是由于訓練初期CSGAN 中生成器的對抗能力較弱。但是如圖4(c)所示,隨著迭代次數的增加,CSGAN 判別器收斂更快,因為增強判別器的判別能力后,雖然網絡訓練初期生成器的性能較差,但是后期生成器的對抗能力得到有效提高,有利于生成更高質量的圖像。
圖4 訓練時判別器損失值的變化趨勢
每迭代100 次后進行網絡測試,圖5 展示了測試時不同網絡生成器和判別器損失的變化趨勢。測試和訓練時判別器損失的趨勢大致相似,不同的是進行100 次訓練后判別器的損失下降幅度較小;GAN 和WGAN 中生成器的損失下降速度先快后慢,而CSGAN 生成器損失的下降速度先慢后快,主要是由于卡方散度計算復雜度小,CSGAN 收斂的速度較快。相比于其他網絡,CSGAN 的生成器和判別器損失值在達到穩定時更加趨近于理論值,收斂性更好。
圖5 測試時不同網絡損失值的變化趨勢
CIFAR-10[46]相比MNIST 數據集所含的信息量更大。其共有60 000 張三通道圖像,圖像大小是32 像素×32 像素,包括飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車10 類圖像,每類6 000 張圖像。汽車和卡車之間沒有重疊,汽車包括轎車、SUV,卡車只包括大型卡車。其中,每10 000 張圖像作為一批,五批用于訓練,一批用于測試。采用CIFAR-10 中的訓練集樣本進行訓練,采用標準高斯噪聲作為生成器的輸入。設置學習率為5 ×10-5,第一批處理64 張圖像,迭代的最大次數為2 ×105次,生成樣本大小為32 像素×32 像素,使用10 000 張測試集圖像對網絡進行測試。實驗中分別對GAN、LSGAN、WGAN和CSGAN 在相同迭代次數下進行對比。圖6 展示了真實樣本和不同算法生成樣本的對比效果。
圖6 真實樣本以及GAN、LSGAN、WGAN、CSGAN 生成圖對比
圖6 展示了CIFAR-10 數據庫部分圖像和不同網絡在標準高斯噪聲下的部分生成圖,由于原始圖像尺寸較小且分辨率較低,很難觀察出不同生成樣本質量的差異。為了定量評價生成樣本的質量,文獻[47]使用了目前主流的起始分(IS,inception score)和Fréchet 起始距離(FID,Fréchet inception distance)對不同網絡生成的樣本進行評估。其中,IS 值是通過網絡InceptionNet 在ImageNet 數據庫上進行預訓練計算得到的,值越高表示圖像的不確定度越低,圖像的生成質量越好;FID 表示真實樣本和生成樣本在特征空間上的距離,值越低表示生成樣本越接近真實樣本。
為了探究所提出網絡的性能,在CIFAR-10 上比較不同輸入噪聲對網絡穩健性和生成樣本質量的影響。實驗主要探究離散型的泊松分布 z~ P(1)和連續型的正態分布 z~ N(0,0.1)、標準高斯分布z~N(0,1)、均勻分布 z~ U(0,1)、伽馬分布z~Ga(0,1)、截斷高斯分布下的噪聲。
LSGAN 的參數設置參考文獻[42]。在不同噪聲下分別訓練網絡并測試,從生成樣本中隨機抽取1 000 張,從迭代停止前30 000 次開始每隔1 000 次計算IS 值,獲取最大值并求取平均值。表1 展示了不同噪聲下各網絡生成樣本質量的評價指標。從整體來看,IS 平均值和最大值具有一致性,相同噪聲條件下,所提CSGAN 生成樣本的IS 值普遍高于經典GAN、LSGAN 和WGAN,這是由于CSGAN 生成樣本的質量優于其他網絡。在不同噪聲下,GAN和WGAN 在均勻噪聲下效果較好,IS 均值分別達到5.14 和5.47;LSGAN 在標準高斯分布的噪聲下IS 均值較高,為5.17;CSGAN 在服從任意分布的輸入噪聲下,評估生成樣本得到的IS 均值在5.40 左右,最高均值達到5.53。這是由于卡方散度具有稀疏不變性,會忽略真實樣本中可能存在一些質量較差或不服從整體分布的獨立樣本,避免生成一些質量較差的獨立樣本,從而提高生成樣本的整體質量。同一方法中最大IS 均值和最小值的差定義為IS 波動值,波動值越小說明生成樣本質量越穩定。4 種網絡的IS 波動值分別為1.45、0.26、0.36 和0.16,CSGAN 的IS 波動值小于其他網絡,原因是卡方散度具有量化敏感性,有利于減小不同噪聲對生成樣本分布的影響,因此網絡受輸入噪聲的影響較小,穩健性較強。
表1 CIFAR-10 不同噪聲分布下各網絡生成樣本的IS 值
為了進一步探究訓練過程中生成樣本質量的變化情況及不同網絡的優化情況,在不同迭代次數下進行實驗。表2 反映了不同噪聲下生成樣本IS 值隨迭代次數的變化情況。每迭代1 000 次后對生成樣本進行測試,每隔10 000 次計算一次平均IS 值。從表2 中可以直觀地看出,在同一迭代范圍內,同一網絡在不同輸入噪聲下生成樣本的質量有一定的差異,不同網絡在相同噪聲下的生成質量也不相同;訓練后期,由于GAN 優化過程中梯度消失,在伽馬分布、泊松分布、截斷高斯分布、正態分布這4 種噪聲下出現網絡崩塌問題,對噪聲的穩健性差;CSGAN在訓練中期生成樣本的質量開始優于3 種對比網絡,并在后期一直保持優勢。其原因是判別器判別真假的能力增強后給予生成器反饋,在訓練中期促進生成器增強對抗能力,更有利于生成更高質量的樣本。
為了進一步驗證網絡在不同噪聲下的性能,從測試樣本中抽取1 000 張圖像作為標準數據集,隨機抽取128 張生成樣本計算FID 值。圖7 顯示了不同網絡在不同噪聲下生成樣本的FID 值。由于伽馬噪聲和正態分布噪聲對生成樣本質量的影響較大,不同網絡在這2 種噪聲下的FID 出現峰值。不同噪聲下由于卡方散度具有量化敏感性和稀疏不變性,CSGAN 生成樣本的FID 普遍較小,最大值和最小值分別為186 和175,波動范圍小,這進一步說明了CSGAN 有利于提高生成樣本的質量且對噪聲的穩健性較強。
圖7 不同噪聲下生成樣本的FID 值
針對生成對抗網絡在不同噪聲下的穩健性及生成樣本質量差異明顯的問題,本文提出了一種噪聲穩健性的卡方生成對抗網絡。引入卡方散度判別真實樣本分布和生成樣本分布的距離,減小輸入噪聲對網絡的影響并增強網絡穩定性;搭建卡方生成對抗網絡,構建全局優化目標函數,促進生成器生成更加逼真的圖像。研究表明,不同網絡在不同噪聲下的穩健性不同,基于卡方散度的CSGAN 能夠生成更高質量的樣本,具有較強的穩健性。未來的工作重心是提高網絡效率,降低計算損耗,并將該網絡擴展用于檢測、預測等更多實際應用領域。