趙镥瑤,齊蘇敏,周翔宇,石 珂
(曲阜師范大學,山東 濟寧 273100)
近年來,深度學習在語音識別、圖像識別和自然語言處理等各個領域都得到了廣泛應用[1],各種網絡模型不斷出現,如卷積神經網絡(Convolutional Neural Network,CNN)[2]、循環遞 歸神經網絡(Recurrent Neural Network,RNN)[3]等。2014年,Goodfellow 提出了生成式對抗網絡(Generative Adversarial Networks,GAN)[4],為深度學習領域注入了一種新的思想,一定程度上推動了人工智能在認知階段的發展。隨后,各種GAN 衍生模型層出不 窮,如CGAN[5]、InfoGAN[6]、Wasserstein GAN[7]以及DCGAN[8]等。但是,GAN 的生成質量難以評估,其中定性評價和一些傳統的客觀評價指標并不合適[9-10]。鑒于主觀評價的內在缺陷和GAN 的發展水平[11],采用恰當的客觀指標來指導GAN 的發展至關重要[12]。
目前,客觀評價指標主要通過衡量真實分布和生成分布的差異來定量評價GAN,如Kernel MMD[13]、Inception Score[14]、Fréchet Inception Distance[15]以及GAN Quality Index[16]等。雖然它們能夠在一定程度上評價GAN,但也存在不足,如無法確定GAN 分數低的原因,依賴于預訓練的模型,無法捕捉圖像特征通道之間的依賴關系等。針對上述不足,本文設計了一個全面且合理的質量評價指標SEGQI。利用SE-ResNet 網絡引入通道注意力機制對生成圖像進行分類,以更好地評價GAN。該指標能夠分別評價生成圖像的真實性和多樣性,得到更準確的綜合評價分數,是對GQI 的一種改進和補充。最后,定量評估經典模型DCGAN。實驗表明,與其他指標相比,SEGQI 更全面和客觀地評估了其生成圖像的真實性和多樣性。
DCGAN 將卷積神經網絡(CNN)首次應用到GAN,能更好地捕捉圖像特征,廣泛應用于圖像生成任務。如圖1 所示,DCGAN 將服從高斯分布或均勻分布的100 維隨機噪聲z輸入生成器G,輸出生成圖像G(z);將生成圖像G(z)和真實圖像x輸入判別器D,輸出G(z)為真的概率。在一定批量的樣本內,模型根據輸出概率計算并反饋損失,使得生成器D 和判別器G 的參數不斷優化。它的目標函數為:

式中,真實樣本分布為pdata(x),生成樣本分布為pz(z)。
生成器和判別器的優化目標不同,結成對抗學習關系。對于判別器D 來說,期望能夠識別出真實樣本x,即D(x)盡可能靠近1,log[D(x)]越大越好。反之,生成器G 期望生成足以亂真的假樣本G(z)。

圖1 DCGAN 生成圖片的基本模型框架
DCGAN 的生成器和判別器采用改進后的卷積神經網絡結構,去掉了全連接層和池化層,采用逆卷積的方式擴展矩陣大小,再經過BN 層、ReLU激活函數得到該層的輸出,即下一層的輸入。100維的隨機噪聲向量經過幾次這樣的過程后,通過輸出層的tanh 激活函數得到生成圖像。
評價GAN的兩個關鍵標準是真實性和多樣性。但是,傳統評價方法不能將兩者分開,對這兩個標準各有傾向性,因此對GAN 模型的評估不夠合理且指示性不強。所以,本文設計了基于深度學習的方法來評價GAN,以分類性能直觀反映其生成圖片的真實性和多樣性。如果GAN 模型能夠很好地學習到真實分布,那么生成器在特征空間層面上的表現應該接近于真實數據。本文利用SE-ResNet對真實數據集和GAN 生成數據集分類,定義真實性指標R、多樣性指標D和綜合性指標CS來評估DCGAN 的生成質量。
SE-ResNet[17]在ResNet 網絡的基礎上嵌入了SE 模塊,通過學習特征通道之間的關系預測各通道權重,從而提高了分類任務的準確性。與原始的ResNet 相比,SE-ResNet 的TOP-1 錯誤率明顯更低。
本文設計的基于SE-ResNet 的質量評價模型SEGQM 如圖2 所示。
具體的評價流程為:
①利用真實數據集Sreal(N×M)、原始生成數據集Gfake和分類后的生成數據集GCfake訓練分類器,分別得到三者的TOP-1 精度ACC(Sreal)、ACC(Gfake)及ACC(GCfake)。
②利用TOP-1 精度的比值計算真實性指標R和多樣性指標D的值。
③將求得的真實性指標R和多樣性指標D線性融合,得到綜合性指標CS。

圖2 SEGQM 評價模型
④(R,D,CS)即為最終的SEGQI 評價指標。
真實性指標度量生成數據的真實性程度。
①在真實數據集Sreal(N×M)(N代表類別,M代表每類樣本數)上訓練分類器SE-ResNet 和GAN模型,生成大量圖片。
②利用分類器給生成圖片賦標簽,可以得到一個與真實數據集同構的生成圖片數據集GCfake(N×M)。
③在GCfake(N×M)上訓練一個分類器。兩個分類器在同一真實圖片測試集上得到的準確率分別為ACC(Sreal)和ACC(GCfake)。生成圖像的真實性指標R為:

由于GCfake和Sreal類別均衡、大小相同,因此影響測試集準確率的因素是生成數據集的真實性。如果生成樣本的分布越接近真實樣本分布,則設計方案的真實性指標R應該越高,生成圖片的真實性應該越高。
為了獲得生成圖片的多樣性,令GAN 生成任意圖片,得到一個新的生成圖片數據集Gfake。它的大小與GCfake相同。
同樣,在Gfake上訓練一個分類器SE-ResNet,并在同一真實數據集上測試得到準確率ACC(Gfake)。
生成圖像的多樣性指標D計算為:

由于Gfake和GCfake類別不均衡、大小相同且都是生成圖片,因此影響測試集準確率的因素是生成圖片的多樣性。如果生成樣本對各類別樣本分布的學習程度越平均,那么設計方案的多樣性指標D應該越高,生成圖片的多樣性應該越高。
由式(2)和式(3)可知,真實性指標R和多樣性指標D與生成圖片的質量都呈正相關。為了簡便表示,根據準確率影響程度設置了一個參數α將兩個指標有效融合在一起,得到綜合性指標CS:

式中,α表示視覺保真度對生成圖像質量的影響程度。

式(4)表達了真實性和多樣性對DCGAN 質量的影響程度,CS∈[0,1]。CS越高,GAN 模型生成圖像的質量越好,也在一定程度上反映了該GAN模型的生成能力較好。
由真實性指標R、多樣性指標D和綜合性指標CS組成的三元組稱為SEGQI指標,可分為4種情況:
①當R和D的分數都很高時,CS分數也很高,說明GAN 生成圖像質量較高且多樣;
②當R的分數越高且D的分數越低時,說明GAN 生成圖像具有高質量、低多樣的特點,可能出現了模式崩潰現象;
③當R的分數越低且D的分數越低時,CS分數也很低,說明GAN 沒有產生有意義的生成圖像;
④當R的分數越低且D的分數越高時,說明GAN 生成圖像多樣但不夠逼真。
SEGQI 指標反映了GAN 生成分布與實際數據分布之間的差別,對真實性和多樣性分別進行評價,沒有傾向性,可以更好地體現GAN 模型的特性。它不需要了解GAN 模型的內部結構,利用GAN 生成數據集就可以評估GAN 的質量。與傳統的質量評估方法相比,本文方法更全面、直觀,是對相關GAN 模型在實際應用中的切實檢驗。
本節將對主要的幾種指標進行簡單介紹和比較分析。
Inception 分數(Inception Score,IS)是已有文獻中應用最廣泛的指標,本質是利用分類模型評估生成圖片的質量,將生成的圖片輸入訓練好的Inception 分類網絡,根據式(6)計算每張圖片的分類表現。

如果圖片x屬于某個類的概率分布很大,那么p(y|x)呈尖銳分布,熵很小;如果圖片標簽在各類別中均勻分布,那么邊緣分布p(y)的熵很大。理論上,期望概率分布越小越好,邊緣分布越高越好,而這兩個分布的散度自然越大越好。因此,IS 設想用DKL衡量這兩個分布。分布越不像模型,表現越好。
但實際上,Inception 分數是一個存在很多問題的指標。一方面,它只考慮了生成分布Pg,并不能體現生成分布和真實分布之間的距離。另一方面,它依賴于預訓練的inception 模型,并不適用于所有數據集。
Fréchet Inception 距 離(Fréchet Inception Distance,FID)利用Inception 網絡提取特征,然后通過計算真實圖片和生成圖片在特征空間層面的距離進行評價。利用兩者的均值μ和協方差C可計算FID 分數:

在特征空間上,生成樣本和真實樣本的FID 距離越小,兩者的分布越接近。
FID 比IS 更合理,但并不能確定用FID 來衡量真實樣本特征和生成樣本特征是否足夠合理。
GAN 質量指數(GAN Quality Index,GQI)很好地利用了分類思想來衡量生成樣本的質量,在同一個網絡上訓練生成樣本和真實樣本。在真實數據集上測試,根據式(8)得到兩者的準確率之比。

這個比值越大,說明生成樣本分布越接近真實樣本分布,可以很好地分類真實樣本。
但是,GAN 質量指數也存在不足。一方面,GQI使用ResNet 作為分類網絡,沒有考慮特征通道之間的關系。另一方面,GAN 質量指數無法確定影響準確率的具體因素,如圖片不夠逼真、圖片多樣性不足等。
本文提出的方法設計了兩個分數,分別指示生成圖像的真實性和多樣性,并通過一個簡單的線性關系相加融合成一個有界指標[18]。表1 展示了DCGAN 生成圖片的SEGQI 得分(R,D,CS)。

表1 DCGAN 的評價指標對比
CIFAR-10 數據集由來自10 個類的60 000 張圖像組成,分為5 個訓練批次和1 個測試批次。訓練集中有50 000 張圖像,每個類包含5 000 張;測試集有10 000 張圖像,每個類包含1 000 張。與之相比,CIFAR-100 分類更加細致,是更具挑戰性的數據集。它包括100 個類別的圖像,每個類別分別有500 張訓練圖像和100 張測試圖像。從表1 可以看出,設計的指標與其他指標在排名上表現一致。IS 評價指標并不合適,原因是只考慮了生成圖像,刪除某些類對IS 分數影響不大。FID 指標和GQI 指標變化較大,能夠得到相對合理的評價分數來指示生成圖像的質量,但沒有反映出生成圖像的多樣性表現。而在設計的指標SEGQI 中真實性指標R明顯下降,同時影響了多樣性指標D,能夠合理全面地指示生成圖像的質量。
本文針對GQI 指標進行了以下3 點改進:①將ResNet 網絡替換成SE-ResNet 網絡,學習通道之間的關系,以提高分類準確率;②分別評價真實性和多樣性,更明確地反映GAN 的生成質量;③根據影響程度,將(R,D)分數融合為一個綜合得分,比GQI 更合理。
分類網絡準確率對賦標簽的影響因子與真實性得分R正相關。同理,它與多樣性D正相關。如表2 所示,SE-ResNet 在各類真實數據集上的準確率比ResNet 更高。究其原因,在于SE 模塊對圖片特征通道進行了權重分配,更利于提取有意義的特征。

表2 SEResNet 與ResNet 在不同數據集上的分類表現
為了更全面地評價GAN 生成圖像,將真實性得分R和多樣性得分D融合為一個綜合得分CS,如表3 所示。首先,計算真實性,用CIFAR-10 數據集訓練SE-ResNet 網絡,得到93%的準確率。其次,利用同構的生成圖片數據集訓練同一個網絡,得到78%的準確率,因此可以根據式(2)得到真實性R=0.84。再次,計算多樣性,利用同大小的原始生成圖片數據集訓練同一個網絡,得到72%的準確率,因此可以根據式(3)得到多樣性D=0.92。最后,根據式(4)計算可得α=0.71,得到綜合性指標CS=0.86。表4 展示了DCGAN 在同數據集上的GQI 得分。

表3 DCGAN 在CIFAR-10 數據集上的CS 得分

表4 DCGAN 在CIFAR-10 數據集上的GQI 得分
目前,對于GAN 模型的評價來說仍然沒有一個簡潔而有力的指標能夠得到公認。本文設計了基于深度學習的方法來評估GAN 生成圖像的質量。提出的評價模型SEGQM 能夠分別評估生成圖像的真實性和多樣性兩個方面,是對GAN 生成質量更詳細、更有針對性的評價方法,有利于GAN 的規范性發展。與其他模型的對比實驗表明,所提的評價模型SEGQM 能夠合理全面地指示生成圖像的質量。后續驗證多樣性和真實性對模型質量的影響權重,形成統一的指標,是進一步研究的內容。