999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本—圖像及流形插值的對抗模型

2020-09-02 06:31:23張帥楊雪霞
軟件導刊 2020年8期

張帥 楊雪霞

摘 要:針對傳統文本—圖像對抗模型中,由于反卷積網絡參數過多容易產生過擬合現象,導致生成圖像質量較差,而線性分解方法無法解決文本—圖像對抗模型中輸入單一的問題,提出一種在線性分解基礎上加入流形插值的算法,并對傳統DCGAN模型進行改進,以提高圖像的魯棒性。仿真實驗結果表明,生成花卉圖像的FID分數降低了4.73%,生成鳥類的FID分數降低了4.11%,在Oxford-102和CUB兩個數據集上生成圖像的人類評估分數分別降低了75.64%和58.95%,初始分數分別提高14.88%和14.39%,說明新模型生成的圖片更符合人類視角,圖片特征更為豐富。

關鍵詞:生成圖像;過擬合;深度卷積;流形插值;對抗網絡

DOI:10. 11907/rjdk. 201133 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP317.4 文獻標識碼:A 文章編號:1672-7800(2020)008-0216-05

Abstract: In the implementation of the traditional text image confrontation model, many parameters of deconvolution network are easy to produce over fitting phenomenon, resulting in poor image quality, the linear decomposition method cannot solve the problem of single input in the text image confrontation model. In this paper, an algorithm based on linear decomposition with popular interpolation is proposed, and the traditional DCGAN model is improved to enhance its robustness to image size. Through simulation experiment, the FID score of flower image and bird image is reduced by 4.73% and 4.11%, the human evaluation scores of the images generated on oxford-102 and cub data sets are 75.64% and 58.95% lower than the original, and the initial scores are 14.88% and 14.39% higher.The experimental results show that the image generated by the new model is more in line with the human perspective, and the image features are more abundant.

Key Words: generating image; over-fitting; deep convolution; epidemic interpolation; adversarial network

0 引言

隨著人工智能技術的飛速發展,深度學習技術成為學者們的研究熱點,并在計算機視覺、語音識別、自然語言處理等多個領域取得了諸多成果。其中,GoodFellow 等[1-3]于2014年首次提出了GANs(Generative Adversarial Nets)概念,即生成對抗網絡,目前生成對抗網絡已成功應用于圖像處理領域。

當前生成圖像主要是基于生成對抗網絡模型,而遞歸神經網絡[4]和卷積神經網絡[5]的提出使圖像生成更為高效。遞歸神經網絡常用于處理標題語句,從而形成標題向量,也被用來學習區分文本特征表示;卷積神經網絡用于圖像特征提取,進而形成圖像特征向量,其中深度卷積對抗網絡也被用于生成人臉、相冊封面和房間內部結構。生成對抗網絡衍生出的模型包括GAN-INT-CLS[6]、GAWWN[7]、StackGAN[8]和StackGAN++[9]等,雖然這些模型在圖像生成方面取得了諸多進展,但其都是以深度卷積對抗網絡為基礎的,容易造成計算資源浪費以及過擬合現象,主要原因是由于傳統卷積網絡層數較淺及參數量較大。

為了解決傳統卷積網絡的缺點,Simonyan[10]提出線性分解方法,在增加卷積網絡層數的同時減少參數數量,降低計算量,使得生成的圖像不會完全擬合真實圖像,從而降低過擬合。為了解決輸入標題單一導致生成圖片類型單一的問題,本文引入流形插值方法,并結合線性分解的優點,針對如何提高圖像質量進行深入研究。

1 相關模型

以DCGAN網絡為基礎,Dosovitskiy等[11]訓練一個反卷積網絡,根據一組指示形狀、位置和照明的圖形代碼生成三維椅子效果圖;Gregor等 [12]提出DRAW模型,該模型應用遞歸變分自編碼器與注意機制生成真實的門牌號圖像;Reed等[13]提出一種端對端的可視化類比生成方法,并在實驗中使用卷積解碼器有效模擬了二維形狀、動畫游戲角色與三維汽車模型。上述模型均基于傳統卷積神經網絡加以構建,盡管生成圖像質量較高,但由于網絡層數較淺,參數量大,導致計算量過大,而且生成的圖像與訓練集中的圖像過于相似,容易造成計算資源浪費以及過擬合現象。

VGGNet[14]是牛津大學計算機視覺組和Google DeepMind公司一起研發的深度卷積神經網絡,具有很好的泛化性,較好地解決了傳統神經網絡存在的問題。VGG網絡最主要的思想是增加網絡深度、縮小卷積核尺寸。VGG-16網絡由13個卷積層+5個池化層+3個全連接層疊加而成,包含參數多達1.38億,其核心思想為線性分解。

本文基于VGG-16與流形插值[15-16]思想構建一種混合網絡模型,如圖1所示。在確保圖像多樣性的同時,保障了圖像生成質量。采用基于 VGG-16 網絡的思想對傳統卷積神經網絡進行改進,即對卷積網絡進行線性分解[17],旨在不過多影響識別準確率的前提下盡量減少網絡參數、提高訓練效率,同時引入流形插值思想,并豐富生成圖片的類型。

2 本文算法

2.1 網絡結構

如圖1所示,左側為生成網絡,右側為判別網絡,標識A為卷積網絡在生成器中的位置,本文將對該位置的卷積網絡進行線性分解。在生成器中,首先從噪聲分布[z~Ν(0,1)]中進行采樣,使用文本編碼器[φ]對文本查詢T進行編碼,使用連接層將嵌入的描述[φ(t)]壓縮為小尺寸,然后采用LeakyReLU激活函數對其進行處理,最后連接到噪聲矢量[z]。接下來的推理過程就像在一個正常的反卷積網絡中一樣:通過生成器G將其前饋,一個合成圖像[x]是通過[x←G(z, (t))]生成的。圖像生成對應于生成器G中基于查詢文本與噪聲樣本的前饋推理。

在判別器D中,首先利用空間批處理歸一化和LeakyReLU激活函數執行多個層的步長為2的卷積處理,然后使用全連接層降低描述嵌入[φ(t)]的維數,并對其進行校正。當判別器的空間維度為4×4時,在空間上復制描述嵌入,并執行深度連接;接下來執行1×1的卷積和校正,再執行4×4的卷積,并利用D計算最終分數;最后對所有卷積層執行批處理規范化。

2.2 匹配感知判別器(GAN-CLS)

在傳統GAN中,判別器接受兩種輸入:帶有匹配文本的真實圖像和帶有任意文本的合成圖像。因此,其必須隱式地分離兩個錯誤源:錯誤的圖像以及與文本信息不匹配的真實圖像。為此,對GAN訓練算法進行改進,以將這些誤差源分離出來。除訓練期間對判別器的真/假輸入外,它還添加了第三種輸入,由文本不匹配的真實圖像組成,判別器必須學會將其評分為假。步長為α的GAN-CLS訓練算法如下:

1: Input: minibatch images x, matching text t, mismatching[t],number of training batch steps S。

2. for n = 1 to S do

3. [h← (t)] {Encode matching text description}

4. [h← (t)]{Encode mis-matching text description}

5. [z~Ν(0,1)Z]{Draw sample of random noise}

6. [x←G(z,h)]{Forward through generator}

7. [sτ←D(x,h)]{real image, right text}

8. [sw←D(x,h)]{real image, wrong text}

9. [sf←D(x,h)]{fake image, right text}

10. [LD←log(sτ)+(log(1-sw)+log( 1-sf))/2]

11. [D←D-αδLD/δD]{Update discriminator}

12. [LG←log(sf)]

13. [G←G-αδLG/δG]{Update generator}

14. end for

其中,[x]表示生成的假圖像,[sτ]表示真實圖像及其對應句子的關聯得分,[sw]表示真實圖像與任意句子的關聯分數,[sf]表示假圖像與其對應文本的關聯分數。[δLD/δD]表示D的目標相對于其參數的梯度,G也是如此,第11行和第13行表示采取梯度步驟更新網絡參數。

2.3 卷積網絡對稱分解

VGGNet通常用于提取圖像特征,將多個相同的3×3卷積層堆疊在一起,而且網絡結構越深,性能越好。本文對圖1中A處對應卷積網絡進行線性分解,如圖2所示。

圖2表示用兩個3×3的卷積網絡代替一個5×5的卷積網絡。第一層表示用一個3×3的卷積在5×5的窗格上移動,得到一個3×3的輸出,如第二層所示,接著用一個3×3的卷積核作運算,最后得到第三層的輸出。雖然兩者作用是一樣的,但是卷積網絡分解在增加網絡層數的同時能夠減少參數,達到降低過擬合的效果。

2.4 流形插值學習(GAN-INT)

流形插值可視為在生成器目標中添加一個附加項,以最小化以下公式:

其中,[z]從噪聲分布中提取,[β]在文本嵌入[t1]和[t2]之間插值。在實踐中發現,當[β]=0.5時效果良好。其中,[t1]和[t2]可能來自不同圖像,甚至是不同類別。

3 實驗及結果分析

3.1 實驗數據及參數設置

在實驗數據集選擇和參數設置上,本文引用鳥類圖像的CUB數據集和花卉圖像的Oxford-102數據集。在實驗中,將這些圖像劃分為不相交的訓練集和測試集。CUB有150個訓練類+驗證類和50個測試類,而Oxford-102有82個訓練類+驗證類和20個測試類。在進行小批量選擇訓練時,隨機選取圖像視圖和其中一個標題。

本文對所有數據集使用相同的GAN體系結構,訓練圖像大小為64×64×3。在深度連接到卷積特征圖之前,文本編碼器產生1 024維的輸入,并在生成器和判別器網絡中將圖像投射到128維。在Adam優化過程中,設置學習率為0.000 2,動量為0.5,并采用交替步驟更新生成器和判別器網絡。從100維單位正態分布中對生成器噪聲進行采樣,使用64個小批量,并訓練100輪。

(3)本實驗中也總結了人類評估方法,在測試集中隨機選擇30個文本描述,針對每個句子,生成模型生成8個圖像。將8個圖像與對應文本描述對不同人按不同方法進行圖像質量排名,最后計算平均排名以評價生成圖像的質量和多樣性。

3.2 定性結果

本文比較GAN-CLS、GAN-CLS-NA和GAN-CLS- NA-INT 3種模型圖像生成效果,其中CLS-GAN-NA模型在GAN-CLS模型基礎上對卷積網絡進行線性分解。GAN-CLS得到了一些正確的顏色信息,但圖像看起來并不真實。將3個模型在各個數據集上訓練及測試完成后,都有8個英文標題作為輸入,每個標題重復8次,共形成64個標題作為輸入,得到8行8列的圖像,每行8幅圖像對應相同的8個標題。在Oxford-102 Flowers數據集中,GAN-CLS結果如圖3所示。

圖3對應的輸入標題有8個,其中2個如下:①the flower shown has yellow anther red pistil and bright red petals;②this flower has petals that are yellow, white and purple and has dark lines。

在Oxford-102花卉數據集上的GAN-CLS-NA結果如圖4所示。

在GAN-CLS-NA模型基礎上引入流形插值思想,其中2個標題的變換如下:①the flower shown has yellow anther red pistil and bright red petals→the flower shown has blue anther red pistil and bright yellow petals;②this flower has petals that are yellow, white and purple and has dark lines→ this flower has petals that are red, white and purple and has red lines。

GAN-CLS-NA-INT模型在Oxford-102 Flowers數據集上生成的花卉圖像如圖5所示。

對比圖3與圖4相同的行可以發現,其對應的圖片標題是相同的,花的基本顏色與形狀沒有明顯區別,但圖4的圖像更為真實;圖5與圖4相比,在相同的行中,前4列標題相同,且基本顏色、形狀及細節方面都非常接近,后4列則引入了流形插值后生成的圖像,可以發現背景及花的一部分顏色發生了改變,使得整體圖像的特征類型更加豐富。在CUB鳥類數據集中,GAN-CLS結果如圖6所示。

以上圖片對應的輸入標題有8個,其中2個如下:①this small bird has a blue crown and white belly;②this small yellow bird has grey wings, and a black bill。

在CUB鳥類數據集上的GAN-CLS-NA結果如圖7所示。

在CUB鳥類數據集中,GAN-CLS-NA-INT結果如圖8所示。

以上圖片對應的輸入標題有8個,其中2個標題及變換如下:①this small bird has a blue crown and white belly→this small bird has a red crown and blue belly;②this small yellow bird has grey wings, and a black bill→this small white bird has grey wings, and a blue bill。

對比圖6與圖7相同的行可以發現,其對應的圖片標題是相同的,鳥的基本顏色和形狀沒有明顯區別,但二者圖像中背景和鳥的姿勢不同,圖7更真實一些;圖8與圖7相比,在相同的行中,前4列標題相同,且基本顏色、形狀及細節方面都非常接近,但二者圖像中背景和鳥的姿勢各不相同,后4列則引入了流形插值后生成的圖像,可以發現背景及鳥的一部分顏色和姿勢已發生改變,使得整體圖像的特征類型更加豐富。

3.3 定量結果

首先利用花卉描述標題集與相應圖像數據集對CLS-GAN模型進行100輪訓練。每輪訓練結束后,輸入花描述語句生成相應圖像,總共生成100幅圖像。本文選擇的圖像評價方法為FID分數評估方法。采用上述圖像評價方法,分別對由CLS-GAN和CLS-GAN-SA兩種模型生成的100幅圖像進行評價,定性結果如表1所示,而利用初始分數和人類評分的定量結果如表2所示。

從表中可以看出,GAN-CLS-NA在Oxford-102花卉數據集上的FID數值與GAN-CLS結果相比,FID分數降低了2.34%;GAN-CLS-NA在CUB鳥類數據集上的FID數值與GAN-CLS結果相比,FID分數降低了2.29%,說明在判別器中對卷積層進行適當分解,在減少參數量與降低過擬合的同時,也提高了生成圖像質量。同時,GAN-CLS-NA-INT在Oxford-102花卉數據集和CUB鳥類數據集上的初始評分與GAN-CLS結果相比,分別提高了14.88%和14.39%,說明生成的圖像特征類型更加豐富;人類評估分數分別降低了75.64%和58.95%,該指標越低說明越符合人類視角,也即表明生成的圖像質量越好。

4 結語

本文在GAN-CLS模型基礎上對模型判別器中的卷積網絡進行線性分解,并用分解后的卷積網絡提取圖像特征。在Oxford-102花卉數據集和CUB鳥類數據集上的實驗結果表明,本文模型效果優于基于傳統卷積網絡模型的效果,證明對卷積網絡進行適當分解可以降低過擬合,提高生成圖像質量。另外,引入流形插值在豐富生成圖像類型的同時,也能有效提高圖像質量。在未來工作中,將進一步研究如何降低圖像失真現象。

參考文獻:

[1] DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]. Advances in Neural Information Processing Systems, 2015:1486-1494.

[2] HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[C]. ?2017 IEEE Conference on Computer Vision and Pattern Recognition , 2017:1866-1875.

[3] ZHAO J, MATHIEU M, LECUN Y. Energy-based generative adversarial network[C]. Toulon: International Conference on Learning Representations, 2016.

[4] XU R F,YEUNG D,SHU W H,et al. A hybrid post-processing system for Handwritten Chinese Character Recognition[J]. International Journal of Pattern Recognition and Artificial Intelligence,2002,16(6):657-679.

[5] 徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經網絡綜述[J/OL]. 計算機學報,2019:1-31[2020-04-06]. http://kns.cnki.net/kcms/detail/11.1826.tp.20191104.1632.006.html.

[6] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]. ?International Machine Learning Society (IMLS),2016:1681-1690.

[7] REED S,AKATA Z,MOHAN S,et al. Learning what and where to draw[C]. Advances in Neural Information Processing Systems,2016:217-225.

[8] 陳耀,宋曉寧,於東軍. 迭代化代價函數及超參數可變的生成對抗網絡[J]. 南京理工大學學報, 2019,43(1):35-40.

[9] 徐天宇,王智. 基于美學評判的文本生成圖像優化[J]. 北京航空航天大學學報,2019,45(12): 2438 -2448.

[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale Image recognition[C]. ?International Conference on Learning Representations, 2015:1-12.

[11] DOSOVITSKIY A,SPRINGENBERG J T,BROX T. Learning to generate chairs with convolutional neural networks[C]. IEEE Conference on Computer Vision & Pattern Recognition,2015:1538-1546.

[12] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]. International Conference on Machine Learning,2015:1462-1471.

[13] REED S, ZHANG Y, ZHANG Y T, et al. Deep visual analogy-making[C]. ?Advances in Neural Information Processing Systems, 2015: 1252-1260.

[14] 謝志華,江鵬,余新河,等. 基于VGGNet和多譜帶循環網絡的高光譜人臉識別系統[J]. 計算機應用, 2019,39(2):388-391.

[15] BENGIO Y, MESNIL G, DAUPHIN Y, et al. Better mixing via deep representations[C]. International Conference on Machine Learning, 2013:552-560.

[16] REED S,SOHN K,ZHANG Y T,et al. Learning to disentangle factors of variation with manifold interaction[C]. International Conference on Machine Learning,2014: 3291-3299.

[17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016: 2818-2826.

[18] HEUSEL M,RAMSAUER H,UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]. ?Advances in Neural Information Processing Systems, 2017:6627-6638.

[19] SALIMANS T,GOODFELLOW I,ZAREMBA W,et al. Improved techniques for training GANs[C]. Advances in Neural Information Processing Systems, 2016:2234-2242.

(責任編輯:黃 健)

主站蜘蛛池模板: 精品国产女同疯狂摩擦2| 亚洲综合激情另类专区| 一级做a爰片久久毛片毛片| 亚洲综合极品香蕉久久网| 精品免费在线视频| 亚洲人成网站观看在线观看| 亚洲午夜天堂| 一区二区偷拍美女撒尿视频| 久热中文字幕在线| 无码中文字幕乱码免费2| 久久久久国产一区二区| 国产偷国产偷在线高清| 青青青草国产| 国产不卡网| 亚洲综合色婷婷中文字幕| 香蕉精品在线| 偷拍久久网| 国产欧美视频在线观看| 中文字幕在线免费看| 免费国产黄线在线观看| 国产色图在线观看| 日韩精品免费一线在线观看| 71pao成人国产永久免费视频| 特级毛片免费视频| 免费啪啪网址| 国产精品任我爽爆在线播放6080| 99ri精品视频在线观看播放| 日韩a在线观看免费观看| 久久中文无码精品| 亚洲国产在一区二区三区| 国产福利一区视频| 久久女人网| 亚洲a级在线观看| 青青草国产免费国产| 国产91成人| 伊人AV天堂| 亚洲AV无码久久天堂| 久久香蕉国产线看观看亚洲片| 在线播放91| 三级毛片在线播放| 中文字幕有乳无码| 熟女日韩精品2区| 国产午夜无码专区喷水| 亚洲最大福利网站| 亚洲成人精品| 国产精品一区二区无码免费看片| 三级欧美在线| 99在线视频网站| 国产va在线| 国产99视频精品免费观看9e| 色综合a怡红院怡红院首页| 免费jjzz在在线播放国产| 国产Av无码精品色午夜| 亚洲精品爱草草视频在线| 波多野结衣中文字幕一区| 欧美成人a∨视频免费观看| 911亚洲精品| 亚洲一欧洲中文字幕在线| 亚亚洲乱码一二三四区| 91无码国产视频| 欧美性久久久久| 欧美日韩另类国产| 欧美曰批视频免费播放免费| 欧美自慰一级看片免费| 97视频在线精品国自产拍| 国产玖玖视频| 亚洲精品无码专区在线观看| 素人激情视频福利| 天天综合天天综合| 国产乱人伦偷精品视频AAA| 毛片在线播放a| 九色91在线视频| 国产靠逼视频| 亚洲三级成人| 亚洲中文字幕无码mv| 72种姿势欧美久久久大黄蕉| 91成人在线免费视频| 91福利片| 精品久久久久久久久久久| 91成人在线免费视频| 91成人在线观看| 青青青国产视频|