楊振 李丹



摘 ?要:GANs作為典型的生成對抗網絡,具有較高的應用價值和發展潛力,文章改進了GANs網絡的一些新技術(訓練深度生成半質量網絡dcgan),針對其中部分缺點進行了有效改善,從網絡架構、特征匹配和多形差值學習技術維度進行優化,并將其與bird數據集*80進行訓練,得出觀察結果,為未來的應用前景和環境拓展研究提供進一步可能性,以期在更多的場景中使用該算法。
關鍵詞:GANs網絡的技術改進;數據新集;網絡機構;特征匹配;多形差值學習
中圖分類號:TP18 ? ? 文獻標識碼:A文章編號:2096-4706(2021)21-0102-03
Abstract: As a typical generation countermeasure network, GANs has higher application value and development potential. In this paper, some new technologies of GANs network are improved (training depth generation semi-mass network dcgan), and some of the shortcomings are effectively improved. The algorithm is optimized from the network architecture, feature matching and polymorphic difference learning technology dimensions, and is trained with bird dataset *80 to obtain the observation results, providing further possibility for the research of future application prospects and environment expansion, in order to use the algorithm in more scenarios.
Keywords: GANs network's technology improvement; new dataset; network organization; feature matching; polymorphic difference learning
0 ?引 ?言
一個生成性的對抗網絡(GANs)就是由一個生成器G和一個鑒別器D所組合構成的,它們在兩個玩家最小游戲中相互競爭:鑒別器嘗試區分真實訓練數據和一個合成的圖像,生成器嘗試欺騙一個鑒別器。具體地說,D和 G在V(D、G)上可以玩以下游戲:mingmaxdV(D、G)=exblogpdata(x)[logd(x)]+ex2fpz(z)[log(1-D(G(z)))]。這個極大的極小函數博弈公式具有了在pg=pdata時的博弈全局最優,并且在溫和的條件下具有全局最優。G與D之間有一個足夠的容量pg收斂在pdata。在實踐中,在訓練開始時,D的樣本非常差,被D充滿信心地拒絕。研究發現,在實踐中,生成器可以更好地最大化對數(D(G(z))),而不是最小化對數(1-D(G(z)))。卷積網絡監督學習技術在計算機和視覺應用中具有很大的普遍性。與此相比,CNN的無監督學習方式所受到的重視程度更低。在這個工作中,我們深切地希望CNN能夠幫助我們彌補其他國家在沒有監督和不加以監管的學習中取得成功。我們希望它能在更深層次上得到應用。本文主要介紹了CNN,即卷生成了對抗網絡(dcgan)。它們都是具有某種系統性和結構上的約束,這也證明了它們都是無監督學習的強力候選。文本的深度和數量以及返回網絡能夠高度識別和宣傳(學習意義的零鏡頭)自動學習的文本顯示,以文字和文本(red等,016)。這些方法是加州理工大學加利福尼亞大學鳥類數據庫(WAH等,011)基于以上零鏡頭字幕搜索的屬性。在這些工作的鼓勵下,我們的目標是學習從單詞和文本到圖像像素的直接表示技術。
1 ?技術改進
1.1 ?方法
將深度卷積函數生成遞歸式為對抗神經網絡的先決條件(dc-gan)將其作為一個混合字符層卷積函數遞歸式為神經網絡編碼的文本函數,DC-GAN全稱叫作:Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,在外層,用飽滿的神經網絡代替原始G中的多層傳感器生成網絡G和傳感器網絡D,并基于文本特征進行前饋推理。DC-GAN同時還具有兩種功能,dc-gan實現了兩種功能,一種就是它們可以被用來當作無監督的特征提取器,類似于k-means。其他一種就是讓這張圖片在語言學上實現像字向量一般的類似單詞向量這么多的加減。
1.2 ?網絡架構
使用以下表示法。生成器網絡表示G:RZ×RT→RD,鑒別器D:RD×RT→{0,1},其中T是文本描述嵌入的尺寸,D是圖像的尺寸,Z是輸入到G的噪聲維度。圖1中說明了本文的網絡結構。在對生成器G中,首先從文本查詢t(0,1)之前的噪聲中進行采樣,并且可以通過使用文本編碼器G對文本查詢t(t)進行編碼。為了簡單地描述嵌入式的RI(t),首先要把一個完整的連接層通過壓縮得到一個較小的維度(其實我們是18),然后再通過leaky-relu然后把它與噪聲矢量z相連。接下來,推理像是在一個正常的逆褶積網絡中一樣順利地進行:我們通過生成器G前饋它;通過 ←G(z,?(t))生成一個合成圖像 。與基于查詢文本和噪音樣品的生成器G中相對應的圖像生成方法是基于查詢文本的生成器G中。在鑒定器D中,我們使用空間批處理歸一化進行Ioffe-卷積(Ioffe&Szegedy,015),然后是使用ReLU。我們再次減少了將?(t)嵌入到一個(單獨的)全連通層中的描述的維數,然后進行了校正。例如,當一個鑒別器的空間維數設定為4×4時,我們可以使用空間連接方式來復制其描述性地嵌入,并執行深度連接。然后我們分別執行1×1卷積,然后通過校正和4×4卷積計算D的最終得分。對所有卷積層進行批處理歸一化。
生成器和文本識別者都通常是用于使用新的文本格式編碼器(t)。它被二維投影投射到一個較低層的維度和深層,與三維圖像中的特征圖和地形圖相互連接,以此更便于進一步卷積化并處理下一階段。
1.3 ?特征匹配
GAN網絡的訓練主要包含納什均衡。獲取它的成本函數是每個參與者的目的,J(D)(θ(D),θ(G))為判別器,J(G)(θ(D),θ(G))為生成器。納什均衡是一個點(θ(D),θ(G)),使J(D)相對于θ(D)最小,J(G)相對于θ(G)最小。不幸的是,找到納什均衡是一個非常困難的問題。對于存在于特殊情況下的算法,我們不知道是否有相關算法來應用到GAN博弈中,代價函數處于非凸時,參數及參數空間分別對應的連續的和高維的[1]。
當參與者代價處于最小化狀態時,就會產生一個納什均衡,提高了應用傳統基于梯度的最小化技術想法,并且也實現了每個參與的成本節省。但是正確地這樣做有一個缺點(D)的校正減少了J(D)但增加了J(G),校正減少了J(G)但增加了J(D),例如,如果一個參與者最小化x與XY,并最小化另一個參與者與-XY的關系,則梯度會落入穩定軌道,而不是收斂到x=y=0,即理想平衡點。特征匹配是通過給生成器制訂一個新的目標值來有效地防止它對當前的評估器進行了過度的訓練,從而解決了GANs的不穩定性。新的目標并不是直接地最大化鑒別儀的輸出,但要求鑒別儀生成與真實數據統計相對應的數據。我們只使用鑒別器來指定我們認為有用的統計信息。特別地說,我們的訓練產物生成器和識別函數在中間層上的期望值都是完全匹配的[2]。這種方法是由于學習識別生成器對于匹配統計信息進行自然選擇,因為通過學習識別鑒定器,我們需要他找到一個最有可能準確地區分現實的數據和目前模型產生的各種對抗性數據。設f(x)代表判別器中間一層上的激活,我們將新生成器目標定義為||ex2010pdataf(x)-ez-pz(z)f(G(z))||,判別器f(x)按常規訓練,等同于GAN訓練。這樣使得目標存在一個固定點,其(G)能夠實現訓練數據的精準匹配,目前,在實驗中無法對相關過程進行有效保障,但從豐富的實驗結果中,表面特征匹配能夠有效地適用于常規gan不穩定情況,更具有應用價值和效果。
1.4 ?多形插值學習(GAN-INT)
深度網絡可以學習插值的表示形式,并且已被證明接近數據流的形式。在此基礎上,我們可以通過簡單地插入訓練短語標簽來生成大量額外的文本插入。要插入文本,不需要與實際筆跡相對應的文本,因此不需要額外的標簽成本。這意味著生成器可以被看作是增加了一個額外的術語,以最小化:ET1,T2 ~ pdata[log(1-D(G(z,βT1+(1-β)T2)))]。
其中Z是從噪聲分布中提取的,將T1和T2插入文本中,實際上我們已經找到了一個解決方案。b=0.5是有效的。由于插入值是合成的,所以鑒別器D不對應于“真實”圖像和文本對。D學習預測圖像和文本是否一致。如果D在這方面工作得很好,它將對應于D的插入文本。如果插入G,您可以學會填補訓練點之間數據流之間的空白 ,T1和T2可以來自不同的圖像,甚至不同的類型[3]。
其中Z從噪聲分布中提取,并插入T1和T2之間的文本。在實踐中,我們發現Fix=0.5非常有效。Da這是一種合成插值,當D位于該上下文中時,鑒別器D的訓練圖像對應于“實際”文本。在T1和T2中,G可以對應于D的插入文本,并學習如何填充訓練點之間的數據空間。T1和T2可以從不同的圖像甚至不同的分類中生成[4]。
2 ?實驗數據集
我們采用了Birds*80的數據集(來自加州理工大學uasd的數據集)來應用本文算法,在實驗中,將每個數據圖像進行HD5格式轉換,并使用其中80組圖像進行數據集實驗,在具體運行中環境和技術差異因素,我們會對改進的GAN技術進行一定的優化調整。
在實驗過程中,首先出現在kaggle上運行visdom時出現兼容問題,我們通過配置兼容的虛擬環境進行了有效解決,并通過將學習率從0.000 2提高一倍到0.000 34時,發現結果有了一定的改進,
經過kaggle的訓練后得到如下數據。從這張圖片中我們可以清楚地看到通過我們對改進的GAN算法訓練得出來的模型在性能、準確度等各個方面都已經有了顯著的改善,表明我們所采用的GAN模型已經在對建模這一數據集的各種條件下分布等技術上做得很好。
3 ?算法的應用
改善的GAN網絡(DC-GAN)可以應用在人臉圖像的生成。原始的GAN網絡在自我博弈過程中生成的圖像質量無法達到我們的預期或者不穩定容易產生模式單一化或者模型崩潰,這是因為生成器和判別器運用的是相同的反向傳播網絡。我們將原生成器網絡用卷積神經網絡替代原理的MLP實現較為穩定的網絡,并產生高質量的圖片,這就是DC-GAN的由來[5]。
在山洪、地震等自然災害的事后救援行動中搜救機器人就可以通過搭載這種算法不僅能提高救援效率還可以提高資源的利用率,我們希望在以后的研究中將此方向作為研究重點去幫助更多的讀者[6]。
4 ?結 ?論
GAN是一種潛力巨大的生成性對抗網絡,本文所提到的DC-GAN這是其中的一種演變,我們希望在這基礎上做更多的嘗試并加入更多的新技術,例如:半監督學習、小批量判別等算法進一步改善網絡的質量以此來適應更多更大的數據集。眾所周知,GANs的壓力訓練并不穩定,往往這樣會直接導致兩個制備器同時產生一個幾乎毫無意義的壓力輸出。在我們嘗試系統理解和深入分析關于GANs賦值學習的理論基礎上,以及如何將多層次在GANs的中間的賦值函數進行組合表示。還需要進行更多的實驗。
參考文獻:
[1] YAN X C,YANG J M,SOHNK. Attribute2Image:Conditional Image Generation from Visual Attributes [J/OL].arXiv:1512.00570 [cs.LG].[2021-08-22].https://arxiv.org/abs/1512.00570.
[2] VINYALS O,TOSHEV A,BENGIO S,et al. Show and tell:A neural image caption generator [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015,3156-3164.
[3] FUKUMIZU K,GRETTON A,SUN X H,et al. Kernel Measures of Conditional Dependence [EB/OL].[2021-08-22].http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=C6AE3A04010B73BEE01147FB4BD2FCC0?doi=10.1.1.143.5575&rep=rep1&type=pdf.
[4] LI Y J,SWERSKY K,ZEMEL R. Generative Moment Matching Networks [J/OL].arXiv:1502.02761 [cs.LG].[2021-08-22].https://arxiv.org/abs/1502.02761.
[5] 翁邦碧,楊波,姚璞,等.應用多媒體與實戰模擬訓練法改進自救互救技術教學 [J].西南軍醫,2020,22(5):478-481.
[6] 胡濤,李金龍.基于單階段GANs的文本生成圖像模型 [J].信息技術與網絡安全,2021,40(6):50-55.
作者簡介:楊振(2000—),男,漢族,四川井研人,本科在讀,研究方向:人工智能。