吳晨薇
摘 ?要:近年來,深度學習作為--種生成方式方法能夠有效地解決建立自然性解釋數(shù)據(jù)的生成難題,尤其是對于生成高維數(shù)據(jù),GAN所采用的神經(jīng)網(wǎng)絡結(jié)構(gòu)不限生成維度,極大的擴展了生成數(shù)據(jù)樣本的范圍。除此之外,GAN在自然語言處理領(lǐng)域也具備有效的能力,比如生成對話,由文本生成圖像等。這種潛在分別生成無限樣本的能力,在AI對圖像和視覺計算、語音和語言處理、互聯(lián)與大型系統(tǒng)信息安全等領(lǐng)域具有重大的應用價值,結(jié)合互聯(lián)網(wǎng)的海量數(shù)據(jù)以及高效的計算能力,深度學習獲得了極大的重視與發(fā)展。
關(guān)鍵詞:生成對抗網(wǎng)絡;神經(jīng)網(wǎng)絡;交叉熵;損失函數(shù)
一、GAN的簡介
1.1GAN 的起源和背景
首個神經(jīng)網(wǎng)絡模型在1960年前后就被提出,期間經(jīng)過眾多學者的不斷努力,神經(jīng)網(wǎng)絡也不斷被優(yōu)化,但由于缺乏大量的數(shù)據(jù)以及計算機的計算能力限制,神經(jīng)網(wǎng)絡算法--直沒有發(fā)揮出其應有的潛力。直至2006年深度學習及其理論的提出,結(jié)合互聯(lián)網(wǎng)的海量數(shù)據(jù)以及高效的計算能力,深度學習獲得了極大的重視與發(fā)展。
2 ?GAN的研究意義
計算實驗的分析,對平行控制中的人工系統(tǒng)和實際系統(tǒng)平行執(zhí)行的過程通過建模的方式進行分析和評估,最后以平行方式來執(zhí)行對復雜系統(tǒng)的控制的實現(xiàn)。這在--方面可以進行人工系統(tǒng)的預測學習和實際系統(tǒng)的反饋學習,在另一方面也可以進行控制單元的模擬學習和強化學習。其次,GAN還能夠用于解決標注數(shù)據(jù)不足的訓練學習問題,常見的就是無監(jiān)督學習。再者,GAN也可以在自然語言處理領(lǐng)域大顯身手,比如生成對話,有文本生成圖像等。這種生成無限樣本的能力,在圖像和視覺計算、語音和語言處理、互聯(lián)與大型系統(tǒng)信息安全等領(lǐng)域都具有重大的研究應用價值,這也是目前發(fā)展GAN對研究人工智能的主要意義
3、深度學習研究現(xiàn)狀
近幾年來,機器學習中的深度學習迅速成為了人工智能領(lǐng)域的焦點,無論是研究還是應用方面都得到了極大的發(fā)展,相關(guān)的理論成果和技術(shù)應用不斷突破,并在以下鏈接中有相關(guān)描述。Neural?Information?Processing?Systems(NIPS)、International?Conference?on?ComputerVision(ICCV)、International?Conference?on?Machine?Learning(ICML)、TheAssociation?for?the?Advancement?of?Arificial?IntelligenceAAAI)International?Joint?Conference?on?Artificial?Intelligence(IJCAI)
等機器學習領(lǐng)域的國際學術(shù)會議也提高了對深度學習的關(guān)注程度。于此同時,深度學習的思想在學術(shù)界和企業(yè)也得到了極大地關(guān)注。2006?年Hinton在《科學》雜志.上提出了深度網(wǎng)絡和深度學習的理論后,深度學習的研究就開始不斷升溫,加拿大、美國、歐洲等地相繼建立了深度學習的科研要地。
4、GAN的優(yōu)點
生成對抗網(wǎng)絡有無限的生成能力,希望這種生成能力可以按照需求有目的的進行。因此構(gòu)建了根據(jù)語言描述生成圖像的模型。GAN的生成能力不僅僅體現(xiàn)在從無到有,還體現(xiàn)在由小到大。基于GAN與殘差網(wǎng)絡的高分辨率圖像生成方法,就是以小圖像為輸入,經(jīng)過殘差網(wǎng)絡的多次特征提取,經(jīng)轉(zhuǎn)置卷積操作擴大生成高清晰大圖像。并以生成器與判別器的對抗以及生成圖像與真實圖像的比較,訓練提高生成的高清圖像的質(zhì)量和保證原圖像信息的重現(xiàn)。
3、GAN的原理
現(xiàn)在以生成圖像為例,假設我們有兩個網(wǎng)絡,G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:
G是一個生成圖片的網(wǎng)絡,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。
D是一個判別網(wǎng)絡,判別一張圖片是不是“真實的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。
如何用隨機梯度下降法訓練D和G?論文中也給出了算法.
二、GAN的分類。
1、GAN的分類
2.1 StyleGAN StyleGAN[3]提供了一個升級版本的 ProGAN 圖像生成器,重點關(guān)注生成器網(wǎng)絡。更多不一樣的隨機 的圖片這些方面研究尚淺,StyleGAN 不僅可以生成高質(zhì)量的和逼真的圖像,而且還可以對生成的圖像進行較好的控 制和理解,甚至使生成可信度較高的假圖像變得比以前更加的容易。
2.2 ?可視化和理解生成式對抗網(wǎng)絡
可視化和理解生成式對抗網(wǎng)絡[5]為理解生成式對抗網(wǎng)絡的內(nèi)部機制提供系統(tǒng)分析的一項工作,用于在單元,對象和場景級別可視化和理解 GAN。幫助研究人員和從業(yè)者更好地了解模型。
2.3 ?其他較早的 GAN 衍生模型
為了解決GAN模型生成網(wǎng)絡的高斯白噪聲輸入沒有限制導致模型訓練崩塌,一個改進方法是給GAN 設置約束,加入額外的信息 y 到 G、D 和真實數(shù)據(jù)來建 模。DCGAN[7]是 GAN 模型發(fā)展中的一個里程碑,將有監(jiān)督學習中的 CNN 和無監(jiān)督學習 中的 GAN 結(jié)合到了一起,確定了一套訓練穩(wěn)固的結(jié)構(gòu),便于工程實現(xiàn)。CycleGAN 提出循環(huán) GAN,實現(xiàn)自我約束,通過對原域圖像兩步變換返回原域,提 高生成圖像的質(zhì)量。InfoGAN[8],原始 GAN 模型輸出為 G(z),沒有利用生成網(wǎng)絡輸入自由度 noise z。InfoGAN 做出了改進,將輸出改為 G(z,c)。WGAN[9] 和 LS-GAN 沒有改變 GAN 模型的結(jié)構(gòu),在優(yōu)化方法上進行了改進。
在圖像和視覺計算、語音和語言處理、信息安全、棋類比賽等領(lǐng)域,GAN 正在被廣 泛研究,具有巨大的應用前景[10]。其突出的生成能力不僅可用于生成各類圖像和自然語言 數(shù)據(jù),還啟發(fā)和推動了各類半監(jiān)督學習和無監(jiān)督學習任務的發(fā)展[11]。當然,現(xiàn)階段的 GAN 在實現(xiàn)生成諸如智能汽車模擬道路,生成具有更多細節(jié)的圖片,更多不一樣的隨機 的圖片這些方面研究尚淺,GAN 的實際應用目前并未有很大的成效,GAN 正在不斷地快 速發(fā)展,實用性會越來越高的。
三、交叉熵
1、交叉熵的定義式:
交叉熵的損失函數(shù)在GAN的運用中扮演著重要的角色
交叉熵是一個信息論中的概念,它原來是用來估算平均編碼長度的。給定兩個概率分布p和q,通過q來表示p的交叉熵.
那么,在神經(jīng)網(wǎng)絡中怎樣把前向傳播得到的結(jié)果也變成概率分布呢?Softmax回歸就是一個非常有用的方法。
假設原始的神經(jīng)網(wǎng)絡的輸出為,那么經(jīng)過Softmax回歸處理之后的輸出為:
這樣就把神經(jīng)網(wǎng)絡的輸出也變成了一個概率分布,從而可以通過交叉熵來計算預測的概率分布和真實答案的概率分布之間的距離了。
2、損失函數(shù)
在邏輯回歸問題中,常常使用MSE(Mean Squared Error)作為loss函數(shù),此時這里的就表示期望輸出,表示原始的實際輸出(就是還沒有加softmax)。這里的m表示有m個樣本,loss為m個樣本的loss均值。
四、結(jié)論
本文根據(jù)生成對抗網(wǎng)絡的簡介,原理,再過渡到分類講到了各種GAN的模型以及優(yōu)缺點,同時也通過對神經(jīng)網(wǎng)絡的簡述講到了交叉熵的定義,如何使用交叉熵以及為什么使用交叉熵。本文篇幅較短,僅從表面講述了生成對抗網(wǎng)絡的原理及所需的個別方法。
參考文獻
[1] ?https://blog.csdn.net/weixin_375674
[2] ?51/article/details/80895309