馬赫 張濤 盧涵宇



摘要:隨著深度學習的不斷發展與應用,圖像到圖像的風格遷移成了計算機視覺領域的研究熱點之一。該文運用Cycle-GAN網絡對圖像進行風格遷移,能夠在無匹配的源圖像和風格圖像的情況下進行。使得CycleGAN網絡中的生成器由編碼器、轉換器及解碼器組成,能起到保留原始圖像特征和轉換圖像數據的作用。該文嘗試通過Inception與ResNet進行結合,并與原CycleGAN網絡進行對比訓練,結果表明,修改后的CycleGAN能夠比CycleGAN訓練后得到更加逼真的圖像,具有更佳的視覺效果。
關鍵詞:CycleGAN;圖像風格遷移;轉換器;ResNet模塊;深度學習
中圖分類號:TP183 文獻標識碼:A
文章編號:1009-3044(2020)27-0018-03
開放科學(資源服務)標識碼(OSID):
隨著計算機技術和人工智能技術的發展,深度學習應用越來越廣,其中計算機圖形學與深度學習的結合,產生了許多優秀的算法,并在后來的圖像風格遷移、圖像分割、自然語言生成等諸多領域得到廣泛應用[1-4]。
隨著GAN網絡的應用也產生了一系列如難以收斂、訓練不穩定、模型不可控等問題,促使了大量學者對該類問題的研究,如MARTIN等[5]針對GAN網絡訓練不穩定的問題,提出了WGAN(Wasserstein GAN),該方法使用Earth-Mover距離代替JS散度作為判別器D的目標函數,使得訓練穩定性得到有效提升。Zhu等[6]人為解決GAN網絡的一些限制,提出了循環一致性對抗網絡(CycleGAN)網絡,該網絡能夠根據不成對的數據集訓練出能夠滿足不同風格的圖像的轉換;隨后,劉哲良等[7]針對采用CycleGAN網絡進行圖像風格遷移中,表現出泛化能力差等問題,提出了一種FCN-CycleGAN的圖像風格遷移方法,結論證明該方的網絡在穩定性法具有較好的表現能力。杜振龍等[8]針對GAN網絡進行圖像風格遷移中收到數據集限制的問題,對CycleGAN進行了改進,通過利用DenseNet來代替Cycle-CAN網絡中的ResNet,改進、收斂速度及對減少數據集的限制等方面都有很大進步。
本文運用CycleGAN網絡對圖像進行風格遷移,通過Incep-tion與ResNet進行結合,并與原CycleGAN網絡進行對比訓練,結果表明,修改后的CycleGAN得到更加逼真的圖像,具有更佳的視覺效果。
1 圖像風格轉換
圖像風格轉換(又稱作圖像風格遷移)是深度學習領域內一中新興的技術。由于圖像風格概念非常抽象,計算機對圖像的處理過程中僅是一些像素點,不能像人類一樣對不同風格進行分辨,所以人們期望通過對圖像進行風格特征的提取來解決這一問題。隨著深度學習的發展,現已可以使用深度神經網絡來學習圖像里面的抽象風格特征。
Gatys等人開啟了深度學習方法應用于圖像風格遷移的先例,其論文中采用卷積神經網絡對圖像進行風格提取,雖然相對于傳統非參方法來說能夠對低層信息進行提取,但是對于高層的抽象特征而言并沒有取得良好的效果。直到CAN網絡的引入,該類問題得到很大的改進,該類方法能夠學習到大量樣本之間的風格及其特征。比如實際應用中將黑白圖像轉為對應的彩色圖像、蘋果與橘子之間的轉換等問題,需要對大量樣本進行訓練提取其中的風格,然后完成不同圖像風格的轉換。
2 網絡結構
CycleCAN模型是從GAN網絡發展而來,其原理是基于對偶思想的圖像風格轉換,該方法不需要對成對的數據集進行訓練,就能完成對風格的遷移。
2.1 GAN
GAN由兩個相互競爭的神經網絡組成:一個是神經網絡是生成器網絡( Generator,G),用于生成樣本圖像;另一個神經網絡是判別器網絡( Discriminator,D),用于區分真實樣本和生成樣本。CAN網絡其核心思想來源于博弈論的納什均衡,該網絡由生成器G和判別器D組成,其中G網絡是通過將一個噪聲矢量包裝為與真實數據高度相似的樣本,D網絡是對輸入的數據進行判斷其來自真實樣本還是通過G網絡所生成的假數據;它們之間是一個動態的過程。圖1展示了其基本原理,圖中X表示是真實圖片的概率。GAN網絡的優化問題其實是一個極小一極大化問題,即先將生成器G進行固定,優化判別器D,使得D的判別準確率最大化;然后固定判別器D,優化生成器G,使得判別器準確率最小;當兩者相等時,達到全局最優。其目標函數如公式(1)所示:
2.2 Cycle GAN
CycleCAN使用兩個生成器與兩個判別器網絡來實現對兩個圖片X與Y之間的相互映射,其原理圖如圖2所示。本質上是兩個鏡像對稱的GAN所構成的環形網絡。模型設計了兩對生成網絡和判別網絡,通過訓練后可以將不同的圖像之間進行轉換,但是在這個過程中要求循環的一致性,故而在其中設置了一個循環損失函數(Cyclic loss)。CycleGAN模型有兩個生成網絡和兩個判別網絡,共4個生成損失函數。
上圖中表示X通過映射G實現X中的圖片x到Y中圖片G(x)的映射關系,對應生成判別器為Dy,由于CycleGAN是基于對偶思想的原理,故而Y需要通過一個映射F實現Y中的圖片y映射到X中的F(y)的映射關系,對應生成判別器為Dx;如果G(F(x))≈x和F(G(y))≈y則CycleGAN模型的轉換過程就完成。
2.3 CycleGAN的改進
原CycleGAN生成器中采用殘差網絡,通過全卷積連接,由編碼器、轉換器和解碼器組成。殘差網絡在圖像識別領域尤其是目標檢測方面具有很大的優勢,但是更大的優勢需要在很深的網絡結構中才能夠展現,而傳統的CycleGAN網絡其生成器網絡對于大小為256X256的圖像采用的是9層的殘差模塊,并未有很深的網絡。