李燕 施華 陳譯








【摘要】? ? 本文針對傳統的生成對抗網絡的圖像風格遷移中跨區域風格遷移問題,引入深度特征插值與循環一致性對抗網絡的圖像風格遷移方法相結合,解決圖像特定目標之間的風格遷移。實驗經過橫向與縱向數據對比,對油畫、懷舊和漫畫等風格的圖片有較好的遷移效果。
【關鍵詞】? ? 深度學習? ? 生成式對抗網絡? ? 圖像風格遷移
引言:
圖像的風格遷移是圖像處理領域的一個重要研究方向。在深度學習興起之前,傳統的風格遷移方法是分析某種特定風格的圖像,并給這種風格建立數學上的統計模型,然后針對要遷移的圖像做改變,使之更好的契合建立的數學統計模型;該方法無法分離圖像與風格。隨著卷積神經網絡方法的研究與深入,基于深度學習的圖像風格遷移顯示了比傳統方法更強大的遷移效果。Gatys于2015年首次將VGG19網絡應用于風絡遷移[1],該方法在卷積神經網絡的內容和風格是分離的前提下,通過構造Gram矩陣提取出任意圖像的風格特征表示,開創了深度學習方法在圖像風格遷移領域的應用。CycleGAN是傳統GAN的特殊變體[2],該方法可以創建新的數據樣本;與傳統GAN方法相比,它通過轉換輸入樣本來實現,而不是從頭開始創建,這些數據可由提供此算法數據集的人員進行選擇。CycleGAN解決了傳統卷積神經網絡不能在不同圖像風格類間轉化的問題,其優勢在圖像風格遷移研究中備受關注。國內學者近年來也展開了對圖像風格遷移的研究工作[3-6],這些工作是在經典的GAN方式的基礎上,結合卷積網絡等方法,解決跨區域的風格遷移問題。論文針對CycleGAN對于風格遷移任務的定義不夠明確,不能合理度量風格的問題,將深度特征插值方法融入CycleGAN遷移方法中,進行圖像特定目標之間的風格遷移探討。
一、基礎算法介紹
(一)GAN算法的基本思想
生成式對抗網絡(GAN)是由 Goodfellow 等[7] 于 2014 年提出來的優化生成模型,其思想來源于對抗競爭弈論中的零和博弈。基本的GAN網絡由兩部分構成:生成器G(Generator)負責真實數據;判別器D(Discriminator)負責生成數據。CycleGAN方法[2]在傳統的GAN方法的基礎上做了改進,可以讓兩個域的圖片互相轉化。傳統的GAN是單向生成,而 CycleGAN 是互相生成,網絡是個環形,所以命名為 Cycle。它實用的地方就是輸入的兩張圖片可以是任意的兩張圖片,即unpaired。其結構如圖1所示。
(二) 深度特征插值方法的引入
在深度卷積神經網絡[8]的特征空間對圖像特征進行提取和修改,設計的深度特征遷移模型包含三個部分: 1.編碼器:利用卷積神經網絡提取輸入圖像的特征;2.解碼器:利用反卷積從特征向量中還原圖像;3.特征遷移模塊:通過組合圖像的不相近特征在不同域轉換特征向量。
傳統的GAN是單向的,訓練它需要兩個loss:生成器的重建Loss和判別器的判別Loss。而CycleGAN是兩個鏡像對稱的GAN,構成了一個環形網絡,這兩個GAN共享兩個生成器,并各自帶一個判別器,即共有兩個判別器和兩個生成器。如圖2所示,目標域圖像y∈Y,為學習一個映射中φ:X→Y,使得源圖像x通過中映射后具有目標域的風格特點。該模型通過從域X獲取輸入圖像,該輸入圖像被傳遞到第一個生成器Gx→Y,其任務是將來自域X的給定圖像轉換到目標域Y中的圖像。然后這個新生成的圖像被傳遞到另一個生成器GY→X,其任務是在原始域X轉換回圖像x,從而實現目標的特征遷移。
(三)結合深度特征遷移的生成器
對于X、Y域的數據,CycleGAN有Gx: X→Y和GY: Y→X兩個獨立生成器,它們各自學習相反方向的映射。按照深度特征遷移方法將其融合到CycleGAN中;與傳統的非深度遷移學習方法相比,深度遷移學習能夠自動提取更具表現力的特征,滿足了實際應用中端到端的需求。在生成器網絡深度不變的情況下,編碼器由生成器的下采樣卷積層與殘差模塊前端構建,解碼器由殘差模塊后端與上采樣卷積層構建,特征遷移模塊由中間端殘差模塊構建,從而組建如圖3所示的特征遷移網絡。
二、實驗與結果分析
測試主要分成四組數據來體現。第一組首先展示的是迭代3次的風格圖像遷移;第二組展示的是迭代10次之后的實現情況;第三組實現的是論文所示方法同一內容圖像在不同風格下的遷移表現,分析系統在遷移不同圖像風格中的具體差異以及不同的風格在同一內容圖像上的風格損失對比;第四組則是論文所示方法風格圖像的橫向比較,在同一風格圖像的基礎上遷移不同的內容,不同內容在同一風格下的遷移損失情況比較。
(一)測試數據的實驗結果
1.少量迭代遷移測試
實驗選取了一組在這組測試中我們選取兩組不同的圖片來展示系統經過三次迭代之后的遷移效果。從圖4迭代效果看,內容圖片的損失比例較小,但風格的遷移效果又難以理解,少量的迭代提取的效果并不能在藝術審美上真正的體現所謂的圖片風格。簡單的迭代展現的只能是色調上的局部特征遷移,而微觀的圖片紋理并不能夠很好展現。除此之外內容上的展現也因為這些局部特征顯得并不明晰,效果不是很好。
2.多次迭代風格遷移測試
簡單的迭代只能提取出局部特征,細微的能體現圖像風格的紋理不能在內容上很好的體現,實驗中增加迭代次數。從主觀可視化評價,圖片的紋理得到了很好的展現,遷移得到的最終圖片較之原圖有了很好的藝術風格的改變。在色調上遵循了風格圖片的樣式,而內容上又有著較大的保留,主體部分的內容損失情況良好,沒有體現出大塊的內容丟失。這得益于迭代增多之后系統能夠更充分的優化總變化損失和細節。
3.相同內容的不同風格遷移測試
對比迭代次數不同所展現的效果,進行橫向測試。本組測試是系統對相同內容的圖片在不同風格中的遷移表現。測試中采用相同原圖,分別在油畫風格、懷舊風格和漫畫風格上進行了測試。總體的遷移效果來看,很好的改變了原圖的藝術風格,使原圖呈現了迥然不同的效果。
4.不同內容的相同風格遷移測試
對比迭代次數不同所展現的效果,進行縱向測試。在兩組不同風格的展現中,整體的風格色調得以較好的體現。
(二)測試結果分析
實驗進行了大量數據的測試。論文提出的算法,能夠較好地完成圖片風格的轉換。實驗中,我們與經典的CycleGAN方法在wikiart和Flickr下載的藝術圖像數據集進行了對比。對比從SSIM結構相似性和PSNR峰值信噪比兩個方面進行,結果如下表所示。從表中可以看出,論文提出的方法優于經典的CycleGAN算法
三、結束語
由于代表圖片風格的圖片紋理與人類藝術風格認知有一些差距,本文所提方法與現有的經典算法都并不能有著特別完美的風格遷移。現有的風格遷移更多局限于整體圖片的色調遷移和細節上的紋理遷移,色調加上細節紋理組成了大致上的風格相似程度,真正的藝術風格上難以深究。隨著深度學習算法的完善與圖像模式表達的多元化,在風格識別和提取準確率上將會更加完善,主體圖片內容將會更加精致與豐富。
作者單位:李燕? ? 施華? ? 陳譯? ? 廈門理工學院 光電與通信工程學院
參? 考? 文? 獻
[1] Gatys L A,Ecker A S,Bethge M. Image style transfer using convolutional neural networks[C]. Proceeding of the IEEE Conference on Computer Vision and Pattern Recongnition. 2016: 2414- 2423.
[2] Zhu J Y, Park T, Isola P, et al. Unparied Image-to-Image Transaction Using Cycle-Consistent Adversarial Networks[C]. Proceeding of the IEEE Conference on Computer Vision and Pattern Recongnition. 2017, 2414- 2423.
[3] 劉哲良,朱瑋,袁梓洋. 結合全卷積網絡與 CycleGAN 的圖像實例風格遷移[J]. 中國圖象圖形學報. 2019,24(08):1283-1291.
[4] 陳淮源,張廣馳,陳高,周清峰. 基于深度學習的圖像風格遷移研究進展[J]. 計算機工程與應用. 2021.57(11):37-45.
[5] 繆永偉,李高怡,鮑陳,張旭東,彭思龍. 基于卷積神經網絡的圖像局部風格遷移[J]. 計算機科學. 2019.46(9): 259-264.
[6] 張驚雷,厚雅偉. 基于改進循環生成式對抗網絡的圖像風格遷移[J]. 電子與信息學報. 2020.42(5):1216-1222.
[7] I.Goodfellow, J.Pougetabadie, et al. Generative adversarial nets[C]. NIPS, 2014.
[8] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]. CVPR, 2015.