基于風格轉(zhuǎn)換注意的循環(huán)一致風格轉(zhuǎn)換

2024-01-01 00:00:00張蕊兒邊曉航劉思遠劉濱李建武羅俊祁明月

河北科技大學學報 2024年3期

摘要：為了解決現(xiàn)有藝術(shù)風格轉(zhuǎn)換方法難以同時高質(zhì)量保持圖像內(nèi)容和轉(zhuǎn)換風格模式的問題，引入一種新穎的風格轉(zhuǎn)換注意網(wǎng)絡（style-transition attention network，STANet），其包含2個關鍵部分：一是非對稱注意力模塊，用于確定參考圖像的風格特征；二是循環(huán)結(jié)構(gòu)，用于保存圖像內(nèi)容。首先，采用雙流架構(gòu)，分別對風格和內(nèi)容圖像進行編碼；其次，將注意力模塊無縫集成到編碼器中，生成風格注意表征；最后，將模塊放入不同的卷積階段，使編碼器變成交錯式的，促進從風格流到內(nèi)容流的分層信息傳播。此外，提出了循環(huán)一致?lián)p失，強制網(wǎng)絡以整體方式保留內(nèi)容結(jié)構(gòu)和風格模式。結(jié)果表明：編碼器優(yōu)于傳統(tǒng)的雙流架構(gòu)，STANet能用于交換具有任意風格的2幅圖像的風格模式，合成更高質(zhì)量的風格化圖像，同時更好地保留了各自的內(nèi)容。提出的帶有風格轉(zhuǎn)換注意的風格轉(zhuǎn)換循環(huán)網(wǎng)絡，模型風格化圖像的內(nèi)容細節(jié)更多，在泛化到任意風格方面獲得了良好的效果。

關鍵詞：圖像內(nèi)容；風格轉(zhuǎn)換；風格恢復；神經(jīng)注意力；循環(huán)網(wǎng)絡

中圖分類號：TP391.41

文獻標識碼：A

DOI：10.7535/hbkd.2024yx03012

Cycle consistent style transfer based on style-transition attention

ZHANG Rui’er1，2， BIAN Xiaohang3， LIU Siyuan3， LIU Bin4， LI Jianwu3， LUO Jun5， QI Mingyue6

（1.College of Fine Art and Design，Shenyang Normal University ， Shenyang，Liaoning 110034，China;

2. Zhengzhou Professional Technical Institute of Electronics amp; Information， Zhengzhou， Henan 451450， China;

3. School of Computer Science and Technology， Beijing Institute of Technology， Beijing 100081， China;

4. School of Economics and Management， Hebei University of Science and Technology， Shijiazhuang， Hebei 050018， China;

5. Hebei Shineyue Software Technology Company Limited， Shijiazhuang， Hebei 050200， China;

6. Hebei Yuesi Information Technology Company Limited， Shijiazhuang， Hebei 050022， China）

Abstract：In order to solve the problem that the existing art style transfer methods can not maintain high-quality image content and transform style patterns at the same time， a novel style-transition attention network （STANet） was introduced， which consists of two key parts： one is the asymmetric attention module used to determine the style features of the reference image， and the other is the circular structure used to save the content of the image. Firstly， the two-stream architecture was adopted to encode the style and content images.Secondly， the attention module was seamlessly integrated into the encoder to generate the style attention representation. Finally， the module was put into different convolution stages， making the encoder interleaved， and facilitating the flow of hierarchical information from style to content. In addition， a circular consistency loss was proposed to force the network to retain the content structure and style patterns in a holistic manner. The results show that the encoder is superior to the traditional Shuangliu District architecture， and STANet can be used to exchange the style patterns of two images with any style， resulting in higher quality stylized images， while better preserving their own content. The proposed style conversion loop network with attention to style conversion makes the model stylized images more detailed and achieves good performance in generalization to any styles.

Keywords：image content; style transfer; style restoration; neural attention; cycle network

風格轉(zhuǎn)換的目的是將一幅圖像的內(nèi)容與另一幅圖像的風格結(jié)合起來，生成一幅新的圖像，已被應用于許多有趣的場景，如圖像藝術(shù)化、照片卡通化和圖像著色等。受卷積神經(jīng)網(wǎng)絡在圖像處理領域取得成功的啟發(fā)，GATYS等［1］利用卷積神經(jīng)網(wǎng)絡學習2幅輸入圖像的內(nèi)容和風格表征，然后分離和重組它們的內(nèi)容和風格，進行風格轉(zhuǎn)換。該方法效果雖顯著，但耗時較長。隨后，人們通過使用訓練的前饋網(wǎng)絡［2-3］和基于優(yōu)化的方法［4］，只需向前傳遞即可獲得風格化結(jié)果，比迭代優(yōu)化［1］快數(shù)百倍。為了實現(xiàn)任意風格轉(zhuǎn)換，AdaIN（adaptive instance normalization）［5］將內(nèi)容圖像的特征均值、方差與風格圖像的特征均值與方差相結(jié)合，將風格轉(zhuǎn)換為內(nèi)容圖像。WCT（whitening and coloring transform）［6］建立了一個由美白和著色特征變換組成的圖像重建網(wǎng)絡，并將內(nèi)容圖像的特征協(xié)方差與給定的風格圖像相匹配。Avatar-Net［7］是一種新穎的基于補丁的風格裝飾模塊，在卷積層中用最接近的風格特征補丁交換內(nèi)容特征補丁。此外，自然圖像中的基本微結(jié)構(gòu)（稱為筆畫文本）被用來反映感知風格模式。例如：有學者提出了一種具有可控筆劃的風格轉(zhuǎn)換網(wǎng)絡，可在保留內(nèi)容和風格模式的同時實現(xiàn)筆劃大小的連續(xù)變化［8］；還有學者提出了一種將多種筆劃模式整合到結(jié)果圖像不同空間區(qū)域的策略，可在一次拍攝中控制可擴展的多筆劃和空間筆劃大小［9］。此外，風格轉(zhuǎn)換中還引入了注意力機制，以保持視覺注意力分布的空間一致性［9-11］。這些方法雖然能有效轉(zhuǎn)換圖片風格，但不太注重保留原始圖片的內(nèi)容，因而在一定程度上造成圖片內(nèi)容細節(jié)的丟失。

本文提出一種新穎的帶有風格轉(zhuǎn)換注意的風格轉(zhuǎn)換循環(huán)網(wǎng)絡（STANet），用于交換具有任意風格的2幅圖像的風格模式，合成更高質(zhì)量的風格化圖像，同時更好地保留各自的內(nèi)容。

1 相關工作

1.1 風格轉(zhuǎn)換

為實現(xiàn)風格轉(zhuǎn)換，早期的一些方法將直方圖匹配應用于線性濾波器響應［12］或非參數(shù)采樣［13］。這些方法通常依賴于低層次的統(tǒng)計數(shù)據(jù)，往往無法捕捉語義結(jié)構(gòu)。例如：GATYS等［1］使用CNN（convolutional neural networks）對內(nèi)容和風格信息進行編碼，通過匹配卷積層中的特征統(tǒng)計數(shù)據(jù)，生成具有較好效果的風格轉(zhuǎn)換結(jié)果；Style-Swap［14］是一種基于局部匹配的更簡單的優(yōu)化目標，將內(nèi)容結(jié)構(gòu)和風格紋理結(jié)合在一個層中。隨后，人們提出許多方法［4，15-17］用于加速優(yōu)化。然而，這些方法仍然存在質(zhì)量和效率兩難兼顧的問題。

風格轉(zhuǎn)換方法分為基于全局統(tǒng)計的方法［5-6，18-22］、基于局部補丁的方法［7，23］和基于語義區(qū)域的方法［22，24-25］。在基于全局統(tǒng)計的方法中，有人提出了神經(jīng)網(wǎng)絡中的AdaIN模塊，利用來自內(nèi)容和風格特征的統(tǒng)計信息（均值、方差），有效生成風格化圖像［5］。這種方法可以靈活地實時轉(zhuǎn)換任意風格，同時獲得吸引人的風格化效果。WCT［6］是利用白化和著色變換來匹配內(nèi)容和風格之間的統(tǒng)計分布，實現(xiàn)風格轉(zhuǎn)換。Avatar-Net［7］引入基于補丁的特征裝飾器，將內(nèi)容特征轉(zhuǎn)移到語義最接近的風格特征上，同時將整體特征分布之間的差異最小化。由于使用了基于通用數(shù)據(jù)集MS-COCO的預訓練編碼器-解碼器模型，因而WCT和Avatar-Net都無法生成詳細的紋理樣式。雖然Avatar-Net可以通過基于補丁的風格裝飾器獲得局部風格模式，但風格圖像中風格模式的比例取決于補丁的大小。相比之下，AdaIN可以很好地轉(zhuǎn)換紋理和顏色分布，但無法充分表現(xiàn)局部風格模式。MST（multimodal style transfer）［24］考慮了內(nèi)容和風格圖像中語義模式的匹配，使用圖切割公式將風格圖像特征聚類為子風格成分，與本地內(nèi)容特征相匹配。KOTOVENKO等［20］提出用2個相似的風格樣本對同一內(nèi)容進行風格化，并對風格化過程進行精細控制。PUY等［21］提出一種用于快速風格轉(zhuǎn)換的靈活網(wǎng)絡，可在運行期間進行修改，生成理想的結(jié)果。但這些方法側(cè)重于將風格特征映射到特征空間中的內(nèi)容特征上，無法控制風格的全局統(tǒng)計或內(nèi)容結(jié)構(gòu)，因而無法同時考慮全局和局部的風格模式。

本文在STANet中引入風格轉(zhuǎn)換注意（style-transition attention，STA）模塊，將其嵌入到雙流編碼器中，連接和整合2個信息流。STA由軟注意力和風格轉(zhuǎn)換組成，前者類似于自我注意，用于觀察有用的風格和內(nèi)容信息，同時捕捉跨圖像區(qū)域的長距離依賴關系；后者則有助于將風格從一幅圖像轉(zhuǎn)換到另一幅圖像，通過軟注意力單元對每個空間位置的輸入特征映射進行軟行加權(quán)，從而有效利用全局和局部模式。STA 在卷積階段將輸入圖像的特征作為輸入，并為下一階段輸出風格轉(zhuǎn)換特征和注意力特征。這樣，編碼器在實現(xiàn)2幅圖像特征之間層次關系的同時，也成為了交錯編碼器。此外，為了防止圖像內(nèi)容的丟失，引入循環(huán)一致?lián)p失來計算重建誤差。帶有風格轉(zhuǎn)換和風格恢復功能的STANet 結(jié)構(gòu)如圖1所示。風格轉(zhuǎn)換網(wǎng)絡由交錯雙流編碼器和解碼器組成，用于學習2幅圖像內(nèi)容和風格特征之間的語義關系，并將其穩(wěn)健地組合起來，生成2幅風格化圖像。

1.2 注意力模型

注意力機制已被嵌入深度神經(jīng)網(wǎng)絡。對于視覺相關任務，自然會引入注意力機制，引導模型根據(jù)需要關注圖像的特定區(qū)域或特征。該機制已成功應用于圖像分類[26-27]、圖像字幕[28]、檢測問題[29-30]、風格轉(zhuǎn)換[9， 11， 31-32]等。對于風格轉(zhuǎn)換任務，SANet（shuffle attention net）[11]首先使用注意力機制建立內(nèi)容和風格圖像之間的關系，其架構(gòu)類似于自我注意力[33]，使用可學習的相似性核，計算內(nèi)容和風格特征的加權(quán)和。AAMS（attention-aware multi-stroke style transfer）[9]也在其網(wǎng)絡中引入自注意力機制，捕捉重要特征和跨圖像區(qū)域的長距離依賴關系。雖然SANet和AAMS可以自動將多個筆畫大小處理為一個模型，并合成與同一風格化圖像相融合的多筆畫模式，但由于在訓練過程中對內(nèi)容特征的簡單限制，因而均無法保留內(nèi)容圖像的細節(jié)。STANet引入了由軟注意力單元和風格轉(zhuǎn)換組成的風格轉(zhuǎn)換注意機制，學習內(nèi)容和風格特征之間的映射，提出的STA模型被嵌入到交錯雙流編碼器中，實現(xiàn)風格轉(zhuǎn)換。

1.3 循環(huán)網(wǎng)絡

循環(huán)對抗網(wǎng)絡（Cycle GAN）［34］使用具有循環(huán)一致性損失的生成網(wǎng)絡，通過學習反映射G將圖像從源域X轉(zhuǎn)移到另一個域Y，再通過學習映射F將圖像轉(zhuǎn)換回X。為進行妝容風格轉(zhuǎn)換，本文構(gòu)建了一個循環(huán)一致性生成對抗網(wǎng)絡（generative adversarial network， GAN）框架［35］，該框架由2個耦合網(wǎng)絡組成（一個網(wǎng)絡轉(zhuǎn)換妝容風格，另一個網(wǎng)絡去除妝容風格）。此外，Dual cGAN［36］是一種用于面部老化或年輕化的雙條件GAN，引入了重建損失，保證生成的圖像與其原始圖像具有相同的身份。YAO等［37］將循環(huán)一致性損失與自一致性損失相結(jié)合，在風格轉(zhuǎn)換過程中強制執(zhí)行照片逼真度。本研究使用循環(huán)網(wǎng)絡來防止風格傳輸過程中2幅圖像之間多次內(nèi)容和風格交換造成的內(nèi)容細節(jié)丟失問題。

2 STANet方法

本文提出風格轉(zhuǎn)換注意力（STA），它由2個關鍵部分組成：風格轉(zhuǎn)換網(wǎng)絡和風格恢復網(wǎng)絡，它們使用相同的架構(gòu)并共享權(quán)重。STANet是一個用于風格轉(zhuǎn)換的端到端深度神經(jīng)網(wǎng)絡。在給定一對圖像的情況下，STANet要學習一個模型來交換它們的風格，同時保留它們各自的原始內(nèi)容。風格轉(zhuǎn)換網(wǎng)絡由交錯編碼器、解碼器和損失網(wǎng)絡組成，它們之間相互配合，構(gòu)成一個端到端的深度神經(jīng)網(wǎng)絡。風格恢復網(wǎng)絡的結(jié)構(gòu)與風格轉(zhuǎn)換網(wǎng)絡類似。

2.1 風格轉(zhuǎn)換

之前的風格轉(zhuǎn)換網(wǎng)絡一般將內(nèi)容圖像和風格圖像作為輸入，并根據(jù)前者的外觀和后者的感覺生成風格化圖像。本文提出的方法可以在2幅任意圖像之間進行風格轉(zhuǎn)換。為了方便起見，將上述過程概括為更一般的情況，即風格交換。具體來說，給定2個任意輸入圖像I1和I2，通過風格轉(zhuǎn)換網(wǎng)絡T交換它們的風格，合成2個新圖像：

Y1，Y2=T（I1，I2）。（1）

式中：Y1（Y2）代表具有I1（I2）的內(nèi)容和I2（I1）風格的風格化圖像。

與文獻[9]和文獻[11]類似，T網(wǎng)絡也是建立在編碼器-解碼器結(jié)構(gòu)之上的。依靠雙流結(jié)構(gòu)設計的編碼器可以提取風格和內(nèi)容的表征特征，然后將它們聯(lián)合起來形成2個風格轉(zhuǎn)換特征，其繼承了傳統(tǒng)雙流網(wǎng)絡在多模型學習方面的優(yōu)勢。

為了更有效地捕捉風格特征表征，將風格轉(zhuǎn)換注意模塊分別嵌入編碼器的2個層（Relu_3_1和Relu_4_1），以連接2個信息流。STA 模塊學習風格轉(zhuǎn)換注意力特征表征，并逐步轉(zhuǎn)換風格感知特征，促進特征學習。編碼器的結(jié)構(gòu)借鑒了預先訓練好的 VGG-19 的幾個層[38]，解碼器的結(jié)構(gòu)與文獻[5]類似。除最后一個輸出層外，所有卷積層都經(jīng)過實例歸一化和Relu非線性處理。

2.2 風格恢復

本文提出了用于提高傳輸網(wǎng)絡成像質(zhì)量的風格恢復程序。更具體地說，給定合成圖像Y1和Y2，恢復網(wǎng)絡R會交換它們的風格，以恢復原始輸入，具體如下：

1，2=R（Y1，Y2）。（2）

式中：1和2是恢復出來的圖像，風格和內(nèi)容與相應的輸入相似，即分別為I1和I2。恢復網(wǎng)絡R與T網(wǎng)絡相同，2個網(wǎng)絡在訓練過程中共享參數(shù)。

2.3 交錯編碼器

交錯編碼器包含2個編碼器，分別取自預訓練VGG-19的前幾層。與之前使用編碼器分別提取2幅輸入圖像的特征，然后將它們組合起來進行風格轉(zhuǎn)換的工作不同［5］，本文方法在2層（Relu_3_1和Relu_4_1）中引入STA模塊生成風格注意特征，為風格轉(zhuǎn)換提供了一種新方法。

2.3.1 風格轉(zhuǎn)換注意力

風格轉(zhuǎn)換注意力模塊的結(jié)構(gòu)如圖2所示。該模塊的2個輸入端分別對應從2幅輸入圖像中提取的2組特征，輸出端則是風格和內(nèi)容的融合特征。STA 由軟注意力單元和風格轉(zhuǎn)換單元組成，前者有助于關注輸入圖像的重要特征，如風格和內(nèi)容，后者則有助于將不同圖像的內(nèi)容和風格結(jié)合起來，并從2個輸入圖像中提取信息。

給定輸入內(nèi)容圖像I1∈Rw×h×3和輸入風格圖像I2∈Rw×h×3，編碼器先在第i層（Relu_3_1和Relu_4_1）提取內(nèi)容特征和風格模式，表示為fia∈RW×H×C和fib∈RW×H×C，其中W，H和C分別表示特征張量的空間寬度、高度和通道數(shù)。風格轉(zhuǎn)換特征隨后由STA模塊FSTA進行增強：

f，ia，f，ib=FSTA（fia，fib）。（3）

式中：f，ia，f，ib分別代表包含fib到fia的風格信息的STA特征，以及來自第i層編碼器fib的注意力特征，它們將被進一步輸入下一層編碼器。

2.3.2 軟注意力單元（SA）

將I1和I2計算得出的特征fa和fb作為輸入放入SA模型中。該單元對每個空間位置的輸入特征映射進行軟性加權(quán)，其結(jié)構(gòu)類似于自注意力：

fia=softmax（Θfa）⊙fia 。（4）

式中：Θ是學習到的權(quán)重矩陣，它是通過一次一元卷積將fa映射到一個重要性矩陣，即fa︿=Θfa，然后使用softmax對fa︿進行歸一化，實現(xiàn)軟注意力映射；表示卷積運算；⊙表示元素相乘運算；fia和fia分別表示

fa和fa的第i個通道。同樣，以fb為輸入，可以用同樣的方法得到軟注意力特征fb。

2.3.3 風格轉(zhuǎn)換單元（ST）

為了將fb的風格特征轉(zhuǎn)換到fa，以非局部的方式求得fa和fb之間的關系：

L=fTaUfb∈R（WH）×（WH）。（5）

式中，U是可訓練的權(quán)重矩陣。親和矩陣L可以有效捕捉2個特征空間之間的配對關系，然而它引入了太多參數(shù)，增加了計算成本。為了解決這個問題，將W分解成2個低秩矩陣P∈RC×Ch和Q∈RC×Ch，其中h（hgt;1）是縮減率。實驗中設定h=16。那么，式（5）可以寫成：

L=fTaPQTfb=（PTfa）T（QTfb）。（6）

這種分解方法減少了參數(shù)數(shù)量，提高了計算效率。本文方法將L行向歸一化，驅(qū)動風格注意映射Lr=softmaxr（L），其中softmaxr表示行向量最大值，然后實現(xiàn)風格注意，fab=faLr。最后，在特征映射層面實現(xiàn)風格轉(zhuǎn)換，得到STA特征

fa和注意力特征fb：

fa=fab+fa︿+fb，" fb=fb︿+

fb。（7）

受到文獻[6]的啟發(fā)，將fa與風格的均值向量ms重新對齊，即fa=fa+ms。STA的效果類似于AdaIN提出的將內(nèi)容特征的均值和方差與風格特征的均值和方差統(tǒng)一起來進行風格轉(zhuǎn)換，STANet可以將全局風格嵌入到內(nèi)容特征映射中，從而起到有效的作用。

2.4 損失函數(shù)

本文方法的損失函數(shù)包括4種類型：內(nèi)容損失、風格損失、循環(huán)一致?lián)p失和對抗損失，Ltotal=Lcon+λ1Lsty+λ2Lcyc+

λ3Ladv。損失函數(shù)的細節(jié)如圖3所示。

2.4.1 內(nèi)容損失

為了讓生成的圖像更好地保留原始輸入圖像的內(nèi)容信息，引入了與文獻[5]類似的內(nèi)容損失。

Lcon=‖I1-Y1‖2+‖I2-Y2‖2+

‖Y1-I1︿‖2+

‖Y2-I2︿‖2。（8）

2.4.2 風格損失

風格損失用于匹配風格化圖像和風格圖像之間的統(tǒng)計特征，包括均值和方差。

（e1，e2）=∑4i=1（‖μ（φi（e1））-μ（φi（e2））‖2+

‖σ（φi（e1））-σ（φi（e2））‖2）。（9）

式中：μ和σ表示特征映射的均值和方差；φi表示VGG-19[38]網(wǎng)絡中的第i層（Relu_i_1，i=1，2，3，4）。

此外，本文方法還分別計算了4對圖像的損失，即（I1，Y2），（I2，Y1），（Y1，I2︿）和

（Y2，I1︿），形成總的風格損失。

Ls=（I1，Y2 ）+（I2，Y1 ）+（Y2，I1︿）+

（Y1，I2︿）。（10）

雖然風格損失可以很好地轉(zhuǎn)換2幅圖像的風格，但生成的每幅圖像仍會在一定程度上保留其原始風格。因此，在2組生成圖像

（Y1，Y2）和（I1︿，I2︿）之間引入風格差異損失，限制生成圖像的風格盡可能相互不同。那么，風格損失可以重寫為

Lsty=Ls-（Y1，Y2 ）-

（I1︿，I2︿）。（11）

2.4.3 循環(huán)一致?lián)p失

從理論上講，內(nèi)容和風格丟失可以很好地學習風格轉(zhuǎn)換網(wǎng)絡T [5， 11， 20， 39]，Y1，Y2=T（I1，I2）。然而，原始圖像的內(nèi)容細節(jié)和風格模式可能會在2次風格轉(zhuǎn)換后丟失。為了保證重建后的圖像與其原始圖像具有相同的內(nèi)容特性，引入循環(huán)一致?lián)p失。為了保證學習到的風格恢復網(wǎng)絡R能夠充分恢復風格和內(nèi)容，（I1︿，I2︿）=R

（T（I1，I2））≈（I1，I2），引入像素重建損失：

Lr=‖I1-I1︿‖2+‖I2-I2︿‖2。（12）

只有像素重構(gòu)損失才有足夠的能力讓風格轉(zhuǎn)換網(wǎng)絡R學習實例級風格轉(zhuǎn)換。一般來說，對于抽象風格的圖像，基于像素的風格化圖像與輸入圖像之間的比較并不合適[10]。因此，本文引入感知損失來比較生成圖像和輸入圖像之間的不同映射。循環(huán)損失的定義如下：

Lcyc=Lr+∑4i=1

（‖（φi（I1）-φi（I1︿））‖2+

‖（φi（I2）-φi（I2︿））‖2）。（13）

式中，φi表示VGG-19網(wǎng)絡中第i層的特征映射。循環(huán)損失限制生成的圖像與輸入圖像相似。

2.4.4 對抗損失

為了使生成的圖像更加平滑，不同部分之間更加一致，引入Da和Db 2個判別器，用于在圖像空間中施加正則化約束，并將生成的圖像

I1︿和I2︿與真實輸入的內(nèi)容圖像I1和風格圖像I2區(qū)分開來[20]。

Ladv=EI1［log Da（I1）］+EI1，I2［log（1-Da（I1︿））］+

EI2［log Db（I2）］+EI1，I2［log（1-Db（I2︿））］。（14）

式中，（I1︿，I2︿）=T（I1，I2）。在訓練過程中，對T、Da和Db進行反復訓練。

3 實驗部分

在MS-COCO數(shù)據(jù)集[40]中的82 625張訓練圖像以及從WikiArt[41]中收集的約80 000張圖像上進行了實驗。對于每張訓練圖像，將其縮放為512×512，然后隨機裁剪一個大小為256×256的小塊。為了提高訓練的穩(wěn)定性，將訓練過程分為2部分：

（Y1，Y2）=T（I1，I2）和（I1︿，I2︿）=R

（Y1，Y2），依次在每次迭代中執(zhí)行。使用Adam優(yōu)化器對網(wǎng)絡進行20次訓練，批量大小為6，初始學習率為5E-5，使用網(wǎng)格搜索尋找參數(shù)的最佳配置。實驗表明，STANet對這些參數(shù)并不敏感。將λ1、λ2和λ3分別設置為10、5和1。訓練算法分為2步：第1步是訓練網(wǎng)絡T，更好地交換輸入圖像的風格（I1，I2），通過T得到風格化圖像（Y1，Y2），并使用輸入圖像和生成圖像之間的內(nèi)容、風格和對抗損失函數(shù)來更新網(wǎng)絡參數(shù)T；第2步是將生成的風格化圖像（Y1，Y2）作為網(wǎng)絡R的輸入，利用循環(huán)損失恢復到原始風格。

3.1 定性結(jié)果

3.1.1 風格轉(zhuǎn)換結(jié)果

STANet不僅能適應輸入一張內(nèi)容圖片和一張風格圖片的情況，還能適應同時輸入2張內(nèi)容圖片或2張風格圖片的情況。如圖4所示，STANet可以精確地將不同的內(nèi)容風格化并生成視覺上合理的結(jié)果。圖4中，Y1顯示的是生成的包含I1內(nèi)容和I2風格的圖片，而Y2顯示的是生成的包含I1風格和I2內(nèi)容的圖片。同樣，I1︿和I2︿是由Y1和Y2得到的。

3.1.2 與現(xiàn)有工作比較

將STANet與6種最先進的方法進行比較，6種方法為Gatys[1]、Style-Swap[14]、AdaIN[5]、WCT[6]、AAMS[9]和SANet[11]，如圖5所示。圖5中從左至右依次為內(nèi)容圖像、風格圖像、Gatys[1]、Style-Swap[14]、AdaIN[5]、WCT[6]、AAMS[9]、SANet[11]和本文方法的結(jié)果。

Gatys生成的圖像風格細節(jié)較少（見圖5中的第5行和第6行）。風格交換技術(shù)有助于將內(nèi)容結(jié)構(gòu)和風格紋理補丁結(jié)合在一個層中進行風格轉(zhuǎn)換，但無法產(chǎn)生令人滿意的結(jié)果，即風格無法成功轉(zhuǎn)換到內(nèi)容圖像中（見圖5中的第4列）。AdaIN生成的風格化圖像的風格可能與原始風格圖像不一致（見圖5中的第4行）。WCT和AAMS都不能完美地保留內(nèi)容細節(jié)，如眼睛或嘴的區(qū)域（見圖5中的第6行）。不過，SANet和本文提出的模型卻能更好地保留局部細節(jié)。此外，在STA的幫助下，提出的模型可以從語義上觀察到輸入圖像中的特殊內(nèi)容結(jié)構(gòu)，并能將不同的風格轉(zhuǎn)換成不同的內(nèi)容，如圖5中的第2行所示，本文方法生成的圖像中的天空、山脈和綠草都采用了不同的風格模式。

通過實驗還比較了2種現(xiàn)有方法保留圖像內(nèi)容的效果，結(jié)果如圖6所示。由圖6可知：AdaIN和AAMS都得到了風格化圖像

Y1=T（I1，I2）和Y2=T（I2，I1），I1︿和I2︿可以用類似的方法得到；從第2列可以看出，AdaIN和AAMS生成的風格化圖像在風格轉(zhuǎn)換過程中不能很好地保留氣球輪廓等內(nèi)容信息，而第4列效果更差；本文提出模型中的循環(huán)網(wǎng)絡結(jié)構(gòu)可以有效克服風格轉(zhuǎn)換過程中內(nèi)容信息丟失的問題。

3.1.3 視頻實時風格化

除了對輸入圖像進行風格轉(zhuǎn)換，STANet還能對視頻進行藝術(shù)風格轉(zhuǎn)換。通過實驗進行了實時視頻風格轉(zhuǎn)換，評估模型的穩(wěn)定性。視頻實驗表明，STANet可以以10 幀/s的速度對視頻（512×512）進行風格化處理。圖7顯示了視頻中的幾個風格化幀，這些幀都被有效地風格化了。原始風格被轉(zhuǎn)換為目標風格，紋理、內(nèi)容等也得到了很好的保留。

3.2 定量結(jié)果

3.2.1 內(nèi)容保留評估

為了定量測量保留內(nèi)容信息的能力，對輸入圖像（I1，I2 ）使用900，生成1 800張風格化圖像（Y1，Y2，I1︿，I2︿）。鑒于這些方法的內(nèi)容損失與本文方法相同，因此應用VGG-19網(wǎng)絡的Relu_4_1層提取特征響應，然后使用內(nèi)容損失來測量合成圖像與輸入內(nèi)容圖像之間的距離。不同方法保留圖像內(nèi)容能力的評估結(jié)果見表1，數(shù)值越小，表示效果越好。

對于每種方法，將表1中第2列（I1，Y1）與第3列（I1，I1︿）的內(nèi)容相似性距離進行比較。對于WCT［6］、AAMS[9]和SANet[11]，

I1與I1︿之間的相似性距離都大于I1與Y1之間的相似性距離（分別為14.39對13.46，20.87對17.12，17.41對15.08）。相比之下，STANet得到的I1與I1︿之間的相似性距離為7.29，小于I1與Y1之間的相似性距離 8.76。結(jié)果表明，STANet利用其網(wǎng)絡中的循環(huán)一致?lián)p失，更好地保留了內(nèi)容細節(jié)。

3.2.2 風格轉(zhuǎn)換評估

對不同方法的風格轉(zhuǎn)換能力進行了量化評估[5， 9， 11]。鑒于風格圖像在預訓練VGG-19網(wǎng)絡不同層中的濾波響應可以代表視覺風格統(tǒng)計，應用VGG-19的4個層提取特征，計算風格化圖像和輸入圖像之間特征映射的均值μ和方差σ的L2距離。不同方法將風格從一個圖像轉(zhuǎn)換到另一個圖像的能力評估結(jié)果結(jié)果見表2，數(shù)值越小效果越好。

從表2中可以看出，本文模型得出的結(jié)果與原始風格圖像的風格差異較小。對于每種方法，將表2中第2列（I1，Y1）與第3列（I1，I1︿）中的風格相似度距離進行比較。對于AdaIN[5]、AAMS[9]和SANet[11]，I1與I1︿之間的相似性距離都大于I1與Y1之間的相似性距離（分別為3.39對2.86，6.07對5.30，2.91對2.68）。相比之下，STANet得到的I1與I1︿之間的相似性距離為1.26，小于I1與Y1之間的相似性距離1.77。結(jié)果表明，STANet利用STA模塊和循環(huán)一致?lián)p失，可以幫助合成圖像的風格回歸到其對應的原始風格圖像。

3.2.3 效率分析

對不同方法進行了效率分析，結(jié)果見表3（該結(jié)果是使用一塊11G RTX2080Ti GPU和400張圖像的測試數(shù)據(jù)集得出的）。在基于補丁的方法（Style-Swap、Avatar-Net和STANet）中，STANet即使在進行多尺度特征處理時也能達到相當?shù)乃俣龋籊ATYS等[1]的方法需要數(shù)百次正向和反向傳遞才能收斂，因此速度最慢；AdaIN[5]的速度最快，因為它只需調(diào)整輸入圖像的均值和方差，即可傳輸特征統(tǒng)計數(shù)據(jù)；STANet的速度可與一些方法媲美，這是因為它采用了基于STA模塊的編碼器-解碼器架構(gòu)，只需一次前饋傳遞，256×256和512×512的圖像傳輸大小平均分別需要0.028 s和0.057 s。

3.2.4 用戶調(diào)研

對風格轉(zhuǎn)換效果的評價是一個主觀問題，因此進行了2項用戶調(diào)研，定量評估風格化效果和保留內(nèi)容信息的能力。將STANet與SANet、AAMS和WCT 3種現(xiàn)有方法進行比較。這項用戶調(diào)研的參與者是學院的80名志愿者。在相同內(nèi)容和風格圖像的基礎上，向每位參與者展示了200組由不同方法生成的風格化圖像。首先，要求參與者選擇每組中風格轉(zhuǎn)

換效果最好的風格化圖像；然后，要求志愿者在每組圖像中選擇一張最能保留內(nèi)容圖像細節(jié)的圖像；最后，收集80名志愿者的反饋意見，并通過被選為組內(nèi)最佳方法的比例計算每種方法的性能。用戶調(diào)研結(jié)果見圖8。

由圖8可以看出：STANet因其較好的風格化效果和保留內(nèi)容信息的能力而獲得最多選票；AAMS的得分最低，因為AAMS生成的圖像風格明顯模糊。

3.3 空間控制

圖9展示了STANet可以將內(nèi)容圖像的不同區(qū)域轉(zhuǎn)換為不同的風格，這是通過使用來自不同風格輸入的統(tǒng)計數(shù)據(jù)對內(nèi)容特征映射中的不同區(qū)域分別執(zhí)行STANet而實現(xiàn)的，類似于文獻[5]，但采用的是完全前饋的方式。

3.4 消融實驗

3.4.1 不同損失函數(shù)的效果

圖10顯示了STANet不同組件的視覺效果。表4和表5定量顯示了損失函數(shù)消融研究的結(jié)果。

由圖10可知：與STANet相比，所有網(wǎng)絡變體都產(chǎn)生了更差的結(jié)果。缺少內(nèi)容損失的模型只合成了風格化圖像，沒有保留內(nèi)容（見圖10 d））；去掉風格損失后，生成的圖像沒有風格模式（見圖10 e））；無對抗損失的訓練會產(chǎn)生許多偽像（灰色斑點和片狀結(jié)構(gòu)，見圖10 f））；循環(huán)損失有助于在整個循環(huán)網(wǎng)絡中保留內(nèi)容圖像的內(nèi)容細節(jié)（見圖10 g））。因此，風格損失對于在風格轉(zhuǎn)換過程中融入風格至關重要，而內(nèi)容損失則主要負責更好地保存內(nèi)容。將對抗損失和循環(huán)損失導入STANet，可生成具有更多內(nèi)容細節(jié)和風格模式更自然的風格化圖像。

3.4.2 單向網(wǎng)絡

為了驗證循環(huán)網(wǎng)絡結(jié)構(gòu)的有效性，將STANet簡化為排除風格恢復過程的單向網(wǎng)絡。從圖7中的前2行可以看出，單向網(wǎng)絡的風格化圖像效果并不理想，這是因為原始圖像的一些風格模式仍被保留，而內(nèi)容卻出現(xiàn)了丟失。

3.4.3 STA的數(shù)量

通過實驗探索使用多少個STA塊時能達到最佳效果，分別比較了1個STA塊、2個STA塊、3個STA塊的情況，結(jié)果見圖11。

從圖11可以看出，風格并不能完全轉(zhuǎn)移到內(nèi)容圖像中，如果只使用一個塊，原始圖像的風格仍然會出現(xiàn)在風格化圖像中。對于使用3個STA塊的模型，原始圖像的內(nèi)容不能很好地得到保留，可能的原因是風格圖像中的過多信息嵌入到了內(nèi)容圖像中。

4 結(jié) 語

1）提出一種新的風格傳輸循環(huán)網(wǎng)絡（STANet），用于在2幅任意圖像之間傳輸風格，其中STA塊被嵌入到雙流交錯編碼器中，可幫助用另一幅圖像的風格模式來裝飾另一幅圖像的內(nèi)容特征。STA塊對STANet至關重要，有助于風格特征在特征映射之間的轉(zhuǎn)換。

2）循環(huán)一致?lián)p失的引入有助于STANet保留內(nèi)容細節(jié)，豐富局部和全局風格模式。實驗結(jié)果表明，該模型風格化圖像的內(nèi)容細節(jié)更多，與現(xiàn)有方法相比，其在泛化到任意風格方面取得了良好性能。許多現(xiàn)有方法使用預訓練模型（如VGG）幫助提取內(nèi)容和風格特征，并計算損失。

后續(xù)研究計劃探索更先進的網(wǎng)絡架構(gòu)。例如：不使用預先訓練好的VGG-19作為編碼器，或使用編碼器的附加跳轉(zhuǎn)連接［42］。此外，將STANet應用于其他圖像處理任務（如面部化妝、灰度圖像著色）也將是很有意義的研究方向。

參考文獻/References：

［1］ GATYS L A，ECKER A S，BETHGE M.Image style transfer using convolutional neural networks［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Las Vegas：IEEE，2016：2414-2423.

［2］ JOHNSON J，ALAHI A，F(xiàn)EI F L.Perceptual losses for real-time style transfer and super-resolution［C］//In European Conference on Computer Vision.Berlin：Springer，2016：694-711.

［3］ ULYANOV D，LEBEDEV V，VEDALDI A，et al.Texture networks： Feed-forward synthesis of textures and stylized images［C］//In Proceedings of the International Conference on Machine Learning.Fort Lauderdale：PMLR，2016：627-635.

［4］ LI Chuan，WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks［C］//In European Conference on Computer Vision.Berlin：Springer，2016：702-716.

［5］ HUANG Xun，BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization［C］//In Proceedings of the IEEE International Conference on Computer Vision.Los Alamitos：IEEE，2017：1501-1510.

［6］ LI Yijun，F(xiàn)ANG Chen，YANG Jimei，et al.Universal style transfer via feature transforms［C］//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York：Curran Associates Inc，2017：386-395.

［7］ SHENG Lu，LIN Ziyi，SHAO Jing，et al.Avatar-Net： Multi-scale zero-shot style transfer by feature decoration［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：8242-8250.

［8］ JING Yongcheng，LIU Yang，YANG Yezhou，et al.Stroke controllable fast style transfer with adaptive receptive fields［C］//Computer Vision-ECCV 2018： Lecture Notes in Computer Science.Berlin：Springer，2018：244-260.

［9］ YAO Yuan，REN Jianqiang，XIE Xuansong，et al.Attention-aware multi-stroke style transfer［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：1467-1475.

［10］SANAKOYEU A，KOTOVENKO D，LANG S，et al.A style-aware content loss for real-time HD style transfer［C］//Computer Vision-ECCV 2018：15th European Conference.Munich：ECVA，2018：715-731.

［11］PARK D Y，LEE K H.Arbitrary style transfer with style-attentional network［C］//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Long Beach：IEEE，2019：5880-5888.

［12］HEEGER D J，BERGEN J R.Pyramid-based texture analysis/synthesis［C］//In Proceedings of the 22nd Annual Conference on Computer Graphics and Interactive Techniques.Piscataway：IEEE，1995：229-238.

［13］EFROS A A，F(xiàn)REEMAN W T.Image quilting for texture synthesisand transfer［C］//In Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques.New York：ACM，2001：341-346.

［14］CHEN Tianqi，SCHMIDT M.Fast patch-based style transfer of arbitrary style［DB/OL］.［2023-12-15］.https：//arxiv.org/abs/1612.04337.

［15］LIU Yu，CHEN Wei，LEWM S，et al.SwapGAN： A multistage generative approach for person-to-person fashion style transfer［J］.IEEE Transactions on Multimedi，2019，21（9）：2209-2222.

［16］VIRTUSIO J J，TAN D S，CHENG W H，et al.Enabling artistic control over pattern density and stroke strength［J］.IEEE Transactions on Multimedia，2020，23：2273-2285.

［17］WANG Xin，OXHOLM G，ZHANG Da，et al.Multimodal transfer： A hierarchical deep convolutional neural network for fast artistic style transfer［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：7178-7186.

［18］CHIU T Y.Understanding generalized whitening and coloring transform for Universal style transfer［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul：IEEE，2019：4451-4459.

［19］LI Xueting，LIU Sifei，KAUTZ J，et al.Learning linear transformations for fast image and video style transfer［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：3804-3812.

［20］KOTOVENKO D，SANAKOYEU A，MA Pingchuan，et al.A content transformation block for image style transfer［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：10024-10033.

［21］PUY G，PREZ P.A flexible convolutional solver for fast style transfers［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：8955-8964.

［22］HUO Jing，JIN Shiyin，LI Wenbin，et al.Manifold alignment for semantically aligned style transfer［C］//Proceedings of the IEEE/CVF International Conference on Computer Vision （ICCV）.Montreal：IEEE，2021：14861-14869.

［23］GU Shuyang，CHEN Congliang，LIAO Jing，et al.Arbitrary style transfer with deep feature reshuffle［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：8222-8231.

［24］ZHANG Yulun，F(xiàn)ANG Chen，WANG Yilin，et al.Multimodal style transfer via graph cuts［C］//In Proceedings of the IEEE Nternational Conference on Computer Vision.［S.l.］：IEEE，2019：5943-5951.

［25］KOLKIN N，SALAVON J，SHAKHNAROVICH G.Style transfer by relaxed optimal transport and self-similarity［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：10043-10052.

［26］WANG Fei，JIANG Mengqing，QIAN Chen，et al.Residual attention network for image classification［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu， HI：IEEE，2017：6450-6458.

［27］ZHOU Bolei，KHOSLA A，LAPEDRIZA A，et al.Learning deep features for discriminative localization［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas：IEEE，2016：2921-2929.

［28］CHEN Long，ZHANG Hanwang，XIAO Jun，et al.SCA-CNN： Spatial and channel-wise attention in convolutional networks for image captioning［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：6298-6306.

［29］LIU Nian，HAN Junwei，YANG M H.PiCANet（CVPR）， earning pixel-wise contextual attention for saliency detection［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：3089-3098.

［30］ZHANG Xiaoning，WANG Tiantian，QI Jinqing，et al.Progressive attention guided recurrent network for salient object detection［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：714-722.

［31］FU Xianping，YAN Yuxiao，YAN Yang，et al.Purifying real images with an attention-guided style transfer network for gaze estimation［J］.Engineering Applications of Artificial Intelligence，2020. DOI：10.1016/j.engappai.2020.103609.

［32］BEREZIN S，VOLKOVA V.Neural arbitrary style transfer for portrait images using the attention mechanism［J］.Transaction of Scientific Papers of the Novosibirsk State Technical University，2020（3/4）：96-105.

［33］VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need［C］//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York：Curran Associates Inc，2017：6000-6010.

［34］ZHU Junyan，PARK T，ISOLA P，et al.Unpaired image-to-image translation using cycle-consistent adversarial networks［C］//2017 IEEE International Conference on Computer Vision （ICCV）.Venice：IEEE，2017：2242-2251.

［35］CHANG Huiwen，LU Jingwan，YU F，et al.Paired Cycle GAN（CVPR），symmetric style transfer for applying and removing makeup［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：40-48.

［36］SONG Jingkuan，ZHANG Jingqiu，GAO Lianli，et al.Dual conditional gans for face aging and rejuvenation［C］//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm：IJCAI，2018：899-905.

［37］YAO Xu，PUY G，PREZ P.Photo style transfer with consistency losses［C］//2019 IEEE International Conference on Image Processing （ICIP）.Taipei：IEEE，2019：2314-2318.

［38］SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition［DB/OL］.［2023-12-15］.https：//arxiv.org/abs/1409.1556.

［39］CHEN Yugang，CHEN Muchun，SONG Chaoyue，et al.Cartoonrenderer：An instancebased multi-style cartoon image translator［C］//MultiMedia Modeling（MMM 2020）： Lecture Notes in Computer Science.Berlin：Springer，2020：176-187.

［40］TSUNG Y L，MAIRE M，BELONGIE S，et al.Microsoft coco： Common objects in context［C］//Computer Vision-ECCV 2014.Berlin：Springer，2014：740-755.

［41］PHILLIPS F，MACKINTOSH B.Wiki art gallery，inc.：A case for critical thinking［J］.Issues in Accounting Education，2011，26（3）：593-608.

［42］ISOLA P，ZHU Junyan，ZHOU Tinghui，et al.Image-to-image translation with conditional adversarial networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：5967-5976.

河北科技大學學報2024年3期

河北科技大學學報的其它文章: 相變材料在裝配式復合墻體日光溫室中的應用研究; 基于機器學習的水泥基灌漿料強度預測方法; 余缺調(diào)劑全國統(tǒng)籌制度下的基本養(yǎng)老金時空差異研究; 高磅級旋轉(zhuǎn)法蘭結(jié)構(gòu)設計及有限元分析; Al2(SO4)3催化熱解油轉(zhuǎn)化生產(chǎn)酯類燃料; HPLC-MS/MS法測定鹽酸拉貝洛爾中潛在基因毒性雜質(zhì)