結構細化的神經風格遷移

2021-08-26 08:10:02倩陳小朋苑玉彬張泓國

電子與信息學報 2021年8期

沈瑜楊倩陳小朋苑玉彬張泓國王霖

(蘭州交通大學電子與信息工程學院蘭州 730070)

1 引言

風格遷移是一幅圖像的語義內容用力一幅圖像的風格紋理進行表示[1]。深度神經網絡憑借其強大的圖像表示能力[2]，推動了神經風格轉移方法的發展。然而，近幾年風格遷移都主要關注風格遷移的速度和多樣性，在保證遷移速度和多樣性的前提下，怎樣更好地表現出風格化圖像的細節是需要急需解決的問題。開創性的神經風格遷移方法[3,4]使用卷積神經網絡將圖像的內容和風格特征表示進行分離，并獨立處理高層特征來實現圖像風格遷移，獲得了非常可觀的藝術效果。Luan等人[5]將語義分割和風格遷移相結合實現了更逼真地真實圖像風格轉換。Huang等人[6]提出了自適應實例標準化(AdaIN)層與迭代優化相結合的前饋方法快速地實現任意樣式的實時轉換。Li等人[7]提出了能夠捕獲馬爾可夫碎片的特征統計信息的馬爾可夫生成對抗網絡，該網絡直接將內容圖像轉換成藝術畫作。Dumoulin等人[8]搭建了可擴展的深層網絡實現了任意風格的圖像風格轉換。Chen等人[9]提出的卡通化生成對抗網絡生成高質量的卡通圖像。Johnson等人[10]從預訓練網絡中提取的高級特征來定義和優化感知損失函數提升風格轉換的速度。

風格遷移中，當輸入圖像具有復雜空間布局時，遷移結果將樣式元素均勻地分布在整個圖像中，使整體結構不可識別。對于結構變形敏感的輸入，紋理均勻分布模糊了細節，破壞了原結構。因此，本文提出了細節細化的風格遷移方法，將檢測網絡的卷積層進行輸出，設置不同步長，獲得多尺度多層次的邊緣特征圖，再選取不同特征圖進行加權融合，獲得邊緣特征圖，用邊緣特征圖對遷移過程進行紋理分布的控制；在轉換網絡中，在非殘差卷積層后面引入AdaIN層，AdaIN將特征圖在對應的通道中匹配均值和方差，計算仿射參數，以此保留內容圖像的空間結構；用小卷積核替代大卷積核能保證相同的感受野，增加非線性，減少參數和計算量。本文搭建的網絡模型能夠實現多種風格遷移，風格化圖像空間結構能夠得到細化。

2 風格遷移模型

圖像風格遷移主要通過以下兩個方面實現：(1)對不同的色彩通道進行不同的處理實現對顏色的控制。(2)為了對內容圖像先進行語義分割再對其進行風格轉換或者對不同的區域先進行標記再進行不同紋理遷移，使遷移后的圖像符合自然圖像的語義內容。風格遷移產生不合理的空間布局會使生成圖像的語義內容扭曲，從而無法識別出目標。因此，本文對風格遷移的紋理分布進行了細化，網絡模型如圖1所示。

圖1 風格遷移模型

2.1 邊緣檢測網絡

多尺度是對信號不同程度采樣[11]，具有不同參數和接受域大小，將數據輸入到多個流中，然后將各個流產生串聯的特征響應輸入到全局輸出層中，獲得不同尺度下的不同特征。常見的多尺度特征融合網絡有并行多分支網絡[12]和串行跳躍連接結構[13]，兩者都是在不同的感受野下進行特征提取。本文采用并行多分支網絡結構[14]，將邊緣檢測中將邊緣映射組合在一起，結構如圖2所示。本文的邊緣檢測網絡基于VGG-19網絡，并做了如下改進：(1)將Conv1和Conv2的第2個卷積層的邊緣特征圖與Conv3,Conv4和Conv5的后兩個卷積層的邊緣特征圖進行輸出。(2)本文不使用第5個池化層和3個全連接層。因為隨著段卷積步長增大，產生的邊緣檢測圖太模糊，不利于生成更精確的邊緣特征圖。(3)添加加權融合層，對多尺度多層次的特征圖進行融合，獲得整體邊緣特征圖，并運用多路徑反向傳播優化獲得最終誤差最小的邊緣特征圖。

圖2 邊緣提取過程示意圖

本文的邊緣檢測網絡分為5個階段，每個階段設置不同的卷積步長(表1所示)，能夠獲得多層次多尺度的邊緣特征圖，選取不同階段的8層邊緣特征輸出進行加權融合，不同融合程度的邊緣檢測效果如圖3所示。邊緣檢測精度使用固定輪廓閾值(ODS)、圖像最佳閾值(OIS)和平均精度(AP)進行評估，如表2所示。本文的邊緣檢測圖融合了更多的細節信息，全局結構邊緣更加清晰，客觀指標均取得較好的結果。

圖3 不同深度的邊緣檢測圖

表1 步長和感受野參數設置

表2 在BSDS500數據集上的客觀評價指標

2.2 遷移網絡

本文搭建的風格遷移網絡分為編碼器、轉換網絡和解碼器3個部分。編解碼器是用VGG-19網絡來實現對輸入圖像的特征提取。轉換網絡主體由5個殘差塊組成，為了在特征通道中檢測樣式圖像的筆觸并產生較高的平均激活度，在非殘差卷積層后增加AdaIN和ReLU層，從而實現紋理合成和色彩遷移，網絡主體如圖4所示。在轉換網絡中，本文在Conv1和Conv4中以兩個5×5和一個1×1的卷積核代替9×9的卷積核，其他卷積層都使用3×3的卷積核。1×1的卷積核能夠在不影響輸入輸出維數的情況下實現跨通道的信息交互整合，還可以進行通道數的升維和降維。兩個5×5卷積核堆疊，則能夠增加多層非線性組合，提高網絡學習復雜內容的能力，并且使判決函數更具判決性，起到隱式正則化的作用。

圖4 轉換網絡結構

大卷積核具有更大的感受野，生成較大的特征圖，經過池化去除冗余信息的同時也會損失很多細節信息，使得生成圖像損失了很多細節，如圖5(c)所示。本文用小卷積核代替大卷積核，能夠保證相同的感受野，產生更加準確的特征響應，并且能夠增加網絡深度，使得網絡中的函數能夠更好地逼近輸入圖像的特征。捕捉自然圖像的統計屬性，讓目標輪廓更加清晰，細節紋理更精細，提升視覺效果(圖5(d)所示)。

圖5 不同卷積核風格遷移紋理對比

3 風格遷移誤差

3.1 損失函數

表3 遷移網絡改進前后參數量對比

3.2 改進的損失函數

本文在轉換網絡的常規卷積層后增加了AdaIN[5]，修改特征匹配參數，AdaIN通過學習仿射參數，自動地對內容圖像和風格圖像的特征統計信息進行匹配。圖像通過編碼器d映射在特征空間中，將同一層的內容特征映射的均值和方差與風格特征映射的均值和方差對齊，生成目標特征映射h

網絡學習通過隨機梯度下降來優化損失函數

其中，LR是正則化[4]，γ表示正則化項的權重，以增加生成圖像的平滑性。

在風格遷移模型中，每一層的參數更新導致上層的輸入數據分布發生變化，使用AdaIN，把數據分布映射到一個確定的區間，并在整體損失函數中增加了邊緣檢測損失和歸一化損失，與經典算法Gatys[4]進行對比，網絡性能更好，準確率更高，收斂速度更快(圖6)。特征圖各通道的均值和方差會影響最終生成圖像的風格，通過式(4)實現風格圖像和內容圖像均值和方差的匹配，并在編解碼時分別進行歸一化與去歸一化獲得目標圖像的風格，最終實現風格遷移。通過式(9)中內容損失和風格損失的權重比來控制樣式轉移的程度。圖7中η表示內容損失和風格損失的權重比，可以看出，η=0.5時，兩組圖像風格化不完全，語義扭曲。η=1時，風格化程度較大，語義內容和風格紋理很好地結合。歸一化前紋理筆觸較大，細節太平滑，前后景邊緣輪廓模糊；歸一化后生成圖像的筆觸較小，紋理精細，邊緣輪廓得以增強，使得風格化后的圖像整體視覺效果更有層次感。

圖6 損失函數對比圖

圖7 紋理比較

4 實驗與結果分析

4.1 實驗設置

4.2 結果分析

4.2.1主觀評價分析

本文改進的算法在檢測的邊緣圖的引導與約束下以及經AdaIN處理，遷移效果如圖8所示，圖8(a)為風格圖像，圖8(b)為內容圖像，圖8(c)為邊緣檢測圖，圖8(d)為遷移效果圖。將本文算法與文獻 [4]，文獻[6]，文獻[10]，文獻[18]的算法對比，風格遷移效果如圖9，圖10所示。在圖9(c)中部分遷移結果風格均勻分布(圖9(c)(1))，覆蓋了語義內容，結構復雜的輸入遷移結果出現原結構輕微破壞，細節信息模糊(圖9(c)(2))。圖9(d)普遍存在細小的顆粒覆蓋在遷移結果上，弱化了遷移圖像的某些細節，也使得主要目標變得模糊(圖9(d)(2))。圖10(c)語義信息覆蓋較為嚴重，主要目標無法識別，前后景對比度低。圖10(d)存在少量的多余紋理分布(圖10(d)(4)和(6))，部分遷移結果出現白暈(圖10(d)(5))，弱化了內容的細節。圖9(e)和圖10(e)為本文算法的遷移結果，可以看出，不論是風格化圖像的結構還是語義信息保留程度都較出色，遷移結果無紋理分布覆蓋語義信息的現象，并且前背景的邊界也很清晰，主要目標清晰可辨，風格化圖像結構保持較好，結構細節損失較小，細節信息得以表達，沒有光斑。因此，從視覺效果上看，本文的遷移方法產生的結果更加出色。

圖8 本文算法遷移效果展示

圖9 實驗結果對比

圖10 實驗結果對比

4.2.2主觀評價分析

在客觀評價中，本文從峰值信噪比、內容和風格的平均結構相似(MSSIM)進行比較。PSNR由圖像信號峰值與均方誤差決定，表示圖像風格遷移質量的好壞；SSIM將圖像的亮度、對比度和結構3個因素進行組合。以均值估計亮度，標準差估計對比度，協方差估計結構相似程度。客觀數據對比如圖11所示。

由圖11可知，本文方法在峰值信噪比與平均結構相似度都有較好的表現，說明本文算法風格化圖像質量較好，內容結構保留程度高，風格化圖像遷移了更多的紋理信息。

圖11 客觀評價指標

4.2.3運行時間比較

本文將本文算法的運行時間與表4中的文獻[4]，文獻[6]，文獻[10]，文獻[18]的不同尺寸的圖像進行了對比。總體上看，本文通過增加自適應實例歸一化層在一定程度上提升了風格遷移的遷移效率。

表4 風格遷移算法運行時間比較(s)

5 結論

本文將基于神經網絡的邊緣檢測網絡添加到神經風格遷移模型上，通過對邊緣檢測網絡的多層輸出進行融合獲得內容圖像的邊緣輪廓圖，并將其輸入風格轉換網絡引導約束風格遷移；在遷移網絡中，本文將其常規卷積層的大卷積核進行了替換，減少了網絡模型的參數，提升了運行的速度；在常規卷層后添加了AdaIN層，修改了特征匹配參數，增強了風格化結果的輪廓，一定程度上保留了圖像的結構布局。本文算法解決了紋理均勻分布破壞結果圖像的結構布局，造成細節信息丟失和前后景邊界模糊的問題。通過客觀數據表明，本文算法在能更好地保留內容結構，細化語義信息，結合風格紋理。