王 楊,郁振鑫,盧 嘉,向秀梅
1.河北工業大學 電子信息工程學院,天津300401
2.河北工業大學 天津市電子材料與器件重點實驗室,天津300401
圖像風格遷移技術在藝術作品的自動合成、照片的自動編輯、裝潢設計和隱私保護等方面具有實用性意義。Gatys等[1]利用VGG神經網絡[2]可以提取圖像高層次特征的特性,對圖像的內容特征和風格特征進行描述,使得輸出圖像在保留內容圖像結構的同時,獲得風格圖像的紋理特征,隨后陸續出現了很多方法基于這種思想進行神經風格遷移算法的擴展和提升。林星等[3]通過修改風格損失函數和增加約束項來改進風格遷移的效果。Gatys等[4]研究了在風格遷移過程中對空間和顏色控制的問題。Johnson等[5]通過預先訓練的神經網絡實現了快速的神經風格遷移。Huang等[6]通過卷積神經網絡來學習紋理特征,并將學習到的風格轉移到任意圖像上。這些方法均是對整幅圖像進行風格遷移[7-8],未涉及圖像中某一特定區域的單獨風格化。
為滿足對圖像局部風格化的需求,人們開始考慮圖像不同區域之間內容的差異性。劉哲良等[9]實現了圖像中單一物體的風格化。孫勁光等[10]采用殘差式神經網絡完成了圖像特定區域的風格化。繆永偉等[11]應用曼哈頓距離優化了圖像局部風格遷移后的效果。Luan等[12]應用仿射變換的方法完成了拍攝照片之間的風格遷移。Joo等[13]使用詞向量對風格遷移方法進行了優化。這些方法或者只針對單一區域進行優化,或者要求內容圖像和風格圖像之間的語義內容能夠相互對應,應用范圍難免受限。將各不相關的多張藝術作品的風格分別遷移到同一幅圖像的多個不同區域,目前尚未見報道。
基于上述對圖像中目標區域進行風格化的啟發,本文在神經風格遷移算法的基礎上融合內容圖像的語義信息,對圖像中多個目標區域進行差異化風格遷移。通過在損失函數中引入正則化損失,并分別計算各個語義區域上的代表風格特征的格拉姆矩陣,同時控制在反向傳播過程中梯度信息在不同區域之間的傳播,提出一種基于深度卷積神經網絡的圖像多區域差異風格化框架。該方法針對單幅內容圖像不同的區域采用不同的風格圖像實施差異化風格遷移,從而可以將一幅圖像各語義區域渲染成不同的風格,以供用戶更大的選擇性。
本文的區域差異風格化模型如圖1所示。內容圖像經過DeepLab V3語義分割網絡后,生成具有n個語義區域的分割圖,針對這n個區域分別采取不同的風格進行風格化。在神經風格轉換算法的基礎上,用預先訓練的VGG-16神經網絡來計算風格損失和內容損失,以保證風格化效果的同時減輕計算負擔。

圖1 算法框架
在損失函數部分,內容特征由VGG網絡的高層特征進行表示,用來保留內容圖像的空間結構信息。風格特征由VGG網絡不同層上計算的格拉姆矩陣進行表示,用來表征風格圖像的紋理信息。
在計算風格損失函數時,根據得出的語義分割結果來限制代表風格特征的格拉姆矩陣在特定區域上進行計算。同時,為了避免不同區域之間的風格互相影響,在損失函數部分加入正則化損失以保證不同區域之間過渡自然。最后,將一幅白噪聲圖像分別與內容圖像以及風格圖像進行特征比對,多次迭代優化后使內容圖像不同區域獲取不同的風格。
針對輸入的內容圖像,根據其包含物體種類的不同劃分出不同物體之間的邊界,并給出對應的標簽。本文采用由Chen等在2018年提出的DeepLab V3語義分割模型[14]實現語義區域的劃分。該模型能夠識別更多的物體種類,且分割結果中不同區域之間界限更加明顯。
圖2展示了對一幅具有三個語義區域的內容圖像劃分語義區域的過程。
從圖2中可以看出,將內容圖像經過語義分割網絡后,根據物體種類的不同將內容圖像劃分出三個區域。然后將得出的語義分割結果轉換為灰度圖像,并根據給定的語義標簽使各個語義區域中的像素值保持一致,從而根據整幅圖像中像素值的不同來確定該像素屬于哪一語義區域。根據實際需要,本文方法可以分別針對圖2中的天空、草坪和樹木選用不同的風格圖像進行針對性的風格遷移。

圖2 語義區域的劃分
區域差異風格轉換模型共包含四部分輸入,分別是內容圖像、分割結果、風格圖像以及一幅白噪聲圖像。分割結果為不同區域包含不同像素值的矩陣,實現對內容圖像不同語義區域的限定。本文中根據一幅圖像中風格化區域數量的不同,風格圖像可以為一張或者n張。特征提取模型結構如圖3所示。

圖3 特征提取模型結構
其中,分割結果經過各層進行傳播,以獲得針對各層圖像尺寸的分割圖。其中,內容特征由VGG-16神經網絡中的Conv4_3層進行提取,風格特征則由VGG-16神經網絡中的Conv1_2、Conv2_2、Conv3_3、Conv4_3、Conv5_3進行提取。
本文在神經風格遷移算法基礎上,增加正則化損失項以優化不同區域之間的過渡連接。同時,針對多區域差異化風格遷移,將代表風格特征的格拉姆矩陣在特定區域上進行計算,并提出優化不同語義區域風格所占比重的方法。
在神經風格遷移算法中,生成圖像I需同時具有內容圖像C的內容特征和風格圖像S的風格特征。通過CNN提取的是圖像的高層次特征,不可避免地忽略了圖像的低層次特征。所以,為了使輸出結果更加平滑,本文在損失函數中加入正則化損失。總損失函數包括三個部分:

權重參數α和β用于控制總損失函數中內容損失和風格損失所占的比重[1],通過調整α和β的大小來控制結果圖像中內容和風格的還原程度。加入正則化損失函數的主要作用是通過加入逐像素損失函數來控制空間結構,從而減少輸出圖像中的扭曲現象。調整參數γ以控制正則化損失的影響,使最終結果更加自然。本文對整體損失函數應用Adam優化算法不斷迭代優化,得出三個權重參數的初值。正則化損失函數[15]定義如下:

內容損失函數通過在VGG-16網絡某一l層上將輸出圖像和內容圖像之間的特征進行比較而得出:

其中,F l(I)和F l(C)分別表示輸出圖像I和內容圖像C在神經網絡第l層上的特征映射。這里,Nl是在第l層上的特征映射的數量,而Ml(X)=Hl(X)×Wl(X),表示每一個特征映射的高度和寬度的乘積。
圖像的風格特征由卷積神經網絡的各個層進行提取,通過在每層上計算格拉姆矩陣,來表示一幅圖像的風格信息。針對圖像上的不同語義區域,由語義分割結果對特征映射進行限定:

將生成圖像I和風格圖像S進行比較,得出風格損失函數:

其中,w n表示在第l層的第n個區域的所占比重。由公式(4)~(7)可知,將給定的語義分割結果作為濾波器,和各層得到的特征映射進行逐元素乘積,即可得到針對特定區域優化過的格拉姆矩陣。
風格損失函數由各個區域的格拉姆矩陣進行計算并組合。每個區域所占的比重由參數w n所決定。如果參數w n按照優化算法自動得出,將導致不可預估的風格轉換結果。所以按照每個區域的像素數量在總的像素數量上的比值來控制w n。在內容圖像中所占語義區域越大,在風格損失函數中所占的比值也更大。這樣,將在內容圖像中相對較小的區域分配較小的權重,可以防止過度風格化。
由于針對一幅內容圖像要采用多個風格進行風格化,所以需要將不同的風格在劃分好的語義區域內分別進行渲染。為了防止風格溢出而造成不同風格間相互影響,上一節提到在風格損失函數的計算中,根據語義分割結果分別在各自的區域上計算代表風格特征的格拉姆矩陣。同時,本文針對每一個劃分好的區域分別根據語義分割結果來進行梯度的更新:

針對總損失函數,本文采用Adam梯度優化算法來使之最小化。這樣得到的各損失函數權重在保證整體風格化效果的同時,保證不同區域間邊緣連接處過渡自然。
本文算法基于TensorFlow深度學習框架,用Python3.6平臺實現。其中運行環境中,CPU為i7-8700,GPU為NVIDIA GTX 1060,16 GB內存。本文算法參數設定如表1所示。該組參數經過大量數據的迭代優化而得出,對于大部分風格圖像能取得較好的遷移效果。本文后續結果均根據表中參數生成。針對不同的風格圖像,還可以設置不同的參數來獲得更符合用戶需求的風格化效果。

表1 參數表
(1)單區域差異風格化
針對一幅圖像,采用區域差異風格化模型對其內容進行感興趣區域的風格遷移。本文中的測試圖像選自Microsoft COCO2017數據集,共包含123 287張圖像,并被分成不同的類別。由于篇幅有限,本文以其中的建筑物圖和小鳥圖為例進行說明。針對圖像單個區域進行差異風格化的效果如圖4所示。

圖4 單區域差異風格化
其中,建筑物圖包含天空和建筑物兩個語義區域,選擇圖4(b)梵高星空圖為其進行風格化。文獻[5]采用感知損失函數對圖像進行整體風格化的方法,被國內外文獻大量引用。圖4(c)是文獻[5]方法得出的風格遷移圖,由該圖可見,天空和建筑物都被渲染成了梵高藝術畫的風格。圖4(d)來自本文風格遷移模型,采用差異化的風格遷移方法,只針對天空部分進行了梵高畫作風格的渲染,不影響內容圖像中建筑物部分的風格。通過觀察圖4(d)天空和建筑物銜接處可以發現,天空和建筑物在視覺上的層次關系和原內容圖像保持一致,且連接處過渡自然,未造成嵌入感,整幅圖像也具有較好的自然的藝術效果。
(2)正則化損失的影響
本文模型分別針對內容圖像不同區域采用不同的風格進行風格遷移,通過引入正則化損失來保證風格遷移之后與原圖在視覺關系上保持一致。圖5分別顯示了在損失函數中加入正則化損失和其他研究中未加入正則化損失的不同結果。
在圖5中,采用的藝術風格圖像整體偏暗。觀察圖5(d)可以發現,由于未加入正則化損失,使得結果中的建筑物部分相對原圖變得更暗。而在圖5(c)中,建筑物更好地保留了其原本面貌,建筑物和天空之間在視覺關系上也與原圖更接近,最終結果更加自然。

圖5 正則化損失效果對比
現有的圖像局部化風格遷移算法只局限于對內容圖像的單個區域進行風格化。本文提出的多區域差異化風格遷移算法可以針對一幅圖像的不同區域,分別采用不同的風格進行風格化。藝術風格遷移效果具有一定的主觀性,難以量化評估。本文采用紋理遷移效果、內容圖像本身結構保持度和不同區域連接處平滑度作為效果評價依據。
圖6(a)中的內容圖像包含有天空、鳥兒和石臺三個語義區域。圖6(b)中給出了將內容圖像通過語義分割網絡后的分割結果。選用圖6(c)~(e)這三種具有不同風格的圖像分別針對這三個不同的語義區域進行風格化,得出的結果如圖6(f)所示。

圖6 三種風格的差異風格化
在圖6(f)中,風格1、風格2和風格3分別遷移到圖6(a)的天空部分、小鳥部分和石臺部分。相比于圖像的局部化風格遷移,本文針對這三種不同的物體,分別選用特定的風格進行風格化,保證了最終結果的整體協調性,在不違背原圖中物體之間視覺關系的同時達到了較好的藝術效果。同時觀察圖6(f)可以發現,不同區域的連接處過渡自然,整體圖像平滑,證實了本文算法的有效性。
本文提出了一種新穎的多區域差異化風格遷移方法,可以同時將內容圖像的多個區域分別渲染成不同的風格。通過對代表風格圖像特征的格拉姆矩陣進行優化,使之受到語義信息的約束,得到了不同區域具有不同特征的結果;同時,在反向傳播階段,將梯度傳播限制在各自的語義區域上,防止了不同區域間的風格溢出。在實際運用中,具體的風格種類可以根據內容圖像分割區域的數量和人們具體的需求而決定,具有較大的靈活性,為神經風格遷移算法提供了一種新思路。