基于神經風格遷移的字體特效渲染技術

2019-05-24 14:11:40蔡湧達徐佐騰葉武劍劉怡俊王振友何霽軒劉峰

電腦知識與技術 2019年4期

蔡湧達徐佐騰葉武劍劉怡俊王振友何霽軒劉峰

摘要：傳統的字體特效通常由人工完成設計，這耗費大量的人力物力。為了提高字體特效的生成效率，提出了一種基于風格遷移的字體特效渲染方法。該方法首先使用VGG-19網絡提取圖片特征值，然后根據Gram矩陣計算特征值之間的差距作為損失函數。經過梯度下降迭代優化算法最小化損失函數可以將輸入風格圖片的風格逐漸遷移到字體中。實驗結果顯示大部分生成的字體能夠很好地將圖片中的風格信息遷移到字體圖片中，達到了字體特效渲染藝術效果。

關鍵詞：字體特效渲染；風格遷移；VGG-19； Gram矩陣；特征值

中圖分類號：TP39 文獻標識碼：A 文章編號：1009-3044（2019）04-0151-03

Abstract： Traditional font effects were designed by artificial which is spending a lot of time and resources. In order to enhance the font effects generate effectiveness， we put forward a font effects translate method based on style neural transfer. The method firstly extract feature from style picture by using VGG-19 net. According to Gram matrix we can obtain the lost function between style picture and generated picture. Then， we minimize the lost function by using gradient descent method. The style of style picture can transfer to font picture for several times iterative optimization . The experimental result shows that lots of generated picture can transform style to font picture which achieve the art effect of font effects rendering.

Key words： font effects rendering； style transform； VGG-19； Gram matrix； feature value

1引言

字體特效在生活中無處不在，街頭巷尾的廣告、傳單、標識和部分商標一般會使用加工過的字體以吸引人們的閱讀興趣。傳統字體特效的設計過程通常是由人工完成，這耗費了大量的人力物力。而且，人工設計的藝術字還有一個缺點，設計出來的某一特定字體的風格不能遷移到另一個字體上。因此，借助計算機科學技術實現文字風格的設計逐漸成為圖像風格遷移領域的一個研究熱點問題。

2相關工作

隨著深度學習技術發展，圖像風格遷移方法取得了很大的進步。圖像風格遷移方法可以歸納為藝術風格遷移，神經風格遷移以及這兩種風格遷移方法的改進和擴展三種類型 [1]。其中，神經風格遷移方法受到廣泛關注 [2-3]。文獻 [2]提出了基于卷積神經網絡的圖像風格遷移方法。這種方法通過卷積神經網絡來合成紋理來融合輸入風格圖片的風格和輸入內容圖片的內容。文獻 [4]提出了基于卷積神經網絡的多尺度合成方法，它首先通過使用直方圖損失來解決合成紋理的不穩定的問題。此外它還展示了如何進行多尺度框架中整合到風格遷移對象的風格損失。這些損失可以改善分離內容和風格的比例，使得經過遷移的圖片視覺效果更加自然。為了使遷移后的風格圖片更加體現細節特征，Shaohua Li等人在卷積神經網絡中引入拉普拉斯損失 [5]。實驗結果顯示該損失能夠保存輸入內容圖片的很多細節信息。

上面介紹的大多數是圖像優化慢神經方法，還有一種圖像優化快速神經方法 [1]。文獻 [3]提出使用感知損失函數來訓練前饋網絡以進行圖像轉換任務。該方法結合了輸入圖片與目標圖片之間的像素級損失和從預訓練網絡提取的高級特征來定義和優化感知損失函數。論文中的結果顯示其優化速度得到很大的提高。Yijun Li提出了一種深度生成的前饋網絡，它可以在一個網絡中有效地合成多個紋理，并在它們之間進行有意義的插值 [6]。這是一種一個模型融合多種風格的遷移方法。另外，還有一種一個模型融合任意風格的方法 [7]。該方法的核心是一個自適應實例正則化（AdaIN）層，用于對齊平均值和方差內容功能與樣式功能。這種方法具有很快的速度，沒有對預定義樣式集的限制。

作為圖像風格遷移方法研究和應用領域的一個延伸，文本風格遷移正受到學者的關注 [8]。文獻 [8]提出了基于統計的方法來進行文本風格遷移。文中提出了一個具有三個互補項的目標函數，以綜合考慮圖像局部多尺度紋理、圖像全局分布和視覺效果。但是，這種方法對輸入圖片的要求比較高，擴展應用相對困難。

在本文中提出了基于卷積神經網絡的字體特效遷移方法。應用Gatys [2]的風格化方法對字體特效風格進行特效遷移，實現內容圖到特效圖的轉換。生成圖的初始圖片為一般字體圖片，這樣的好處是在迭代過程中可以不用計算內容損失只需要考慮風格損失的問題，本方法可實現任意字體的特效渲染，并取得不錯效果，有利于輔助字體效果設計等相關領域。

3 文本風格轉換原理

3.1 VGG網絡

VGG網絡主要是從Alex-Net發展而來的。它采用3*3的卷積核能夠很好地提取圖像的特征信息。由于其結構是多個卷積層與非線性的激活層相互替換的，深層的特征信息得以被挖掘。VGG-19網絡如圖1所示 [10]，它包含輸入和輸出，五個卷積層，五個池化層以及三個全連接層。其中，Conv_layer1包含2層3*3的卷積核64個，Conv_layer2包含2層3*3的卷積核128個，Conv_layer3包含4層3*3的卷積核256個，Conv_layer4包含4層3*3的卷積核512個，Conv_layer5也是含有4層3*3的卷積核512個。池化層對特征數據進行最大池化。由于在風格轉換過程中使用VGG網絡是為了提取特征，所以在本文中只使用Conv_layer5輸出的特征數據。

3.2 風格轉換原理

假設有一張風格圖像[s]和字體圖像[c]。對風格圖像[s]使用VGG-19卷積網絡提取特征值，特征值組成的集合記為[S]。

與此同時，對字體圖像使用VGG-19卷積網絡提取特征值，特征值組成的集合記為集合[C]。我們的優化目的是使得重構圖片[r]的內容可以保持字體圖像的內容信息同時又具有風格圖像的風格。

由于使用字體圖片作為生成圖的初始圖片，故只考慮風格表示問題。建立風格表示我們需要引入Gram矩陣。Gram矩陣可以計算出每一層的特征值之間的關系。假設某一層特征值集可以表示成[Fl∈RNl×Ml]這里[Nl]和[Ml]表示特征值集的長和寬。那么特征集中的一個元素就可以表示為[Flij]。從而Gram矩陣的一個元素計算公式如式子（1）所示 [2]。

3.3 文本遷移結構

本文文本遷移迭代優化結構如圖2所示。在輸入層包含風格圖片、生成圖像首張圖片。風格圖片進入迭代操作后使用卷積層和池化層交叉的方法依次提取圖片特征值。優化過程采用梯度下降法，如在卷積層5輸出的是特征值集合[SL]，每次迭代都會計算生成圖的全部卷積層其卷積層5輸出的是特征值集合[GL]。那么根據公式（2）可以得到損失函數[EL]，再根據公式（3）計算總的損失函數[Ltotal]，然后根據梯度下降法對生成圖進行更新。

4 實驗結果

如圖3，分析實驗結果可以發現經過500次優化迭代，風格圖的風格已經能夠遷移一部分到字體中。經過3000次迭代，生成的藝術字已經能夠達到良好的藝術效果。但是，實驗發現藝術字生成效果受原始的遷移文本圖的影響很大。如圖4所示，輸入白底黑字的“竹”字，即使經過2500次優化迭代其生成效果也很糟糕。這說明只有遷移文本圖的背景與風格圖的背景相同或相似才能在使用本文方法中獲得良好的藝術效果。

這是因為在特征提取過程中，從風格圖片中提取的特征值已經把風格和背景分別提取出來了。當輸入字體的背景與風格背景相同或者相似時，風格就能夠遷移到字體上。反之，如果風格背景與字體顏色相近，生成的字體也就更多地體現背景特征而不能夠把風格遷移到字體上。

第1列為輸入的風格圖片，第2列為輸入的字體圖片它作為生成圖的首張圖片，第3列為500次迭代優化的藝術字生成圖，第4列為3000次迭代優化的藝術字生成圖。

第1列為輸入的風格遷移文本圖，第2-6列為迭代不同次數的實驗結果圖。

4 結論

本文提出了一種基于風格遷移的字體特效渲染方法。該方法通過輸入一張風格圖片和一張字體圖片，經過數次迭代優化就可以生成具有藝術效果的字體特效。但是，部分字體圖片中字體顏色與風格圖片背景顏色相同或者相似的在實驗中不能起到很好的渲染效果。所以下一步要對現有方法進一步改進，使該方法對輸入的任何字體背景都能進行很好地進行風格渲染。

參考文獻：

[1] Jing Y， Yang Y， Feng Z， et al. Neural Style Transfer： A Review[OL]. [2017-05-11]， http：//cn.arxiv.org/abs/1705.04058.

[2] Gatys L A， Ecker A S， Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]. Computer Vision and Pattern Recognition. IEEE， 2016：2414-2423.

[3] Johnson J， Alahi A， Li F F. Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]. European Conference on Computer Vision. Springer， Cham， 2016：694-711.

[4] Risser E， Wilmot P， Barnes C. Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses[OL]. [2017-02-01] http：//cn.arxiv.org/abs/1701.08893.

[5] Li S， Xu X， Nie L， et al. Laplacian-Steered Neural Style Transfer[C. Proceeding MM '17 Proceedings of the 2017 ACM on Multimedia Conference 2017：1716-1724.

[6] Y. Li， C. Fang， J. Yang， Z. Wang， X. Lu and M. Yang. Diversified Texture Synthesis with Feed-Forward Networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）， Honolulu， Hawaii， USA. 2017：266-274.

[7] X. Huang and S. Belongie. Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization[C]. 2017 IEEE International Conference on Computer Vision （ICCV）， Venice， Italy， 2018：1510-1519.

[8] S. Yang， J. Liu， Z. Lian， and Z. Guo. Awesome typography： Statistics-based text effects transfer[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017：7464-7473.

[9] Isola P， Zhu J Y， Zhou T， et al. Image-to-Image Translation with Conditional Adversarial Networks[C]. 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR），2016：5967-5976.

[10] Simonyan K， Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[OL]. [2015-08-10]， http：//cn.arxiv.org/abs/1409.1556.

【通聯編輯：唐一東】