鄭茗化 白本督 范九倫 魏雅娟 焦瑞芳
關鍵詞: 圖像處理; 圖像風格化轉換; 深度學習; 卷積神經網絡; 特征提取; 局部均方差
中圖分類號: TN958?34; TP751.1 ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)14?0144?04
Neural network image style transfer based on local mean square error
ZHENG Minghua1,2,3, BAI Bendu1,2,3, FAN Jiulun1,2,3, WEI Yajuan1,2,3, JIAO Ruifang1,2,3
(1. School of Communications and Information Engineering, Xian University of Posts & Telecommunications, Xian 710121, China;
2. Key Laboratory for Electronic Information Investigation Application Technology of Ministry of Public Security, Xian 710121, China;
3. International Cooperation Research Center of Wireless Communication and Information Processing Technology of Shaanxi Province, Xian 710121, China)
Abstract: Gatys and others first use the deep learning?based method to separate and reorganize the contents and styles of images, so that image style can be transformed arbitrarily, which opens up a new field of image style transformation based on neural networks. On the basis of the research of Gatys and others, the local mean square error denoising method is introduced in this paper. The local mean square error is taken as part of the neural network loss function, and the weighted algebraic sum of the three loss functions is taken as the total loss function of the neural network by combining the content loss function and style function. The results show that the method proposed in this paper can effectively improve the image quality output by the style transformation algorithm while performing image style transformation, which makes image noise points significantly reduced and produces smoother images.
Keywords: image processing; image style transformation; deep learning; convolutional neural network; feature extraction; local mean square error
圖像風格轉換,本質上是使圖像由當前風格轉換成另一種風格。圖像風格轉換的傳統方法是基于計算機圖形學的非真實感渲染(NPR)。非真實感渲染技術自出現到現在一直是圖形學研究的熱點問題,經過無數專家學者的努力,已經取得了一系列的成果。非真實感渲染是一種模仿人類藝術表現的計算機圖形技術,自20世紀90年代以來一直被研究[1]。大多數研究工作都集中在具體風格的表達上,如畫家風格、筆墨和水彩畫。 這些是基于筆畫的渲染(SBR)方法,該方法使用筆觸筆畫作為基本元素[2],各種風格可以通過對每個畫筆筆畫進行建模來表達。然而,每種風格都需要一種獨特的繪畫方法,因此在單個框架中表示各種風格并不容易[3]。Gatys等人首次使用深度學習中的卷積神經網絡來進行圖像風格化轉換[4],其核心是利用神經網絡來分離與組合任意圖像的內容和風格。基本想法是利用一個多層的卷積神經網絡抽象出給定圖像里一些高級的隱藏特征來模仿圖像風格,并把這個風格應用到一個新的圖像上。而在紋理轉換領域,傳統方法之所以沒能取得這么驚人的效果,其本質原因在于,非深度學習的方法只能獲取到目標圖像低層次的圖像特征。所以這些方法無法獨立地對圖像的語義內容和風格的變化進行有效的建模,從而無法很好地對兩者進行解耦和合成。而深度神經網絡之所以可以在眾多領域中取得驚人效果,正是由于其可以抽取出高層次的信息表征。
1 ?基于深度學習的圖像風格化轉換
以不同的風格呈現圖像的語義內容是一個困難的圖像處理任務。Gatys使用卷積神經網絡提取的圖像表示,進而提出一種基于神經網絡的圖像藝術風格轉換方法。這種方法可以分離和重組圖像的內容和風格,同時能夠產生高感知質量的新圖像,將任意圖像的內容與許多著名作品的風格相結合。
將風格從一個圖像轉移到另一個圖像可以被認為是紋理轉化的問題。在紋理轉化中,從源圖像合成紋理,同時約束紋理合成以保留目標圖像的語義內容。關于紋理合成,存在大量強大的非參數方法,可以通過對給定源紋理的像素進行重新采樣來合成逼真的自然紋理[5?7]。大多數紋理傳輸算法依靠這些非參數方法進行紋理合成,同時使用不同的方法來保留目標圖像的結構。這些算法雖然取得了顯著的效果,但是都存在相同的局限性,即在紋理轉化中只使用了目標圖像的低級語言內容。因此,為了解決此問題,首先要找到能夠體現圖像語義內容和風格的圖像表示。深度學習通過組合低層特征形成更加抽象的高層特征,尤其是卷積神經網絡在提取圖像高級語義特征方面表現出了優異的效果。Gatys等人使用VGG網絡[8]來提取圖像高級語義特征,該網絡用于進行目標識別和定位[9]。Gatys等人使用由19層VGG網絡、16個卷積和5個池化層所提供的特征空間,同時采用平均匯總的圖像合成方式來代替最大池合并的方式,可以產生更有吸引力的結果。Gatys等人通過VGG網絡分別來獲取目標圖像的內容表示和風格表示,并將一張白噪聲圖像作為原始輸入,利用監督學習的方法使白噪聲圖像的內容表示和風格表示分別與內容圖像的內容表示和風格圖像的風格表示相匹配,并使用梯度下降的方法來進行優化[10]。
損失函數的數學模型如下:
[Ltotal=αLcontent+βLstyle] (1)
式中:[Lcontent]為內容損失函數;[Lstyle]為風格損失函數;[α]和[β]分別為內容損失函數和風格損失函數的權重,此二者加權求和即為總的損失函數。
1.1 ?圖像內容表示的獲取
在VGG卷積神經網絡中,每個卷積層都有一組非線性濾波器(卷積核),[l]層具有[Nl]個濾波器,每個濾波器的尺寸為[Ml]。其復雜程度也隨著網絡層的深入而遞增。通過對輸入圖像[x]的濾波,將網絡每個層級的響應存儲在矩陣[Fl∈RNl×Ml]中。Gatys等人用這些濾波器的響應作為圖像的內容表示,以平方誤差函數[Lcontent]來表示白噪聲圖像與目標圖像在網絡中的同級濾波器響應之間的差距。用[Flij]表示第[l]層的第[i]組濾波器的第[j]個濾波器的響應,[p]表示內容圖像。
[Lcontent(p,x,l)=12ij(Flij-plij)] ? (2)
通過梯度下降的方法來不斷減小白噪聲圖像與原圖像在卷積神經網絡的某個網絡層中產生的響應之間的差距,使得白噪聲圖像與原圖像的內容表示相匹配。
1.2 ?圖像風格表示的獲取
為了獲取圖像的風格表示,Gatys等人使用一種特征空間來獲取圖像的紋理信息,作為圖像的風格表示[11]。該特征空間建立在每一層濾波器的響應之上,包含不同濾波器響應之間的互相關信息,這些特征互相關信息可由Gram矩陣得到:
[Glij=kFlikFljk] (3)
使用均方誤差作為白噪聲圖像和風格圖像的Gram矩陣之間的差異(El),使用梯度下降的方法進行優化,進而匹配白噪聲圖像和風格圖像之間的風格表示。
[El=14N2lM2lij(Glij-Alij)2] ? ?(4)
所以風格損失函數[Lstyle]為:
[Lstyle(a,x)=l=0LwlEl] (5)
進而利用梯度下降法來優化:
[?El?Flij=1N2lM2l((Fl)T(Gl-Al))ji, ?Flij>00, ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? else] ? (6)
1.3 ?圖像風格轉換
基于已經獲取的圖像的風格表示和內容表示, Gatys等人使用內容表示和風格表示的聯合誤差函數[Ltotal]作為風格化的誤差函數來得到風格化圖像。該方法使得白噪聲圖像的內容表示和風格表示分別與內容圖像的內容表示和風格圖像的風格表示相匹配。
[Ltotal(p,a,x)=αLcontent(p,x)+βLstyle(a,x)] ?(7)
為了對誤差函數進行優化,這里使用L?BFGS[12]算法,該算法非常適合圖像合成。通過優化該誤差函數,最終可以將白噪聲圖像既與內容圖像的內容表示相匹配,又與風格圖像的風格表示相匹配,最終得到風格化圖像。
2 ?基于局部均方差的圖像去噪聲算法
在轉換與傳輸的過程中,圖像獲取常受到圖像設備自身因素與外界環境條件的影響,導致所成圖像上出現一些隨機離散或孤立的點,即圖像噪聲。含有噪聲的圖像會影響視覺效果,也會給后續圖像分析造成不利影響。為了抑制噪聲,改善圖像質量所進行的處理稱為圖像去噪。去噪的方法主要分為空間域去噪和頻域去噪,空間域方法是對圖像各像素點的灰度直接進行運算;頻域方法是對圖像進行變換后,在變換域中對圖像參數進行運算,然后通過逆變換得到增強的圖像。空間去噪方法的原理是對圖像中一個鄰域內的所有像素進行特定的操作,進而產生一個新像素,這個新像素就是空間濾波的結果。基于局部均方差的圖像去噪聲算法屬于空間域去噪方法,是在像素級別對圖像進行操作。對于一幅N×M大小的灰度圖像,用[mij]表示(i,j)位置處的像素值,那么在(2n+1)×(2m+1)窗口內部的局部平均值為:
[mij=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl] (8)
局部均方差可表示為:
[vij=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl-mij2] ? (9)
加性去噪后的結果為:
[xij=(1-k)mij+kxij] ?(10)
[k=vijvij+σ] ?(11)
方差在統計學中表示的是與中心偏離的程度,用來衡量數據的波動性大小。局部均方差去噪方法使得圖像中鄰近像素點的像素值更加接近,可以有效地去除噪聲像素點。
3 ?基于局部均方差的神經網絡圖像風格轉換
3.1 ?算法改進
在基于卷積神經網絡的圖像風格轉換算法中,Gatys等人的算法在提取圖像的高級語義內容和風格內容時,都是用靠近輸出層的響應來作為圖像的語義內容表示和風格表示。通過該方法合成的圖像常帶有大量的高頻噪聲,即圖像有許多或明或暗的顆粒像素。神經網絡中, 學習規則是網絡的關鍵, 通過修正權系數, 以獲得滿意的系統性能。所以神經網絡模型的效果與損失函數的選取有著極大的關聯。本文在此基礎上,提出結合卷積神經網絡與局部均方差去噪方法來進行圖像風格化轉換的方法。使得神經網絡學習到的圖像中鄰近像素點的像素值相近,以達到去除圖像中的噪聲,改善圖像質量與視覺效果的目的。本文將局部均方差作為基于神經網絡圖像風格轉換的損失函數之一,即總的損失函數為圖像內容損失函數、圖像風格損失函數與圖像局部均方差,這三個損失函數的加權代數和。局部均方差損失函數為:
[Llmse=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl-mij2] (12)
新的總損失函數為:
[Ltotal=αLcontent+βLstyle+γLlmse] (13)
式中,[α],[β],[γ]分別為內容圖像損失函數、風格圖像損失函數、局部均方差函數的權重。
3.2 ?算法流程
算法流程圖如圖1所示。
?
1) VGG?19網絡模型在提取圖像特征方面有著顯著的效果。本算法使用該網絡模型分別對內容圖像和風格圖像做語義內容特征提取和風格提取。整個模型在卷積層采用3×3濾波器,步長為2;在池化層采用2×2池化窗口,步長為2。
2) 經過多次實驗調試參數,本算法采用如下參數:內容損失函數權重為5;風格損失函數權重為100;局部均方差函數權重為100;神經網絡的學習速率為100;迭代次數為1 500次。
3) 將內容圖像和風格圖像作為神經網絡的輸入,同時對一張白噪聲圖像以梯度下降的尋優方法不斷迭代來最小化總損失函數,輸出合成的風格轉換圖像,對比Gatys等人的算法輸出。
基于局部均方差去噪的神經網絡圖像風格轉換算法,對各種內容圖像和風格圖像進行風格轉換實驗。結果表明,基于局部均方差去噪的神經網絡圖像風格轉換算法在原有算法的基礎上對目標損失函數進行改進,融入了局部均方差作為新的損失函數的一部分,在圖像風格轉換的同時提升了圖像的質量,使得圖像中的噪聲點明顯減少,圖像視覺效果更佳。
4 ?實驗結果與分析
對比圖2c)和圖2d)中的紅框部分可以明顯地看出,本文方法輸出圖像的樓身窗口處的噪聲點明顯減少。
對比圖3c)和圖3d)中的紅框部分可以看出,本文方法輸出圖像中鞋子以及人臉部分更加清晰,同時墻體磚縫更加明顯。
對比圖4c)和圖4d)中的紅框部分可以看出,本文方法輸出圖像質量更高,左側山體部分圖像更加平滑,視覺效果更佳。對比圖5c)和圖5d)中的紅框部分可以看出,本文方法輸出圖像中樹木部分更加平滑,圖像整體視覺效果上更加清晰。
5 ?結 ?語
基于局部均方差去噪的神經網絡圖像風格轉換算法是在Gatys等人的算法基礎上提出的一種改進算法。該算法在實現圖像風格轉換的同時提升了圖像質量。在使用神經網絡進行圖像風格轉換時,通常采用靠近輸出層的圖像高級語義表示,缺少靠近輸入層的低級像素信息。所以導致圖像質量不佳,噪聲點較多等問題。實驗結果表明,本文通過增加局部均方差作為損失函數的一部分,使得輸出圖像的鄰近像素值相近,避免出現大量噪聲點,大大提升了輸出圖像質量。
參考文獻
[1] HAEBERLI P. Paint by numbers: abstract image representations [J]. ACM SIGGRAPH computer graphics, 1990, 24(4): 207?214.
[2] HERTZMANN A. Tutorial: a survey of stroke?based rendering [J]. IEEE computer graphics and applications, 2003, 23(4): 70?81.
[3] KANG D, KONG P, YOON K, et al. Directional texture transfer for video [J]. Multimedia tools & applications, 2015, 74(1): 245?258.
[4] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2414?2423.