黃東晉 李 娜 俞樂(lè)洋 劉金華 丁友東
(上海大學(xué)上海電影學(xué)院,上海 200072)

水墨是中國(guó)特有的繪畫形式,通過(guò)墨色的焦、濃、重、淡、清五色傳達(dá)無(wú)限的情感。不同于西方的水彩、油畫,中國(guó)水墨畫用少量筆觸來(lái)描繪特定的風(fēng)格或場(chǎng)景,表現(xiàn)出藝術(shù)家的創(chuàng)作意圖和藝術(shù)個(gè)性。傳統(tǒng)水墨動(dòng)畫由藝術(shù)家參與制作,創(chuàng)作流程較為復(fù)雜,創(chuàng)作周期也相對(duì)冗長(zhǎng)。水墨動(dòng)畫是在傳統(tǒng)水墨畫的基礎(chǔ)上,將水墨與動(dòng)畫合理結(jié)合。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,運(yùn)用三維技術(shù)與水墨的結(jié)合,在工業(yè)界出現(xiàn)了一些優(yōu)秀的水墨動(dòng)畫短片,如 《魚戲蓮》《秋實(shí)》等,在科研界出現(xiàn)了關(guān)于風(fēng)格遷移的研究。在神經(jīng)風(fēng)格遷移之前,這項(xiàng)研究被稱為非真實(shí)感渲染 (Non-photorealistic Rendering,NPR),它使用不同的畫筆來(lái)輸出藝術(shù)筆觸,并像手繪一樣描繪特定對(duì)象。楊麗潔等提出一個(gè)動(dòng)畫生成工具,通過(guò)重建中國(guó)水墨畫中的筆畫,動(dòng)態(tài)模擬水墨畫原有的繪畫過(guò)程。2020年,他們又提出一個(gè)繪畫工具,通過(guò)對(duì)照片上粗略勾勒的線條進(jìn)行風(fēng)格化,生成具有花卉水墨畫風(fēng)格的藝術(shù)筆畫5。
風(fēng)格遷移是近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)。在給定內(nèi)容圖片和風(fēng)格圖片的條件下,風(fēng)格遷移旨在使用風(fēng)格圖片的紋理風(fēng)格對(duì)內(nèi)容圖片進(jìn)行渲染,同時(shí)保證其內(nèi)容的原始語(yǔ)義結(jié)構(gòu)。以往的風(fēng)格遷移多集中于西方藝術(shù),本文聚焦于中國(guó)水墨動(dòng)畫的研究,提出一種新的基于生成對(duì)抗網(wǎng)絡(luò)的水墨動(dòng)畫電影風(fēng)格化方法,實(shí)現(xiàn)將藝術(shù)家繪制的水墨風(fēng)格畫從一張圖片遷移至整個(gè)視頻序列。利用基于patch的訓(xùn)練方式,通過(guò)關(guān)鍵幀的學(xué)習(xí),既不需要冗長(zhǎng)的預(yù)訓(xùn)練,也不需要大量的訓(xùn)練數(shù)據(jù)集。在生成網(wǎng)絡(luò)中使用群組歸一化替換批量歸一化,以減少batch size的影響,加快網(wǎng)絡(luò)的迭代收斂速度。此外,加入深度視頻先驗(yàn)算法解決生成視頻閃爍的問(wèn)題。
風(fēng)格遷移技術(shù)主要分為傳統(tǒng)風(fēng)格遷移技術(shù)、基于卷積神經(jīng)網(wǎng)絡(luò)的風(fēng)格遷移和基于生成對(duì)抗網(wǎng)絡(luò)的風(fēng)格遷移。
傳統(tǒng)遷移技術(shù)主要包括早期的NPR和紋理遷移。NPR根據(jù)渲染方式的不同分為筆觸渲染、圖像濾波和圖像類比三類。Meier提出了一種基于筆觸渲染的畫筆模型來(lái)模擬油畫的生成過(guò)程;Winnem?ller等引入雙邊濾波器和高斯差分濾波器來(lái)自動(dòng)生成卡通風(fēng)格的圖像;Hertzmann等首次提出圖像類比的概念,在監(jiān)督下改變?cè)瓐D的風(fēng)格。紋理遷移主要用于紋理合成,輸入圖像基于參考圖像填充紋理,使生成的圖像具有與樣本圖像相似的紋理風(fēng)格,適合處理紋理簡(jiǎn)單的圖像。Efros等通過(guò)使用馬爾科夫隨機(jī)場(chǎng)模型,選擇距離像素最近的場(chǎng)的紋理段進(jìn)行填充。這種方法每次填充一個(gè)像素值都需要遍歷紋理段,時(shí)間成本過(guò)高。為了解決上述問(wèn)題,Wei等使用矢量量化來(lái)提高時(shí)間性能;Han等提出一種新穎的基于樣本的多尺度紋理合成算法,實(shí)現(xiàn)基于不同尺度的低分辨率圖像的紋理合成。上述傳統(tǒng)的風(fēng)格遷移技術(shù)可以生成多種藝術(shù)作品,但這些技術(shù)只考慮了低層細(xì)節(jié)特征,沒(méi)有提取圖像高層語(yǔ)義特征;同時(shí),模型泛化能力較差,只能以特定的風(fēng)格進(jìn)行渲染。為了解決這些不足,神經(jīng)風(fēng)格遷移應(yīng)運(yùn)而生。
Gatys等首次提出基于深度學(xué)習(xí)的神經(jīng)風(fēng)格遷移,利用預(yù)訓(xùn)練的VGG-19模型提取圖像的內(nèi)容特征,通過(guò)Gram矩陣計(jì)算圖像的風(fēng)格特征。內(nèi)容和風(fēng)格分開(kāi)計(jì)算,噪聲圖像通過(guò)迭代優(yōu)化,逐漸具有一副圖像的內(nèi)容細(xì)節(jié)和另一幅藝術(shù)圖像的風(fēng)格特征。這種方法比較靈活,可以組合任意藝術(shù)圖片和內(nèi)容圖片,但是一張圖片的生成需要多次迭代優(yōu)化,耗時(shí)較長(zhǎng)。為了減少圖像風(fēng)格化的計(jì)算時(shí)間,Johnson等提出了一種基于模型迭代的風(fēng)格遷移方法,比Gatys等基于圖像迭代的方法快三個(gè)數(shù)量級(jí)。基于模型迭代的方法通過(guò)大量圖像訓(xùn)練特定風(fēng)格的前饋生成網(wǎng)絡(luò),計(jì)算負(fù)擔(dān)轉(zhuǎn)移到模型的學(xué)習(xí)階段。經(jīng)過(guò)訓(xùn)練的模型可以實(shí)現(xiàn)實(shí)時(shí)、快速的風(fēng)格遷移。之后,基于此方法,各種改進(jìn)或擴(kuò)展的方法層出不窮。Du moulin等提出了CIN(Conditional Instance Nor malization),即基于訓(xùn)練好的風(fēng)格化模型,可以在IN(Instance Nor malization)層進(jìn)行仿射變換,得到不同的風(fēng)格效果,實(shí)現(xiàn)單一模型遷移多種風(fēng)格。受CIN層的啟發(fā),Huang等提出了 AdaIN(Adaptive Instance Nor malization)。AdaIN利用遷移通道均值和方差的統(tǒng)計(jì)值在特征空間進(jìn)行風(fēng)格遷移,首次實(shí)現(xiàn)實(shí)時(shí)任意風(fēng)格遷移。上述基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Net wor k,CNN)的圖像風(fēng)格遷移方法,得益于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。通過(guò)提取圖像的抽象特征表示,利用特征分布的統(tǒng)計(jì)量作為圖像風(fēng)格的描述,可以靈活高效地遷移圖像風(fēng)格。這種描述方法可以很好地表征風(fēng)格,但它依賴于具有巨大參數(shù)的特征提取網(wǎng)絡(luò)。
隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,生成對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Net wor k,GAN)憑借其強(qiáng)大的生成能力在圖像翻譯的應(yīng)用中取得了巨大的成功。與基于CNN的風(fēng)格法不同,基于GAN的圖像風(fēng)格遷移方法不需要任何預(yù)先定義的描述計(jì)算風(fēng)格。鑒別器擬合圖像數(shù)據(jù)隱式計(jì)算風(fēng)格,實(shí)現(xiàn)圖像風(fēng)格遷移。此外,通過(guò)對(duì)抗訓(xùn)練來(lái)適應(yīng)圖像數(shù)據(jù)的分布,使得圖像的風(fēng)格遷移變得更加真實(shí)。作為圖像翻譯的代表作,Isola等提出的Pix2Pix模型,使用大量配對(duì)圖像進(jìn)行監(jiān)督訓(xùn)練,得到一對(duì)一的圖像翻譯網(wǎng)絡(luò),可以很好地完成圖像風(fēng)格遷移。但是Pix2Pix的訓(xùn)練需要大量的成對(duì)的圖像數(shù)據(jù),極大地限制了其推廣應(yīng)用。Zhu等提出了一種無(wú)監(jiān)督對(duì)抗網(wǎng)絡(luò)Cycle GAN,它包含兩對(duì)生成對(duì)抗網(wǎng)絡(luò),用于雙向域轉(zhuǎn)換。通過(guò)循環(huán)一致性損失來(lái)去除域之間的配對(duì)約束,有助于更好地保持圖像的內(nèi)容結(jié)構(gòu)。He等基于生成對(duì)抗網(wǎng)絡(luò),使用空白、筆觸和墨水清洗損失實(shí)現(xiàn)了照片到中國(guó)水墨畫的翻譯。最近,Xue等將中國(guó)山水畫的創(chuàng)作分為草圖生成和上色兩個(gè)階段,基于Sketch GAN生成中國(guó)山水畫線稿,基于Paint-GAN實(shí)現(xiàn)線稿到圖像的翻譯。然而,上述所有基于GAN的圖像風(fēng)格遷移方法都需要預(yù)先收集足夠數(shù)量的風(fēng)格圖像,這在實(shí)際應(yīng)用中是一個(gè)比較困難的問(wèn)題。針對(duì)這一問(wèn)題,Texler等提出基于patch的訓(xùn)練策略解決小樣本學(xué)習(xí)問(wèn)題。受他們的啟發(fā),將這種訓(xùn)練策略引入到本文方法中,然而直接將其應(yīng)用到水墨動(dòng)畫風(fēng)格遷移時(shí),生成的動(dòng)畫會(huì)出現(xiàn)閃爍問(wèn)題,這正是本文接下來(lái)重點(diǎn)解決的問(wèn)題。
風(fēng)格遷移進(jìn)一步擴(kuò)展到視頻領(lǐng)域的工作稱為視頻風(fēng)格遷移,除了完成每一幀的風(fēng)格遷移之外,還要考慮生成視頻的連貫性,解決視頻閃爍問(wèn)題。大多數(shù)視頻風(fēng)格遷移方法都依賴于現(xiàn)有的圖像風(fēng)格遷移方法。Ruder等在Gatys等方法的基礎(chǔ)上,加入光流約束計(jì)算運(yùn)動(dòng)物體的邊界,實(shí)現(xiàn)風(fēng)格化視頻的連貫性。雖然這種方法解決了視頻閃爍問(wèn)題,但光流計(jì)算帶來(lái)了更多的計(jì)算開(kāi)銷,降低了風(fēng)格化的速度。Gao等采用CIN進(jìn)行多種風(fēng)格的視頻傳輸,他們結(jié)合了一個(gè)Flow Net和兩個(gè)Conv LST M模塊來(lái)估計(jì)光流并引入時(shí)間約束。然而通過(guò)光流計(jì)算實(shí)現(xiàn)上述時(shí)間約束,光流估計(jì)的精度會(huì)影響風(fēng)格化視頻的相干性。同時(shí)由于使用的基本圖像風(fēng)格遷移方法,風(fēng)格的多樣性也受到限制。Li等以數(shù)據(jù)驅(qū)動(dòng)方式提出一種可學(xué)習(xí)線性變換矩陣的風(fēng)格遷移算法,它能夠?qū)崿F(xiàn)任意圖像與視頻的風(fēng)格遷移。然而,其風(fēng)格遷移后的結(jié)果中的風(fēng)格卻不那么明顯。為了避免使用光流計(jì)算,我們采用深度視頻先驗(yàn)算法,來(lái)實(shí)現(xiàn)穩(wěn)定的生動(dòng)風(fēng)格模式的視頻風(fēng)格遷移。
本文研究?jī)?nèi)容如圖1所示。給定一段N幀視頻序列I,指定一組關(guān)鍵幀I∈I,對(duì)于每個(gè)關(guān)鍵幀I,提供風(fēng)格化后的關(guān)鍵幀S,實(shí)現(xiàn)將S的風(fēng)格遷移到整個(gè)視頻序列I中。Texler提出基于patch的訓(xùn)練策略既不需要冗長(zhǎng)的預(yù)訓(xùn)練過(guò)程,也不需要大量的訓(xùn)練數(shù)據(jù)集。他們展示了僅使用少數(shù)風(fēng)格化的樣例來(lái)訓(xùn)練網(wǎng)絡(luò),實(shí)現(xiàn)視頻風(fēng)格遷移。本研究嘗試應(yīng)用同樣方法來(lái)實(shí)現(xiàn)水墨動(dòng)畫風(fēng)格遷移,但是產(chǎn)生了視頻閃爍的問(wèn)題。因此,本文提出一種新的基于生成對(duì)抗網(wǎng)絡(luò)的方法,實(shí)現(xiàn)水墨動(dòng)畫風(fēng)格遷移。本文方法主要分為三步:首先,采用基于patch的訓(xùn)練策略,擴(kuò)大數(shù)據(jù)集;然后,基于生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)風(fēng)格遷移;最后,將風(fēng)格化后的視頻序列采用深度視頻先驗(yàn)算法,解決生成視頻閃爍問(wèn)題。

圖1 本文研究?jī)?nèi)容
由于采用少量的數(shù)據(jù)集,為了避免網(wǎng)絡(luò)的過(guò)擬合,本文采用基于patch的訓(xùn)練策略構(gòu)建數(shù)據(jù)集(圖2),從關(guān)鍵幀中隨機(jī)采樣較小的矩形patch作為生成器的輸入,將生成的風(fēng)格化圖像分batch饋送給判別器以計(jì)算損失并反向傳播誤差。patch的裁剪是隨機(jī)的,這樣模擬了一個(gè)大且多樣的數(shù)據(jù)集用于訓(xùn)練,防止網(wǎng)絡(luò)過(guò)擬合。這種訓(xùn)練策略類似于Ulyanov等用于紋理合成的訓(xùn)練策略,即在單張樣例圖像上訓(xùn)練具有有限感受野的網(wǎng)絡(luò),然后使用它來(lái)推斷更大的紋理,從而保留樣例圖像的基本低級(jí)特征。這個(gè)關(guān)鍵思想是利用神經(jīng)網(wǎng)絡(luò)的卷積特性——即使網(wǎng)絡(luò)是在較小的patch上訓(xùn)練的,也可以用來(lái)合成較大的圖像。

圖2 基于patch的訓(xùn)練策略
本文模型采用生成對(duì)抗網(wǎng)絡(luò)設(shè)計(jì),包括生成器和鑒別器。生成器學(xué)習(xí)水墨風(fēng)格的數(shù)據(jù)分布,生成水墨風(fēng)格的圖像;鑒別器將生成圖像和真實(shí)圖像作為輸入。通過(guò)學(xué)習(xí)盡可能區(qū)分生成圖像和真實(shí)圖像,生成器最終生成鑒別器無(wú)法區(qū)分的、符合真實(shí)數(shù)據(jù)分布的圖像。
生成器結(jié)構(gòu)如圖3所示,由3個(gè)卷積層、7個(gè)殘差模塊層、2個(gè)上采樣層和2個(gè)卷積層組成。通過(guò)3個(gè)卷積層提取圖像特征,通過(guò)殘差模塊進(jìn)行圖像的風(fēng)格遷移,然后通過(guò)上采樣層還原圖像的特征,最后通過(guò)卷積層生成圖像。除最終輸出層外,所有非殘差卷積層均使用群組歸一化處理 (Group Normalization)和Leaky Rel u激活函數(shù)。采用群組歸一化操作減少batch size的影響,加快網(wǎng)絡(luò)的迭代收斂速度。同時(shí),激活層采用Leaky Rel u函數(shù)解決了正區(qū)間梯度消失和某些神經(jīng)元不被激活的問(wèn)題。最后采用tach激活函數(shù)保證輸出圖像在0到255之間。此外,在生成器網(wǎng)絡(luò)的編解碼器之間增加跳躍連接。通過(guò)跳躍連接,編碼器低層所捕獲的特征可以傳輸?shù)浇獯a器的更高層,為低層特征提供了更快的傳輸通道,減少了低層特征信息在傳輸中的丟失,盡可能地保持圖像內(nèi)容。

圖3 生成器網(wǎng)絡(luò)結(jié)構(gòu)
鑒別器網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,本文使用Patch-GAN模型,前4個(gè)卷積層提取輸入圖像的特征,最后一個(gè)卷積層將其轉(zhuǎn)換為一維特征向量后輸出,實(shí)現(xiàn)判別的目的。

圖4 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)
本文的目標(biāo)是學(xué)習(xí)關(guān)鍵幀X和其水墨風(fēng)格對(duì)應(yīng)幀Y之間的映射函數(shù)F。給定成對(duì)的訓(xùn)練樣本(x,y),其中x∈X和y∈Y,我們學(xué)習(xí)F的目標(biāo)包含三個(gè)不同的損失:用于將生成圖像的分布和風(fēng)格化圖像的分布進(jìn)行匹配的對(duì)抗損失L、直接在風(fēng)格化輸出上計(jì)算的色彩損失L、根據(jù)I mage N-et上預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)提取的特征所計(jì)算的感知損失L。
·對(duì)抗損失L
我們使用以下目標(biāo)函數(shù)對(duì)映射函數(shù)F及其鑒別器D的輸出應(yīng)用對(duì)抗損失,得到更穩(wěn)定的訓(xùn)練。

式 (1)中,X、Y為源域X域和目標(biāo)域Y域;x和y分別是X域圖像和圖像Y域,F為X域到Y(jié)域映射的生成器,D為判別X域到Y(jié)域生成圖像的判別器。x~p(x)和y~p(y)表示數(shù)據(jù)分布。
·色彩損失L
雖然單靠對(duì)抗損失就足以學(xué)習(xí)映射F,但當(dāng)在網(wǎng)絡(luò)輸出和原始風(fēng)格圖像之間計(jì)算額外的L損失時(shí),生成器更好地保持穩(wěn)定和加快訓(xùn)練,如式 (2)所示:

·感知損失L
通過(guò)使用在不同深度的I mage Net上訓(xùn)練的VGG-19模型的特征圖上計(jì)算出的感知損失,可以實(shí)現(xiàn)額外的改進(jìn):

式 (3)中,VGG(·)為第d層的特征圖,Y表示輸入圖片,F(X)表示生成圖片為輸入數(shù)據(jù)。D是VGG-19的深度集,在本文中,D=0,3,5。
·目標(biāo)函數(shù)L
我們最終的目標(biāo)函數(shù)如下:

式 (4)中,超參數(shù)λ、λ和λ是控制三個(gè)損失函數(shù)相關(guān)重要性的權(quán)重因子,它們會(huì)影響不同損失函數(shù)的相對(duì)重要性。
處理時(shí)間一致性是視頻風(fēng)格化方法的中心任務(wù)。當(dāng)獨(dú)立地對(duì)單幀進(jìn)行風(fēng)格化時(shí),生成的風(fēng)格化動(dòng)畫通常包含強(qiáng)烈的時(shí)間閃爍。雖然這種效果對(duì)于傳統(tǒng)的手繪動(dòng)畫來(lái)說(shuō)是很自然的,但是當(dāng)觀看較長(zhǎng)時(shí)間時(shí),觀察者可能會(huì)感到不舒服。本文將上述風(fēng)格遷移后的視頻采用深度視頻先驗(yàn) (Deep Video Prior,DVP)算法來(lái)解決生成視頻閃爍問(wèn)題。DVP指的是在利用視頻來(lái)訓(xùn)練卷積網(wǎng)絡(luò)的過(guò)程中,視頻不同幀之間對(duì)應(yīng)patch的網(wǎng)絡(luò)預(yù)測(cè)輸出是一致的。視頻中的閃爍現(xiàn)象類似于時(shí)域中的 “噪聲”,可以通過(guò)DVP來(lái)進(jìn)行校正。
設(shè)I為時(shí)間步長(zhǎng)為t的輸入視頻幀,通過(guò)映射函數(shù)F可得到相應(yīng)的處理幀P=F(I)。閃爍后處理算法旨在設(shè)計(jì)一個(gè)函數(shù)g為P生成時(shí)間一致的視頻O,算法流程如圖5所示。使用一個(gè)全卷積網(wǎng)絡(luò)g(· ;θ)模仿原始算法F,訓(xùn)練只使用一個(gè)視頻用于訓(xùn)練g,并且在每次迭代中只使用一幀。在訓(xùn)練時(shí)對(duì)g進(jìn)行隨機(jī)初始化,要實(shí)現(xiàn)的目標(biāo)如式 (5)所示:

圖5 深度視頻先驗(yàn)算法

式 (5)中,L測(cè)量g(·;θ)和P之間的距離。當(dāng)O接近P且閃爍被過(guò)度擬合之前,停止訓(xùn)練。在本文中g(shù)采用U-Net網(wǎng)絡(luò),L采用感知損失。
本文實(shí)驗(yàn)硬件環(huán)境使用Intel Xeon E5-2620處理器,內(nèi)存為64GB的NVIDIA TITAN XP顯卡。軟件環(huán)境采用64位Ubuntu操作系統(tǒng),Python 3.7、CUDA 10.2、Py Torch 1.6.0等相關(guān)工具包。使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.004,迭代訓(xùn)練200次。對(duì)于超參數(shù),設(shè)置λ=0.5、λ=2、λ=6,patch size大小設(shè)置為36pix。
為了驗(yàn)證本文提出的方法對(duì)水墨動(dòng)畫的風(fēng)格遷移的有效性,主要進(jìn)行三組對(duì)比實(shí)驗(yàn)定性和定量的評(píng)估本文方法與Texler等的算法。選用動(dòng)畫電影《大魚海棠》的某一分鏡頭作為第一組實(shí)驗(yàn)數(shù)據(jù),總長(zhǎng)9s。使用FFmpeg將分鏡拆分成一幀一幀的圖像,總計(jì)拆成207幀圖像。在這段視頻中,選定關(guān)鍵幀為第1幀、第65幀和第106幀,因?yàn)檫@三幀中人物變化較大。圖6展示了第1幀、第65幀、第106幀的原始圖片和將其分別風(fēng)格化后的風(fēng)格圖片效果。圖7為Texler方法和本文方法實(shí)驗(yàn)結(jié)果對(duì)比圖。從圖7第一、二列可以看到,Texler等的方法沒(méi)有進(jìn)行視頻去閃爍,生成的結(jié)果右上角都存在噪點(diǎn)。第三、四列本文方法生成的圖片效果清晰,在運(yùn)動(dòng)物體上有很好的穩(wěn)定性,能很好地去除閃爍。

圖6 多張關(guān)鍵幀風(fēng)格化成的風(fēng)格圖片效果

圖7 第一組實(shí)驗(yàn)結(jié)果對(duì)比圖
另外選用 《妖貓傳》的一個(gè)分鏡頭作為實(shí)驗(yàn)數(shù)據(jù),總長(zhǎng)為13s,用FFmpeg處理成302幀。因?yàn)檫@個(gè)分鏡場(chǎng)景變化簡(jiǎn)單,所以關(guān)鍵幀只選擇其中一幀,如圖8所示。圖8中對(duì)關(guān)鍵幀采用不同的水墨風(fēng)格,在第二組和第三組對(duì)比實(shí)驗(yàn)中,我們將同一個(gè)分鏡風(fēng)格化成不同的水墨風(fēng)格。圖8(b)的風(fēng)格遷移結(jié)果如圖9所示,第一列Texler等的方法天空出現(xiàn)噪點(diǎn)。圖8(c)的風(fēng)格遷移結(jié)果如圖10所示,可以看到第一列Texler等的方法左上角天空中的云比較模糊。整體上來(lái)說(shuō),本文的方法遷移效果質(zhì)量完成度高,在運(yùn)動(dòng)的物體上具有很好的穩(wěn)定性。

圖8 同一關(guān)鍵幀風(fēng)格化成不同的風(fēng)格圖片效果

圖9 第二組實(shí)驗(yàn)結(jié)果對(duì)比圖

圖10 第三組實(shí)驗(yàn)結(jié)果對(duì)比圖
為了進(jìn)一步驗(yàn)證本文算法的有效性,客觀評(píng)價(jià)Texler等人的方法與本文方法的差異性,將圖7、圖9和圖10三組對(duì)比實(shí)驗(yàn)生成的關(guān)鍵幀,與實(shí)驗(yàn)中提供的風(fēng)格化后的關(guān)鍵幀S(見(jiàn)圖1),使用峰值信噪比PSNR(Peak Signal to Noise Ratio)和結(jié)構(gòu)相似性SSI M(Str uctural Si milarity)進(jìn)行計(jì)算。PSNR用于衡量圖像之間的差異,評(píng)估圖像的生成質(zhì)量,單位為d B。SSI M用來(lái)衡量圖像的結(jié)構(gòu)相似性,按人眼的感受來(lái)衡量?jī)蓮垐D像的相似性,比傳統(tǒng)方式更符合人眼視覺(jué)感知。PSNR和SSI M這兩個(gè)值越大代表風(fēng)格化的圖像質(zhì)量越高。
從表1可以觀察出,在三組對(duì)比實(shí)驗(yàn)中,本文方法在PSNR和SSI M分?jǐn)?shù)都要高一些,說(shuō)明本文方法生成的圖像質(zhì)量更高,生成的圖像與實(shí)驗(yàn)中提供的風(fēng)格化后的關(guān)鍵幀圖像具有更高的相似性。從而驗(yàn)證了本文方法在水墨動(dòng)畫風(fēng)格遷移的有效性。

表1 三組對(duì)比實(shí)驗(yàn)定量分析結(jié)果
除了上述實(shí)驗(yàn)結(jié)果的對(duì)比之外,本文還對(duì)水墨動(dòng)畫風(fēng)格遷移結(jié)果進(jìn)行視覺(jué)質(zhì)量的用戶評(píng)估:讓20名參與者觀看三組對(duì)比實(shí)驗(yàn)的生成結(jié)果。以風(fēng)格化后的關(guān)鍵幀效果為標(biāo)準(zhǔn),每段風(fēng)格化視頻從整體視覺(jué)質(zhì)量和視頻連貫性兩個(gè)方面進(jìn)行評(píng)分,總分為5分。計(jì)算每個(gè)視頻的平均分結(jié)果如圖11所示。根據(jù)評(píng)分結(jié)果來(lái)看,本文算法在兩個(gè)方面的評(píng)分均高于Texler等人的算法。因此,本文提出的基于生成對(duì)抗網(wǎng)絡(luò)的水墨動(dòng)畫電影風(fēng)格化方法,既能表達(dá)令人滿意的水墨風(fēng)格,又能保證生成視頻的連貫性。

圖11 用戶評(píng)價(jià)平均分
現(xiàn)有水墨動(dòng)畫風(fēng)格遷移存在數(shù)據(jù)集不足、生成動(dòng)畫閃爍等問(wèn)題。本文以水墨動(dòng)畫為研究對(duì)象,提出基于生成對(duì)抗網(wǎng)絡(luò)的水墨動(dòng)畫電影風(fēng)格化方法,通過(guò)關(guān)鍵幀的學(xué)習(xí),很好地實(shí)現(xiàn)水墨動(dòng)畫風(fēng)格遷移。針對(duì)數(shù)據(jù)集不足問(wèn)題,采用基于patch的訓(xùn)練策略構(gòu)建數(shù)據(jù)集;針對(duì)生成視頻閃爍的問(wèn)題,提出了加入視頻先驗(yàn)算法進(jìn)行解決。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地將關(guān)鍵幀的風(fēng)格遷移至整段視頻,并產(chǎn)生較好的視覺(jué)效果。
下一步研究將繼續(xù)優(yōu)化算法,整合到水墨動(dòng)畫制作系統(tǒng)中,快速生成高質(zhì)量的水墨動(dòng)畫電影,輔助藝術(shù)家的水墨動(dòng)畫創(chuàng)作。