









摘要 中國傳統山水畫的風格遷移為文化遺產數字化保護與傳承提供了新的路徑,近年來,深度學習技術已實現了不同圖像間的風格遷移,并展現出栩栩如生的效果。中國傳統山水畫的風格遷移旨在繼承中國古代畫家獨特的繪畫技巧,但存在3個缺陷:①缺乏高質量的中國傳統山水畫圖像數據集;②忽略了中國傳統山水畫特有的技法和筆墨細節;③風格遷移效果與真實山水畫有所差距。為了彌補上述缺陷,首先,創建了一個基于風格遷移的中國傳統山水畫數據集STCLP,包含4 281幅高質量的中國山水畫以及自然景觀圖像,并提出了一種基于譜歸一化的中國山水畫風格遷移方法SN-CLPGAN。其次,提出了在生成器中使用融合反射填充層的殘差稠密塊(residual-in-residual dense block, RRDB)學習中國山水畫獨特的筆觸和技法。接著,引入了多尺度結構相似性指數測量(multi-scale structural similarity index measure, MS-SSIM)損失以減少2幅圖像之間的像素差異,使生成圖像更接近傳統繪畫的色彩和顏料。最后,采用了融合譜歸一化(spectral normalization, SN)的U-Net判別器增強圖像紋理細節,并確保了模型訓練過程的穩定性。大量實驗驗證了提出的方法在中國傳統山水畫風格遷移任務中的有效性和先進性。
關鍵詞 風格遷移;人工智能藝術;中國傳統山水畫;生成對抗網絡
中圖分類號:TP391.41" DOI:10.16152/j.cnki.xdxbzr.2025-01-005
SN-CLPGAN: A method of style transfer in Chinese traditional landscape painting based on spectral normalization
HU Qiyao1,2, LIU Qianlong3, PENG Xianlin4, ZHANG Xiang1, PENG Shenglin1, FAN Jianping1,5
(1.School of Information Science and Technology, Northwest University, Xi’an 710127, China;2.Shaanxi Key Laboratory of Higher Education Institution of Generative Artificial Intelligence and Mixed Reality,Xi’an 710127, China; 3.Network and Data Center, Northwest University, Xi’an 710127, China;4.School of Art, Northwest University, Xi’an 710127, China; 5.State-Province Joint Engineering and Research Center of
Advanced Networking and Intelligent Information Services, Xi’an 710127, China)
Abstract The style tranfer of Chinese landscape paintings offering new avenues for the digital preservation and inheritance of cultural heritage. In recent years, deep learning technologies have enabled style transfer between different images, achieving lifelike effects. Style transfer in Chinese landscape paintings aims to preserve the unique paintings skills of ancient Chinese painters, but faces three main challenges: ① The lack of high-quality datasets of traditional Chinese landscape paintings. ② The oversight of the unique techniques and ink details specific to traditional Chinese landscape paintings. ③ The gap between the style transfer outcomes and real landscape paintings. To address these deficiencies, this paper first introduces a Chinese landscape paintings dataset for style transfer, STCLP, which contains 4281 high-quality images of Chinese landscape paintings and natural landscapes." A generative adversarial network of style transfer in Chinese landscape painting based on spectral normalization is proposed, termed SN-CLPGAN.Additionally, it introduces the use of residual-in-residual dense blocks (RRDB) with reflect padding layers in the generator to learn the distinctive brushstrokes and techniques of Chinese landscape paintings. Furthermore, it employs the multi-scale structural similarity index measure (MS-SSIM) loss to minimize pixel-level differences between images, thereby producing images closer to traditional paintings in terms of color and pigmentation. Finally, the U-Net discriminator fused with SN is utilized to enhance the textural details of images, ensuring the stability of the model training process. Extensive experiments validate the effectiveness and advancement of the proposed method in the task of style transfer for Chinese landscape paintings.
Keywords style transfer; artificial intelligence art; Chinese landscape paintings; generative adversarial network
中國傳統山水畫作為中國古代文化與藝術的璀璨珍寶,其聲望不僅源于其反映自然物象的光影變幻與表象細節,更在于其深刻表達了畫家的主觀情緒和精神境界。近年來,隨著深度學習和圖像處理技術的迅猛發展[1-2],風格遷移——即圖像的風格化或非現實渲染,作為深度學習在圖像處理領域的關鍵技術之一,已經成為計算機視覺與傳統繪畫融合的一個創新領域。特別是將這項技術應用于中國傳統山水畫,不僅能在視覺上復現其獨特的藝術韻味,更重要的是,這種結合開辟了中國文化遺產數字化保護和傳承的新路徑。風格遷移技術的發展不僅體現了深度學習在圖像處理領域的應用成就,也彰顯了圖像處理技術與中國傳統繪畫相結合的新可能,為保護和傳播中華文化遺產提供了新的技術手段。
在此背景下,生成對抗網絡(generative adversarial network,GAN)[3]及其后續發展的技術,如CycleGAN[4]和Pix2pixx[5]模型為風格遷移提供了強大的工具。具體地,Goodfellow等人提出GAN模型[3]對圖像風格遷移領域產生了革命性的影響,標志著風格遷移任務進入深度學習的時代;緊接著,Zhu等人提出了CycleGAN框架[4],旨在基于非配對數據集訓練出滿足目標風格的圖像,從而實現風格遷移;Zheng等人提出了一種P2-GAN模型[6],能有效地從單個風格圖像中學習筆畫風格,并實現高質量的圖像風格遷移;Wang等人提出了一種美學風格注意力(Aes-SA)模塊[7],將美學特征納入風格遷移過程,以增強生成圖像的視覺效果。
盡管基于神經網絡的風格遷移技術在自然圖像處理領域取得了非凡的成就,但針對中國傳統繪畫這一特定類別的風格遷移任務絕非易事。為了兼顧圖像生成的質量并保留中國傳統山水畫獨特技法,需要解決以下3個問題:①如何獲取高質量的中國傳統山水畫圖像數據?②如何保留中國傳統山水畫獨特的技法和筆墨細節?③如何使風格遷移自然生動,確保高質量的中國傳統山水畫生成效果?為解決上述問題,我們利用CycleGAN模型設計了一個基于譜歸一化的中國傳統山水畫風格遷移模型,命名為SN-CLPGAN。為了獲得高質量的圖像數據,從多個網站和文化遺產機構收集了4 281幅高質量的自然景觀圖像以及中國歷代傳統山水畫。此外,還進行了圖像增強處理,以確保原始圖像的質量。本文創建的數據集以中國傳統山水畫為特色側重于山、石、樹等具體物象的輪廓細節,以及中國傳統繪畫獨特的筆墨技巧。首先,在生成器模塊中引入了殘差稠密塊(residual-in-residual dense block,RRDB)[8],可以進一步學習山、石、樹木等物象的繪畫技法和筆觸。此外,添加了反射填充層,以避免偽影和光斑,進一步提高生成圖像的質量。其次,采用融合譜歸一化(spectral normalization,SN)[9]技術的U-Net判別器[10],在穩定訓練過程的同時改善圖像恢復的紋理細節信息。最后,引入MS-SSIM(multi-scale structural similarity index measure)損失[11-12],讓模型專注于在亮度、對比度和結構方面約束風格遷移后的圖像,從而使風格遷移生成的圖像更符合人類的視覺感知,更接近中國傳統山水畫所獨有的畫面色彩。借助這些方法,我們成功保留了中國傳統山水畫中獨特的筆墨韻味與細節,從而生成高質量且富有韻味的山水畫。
1 相關工作
傳統的風格遷移方法主要依靠紋理分析和合成技術識別應用源圖像中的風格特征。隨著深度學習技術的迅猛發展,風格遷移迎來了技術革新。相較于傳統方法主要關注紋理轉換,深度學習使得風格遷移技術不僅能夠捕捉到更細膩的風格特征,還能在更廣泛的藝術領域內進行應用[13]。當前,基于深度學習的風格遷移主要分為2大類:基于圖像迭代和基于模型迭代的方法。這些方法通過不斷優化的過程,有效地將一幅圖像的風格遷移到另一幅圖像上。Gatys等人首次提出了基于圖像迭代的圖像風格遷移算法,它是基于深度學習的圖像風格遷移技術的基本理論基礎[14];受Gatys等人開創性方法的影響,結合GAN和成對學習的思想,Zhu等人提出了CycleGAN這一無監督風格遷移方法[4];Chen等人提出一種可以有效捕捉紋理和風格等局部高頻特征的風格遷移方法NiceGAN,但在對全局分布建模時效果不佳[15];Yi等人提出DualGAN,結合了GAN和對偶學習策略,使用多個卷積層構建編碼器,使用多個轉置卷積層構建解碼器,然后使用一個能夠在兩者之間產生變化的深度網絡作為特征轉換器[16];U-GAT-IT[17]則引入注意力機制,并提出了正則化方法AdaLIN,從而構建了一種跨域風格遷移模型。
雖然上述工作取得了一定進展,但也存在提取的圖像內容忽略了細節特征、輸出圖像存在偽影等問題。針對目前風格遷移算法中存在的圖像失真等質量問題,張美玉等人通過將2種特征進行拉普拉斯算子濾波后計算2者的L1誤差,約束了圖像的變化,抑制了偽影生成[18];茹超等人提出了一種顏色遷移算法,重點考慮了邊緣所存在的弱化現象,增強了生成圖像的視覺效果[19];Peng等人提出了一種輪廓增強CycleGAN框架,用于從風景照片到中國傳統山水畫的風格遷移[20];Zhang等人在CycleGAN的基礎上進一步設計了CycleGAN-AdaIN框架,旨在將實景照片轉換為中國水墨畫[21]。盡管基于GAN的風格遷移方法已經取得了令人矚目的成果,但很少有風格遷移技術應用于中國傳統山水畫這一特定領域的相關工作。此外,現有方法很少考慮中國傳統繪畫所具有的獨特筆墨技法,因此,本文提出的中國傳統山水畫風格遷移方法將著力解決上述問題。
2 研究方法
2.1 網絡框架
CycleGAN[4]模型為本文所提出的中國山水畫圖像風格遷移工作奠定了堅實的理論基礎。CycleGAN通過引入循環一致性損失機制,使得模型能夠在沒有一對一配對訓練數據的情況下自行學習圖像間的對應關系,從而有效地處理包括復雜風格遷移在內的圖像到圖像轉換任務。基于此,本文選擇CycleGAN模型作為本文中國山水畫風格遷移模型的骨干網絡。
圖1展示了SN-CLPGAN模型的網絡框架圖,SN-CLPGAN模型由2個鏡像對稱的GAN組成循環結構,其中,每個生成器負責將圖像從X域轉換到Y域或從Y域轉換到X域,而相應的判別器則負責區分轉換圖像與真實圖像,每個方向的轉換由一個改進的生成器和一個改進判別器組成。具體的,改進的生成器由初始卷積塊、下采樣塊、RRDB塊、上采樣塊以及輸出卷積塊5部分組成〔見圖1(b)〕;改進的判別器由融合譜歸一化的U-Net判別器組成〔見圖1(c)〕。每個轉換方向的生成器不僅受到來自其對應判別器的對抗性損失的約束,還受到循環一致性損失的約束。這種循環一致性損失確保從X域到Y域或從Y域到X域的轉換后,再轉換回原始域時,能夠重建接近原始圖像的結果。這意味著,即便是在缺乏一對一配對訓練樣本的情況下,網絡也能學習到2個域之間具有明確意義的映射關系。
此外,引入MS-SSIM損失(multi-scale structural similarity index measure loss,MS-SSIM Loss),以減少2幅圖像之間的像素差異,可以做到生成圖像更接近傳統繪畫的色彩和顏料,從而使得生成的山水畫風格遷移圖像更加生動且自然。
2.2 生成器細節
圖1(b)顯示了SN-CLPGAN網絡模型的生成器結構,該生成器由5個基本模塊組成:①初始卷積塊,由反射填充層、7×7卷積層、實例歸一化層和ReLU激活層組成,用于初始特征提取和消除偽影;②下采樣塊,由3×3卷積層、實例歸一化層和ReLU激活層組成,用于降低圖像的空間分辨率,同時增加特征圖的深度;③RRDB塊,由9個具有殘差密集塊組成,并移除BN層,以進一步細化和增強特征;④上采樣塊,由3×3轉置卷積層、實例歸一化層和ReLU激活層組成,用于恢復圖像的空間分辨率,生成清晰的輸出圖像;⑤輸出卷積塊將上采樣后的特征圖轉換為最終的輸出圖像,并利用Tanh激活函數使得輸出圖像的像素值映射到[-1,1]之間的合理范圍,此外,還負責將多維特征映射轉換成與目標域兼容的圖像。
已有研究實驗表明,使用RRDB塊作為基本塊更有利于模型的表示,并能獲得令人滿意的性能[8]。圖1(d)顯示了RRDB塊的具體細節,RRDB塊結合了殘差網絡(ResNet)和稠密連接網絡(DenseNet)的概念,由若干層卷積和激活函數組成,每一層都與前面所有層直接連接。值得注意的是,RRDB塊移除了批歸一化層(batch normalization, BN)。通過這種結合,既提高了模型的特征學習能力,又保持了網絡的深度和效率。
關于圖像生成任務,多項研究證實引入批歸一化層的性能往往不能令人滿意[22],例如圖像超分辨率[23]和圖像去模糊[24]的任務。因此,移除批歸一化層有助于提高泛化能力,降低計算復雜度和內存使用量。
2.3 判別器細節
原始的CycleGAN網絡采用補丁大小為70×70像素的PatchGAN作為判別器網絡。與全圖像判別器相比,這種補丁級判別器架構的參數較少。然而,由于中國山水畫中存在細粒度的特征信息和豐富的細節區域,對中國傳統山水畫的風格遷移任務提出了新的要求,例如需要處理足夠大的退化空間、理解圖像中復雜的關系、保留細粒度的特征信息以及更穩健的訓練過程等。
鑒于此,本文采用了融合譜歸一化的U-Net判別器穩定訓練動態〔見圖1(c)〕。判別器的激活函數是LeakyReLU,網絡結構采用獨特的跳躍連接。判別器包含10個卷積層,通過這些卷積層,模型能夠逐漸抽取并處理輸入圖像的細粒度特征,第一層和最后一層沒有進行譜歸一化操作,這種設計目的是為了在輸入層允許更多的靈活性和在輸出層保持網絡的判別能力,同時,在中間層通過譜歸一化確保穩定性和有效性。譜歸一化有助于減輕GAN訓練階段所產生的偽影,從而帶來更生動、真實的圖像細節信息。通過這種設計有效地訓練SN-CLPGAN,并在去除偽影的圖像增強效果方面實現局部-全局細節的良好平衡。
2.4 損失函數
對抗損失(adversarial loss)沿用原始GAN的對抗損失方法[3],并將其應用于2個對稱映射函數。例如生成器G有如下映射關系,即G:x→y,對應的判別器為DY。目標損失如式(1)所示。
LGAN(G,DY,X,Y)=Ey~p(y)[log DY(y)]+" Ex~p(x)[log(1-DY(G(x))](1)
式中:G是生成與Y域中的圖像所相似的圖像;DY是判斷生成的圖像G(x)與真實圖像y之間的差異性;E是取得樣本的平均值。
至于另一個生成器F(即F:y→x)及其對應的判別器DX,目標函數LGAN(F,DX,Y,X)的構建過程完全是鏡像對稱的,不再贅述。
循環一致性損失(cycle consistency loss)對抗訓練可以學習映射G和F,并生成與目標域Y和X分布相似的輸出。然而,僅依賴對抗損失無法保證學習到的映射函數能夠精確地將每個輸入Xi映射到一個確切的、預期的輸出Yi,為了彌補這一點,引入了循環一致性損失。X域中的每張圖片x都應能在循環平移中回到原點,反之亦然,即x→G(x)→F(G(x))≈x,y→F(y)→G(F(y))≈y。因此,循環一致性損失函數可以表示為式(2)。
Lcyc(G,F)=Ex~p(x)[‖F(G(x))-x‖1]+" Ey~p(y)[‖G(F(y))-y‖1](2)
本體映射損失(identity loss)旨在保持輸入圖像與輸出圖像之間的顏色一致性。通過這種損失,可以約束生成器G和F,使其在不需要進行域轉換時,避免對輸入圖像的色彩進行自由改變。具體而言,當一張屬于目標Y域的圖像通過映射G進行處理時,或當一張屬于源域X的圖像通過映射F處理時,期望輸出圖像與輸入圖像保持一致,即G(Y)≈Y和F(X)≈X,具體如式(3)所示。
Lidentity(G,F)=Ey~p(y)[‖G(y)-y‖1]+" Ex~p(x)[‖F(x)-x‖1](3)
L1、L2損失函數具體如式(4)、(5)所示。
L1=[SX(]1[]n[SX)]∑[DD(]n[]i=1[DD)]|yi-f(xi)|" (4)
L2=[SX(]1[]n[SX)]∑[DD(]n[]i=1[DD)](yi-f(xi))2(5)
式中:xi表示輸入;f(·)表示網絡;yi表示實際的觀測值。
本文采用了損失函數LSSIM,在考慮的所有指標中展示了其卓越的性能。LSSIM是根據亮度、對比度和結構的SSIM指標制定的,考慮到了人類的視覺感知[25],其廣泛應用于圖像生成和圖像增強任務中,目的是最小化生成圖像與原始圖像之間的結構差異,使生成圖像更接近原始圖像。LSSIM如式(6)所示。
LSSIM(P)=1-2μxμy+C1[]μ2x+μ2y+C1×" 2σxy+C2[]σ2x+σ2y+C2([AKp~D])" (6)
式中:[AKp~D]是補丁P的中心像素;μx、μy表示x、y的均值;σx、σy表示x和y的方差;σxy表示x和y之間的協方差;C1、C2是維持穩定的常數。
多尺度結構相似性(MS-SSIM)是一種評估圖像質量的指標,廣泛應用于圖像重建和超分辨率等領域。MS-SSIM的核心思想是計算圖像在多個尺度上的相似性,具體做法是對原始圖像進行多個下采樣和模糊處理,每個處理產生不同尺度的圖像。對每個尺度計算SSIM分數,然后將這些分數合并,從而得到最終的MS-SSIM值,類似于式(6),具體的損失函數LMS-SSIM-raw如式(7)所示。
LMS-SSIM-raw(P)=1-MS-SSIM([AKp~D])" (7)
無論局部結構如何,L1損失都能以相同的誤差權重保留圖像的色彩和亮度。為了捕捉2種誤差函數的最佳特性,使遷移后的圖像在風格上更加自然,并結合來自不同分辨率的多尺度圖像細節,采用了一種結合LMS-SSIM-raw和L1損失的優化方法。因此,可以得到更新后的LMS-SSIM如式(8)所示。
LMS-SSIM(G,F)=α(1-MS-SSIMX)+" (1-α)L1x+α(1-MS-SSIMY)+" (1-α)L1y(8)
式中:α是LMS-SSIM-raw的權重系數。根據多次實驗結果和超參數靈敏度分析,本文將α的最佳值設為0.16,從而使模型達到最佳性能。
綜上所述,可以得到總體目標損失函數Ltotal如式(9)所示。
Ltotal=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+" λ1Lcyc(G,F)+λ2Lidentity(G,F)" +λ3LMS-SSIM(G,F)(9)
式中:λ1、λ2和λ3為控制不同損失函數相對重要性的權重系數。λ1=10、λ2=5,與CycleGAN中的權重設置一致,通過反復調參并對結果可視化分析,設置λ3=1。
3 實驗與分析
3.1 數據集和實驗環境
本文自建的風景畫圖像數據集STCLP包括風景照片畫和未配對的自然圖像, 該數據集共有4 281幅圖像, 包括2 175幅自然風景照片和2 106幅中國山水畫。用于訓練和測試的數據分別為1 675幅和500幅自然景觀照片以及1 545幅和561幅中國山水畫。在訓練過程中,所有圖像的大小均調整為256×256像素。此外,為了提高模型的訓練效率與生成圖像效果,還進行了旋轉、裁剪等必要的數據增強處理,以確保輸入模型的圖像數據更加均勻和規范化。
本實驗基于Ubuntu 21.10操作系統,該系統配備了24 GiB顯存的RTX-3090顯卡,實驗代碼基于Pytorch和TensorFlow框架實現,模型使用Adam優化器[26],默認學習率設置為0.000 2。
3.2 定性分析
將本文提出的方法與經典的圖像風格遷移模型進行了定性分析與比較,包括原始CycleGAN[4]、NICEGAN[15]、DualGAN[16]和U-GAT-IT[17],可視化結果如圖2所示。NICEGAN方法生成的圖像存在結構失真和內容丟失等嚴重問題;U-GAT-IT方法生成的圖像內容損失、圖像模糊和色彩缺失;DualGAN方法在具體內容保留方面效果顯著,但在圖像紋理風格遷移方面效果不甚理想;原始的CycleGAN方法可視化結果不存在內容結構缺失的問題,但在保持色彩多樣性方面效果不佳。從圖2的第3行可以看出,本文方法能夠較好地學習到山體的細節和邊緣。原始CycleGAN模型對山、石、樹木等具體物象信息的重構效果較差,本文方法引入了RRDB模塊,可以進一步學習山、石、樹木等物象信息的獨特繪畫技法和筆觸。相比之下,本文提出的方法可以做到最大程度保留原始圖像的語義和結構信息,風格遷移效果令人滿意。
3.3 定量分析
為評估本文生成的風格遷移圖像質量,擬采用4種評價指標進行比較分析,包括結構相似性指數(SSIM)、峰值信噪比(PSNR)、Inception分數(IS)[26-27]和神經圖像評估[28](NIMA)。
研究表明,PSNR和SSIM這2個傳統指標與人類對視覺質量的評價存在較低的相關性,基于此,本文引入NIMA作為補充評價指標以進一步評估圖像的美學質量,指標測試結果如表1所示。
圖3是500張測試圖像的NIMA分數直方圖,顯示了NIMA分數的平均值或NIMA分數的差值。在對中國山水像進行風格遷移的實驗中,本文提出的方法在SSIM和IS評分上優于對比方法。這表明本方法在保持圖像結構相似性及生成圖像的多樣性和清晰度方面具有顯著優勢。雖然U-GAT-IT在PSNR指標上表現最佳,反映了其在保持生成圖像與目標圖像像素級差異方面的能力,但在保持圖像結構、多樣性和清晰度方面表現不如本文方法。綜上所述,相比傳統風格遷移方法,本文方法展現出顯著的性能優勢。
圖4顯示了不同方法生成的風格遷移圖像的NIMA分數與可視化效果圖,分數越高說明生成的風格遷移圖像質量越好。
3.4 消融研究
為了進一步評估本文算法在風格遷移方面的性能,并證明每個模塊的有效性,構建了5個變體模型:①SN-CLPGAN w/o RRDB& MS-SSIM;②SN-CLPGAN w/o SN&RRDB;③SN-CLPGAN w/o SN&MS-SSIM;④SN-CLPGAN w/o RRDB;⑤SN-CLPGAN w/o MS-SSIM。 表2統計了5個模型在SSIM、 PSNR、 IS和NIMA這4個指標上的評分情況, 粗體顯示最佳實驗結果。 可以看出, 本文模型在SSIM、IS和NIMA 3項指標上都取得了最佳結果, 而本文方法在移除RRDB模塊的情況下, PSNR指標取得了最佳結果, 說明此種情況下添加RRDB模塊會對模型的準確表達造成一定負面影響。 然而, 從圖5消融研究的可視化效果展示圖可以看出, 盡管第6列(SN-CLPGAN w/o RRDB模型)的PSNR分值最高,但存在明顯偽影和亮點。第4列(SN-CLPGAN w/o SN&RRDB模型)中的PSNR值是次優的。實驗結果表明,PSNR分數與人眼看到的視覺質量并不完全一致,較高的PSNR可能比較低的PSNR看起來更糟糕。
從圖5第1行可以看出,本文提出的方法可以有效學習傳統山水畫中獨特的繪畫技法和細粒度紋理細節。從圖5中的消融實驗結果來看,加入LMS-SSIM損失函數可以有效減少2幅圖之間的像素差異,更加接近傳統畫家所使用的豐富色彩和顏料,同時,還能為生成的圖像帶來更好的色彩對比度、飽和度和豐富度。引入RRDB模塊,添加反射填充層可以進一步學習山、石、樹等物體的繪畫技巧和筆觸。此外,還添加了反射填充層,以避免偽影和光斑,進一步提高生成圖像的質量。鑒于高頻紋理特征會在圖像轉換過程中丟失,使用帶有譜歸一化操作的U-Net判別器可以改善紋理恢復效果。本文方法的每項改進都會影響網絡的性能,2項改進的疊加也會比1項改進取得更好的效果。
圖6展示的可視化效果則進一步說明添加LMS-SSIM損失函數可以有效減少2張圖之間的像素差異,更接近傳統畫家使用的豐富色彩和顏料。從第3列的圖片對比可以看出,本文方法學習到了房屋、屋頂和樹木倒影等高頻紋理細節特征。第4列的圖片顯示,本文方法可以有效模仿湖水和草原的色彩效果,說明了圖像生成效果更符合中國山水畫的藝術風格。
3.5 其他數據集上的實驗
我們采用源自谷歌藝術與文化項目的Painting by Numbers數據集,從該宏大的數據庫中隨機抽樣了4 281幅作品,構建了一個數據子集,其中訓練集包含3 220幅圖像,測試集包含1 061幅圖像。在確保所有訓練參數固定不變的嚴謹條件下,我們對模型重新訓練,測試結果如圖7所示。實驗結果表明本文模型不僅成功學習到了清晰的藝術風格特征,并且在將這些風格應用于風景畫的處理上達到了預期目標。通過對風格化處理的位置與強度的合理控制,最終生成的圖像自然流暢、藝術效果顯著,該結果有效驗證了本文方法的有效性與可行性。
4 結語
本文創建了一個傳統中國山水畫風格遷移數據集STCLP,并設計了一種創新的風格遷移模型SN-CLPGAN。該模型通過融合反射填充層和殘差稠密塊(RRDB)構建的生成器,以及集成譜歸一化技術的U-Net架構判別器,加之圖像生成損失函數LMS-SSIM,在捕捉具體山水畫中物象的細節和邊緣處理方面取得了顯著進步,并且在紋理細節的再現上展示了優秀的性能。實驗結果充分驗證了本文方法在進行中國山水畫風格遷移任務方面的有效性與先進性。
中國山水畫風格遷移的研究不僅推動生成式計算機視覺技術在中國古典文化創作領域的應用,也為文化遺產數字化保護與傳承開辟了新的道路[29]。未來計劃探索去噪擴散概率模型[30]與傳統中國山水畫風格遷移的結合,目的在于進一步提升圖像生成能力,并實現更加令人滿意的風格遷移效果。
參考文獻
[1] 彭進業, 余喆, 屈書毅, 等. 基于深度學習的圖像修復方法研究綜述[J]. 西北大學學報(自然科學版), 2023,53(6):943-963.
PENG J Y, YU Z, QU S Y, et al. A survey of image inpainting methods based on deep learning[J]. Journal of Northwest University (Natural Science Edition), 2023,53(6):943-963.
[2] 胡琦瑤,楊皓文,王佳欣,等.基于弱監督深度學習的圖像檢索技術研究[J].西北大學學報(自然科學版),2020,50(5):793-801.
HU Q Y, YANG H W, WANG J X, et al. Research on image retrieval based on weakly-supervised deep learning[J].Journal of Northwest University(Natural Science Edition), 2020, 50(5): 793-801.
[3] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[EB/OL].(2014-06-10)[2024-04-10]. http:∥arxiv.org/abs/1406.2661.
[4] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2242-2251.
[5] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5967-5976.
[6] ZHENG Z T, LIU J Y, ZHENG N N. P2-GAN: Efficient stroke style transfer using single style image[J].IEEE Transactions on Multimedia, 2023, 25: 6000-6012.
[7] WANG Z Z, ZHANG Z J, ZHAO L, et al. AesUST: Towards aesthetic-enhanced universal style transfer[C]∥Proceedings of the 30th ACM International Conference on Multimedia. Lisboa: ACM, 2022: 1095-1106.
[8] WANG X T, YU K, WU S X, et al. ESRGAN: Enhanced super-resolution generative adversarial networks[C]∥Computer Vision-ECCV 2018 Workshops. Cham: Springer International Publishing, 2019: 63-79.
[9] WANG X T, XIE L B, DONG C, et al. Real-ESRGAN: Training real-world blind super-resolution with pure synthetic data[C]∥2021 IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 1905-1914.
[10]RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[M]∥Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham: Springer International Publishing, 2015: 234-241.
[11]MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[EB/OL]. (2018-02-16)[2024-04-10]. https:∥arxiv.org/abs/1802.05957.
[12]ZHAO H, GALLO O, FROSIO I, et al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging, 2017, 3(1): 47-57.
[13]孟憲佳, 傅利平, 劉棟, 等. 高性能計算發展現狀及其在文化遺產保護中的應用展望[J]. 西北大學學報(自然科學版), 2021,51(5):807-815.
MENG X J, FU L P, LIU D, et al. Development status of high performance computing and its application prospect in cultural heritage protection[J].Journal of Northwest University (Natural Science Edition), 2021, 51(5): 807-815.
[14]GATYS L A, ECKER A S, BETHGE M, et al. Texture synthesis using convolutional neural networks[C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal: ACM, 2015: 262-270.
[15]CHEN R F, HUANG W B, HUANG B H, et al. Reusing discriminators for encoding: Towards unsupervised image-to-image translation[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 8165-8174.
[16]YI Z L, ZHANG H, TAN P, et al. DualGAN: Unsupervised dual learning for image-to-image translation[C]∥2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2868-2876.
[17]KIM J, KIM M, KANG H, et al. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[EB/OL]. (2020-04-08)[2024-04-10]. https:∥arxiv.org/abs/1907.10830v4.
[18]張美玉,劉躍輝,秦緒佳,等.基于拉普拉斯算子抑制偽影的神經風格遷移方法[J].計算機科學,2020,47(S2):209-214.
ZHANG M Y, LIU Y H, QIN X J, et al. Neural style transfer method based on Laplacian operator to suppress artifacts [J]. Computer Science, 2020, 47(S2): 209-214.
[19]茹超,周延,陳曉璇,等.一種面向文本圖像的顏色遷移算法[J].西北大學學報(自然科學版),2017,47(6):815-821.
RU C, ZHOU Y, CHEN X X, et al. A color transfer algorithm for text image[J].Journal of Northwest University(Natural Science Edition), 2017, 47(6): 815-821.
[20]PENG X L, PENG S L, HU Q Y, et al. Contour-enhanced CycleGAN framework for style transfer from scenery photos to Chinese landscape paintings[J]. Neural Computing and Applications, 2022, 34(20): 18075-18096.
[21]ZHANG F Q, GAO H M, LAI Y P. Detail-preserving CycleGAN-AdaIN framework for image-to-ink painting translation[J]. IEEE Access, 2020, 8: 132002-132011.
[22]IOFFE S, SZEGEDY C, PARANHOS L, et al. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL]. (2015-03-02)[2024-04-10]. https:∥arxiv.org/abs/1502.03167v3.
[23]LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 1132-1140.
[24]NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE," 2017: 257-265.
[25]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[26]KINGMA D P, BA J, HAMMAD M M. Adam: A method for stochastic optimization[EB/OL]. (2017-01-30)[2024-04-10]. https:∥arxiv.org/abs/1412.6980v9.
[27]CHONG M J, FORSYTH D. Effectively unbiased FID and inception score and where to find them[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6069-6078.
[28]TALEBI H, MILANFAR P. NIMA: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3998-4011.
[29]孫滿利, 張景科. 文物保護學的理論探討[J]. 西北大學學報(自然科學版), 2022,52(2):192-198.
SUN M L, ZHANG J K. Theoretical discussion on conservation of cultural heritages[J].Journal of Northwest University (Natural Science Edition), 2022, 52(2): 192-198.
[30]HO J, JAIN A, ABBEEL P, et al. Denoising diffusion probabilistic models[C]∥Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver:ACM, 2020: 6840-6851.
(編 輯 李 靜)
基金項目:國家自然科學基金(62471390、62306237);陜西省重點研發計劃(2024GX-YBXM-149);西北大學研究生創新項目(CX2024204、CX2024206)。
第一作者:胡琦瑤,女,講師,從事人工智能藝術、AIGC研究,huqiyao@nwu.edu.cn。
通信作者:彭先霖,男,副教授,從事文化遺產數字化保護研究,pxl@nwu.edu.cn。