盧 鵬,陳金宇,鄒國良,萬 瑩,鄭宗生,王振華
上海海洋大學 信息學院,上海 201306
如今,機器學習技術已經被廣泛地用于漢字的識別和分類的問題上,但是很少有人研究漢字生成的問題。對于漢字生成的研究主要旨在解決快速構建個人手寫字體庫以及快速設計新的個性化風格漢字時,減少人員手寫量巨大的問題。對于個性化英語字體的生成,只需要涉及到26個字母。而中文有超過80 000個字符,對于生成個性化的手寫漢字來說,至少要涉及到3 000個最常用的漢字[1]。因此,生成個性化手寫漢字比生成其他語言更具有挑戰性。為了滿足生成個性化手寫漢字的需求,需要一種能夠基于相對較少的訓練漢字數據集自動生成具有個性化手寫風格漢字的方法。
手寫漢字的生成沒有像數字、英文那樣被廣泛研究,但是仍然有一些針對手寫漢字生成的方法。前期,漢字生成模型的研究主要注重筆畫和漢字組件的拆分和重構。將標準字體和目標字體分解成若干組件,利用漢字部件拼接來生成漢字。StrokeBank[2]使用了半監督算法,將漢字分解成一個組件樹。這種方法只關注漢字的局部結構,不關注漢字的整體風格,需要為每個新生成的漢字調整筆畫的形狀、大小和位置。因此,在縮放拼接后,會導致漢字筆畫的一致性產生失真,需要人工干預保證提取結果的正確性,對于個性化手寫漢字的快速生成并不可行。
FlexiFont[3]系統是將照相機中拍攝的漢字圖像生成個人字體庫。首先,FlexiFont將用戶的手寫漢字照片進行分割,然后對每個漢字圖像進行去噪、矢量化和歸一化的處理,最后將其存儲在TrueType文件中。EasyFont[4]是基于樣式學習可以構建手寫漢字的系統。該系統包含有效的筆劃提取算法,該算法從受過訓練的字體骨架流形來構建最合適的參考數據,然后通過非剛性點集配準的方法,在目標漢字和參考漢字之間建立對應關系。同時,該系統可以學習和恢復用戶的整體手寫風格和具體的手寫行為。
Zhang等人[5]使用遞歸神經網絡(recurrent neural network,RNN)進行端到端在線手寫漢字生成的工作,將筆尖移動(x、y坐標)和筆狀態(向下或向上)自動存儲為可變長度的順序數據。該模型對英文手寫的識別和生成非常有效,對漢字輪廓的描述不夠理想,訓練時間漫長。Tian[6]使用了傳統的卷積神經網絡(convolutional neural networks,CNN)結構,設計了一種“Rewrite”的網絡結構,能夠生成較標準的字體,但是對于轉化風格跨度較大的漢字有很大的缺陷。還有研究者[7]使用“U-Net”[8]基本模型并添加獨熱編碼實現漢字風格的轉換。
相比之下,使用有監督圖像翻譯原理的漢字風格遷移模型zi2zi[9]來生成漢字,會更注重漢字的整體結構特征。Zi2zi利用成對的漢字圖像作為訓練數據來轉換字體風格,并添加了多種字體的類別嵌入,使該模型通過一次訓練就將原始漢字轉換為幾種不同的字體。然而,在數據集采集的過程中,要求用戶寫出大量的成對漢字是不切實際的,工程量非常大,需要消耗很多的時間和精力。所以,對于快速生成個性化手寫漢字的問題,使用非成對的漢字數據集更合適。
本文以無監督圖像翻譯模型CycleGAN[10]為基礎,提出一種結合注意力機制和自適應歸一化的無監督個性化手寫漢字圖像生成方法,本文的主要工作如下:
(1)改進生成器,引入了注意力機制和自適應歸一化層。注意力機制是為了在漢字風格轉化的過程中提升漢字圖像中有用的特征,抑制對當前任務用處不大的特征。自適應歸一化層是為了指導殘差塊對生成漢字的樣式進行加強。通過這兩種方法,生成器提高了生成手寫漢字圖像的質量。
(2)改進判別器,利用輸入數據一半為真一半為假的先驗知識,結合最小二乘法損失函數,從一定程度上解決了訓練過程中模型的不穩定。同時,改善了當生成器優化良好時,判別器無法判別真偽的問題。
圖像翻譯(image-to-image translation)[11]是一類將源圖像域作為輸入轉化為目標圖像作為輸出的計算機視覺處理任務,主要應用于圖像風格轉換[12]、圖片復原等領域。具體的應用包括:虛擬換衣[13]、姿勢轉換[14]等。生成對抗網絡(generative adversarial networks,GANs)[15]作為當前圖像翻譯任務的主流模型,通過生成器和判別器之間的零和博弈,提高判別器鑒別真偽的能力,指導生成器學習真實的數據分布從而生成逼真圖像。
根據訓練數據集中源圖像和輸出圖像的對應關系,圖像翻譯分為有監督和無監督兩種[16]。有監督圖像翻譯需要一一配對的訓練圖像集,一般都是基于條件生成對抗網絡(conditional generative adversarial networks,CGANs)[17]為基礎結構改進的。Pix2pix[11]就是典型的有監督圖像翻譯的方法,它在保持圖像結構一致性的情況下完成有標注的成對圖像數據間的風格轉換工作。而無監督圖像翻譯方法不需要使用大量配對的訓練數據集,訓練集中的源圖像和輸出圖像不必擁有明確的對應關系,就能夠較好地建立不同圖像域之間相互映射關系。CycleGAN、DualGAN[18]以及DiscoGAN[19],它們都是利用循環一致性作為約束條件來保留圖像內容結構信息。而UNIT[20]利用共享中間層的網絡權重,在生成器中的編碼器結構提取不同圖像域共享的低維潛在向量后,使用對應的解碼器結構建立低維潛在向量與各個圖像域的映射關系,完成無監督圖像翻譯。
當前的無監督圖像存在一定的缺點,使它無法生成高質量的圖片。首先,無監督的圖像翻譯訓練數據中沒有配對的目標圖像,翻譯過程中目標圖像域信息定位不準確,存在無關圖像域信息改變。所以在翻譯效果、生成圖像質量以及模型訓練方面存在不足。其次,當前生成對抗網絡博弈對抗過程中,生成器要盡可能地生成能騙過判別器的高質量圖片,而判別器要盡可能把真實樣本分為正例,生成樣本分為負例。因此就會存在無法平衡生成器和判別器的缺點。當判別器訓練的足夠好時,生成器就會完全學不動;當生成器訓練得足夠好時,判別器就無法判別生成的偽圖像的真偽。這些缺點都阻礙了無監督圖像翻譯模型生成更高質量的圖片。
注意力機制(attention mechanism)[21]應用于遞歸神經網絡和長期短期記憶(long short-term memory,LSTM)中,以解決機器翻譯和自然語言處理方面的任務。之后被逐漸應用在計算機視覺中。注意力機制被分為兩種[22],一種是柔性注意力(soft attention),它通過強化學習,使用基于梯度下降的方法,利用目標函數或者相應的優化函數來進行,學習完成后直接可以通過網絡生成。另一種則是硬性注意力(hard attention),將更多的注意力放在點上。
在計算機視覺中,注意力機制實際上是為了模仿人類觀察物品的方式。當人們在觀察一張圖片的時候,除了從整體把握一幅圖片之外,也會更加關注圖片的某些局部特征。因此,注意力機制其實包含兩個部分,首先,注意力機制需要決定哪個部分需要更加關注;其次,從關鍵的部分進行特征提取,得到重要的信息。Fu等人[23]提出了循環注意力卷積神經網絡(recurrent attention convolutional neural network,RA-CNN),該模型遞歸地分析圖片中的局部信息,從局部的信息中提取必要的特征。Vaswani等人[24]提出的自注意力機制,計算的是同一張圖片中不同位置之間的注意力分配,從而提取該圖片的特征。自注意力機制在生成對抗網路中解決了卷積神經網絡的局部視野域問題,使得每個位置都可以獲得全局的視野域。
在深度學習中,歸一化用來解決梯度爆炸和梯度消失的問題。最常用的圖像歸一化方法有:批歸一化[25](batch normalization,BN),層歸一化[26](layer normalization,LN),實例歸一化[27](instance normalization,IN),組歸一化[28](group normalization,GN)等。不同的歸一化操作之間的區別是歸一化的維度不同,導致操作后的效果不同。
批歸一化逐漸變成構建深度神經網絡的基本要素,它把每層神經網絡任意神經元的輸入值分布強行拉回到均值為0方差為1的標準正態分布。批歸一化是在同一個批量中,將所有樣本的同一層特征圖抽出來計算特征統計量。層歸一化和組歸一化都是批歸一化的變體,主要是為了減少批歸一化對固有的最小批量的依賴關系。實例歸一化是通過調整每個實例的特征統計量來規范圖像樣式,一般用于樣式轉換和圖像翻譯之類的圖像生成任務。之后,有研究者提出了批實例歸一化[29](batch-instance normalization,BIN)。這種歸一化結合了批歸一化和實例歸一化的優點,考慮到某些樣式在判別任務中起著至關重要的作用,BIN會保留維護有用的樣式,同時選擇性地規范不必要的樣式。所以,BIN可以適應不同的圖像任務。
本文設計的模型是基于CycleGAN網絡結構,它無需使用一一配對的訓練數據集,就能夠完成無監督的圖像翻譯任務。在此基礎上,設計了漢字樣式風格遷移的網絡模型,將現有印刷字體到個性化手寫漢字樣式映射過程的問題公式化。
模型整體結構如圖1所示。X與Y分別代表兩組不同樣式的漢字圖像集合,模型的主要結構是由兩個生成式對抗網絡組合而成。第一組生成式對抗網絡是生成器G與鑒別器Dy,G盡可能地生成能騙過判別器Dy的圖像,Dy用于判斷偽圖像是否屬于圖像域Y;第二組反向的生成器F與鑒別器Dx也具有相同的過程。在判別器網絡中使用了PatchGAN[10],它將輸入的真實圖像或生成圖像劃分為N×N的多個區域,分別對每個區域進行真偽判斷。

圖1 模型整體結構圖Fig.1 Network architectures
生成器G和F能夠分別產生很多與目標域X和Y具有相同特征分布的輸出。所以,僅使用生成對抗損失并不能保證所學習的函數能夠將單個的輸入x i映射到所需的輸出yi。為了進一步縮小可能映射函數的空間,在轉換圖像域的過程中,保留循環一致性[30]對生成結果的影響,減少了無關圖像域的變化,指導整體模型建立圖像域之間映射關系,完成無監督漢字圖像風格遷移。對于X域中的每個源圖像x,要保證x→G(x)→F(G(x))→x,G(x)能通過生成器F得到重構圖像,并且F(G(x))≈x。對于Y域中的每個源圖像y,保證:y→F(y)→G(F(x))→y。
為了在漢字圖像域轉換過程中提高生成漢字圖像真實性,獲取高質量的個性化手寫漢字圖像,本文的生成器引入了注意力機制和自適應歸一化層。本文的生成器由三部分組成,分別為:由卷積神經網絡組成的下采樣區域,由殘差塊[31]、注意力機制和自適應歸一化層組成的中間區域以及上采樣區域。模型的具體結構如圖2所示。

圖2 模型總體結構Fig.2 Model structure
2.2.1注意力機制
僅憑借每一層的卷積操作,只能在局部感受野上進行特征融合,無法充分開發通道之間的相關性。添加的注意力機制關注了通道之間的相關性,通過有效的學習方式來自動獲取到每個特征通道的重要程度,然后依照這個重要程度去提升有用的特征并抑制用處不大的特征。所以,在生成器的殘差塊之后,用SENet[32]模型方法的注意力機制去挖掘通過下采樣過程后仍然存在的隱式的全局的特征。具體注意力機制塊結構如圖3所示。

圖3 注意力機制塊Fig.3 Attention mechanism block

對于一個空間尺寸大小為H×W的輸出U,首先會對其順著空間維度來進行特征壓縮,即將H×W×C壓縮成1×1×C,尺寸大小壓縮成一維,這個一維參數某種程度上代表了之前特征通道上全局的分布,使得靠近輸入的層可以獲得全局的信息以及相關性,其中z∈?C:

得到了全局描述特征,接著是抓取通道之間的關系,學習各個通道之間的非線性關系。它是一個類似于門的機制。通過參數W來為每個特征通道生成權重,即對每一個通道的重要性進行預測,得到不同通道的重要性大小之后在作用到之前對應的通道上:


最后,通過乘法逐通道加權到先前的特征上,完成在通道維度上的對原始特征uc的重標定:

通過這樣的注意力機制結構,提取到了隱藏在特征通道中重要的特征和圖像信息。
2.2.2自適應標準化層
每個特征圖所攜帶的信息可以分為兩個部分:內容和形狀。在漢字圖像的提取上,實例標準化可以規范每個漢字圖像的樣式,保持每個圖像實例之間的獨立性。盡管它有助于減少不良的樣式變化,但是卻產生了通道之間的不相關性,可能會導致信息的丟失。層標準化針對單個漢字圖像訓練樣本的所有維度做歸一化,將同一個樣本中的特征處理到同一區間中。
本文使用了一種自適應標準化層,結合了實例標準化和層標準化,用它們共同指導后續的殘差塊進行工作,能靈活地針對每種樣式的學習都有一組不同的參數。自適應標準化層的體系結構示例如圖4所示。這種自適應標準化層既考慮了漢字圖像樣式,又考慮了特征通道的相關性,靈活控制漢字圖像形狀與紋理的變化。實例標準化和層標準化如公式(5)、(6)計算,x∈?H×W×C,h、w表示為空間位置,c為通道索引:

圖4 自適應標準化層Fig.4 Adaptive normalization layer

在公式(7)和(8)中,γ和β是多層感知機(multi-layer perceptron,MLP)生成的參數,η是學習速率,Δα表示參數更新向量。通過在參數更新步驟中施加限制,α被限制在[0,1]之間,它決定是維持還是放棄每個通道的樣式變化。如果樣式對當前任務很重要,則將增加至1。如果該任務不需要樣式或干擾了當前的任務,則對應的將接近0。
通過自適應標準化層之后,使用最近鄰插值的上采樣和卷積層組成的編碼器來進行圖像的生成。當卷積核大小不能被步長整除時,使用轉置卷積會產生不均勻的重疊現象。多層轉置卷積的堆疊使用,不均勻的重疊部分就會層層傳遞,造成生成的圖片帶有明顯的棋盤狀偽影,從而影響圖片的質量。因此,使用最近鄰插值的上采樣避免了產生圖片偽影,從而生成高質量的圖片。
定義pdata(x)表示圖像域X的樣本分布,pdata(y)表示圖像域Y的樣本分布,以生成器G和判別器DY為例,使用真實圖像y和生成圖像G(x)對DY進行訓練,并將DY對G(x)的判定結果反饋給G來指導其訓練,生成對抗損失[10]為:

原始的生成對抗損失使用的是Sigmoid函數。Sigmoid函數只會關注樣本的真假,會迅速忽略樣本到決策邊界的距離,不會懲罰遠離決策邊界的樣本。本文借用了最小二乘生成對抗損失[34],對處于判別成真的但是遠離真實樣本的假樣本進行懲罰,把遠離決策邊界的假樣本拖進決策邊界,從而提高生成圖片的質量。
本文在此基礎上,還借鑒了相對鑒別生成對抗損失[35]。在沒使用相對鑒別生成對抗損失之前,對于圖像域X來說,當經過生成器G訓練之后生成的假樣本G(x)足夠真實的時候,判別器DY對真實圖像x和偽圖像G(x)的判別值是近似的。判別器DY不知道輸入中一半是真實數據一半是假數據,就會判別所有DY(G(x))≈DY(y)≈1。但實際情況并不是如此。因此,需要讓判別器DY知道輸入數據一半為真一半為假的先驗知識,將絕對真假變成相對真假。于是將DY(y)改成(DY(y)-DY(G(x))),DY(G(x))改成(DY(G(x))-DY(y))從而改進最小二乘為基礎的生成對抗損失函數:

作用于圖像域Y,生成器F生成圖像的F(y),判別器DX對真實圖像y和偽圖像F(y)進行判別。將DX對F(y)的判定結果反饋給F來指導網絡進行訓練也是如此。
為了保證減少了無關圖像域的變化,還繼承了循環一致性。在循環一致性中,使用L1函數:

因此,該模型總目標函數為:

其中λ為循環一致性損失相對于對抗損失的權重比例超參數。本文的模型旨在解決:

本文借用了CASIA-HWDB數據集[36]以及《蘭亭序》書法作為數據集,通過使用原始的CycleGAN以及改進后融合了注意力機制和自適應歸一化層的模型進行了對比實驗,驗證了本文方法的有效性。數據集具體說明如下:
(1)CASIA-HWDB數據集:CASIA-HWDB數據集是由中國科學院自動化研究所的國家模式識別國家實驗室建立的離線中文手寫數據庫。如今,它被用于中文手寫字符識別任務中。該數據集是由1 020位作家使用Anoto筆在紙上制作的孤立字符和手寫文本的樣本。本文使用來自CASIA-HWDB的HWDB1.1數據集,其中包括來自300個人書寫的漢字的文件。每個文件包含由一位作者書寫3 755個孤立的灰度漢字圖像及其相應的標簽。將這些孤立的漢字圖像調整為256×256像素大小。除了調整大小外,不執行其他數據預處理。為了生成手寫漢字,使用HWDB1.1數據集中的文件HW011(1011-c.gnt)作為目標漢字樣式,使用魏碑字體作為源樣式。
(2)蘭亭序書法數據集:中國書法是一種美學上令人愉悅的書寫形式,在中國文化中占有很高的地位。王羲之被認為是中國歷史上最偉大的中國書法家之一。本文借用了王羲之一生中最著名的書法作品《蘭亭序》作為數據集。它是由324個半草書風格的漢字組成,其中的每個漢字都被掃描并分割開,使用中值濾波將它們進一步二值化和去噪。最后,將這些漢字填充為正方形并調整為256×256像素大小,所得的數據集稱為蘭亭書法數據集。同樣使用魏碑字體作為源樣式。
本文實驗運行環境為Ubuntu 16.04 LTS,使用的處理器為Intel Xeon E5-2678 v3 CPU@2.50 GHz,GPU為NVIDIA GeForce GTX 1080Ti。開發框架是在python 3.7.4,Tensorflow1.14.0上進行。
輸入圖像和輸出圖像尺寸設置為256×256的像素大小,沒有使用其他預處理方法處理漢字數據集(例如裁切和翻轉),并將圖片轉化成TFRecord格式進行讀取操作。在網絡結構中,使用實例歸一化。在生成器網絡中,殘差塊數量為8,其中包括4個由自適應歸一化層指導的殘差塊;判別器PatchGAN的判別區域設置為70×70。對于所有實驗,正則化強度設置為10,采用Adam[37]算法對訓練過程中的梯度下降進行優化,指數衰減率beta1設定為0.5。前100個迭代中,學習率設置為0.000 2,之后線性衰減為0。
使用生成對抗網絡所生成的圖像,其質量是一個非常主觀的概念。不夠清晰的圖片和線條清晰但“非常奇怪”的圖片都應該屬于低質量的圖片,但是計算機很難識別這樣的問題,所以缺乏客觀的評估標準。需要一個可計算的定量指標來衡量生成手寫漢字方法的性能。
使用互補的評估指標:內容準確性和風格差異性,來衡量和比較本文方法與原始CycleGAN的性能。在CASIA-HWDB數據集上,兩種評估都基于預先訓練的基于GoogLeNet的手寫漢字分類模型網絡。
(1)內容準確性。本文使用經過預訓練的GoogLeNet模型來評估生成的手寫漢字的內容質量。使用CASIAHWDB1.0-1.2手寫字符數據庫訓練的,其中包括HW011。預訓練的GoogLeNet達到了漢字分類較高準確性。從理論上來說,如果通過網絡生成的漢字足夠真實,那么經過預訓練的GoogLeNet可以對生成的漢字進行正確的分類。在此任務中,生成的漢字是從源樣式中可用的漢字圖像生成的,如果生成的漢字可以通過預訓練的模型準確分類,則在某種程度上表明該方法在生成漢字的內容上具有較高的準確性。
表1顯示了本文方法在以HW011手寫漢字和魏碑為基準的GoogLeNetTop-1和Top-5的分類準確性。Top-1正確率指的是與實際結果一致的排名最高的類別的準確率,Top-5正確率指的是包含實際結果的前5個類別的準確率。較高的準確率表明以GoogLeNet分類準確性作為內容上的判斷指標是可靠的。但是,分類的準確性僅從內容方面衡量了生成漢字的質量,而忽略了生成漢字的樣式是否與原本數據集中的樣式相似。因此,GoogLeNet在生成的手寫漢字上的識別精度被稱為內容準確性。

表1 以兩種字體為基準的GoogLeNet分類準確性Table 1 GoogLeNet classification accuracy based on two fonts %
(2)樣式差異性。為了測量源圖像字體和目標圖像字體之間樣式的差異性,借用了風格損失[38]的方法。對于圖像風格損失,一般會將提取到的特征轉換為Gram矩陣,用Gram矩陣來表示圖像風格。其中卷積層的輸出為表示是l層的第i行第j個特征向量化后的內積:


因此,樣式差異定義為目標漢字樣式和生成漢字樣式之間的均方根差。在本文中,使用GoogLeNet中的Inception模塊3的輸入作為層來計算樣式差異。運行了兩個基準實驗,以大致了解漢字樣式差異的范圍。
①樣式差異的最小值。HW011中的所有漢字均由同一人書寫,因此具有相同的書寫風格。將其隨機且均等分割成兩個子集。這兩個子集之間樣式差異的均方根誤差就是樣式差異的最小值,樣式差異的下限為516.53。
②樣式差異的最大值。HW011和魏碑是兩種完全不同的字體樣式。它們之間的差異是源字體和目標字體之間的樣式差異,代表了樣式中最可能出現的差異。因此,HW011和魏碑之間的樣式丟失的均方根誤差為樣式差異的最大值。樣式差異的上限為3 023.82。
3.4.1蘭亭序書法數據集
在此實驗中,使用魏碑作為源字體,蘭亭序書法作為目標字體,從中選取的漢字圖片不是一一匹配的。圖5顯示了蘭亭序書法數據集中前四個漢字的真實圖像,對應的魏碑風格以及通過兩種不同方法生成的漢字。

圖5 漢字“永和九年”Fig.5 Chinese characters“Yong He Jiunian”
可以看出,本文方法和CycleGAN都抓住了王羲之整體的書寫風格,并產生了合理的輸出。但是,用本文的方法產生的結果要略勝于CycleGAN。通過本文的方法,生成的漢字更加清晰,并且筆畫丟失的情況更少。在細節方面,使用本文方法生成的漢字在筆鋒上與蘭亭序數據集中真實字體的風格更加相似。但是本文的方法和CycleGAN生成的漢字都無法學習到王羲之書法的某些風格。比如:“和”字撇和捺在蘭亭序數據集中簡化成一個筆畫,這個是它們都無法學習到的特征。
圖6的這些漢字不在原始的蘭亭書法數據集中,但也是帶有王羲之風格的中國書法,并且表現出令人滿意的質量和風格。

圖6 漢字“睦”“唑”Fig.6 Chinese characters“Mu”and“Zuo”
3.4.2 CASIA-HWDB數據集
在此實驗中,本文使用魏碑作為源字體,HW011中的手寫漢字作為目標字體,從中選取的漢字圖片是不匹配的。在實際應用中,本模型基于用戶少量的手寫漢字樣本,生成帶有其個人風格的手寫漢字字庫。因此,此實驗的目標是保證有較高內容準確性和樣式差異性的基礎上,使用盡量小的訓練集來訓練模型。
為了驗證本模型在不同規模數據集上的效果,從HW011漢字數據集中隨機挑選了300張、400張和500張分成三組,每組進行十次實驗,每組實驗隨機選取不同的數據集作為訓練集。表2展現了選取300張、400張和500張HW011數據集分成三組,每組進行十次實驗,每組隨機選擇不同的數據集作為訓練集,使用CycleGAN和本文方法產生的內容準確性和樣式差異性。由實驗結果可知,當訓練集規模較小(300張)時,本文方法與CycleGAN的內容準確性和樣式差異性相近,樣式差異性的波動較大,結果不穩定。隨著訓練集規模的增加(400張、500張時),本文方法生成的漢字效果顯著提高,明顯優于CycleGAN,內容準確率始終在80%以上,生成漢字的樣式差異性逐漸穩定。同時,在本文3.3節中提及,樣式差異性的取值范圍在516.53和3 023.82之間,實驗結果表明,本文方法所生成的漢字在樣式差異性上也明顯優于CycleGAN。

表2 兩種方法在三組數量不同數據集上的實驗結果Table 2 Experimental results of two methods on three different data sets
綜上,在較小規模的訓練集下,本文方法也能取得很好的效果,并且隨著訓練集的增加,內容準確性不斷提升,樣式差異性不斷縮小。圖7和圖8為結果展示。

圖7 漢字“固”“你”Fig.7 Chinese characters“Gu”and“Ni”

圖8 漢字詞語“和諧”Fig.8 Chinese word”Hexie”
本文使用內容和結構都不匹配的漢字數據集,將現有的標準打印字體通過圖像翻譯原理轉換成個性化手寫漢字。提出了一種結合注意力機制和自適應標準化層的無監督漢字圖像翻譯模型來解決這個問題,并且能夠減少漢字數據集采集所花費的時間和精力。使用注意力機制提高了生成漢字圖像的質量,添加的自適應標準化層不僅加強了特征通道之間的相關性,而且能夠加強個性化漢字的風格樣式。通過告知判別器先驗知識從而加強了它的判別能力。與原始CycleGAN進行了比較,在CASIA-HWDB數據集和蘭亭序書法數據集上進行了評估,利用漢字生成性能的評價指標,即內容準確性和風格差異性,定量評估生成手寫漢字的質量。實驗結果證明了本文方法的有效性。
但本文仍存在較大提升空間,對其局限性及未來工作歸納如下:
(1)本文方法雖然提升了漢字圖像翻譯的質量,但是依然無法完全避免無關信息的改變。如何在漢字圖像翻譯過程中只改變目標圖像域,將有助于提升圖像翻譯效果。
(2)本文方法僅適用于單個漢字圖像域的翻譯任務,在同時建立多個漢字圖像域之間映射關系時需要針對每對圖像域進行訓練,不能完成端對端的圖像翻譯。改進整體模型結構和損失函數以適應多圖像域翻譯將是下一步的研究工作。