999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進生成對抗網絡的漢字字體生成算法

2021-10-15 10:41:54王江江黃星宇戰(zhàn)國棟
大連民族大學學報 2021年3期
關鍵詞:實驗模型

王江江,黃星宇,戰(zhàn)國棟

(大連民族大學 計算機科學與工程學院,遼寧 大連 116650)

文字是一個國家和民族文化的重要象征,也是一種文化傳播和交流的重要載體,文字在文明的傳承和傳播過程中起著至關重要的作用。但由于漢字數量較多,而且字形多樣,結構復雜,所以設計一套具有個人風格的字體并不是一件容易的事情,現在電子設備上可用的字體主要由商業(yè)公司的專業(yè)字體設計師制作。在20世紀80年代Strassmann[1]提出了一個二維毛筆模型來模擬毛筆。龐云階等人[2]提出了一種計算機控制的筆式繪圖儀繪圖系統(tǒng),利用毛筆和墨水來實現毛筆書法的模擬。Lee等人[3]構建了一個三維筆刷模型。Xu等人[4]提出了一個六層的字符拆分和合成模型, Zhang等人[5]提出了一種將手寫體漢字轉換成手寫體漢字的方法。 2015年,Gatys等人[6]首次提出了一種基于神經網絡的風格遷移算法。自從Gatys提出了風格遷移網絡之后,Yu等人[7]試圖將圖畫的風格賦予字符,并將字符變成任何形式的藝術形式。2017年,Tian[8]提出了基于CNN風格遷移模型的“Rewrite”模型。Lian等人[9]提出了使用循環(huán)神經網絡[10]的一種基于字符筆畫提取的風格轉換方法。Tian在Pix2pix[11]模型的基礎上提出了一種新的方法“Zi2Zi2”[12]模型。

上述研究的漢字字體生成算法可以分為兩類:基于計算機圖像學的方法和基于深度學習的方法。基于計算機圖形學的方法主要是基于筆畫提取的方法,字體生成過程分為筆畫提取和孤立筆畫的重組,但是由于漢字字體的復雜性和多樣性,筆畫提取的準確性很難保證,使得基于計算機圖形學的字體生成方法效果不佳。基于深度學習的主要采用基于CNN風格遷移模型和基于RNN字符筆畫提取的風格轉換方法,基于CNN神經網絡的風格遷移方法缺乏對特定字體或手寫風格的準確描述,基于RNN字符筆畫提取的風格轉換方法雖然對每種字體建立了非剛性的定位配準,準確分析了每個漢字各部分筆畫的位置,但是該方法的數據準備過程十分復雜,大大制約了其推廣應用。

本文主要針對現有漢字字體生成模型存在的問題進行了研究,提出了基于改進條件生成對抗網絡的漢字字體生成算法FontToFont,通過引入U-Net網絡結構,可以使生成器保存更詳細的信息,并有利于模型性能。同時,在訓練過程中使用了四個損失函數:對抗損失、像素損失、類別損失和感知損失。對抗損失有利于生成細節(jié)清晰的圖像。像素損失表示真實圖像和生成圖像之間的像素空間距離,而感知損失從感知方面衡量它們之間的差異。類別損失對預訓練很重要,它使模型能夠同時從多種風格中學習。通過定量和定性的實驗結果表明,本文提出的模型性能更好,能夠生成結構層次更加鮮明、細節(jié)更加豐富、輪廓更加清晰的漢字。

1 基于改進生成對抗網絡的漢字字體生成

1.1 數據集的建立與預處理

本文從字體設計網站上選擇了江南手書、刻石錄顏體、刻石錄鋼筆鶴體三種字體構建本文多風格漢字字體數據集。每種字體使用ImageFont模塊轉為圖像,每種字體的包含大約4000張漢字圖像,同時本文將圖像大小統(tǒng)一為256×256×3。數據集中部分漢字字體圖像如圖2所。采用源字體為黑體。訓練集分別由2 000個源字符圖像和2 000個對應的來自其他風格的目標字符圖像組成。源字體中剩余的字符圖像用于測試。漢字字體圖像均為灰度圖像,同時本文也對不同風格的漢字字體圖像進行了中心對齊。

(1)數據集的大小。實驗采用3種不同風格字體進行對比實驗,字體數量選擇500、1 000、1 500、2 000、2 500、3 000。采用RMSE定性指標進行評價。從圖1的實驗結果可以看出,隨著字體數量的增大,RMSE的值逐漸降低,說明數據集與生成效果直接呈正比。但是當字體數量達到2 000時,生成的字體質量的效果提升并 不明顯,所以本文考慮到設計師設計字體的勞動復雜度,本文選擇2 000。

圖1 字體生成質量與數據集大小的關系

(2)模型介紹。本文提出的網絡結構如圖2。由一個生成器和一個判別器組成,生成器主要有內容編碼器、風格遷移模塊、結果解碼器組成。內容編碼器第一層使用卷積神經網絡,其余層均采用Conv-InstanceNorm[13]-ReLU結構;結果解碼器最后一層采用tanh激活函數,與其他層對應的層采用Deconv-InstanceNorm-ReLU結構;風格遷移模塊采用6個ResNet[14]中提出的殘差網絡模塊構成。本文也采用了U-Net網絡結構,考慮到參考字體和生成的字體應該具有相似的結構來表示相同的內容,本文將內容編碼器中細節(jié)豐富的低層直接連接到相應的解碼器層。在內容編碼器和結果解碼器之間添加層間跳躍鏈接,這樣可以盡可能的保留字體圖像的底層信息,避免字體圖像在下采樣過程中丟失形成和結構信息。

圖2 網絡模型

網絡模型詳細見表1。

表1 網絡詳細參數

1.2 損失函數設計

(1)對抗損失函數。從最初的生成性對抗損失開始。通過一個帶有判別器D的最小最大值游戲,訓 練生成器G將樣本從噪聲x映射到真實分布y。在訓練階段,生成器G試圖生成具有真實 外觀的假圖像以混淆判別器D。同時,D旨在區(qū)分真實樣本和生成的樣本。對于圖像到 圖像的轉換任務,本文關注的是將真實圖像從一種風格轉換為另一種風格,而不是從 隨機噪聲轉換為真實圖像,因此判別器D需要最小化下面定義的對抗損失函數:

(1)

此外,G試圖生成具有真實外觀的假圖像以混淆判別器D,所示生成器G最小化下面定義的對抗損失函數:

(2)

本文為了提高生成對抗網絡的訓練穩(wěn)定性以及提高生成對抗網絡的圖像生成質量,采用WGAN[15]提出的對抗損失來優(yōu)化本文提出的漢字字體生成網絡模型參數。并且在判別器D中使用梯度懲罰項,使得判別器D滿足連續(xù)性條件。

(3)

其中‖‖采用L2范數,表示0到1之間的均勻分布,

(4)

(2)像素損失函數。像素級損失在圖像的像素級別進行懲罰,常見的像素級損失有歐氏距離、均方誤差(Mean Square Error,MSE)、交叉熵損失(Cross Entropy Loss)等。本文采用了L1距離作為像素級別損失,因為其優(yōu)化過程相比交叉熵損失穩(wěn)定,比均方誤差、L2距離的約束結果更銳利。

δL1=Ex∈pdata,z∈pinput||x-G(z)||1。

(5)

像素級損失一般只能約束生成圖像的低頻部分,也就是圖像的輪廓、顏色等信息;像素級損失只能約束每個單獨像素對比度的呈現,沒有考慮到與周圍像素的關系,因此需要進一步使用其他損失約束生成圖像。

(3)字體風格類損失函數。為了生成高質量的字體圖像,重要的是使模型不僅知道它自己的樣式,還知道其他字體樣式。因此,使模型能夠同時學習多種字體樣式是非常重要的[16],因此,在字符嵌入進入解碼器之前,通過將不可訓練的高斯噪聲作為樣式嵌入連接到字符嵌入來使用類別嵌入。為了防止模型將樣式混合在一起并生成看起來不像任何提供的目標的字符,添加了多類類別損失來監(jiān)督鑒別器預測生成的字符的樣式[17]。其中表示經過判別器D得出的字體種類的概率分布,t表示目標字體真實圖像,c表示目標字體的標簽。字體風格類損失函數的定義為

(6)

將上述公式中的真實樣本圖像t替換為生成器生成的圖像,就可以得到生成器的字體風格類損失函數。損失函數的定義如

(7)

生成器 G通過最小化這個損失函數,以此來保證生成的假圖的風格種類能夠被鑒別器正確的分類。

(4)感知損失函數。對抗損失和像素損失都是圖像生成任務中常見的度量。此外,本文使用另一個更 接近感知相似性的損失函數。感知損失探索了從訓練有素的CNN提取的圖像的高維表示之間的差異[18]。本文根據預先訓練的VGG16網絡的ReLU激活層來定義感知損失。不同深度的層可以代表不同抽象級別的圖像特征:從邊緣、顏色到對象模式。感知網絡中較低級和較高級激活的匹配指導合成網絡學習細粒度細節(jié)以及全局排列[19]。本文在漢字字體生成中,要求生成的漢字字體圖像與目標字體圖像在漢字的形狀結構方面保持一致性,這樣的一致性可以用感知損失函數來進行權衡,來保證生成字體圖像與目標字體圖像在形狀和結構方面保證一致。

(8)

本文使用CRN網 絡[19]的參數配置。其中,代表VGG16的第l層網絡 。采用conv1_2,conv2_2,conv3_2,conv4_2,conv5_2層來計算感知損失。對應層權重,在本文的實驗中,本文設置λ1=λ2=λ3=λ4=1,λ5=10

(5)最終優(yōu)化目標。通過上述損失函數的介紹,本文提出的漢字字體生成網絡模型的損失函數為這四種損失函數的加權之和,最終得到本文網絡訓練需要優(yōu)化的損失函數。

(9)

(10)

(11)

1.3 評價指標

本文為了更客觀的進行漢字字體生成模型性能的評價,根據論文[20-21]中提出的評價方法,從定性和定量兩個方面對提出的漢字字體生成模型性能的評價,評估生成圖像的效果。除了直接對比較實驗的定性結果外,還采用了均方根誤差 (Root Mean Square Error, RMSE)和像素差異率 (Pixel Disagreement Ratio, APDR)這兩個定量值作為評價標準。

2 實 驗

為了驗證本文提出的模型的性能。本文構建了多風格的漢字字體的數據集,并且使用均方根誤差(RMSE),像素差異率(APDR)兩個定性評價指標,從圖像的像素差異性以及像素差異率兩個方面對生成的漢字字體圖像進行評價,并且設計了四個實驗。本文提出的漢字字體生成模型FontToFont與現有的三種字體生成算法進行對比實驗,模型的消融實驗,驗證各部分的有效性,不同訓練數據集對于模型性能的影響,以及不同源字體對于模型性能的影響。

2.1 實驗數據集及實驗環(huán)境

通過使用python類庫中的ImageFont 模塊[22]將字庫文件TrueType轉為漢字字體圖像。從字體設計網站上選擇江南手書、刻石錄顏體、刻石錄鋼筆鶴體三種字體構建本文多風格漢字字體數據集。每種字體使用ImageFont 模塊轉為圖像,每種字體包含大約4 000張漢字圖像,同時本文將圖像大小統(tǒng)一為256×256×3。數據集中部分漢字字體圖像如圖3,采用源字體為黑體。訓練集分別由2 000個源字符圖像和2 000個對應的來自其他風格的目標字符圖像組成。源字體中剩 余的字符圖像用于測試。本文也討論了不同訓練數據集規(guī)模對于模型性能的影響,訓練數據樣本依次為500,1 000,1 500,2 000,2 500,3 000個。漢字字體圖像均為灰度圖像,同時本文也對不同風格的漢字字體圖像進行了中心對齊。

圖3 多風格字體漢字圖像示例

使用Pytorch框架搭建本文的漢字字體生成網絡。采用Adam[23]優(yōu)化方法對所提模型進行訓練,并將學習率設置為0.000 1,判別器D先訓練,生成器G次之,交替進行訓練。在本文構建的多風格漢字字體數據集上訓練40輪,每輪次10 000次,批次大小設置為1。學習率遵循StepLR策略,每50次迭代降 低一次。本文所有的實驗都是在Ubuntu18.04系統(tǒng),Intel(R) Core(TM) i7-7700K CPU, 英偉達GeForce GTX TITAN XP GPU上進行的。算法1如圖4,詳細討論了本文模型的訓練流程。

圖4 算法1詳細過程

2.2 實驗結果分析

為了在整體上展示本文提出的漢字字體生成

模型的效果,將《早春呈水部張十八員外》為內容進行生成如圖5,分別使用三種目標字體進行生成。為了增強可讀性,可對比性,本文將真實的字體文字變成了風格一至三的第二列和第六列。

圖5 《早春呈水部張十八員外》生成結果

圖5展示了《早春呈水部張十八員外》三種字體的生成效果。其中圖5a展示的是黑體表示的需要生成的文字內容,圖5b~5d展示的是三種不同風格字體對應的生成結果。從圖5b~d中可以看出,本文的模型生成效果較好,生成的字體與真實字體直接沒有差別。此外,從圖中也可以看出,模型對于漢字的結構和形狀的特征把握比較好。能夠當地保留重要的筆畫細節(jié),如筆畫的開始、轉折和結束區(qū)域。同時從圖5c的筆畫連接情況可以看出,本文提出的U-Net網絡結構以及感知損失函數,能夠保留筆畫的重要信息特征,做到了一致性。

接下來本文選取三種字體進行漢字字體生成對比實驗,分別選擇Pix2pix、Zi2zi、HGAN三種漢字字體生成模型進行對比實驗。本文對實驗結果進行定量和定性的評價。定性評價的圖如圖6,定量評價結果見表2。

圖6 風格一部分生成結果示例

Pix2pix、Zi2zi、HGAN模型生成效果如圖6所示,在三種風格的漢字字體生成任務中,在Zi2zi、HGAN,Pix2pix中出現的一些不完整的筆畫現象以及筆畫模糊的現象。Pix2pix只能產生模糊的圖像,很難識別字符的內容,無法捕捉相似手寫風格之間的細微差異。相反,本文提出的漢字字體生成模型能夠產生逼真的合成結果,并適當地保留重要的漢字筆畫結構和形狀細節(jié),如筆畫的開始、轉折和結束區(qū)域。但是在字體風格形狀結構復雜時候,本文的模型也有一些不完整的筆畫問題。

從上面的分析結果可以看出,相比較與Pix2pix、Zi2zi、HGAN三種模型,本文的模型能夠生成質量較高的漢字字體圖像。此外從圖6中可以看出,在漢字字體形狀結構相對復雜的時候,本文的模型還是取得了比較好的生成效果,能夠較好的捕捉到字體的形狀和結構的信息,但是Pix2pix網絡模型卻產生了筆畫缺失,整體模糊的現象。這也在一定程度上證明了本文模型的泛化能力比較強。而Pix2pix、Zi2zi、HGAN這三種模型,雖然在模型訓練的過程中產生比較好的效果,但是測試時生成結果卻很差。

從表2分析出,從黑體生成字體一,模型的像素差異率最低,均方根誤差比HGAN稍高,比Pix2Pix和Zi2Zi低很多;從黑體生成字體二,模型的像素差異率和均方根誤差比HGAN稍高,比Pix2Pix高很多;從黑體生成字體三,模型的像素差異率和均方根誤差比Pix2Pix、Zi2Zi和HGAN都低很多。所以從定量分析的角度看,文中所建立的模型生成效果較優(yōu)。

表2 定量分析

為了驗證本文提出的感知損失函數的有效性,設計了對比實驗,在本文提出的模型中加入感知損失函數以及不加感知損失函數進行對比實驗,生成效果如圖7。使用感知損失函數,可以看出模型生成的字體輪廓更加清晰,也保證了源字體和目標字體必須保持一致的文字拓撲,生成字體的局部信息丟失較少。但是去除感知函數之后可以發(fā)現,生成的字體出現局部信息丟失,字體輪廓模糊的現象,因此也驗證了本文提出的感知損失函數的有效性。

圖7 使用/不使用感知損失的生成結果示例

在上述的實驗對比以及模型消融實驗中,采用黑體作為參考字體來進行實驗。為了求證不同參考字體對漢字字體生成模型生成效果的影響,本文的實驗采用宋體、楷體作為參考字體分別進行實驗。實驗對比結果如圖8~9。

圖8 源字體為楷體的部分實驗結果

圖9 源字體為宋體的部分實驗結果

從這兩幅實驗對比圖8和圖9可以看出,不管是楷體還是宋體,漢字字體生成模型的生成效果都沒有受到影響。這也進一步證明了本文的漢字字體生成模型比現有的漢字字體生成模型的性能更好,能夠生成結構層次更加鮮明、細節(jié)更加豐富、輪廓更加清晰的漢字。

3 結 語

本文研究了利用生成對抗網絡來實現漢字字體生成。通過在不同風格下字體生成效果分析,可以看出本文模型的整體性和一致性均有保證;通過與Pix2pix、Zi2zi、HGAN三種經典模型在同一風格生成效果分析,可以看出本文模型無論在簡單還是復雜的字體結構中均取得比較好的生成效果;通過分析不同源字體的生成效果,本文模型的生成效果均沒有收到影響。從以上三方面的分析中可以看出本文提出的算法FontToFont與MSAFont均有效地提升了生成字體的質量,在一定程度上滿足了實際應用的需求。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品人妻无码区在线视频| 91网红精品在线观看| 日韩人妻少妇一区二区| 一级香蕉视频在线观看| a级毛片免费看| 国产在线精品香蕉麻豆| 高清无码一本到东京热| 日韩欧美国产另类| 天天做天天爱夜夜爽毛片毛片| 久久无码免费束人妻| 国产av无码日韩av无码网站| 久热精品免费| 91精品啪在线观看国产60岁| 久久精品波多野结衣| 无码在线激情片| 亚洲久悠悠色悠在线播放| 91午夜福利在线观看精品| 国产丝袜91| 欧美午夜理伦三级在线观看| 国产人在线成免费视频| 欧美国产日韩在线观看| 亚洲综合亚洲国产尤物| 免费高清毛片| 国产精品午夜福利麻豆| 日韩一区精品视频一区二区| 亚洲人妖在线| 国产美女主播一级成人毛片| 亚洲精品另类| 欧美自慰一级看片免费| 欧美国产综合色视频| 亚洲AV无码久久天堂| 日本午夜在线视频| 国产在线麻豆波多野结衣| 天天躁夜夜躁狠狠躁躁88| 欧美成人看片一区二区三区| 国产一级二级在线观看| 亚洲精品午夜无码电影网| 熟妇无码人妻| 亚洲欧洲日韩久久狠狠爱| 精品无码人妻一区二区| 青草视频网站在线观看| 欧美亚洲国产精品第一页| 亚洲欧美成人在线视频| 青青青亚洲精品国产| 中文一区二区视频| 国产精品成人久久| 亚洲国产精品不卡在线| 亚洲av无码久久无遮挡| 尤物亚洲最大AV无码网站| 黄色污网站在线观看| 欧美a网站| 久久鸭综合久久国产| 无码 在线 在线| 亚洲不卡av中文在线| 色呦呦手机在线精品| 成人午夜视频免费看欧美| 思思热精品在线8| 国产第八页| 人妻无码中文字幕一区二区三区| 亚洲区视频在线观看| 亚洲欧美成人网| 欧美国产综合色视频| 午夜无码一区二区三区| igao国产精品| 全午夜免费一级毛片| 欧美日在线观看| 久久精品最新免费国产成人| 国产高清毛片| 欧美成人一级| 国产福利免费在线观看| 国产亚洲精品无码专| 狠狠v日韩v欧美v| 一区二区三区高清视频国产女人| 九九免费观看全部免费视频| 亚洲大学生视频在线播放| 全部免费毛片免费播放| 成人蜜桃网| 99久久精品免费观看国产| 国产91久久久久久| 欧美啪啪网| 国产精品免费p区| 2020国产在线视精品在|