秦嘉霖,劉維尚
基于直觀漢字構形原理的C3-GAN字體生成優化方法
秦嘉霖1,2,劉維尚1
(1.燕山大學,河北 秦皇島 066004;2.河北省設計創新及產業發展研究中心,河北 秦皇島 066004)
為了提升生成對抗網絡漢字風格遷移的圖像生成質量,實現漢字智能生成在字庫產業中的實際應用,提出了一種基于直觀漢字構形學的條件生成對抗網絡字體生成優化方法(Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs,C3-GAN)。建構了直觀漢字構形模組(C3Module),該模組包含了利于條件生成對抗網絡進行漢字構形語義特征學習的全特征漢字字符集。C3-GAN在條件生成對抗網絡模型下進行字體生成訓練,降低了必要訓練樣本數量,實現對字體生成效果的優化。使用C3-GAN生成漢字圖像的清晰度更高、字形更準確。在圖像相似性定量評估中,使用C3-GAN的實驗組相比于其他模型,獲得了更高的相似值和更小的誤差值。使用C3-GAN可以降低必要訓練樣本數量、提升漢字圖像質量。在實際項目中具有一定的應用性和可操作性。
生成對抗網絡;漢字構形;人工智能;深度學習;漢字字體;C3-GAN
近年來人工智能技術以其強大的數據分析能力和運算能力被廣泛應用。Goodfellow等[1]提出了生成對抗網絡(Generative Adversarial Networks,GAN)的概念。自此,GAN網絡模型以其高效的數據學習能力和良好的目標數據生成能力,在計算機視覺圖像生成領域有出色的表現。隨著我國經濟的發展和國民審美水平的提高,具有藝術性與實用性雙重價值的中文字體庫設計作為文字信息的載體被廣泛運用。商業上對中文字體庫設計的需求正在逐年增加。然而,漢字字庫設計屬于勞動密集型產業,字體的制作需要耗費大量的人力和時間。借助深度學習圖像生成技術可以在一定程度上輔助漢字字體設計制作,提高中文字體庫的生產效率。對此,本文提出了一種基于漢字構形學的字體生成優化方法。
深度學習是對大規模數據進行表征學習的算法[2]。生成對抗網絡作為深度學習領域的一個分支,近年來在圖像風格遷移項目上進展顯著。Isola等[3]開發了pix2pix模型,該模型可以在無需調整參數的情況下實現從輸入圖像到輸出圖像的風格遷移。這項研究提出了處理圖像轉化的通用框架,可以高效完成圖像合成、圖像著色中的眾多任務,例如,對街景或外立面中的對象進行分類標記、灰度圖像的智能上色、航空地圖的圖像處理、切換圖像中的白天黑夜、生成圖像邊緣等,具有廣泛適用性和易用性。該研究對Zi2zi模型的實現有重要幫助。Zi2zi模型由Tian[4]提出,該模型能在生成對抗網絡原理下實現一對多的字體風格遷移,訓練通常需要使用較大數量的實驗樣本,是深度學習漢字風格遷移的經典方法。此后,圍繞該模型進行了許多改進研究和對照實驗。
歐陽詩康[5]提出了StarGAN模型,該模型可以通過對一個生成器訓練實現多種字體的風格轉換。任春鷹[6]提出了自注意力機制漢字字體生成算法和基于密集型的漢字字體生成算法,有效提高生成漢字輪廓的清晰度。陳杰夫[7]在生成對抗網絡風格轉換模型基礎上提出了新的風格制定機制,并通過分類損失函數和語義一致性損失函數對約束模型進行優化,提高了字體圖像生成質量。王曉紅等[8]提出了一種基于變分自編碼的風格化書法字體圖像生成模型,該模型能基于標準字體或隨機噪聲自動生成字體圖像。
以上這些研究都將漢字圖像生成優化的重心放在模型改進與損失函數優化上。然而,漢字與其他圖像生成訓練的對象不同。漢字作為具有幾千年歷史的中國文化符號,歷經了漫長的發展演化,其背后潛藏著深刻的字形規則和構成邏輯。需從真實場景出發,將減輕前期字體設計負擔,并提升漢字智能生成效果為首要目標,除了在技術層面上的優化以外,更應該對漢字的結構與語義進行分析與融合,重視漢字作為具體實驗對象的內在邏輯所能提供的支撐。因此,本文提出了一種基于直觀漢字構形學的條件,生成對抗網絡字體生成優化方法(Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs,C3-GAN)。該方法創新性地將漢字構形理論靈活運用于條件生成對抗網絡模型中,該模型僅使用幾百個漢字的訓練樣本,通過對漢字的結構與語義進行分析,可以推理出同一風格的高質量漢字圖像。C3-GAN將為當前漢字的智能生成研究補上缺失的一環,也為針對具體生成對象的“人工智能+視覺傳達”優化模式提供一種新的思路。
以往的條件生成對抗網絡模型的字體生成訓練分為4個階段:Font-to-image(導出一對一漢字圖像)、Package(圖像二進制打包)、Train(實驗訓練過程)、Inference(實驗推理過程)。其中Font-to-image與Package屬于訓練數據預處理階段。在預處理階段需要準備至少1 000個隨機字符樣本。在原模型下,若要獲得更好的字體生成效果,則需要進行第二階段Fine-tune,每次需要2 000~4 000個數據樣本。這導致原模型還無法在實際的字體庫項目的制作環節中運用。因為中國標準字庫的最小字符集GB2312涵蓋6 763個漢字,設計師通常憑借字形風格、字體標準規則和設計經驗進行設計制作,字體庫設計的難度隨著完成字符數量的增加而遞減,所以智能漢字生成機制參與的時間越早輔助效果越好,如果在字體制作進程已經完成一半時參與,便不能發揮出理想的作用。因此,本項目的研究目的,就是對該條件生成對抗網絡字體生成方法進行優化改進,降低必要樣本數量,提高字體圖像的生成質量。
本文的創新點在于提出了C3-GAN優化模型,并將該模型與字體設計各階段緊密地結合起來,見圖1。該優化模型為原條件生成對抗網絡配置了漢字構形模組(C3Module)。該模塊內是一個基于直觀漢字構形學的全特征字符集。全特征字符集是由字庫標準的漢字字符集(例如GB2312等)在直觀漢字構形學中通過部件(Parts)與結構(Structure)的系統分類,進行不重復部件的組配漢字篩選得到的能以較少的字符數量表現漢字特征的集合。因此,全特征字符集可以在有限的字符樣本數量下充分涵蓋漢字部件與結構的特征。用該模組替換原實驗預處理中使用的隨機樣本,讓漢字字體訓練樣本的表現更具有全面性和廣泛性,有利于GAN網絡對漢字字體的構成語義特征和風格語義特征的掌握,從而實現比其他生成對抗網絡模型更好的字體風格遷移效果。C3-GAN延續了目標字形風格的絕大多數特征,生成字庫所需字符數量的字形圖像,這些特征包括:筆形形態、筆畫特征、偏旁部首、間架結構、字面率等。該模型的生成結果中體現的統一化和標準化,可以為后期設計中需要團隊協同的字體制作工作提供有價值的參照。

圖1 C3-GAN漢字生成優化方法
C3-GAN優化模型創新方法具有以下應用價值:減輕前期字體設計負擔,將必要漢字訓練樣本減少到可控的600個;遵循漢字字體庫制作流程,研究方法可直接運用于實際項目;同步技術升級,伴隨著GAN模型優化還有很大的發展空間。漢字構形理論得以在漢字智能生成項目中發揮作用,表明了在探索字體設計智能化的道路上,離不開技術的進步,更離不開文化的積淀。漢字在中華民族長遠的發展歷程中,涵蓋了深厚的歷史文化,反映了中華文明的傳承,如今更彰顯著中國的文化自信。2017年國務院發布了《新一代人工智能發展規劃》,各行各業都在探尋人工智能所帶來的技術突破。以此為契機探究字體設計產業“人工智能+”的字體生成模式,有助于提高字庫企業的創造力和生產力,有利于促進中國字體產業轉型升級,促進新技術、新方法及人機協同新模式的形成。這種技術與文化融合創新的產業模式也為視覺傳達領域解決具體的智能生成問題提供了一條值得研究和思考的新路徑。
漢字構形學是對漢字字形結構進行研究的理論。“六書”理論奠定了漢字構形學原理的基礎,之后漢字構形原理繼續發展和演化,如今已逐漸形成對簡體字的現代漢字構形理論。在現代漢字直觀構形體系中,針對漢字字形有了更加邏輯嚴謹的劃分,該理論明確指出了組成漢字的各部分概念之間的層級關系和各要素的屬性特點。通過直觀漢字構形原理從部件與結構因素進行篩選,可以得到C3-GAN所需的全特征字符集。
2.1.1 字符集篩選的部件因素
部件由筆畫組成,是漢字的構字單元。通過逐層拆分漢字,可以得到一級部件、二級部件直至末級部件。末級部件也稱基礎部件。基礎部件的數量會伴隨著統計集的字數增多而增加,但是到了一定程度后基礎部件的數量增加則不顯著。對部件的提取要考慮到部件在整字中的位置和與其他部件的空間關系。在《現代常用字部件及部件名稱規范》中收錄的部件數量為514個[9]。曉東[10]的研究中對通用漢字規范表的3 500個漢字提取部件,得到了474個部件,其中有195個成字部件。費錦昌[11]的研究中,統計得到了384個部件,其中有162個為成字部件。在侯冬梅[12]的研究中,從通用規范漢字標準的8 105個漢字統計,得到了549個基礎部件,共1 995個部件。
2.1.2 字符集篩選的結構因素
漢字字形結構的劃分與部件位置的分布有著必然的聯系。探究漢字結構的規律,其實就是在厘清部件位置排布的規則。在傅永和[13]漢字結構的研究中,根據部件平面分布的8類形式將通用規范漢字中合體字的結構劃分為85種。通過逐層分析漢字結構可以將合體字劃分為13種,也可粗略劃分為5種:左右結構、上下結構、特殊結構、半包圍結構、全包圍結構。在劉靖年[14]的漢字構形理論中,除了獨體字結構以外,漢字的結構有12種:上下結構、上中下結構、左右結構、左中右結構、全包圍結構、上三包圍結構、下三包圍結構、左三包圍結構、左上包圍結構、左下包圍結構、右上包圍結構、框架結構。而在趙彤[15]的研究中以小篆為研究對象,將漢字的結構劃分成24種。由此可見,采用不同的劃分方法可以得到不同的漢字結構分類。針對不同特點的研究對象和研究目的,可以對漢字的基本結構分類方式進行調整。
2.2.1 字形拆解與部件類聚
C3-GAN所需要的全特征字符集是基礎部件在不重復情況下組合而成的最小漢字集,既減少人工設計模板字體的工作量,又讓人工神經網絡在訓練中更全面地捕捉到漢字特征。本文對漢字字庫最小字符集GB2312的6 763個漢字通過漢字直觀構形原理進行字形的拆分和部件的分類歸納。在漢字構形屬性研究中[12],已經對通用規范漢字字符集(含有8 105個漢字)做了部件拆解與分類。下面對GB2312字符集與通用規范漢字字符集進行字符統計,見表1。
從表中可知,GB2312字符集與“一級、二級通用規范字”(含有6 500個漢字)的字符交集最大,因此漢字部件將在已有的“一級、二級通用規范字”的部件基礎上進行拆分。首先,對GB2312獨有漢字使用漢字構形二叉樹拆分法進行拆分,拆分示意見圖2。

表1 字符集統計

Tab.1 Statistics of character sets

圖2 漢字拆分示意

圖3 字符集基礎部件

圖4 字符集合成部件
2.2.2 構形字符集篩選

由此得到基于漢字構形學的C3-GAN漢字全特征字符集。使用該方法得到的字符集在有限的字符數量下充分表示字符集中所有漢字的部件特征。本文將在下文的對照實驗中驗證C3-GAN訓練漢字風格遷移的優化效果。
本文將通過對照實驗探究C3-GAN與不使用漢字構形模組(C3Module)的條件生成對抗網絡的漢字風格遷移效果。本文采用的人工神經網絡訓練模型框架,見圖5。該模型的基本原理如下。

圖5 本文使用的生成對抗網絡模型
在生成式對抗網絡中為了讓生成圖像達到逼真的程度,圖片轉換模型的結構化損失通過像素的分類、回歸公式來描述。在條件生成對抗網絡(Con-ditional GANs)中,生成器的工作是通過學習生成能夠欺騙判別器的虛擬圖像,判別器的工作是鑒別生成器生成的虛擬圖像,并與真實圖像進行區分。區別于其他研究中的損失方法,條件生成對抗網絡中的損失是通過學習而獲得的,能針對輸出圖像與真實圖像之間的任何差異,對網絡權值進行優化。在該模型中生成器采用了“U-net”[16]基本結構框架,并將固定的高斯噪聲嵌入到生成器中。生成器與判別器的訓練過程見式(1)。

生成器經過訓練后,輸出讓判別器難以與真實圖像進行區分的虛擬圖像,判別器經過訓練后能更好地檢測出“虛擬圖像”見式(2)。

在圖像的領域轉換網絡(Domain Transfer Networks,DTN)的理論中[17],源圖像與目標圖像除風格不一致外仍存在相似的高維特征,利用Constant Loss計算源圖像經過編碼之后的高維向量與生成圖像經過編碼后的高維向量之間的差異,控制高維語義中源圖像與目標圖像的特征盡可能相似,見式(3)。正是因為使用了Constant Loss,所以通過強制編碼器維持生成圖像的高維特征,顯著提高了人工神經網絡的生成效率。

采用對照實驗的形式,驗證C3-GAN模型的優化效果。選取了不同風格的字體分別作為實驗的源字體S和目標字體T。將基于漢字構形模組(C3Module)篩選出的600個漢字組成實驗漢字集EG_600,對照組采用隨機取樣的600個漢字組成對照漢字集CG_600。使用cjk.json(www.json.org.cn)字符數據集為訓練數據打標簽。經Font-to-image處理,將字符配對生成為256 px×256 px的圖像后,對圖像進行二進制打包處理。訓練所用的漢字圖像的內容包含漢字的結構、輪廓、特征等信息,二進制圖像能夠保留這些重要信息,而且這樣可以有效地減少訓練過程中的運算量,提升訓練效果。
本次訓練在云處理器中進行。使用NVIDIA RTX 2080 Ti圖像處理器(GPU),16內存4核Intel(R)處理器(CPU),采用了基于GPU版本的TensorFlow深度學習框架。
4.2.1 實驗過程
生成訓練網絡詳細參數,見表2。將初始學習率設定為0.001,訓練的批次實例數為16,L1 Penalty權重為100,Lconst Penalty權重為15,在經過20 epoch后,學習效率減半,根據目標字體的不同,將epoch設置在40~45。訓練中生成器與判別器的損失曲線,見圖6。
在完成訓練后使用推理漢字集生成預測數據,推理漢字集字符從GB2312漢字字符集中抽取,且已過濾掉了參與訓練的字符。分別對5組訓練數據進行推理。5組訓練成果的推理生成圖像效果,見表3。

圖6 生成器與判別器的loss曲線
4.2.2 實驗效果分析評估
通過對5組漢字圖像生成效果的觀察可知,每對實驗中的實驗組生成漢字圖像都比對照組的輪廓更清晰、雜點更少、邊緣更平滑。從字體設計風格上看,實驗組在筆畫完整程度、間架結構、風格、細節等各個方面的效果都優于對照組。為了從客觀角度對實驗結果進行定量評價,使用圖像相似性測量方法分別評估實驗組字體圖像與真實字體圖像、對照組字體圖像與真實字體圖像的相似性指數,見表4。本文使用了SSIM(結構相似性指數)、FSIM(基于特征的相似性指數)、PSNR(峰值信噪比)、RMSE(均方根誤差)4種測量方法,見表4。SSIM、FSIM、PSNR的數值越大則表明生成的虛擬圖像與真實圖像相似性越高;RMSE數值越小則表明虛擬圖像與真實圖像差異越小、相似性越高。5組結果中實驗組均在SSIM、FSIM、PSNR獲得更大數值,而在RMSE獲得更小數值,進一步驗證了采用EG_600字符集的實驗組與真實字體風格的相似性要高于對照組。
表2 網絡詳細參數

Tab.2 Network detailed parameters
表3 多風格漢字圖像的生成效果對比
Tab.3 Comparison of generation effects of multi style Chinese character images

表4 圖像相似性指數

Tab.4 Image similarity index
本文針對漢字風格遷移的圖像生成問題提出了一種基于直觀漢字構形學的條件生成對抗網絡字體生成優化方法(C3-GAN),該方法是對漢字生成對抗網絡模型的一次改進。C3-GAN在降低訓練必要字符樣本數量的情況下,可以有效提高生成字體與目標字體的相似度和準確度,生成逼真的字體圖像。該方法可以直接應用于漢字字庫開發,為漢字設計工作提供技術輔助,進而提高漢字字體產業的生產效率。然而該方法仍有調整改進的空間,有待在未來的研究中繼續探索。人工智能技術的發展將會持續推動字體設計產業生產效率的提高,而創意與審美的主體是人。因此,未來人機協同的字體設計產業模式的構建,離不開技術的進步,離不開文化的支撐,也離不開設計師對設計獨創性的堅持與探索。
[1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Networks[J]. Communi-ca-tions of the ACM, 2020, 63(11): 139-144.
[2] 柴夢婷, 朱遠平. 生成式對抗網絡研究與應用進展[J]. 計算機工程, 2019, 45(9): 222-234. CHAI Meng-ting, ZHU Yuan-ping. Research and Appli-cation Progress of Generative Adversarial Networks[J]. Computer Engineering, 2019, 45(9): 222-234.
[3] ISOLA P, ZHU Jun-yan, ZHOU Ting-hui, et al. Image- to-Image Translation with Conditional Adversarial Net-works[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 5967-5976.
[4] TIAN Yuchen. zi2zi: Master Chinese Calligraphy with Conditional Adversarial Networks[EB/OL]. (2017-08-09)[2022-05-01]. https://github.com/kaonashi-tyc/zi2zi, 2017.
[5] 歐陽詩康. 基于StarGAN模型的多風格漢字生成方法研究[D]. 南昌: 江西師范大學, 2019. OUYANG Shi-kang. On Generation Method of Multi- style Chinese Characters Based on StarGAN[D]. Nan-chang: Jiangxi Normal University, 2019.
[6] 任春鷹. 基于生成對抗網絡的漢字字體生成算法研究[D]. 上海: 華東師范大學, 2020. REN Chun-ying. Research on Automatic Chinese Font Synthesis Based on Generative Adversarial Networks [D]. Shanghai: East China Normal University, 2020.
[7] 陳杰夫. 基于生成對抗網絡的漢字字體風格生成與轉換[D]. 成都: 電子科技大學, 2020. CHEN Jie-fu. Generation and Transformation of Chi-nese Font Style Based on Generation Confrontation Network[D]. Chengdu: University of Electronic Science and Technology of China, 2020.
[8] 王曉紅, 盧輝, 麻祥才. 基于生成對抗網絡的風格化書法圖像生成[J]. 包裝工程, 2020, 41(11): 246-253. WANG Xiao-hong, LU Hui, MA Xiang-cai. Generation of Stylized Calligraphic Image Based on Generative Adversarial Network[J]. Packaging Engineering, 2020, 41(11): 246-253.
[9] GF 0014-2009,現代常用字部件及部件名稱規范[S].GF 0014-2009, Specification for Common Modern Chi-nese Character Components and Component Names[S].
[10] 曉東. 現代漢字部件分析的規范化[J]. 語言文字應用, 1995(3): 56-59. XIAO Dong. Standardization of Component Analysis of Modern Chinese Characters[J] Applied Linguistics, 1995(3): 56-59.
[11] 費錦昌. 現代漢字部件探究[J]. 語言文字應用, 1996(2): 20-26. FEI Jin-chang. Research of Modern Chinese Characters Components[J]. Applied Linguistics, 1996(2): 20-26.
[12] 侯冬梅. 通用規范漢字構形屬性研究[D]. 武漢: 華中師范大學, 2017. HOU Dong-mei. Study on Formative Attributes of General Regularized Chinese Characters[D]. Wuhan: Central China Normal University, 2017.
[13] 傅永和. 漢字的結構[J]. 語文建設, 1991(9): 10-11. FU Yong-he. Structure of Chinese Characters[J]. Lan-guage Planning, 1991(9): 10-11.
[14] 劉靖年. 漢字結構研究[D]. 長春: 吉林大學, 2011. LIU Jing-nian. A Study on the Structure of Chinese Characters[D]. Changchun: Jilin University, 2011.
[15] 趙彤. 基于關系數據庫的漢字構形分析及其應用[J]. 語言文字應用, 2015(3): 119-132. ZHAO Tong. Analysis and Application of the Formation of Chinese Characters Based on Relational Database [J] Applied Linguistics, 2015(3): 119-132.
[16] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[17] TAIGMAN Y, POLYAK A, WOLF L. Unsupervised Cross-Domain Image Generation[EB/OL]. (2016-11-07) [2022-08-12]. https://arxiv.org/abs/1611.02200.
C3-GAN Fonts Generation Optimization Based on Intuitive Chinese Character Configuration
QIN Jia-lin1,2, LIU Wei-shang1
(1.Yanshan University, Hebei Qinhuangdao 066004, China; 2.Hebei Design Innovation and Industrial Development Research Center, Hebei Qinhuangdao 066004, China)
The work aims to propose a method for Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs (C3-GAN) of the intuitive Chinese character configuration to improve the image generation quality of Chinese character style transferring with generative adversarial networks, and achieve the practical application of Chinese character intelligent generation in the font industry. An intuitive Chinese character configuration module (C3Module) was constructed, which contained Chinese character sets with all features. It was beneficial to generating an adversarial network for the learning process of semantic features of Chinese character configuration. Performing font generation training with C3-GAN under the model of the conditional generative adversarial network reduced the number of compulsory training samples, and optimized the font generation effect. C3-GAN could generate Chinese characters with higher images definition and more accurate glyphs. In the quantitative evaluation of image similarity, the experimental group using C3-GAN obtained higher similarity values and smaller error values than other models. C3-GAN can reduce the number of compulsory samples, and improve the image quality of Chinese characters. It has certain applicability and operability in practical projects.
generative adversarial networks; Chinese character configuration; artificial intelligence; deep learning; Chinese character font; C3-GAN
TB472
A
1001-3563(2023)10-0193-09
10.19554/j.cnki.1001-3563.2023.10.019
2022–12–02
2023年河北省教育廳人文社會科學研究重大課題攻關項目(ZD202327)階段性成果。
秦嘉霖(1994—),女,碩士,主要研究方向為字體設計。
劉維尚(1979—),男,碩士,教授,主要研究方向為視覺傳達設計的跨界應用。
責任編輯:陳作