古文字字體文件制作的模式探索

2022-04-13 13:03:31桂舒婷向欣雨趙黃一驕

文化產業 2022年8期

桂舒婷向欣雨趙黃一驕

漢字是中華民族文化的結晶，是五千年文化得以保存至今的重要載體。隨著傳統文化的復興，越來越多的人將目光投向古文字文化，人們對古文獻的電子閱讀需求也越來越大。伴隨古籍復興、現代信息技術的長足發展，古文字數字化欣欣向榮，中文字符集也逐步添加了大量繁體字和生僻字。一些研究者更是根據出土文獻，制作出了許多高質量古文字字庫，也提出一些宏觀的古文字數字化建議。然而，其花費大量心力制作的數字化產品，因不能及時更新換代、檢索系統復雜等原因幾乎絕版于當世。而對于微觀層面的文史學習研究者和愛好者來說，生僻字和古文字的輸入和顯示難題依然存在。大多時候他們還是只能以圖片來代替那些字符。因此，將字庫設計和修改的時間和經濟成本降到最低，才能讓不占有出土資源和先進技術的文字研究愛好者也能享受到古籍數字化的時代紅利。

字庫，即電子文字字體集合庫，又可稱為字符集，是文獻數字化的支撐性材料之一。其在計算機中以字體文件的形式儲存，規定著機內文字顯示。不同字體文件在計算機中顯示為不同的字形，可表現為同一字符宋體和楷體的形體差異。我們如果將甲骨文、金文等古文字字形與隸定字字碼相對應，輸入隸定字便可在計算機上顯示出古文字字形。針對日常學習研究中往往只針對某篇古文獻、某類或某個古文字的現象，探索出一套靈活的字體文件制作模式，為解決古文字字形數字化難題略盡綿力。

相關研究現狀

我們將目前官方已經完成數字化的字符稱為通用字符，生活中常見的通用字庫有宋體方正超大字庫、ASCII字庫等。相對的是一些非通用的、面向特殊字形及用途的字庫，即非通用字庫。

我國非通用字庫可分為少數民族文字庫和漢字字庫兩大類。少數民族文字非通用字庫有西夏文（柳長青2010）、古彝文（陳順強2009）等象形文字字庫，有蒙古文、藏文等拼音文字字庫，也有的是對沒有文字只有語言的少數民族進行的拼音文字造字。漢字非通用字庫包括古今文字兩種：面向今文字的主要是一些傳世典籍的數字化，如，中藥學專業詞匯中的生僻字輸入（朱傳鈞2004）、《真本千方金》俗字研究（孔謙2019）；面向古文字的主要是大量出土古文獻的數字化，如下文提到的眾多古文字字形檢索系統。

由出土古文獻材料產出的資料庫，是古籍數字化的基礎。近十年來研究中文字庫建設的成果較少，古文字字庫多作為查詢系統的一部分，且十分注重古文字字形收集的全面性、準確性及與隸定字的復雜關系。如網頁版的香港漢達文庫中的古文字數據庫，其來源于大量出土的甲骨卜辭和竹簡絹帛，上面收錄了大量古文字。中國臺灣“中央研究院”漢字構型資料庫、日本文字鏡研究所的“今昔文字鏡”也在古文字字形回溯原文獻上做出了很大成果。在我國，古文字處理系統成果較突出的是華東師范大學（2003）研制的《商周金文數字化處理系統》和《戰國楚文字數字化處理系統》，均可實現對大量文獻本體字的檢索，但缺點是需要掌握其設計的特殊輸入法，且只能在指定程序上查看。隨著技術的換代、考古的突破以及古文字考釋上的發展，系統不適配的缺點也逐漸凸顯，已難以滿足古文字在計算機上的使用需求。以實用聞名，傳播較廣的是北師大說文小篆字庫（1995），其按《說文解字》小篆順序排列字符，能直接安裝在計算機上運用，除了少數小篆字形，大多能通過現有輸入法在電腦上顯示。該字庫的成功雖說離不開說文小篆自身的優勢，但也能為我們自主設計靈活實用的字庫產生啟示。

古文字字體文件的制作

技術基礎——字符編碼

編碼問題是計算機識別和顯示文字的關鍵要素。對字符進行編碼是使字符能夠在計算機中存儲和識別的一種手段。ASCII碼，是計算機最早也是目前最通用的編碼標準。計算機中的字符編碼具有唯一性，即字符集中的字符只有唯一的編碼數字。

1980年我國發布GB2312-80字符集，中文自此打破西方壟斷進入計算機。GB2312有7573字符，包括6763個簡體漢字字符，但無法處理繁體字和罕見字。1983年中國臺灣發布BIG5繁體字字符集。1995年我國又發布GBK，對GB2312字符集進行擴展，將BIG5字符集的13060個繁體漢字納入其中，共計22014字符。

隨著經濟的發展，各國交流愈加緊密。為了使各國的字符集能在同一臺電腦上使用，Unicode聯盟機構設計出了Unicode編碼標準。從1991年Unicode1.1到2021年的Unicode14.0，Unicode不斷擴大其字符范圍。因其“一字一碼”和“擁有幾近無盡編碼碼位”的特點，Unicode還被稱為“單一碼”“萬國碼”。將Unicode編碼作為古文字字庫的編碼標準，原因有二。一方面，古文字字庫必須使用標準字符集，這是字庫成果得到國際認可的重要前提。Unicode編碼只定義字符不定義字形，為建立中文古文字字庫提供了技術上的可能。另一方面，Unicode編碼有17個平面，各個國家常用的字符僅占用第0號平面的部分碼位。其私人使用區（Private Use Area）擁有13萬多的字符碼位可供用戶按需為集外字符分配，這為建立可伸縮的古文字字庫創造了空間上的可能。

古文字字體文件制作模式

市面上能夠編輯字形的軟件很多，我們選擇FontCreator來設計古文字字體文件。首先是因為該軟件采用Unicode字符編碼標準，其次通過該軟件可修改字符編碼對應的字符字形，以實現字符映射的自定義。在導入字形圖像后，軟件可利用直線和二次B樣條曲線擬合算法，將其點陣圖形抽成為十分接近原稿的字形曲線輪廓。簡單編輯字形細節和調整字形位置后，即可直接安裝到Windows系統上使用。

以下，我們將基于FontCreator11.5專業版的字體文件制作過程進行簡要描述：

1.選取字形模板，確定字符碼位

將古文字材料通過技術手段保存為數字圖像格式（如PNG格式等）并備用之前，我們還應關注所選取的古文字材料的“還原性”問題。手工摹寫的古文字字匯遠沒有原始拓片上的字形還原度高，通過掃描原始拓片，將其作為字模是古文字字庫字形準確性的前提。

在新建字體文件前，可將各個古文字對應的碼位進行集中記錄，字形圖像也應按照相應順序進行儲存。

2.設置字形編輯環境

第一步：“新建”造字項目，命名字體文件，規定字體樣式，設置字形輪廓首選格式（選擇TrueType字體的二次曲線）。

第二步：設置字形設計的環境

①設置字符示例。打開工具欄中的“視圖”選項，勾選上“在空字形中顯示樣本”，將“單元中字體”設置為“微軟雅黑UI”。本步驟并非必要，只是為了提高造字中必要字符的映射準確。

②設置輔助線，限定字符大小及區間范圍。打開“工具欄”中的輔助線選項，設置顯示輔助線與否、輔助線虛實顏色及輔助線類型位置。我們通常設定字符范圍為（2048*2048單位），新建兩條輔助線：水平Y=2048，垂直X=2048。

在利用FontCreator驗證程序驗證字體文件或者安裝字體文件預覽時，如發現多個字符疊在一起，或者有“剃頭字”“剃尾字”的存在，這是因為字符間距沒有設計好，需要重新設置字形環境。

3.導入字形模板圖像，編輯字形

點擊插入字符，給字體文件添加指定的字符碼位。這里有添加Unicode集內碼位和集外碼位兩種情況。

添加集內碼位，即該古文字字形的隸定字存在于Unicode字符集內。如，在“查找字符”中輸入“犭”，點擊“下一步”，便可顯示“犭”所在的Unicode區塊及其字符編碼“$72AD”。點擊“添加”，即可添加該碼位到字體文件。

添加集外碼位，即該古文字字形的隸定字不存在于Unicode字符集內或并無隸定字。這種情況下，就要從Unicode私用區內選取碼位。具體操作是：左側Unicode導航窗口→PUA→添加字符/補充完整字符集。

添加好字符碼位后，則對該碼位進行自定義字形映射。進入字形概述窗口，右鍵選擇“插入圖像”，FontCreator能夠自動將源圖像轉化為曲線輪廓。這里有幾個值需要隨源圖片文件的分辨率進行調整：圖像規格、閥值、平滑濾波、導入模式等。導入成功后，在字形編輯窗口根據輔助線調整字形細節和位置。

4.安裝和使用字體文件

在造字工程完成之前，可將項目暫存為fcp文件。全部完成后，必須先導出“TrueType/OpenType（*ttf）”格式的字體文件。安裝方法有兩種：一是通過FontCreator中的安裝程序，直接安裝在Windows上；二是退出程序后，找到計算機中導出的字體文件所在的位置，手動安裝。字體文件導出前必須要對字體文件屬性進行設置：

①在字體菜單欄中選擇字體屬性中的范圍；

②設置Unicode字符集范圍，根據字體文件內的字符所在的碼位區來選擇；

③編輯代碼頁字符范圍：勾選（中文：簡體字——中

華人民共和國和新加坡（936））；

④取消勾選“導出字體時自動更新字符范圍”，點擊“確認”。

漢字作為一種歷史悠久、發展漫長的語素——音節文字，從古至今形成的字形數量是其他單純表音文字難以匹敵的。因此，如此龐大復雜的文字系統如何在現有的計算機規則框架中得到最大程度的還原一直困擾著我們。Unicode所提供的大量碼位和FontCreator賦予所有人自由編輯碼位所對應字形的權利讓我們發現了在現有技術條件下快速且靈活地實現古文字數字化的方法。

本文的字庫制作模式簡單明了，可操作性強，極大地降低了添加制作古文字字形的成本，提高了個人創建使用字形和字庫的自由度，具有普適性意義。所制作的字體文件擁有占用內存小、可任意擴展、應用靈活等優點。根據古文字字體文件的制作過程和實際使用體驗，我們還認識到，在非通用情況下不斷地擴充字符集，反而尾大不掉。一般情況下，古文字字庫應講求一定的全面性。但在實際運用中，由于現有輸入法的限制，數據龐大的“碼位輸入”對照表反而會對字符輸入造成不便。如此看來，在現有技術下，我們追求的古文字字庫的全面性必須根據具體的研究課題而定。如上所說，通過切換字庫的方式實現不同文字形式的同屏展示反而更為便利。

在未來，為了更好地整合字形資源，實現古文字徹底的數字化，需要有三方的努力：首先，需要有一個科學統一的字符編碼集合，其次是滿足全文檢索要求的漢字字庫，最后是大眾可普遍接受的輸入法，三者缺一不可。

參考文獻

[1]Unicode協會.Unicode 5.0標準[M].孫偉峰，李德龍，譯.北京：清華大學出版社，2010.

[2]劉根輝，張曉霞.古文字字形整理與通用古文字字庫開發研究[J].古漢語研究，2016（03）：51-56.

[3]尉遲治平，湯勤.論中文字符集、字庫及輸入法的研制[J].語言研究，2006（03）：63-66.

[4]尉遲治平.再論中文漢字字符集[J].語言研究，2020，40（01）：78-89.

[5]張再興.古文字字庫建設的幾個問題[J].中文信息學報，2003（06）：60-65.

【課題項目】本文系西南民族大學省級大學生創新訓練項目“字符編碼技術在新文科古漢語課程中的應用——基于FontCreator的古文字字體文件制作”（項目編號：S201110656069）的階段性成果。

文化產業2022年8期

文化產業的其它文章: 工匠精神培養視角下的材料與空間構成課程教學研究; 基于行為心理角度的大學校園公共座椅設計研究; 融合與優化：高校藝術碩士（美術學）寫意人物畫教學改革研究; 基于OBE理念的旅游類應用型本科課程體系設計研究; 校園學風建設對高職學生的重要性; 家庭教育中如何培養孩子的音樂素養