字料庫中構件訛混規則庫建設相關問題芻議

2022-07-13 03:34:00林可欣柳建鈺

遼寧工業大學學報(社會科學版) 2022年3期

關鍵詞：規則

林可欣，柳建鈺

本刊核心層次論文

字料庫中構件訛混規則庫建設相關問題芻議

林可欣，柳建鈺

(渤海大學文學院，遼寧錦州 121013)

字料庫是漢字學與計算機科學交叉下的產物，建設字料庫構件訛混規則庫，不僅有助于有效地整理漢字訛混現象，也有利于字書字料庫的進一步完善。訛混規則庫是構建字料庫標注體系的基本內容之一。構件訛混規則庫建設過程包括搜集構件訛混相關研究成果、提取構件訛混規則、規則庫界面設計、將規則加工入庫等步驟。

字書字料庫；訛混；構件訛混規則庫

隨著信息科技及網絡技術的飛速發展，計算機科學與傳統學科交叉后衍生出許多新學科和新事物，語料庫與字料庫便是計算機科學與語言文字學交叉后的兩個產物。在字料庫理論產生之前，基于語料庫的各種研究已經取得了十分豐碩的成果，字料庫是在此背景下由語料庫類推出來的新概念，它的出現為當前漢字學研究提供了一種全新的思路和一個便利的平臺。

字料庫從不同角度出發可以劃分為不同類型，從字料存在的形式著眼，字料庫可分為“字書字料庫”和“語篇字料庫”兩種類型[1]25。其中“字書字料庫”是以歷代字書真實文本為基礎建立起的漢字數據信息庫，而規則庫則是字書字料庫的重要組成部分。訛混作為一種非常常見的字形混同現象，是構建字料庫標注規則和基于字料庫進行疑難字考辨工作的重要研究內容。本文擬以渤海大學CCFD字書字料庫作為研究平臺，對建設構件訛混規則庫的相關問題進行初步探討，以便為將來標注規則的建立及疑難字考辨工作提供有益借鑒。

一、基本概念解析

本節將主要對文中涉及的四個基本概念予以簡單界定，分別是字料庫、構件、訛混以及規則庫。

（一）字料庫

“字料庫”概念由李國英和周曉文二位先生首次提出，它指的是“以文字的整理和文字學的研究為目標，按照語言學和文字學的原則，收集實際使用中能夠代表特定文字或文字變體的真實出現過的文字書寫形態，運用計算機技術建成的具有一定規模的大型電子文字資源庫”[2]。字書字料庫是從字料存在形式角度劃分出的一種類型，它是“在大規模歷代字書文本基礎上生成的真實的漢字刻寫形態的有序集合”[1]22。簡而言之，字書字料庫是以歷代字書為基礎建立起來的漢字信息資源庫，能為漢字學及其他相關學科研究提供高度結構化的字書漢字數據信息。

（二）構件

構件又稱部件，最初從計算機術語中引用而來。蘇培成先生認為，“部件是由筆畫組成的，用于漢字外部結構分析的構字單位，它大于或等于筆畫，小于或等于整字。”[3]王寧先生在《漢字構形學導論》中指出：“漢字的構形單位是構件（普及領域也稱部件），當一個形體被用來構造其他的字，成為所構字的一部分時，我們稱之為所構字的構件。”[4]由此可見，構件是漢字構形最基礎并且不可或缺的一種單位。

拆分漢字時，漢字的構件是有層級的，我們可以將拆分后的構件分為基礎構件（形素）和直接構件兩種。直接構件指的是直接構成全字的構件；基礎構件是指將漢字拆分到不能再拆但同時能體現一定構字意圖的構件。二者主要區別在于所處層級不同，基礎構件必須是最小的構件單位。直接構件和基礎構件也會重合，當直接構件不能再繼續向下拆分時，則該直接構件兼有基礎構件和直接構件雙重身份。因此二者不能對立。本文所要建立的構件訛混規則庫中的構件以直接構件為基礎，兼及用為基礎構件的間接構件。

（三）訛混

漢字演變過程中既有常規的形體變化，也有一些非常規的變化，訛混就是其中一種。劉釗先生在《古文字構形學》中說：“訛混是指一個構形因素與另一個與其形體相近的構形因素之間產生的混用現象。發生訛混的構形因素既可以是單獨存在的字，也可以是構成字的偏旁。”[5]139劉釗先生從構形學角度對訛混進行闡釋，并且明確指出產生訛混的兩個構形因素的形體一定要相近，倘若形體差距很大，就不屬于訛混的范圍。

造成漢字形體訛混的原因可以大致分為兩方面，一方面是漢字自身原因，另一方面是漢字的外部原因。產生訛混的構形因素主要與整字和一級構件（即直接構件）密切相關，但也有不少訛混發生在間接構件層面。

（四）規則庫

規則庫是指用于描述相應領域內知識的集合。構件訛混規則庫是以漢字構形學理論為指導，以字書字料庫作為載體，將前人訛混研究成果中的漢字構件訛混規則提取出來后轉換成形式化的計算機數據，并將這些數據匯集在一起，集合存儲為數據信息庫，可以為字料庫相關信息的自動填充以及當前和未來疑難字考辨工作提供形式化的依據。

二、字料庫中構件訛混規則庫建設的意義

字料庫中構件訛混規則庫的建設具有十分重要的意義，我們可以從以下兩個方面來進行分析。

（一）構建字料庫標注體系的基本內容

字料標注在字料庫建設過程中具有舉足輕重的地位。字書字料標注就是“把字書字料所具有的漢字學、字典學及其他重要信息按照既定原則一一標注出來。”[1]153直接將字書采集入庫后的字料稱為“生字料”，這些字料不能直接堆砌在庫中，而是要對他們進行標注加工，使其成為“熟字料”。熟字料相比生字料來說具有更大的研究及利用價值，因此字料標注的質量高低很大程度上也決定了字料庫研究價值的大小。簡而言之，字書字料庫中的生字料就像是在廚師面前未經烹飪的食材，沒有這些食材做不成菜肴，但有了它不等于有了菜肴。字料標注的過程就是把食材做成可口菜肴的過程。字料庫的標注主要包括基本屬性信息標注、漢字構形信息標注、漢字字際關系信息標注、漢字多模態信息標注等內容[1]228。構件訛混是漢字演變中非常常見的一種現象，對構件訛混情況的標注也貫穿于字料庫的整個標注工作中，因此構件訛混規則庫是構建字料庫標注體系的一個基本內容。

構件訛混規則庫的建設不僅是構建字料庫標注體系的基本內容，還是提高字料庫標注效率的重要工具。而字際關系標注又是字書字料庫標注的重點，以異體關系標注舉例。在異體關系基本信息界面中，根據異寫關系的分類原則，標注者將異寫關系分為“筆畫異寫字”和“構件異寫字”兩種情況，由于構件訛混是產生異寫字的一個重要原因，因此“構件異寫字”下劃分的六小類中，“構件形近混同”便是其中一種。構件訛混規則作為一種客觀的標注依據，對于構件異寫類型的標注具有較強的輔助作用，有利于實現字料庫人工標注與機器自動化標注的結合。我們可以利用規則庫來開發計算機輔助人工標注軟件，由標注者決定應該標注的屬性字段，由計算機根據字料具體情況及庫中相應規則自動填入相應內容。或者開發一個計算機標注檢查程序，自動檢查已標注的屬性內容是否符合既定規則，是否滿足一致性的要求。只有將人工標注和機器標注有機結合，利用好構件訛混規則庫中提供的各種訛混規則，才能在標注的時候既能保證標注的快速高效，又能保證字料標注的正確性和一致性。

（二）基于字料庫進行疑難字考辨工作的重要工具

疑難字考辨除了需要大量文獻的支撐外，還需要考辨者熟悉漢字構件訛混規則。利用漢字構件訛混規則是疑難字考辨的主要方法之一，這種方法主要是通過構件訛混規則來對字形相似的疑難字進行合理類推，有助于發現和證實某些構件具有共性的訛變軌跡。以前的考辨工作需要人工查詢所需信息，不僅會導致效率低下，還會影響結論的科學性。而借助字料庫構件訛混規則庫可以在一定程度上解決這一問題。在這方面，我們已經通過實例進行了展示，證明字料庫對字書漢字的考辨工作確實能起到較好的輔助作用[1]295-314。

前輩學者對于漢字構件的通混現象進行過許多分析和總結，并從中發現了大量的構件訛混規則，比如楊寶忠先生在《疑難字考釋與研究》中就總結出將近五百條的俗書構件訛混規則，不過這些規則都是散見于具體疑難字的考辨過程中。我們在前輩學者考辨成果的基礎上整理相關規則，并將這些規則進行加工后錄入字料庫，就可以形成構件訛混規則庫。構件訛混規則庫的建設是開展基于字料庫的漢字疑難字考辨工作的前提，規則庫建設的質量，如規則數量的多寡、標注程度的深淺等都會直接影響考辨工作的結果。構件訛混規則庫建成后，可以設置關鍵詞搜索功能，這能使我們在海量數據中方便、快速、準確地檢索到參考案例，無疑會進一步提高漢字疑難字考辨研究工作的效率和研究結果的信度。

三、具體操作流程

構件訛混規則庫的建設共包含四項步驟。第一步，需要搜集構件訛混相關研究成果；第二步，在第一步的基礎上進行訛混規則的提取；第三步，設計規則庫界面的布局及字段；最后將規則加工入庫。以下分述之。

（一）搜集構件訛混相關研究成果

這是第一步工作，將為后期規則加工及入庫做好資料準備。我們將力爭窮盡性搜集前人考辨類著作、論文及其他相關成果，以便將其中的字頭、關系字、訛變規則等錄入庫中，字頭編號為IHZKS（該編號下擬專門綜錄古今學者漢字考釋結果）。目前搜集到的專著包括楊寶忠《疑難字考釋與研究》、楊寶忠《疑難字續考》、楊寶忠《疑難字三考》、張涌泉《漢語俗字叢考》(修訂版)、鄭賢章《漢文佛典疑難俗字匯釋與研究》、鄭賢章《〈新集藏經音義隨函錄〉研究》、鄭賢章《〈郭迻經音〉研究》、鄧福祿、韓小荊《字典考正》、韓小荊《〈可洪音義〉研究——以文字為中心》、柳建鈺《〈類篇〉新收字考辨與研究》、熊加全《〈新修玉篇〉疑難字考釋》、熊加全《〈新修玉篇〉研究》、熊加全《〈玉篇〉疑難字考釋與研究》等。限于時間和水平，在資料的準備方面必然存在不少遺漏，后期還會陸續補充。

（二）提取構件訛混規則

建立構件訛混規則庫時，我們將在漢字構形學理論的基礎上，直接從前人疑難字考辨成果中提取構件訛混規則。例如“俗書耳旁、身旁形近相亂”“草書身旁、方旁形近相亂”“俗書舟旁與古文示相亂”等。由于這些規則都是散見于具體疑難字的考辨過程中，因此目前只能通過人工進行提取。

（三）規則庫界面設計

規則庫最終要形成一個單獨的界面顯示，因此我們首先要設計規則庫界面的字段，具體包括原始構件、訛混構件列表、訛混構件、訛混原因、訛混途徑、訛混類型、參證文獻等共七個字段，下面對這些字段進行詳細介紹。

1. 原始構件

原始構件是與訛混構件相對的一個概念，是指將某一字頭拆分后，具有訛混現象的直接構件或間接構件。此處內容除了需要進行人工標注外，還可以以“字頭構形信息”界面中“依理拆分”下的拆分結果為依據，通過計算機對該字段進行自動關聯和填充。

2. 訛混構件列表

3. 訛混構件

該字段下需要填寫與原始構件具有訛混關系的構件。

4. 訛混原因

訛混作為一種非常規的漢字演變現象，主要來自于兩方面原因：一方面是漢字內部原因，一方面是漢字外部原因。這兩種原因又可以繼續細分，與下面的訛混途徑關聯。

5. 訛混途徑

該字段與訛混原因自動關聯。由于訛混現象本身非常復雜，因此，歷來學者對于構件訛混具體原因的劃分很難完全達成共識，加之某些構件的訛混也不僅僅是因為某一個原因產生的，可能是多個原因共同作用的結果。鑒于此，我們參考歷代學者探討訛混原因的相關結論，將訛混原因主要劃分為2大類11小類，如圖1所示。

圖1 構件訛混原因示意圖

漢字內部原因主要包括構件形近、變形音化、變形義化、簡化、繁化、類化、不同書體間影響以及其他原因。

（1）構件形近

形體相近是發生訛混的主要基礎。構件是由筆畫組成的漢字構形基本單位，但筆畫數是有限的，通過有限的筆畫組成數量眾多的構件，難免會使得有的構件之間形體差異很小。如果漢字使用者在書寫過程中沒有注意它們之間的區別，往往會忽略這種細微差別而出現訛混現象。因構件形近而產生訛混的構件數量最多。訛混途徑在默認狀態下為“構件形近”。

（2）變形音化

漢字屬于表意文字體系，最早產生的一批字是用表意法或標示法創造的。但隨著文字使用范圍的不斷擴大，漢字系統開始走上了形聲化的道路。在這種趨勢影響下，一些漢字中的表意構件則會被改成與字音更加接近且與之形體具有一定相似性的表音構件。如“恥”本來是從“心”“耳”聲，后來“耳”與“恥”字的讀音逐漸變得不同。東漢時期“恥”字寫作“恥”，就是由于寫手在書寫時不知道“耳”是聲旁，再加上漢隸中“心”和“止”形體十分近似，最終將“心”改寫成“止”。

（3）變形義化

“漢字是表意文字，因此形義統一一直是漢字使用者認知漢字的定式模式。”[6]變形義化指的是為了使漢字表義更加明確，書寫者在書寫時用形體相近且更能體現漢字構形理據的構件來替換原來的構件。該類訛變的發生有時候還與字義的引申以及假借相關，引申和假借后會使該字產生除本義之外的新意義，于是書寫者有意識地用與新意義更為貼切且字形具有一定相似性的構件替代原構件，從而產生訛變。如“青”字金文本從“生”從“井”，義為草木生長時的青色。后來為使其表顏色之義更加明顯，且“井”與“丹”形近，便將“井”訛作“丹”。

（4）簡化

簡化是漢字字形演變的總趨勢，但并非所有的簡化都會使漢字形體發生訛變。當書寫者在漢字簡易律的驅使下，書寫時往往會對漢字構形單位進行無意的簡省，導致筆勢上的細微差異，積非成是，進而致使訛混現象的產生。簡化主要包括構件粘合、多筆連為一筆、誤漏筆畫及簡省構件等方式。簡化后的構件可能會與其他構件形體相近，從而產生訛混現象。俗書從“犮”得聲之字多省去點筆，與“友”相混；再如“前”字上半部分原本從“止”，簡化之后與“?”訛混。

（5）繁化

繁化可以分為兩種：一種是有規律的繁化，如書寫者處于某種書寫習慣而添加筆畫等；另一種則是無規律的繁化，往往使得漢字在表義或者表音方面具有一定障礙。因此，繁化在一定程度上會導致訛混的產生。如俗書常在末筆為橫劃的字下贅加“八”。“目”下贅加“八”后訛為“貝”，與“貝”混同。

（6）類化

（7）不同書體的影響

1）隸書

漢代時隸變將漢字字體由篆書轉向了隸書，漢字趨于線條化和筆畫化，變圓轉的線條為平直、方折的筆畫。隸變后原來不同的構件在形體上變得相似，從而造成一定程度上的混同。除此之外，裘錫圭先生在《文字學概要》中指出：“隸書為求簡便，把某些生僻的或筆畫較多的偏旁改成形狀相近，筆畫較少，又比較常見的偏旁。”[7]

2）草書

草書最早就是為了書寫便捷而產生的一種字體，主要通過省、簡、連三種方式來書寫漢字，引起構件訛混的則主要是簡和連。簡指的是用較為簡單的構件代替原先較為復雜的構件；連指的是將原本一筆一筆書寫的筆畫連到一起。

3）行書

行書出現于東漢晚期，其字體介于楷書和草書二者之間。后人將行書轉寫為楷書時，也會產生一些構件訛混情況。

4）楷書

楷書雖然字形方正，書寫工整，但是楷書中還是存在許多形體相似的構件，使用者在手寫時難免會產生混淆。除此之外，楷書由隸書發展而來，其中也繼承了大量隸書中的訛混構件。

漢字外部原因主要包括使用者原因、書寫原因以及其他原因。

（1）使用者原因

使用者因素是推動漢字發展變化十分重要的因素之一。使用者個人對于漢字形義關系的誤解、個人的書寫習慣、使用者文化程度的不同以及追求書寫速度的心理都會在一定程度上導致訛混現象產生。

（2）書寫原因

漢字在書寫過程中，書寫材料以及書寫工具等因素都可能會導致訛混的產生。比如刻在兵器上的銘文，由于兵器質地較為堅硬，為了刻制方便，往往會將一些圓轉彎曲的線條變成直線，這樣便導致訛混現象產生。

由于多種條件的限制，在字段的設置方面還是存在一定的問題，最主要的問題就是字段屬性值不能完整羅列，有些字段的屬性值數量較多，假如全部羅列出來的話會在一定程度上影響字料庫開發進度以及檢索效率，所以我們只羅列最為常用的幾個字段，剩下的則使用“其他原因”表示。但是在使用“其他原因”這個字段時，也會在一定程度上影響檢索精度，在以后的標注過程中會根據實際情況對其進行一定的修改。

6. 訛混類型

訛混類型主要是指訛混的方向。訛混方向可以分為單向訛混和雙向訛混，單向訛混指的是發生訛混的兩個構件A與B，A可以訛混成B，B不可以訛混成A。雙向訛混指的是構件A既可以訛混成構件B，構件B也可以訛混成構件A。

7. 訛混漢字舉例

這一部分主要用來記錄與該規則相關的文獻例證及具體出處。

此外，在構件訛混規則庫的標注實踐中，我們發現有的例證內部可能會存在個別書體的字圖，因而難以將其錄入。為解決這一問題，我們在規則庫界面另增加了補充圖片的區域，以便將這類字圖通過圖片形式錄入。

（四）將規則加工入庫

圖2 構件訛混規則庫加工示意圖

四、結語

以上，我們主要從概念、意義以及方法三方面對字書字料庫構件訛混規則庫的建設問題進行了初步探討。我們認為，構件訛混規則庫的建立是構建字料庫標注規則的基本內容，同時也是疑難字考辨工作的重要工具。在建設的具體方法方面，主要步驟包括搜集構件訛混相關研究成果、提取構件訛混規則、規則庫界面設計、將規則加工入庫等四步。構件訛混規則庫的字段包括原始構件、訛混構件列表、訛混構件、訛混原因、訛混途徑、訛混類型、參證文獻、訛混漢字舉例等八個方面。雖然目前構件訛混規則庫的建設還處于初級階段，其中還有一些不足之處，比如入庫的規則數量還比較少，規則庫的結構尚需進一步優化等等。但相信隨著今后的不斷補充和完善，構件訛混規則庫會更加完備和科學，也將會在推動字書字料庫建設與疑難字考辨方面發揮更大的作用。

[1] 柳建鈺. 字書字料庫的理論、實踐與應用[M]. 北京: 中華書局, 2021.

[2] 李國英, 周曉文. 字料庫建設的必要性與可行性[J]. 北京師范大學學報(社會科學版), 2009(5): 48-53.

[3] 蘇培成. 現代漢字學綱要[M]. 北京: 商務印書館, 2014: 63.

[4] 王寧. 漢字構形學導論[M]. 北京: 商務印書館, 2008: 97.

[5] 劉釗. 古文字構形學[M]. 福州: 福建人民出版社, 2011.

[6] 吳文文, 林志強. 簡析漢碑文字中的訛混現象[J]. 福建師范大學學報(哲學社會科學版), 2009(2): 105-107.

[7] 裘錫圭. 文字學概要[M]. 北京: 商務印書館, 2013: 89.

H31

1674-327X (2022)03-0062-05

10.15916/j.issn1674-327x.2022.03.015

2021-11-06

國家社會科學基金重點項目(20AYY018)；國家社會科學基金重大項目(21&ZD296)(15ZDB104)

林可欣(1998-)，女，遼寧長海人，碩士生。

柳建鈺(1981-)，男，寧夏中衛人，教授，博士。

(責任編輯：葉景林)